Хоккей, видеоигры и местоимения: как ученые анализируют комментаторов в интернете
«Скажи мне, какие записи в интернете ты комментируешь, и я скажу, кто ты» — парадигма третьего тысячелетия. Ученые проанализировали данные сайта Reddit и выяснили интересные закономерности в употреблении пользователями различных слов. Оказалось, что хоккейные фанаты чаще используют местоимения мужского рода, а любители поговорить о политике обладают самым обширным словарным запасом.
Кто ты, Комментатор?
С момента изобретения социальных сетей пользователи написали миллиарды постов и комментариев. Такое количество данных не могло остаться незамеченным, и многие исследования направлены на то, чтобы понять, что за люди находятся по ту сторону мониторов персональных компьютеров.
Анализ происходит в двух направлениях. С одной стороны, данные социальных сетей можно изучать методами обработки естественного языка (англ. Natural Language Processing) для определения темы разговора и демографических признаков пользователей.
Второе направление, психологическое, посвящено изучению душевного состояния пользователей методами психологии личности, которая позволяет определить психотип комментатора по употреблению им различных слов и демографическим признакам, таким как возраст и пол. Отдельная область, анализ настроения, позволяет выделить эмоциональный контекст текста. Существуют исследования по предсказанию динамического поведения групп пользователей и даже по определению патологий, например душевных болезней или болезней сердца.
Активные комментаторы направляются на исследование
Ученые Кембриджского университета задались целью объединить два подхода и установить связь между лингвистическими особенностями речи конкретного человека и его личностными характеристиками.
В анализе использовались данные сайта Reddit: были отобраны полторы тысячи пользователей, которые написали не менее пятидесяти постов или комментариев в январе 2015 года.
Пример вектора признаков для комментатора А: он в своих комментариях использовал слово «лед» 7 раз, слово «она» — 3 раза, а слово «кошка» — всего лишь один раз.
У кого больше словарный запас?
Для каждого пользователя был создан «словарь»: список всех употребляемых ими слов и частота их употебления. При обработке были убраны все знаки препинания, специфические символы форматирования Reddit (например, звездочки, которые делают текст жирным), а также слова, которые несут в себе исключительно грамматическую функцию и не влияют на содержание текста: в компьютерной лингвистике они называются «стоп-словами». К ним относятся, в частности, «i», «just», «said», «too» и многие другие.
Путем объединения словарей всех пользователей для каждого испытуемого был сформирован многомерный «вектор признаков», в котором каждое измерение соответствует конкретному слову, а длина этого вектора — частоте его употребления. Если некое слово использовал только один пользователь, то для других длина вектора признаков в данном измерении будет просто равна нулю.
Пример многомерного шкалирования, в котором каждая точка обозначает пользователя, а ее цвет каждой — насколько часто данный пользователь употребляет местоимения 1 лица множественного числа («мы», «вы», «наш»).
Зная свое место
Затем для каждой пары пользователей было рассчитано «расстояние» — величина, которая показывает, насколько сильно словарь одного юзера отличается от словаря другого. Получившаяся таблица размером 1500 на 1500, в которой ячейка с координатами a по горизонтали и b по вертикали означает «расстояние между словарями пользователей a и b» была подвергнута процедуре многомерного шкалирования.
Данная процедура, исходя из «расстояния» между словарями данного пользователя и всех остальных пользователей, определяет для него точку в некотором новом двумерном пространстве. Чем дальше расположены друг от друга точки двух юзеров, тем больше отличается их лексика. Таким образом, данные удалось наглядно визуализировать по различным тематикам и наборам слов: каждая точка на графике означает пользователя, и его положение больше не меняется. При этом цвет точки определяет частоту употребления им определенного набора слов.
Юзер — ненастоящий!
Визуализация при помощи многомерного шкалирования сразу же позволила отделить ботов от реальных людей — их положение сильно выбивалось из общей картины. Проверка подтвердила, что эти юзеры действительно «искусственные», и из общего набора они были исключены. Таким образом в анализе в действительности было задействовано только 1462 пользователя.
Частота употребления пользователями местоимений. На каждом графике точка обозначает пользователя, ее цвет – частоту употребления данной группы слов. А: местоимения третьего лица мужского рода («он», «его»). B: местоимения первого лица множественного числа («мы», «наши», «собой»). С: местоимения первого лица единственного числа («меня», «я»). D: местоимения второго лица единственного числа («ты», «вы»). E: местоимения третьего лица женского рода («она», «её»). F: для сравнения – противительные союзы («но», «однако», «хотя»).
Вы какое лицо предпочитаете?
Для изучения пользователей в уменьшенном числе измерений были рассчитаны энтропия словарей, то есть разнообразие употребляемых слов, количество уникальных слов и процентное соотношение местоимений в зависимости от рода и числа по отношению к полному размеру словаря.
Была исследована частота употребления пользователями различных местоимений — признак, который может использоваться для анализа типа личности.
Пользователи в левой и нижней областях чаще используются местоимения третьего лица мужского рода («он», «его», «себя»). Слева внизу есть тенденция к употреблению местоимений первого лица множественного числа («мы», «наши», «собой»). Посередине и слева вверху чаще используются местоимения первого лица единственного числа («меня», «я»). В верхней области пользователи употребляют местоимения второго лица («ты», «вы»). При этом практически не используются местоимения женского рода — все случаи также находятся вверху: это объясняется тем, что сайт Reddit все-таки больше популярен среди мужчин.
Существует и ряд созависимостей в использовании местоимений — среди любителей местоимений третьего лица мужского рода находятся практически все пользователи, употребляющие местоимения первого лица множественного числа. А то небольшое количество использующих в своей речи местоимения женского рода входит в число употребляющих местоимения второго лица. Словари любителей местоимений третьего лица мужского рода и первого лица множественного числа сильно отличаются от вокабуляров часто произносящих местоимения второго лица единственного числа и женского рода.
Частота разговоров на заданные темы. На каждом графике точка обозначает пользователя, ее цвет – частоту употребления слов данной тематики. А: хоккей, В: видеоигры, С: глобальная политика, D: тема не определяется однозначно.
Любители поговорить о спорте и политике
Чтобы определить темы комментариев и постов, было применено латентное размещение Дирихле. Данный метод предполагает, что словарь каждого пользователя случайным образом составлен из наборов слов, соответствующих различным темам. При этом одно слово может входить в разные темы, и алгоритм пытается определить, к каким сюжетам наиболее склонен пользователь в своих дискуссиях.
Всего было создано 100 тем, каждая из которых состояла из сорока слов, среди них:
«Хоккей»: «игра», «команда», «сезон», «хоккей», «гол», «НХЛ», «клюшка», «шайба», «лед», «игрок», «пенальти», «победа», «толчок», ...
«Видеоигры»: «игра», «урон», «команда», «игрок», «игры», «уровень», «враг», «атаковать», «убивать», «оружие», «защита», «hp», «карта», ...
«Глобальная политика»: «люди», «деньги», «против», «правительство», «мир», «штат», «полиция», «страна», «закон», «власть», «поддержка», …
«На самом деле» (тема не определяется однозначно): «люди», «больше», «некоторые», «когда», «разные», «работать», «проблема», «и так далее», «понимать», «достаточно», «случай», …
Для каждого пользователя было определено процентное содержание каждой темы в его словаре. Тема «хоккей» чаще всего встречается в левой нижней области пространства пользователей, а о видеоиграх говорят юзеры снизу, и иногда — в левой половине. Глобальная политика интересует пользователей в крайней правой части пространства; они же входят в число любителей пространных тем для разговора.
Пользователи, интересующиеся хоккеем и видеоиграми, также чаще всего используют местоимения мужского рода третьего лица — видимо, они чаще всего описывают мужчин, число которых в данных сферах явно превалирует. Они же, кстати, используют и местоимения первого лица, что возможно связано с описанием работы в команде.
Меньше дела
Расчет энтропии словарей пользователей показал, что наиболее обширным словарным запасом обладают любители поговорить о политике и пространных темах — что, наверное, и неудивительно.
Таким образом, ученые из Кембриджского университета показали, что анализ различий в словарях пользователей действительно помогает выявлять зависимости между различными поведенческими чертами. В дальнейшем этот результат может иметь применение в определении личности через поступки и поведение человека, а также для определения других индивидуальных различий.
Комментарии