Хоккей, видеоигры и местоимения: как ученые анализируют комментаторов в интернете

Соцсети Автор: Яна Жежер | 21 декабря 2017, 18:50

«Скажи мне, какие записи в интернете ты комментируешь, и я скажу, кто ты» — парадигма третьего тысячелетия. Ученые проанализировали данные сайта Reddit и выяснили интересные закономерности в употреблении пользователями различных слов. Оказалось, что хоккейные фанаты чаще используют местоимения мужского рода, а любители поговорить о политике обладают самым обширным словарным запасом.

Кто ты, Комментатор?

С момента изобретения социальных сетей пользователи написали миллиарды постов и комментариев. Такое количество данных не могло остаться незамеченным, и многие исследования направлены на то, чтобы понять, что за люди находятся по ту сторону мониторов персональных компьютеров.

Анализ происходит в двух направлениях. С одной стороны, данные социальных сетей можно изучать методами обработки естественного языка (англ. Natural Language Processing) для определения темы разговора и демографических признаков пользователей.

Второе направление, психологическое, посвящено изучению душевного состояния пользователей методами психологии личности, которая позволяет определить психотип комментатора по употреблению им различных слов и демографическим признакам, таким как возраст и пол. Отдельная область, анализ настроения, позволяет выделить эмоциональный контекст текста. Существуют исследования по предсказанию динамического поведения групп пользователей и даже по определению патологий, например душевных болезней или болезней сердца.

Активные комментаторы направляются на исследование

Ученые Кембриджского университета задались целью объединить два подхода и установить связь между лингвистическими особенностями речи конкретного человека и его личностными характеристиками.

В анализе использовались данные сайта Reddit: были отобраны полторы тысячи пользователей, которые написали не менее пятидесяти постов или комментариев в январе 2015 года.

Пример вектора признаков для комментатора А: он в своих комментариях использовал слово «лед» 7 раз, слово «она» — 3 раза, а слово «кошка» — всего лишь один раз.

У кого больше словарный запас?

Для каждого пользователя был создан «словарь»: список всех употребляемых ими слов и частота их употебления. При обработке были убраны все знаки препинания, специфические символы форматирования Reddit (например, звездочки, которые делают текст жирным), а также слова, которые несут в себе исключительно грамматическую функцию и не влияют на содержание текста: в компьютерной лингвистике они называются «стоп-словами». К ним относятся, в частности, «i», «just», «said», «too» и многие другие.

Путем объединения словарей всех пользователей для каждого испытуемого был сформирован многомерный «вектор признаков», в котором каждое измерение соответствует конкретному слову, а длина этого вектора — частоте его употребления. Если некое слово использовал только один пользователь, то для других длина вектора признаков в данном измерении будет просто равна нулю.

Пример многомерного шкалирования, в котором каждая точка обозначает пользователя, а ее цвет каждой — насколько часто данный пользователь употребляет местоимения 1 лица множественного числа («мы», «вы», «наш»).

Зная свое место

Затем для каждой пары пользователей было рассчитано «расстояние» — величина, которая показывает, насколько сильно словарь одного юзера отличается от словаря другого. Получившаяся таблица размером 1500 на 1500, в которой ячейка с координатами a по горизонтали и b по вертикали означает «расстояние между словарями пользователей a и b» была подвергнута процедуре многомерного шкалирования.

Данная процедура, исходя из «расстояния» между словарями данного пользователя и всех остальных пользователей, определяет для него точку в некотором новом двумерном пространстве. Чем дальше расположены друг от друга точки двух юзеров, тем больше отличается их лексика. Таким образом, данные удалось наглядно визуализировать по различным тематикам и наборам слов: каждая точка на графике означает пользователя, и его положение больше не меняется. При этом цвет точки определяет частоту употребления им определенного набора слов.

Юзер — ненастоящий!

Визуализация при помощи многомерного шкалирования сразу же позволила отделить ботов от реальных людей — их положение сильно выбивалось из общей картины. Проверка подтвердила, что эти юзеры действительно «искусственные», и из общего набора они были исключены. Таким образом в анализе в действительности было задействовано только 1462 пользователя.

Частота употребления пользователями местоимений. На каждом графике точка обозначает пользователя, ее цвет – частоту употребления данной группы слов. А: местоимения третьего лица мужского рода («он», «его»). B: местоимения первого лица множественного числа («мы», «наши», «собой»). С: местоимения первого лица единственного числа («меня», «я»). D: местоимения второго лица единственного числа («ты», «вы»). E: местоимения третьего лица женского рода («она», «её»). F: для сравнения – противительные союзы («но», «однако», «хотя»).

Вы какое лицо предпочитаете?

Для изучения пользователей в уменьшенном числе измерений были рассчитаны энтропия словарей, то есть разнообразие употребляемых слов, количество уникальных слов и процентное соотношение местоимений в зависимости от рода и числа по отношению к полному размеру словаря.

Была исследована частота употребления пользователями различных местоимений — признак, который может использоваться для анализа типа личности.

Пользователи в левой и нижней областях чаще используются местоимения третьего лица мужского рода («он», «его», «себя»). Слева внизу есть тенденция к употреблению местоимений первого лица множественного числа («мы», «наши», «собой»). Посередине и слева вверху чаще используются местоимения первого лица единственного числа («меня», «я»). В верхней области пользователи употребляют местоимения второго лица («ты», «вы»). При этом практически не используются местоимения женского рода — все случаи также находятся вверху: это объясняется тем, что сайт Reddit все-таки больше популярен среди мужчин.

Существует и ряд созависимостей в использовании местоимений — среди любителей местоимений третьего лица мужского рода находятся практически все пользователи, употребляющие местоимения первого лица множественного числа. А то небольшое количество использующих в своей речи местоимения женского рода входит в число употребляющих местоимения второго лица. Словари любителей местоимений третьего лица мужского рода и первого лица множественного числа сильно отличаются от вокабуляров часто произносящих местоимения второго лица единственного числа и женского рода.

Частота разговоров на заданные темы. На каждом графике точка обозначает пользователя, ее цвет – частоту употребления слов данной тематики. А: хоккей, В: видеоигры, С: глобальная политика, D: тема не определяется однозначно.

Любители поговорить о спорте и политике

Чтобы определить темы комментариев и постов, было применено латентное размещение Дирихле. Данный метод предполагает, что словарь каждого пользователя случайным образом составлен из наборов слов, соответствующих различным темам. При этом одно слово может входить в разные темы, и алгоритм пытается определить, к каким сюжетам наиболее склонен пользователь в своих дискуссиях.

Всего было создано 100 тем, каждая из которых состояла из сорока слов, среди них:

«Хоккей»: «игра», «команда», «сезон», «хоккей», «гол», «НХЛ», «клюшка», «шайба», «лед», «игрок», «пенальти», «победа», «толчок», ...

«Видеоигры»: «игра», «урон», «команда», «игрок», «игры», «уровень», «враг», «атаковать», «убивать», «оружие», «защита», «hp», «карта», ...

«Глобальная политика»: «люди», «деньги», «против», «правительство», «мир», «штат», «полиция», «страна», «закон», «власть», «поддержка», …

«На самом деле» (тема не определяется однозначно): «люди», «больше», «некоторые», «когда», «разные», «работать», «проблема», «и так далее», «понимать», «достаточно», «случай», …

Для каждого пользователя было определено процентное содержание каждой темы в его словаре. Тема «хоккей» чаще всего встречается в левой нижней области пространства пользователей, а о видеоиграх говорят юзеры снизу, и иногда — в левой половине. Глобальная политика интересует пользователей в крайней правой части пространства; они же входят в число любителей пространных тем для разговора.

Пользователи, интересующиеся хоккеем и видеоиграми, также чаще всего используют местоимения мужского рода третьего лица — видимо, они чаще всего описывают мужчин, число которых в данных сферах явно превалирует. Они же, кстати, используют и местоимения первого лица, что возможно связано с описанием работы в команде.

Меньше дела

Расчет энтропии словарей пользователей показал, что наиболее обширным словарным запасом обладают любители поговорить о политике и пространных темах — что, наверное, и неудивительно.

Таким образом, ученые из Кембриджского университета показали, что анализ различий в словарях пользователей действительно помогает выявлять зависимости между различными поведенческими чертами. В дальнейшем этот результат может иметь применение в определении личности через поступки и поведение человека, а также для определения других индивидуальных различий.