Компьютер научили определять «пьяные» твиты

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Ученые создали систему машинного обучения, которая научилась находить «пьяные» записи в твиттере, и вычислять по их тексту, где в данный момент пользователи пьют.  Об этом в четверг, 17 марта, сообщает N+1.

В течение года ученые из Рочестерского университета собирали в Нью-Йорке и округе Монро твиты с геотегами. Среди них исследователи выбрали твиты, в которых упоминается алкоголь и относящиеся к нему по контексту слова, такие как «вечеринка», «пиво», «пьяный» и другие. После этого отобранные посты отфильтровали, оставив только те, которые имели непосредственное отношение к употреблению алкоголя.

Твиты отбирались по трем категориям: делает ли твит ссылки на употребление алкоголя, если да, то относится ли этот твит непосредственно к автору поста, и если да, вероятно ли то, что пост был написан во время и в месте распития спиртных напитков. Всего было проанализировано около 11 тысяч твитов. На основе этих данных ученые обучили машину опорных векторов (SVM) распознавать «пьяные» посты по содержанию.

Затем исследователи решили определить, где находятся пользователи во время написания своих твитов - дома или, например, в баре. Для этого ученые скомбинировали несколько методов, использующих геолокацию в твиттере. Так, они учитывали, откуда пользователь пишет чаще всего, откуда был отправлен последний пост за день и где находится место, откуда пользователь обычно пишет между часом ночи и шестью утра.

Но этих данных оказалось недостаточно, чтобы точно определить, где пишутся твиты. Поэтому ученые составили список слов и фраз, которые бы могли точно указывать на то, что твит был отправлен пользователем,  когда он находился дома. В список «домашних» признаков попали такие фразы как «Ура, я дома!» и слова «ванна», «телевизор» или «диван».

После этого твиты были отфильтрованы по геолокации, а сотрудники Amazon Mechanical Turk определили, откуда были написаны посты. На основе этих данных ученые обучили SVM распозновать «пьяные» твиты. В итоге она смогла определить, откуда написаны твиты, с точной до 70%. Кроме того, исследователям удалось составить карту наиболее популярных мест употребления алкоголя.

В будущем ученые планируют научить систему определять по твитам возраст, пол, этническую принадлежность и другие характеристики пользователей. 


Источник: tvrain.ru

Комментарии: