Что в смайлике тебе моем?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Наблюдать за появлением нового языка в двадцать первом веке — редкая возможность, и у нас она есть! В октябре 2011 года Apple добавила emoji как международную клавиатуру. С тех пор цифровой язык развился настолько, что сейчас половина комментариев и хэштегов в Instagram содержат эмодзи. А если у смайликов есть своя клавиатура, значит это фактически новый искусственный язык, и применяя методы машинного обучения и обработки естественного языка, можно обнаружить его скрытую семантику. ?

?Эмодзи в Instagram

В 2011-2013 emoji стала самой используемой клавиатурой, и уже через месяц после ее появления в iOS, 10% текста в Instagram составляли эмодзи. Рост употребления смайликов увеличился после того Android тоже получили нативную поддержку emoji в 2013.

Употребление эмодзи продолжало расти, и к 2015 году уже почти половина текста в Instagram содержала смайлики. Тенденция кажется очевидной, но все не так однозначно. Если посмотреть на график употребления emoji в разных странах, то мы увидим, что пользователи из Финляндии используют их более чем в 60% текста , а в Танзании эмодзи содержит только 10% текста.??

Sorry, i don’t speak Emoji

Чтобы разрабатывать и изучать язык эмодзи, нужно научиться понимать их значение. В области обработки естественного языка для этого существует распределительная гипотеза: похожие слова могут быть интуитивно-заменяемы. Например, мы можем сказать, что собака и кошка — это похожие слова, потому что их можно использовать в таком предложении, как: «зоомагазин продает еду для _». Эта интуиция может быть применена и к смайликам. ?

В режиме пропуска инструмент word2vec считывает текст и предсказывает контекст вокруг заданного слова или эмодзи:

Emoji и интернет-сленг

Узнав контекст употребления конкретного эмодзи, мы можем начать искать семантически похожие слова, вычисляя «угол» (косинусную близость) между emoji и другими словами. Оказывается, что многие популярные смайлики соответствуют раннему интернет-сленгу:

(№1 по частоте использования ): lolol, lmao, lololol, lmaoo, lol, ahahah, ahahha, loll, ahaha, ahah

(№2 ): beautifull, gorgeous, perfff, hottt, cuteeee, beautifullll, baeeeee, hotttt, babeee, sexyyyy, hawttt

(№3): xoxoxox, xoxo, oxox, babycakes, muahhhh, babe, loveyou, bunches, muahh, xoxox

(№ 9): awesome, good, #keepitup, #fingerscrossed, aswell, haha, #impressed, #yourock, lol, #greatjob, bud, #goodjob, #muchlove, #proudofyou, job, #goodluck

?(№ 11): omgg, omf, lololol, whyyy, ughhh, ugh, lolol, wahhhh, oml, uhg, agh, xc, tooo

Изменение словарного запаса

Самые популярные эмодзи семантически очень близки к словам из интернет-сленга «lol/hehe» (?), «xoxo» (??) и «omg» (?), но могут ли они их полностью заменить?

Чтобы контролировать изменения в языке Instagram, ученые отобрали четыре репрезентативных группы: те, кто присоединился к Instagram в первую неделю июля 2012, января 2013, июля 2013 и января 2014. Каждая из групп содержит миллионы пользователей, и самые часто употребляемые ими слэнговые выражения: лол, xoxo, ОМГ, muah, babe, bae, ха-ха и хе-хе можно преобразовать в регулярное выражение:(?:|#)((?:xo)+|omg+|muah+|babe+|bae+|lol+|(?:ha|he)+h?)(|.|!|?)

На диаграмме ниже видно, что все группы демонстрируют схожую картину в росте употребления эмодзи (~ 45%) и снижении использования интернет-сленга (~ 5%) с одинаковым значением.

???(Сердечко)????

~= #goblue, #letsgoduke, #bleedblue, #ibleedblue, #worldautismawarenessday, #goduke, #beatduke, #autismspeaks, #autismawarenessday, #gobroncos, duke

~= #gogreen, loyals, #herballife, #happysaintpatricksday, ?, #stpats, ?, #jointhemovement, green, #hairskinnails, #happystpatricksday

~= ? ,? ,#springhassprung ,? ,#springiscoming ,#springishere, #aprilshowers, #thinkspring, #hellospring, ?, #wildflower, #happyearthday

~= ?, ?, ?, ?, ?, ?, faldc, ?, brassy, topaz, peachy ,purple, #thinkpink,?, sparkle, ?, shimmer, sparkles, kaleidoscope, periwinkle, ?, greenish

~= gorl, ?, cwd, s4s, aynmalik, spvm, ulee, ?, ?, yulema, sfs, bvby, ?nd, indirect, priv

~= ulitzer, ?, peachy, february’s, tulle, mackz, kendall’s, curvy, faldc, #dancewear, strapless, ?, ?, floral

? ~= ?, ?, ?, ?, ?, ?, ?, ?, ?, paypal, ?, item, ?, ?, inquire, orders, payment, ?, ?, ?, deposit

Семантическая карта

Эмодзи становятся универсальным методом выражения эмоций. Чтобы увидеть отношения между ними, 100-мерное пространство, в котором находятся символы, можно при помощи алгоритма t-SNE превратить в двухмерное, где все эмодзи будут расположены по принципу смежности.

На карте появляются отдельные кластеры: «еда» (слева), «работа» (напротив, справа). «Обувь» (внизу справа) тесно связана с сумочками, в то время как купальники находятся ближе к воде и морским животным (вверху слева). Улитка оказывается рядом с «космосом» (вверху в центре), алкогольные напитки группируются вместе с боулингом (внизу слева). В центре мы видим толпу эмоций — «шок», «скука», «слезы», — среди которых почему-то оказывается «лягушка». Интересно, что, двигаясь вниз от центра, эмоции становятся добрее. Веселье ведет к счастью, счастье к любви, семье и свадьбе. (вывод: осторожнее с весельем).

Ксения Костомарова


Источник: instagram-engineering.com

Комментарии: