Что в смайлике тебе моем? |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-03-18 20:30 Наблюдать за появлением нового языка в двадцать первом веке — редкая возможность, и у нас она есть! В октябре 2011 года Apple добавила emoji как международную клавиатуру. С тех пор цифровой язык развился настолько, что сейчас половина комментариев и хэштегов в Instagram содержат эмодзи. А если у смайликов есть своя клавиатура, значит это фактически новый искусственный язык, и применяя методы машинного обучения и обработки естественного языка, можно обнаружить его скрытую семантику. ? ?Эмодзи в Instagram В 2011-2013 emoji стала самой используемой клавиатурой, и уже через месяц после ее появления в iOS, 10% текста в Instagram составляли эмодзи. Рост употребления смайликов увеличился после того Android тоже получили нативную поддержку emoji в 2013. Употребление эмодзи продолжало расти, и к 2015 году уже почти половина текста в Instagram содержала смайлики. Тенденция кажется очевидной, но все не так однозначно. Если посмотреть на график употребления emoji в разных странах, то мы увидим, что пользователи из Финляндии используют их более чем в 60% текста , а в Танзании эмодзи содержит только 10% текста.?? Sorry, i don’t speak Emoji Чтобы разрабатывать и изучать язык эмодзи, нужно научиться понимать их значение. В области обработки естественного языка для этого существует распределительная гипотеза: похожие слова могут быть интуитивно-заменяемы. Например, мы можем сказать, что собака и кошка — это похожие слова, потому что их можно использовать в таком предложении, как: «зоомагазин продает еду для _». Эта интуиция может быть применена и к смайликам. ? В режиме пропуска инструмент word2vec считывает текст и предсказывает контекст вокруг заданного слова или эмодзи: Emoji и интернет-сленг Узнав контекст употребления конкретного эмодзи, мы можем начать искать семантически похожие слова, вычисляя «угол» (косинусную близость) между emoji и другими словами. Оказывается, что многие популярные смайлики соответствуют раннему интернет-сленгу: (№1 по частоте использования ): lolol, lmao, lololol, lmaoo, lol, ahahah, ahahha, loll, ahaha, ahah (№2 ): beautifull, gorgeous, perfff, hottt, cuteeee, beautifullll, baeeeee, hotttt, babeee, sexyyyy, hawttt (№3): xoxoxox, xoxo, oxox, babycakes, muahhhh, babe, loveyou, bunches, muahh, xoxox (№ 9): awesome, good, #keepitup, #fingerscrossed, aswell, haha, #impressed, #yourock, lol, #greatjob, bud, #goodjob, #muchlove, #proudofyou, job, #goodluck?(№ 11): omgg, omf, lololol, whyyy, ughhh, ugh, lolol, wahhhh, oml, uhg, agh, xc, tooo Изменение словарного запаса Самые популярные эмодзи семантически очень близки к словам из интернет-сленга «lol/hehe» (?), «xoxo» (??) и «omg» (?), но могут ли они их полностью заменить? Чтобы контролировать изменения в языке Instagram, ученые отобрали четыре репрезентативных группы: те, кто присоединился к Instagram в первую неделю июля 2012, января 2013, июля 2013 и января 2014. Каждая из групп содержит миллионы пользователей, и самые часто употребляемые ими слэнговые выражения: лол, xoxo, ОМГ, muah, babe, bae, ха-ха и хе-хе можно преобразовать в регулярное выражение:(?:|#)((?:xo)+|omg+|muah+|babe+|bae+|lol+|(?:ha|he)+h?)(|.|!|?) На диаграмме ниже видно, что все группы демонстрируют схожую картину в росте употребления эмодзи (~ 45%) и снижении использования интернет-сленга (~ 5%) с одинаковым значением. ???(Сердечко)???? ~= #goblue, #letsgoduke, #bleedblue, #ibleedblue, #worldautismawarenessday, #goduke, #beatduke, #autismspeaks, #autismawarenessday, #gobroncos, duke ~= #gogreen, loyals, #herballife, #happysaintpatricksday, ?, #stpats, ?, #jointhemovement, green, #hairskinnails, #happystpatricksday ~= ? ,? ,#springhassprung ,? ,#springiscoming ,#springishere, #aprilshowers, #thinkspring, #hellospring, ?, #wildflower, #happyearthday ~= ?, ?, ?, ?, ?, ?, faldc, ?, brassy, topaz, peachy ,purple, #thinkpink,?, sparkle, ?, shimmer, sparkles, kaleidoscope, periwinkle, ?, greenish ~= gorl, ?, cwd, s4s, aynmalik, spvm, ulee, ?, ?, yulema, sfs, bvby, ?nd, indirect, priv ~= ulitzer, ?, peachy, february’s, tulle, mackz, kendall’s, curvy, faldc, #dancewear, strapless, ?, ?, floral? ~= ?, ?, ?, ?, ?, ?, ?, ?, ?, paypal, ?, item, ?, ?, inquire, orders, payment, ?, ?, ?, deposit Семантическая карта Эмодзи становятся универсальным методом выражения эмоций. Чтобы увидеть отношения между ними, 100-мерное пространство, в котором находятся символы, можно при помощи алгоритма t-SNE превратить в двухмерное, где все эмодзи будут расположены по принципу смежности. На карте появляются отдельные кластеры: «еда» (слева), «работа» (напротив, справа). «Обувь» (внизу справа) тесно связана с сумочками, в то время как купальники находятся ближе к воде и морским животным (вверху слева). Улитка оказывается рядом с «космосом» (вверху в центре), алкогольные напитки группируются вместе с боулингом (внизу слева). В центре мы видим толпу эмоций — «шок», «скука», «слезы», — среди которых почему-то оказывается «лягушка». Интересно, что, двигаясь вниз от центра, эмоции становятся добрее. Веселье ведет к счастью, счастье к любви, семье и свадьбе. (вывод: осторожнее с весельем). Ксения Костомарова Источник: instagram-engineering.com Комментарии: |
|