«Область, в которой я работаю, рождается прямо на глазах» |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-02-10 19:05 Андрей Кутузов, основатель сайта RusVectores, постдок и сотрудник группы языковых технологий в университете Осло — о диахронических семантических сдвигах, вооруженных конфликтах, меняющих значения слов и возникновении новой области знаний. Предмет исследований: как слова меняют значения В широком смысле я занимаюсь репрезентацией семантики естественного языка. Но этим сейчас заняты 90% всех компьютерных лингвистов, поэтому тут ничего удивительного нет. А в более узком смысле — диахроническими семантическими сдвигами и их автоматическим детектированием. Для того чтобы проверить, как с течением времени меняется значение слов, по каким законам это происходит, или определить, что у слова появилось новое значение, используются мощные дистрибутивные семантические модели типа суперпопулярных word2vec или fastText. Классический пример — слово «cell», которое сначала означало только «тюремную камеру», потом постепенно начало появляться в значении «биологическая клетка», а вот в конце 90-х — начале 2000-х письменные тексты захлестнула волна использования слова «cell» в значении «сотовый телефон». И в русском происходят подобные процессы: можно вспомнить слово «поезд», которое еще в XIX веке было равно «процессии», например — «погребальный поезд» или «царский поезд», в то время как современный «поезд» ездит по железной дороге. Все это — примеры долгосрочных семантических сдвигов, которые происходят десятилетиями, даже веками. Бывают и краткосрочные семантические сдвиги: когда у слова буквально в пределах десятилетия меняется значение или сопровождающие его типичные ассоциации. Недавно в своей статье со студентами Вышки мы показали, как менялись значения слов в русскоязычных новостных текстах в 2000-е и в начале 2010-х годов. Например, что произошло с типичными ассоциациями для прилагательного «приемный»? После 2013 года с принятием «закона подлецов» у этого слова произошел резкий сдвиг: от старого — «приемная депутата», в сторону — «приемные дети». Потом, когда повестка изменилась, через год или два, прежнее значение вернулось обратно. И вот такие краткосрочные сдвиги сложнее детектировать, потому что они тоньше. С другой стороны их выявление полезно с практической точки зрения, потому что оно может сильно помочь в извлечении из текстов знаний о каких-то событиях, которые происходили в мире. «Чистая» лингвистика? В лингвистике считается, что диахронические семантические сдвиги могут быть вызваны чисто лингвистическими причинами, а могут ? социокультурными факторами. Конечно, когда мы констатируем, что у слова «приемный» изменились типичные ассоциаты, то сложно говорить, что к этому привел исключительно лингвистический процесс ? речь идет об экстралингвистических факторах. При этом то, как происходит изменение значения и как оно манифестируется в текстах, — в сущности, как изменяются типичные контексты для слова «приемный», — вот это как раз, я считаю, предмет для изучения. У меня не было публикаций с культурологами, может, это и упущение. Сейчас, если с кем-то работаю, то это скорее специалисты по NLP — компьютерные лингвисты, им задача интересна с практической точки зрения. Как война меняет ассоциации Изначально в своей PhD-диссертации я планировал изучить, как в новостных текстах освещаются вооруженные конфликты. Когда в какой-либо стране начинается война, то о ней начинают писать как-то «по-другому», слово «война» начинает употребляться в специальном контексте. Так у слова «Сирия» в условиях войны изменяются дистрибутивные вектора. Конечно, это не значит, что значение меняется в лексикографическом смысле, оно остается тем же самым, но вот как раз привычные ассоциаты ? да. Подобные находки бывают крайне полезны социальным исследователям, которые занимаются изучением вооруженных конфликтов, ? конфликтологам. В Осло есть специальный институт ? Peace Research Institute, а в Уппсале работает большая команда Uppsala Conflict Data Program (Уппсальская программа данных о конфликтах). Это такие хардкорные социологи, которые уже лет тридцать собирают вручную данные о вооруженных конфликтах. У них есть огромная база данных, доступная в сети, в ней можно посмотреть, что происходило в мире: как интенсивность вооруженных конфликтов увеличивалась или уменьшалась. Изначально они вышли на NLP-группу в университете Осло с вопросом: «Нельзя ли как-то автоматизировать процесс, чтобы новостные тексты не надо было размечать вручную, фиксируя ? о конфликте они или нет». Естественно, так просто это сделать не получилось. Но удалось выявить закономерности, ответить на вопросы о том, как изменяются дистрибутивные вектора у слов, обозначающих, например, страны, в которых происходят вооруженные конфликты, или вооруженные группы, принимающие участие в конфликтах. Эти исследователи предоставили нам огромный датасет, в котором расписано, когда, в какой стране, какая война началась. И теперь мы можем использовать эти данные как источник. Интуитивно кажется, что наши исследования должны обладать какой-то предсказательной силой: ведь война не начинается сразу, просто так, из ниоткуда, ей предшествует какое-то бурление. Если мы будем отслеживать эти все изменения в дистрибутивных векторах слов, то увидим, как постепенно меняется ситуация. О понятийных пропорциях В своих исследованиях мы часто ограничены английским языком. И тем не менее, мы все равно можем получать довольно интересные результаты. Знакомым с word2vec известен пример «отношения» слов друг к другу: «король» относится к «королеве», как «мужчина» ? к «женщине». Точно так же, как выяснилось, можно строить такие же пропорции, апеллируя к странам и вооруженным группам в этих странах. То есть, условно говоря, можно сказать на основе дистрибутивной модели, что «ХАМАС» относится к «Израилю» как «наксалиты» ? к «Индии», например. Это действительно был неожиданный для нас результат: я вообще не думал, что простые дистрибутивные модели способны схватывать настолько тонкие семантические отношения. Оказывается, могут. Рождение новой научной области Безусловно, компьютерным лингвистам приходится лезть и внутрь алгоритмов, иначе было бы скучно. Чтобы добиться каких-то внушительных результатов, отличающихся от результатов коллег, приходится что-то менять в существующих моделях: крайне редко бывает так, что готовая модель сразу выдает то, что нужно. Если бы это было так, то и никакие исследования не понадобились бы. А так, область, в которой я работаю, рождается прямо на глазах. Первые публикации, сделанные на основе исследования диахронических семантических сдвигов методами дистрибутивной семантики, появились где-то в районе 2010 года, их стало существенно больше лишь в 2016-м, и только в 2019 году на конференции ACLпрошел первый воркшоп по изменениям в языке в исторической перспективе. А в этом году пройдет первое соревнование по автоматическому определению семантических сдвигов. Интервью: Даниил Скоринкин, Герман Пальчиков Источник: m.vk.com Комментарии: |
|