Новогодний датасет 2019: открытый тональный словарь русского языка

Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.

Зачем?

Тональность, или простыми словами хорошо/плохо — естественная характеристика слов. Естественная для человека и его восприятия, но не для понимания компьютером. Язык устроен таким образом, что в нём присутствует симметрия относительно полярности слов и отделить хорошие слова от плохих, не прибегая к внешней разметке, не представляется возможным. Собственно изначально задача создания тонального словаря возникла из потребности кластеризовать получаемые автоматически алгоритмом списки слов в соответствии с их полярностью.

Конечно, тональность является лишь одним из аспектов значения слова и реальное понимание сентимента требует полного семантического анализа, понимание ролей в конкретной ситуации и знание положения, занимаемого наблюдателем. Так, например, «снижение цены акций» для разных сторон может иметь различную тональность, а «издержки выросли» и «прибыль выросла» иметь разнонаправленную полярность, хотя в обоих словосочетаниях употребляется глагол расти, имеющий скорее положительную оценку (согласно нашему датасету).

Существует и довольно обширный спектр причин, по которым мы относим то или иное слово к конкретной тональности. Иногда это наши непосредственные ощущения — радость и тоска; иногда это качества человека — профессионализм и беспечность: а иногда такие понятия как образование или предпринимательство, связанные со сложными социальными институтами и дающие выгоду в долгосрочной перспективе. И оценка таких слов сильно связана с культурой и общественным договором. А, соответственно, может не иметь общепризнанной и универсальной оценки.

Тем не менее язык и коммуникация не могли бы существовать, если бы системы координат разных людей в рамках одной культуры не имели бы ничего общего между собой. А поэтому для достаточно больших групп слов их оценочная составляющая более-менее согласована.

Каким образом?

Существует два основных способа сбора большого объёма лингвистических данных — привлечение экспертов и опрос людей (или более современная версия последнего — краудсорсинг). Не будем повторяться об очевидных различиях этих подходов, а лучше уделим внимание тем из них, которые оказывают непосредственное влияние на свойства получаемого датасета.

Экспертная разметка подразумевает чёткую ориентацию на будущее применение, а соответственно оговаривает способ принятия решения в ситуации неоднозначности, диктуемый данным применением. Для конечного датасета это означает:

фиксацию предметной области;
чёткое определение позиции наблюдателя.

Так, если эксперт составляет тональный словарь для анализа новостей, ориентированных на массовую аудиторию, то он занимает позицию обобщённого читателя и принимает на себя негласные соглашения между СМИ и читателями. Скажем «понижение стоимости» в таких установках будет иметь положительную оценку, а «рост тарифов» — отрицательную (согласно датасету РуСентиЛекс-2017).

Краудсорсинг лишён возможности задания подобных рамок и вряд ли является оптимальным средством для решения узкоспециализированных прикладных задач. Но он позволяет захватить другой важный аспект оценки тональности — согласованность между отвечающими. Какие-то слова будут однозначно оценены как положительные или отрицательные; какие-то разделят оценку между нейтральным и полярным вариантами; а небольшая группа слов покажет выраженную рассогласованность оценок.

Распределение согласованности оценок

Слева на графике — максимальная согласованность оценок, справа — максимальная рассогласованность.

Также, в отличие от экспертной оценки, краудсорсинг позволяет получить непрерывное значение полярности, разграничивая строго положительные (отрицательные), скорее положительные (отрицательные) и нейтральные слова. Распределение по этим группам зависит, конечно же, от выбранных пороговых значений. Впрочем дискретизацию проводить совершенно необязательно — возможно для ряда применений непрерывное значение будет более удобным.

Распределение оценок

Структура датасета

Структура датасета довольно простая: это тональный словарь, ставящий в соответствие словам их оценку в диапазоне от -1 (предельная отрицательная оценка) до +1 (предельная положительная оценка). Для удобства указывается человекопонятный тег из набора «положительное», «нейтральное», «отрицательное» рассчитанный с использованием пороговых значений.

Примеры положительных, нейтральных и отрицательных слов из датасета

положительные: надёжный, помириться, доброта, помилование, добросовестный, окрыляться, фотогеничный, прибыль, воспитанность, воссоединение, воодушевить, доверие, восторг, ребятушки, преобразиться, оздоровительный, новоселье, уют, вразумительный, учёность, волонтёрский;
нейтральные: аббревиатура, причислить, прилеплять, туника, многогранник, касание, мебельный, житель, кликнуть, таять, словоупотребление, перешагнуть, автодорожный, ингредиент, сдуть, подчеркнуть, эмблема, ложиться, длиннорукий, семёрка, ничья;
отрицательные: прогульщик, зажраться, проболтаться, заложник, жлоб, заносчивый, фальшивый, загрязнённость, завистник, придушить, замёрзнуть, протранжирить, жульнический, деградировать, зависимый, загрызть, простуда, придраться, напугаться, грабитель, неуч;

Дополнительно в данной версии датасета (есть ещё предыдущая, первая версия) приводятся сырые данные — процентное соотношение голосов, отданных за каждый из вариантов. Это позволяет применить пользовательские модели вычисления итоговой полярности и уровня согласованности разметки. Прим. Представленная версия датасета покрывает наиболее узнаваемые слова РЯ (активный лексикон); словосочетания не размечались. При сравнении с другими словарями тональности мы обнаружили ряд слов, имеющихся в активном лексиконе, но не представленных в нашем наборе данных. Мы будем производить доразметку и планируем включить недостающие языковые единицы в течение следующего года.

Дальнейшие планы

Разметка сентимента — одна из частных задач в рамках исследования семантической системы языка. Как мы уже отмечали выше, полезность представленного набора данных напрямую зависит от возможности связать представленные в нём значения полярности с другой семантической информацией. С классами слов, например. Мы начали эту работу и планируем развивать её в дальнейшем.

Также важным направлением исследования является стремление понять причину окрашивания тех или иных слов, разведение слов, связанных с чувствами, эмоциями и непосредственной оценкой и тех слов, где описываемый ими концепт или ситуация сулят отложенную выгоду или потерю. А следовательно такие слова больше подвержены культурному и социальному влиянию.

Также планируется расширить разметку словосочетаниями, включая устойчивые выражения и фразеологизмы. Но здесь речь уже идёт о совсем других объёмах лексики, поэтому общая задача понять, как сентимент работает на более общем уровне (подробнее под спойлером).

Сентимент и семантика

При внимательном рассмотрении становится понятно, что язык оперирует компактным относительно количества слов и их сочетаний набором концептов, каждый из которых может выражаться более чем одним способом. Это наблюдение нашло подробное отражение в работах отечественных лингвистов и в созданной ими модели «Смысл — Текст».

Так например «снижение цен», «падение цен», «цены рухнули», «цены снизились» — это разные способы описать схожий процесс, но выраженный различными языковыми средствами. При этом в схожих контекстах можно встретить и другие концепты, имеющие количественное выражение — «падение уровня доверия», «рост уровня доходов» и т.д. В каждом случае достаточно понимать соответствие выше/ниже — хорошо/плохо (уровень знаний и мире) и какими лексическими средствами выражается движение в заданную сторону (уровень языка).

Обратная связь и распространение датасета

Будем рады любой обратной связи в комментариях — от критики работы и выбранных нами подходов до ссылок на интересные исследования и статьи по теме.

Если у вас есть знакомые или коллеги, которым может быть интересен опубликованный датасет, перешлите им ссылку на статью или репозиторий, чтобы помочь в распространении открытых данных.

Ссылка на датасет и лицензия

Датасет: открытый тональный словарь русского языка Объём датасета составляет 28197 слов.

Датасет распространяется по лицензии CC BY-NC-SA 4.0.



		Новогодний датасет 2019: открытый тональный словарь русского языка
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-12-26 18:41 компьютерная лингвистика, алгоритмы машинного обучения Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка. Зачем? Тональность, или простыми словами хорошо/плохо — естественная характеристика слов. Естественная для человека и его восприятия, но не для понимания компьютером. Язык устроен таким образом, что в нём присутствует симметрия относительно полярности слов и отделить хорошие слова от плохих, не прибегая к внешней разметке, не представляется возможным. Собственно изначально задача создания тонального словаря возникла из потребности кластеризовать получаемые автоматически алгоритмом списки слов в соответствии с их полярностью. Конечно, тональность является лишь одним из аспектов значения слова и реальное понимание сентимента требует полного семантического анализа, понимание ролей в конкретной ситуации и знание положения, занимаемого наблюдателем. Так, например, «снижение цены акций» для разных сторон может иметь различную тональность, а «издержки выросли» и «прибыль выросла» иметь разнонаправленную полярность, хотя в обоих словосочетаниях употребляется глагол расти, имеющий скорее положительную оценку (согласно нашему датасету). Существует и довольно обширный спектр причин, по которым мы относим то или иное слово к конкретной тональности. Иногда это наши непосредственные ощущения — радость и тоска; иногда это качества человека — профессионализм и беспечность: а иногда такие понятия как образование или предпринимательство, связанные со сложными социальными институтами и дающие выгоду в долгосрочной перспективе. И оценка таких слов сильно связана с культурой и общественным договором. А, соответственно, может не иметь общепризнанной и универсальной оценки. Тем не менее язык и коммуникация не могли бы существовать, если бы системы координат разных людей в рамках одной культуры не имели бы ничего общего между собой. А поэтому для достаточно больших групп слов их оценочная составляющая более-менее согласована. Каким образом? Существует два основных способа сбора большого объёма лингвистических данных — привлечение экспертов и опрос людей (или более современная версия последнего — краудсорсинг). Не будем повторяться об очевидных различиях этих подходов, а лучше уделим внимание тем из них, которые оказывают непосредственное влияние на свойства получаемого датасета. Экспертная разметка подразумевает чёткую ориентацию на будущее применение, а соответственно оговаривает способ принятия решения в ситуации неоднозначности, диктуемый данным применением. Для конечного датасета это означает: фиксацию предметной области; чёткое определение позиции наблюдателя. Так, если эксперт составляет тональный словарь для анализа новостей, ориентированных на массовую аудиторию, то он занимает позицию обобщённого читателя и принимает на себя негласные соглашения между СМИ и читателями. Скажем «понижение стоимости» в таких установках будет иметь положительную оценку, а «рост тарифов» — отрицательную (согласно датасету РуСентиЛекс-2017). Краудсорсинг лишён возможности задания подобных рамок и вряд ли является оптимальным средством для решения узкоспециализированных прикладных задач. Но он позволяет захватить другой важный аспект оценки тональности — согласованность между отвечающими. Какие-то слова будут однозначно оценены как положительные или отрицательные; какие-то разделят оценку между нейтральным и полярным вариантами; а небольшая группа слов покажет выраженную рассогласованность оценок. Распределение согласованности оценок Слева на графике — максимальная согласованность оценок, справа — максимальная рассогласованность. Также, в отличие от экспертной оценки, краудсорсинг позволяет получить непрерывное значение полярности, разграничивая строго положительные (отрицательные), скорее положительные (отрицательные) и нейтральные слова. Распределение по этим группам зависит, конечно же, от выбранных пороговых значений. Впрочем дискретизацию проводить совершенно необязательно — возможно для ряда применений непрерывное значение будет более удобным. Распределение оценок Структура датасета Структура датасета довольно простая: это тональный словарь, ставящий в соответствие словам их оценку в диапазоне от -1 (предельная отрицательная оценка) до +1 (предельная положительная оценка). Для удобства указывается человекопонятный тег из набора «положительное», «нейтральное», «отрицательное» рассчитанный с использованием пороговых значений. Примеры положительных, нейтральных и отрицательных слов из датасета положительные: надёжный, помириться, доброта, помилование, добросовестный, окрыляться, фотогеничный, прибыль, воспитанность, воссоединение, воодушевить, доверие, восторг, ребятушки, преобразиться, оздоровительный, новоселье, уют, вразумительный, учёность, волонтёрский; нейтральные: аббревиатура, причислить, прилеплять, туника, многогранник, касание, мебельный, житель, кликнуть, таять, словоупотребление, перешагнуть, автодорожный, ингредиент, сдуть, подчеркнуть, эмблема, ложиться, длиннорукий, семёрка, ничья; отрицательные: прогульщик, зажраться, проболтаться, заложник, жлоб, заносчивый, фальшивый, загрязнённость, завистник, придушить, замёрзнуть, протранжирить, жульнический, деградировать, зависимый, загрызть, простуда, придраться, напугаться, грабитель, неуч; Дополнительно в данной версии датасета (есть ещё предыдущая, первая версия) приводятся сырые данные — процентное соотношение голосов, отданных за каждый из вариантов. Это позволяет применить пользовательские модели вычисления итоговой полярности и уровня согласованности разметки. Прим. Представленная версия датасета покрывает наиболее узнаваемые слова РЯ (активный лексикон); словосочетания не размечались. При сравнении с другими словарями тональности мы обнаружили ряд слов, имеющихся в активном лексиконе, но не представленных в нашем наборе данных. Мы будем производить доразметку и планируем включить недостающие языковые единицы в течение следующего года. Дальнейшие планы Разметка сентимента — одна из частных задач в рамках исследования семантической системы языка. Как мы уже отмечали выше, полезность представленного набора данных напрямую зависит от возможности связать представленные в нём значения полярности с другой семантической информацией. С классами слов, например. Мы начали эту работу и планируем развивать её в дальнейшем. Также важным направлением исследования является стремление понять причину окрашивания тех или иных слов, разведение слов, связанных с чувствами, эмоциями и непосредственной оценкой и тех слов, где описываемый ими концепт или ситуация сулят отложенную выгоду или потерю. А следовательно такие слова больше подвержены культурному и социальному влиянию. Также планируется расширить разметку словосочетаниями, включая устойчивые выражения и фразеологизмы. Но здесь речь уже идёт о совсем других объёмах лексики, поэтому общая задача понять, как сентимент работает на более общем уровне (подробнее под спойлером). Сентимент и семантика При внимательном рассмотрении становится понятно, что язык оперирует компактным относительно количества слов и их сочетаний набором концептов, каждый из которых может выражаться более чем одним способом. Это наблюдение нашло подробное отражение в работах отечественных лингвистов и в созданной ими модели «Смысл — Текст». Так например «снижение цен», «падение цен», «цены рухнули», «цены снизились» — это разные способы описать схожий процесс, но выраженный различными языковыми средствами. При этом в схожих контекстах можно встретить и другие концепты, имеющие количественное выражение — «падение уровня доверия», «рост уровня доходов» и т.д. В каждом случае достаточно понимать соответствие выше/ниже — хорошо/плохо (уровень знаний и мире) и какими лексическими средствами выражается движение в заданную сторону (уровень языка). Обратная связь и распространение датасета Будем рады любой обратной связи в комментариях — от критики работы и выбранных нами подходов до ссылок на интересные исследования и статьи по теме. Если у вас есть знакомые или коллеги, которым может быть интересен опубликованный датасет, перешлите им ссылку на статью или репозиторий, чтобы помочь в распространении открытых данных. Ссылка на датасет и лицензия Датасет: открытый тональный словарь русского языка Объём датасета составляет 28197 слов. Датасет распространяется по лицензии CC BY-NC-SA 4.0. Телеграм: t.me/ainewsline Источник: habr.com Комментарии:

Новогодний датасет 2019: открытый тональный словарь русского языка

Комментарии: