Редкие слова: Основная проблема контекстуализированных вложений и как ее решить путем внимательного подражания

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


LMU Munich, 2019

https://arxiv.org/abs/1904.06707

Какую задачу решают авторы?

Авторы известной статьи “Language Models are Unsupervised Multitask Learners” (Radford et al. 2019) пришли к выводу, что языковые модели могут быть адаптированы для решения разных задач без специфичного fine-tuning для конкретной задачи. Для этого нужно сформулировать задачу в естественном для языковой модели виде: продолжить незаконченное предложение.

Эта же идея позволяет проверить, насколько хорошо языковая модель понимает значение слов. Например, модель, которая понимает значение слова “хороший”, должна правильно закончить предложение “Хороший - это антоним к слову _”, где на месте пропуска мы ожидаем увидеть слово “плохой”. В своей работе авторы собрали датасет из предложений похожей структуры и пришли к выводу, что BERT испытывает трудности в понимании редких слов. Они хотят понять, в каких именно случаях это происходит, и как эти трудности преодолевать.

Подход Attentive Mimicking, предложенный авторами, позволяет выучить более качественные эмбеддинги для редко встречающихся слов. Кроме того, авторы представили “One-Token Approximation” - метод, который получает приближенный эмбеддинг любого слова, состоящего из нескольких токенов.

Как решают

Модель

Attentive Mimicking (AM) позволяет на основе множества качественных эмбеддингов высокочастотных слов генерировать эмбеддинги для более редких слов. Авторы причисляют этот метод к семейству формо-контекстных моделей (form-context models). Основная идея этих моделей - подсчет двух эмбеддингов для слов, один из которых использует морфологические признаки слова, а второй - контекст этого слова, то есть, предложения, в которых это слово встречается. Итоговый эмбеддинг рассчитывается по формуле:

v_context - эмбеддинг контекста C для слова w (усредненный эмбеддинг всех слов из контекста C) размерности d.

v_form - эмбеддинг формы слова w (усредненный эмбеддинг всех n-грамм из символов слова w) размерности d.

alpha - параметр (позволяет модели решать на что опираться больше: на форму слова или его контекст)

A - матрица параметров размерности d на d.

Attentive Mimicking расширяет формо-контекстные модели: он использует механизм self-attention для выделения наиболее информативных контекстов. Проще говоря, он использует идею о том, что похожие друг на друга контексты слова w являются более информативными для самого слова w. Поэтому эмбеддинги этих контекстов будут вносить больший вклад в эмбеддинг контекста слова w.

Модели, использующие токенизацию на подслова, присваивают эмбеддинги далеко не всем словам. Чтобы обойти эту проблему. авторы предлагают использовать подход One-Token Approximation (OTA). Для слова из нескольких токенов OTA находит эмбеддинг максимально похожий на эмбеддинг, который получило бы слово, если бы состояло из одного токена.

Чтобы получить OTA эмбеддинг для произвольного слова w, нужно взять набор левых и правых контекстов этого слова, то есть, множество токенов, которые следуют в тексте до и после этого слова. Основная идея OTA: найти такой эмбеддинг v, который будет также близок к векторам левого и правого контекстов, как и исходный эмбеддинг слова w, состоящего из нескольких токенов. Для лучшего понимания подхода, авторы опубликовали реализацию OTA https://github.com/timoschick/one-token-approximation

Помимо двух методов, описанных выше, авторы собрали датасет WordNet Language Model Probing (WNLaMPro) для оценки понимания слов языковой моделью.

Датасет состоит из предложений поделенных на 4 “отношения”: антонимы, гиперонимы, слова-помехи и когипонимы. Значения этих слов проще объяснить на примерах из датасета:

Здесь <W> это некоторое слово/словосочетание, а на месте пропуска - целевое слово/словосочетание, чье понимание мы хотим проверить.

Датасет разделен на три подгруппы по частотности целевых слов: rare (R), medium (M), и frequent (F).

Авторы целенаправленно не выделили обучающую выборку в датасете, т.к. рассчитывают, что модели, которые оцениваются на этом датасете, не будут дообучены на нем.

И самое приятное, датасет размещен публично на гитхабе https://github.com/timoschick/am-for-bert

Обучение и эксперименты

Для обучения формо-контекстных эмбеддингов авторы использовали стандартный прием: случайно сэмплировали слова и их соответствующие контексты, после чего минимизировали квадрат евклидового расстояния между двумя эмбеддингами слова: исходным и формо-контекстным.

Для оценки приближенных векторов полученных с помощью метода OTA, авторы взяли 1000 случайных слов из словаря модели BERT и подсчитали среднюю косинусную меру близости между двумя эмбеддингами для каждого из этих слов: приближенным вектором OTA и исходным эмбеддингом из модели BERT. Модификации OTA под названиями STATIC и RANDOM отличаются тем, что в первом случае в качестве контекстов были выбраны только [CLS] и [SEP] (исходные токены-разделители), а во втором случае в контекстах были полноценные токены текста. Именно во втором случае подход OTA показывает лучшие результаты, т.к. понимание слова лучше раскрывается через полноценный контекст.

Кроме этого, авторы подсчитали метрику MRR для целевого слова и пришли к выводу, что в среднем конфигурация BERT + Attentive Mimicking + OTA показывает более высокое значение MRR нежели просто BERT. Можно наглядно взглянуть на примеры, доказывающие это:

Мое мнение

Эта статья показалась мне особенно интересной, т.к. на работе я иногда сталкиваюсь с некорректно работающими эмбеддингами редких слов, и мне хотелось узнать, как можно эти эмбеддинги улучшить. Классно, что авторы разместили свой датасет и реализацию алгоритма OTA на GitHub.
На мой взгляд, у подхода Attentive Mimicking есть потенциал и в других задачах NLP. Например, интересно было бы посмотреть, как AM сработает в кросс языковом моделировании, поможет ли этот подход улучшить эмбеддинги редких слов другого языка.


Источник: m.vk.com

Комментарии: