EMNLP 2020

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В ноябре прошла одна из крупнейших конференций по обработке естественного языка — EMNLP 2020. Как всегда, команда Yandex Research подготовила дайджест примечательных статей с конференции. Исследователи развеивают штампы о softmax, разбираются с остаточной вероятностью, используют неочевидные данные в обучении, предлагают метод контролируемой генерации текстов и строят невекторные эмбеддинги.

1. If Beam Search is the Answer, What was the Question?

https://www.aclweb.org/anthology/2020.emnlp-main.170.pdf

В прошлом году на EMNLP в одной из работ продемонстрировали интересный феномен, связанный с алгоритмом декодинга beam search. Изначально его стали применять, потому что полный перебор всех последовательностей для поиска наиболее вероятной был вычислительно слишком сложен. Однако оказалось, что алгоритм поиска точного оптимума возвращает пустую строку в более чем половине случаев. Это значит, что на самом деле beam search оптимизирует не вероятность последовательности, а другую целевую функцию — авторы этой статьи описывают, какой критерий фактически оптимизируется в ходе beam search. Этот критерий соответствует поиску максимально вероятного предложения, но с регуляризатором — мы хотим на каждом шагу получать набор предложений, наиболее близкий к локальному оптимуму.

В статье доказывается, что beam search вычисляет максимум этого критерия, если вес регуляризатора сделать бесконечным. Также авторы проводят параллели с теорией о равномерном распределении информации в предложении и показывают, что добавление таких регуляризаторов повышает общее качество и решает проблему деградации при увеличении beam size.

2. Sparse Text Generation

https://www.aclweb.org/anthology/2020.emnlp-main.348.pdf

В глубинном обучении есть свои штампы. Хотите предсказать вероятности классов? Вам нужна функция softmax. Предсказать вероятности следующего слова в тексте? Воспользуйтесь softmax. Распределить веса внимания? Снова обратитесь к softmax. Эта функция настолько популярна, что часто ее используют даже не задумываясь. Но у softmax есть недостатки. Например, с ней модель никогда не сможет выдать нулевую вероятность или вес внимания. Чтобы избавиться от этого ограничения, в статье «From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification» (ICML 2016) была разработана альтернатива — sparsemax. Чуть позже в статье «Sparse Sequence-to-Sequence Models» (ACL 2020) было предложено целое семейство функций ?-entmax, которое включает в себя soft- и sparsemax как частные случаи.

В рассматриваемой статье с EMNLP 2020 авторы используют entmax в языковых моделях, чтобы повысить качество генерируемого текста. Классические языковые модели с softmax нередко грешат повторениями фрагментов текста или неожиданным завершением абзаца. Такие проблемы частично пытаются решить с помощью эвристик: «температуры» softmax или nucleus сэмплирования.

Авторы этой статьи просто берут GPT-2, заменяют softmax на ?-entmax слой и дообучают несколько эпох. А потом оказывается, что такая модель безо всяких эвристик генерирует более качественный текст как по перплексии, так и с точки зрения человека (Table 6).

3. Semantic Label Smoothing for Sequence to Sequence Problems

https://www.aclweb.org/anthology/2020.emnlp-main.405.pdf

В машинном переводе сейчас активно используется label smoothing — метод, в котором минимизируется кросс-энтропия не с one-hot правильным ответом, а со сглаженным распределением: например, p=0.9 у правильного слова, а оставшееся 0.1 равномерно размазано по всем остальным словам. Есть и более сложные версии, когда остаточная вероятность распределяется неравномерно: в зависимости от частоты слов или даже предсказаний языковой модели.

Авторы предлагают еще одну версию, но на этот раз label smoothing делается на уровне всего предложения. Для каждого примера в train они находят top-k наиболее похожих предложений и размазывают остаточную вероятность по ним. Степень похожести определяется по двум факторам: косинусной близости между BERT эмбеддингами предложений и sentence BLEU между словами.

На всем этом авторы учат трансформер (WMT En-De, En-Fr) и получают прирост около 1.2 BLEU против обычного label smoothing и ~0.8 BLEU против state-of-the-art.

4. Sequence-Level Mixed Sample Data Augmentation

https://www.aclweb.org/anthology/2020.emnlp-main.447.pdf

Авторы предлагают простую текстовую технику аугментации, которая формирует обучающие примеры, смешивая слова из пары предложений в виде выпуклой комбинации (наподобие MixUp в картинках). Для учета случайности предлагается не выбирать каждый токен отдельно, а учиться на матожидании такой смеси, сэмплируя веса из бета-распределения. Метод оптимизирует ту же самую функцию потерь, что и несколько более ранних подходов, но вычислительно оказывается гораздо проще за счет релаксации при использовании матожидания. В экспериментах авторы показывают, что такая аугментация позволяет решать задачу SCAN (специальный датасет для оценки композициональности моделей) и добиваться прироста в качестве около 0.5-1 BLEU на задачах перевода в сравнении с бейзлайнами наподобие WordDrop и SwitchOut.

5. Data Rejuvenation: Exploiting Inactive Training Examples for Neural Machine Translation

https://www.aclweb.org/anthology/2020.emnlp-main.176.pdf

В статье изучается явление неактивных примеров при обучении систем машинного перевода — таких данных, которые никак не помогают модели обучиться или даже вредят ей. Авторы предлагают новый способ их использования: не просто отфильтровать такие примеры (например, по низкой вероятности предложения), а обучить модель на оставшихся данных и предсказать метки на отфильтрованных. Оказывается, что такое предсказание меток через forward translation консистентно повышает качество всех NMT-моделей, вне зависимости от архитектуры и датасета (и на WMT En-De, и на En-Fr обогащение датасета дает лучшее качество, чем просто фильтрация).

6. MEGATRON-CNTRL: Controllable Story Generation with External Knowledge Using Large-Scale Language Models

https://www.aclweb.org/anthology/2020.emnlp-main.226.pdf

Здесь речь идет о новом методе для контролируемой генерации текстов — авторы предлагают решить проблему использования фиксированного числа возможных условий и ограниченности предыдущих подходов за счет использования внешних баз знаний. Архитектура состоит из модулей предсказания ключевых слов (могут задаваться вручную на инференсе), поиска предложений из базы, релевантных этим ключевым словам, ранжирования предложений и условной генерации (предложения на основе ключевых слов используются как часть контекста). Для обучения keyword predictor используются представления из Universal Sentence Encoder, для обучения contextual knowledge ranker — файнтюн BERT (релевантность — скалярное произведение CLS-токенов предложений), для генерации — GPT-2. Полученная модель показывает state-of-the-art-результаты по генерации историй на датасете ROC, а также лучшую степень контролируемости ответов по сравнению с бейзлайнами.

7. Iterative Refinement in the Continuous Space for Non-Autoregressive Neural Machine Translation

https://www.aclweb.org/anthology/2020.emnlp-main.73.pdf

TLDR — это неавторегрессионный машинный перевод, который проигрывает трансформеру менее 1 BLEU, работает в 6+ раз быстрее и гораздо проще имплементируется.

Теперь немного деталей. В неавторегрессионном переводе данные дискретны, через них нельзя просто так прокинуть градиенты; даже если вы научили неавторегрессионную модель, часто для поиска наиболее вероятного перевода приходится изобретать итеративные алгоритмы выбора слов.

Совсем по-другому происходит в мире картинок. Генераторы картинок бывают разные: кроме стандартных GAN/VAE/нормпотоков есть и более экзотические подходы. Например, в статье «Generative Modeling by Estimating Gradients of the Data Distribution» (NeurIPS 2019) была предложена модель, которая итеративно улучшает картинку, изменяя ее пиксели в сторону увеличения правдоподобия. В начале модели дается случайный шум NxN пикселей, через 10 шагов в нем можно разглядеть смутные очертания объекта, через 100 — перед вами готовая картинка.

Авторы предлагают похожий алгоритм, но вместо картинок модель будет итеративно улучшать перевод текста. Они обучают неавторегрессионную модель, похожую на VAE, которая сопоставляет тексту непрерывный вектор z, а потом итеративно улучшают этот вектор в сторону увеличения правдоподобия перевода.

Хорошая новость в том, что такой подход работает в 5+ раз быстрее, чем beam search и уступает обычному трансформеру всего около -1 BLEU (WMT En-De, IWSLT De-En, WMT Ro-En). Плохая новость — обычный трансформер существует уже больше трех лет, и за это время люди научились выжимать из него намного больше качества и скорости, чем в исходной статье. Сравнения с актуальными модификациями (или даже с другими методами неавторегрессионного перевода) авторы тактично избегают.

8. Embedding Words in Non-Vector Space with Unsupervised Graph Learning

https://www.aclweb.org/anthology/2020.emnlp-main.594.pdf

Статья от нашей команды Yandex Research. В ней коллеги предлагают новый метод для получения unsupervised-представлений слов, в котором вместо векторных эмбеддингов обучаются веса и вероятности ребер в графе слов. Такие представления работают лучше векторных на задачах word similarity и word analogy, а также обладают интересными структурными свойствами: соответствие важных вершин частотным и связующим словам, похожая на WordNet иерархия и нетривиальная геометрия (есть подграфы, близкие и к деревьям, и к кликам).


Источник: www.aclweb.org

Комментарии: