ACL — ведущая научная конференция по компьютерной лингвистике, которая проводится с 1962 года.

2020-08-20 15:31

ACL — ведущая научная конференция по компьютерной лингвистике, которая проводится с 1962 года. Она охватывает разные области, связанные с обработкой естественного языка, и ежегодно собирает несколько тысяч талантливых исследователей и специалистов из индустрии со всего мира. В этом году, как и другие масштабные мероприятия, ACL прошла полностью в онлайн-формате. Было представлено 779 статей — наша команда Yandex Research выбрала из них несколько работ, с которыми обязательно стоит ознакомиться ML-специалистам, и подготовила их краткий обзор.

1. Stolen Probability: A Structural Weakness of Neural Language Models

https://www.aclweb.org/anthology/2020.acl-main.198.pdf

В статье рассматривается вопрос оптимальности скалярного произведения как способа вычислять логиты для слов в задаче языкового моделирования. Оказывается, при использовании softmax от произведения матрицы весов на скрытый вектор для вычисления вероятностей слов мы накладываем на модель структурное ограничение.

Авторы доказали, что для слов, эмбеддинги которых лежат внутри выпуклой оболочки всех эмбеддингов, предсказываемая вероятность всегда меньше, чем у слов с эмбеддингами на границе выпуклой оболочки. Существование этого эффекта подтверждается экспериментами: при прогоне обученной языковой модели на подвыборке действительно оказывается, что слова попадают внутрь выпуклой оболочки эмбеддингов и имеют вероятность строго ниже, чем слова на её границе.

2. AdvAug: Robust Adversarial Augmentation for Neural Machine Translation

https://www.aclweb.org/anthology/2020.acl-main.529.pdf

Новый способ аугментации данных для seq2seq-задач — помимо повышения устойчивости модели посредством адверсариального обучения, используется похожий на Mixup подход. При обучении, помимо генерации адверсариальных примеров, мы смешиваем эмбеддинги исходного примера и его adversarial-варианта и понижаем KL-дивергенцию предсказаний модели для смеси и оригинальной пары (x,y). Такой же способ смешивания данных используется для пар обучающих примеров: если формировать батч из предложений одной длины, процедура корректна и сама по себе улучшает качество. В экспериментах авторы показывают преимущество такого способа по сравнению с другими моделями, которые используют адверсариальное обучение.

3. Weight Poisoning Attacks on Pretrained Models

https://www.aclweb.org/anthology/2020.acl-main.249.pdf

В NLP последние пару лет популярен подход с обучением большой модели на неразмеченных данных и последующим файнтьюном на маленьких размеченных датасетах, причём зачастую компании выкладывают в открытый доступ предобученные веса для использования всеми желающими. Авторы статьи показывают, что такой подход может быть небезопасен для конечного использования: можно включить в предобученную модель уязвимость, которую не устранит даже этап файнтюна. Это значит, что таким образом можно успешно заставить модель менять предсказание в задачах анализа тональности, обнаружения токсичности и обнаружения спама.

4. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

https://www.aclweb.org/anthology/2020.acl-main.703.pdf

Новый подход для предобучения Transformer-моделей — обучение и энкодера, и декодера на нескольких задачах восстановления текста по зашумлённому входу. В числе этих задач есть как привычные token masking / token deletion, так и более интересная text infilling: заменяем последовательность идущих подряд токенов (может быть длины 0) на один токен [MASK] и обучаем модель таким образом предсказывать в том числе длину пропуска. Получили преимущество над другими подходами как для дискриминативных задач (датасет GLUE), так и для генеративных (в том числе установили новый state-of-the-art по суммаризации).

5. Masked Language Model Scoring

https://www.aclweb.org/anthology/2020.acl-main.240.pdf

Есть «BERT-овый» способ оценить вероятность предложения — выкидывать по одному слову и считать лосс, а потом сложить лоссы для всех слов. Оказывается, этот метод очень хорош для того, чтобы оценить «складность» предложения (fluency). Он даже лучше, чем лосс обычной языковой модели. В частности с ним лучше:

— Распознавание речи. Если взять топ-k гипотез и перевзвесить по «BERT-овому» скору, получится снизить wer лучше, чем от языковой модели. Репортят -30% WER на LibriSpeech.

— Машинный перевод. Если взять топ-k гипотез перевода для языковой модели и перевзвесить по их скору, прирост качества будет лучше, чем от обычного лосса gpt-2, в частности, до +1.7 BLEU на low- to medium- resource MT.

— В целом, по такому скору можно хорошо судить о качестве BERT для downstream задач. Но есть очевидный недостаток — такой скор вычислительно сложнее, чем у обычной языковой модели.

6. Reverse Engineering Configurations of Neural Text Generation Models

https://www.aclweb.org/anthology/2020.acl-main.25.pdf

Предположим, что появился новый сервис, который очень хорошо решает какую-нибудь задачу, например машинный перевод. Можно ли, посмотрев примеры перевода, узнать, какая используется модель и какие параметры? Авторы утверждают, что отчасти можно. Достаточно простой классификатор может уверенно предсказывать размер модели и способ инференса (sampling / nucleous / top-k) по выборке текстов этой модели. То есть при желании можно обучить такой классификатор на наборе популярных моделей и узнать, какая именно модель используется.

7. Unsupervised Paraphrasing by Simulated Annealing

https://www.aclweb.org/anthology/2020.acl-main.28.pdf

Авторы предлагают итеративный процесс (отжиг), который генерирует множество предложений, похожих на заданное. Качество (визуально и по метрикам paraphrase generation) очень хорошее. Минус предложенного подхода в том, что он зависит от нескольких эвристик и непонятно, нужно ли в них что-нибудь менять, если вы работаете на другом языке.

8. Evaluating Explanation Methods for Neural Machine Translation

https://www.aclweb.org/anthology/2020.acl-main.35.pdf

Есть несколько способов понять (объяснить), почему нейросеть сказала то, что она сказала — нужно использовать attention, выкидывать по одному слову или считать градиенты. Только непонятно, что из этого работает лучше. Авторы предлагают автоматическую метрику для оценки качества объяснений, с помощью которой можно выбрать лучшее объяснение для конкретной задачи или языковой пары.

9. In Neural Machine Translation, What Does Transfer Learning Transfer?

https://www.aclweb.org/anthology/2020.acl-main.688.pdf

При обучении перевода между языками с маленьким параллельным корпусом (low-resource), можно взять модель, обученную на другой языковой паре, и использовать её как инициализацию. Авторы задаются вопросом, а как правильно делать такой перенос? Если быть точнее — какие слои содержат больше полезной информации?

Получилось два вывода:

1. Переносить промежуточные слои (self-attn/ffn) полезно даже без эмбеддингов. Хотя эмбеддинги и улучшают качество, если они у вас есть для нужного языка.

2. Сами эмбеддинги «учителя» лучше заранее построить на общем словаре, который покрывает оба языка. Ну или хотя бы аккуратно провязать, чтобы одинаковые слова совпали. Если общих слов нет, можно хотя бы сопоставить токены по частоте — это всё равно лучше, чем рандом.

10. BPE-Dropout: Simple and Effective Subword Regularization

https://www.aclweb.org/anthology/2020.acl-main.170.pdf

Статья от нашего подразделения Yandex Research. В ней коллеги предложили модификацию к стандартной процедуре сегментации слов на подслова — BPE. Во время применения merge-операций случайно выкидываются некоторые из них, что позволяет получить много различных разбиений для одного и того же слова. Модели, обученные с этим алгоритмом, заметно повышают качество, особенно на маленьких корпусах, имеют лучшее качество обученных представлений, а также они устойчивее к шумному входу (опечаткам).

Источник: www.aclweb.org

ACL — ведущая научная конференция по компьютерной лингвистике, которая проводится с 1962 года.

Комментарии: