LaserTagger: state-of-the-art модель для генерации текста от Google AI

2020-02-03 13:10

LaserTagger — это нейросетевая модель для генерации текста, которая размечает входную последовательность. Нейросеть рассматривает задачу генерации текста как задачу редактирования текста. Целевые тексты восстанавливаются из входных текстов с помощью трех операций редактирования: оставить токен, удалить токен и добавить фразу до токена. LaserTagger предсказывает, какие операции необходимо провести на входном тексте, чтобы восстановить целевую последовательность.

Модель комбинирует в себе энкодер из BERT с авторегрессионным декодером из архитектуры трансформера. Исследователи оценили нейросеть на четырех задачах: объединение предложений (sentence fusion), разбиение на предложения (sentence splitting), абстрактивная суммаризация и корректирование грамматики. LaserTagger обошел state-of-the-art модели на трех из четырех задачах. Нейросеть в особенности подходит для случаев, когда данные для обучения ограничены в размере. Кроме того, на инференсе модель в два раза быстрее, чем сравнимые seq2seq подходы.

Описание проблемы

Sequence-to-sequence (seq2seq) модели популярны для задач машинного перевода и генерации текста. Несмотря на это, у текущих моделей есть ряд ограничений, которые варьируются в зависимости от задачи:

Генерация последовательностей, которые не связаны с входным текстом (галлюцинации);
Необходимость в обучающих выборках большого размера, чтобы модель генерировала связный текст;
Низкая скорость моделей на инференсе, что связано с тем, что они генерируют последовательность токен за токеном

LaserTagger справляется с последним ограничением так, что итоговая последовательность генерируется на основе операций с входной последовательностью. Такой подход позволяет сократить время, которое модель тратит на выдачу целевой последовательности.

Что внутри LaserTagger

Отличительной характеристикой большинства задач генерации текста является схожесть входной и целевой последовательностей. LaserTagger использует эту характеристику в своей архитектуре. Энкодер модели заимствовали у BERT. Он состоит из 12 слоев. Декодер модели, в свою очередь, взяли из Transformer архитектуры.

Тестирование работы модели

Исследователи сравнили LaserTagger с seq2seq моделью, основанной на BERT, и с Transformer. Для случаев, когда количество обучающих данных ограничено, LaserTagger обходит seq2seq модель.

Сравнение моделей в зависимости от количества примеров в обучающей выборке на задаче WikiSplit

Результаты сравнения моделей на задаче DfWiki

Источник: neurohive.io



		LaserTagger: state-of-the-art модель для генерации текста от Google AI
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-02-03 13:10 компьютерная лингвистика, ИИ проекты LaserTagger — это нейросетевая модель для генерации текста, которая размечает входную последовательность. Нейросеть рассматривает задачу генерации текста как задачу редактирования текста. Целевые тексты восстанавливаются из входных текстов с помощью трех операций редактирования: оставить токен, удалить токен и добавить фразу до токена. LaserTagger предсказывает, какие операции необходимо провести на входном тексте, чтобы восстановить целевую последовательность. Модель комбинирует в себе энкодер из BERT с авторегрессионным декодером из архитектуры трансформера. Исследователи оценили нейросеть на четырех задачах: объединение предложений (sentence fusion), разбиение на предложения (sentence splitting), абстрактивная суммаризация и корректирование грамматики. LaserTagger обошел state-of-the-art модели на трех из четырех задачах. Нейросеть в особенности подходит для случаев, когда данные для обучения ограничены в размере. Кроме того, на инференсе модель в два раза быстрее, чем сравнимые seq2seq подходы. Описание проблемы Sequence-to-sequence (seq2seq) модели популярны для задач машинного перевода и генерации текста. Несмотря на это, у текущих моделей есть ряд ограничений, которые варьируются в зависимости от задачи: Генерация последовательностей, которые не связаны с входным текстом (галлюцинации); Необходимость в обучающих выборках большого размера, чтобы модель генерировала связный текст; Низкая скорость моделей на инференсе, что связано с тем, что они генерируют последовательность токен за токеном LaserTagger справляется с последним ограничением так, что итоговая последовательность генерируется на основе операций с входной последовательностью. Такой подход позволяет сократить время, которое модель тратит на выдачу целевой последовательности. Что внутри LaserTagger Отличительной характеристикой большинства задач генерации текста является схожесть входной и целевой последовательностей. LaserTagger использует эту характеристику в своей архитектуре. Энкодер модели заимствовали у BERT. Он состоит из 12 слоев. Декодер модели, в свою очередь, взяли из Transformer архитектуры. Визуализация архитектуры нейросети Тестирование работы модели Исследователи сравнили LaserTagger с seq2seq моделью, основанной на BERT, и с Transformer. Для случаев, когда количество обучающих данных ограничено, LaserTagger обходит seq2seq модель. Сравнение моделей в зависимости от количества примеров в обучающей выборке на задаче WikiSplit Результаты сравнения моделей на задаче DfWiki Источник: neurohive.io Комментарии:

LaserTagger: state-of-the-art модель для генерации текста от Google AI

Комментарии: