BERT ?-? коротко о главном

2022-09-20 06:39

компьютерная лингвистика, алгоритмы машинного обучения

Предварительно обученные модели представления языка

Существует два способа использования предобученных языковых моделей: извлечение признаков (feature-based), когда представления предварительно обученной модели используются в качестве дополнительных функций для архитектуры другой модели, и точная настройка (fine-tuning), при которой языковые представления используются для конкретных задач после точной настройки всех предварительно обученных параметров модели.

Знакомство с BERT

BERT (Bidirectional Encoder Representation Transformers), в переводе на русский “двунаправленная нейронная сеть-кодировщик” — модель представления языка, которая предназначена для предварительного обучения глубоких двунаправленных представлений на простых немаркированных текстах путем совмещения левого и правого контекстов во всех слоях. Это позволяет настраивать предварительно обученную модель BERT с помощью лишь одного дополнительного выходного слоя и получать наиболее актуальные результаты для широкого спектра задач.

Стандартные модели представления языка, существовавшие до BERT, например OpenAI GPT (генеративный предварительно обученный трансформатор), были однонаправленными. Это ограничивало выбор архитектур, которые можно использовать для предварительного обучения. Например, в OpenAI GPT каждый токен мог обслуживать только предыдущий токен (слева направо) в слое внутреннего внимания модели.

Такой подход создает ряд ограничений, поэтому для предварительного обучения BERT используют маскированную языковую модель (MLM): случайным образом маскируется некоторое количество токенов во входных данных, затем модель должна предсказать исходное значение замаскированных слов, исходя из контекста. Это предоставляет возможность совмещать левый и правый контексты, что в свою очередь позволяет предварительно обучить двунаправленную модель представлений.

Реализация

В структуре BERT есть два этапа:

1. Предварительное обучение — модель обучается на немаркированных данных, выполняя различные задачи.

2. Точная настройка — модель загружается с предварительно обученными параметрами и обучается на помеченных данных из последующих задач.

Source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Представления на входе и выходе

Чтобы BERT научился обрабатывать различные задачи, на входе можно подавать как одно, так и пару предложений в одной и той же последовательности токенов. Модель использует эмбеддинг WordPiece со словарным запасом в 30 000 токенов. Первый токен в каждой последовательности — это специальный токен для классификации предложения [CLS], окончательное скрытое состояние которого используется в качестве представления совокупной последовательности для задач классификации. Предложения в последовательности различают двумя способами. Можно разделять их с помощью специального токена [SEP], а можно добавить заученный эмбеддинг к каждому токену, чтобы указать, принадлежит ли он предложению A или предложению B. Последний скрытый вектор специального токена обозначается как C, а последний скрытый вектор некоторого входного токенаi обозначается как Ti.

Для данного токена его входное представление строится путем суммирования соответствующих эмбеддингов токена, сегмента и позиции.

Задачи предварительного обучения

Задача 1 — маскированная языковая модель (MLM)

Стандартные модели можно обучать только слева направо или справа налево, в свою очередь двунаправленное обусловливание позволяет каждому слову непоследовательно видеть себя, а модель может тривиально предсказывать следующее слово в многослойном контексте. Чтобы обучить глубокое двунаправленное представление, случайный процент (15% в рассматриваемом примере) входных токенов маскируют и тренируют нейросеть предсказывать закрытые маской токены. Финальные скрытые векторы, соответствующие маскированным токенам, передаются в выходной softmax слой из словаря. Однако в результате получается несогласованность между предварительным обучением и точной настройкой, поскольку токен, используемый для маскировки [MASK], не появляется во время точной настройки. Чтобы исправить этот недостаток, маскированный токен заменяется на [MASK] в 80% случаев, заменяется случайным токеном в 10% случаев и остается неизменным в 10% случаев.

Задача 2 — предсказание следующего предложения (NSP)

Многие последующие задачи основаны на понимании отношений между предложениями. Это в какой-то степени отражает суть языкового моделирования. Чтобы обучить модель понимать отношения между предложениями, ее предварительно обучают бинаризованной задаче прогнозирования следующего предложения. При подготовке примеров предложений A и B для предварительного обучения в 50% случаев B — это фактическое следующее предложение, которое следует за A, а в 50% случаев B — случайное предложение из корпуса.

Данные для предварительного обучения

Корпуса, используемые для предварительного обучения:

1. BooksCorpus (800 млн слов)

2. English Wikipedia (2500 млн слов)

Точная настройка BERT

В BERT точная настройка выполняется путем простой замены соответствующих входных и выходных данных в зависимости от того, включают ли последующие задачи один текст или текстовые пары. Для каждой конкретной задачи подключают входные и выходные данные соответственно и полностью настраивают модель.

Результат предварительного обучения

No NSP обучается без задачи прогнозирования следующего предложения. LTR & No NSP обучается как LM слева направо без задачи предсказания следующего предложения, как OpenAI GPT.

+ BiLSTM добавляет случайно инициализированный BiLSTM поверх модели LTR + No NSP во время точной настройки.

Влияние параметров архитектуры модели

#L = количество слоев; #H = скрытый размер; #A = количество голов внимания. LM (ppl) — это степень неопределенности маскированной языковой модели LM удерживаемых обучающих данных.

Помимо этого в источнике подробно описываются несколько экспериментов с метриками BERT и feature-based подходк использованию BERT, которые мы не рассматриваем в этой статье.

BERT позволяет одной и той же предварительно обученной модели успешно решать самые разные задачи НЛП, такие как классификация текста, обнаружение сходства и многие другие.

Источник: nuancesprog.ru



		BERT ?-? коротко о главном
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-09-20 06:39 компьютерная лингвистика, алгоритмы машинного обучения Предварительно обученные модели представления языка Существует два способа использования предобученных языковых моделей: извлечение признаков (feature-based), когда представления предварительно обученной модели используются в качестве дополнительных функций для архитектуры другой модели, и точная настройка (fine-tuning), при которой языковые представления используются для конкретных задач после точной настройки всех предварительно обученных параметров модели. Знакомство с BERT BERT (Bidirectional Encoder Representation Transformers), в переводе на русский “двунаправленная нейронная сеть-кодировщик” — модель представления языка, которая предназначена для предварительного обучения глубоких двунаправленных представлений на простых немаркированных текстах путем совмещения левого и правого контекстов во всех слоях. Это позволяет настраивать предварительно обученную модель BERT с помощью лишь одного дополнительного выходного слоя и получать наиболее актуальные результаты для широкого спектра задач. Стандартные модели представления языка, существовавшие до BERT, например OpenAI GPT (генеративный предварительно обученный трансформатор), были однонаправленными. Это ограничивало выбор архитектур, которые можно использовать для предварительного обучения. Например, в OpenAI GPT каждый токен мог обслуживать только предыдущий токен (слева направо) в слое внутреннего внимания модели. Такой подход создает ряд ограничений, поэтому для предварительного обучения BERT используют маскированную языковую модель (MLM): случайным образом маскируется некоторое количество токенов во входных данных, затем модель должна предсказать исходное значение замаскированных слов, исходя из контекста. Это предоставляет возможность совмещать левый и правый контексты, что в свою очередь позволяет предварительно обучить двунаправленную модель представлений. Реализация В структуре BERT есть два этапа: 1. Предварительное обучение — модель обучается на немаркированных данных, выполняя различные задачи. 2. Точная настройка — модель загружается с предварительно обученными параметрами и обучается на помеченных данных из последующих задач. Source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Представления на входе и выходе Чтобы BERT научился обрабатывать различные задачи, на входе можно подавать как одно, так и пару предложений в одной и той же последовательности токенов. Модель использует эмбеддинг WordPiece со словарным запасом в 30 000 токенов. Первый токен в каждой последовательности — это специальный токен для классификации предложения [CLS], окончательное скрытое состояние которого используется в качестве представления совокупной последовательности для задач классификации. Предложения в последовательности различают двумя способами. Можно разделять их с помощью специального токена [SEP], а можно добавить заученный эмбеддинг к каждому токену, чтобы указать, принадлежит ли он предложению A или предложению B. Последний скрытый вектор специального токена обозначается как `C`, а последний скрытый вектор некоторого входного токена`i` обозначается как `Ti`. Для данного токена его входное представление строится путем суммирования соответствующих эмбеддингов токена, сегмента и позиции. Source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Задачи предварительного обучения Задача 1 — маскированная языковая модель (MLM) Стандартные модели можно обучать только слева направо или справа налево, в свою очередь двунаправленное обусловливание позволяет каждому слову непоследовательно видеть себя, а модель может тривиально предсказывать следующее слово в многослойном контексте. Чтобы обучить глубокое двунаправленное представление, случайный процент (15% в рассматриваемом примере) входных токенов маскируют и тренируют нейросеть предсказывать закрытые маской токены. Финальные скрытые векторы, соответствующие маскированным токенам, передаются в выходной softmax слой из словаря. Однако в результате получается несогласованность между предварительным обучением и точной настройкой, поскольку токен, используемый для маскировки [MASK], не появляется во время точной настройки. Чтобы исправить этот недостаток, маскированный токен заменяется на [MASK] в 80% случаев, заменяется случайным токеном в 10% случаев и остается неизменным в 10% случаев. Задача 2 — предсказание следующего предложения (NSP) Многие последующие задачи основаны на понимании отношений между предложениями. Это в какой-то степени отражает суть языкового моделирования. Чтобы обучить модель понимать отношения между предложениями, ее предварительно обучают бинаризованной задаче прогнозирования следующего предложения. При подготовке примеров предложений `A` и `B` для предварительного обучения в 50% случаев `B` — это фактическое следующее предложение, которое следует за `A`, а в 50% случаев `B` — случайное предложение из корпуса. Данные для предварительного обучения Корпуса, используемые для предварительного обучения: 1. BooksCorpus (800 млн слов) 2. English Wikipedia (2500 млн слов) Точная настройка BERT В BERT точная настройка выполняется путем простой замены соответствующих входных и выходных данных в зависимости от того, включают ли последующие задачи один текст или текстовые пары. Для каждой конкретной задачи подключают входные и выходные данные соответственно и полностью настраивают модель. Результат предварительного обучения Source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding No NSP обучается без задачи прогнозирования следующего предложения. LTR & No NSP обучается как LM слева направо без задачи предсказания следующего предложения, как OpenAI GPT. + BiLSTM добавляет случайно инициализированный BiLSTM поверх модели LTR + No NSP во время точной настройки. Влияние параметров архитектуры модели Source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding #L = количество слоев; #H = скрытый размер; #A = количество голов внимания. LM (ppl) — это степень неопределенности маскированной языковой модели LM удерживаемых обучающих данных. Помимо этого в источнике подробно описываются несколько экспериментов с метриками BERT и feature-based подходк использованию BERT, которые мы не рассматриваем в этой статье. BERT позволяет одной и той же предварительно обученной модели успешно решать самые разные задачи НЛП, такие как классификация текста, обнаружение сходства и многие другие. Источник: nuancesprog.ru Комментарии:

BERT ?-? коротко о главном

Комментарии: