Самое быстрое время обучения Берта и самый большой трансформатор на основе модели, прокладывая путь для продвинутого разговорного AI

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


NVIDIA DGX SuperPOD тренирует BERT-Large всего за 53 минуты и тренирует GPT-2 8B, самую большую трансформаторную сеть с параметрами 8.3 Bn

Разговорный ИИ является важным строительным блоком взаимодействия человека с интеллектуальными машинами и приложениями – от роботов и автомобилей до домашних помощников и мобильных приложений. Получение компьютеров для понимания человеческих языков со всеми их нюансами и адекватного реагирования уже давно является “святым Граалем” исследователей ИИ. Но создание систем с истинными возможностями обработки естественного языка (НЛП) было невозможно до появления современных методов искусственного интеллекта, основанных на ускоренных вычислениях.

Мы, люди, обладаем языковыми сверхдержавами, придающими при общении как нюанс, так и более широкий смысл. Хотя было много подходов к обработке естественного языка, человекоподобные языковые способности оставались неуловимой целью для ИИ. С приходом массивных трансформаторных языковых моделей, таких как BERT (двунаправленные представления Кодера от Transformer) и модели GPT-2 (Generative Pretrained Transformer 2) с 1 миллиард плюс параметр, мы видим быстрый прогресс в решении сложных задач понимания языка.

В этом блоге мы расскажем о последних достижениях NVIDIA в двух самых современных сетях НЛП: BERT и 8,3-миллиардной параметрической версии модели GPT-2, известной как GPT-2 8B, крупнейшая трансформаторная сеть, когда-либо обученная. Мы также рассмотрим последние записи производительности GPU, которые показывают, почему графические процессоры excel в качестве инфраструктурной платформы для этих современных моделей.

Берт зажигает новую волну точных языковых моделей

Берт может быть точно настроен для многих задач НЛП. Он идеально подходит для понимания языков, таких как перевод, вопросы и ответы, анализ настроений и классификация предложений. BERT и модели, основанные на архитектуре Transformer, такие как XLNet и RoBERTa, соответствовали или даже превысили производительность людей на популярных тестовых тестах, таких как SQuAD (для оценки вопросов и ответов) и GLUE (для общего понимания языка в различных задачах).

Ключевым преимуществом BERT является то, что его не нужно предварительно обучать с помощью помеченных данных, поэтому он может учиться использовать любой простой текст. Это преимущество открывает двери для массивных наборов данных, что, в свою очередь, еще больше повышает точность. Например, Берт, как правило, предварительно обучается на конкатенации BooksCorpus (800 миллионов слов) и английской Википедии (2,5 миллиарда слов), чтобы сформировать общий набор данных из 3,3 миллиарда слов.

Сложность модели является еще одним атрибутом трансформаторных сетей, который повышает точность НЛП. Сравнение двух разных версий BERT показывает корреляцию между размером модели и производительностью: BERTBASE была создана со 110 миллионами параметров, в то время как BERT-Large, достигла в среднем 3% улучшения показателей клея с 340 миллионами параметров. Ожидается, что эти модели будут продолжать расти для повышения точности языка.

Тензорные графические процессоры Nvidia Core Train BERT менее чем за час

Nvidia DGX SuperPOD с 92 узлами DGX-2H установил новый рекорд по обучению BERT-Large всего за 53 минуты. Этот рекорд был установлен с использованием графических процессоров 1,472 V100 SXM3-32GB 450W и 8 вычислительных адаптеров Mellanox Infiniband на узел, с автоматической смешанной точностью для ускорения пропускной способности, используя рецепт обучения в этой статье . Для исследователей с доступом только к одному узлу, сервер DGX-2 с 16 V100s обучен Берт-большой менее чем за 3 дня. В приведенной ниже таблице показано время обучения BERT-Large для различных графических процессоров и показано эффективное масштабирование по мере увеличения количества узлов:

BERT - большое время обучения на графических процессорах

Time 

System

Number of Nodes

Number of V100 GPUs

53 мин

DGX SuperPOD

92 x DGX-2H

1,472

67 мин

DGX SuperPOD

64 x DGX-2H

1,024

236 мин

DGX SuperPOD

16 x DGX-2H

256

При работе на Суперподе DGX 64 узла достигают 88% эффективности масштабирования по сравнению с 16 узлами при обучении BERT-Large. Производительность GPU продолжает хорошо масштабироваться для дальнейшего достижения 92-узла, 53-минутный рекорд.

Один узел DGX-2H имеет 2 петафлопса вычислительных возможностей AI для обработки сложных моделей. Большой размер модели BERT требует огромного объема памяти, и каждый узел DGX-2H обеспечивает 0.5 TB памяти GPU с высокой пропускной способностью в общей сложности 46TB для всего кластера DGX SuperPOD для этого запуска. Технологии NVIDIA interconnect, такие как NVLink, NVSwitch и Mellanox Infiniband, обеспечивают высокую пропускную способность для эффективного масштабирования. Сочетание графических процессоров с большим количеством вычислительной мощности и высокой пропускной способностью доступа к большому количеству DRAM и технологий быстрого соединения делает платформу центра обработки данных NVIDIA оптимальной для значительного ускорения сложных сетей, таких как BERT.

GPT-2 8B: самая большая модель языка основанная трансформатором всегда

Другая категория языковых моделей на основе трансформаторов используется для моделирования генеративного языка. Эти модели предназначены для прогнозирования и генерации текста (например, - написать следующее предложение в документе, заданном начальным абзацем). Недавно модель GPT-2 с 1,5 миллиардами параметров показала, что масштабирование до больших генеративных размеров с немаркированными наборами данных, даже большими, чем те, которые используются Бертом, приводит к современным моделям, которые генерируют согласованный и значимый текст.

Сложность модели взрыва-количество параметров по Сети

Чтобы исследовать эти огромные более миллиарда трансформаторных сетей, Nvidia Research запустила проект Megatron. Это попытка создать крупнейшие трансформаторные модели для современного НЛП. Модель GPT-2 с 1,5 миллиардами параметров была масштабирована до еще большей языковой модели трансформатора параметров 8,3 миллиарда: GPT-2 8B. Модель была обучена с использованием собственного PyTorch с 8-позиционным параллелизмом модели и 64-позиционным параллелизмом данных на 512 графических процессорах. GPT-2 8B самая большая трансформатор-основанная модель языка всегда натренированная, на 24x размер BERT и 5.6 x размер GPT-2 .

Эксперименты проводились на Nvidia DGX SuperPOD, с базовой моделью 1,2 миллиарда параметров, которая помещается на одном графическом процессоре V100. Запуск сквозного обучающего конвейера этой базовой модели на одном графическом процессоре достигает 39 терафлопс, что составляет 30% от теоретических пиковых провалов для этого графического процессора. Масштабирование модели до 8,3 миллиарда параметров на 512 графических процессорах с 8-позиционным параллелизмом модели, команда NVIDIA достигла до 15,1 петафлопс устойчивой производительности по всему приложению и достигла 76% эффективности масштабирования по сравнению с базовым уровнем.

Параллелизм модели по своей сути несет некоторые накладные расходы, что немного повлияло на эффективность масштабирования по сравнению с BERT, который может работать на одном графическом процессоре и не нуждается в параллелизме модели. На рисунке ниже показаны результаты масштабирования, а более подробную информацию о технических деталях можно найти в отдельном сообщении в блоге .

Производительность вычислений и эффективность масштабирования

Модели GPT-2 были обучены набору данных WebText размером 37 ГБ, загруженному из исходящих ссылок Reddit. На рисунке ниже показана недоумение проверки WebText как функция количества эпох для разных размеров модели. Мы находим эмпирически, что более крупные модели тренируются быстрее и приводят к лучшим результатам (более низкие затруднения проверки).

Аналогичное поведение наблюдается при оценке моделей в наборе данных wikitext-103 . Увеличение до 8,3 миллиарда параметров привело к заметному улучшению точности по сравнению с меньшими моделями и достигло недоумения wikitext 17.41. Это превосходит предыдущие результаты по тестовым данным wikitext, заданным Transformer-xl . Тем не менее, самая большая 8,3-миллиардная модель параметров начинает перегружаться после примерно шести эпох обучения, что можно смягчить, перейдя к еще более масштабным проблемам и наборам данных, аналогичным тем, которые используются в недавних работах, таких как XLNet и RoBERTa .

Проверка Webtext недоумение против эпох для различных размеров модели GPT-2

Будущее разговорного ИИ на платформе NVIDIA

Что приводит к массовым требованиям производительности языковых сетей на основе трансформаторов, таких как BERT и GPT-2 8B,-это их огромная сложность, а также предварительная подготовка к огромным наборам данных. Комбинация нуждается в надежной вычислительной платформе для обработки всех необходимых вычислений для быстрого выполнения и точности. Тот факт, что эти модели могут работать с массивными немаркированными наборами данных, сделал их центром инноваций для современного НЛП и, как следствие, сильным выбором для предстоящей волны интеллектуальных помощников с диалоговыми приложениями ИИ во многих случаях использования.

Платформа NVIDIA с ее тензорной базовой архитектурой обеспечивает программируемость для ускорения полного разнообразия современного ИИ, включая модели на основе трансформатора. Кроме того, масштабирование центра обработки данных и оптимизация DGX SuperPOD в сочетании с программными библиотеками и прямой поддержкой ведущих платформ AI обеспечивает бесшовную сквозную платформу для разработчиков, чтобы взять на себя самые сложные задачи НЛП.

Непрерывная оптимизация для ускорения обучения BERT и Transformer для графических процессоров на нескольких фреймворках свободно доступна на NGC, концентраторе NVIDIA для ускоренного программного обеспечения.

Nvidia TensorRT включает в себя оптимизацию для выполнения вывода в реальном времени на моделях BERT и больших трансформаторов. Чтобы узнать больше, ознакомьтесь с нашим блогом “ Real Time BERT Inference for Conversational AI”. Сегодня в репозитории NVIDIA BERT github есть код для воспроизведения одноузловой производительности обучения, цитируемой в этом блоге, и в ближайшем будущем репозиторий будет обновлен скриптами, необходимыми для воспроизведения крупномасштабных номеров производительности обучения. Для NLP-кода исследовательской группы NVIDIA в Project Megatron перейдите в репозиторий Megatron Language Model GitHub.


Источник: devblogs.nvidia.com

Комментарии: