Pythia: набор из 16 LLM для углубленных исследований

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Сегодня большие языковые модели и чат-боты на базе LLM, такие как ChatGPT и GPT-4, хорошо интегрировались в нашу повседневную жизнь.

Однако модели автоагрессивного преобразователя, состоящие только из декодера, широко использовались для генеративных приложений НЛП задолго до того, как приложения LLM стали мейнстримом. Может быть полезно понять, как они развиваются во время обучения и как меняется их производительность по мере масштабирования.

Pythia, проект Eleuther AI, представляет собой набор из 16 больших языковых моделей, обеспечивающих воспроизводимость для изучения, анализа и дальнейших исследований. Эта статья представляет собой введение в Pythia.

Что предлагает люкс «Пифия»?

Как уже упоминалось, Pythia представляет собой набор из 16 больших языковых моделей, моделей авторегрессионных преобразователей только для декодеров, обученных на общедоступном наборе данных. Модели пакета имеют размеры от 70М до 12Б параметров.

  • Весь пакет обучался на одних и тех же данных в одном и том же порядке. Это способствует воспроизводимости тренировочного процесса. Таким образом, мы можем не только воспроизвести конвейер обучения, но также проанализировать языковые модели и углубленно изучить их поведение.
  • Он также предоставляет возможности для загрузки загрузчиков обучающих данных и более 154 контрольных точек моделей для каждой из 16 языковых моделей.

Данные обучения и процесс обучения

Теперь давайте углубимся в детали пакета Pythia LLM.

Набор обучающих данных

Пакет Pythia LLM был обучен на следующих наборах данных:

  •  Набор данных в стопке с 300B токенами
  •  Дедуплицированный набор данных Pile с 207B токенами.

Существует 8 различных размеров моделей, самая маленькая и самая большая модели имеют параметры 70M и 12B соответственно. Другие размеры моделей включают 160M, 410M, 1B, 1,4B, 2,8B и 6,9B.

Каждая из этих моделей была обучена как на Pile, так и на дедуплицированных наборах данных Pile, в результате чего в общей сложности получилось 16 моделей. В следующей таблице показаны размеры модели и подмножество гиперпараметров.

Полную информацию об используемых гиперпараметрах можно найти в статье Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании.

Тренировочный процесс

Вот обзор архитектуры и процесса обучения:

  • Набор данных в стопке с 300B токенами
  • Дедуплицированный набор данных Pile с 207B токенами.

Существует 8 различных размеров моделей, самая маленькая и самая большая модели имеют параметры 70M и 12B соответственно. Другие размеры моделей включают 160M, 410M, 1B, 1,4B, 2,8B и 6,9B.

Каждая из этих моделей была обучена как на Pile, так и на дедуплицированных наборах данных Pile, в результате чего в общей сложности получилось 16 моделей. В следующей таблице показаны размеры модели и подмножество гиперпараметров.

Полную информацию об используемых гиперпараметрах можно найти в статье Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании.

Тренировочный процесс

Вот обзор архитектуры и процесса обучения:

  • Все модели имеют полностью плотные слои и требуют мгновенного внимания.
  • Для облегчения интерпретации используются несвязанные матрицы вложения.
  • Размер пакета 1024 используется с длиной последовательности 2048. Этот большой размер пакета существенно сокращает время обучения настенных часов.
  • В процессе обучения также используются методы оптимизации, такие как параллелизм данных и тензорный параллелизм.

Для процесса обучения используется библиотека GPT-Neo-X (включает функции библиотеки DeepSpeed), разработанная Eleuther AI.

Модель контрольно-пропускного пункта

Для каждой модели предусмотрено 154 КПП. На каждые 1000 итераций приходится одна контрольная точка. Кроме того, на ранних этапах процесса обучения через определенные интервалы времени имеются контрольные точки: 1, 2, 4, 8, 16, 32, 64, 128, 256 и 512.

Чем Pythia отличается от других языковых моделей?

Пакет Pythia LLM оценивался по доступным тестам языкового моделирования, включая вариант LAMBADA от OpenAI. Было обнаружено, что производительность Pythia сравнима с языковыми моделями OPT и BLOOM.

Преимущества и ограничения

Ключевым преимуществом пакета Pythia LLM является воспроизводимость. Набор данных общедоступен, предварительно токенизированные загрузчики данных и 154 контрольные точки модели также общедоступны. Также опубликован полный список гиперпараметров. Это упрощает копирование обучения и анализа модели.

В [1] авторы объясняют причину выбора набора данных на английском языке вместо многоязычного текстового корпуса. Но наличие воспроизводимых конвейеров обучения для многоязычных моделей большого языка может оказаться полезным. Особенно в поощрении большего количества исследований и изучения динамики многоязычных моделей большого языка.

Преимущества и ограничения

Ключевым преимуществом пакета Pythia LLM является воспроизводимость. Набор данных общедоступен, предварительно токенизированные загрузчики данных и 154 контрольные точки модели также общедоступны. Также опубликован полный список гиперпараметров. Это упрощает копирование обучения и анализа модели.

В [1] авторы объясняют причину выбора набора данных на английском языке вместо многоязычного текстового корпуса. Но наличие воспроизводимых конвейеров обучения для многоязычных моделей большого языка может оказаться полезным. Особенно в поощрении большего количества исследований и изучения динамики многоязычных моделей большого языка.

Обзор тематических исследований

В исследовании также представлены интересные тематические исследования, использующие воспроизводимость процесса обучения больших языковых моделей в пакете Pythia.

Гендерная предвзятость

Все большие языковые модели склонны к предвзятости и дезинформации. Исследование направлено на смягчение гендерных предубеждений путем изменения данных предварительного обучения таким образом, чтобы фиксированный процент имел местоимения определенного пола. Эту предварительную подготовку также можно воспроизвести.

Запоминание

Запоминание в больших языковых моделях — еще одна область, широко изучаемая. Запоминание последовательности моделируется как точечный процесс Пуассона. Исследование направлено на то, чтобы понять, влияет ли расположение конкретной последовательности в наборе обучающих данных на запоминание. Было замечено, что местоположение не влияет на запоминание.

Влияние периодичности сроков предварительной подготовки

Было обнаружено, что для языковых моделей с параметрами 2,8B и выше появление терминов, специфичных для задачи, в корпусе предварительного обучения улучшает производительность модели при выполнении таких задач, как ответы на вопросы.

Существует также корреляция между размером модели и производительностью при выполнении более сложных задач, таких как арифметика и математические рассуждения.

Резюме и следующие шаги

Подведем итоги ключевых моментов нашей дискуссии.

  • Pythia от Eleuther AI — это набор из 16 LLM, обученных на общедоступных и дедуплицированных наборах данных Pile.
  • Размер LLM варьируется от 70M до 12B параметров.
  • Данные обучения и контрольные точки модели находятся в открытом исходном коде, и можно восстановить точные загрузчики обучающих данных. Таким образом, пакет LLM может помочь лучше понять динамику обучения больших языковых моделей.

Источник: www.kdnuggets.com

Комментарии: