Pythia: набор из 16 LLM для углубленных исследований |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-09-02 09:00 Сегодня большие языковые модели и чат-боты на базе LLM, такие как ChatGPT и GPT-4, хорошо интегрировались в нашу повседневную жизнь. Однако модели автоагрессивного преобразователя, состоящие только из декодера, широко использовались для генеративных приложений НЛП задолго до того, как приложения LLM стали мейнстримом. Может быть полезно понять, как они развиваются во время обучения и как меняется их производительность по мере масштабирования. Pythia, проект Eleuther AI, представляет собой набор из 16 больших языковых моделей, обеспечивающих воспроизводимость для изучения, анализа и дальнейших исследований. Эта статья представляет собой введение в Pythia. Что предлагает люкс «Пифия»? Как уже упоминалось, Pythia представляет собой набор из 16 больших языковых моделей, моделей авторегрессионных преобразователей только для декодеров, обученных на общедоступном наборе данных. Модели пакета имеют размеры от 70М до 12Б параметров.
Данные обучения и процесс обучения Теперь давайте углубимся в детали пакета Pythia LLM. Набор обучающих данных Пакет Pythia LLM был обучен на следующих наборах данных:
Существует 8 различных размеров моделей, самая маленькая и самая большая модели имеют параметры 70M и 12B соответственно. Другие размеры моделей включают 160M, 410M, 1B, 1,4B, 2,8B и 6,9B. Каждая из этих моделей была обучена как на Pile, так и на дедуплицированных наборах данных Pile, в результате чего в общей сложности получилось 16 моделей. В следующей таблице показаны размеры модели и подмножество гиперпараметров. Полную информацию об используемых гиперпараметрах можно найти в статье Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании. Тренировочный процесс Вот обзор архитектуры и процесса обучения:
Существует 8 различных размеров моделей, самая маленькая и самая большая модели имеют параметры 70M и 12B соответственно. Другие размеры моделей включают 160M, 410M, 1B, 1,4B, 2,8B и 6,9B. Каждая из этих моделей была обучена как на Pile, так и на дедуплицированных наборах данных Pile, в результате чего в общей сложности получилось 16 моделей. В следующей таблице показаны размеры модели и подмножество гиперпараметров. Полную информацию об используемых гиперпараметрах можно найти в статье Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании. Тренировочный процесс Вот обзор архитектуры и процесса обучения:
Для процесса обучения используется библиотека GPT-Neo-X (включает функции библиотеки DeepSpeed), разработанная Eleuther AI. Модель контрольно-пропускного пункта Для каждой модели предусмотрено 154 КПП. На каждые 1000 итераций приходится одна контрольная точка. Кроме того, на ранних этапах процесса обучения через определенные интервалы времени имеются контрольные точки: 1, 2, 4, 8, 16, 32, 64, 128, 256 и 512. Чем Pythia отличается от других языковых моделей? Пакет Pythia LLM оценивался по доступным тестам языкового моделирования, включая вариант LAMBADA от OpenAI. Было обнаружено, что производительность Pythia сравнима с языковыми моделями OPT и BLOOM. Преимущества и ограничения Ключевым преимуществом пакета Pythia LLM является воспроизводимость. Набор данных общедоступен, предварительно токенизированные загрузчики данных и 154 контрольные точки модели также общедоступны. Также опубликован полный список гиперпараметров. Это упрощает копирование обучения и анализа модели. В [1] авторы объясняют причину выбора набора данных на английском языке вместо многоязычного текстового корпуса. Но наличие воспроизводимых конвейеров обучения для многоязычных моделей большого языка может оказаться полезным. Особенно в поощрении большего количества исследований и изучения динамики многоязычных моделей большого языка. Преимущества и ограничения Ключевым преимуществом пакета Pythia LLM является воспроизводимость. Набор данных общедоступен, предварительно токенизированные загрузчики данных и 154 контрольные точки модели также общедоступны. Также опубликован полный список гиперпараметров. Это упрощает копирование обучения и анализа модели. В [1] авторы объясняют причину выбора набора данных на английском языке вместо многоязычного текстового корпуса. Но наличие воспроизводимых конвейеров обучения для многоязычных моделей большого языка может оказаться полезным. Особенно в поощрении большего количества исследований и изучения динамики многоязычных моделей большого языка. Обзор тематических исследований В исследовании также представлены интересные тематические исследования, использующие воспроизводимость процесса обучения больших языковых моделей в пакете Pythia. Гендерная предвзятость Все большие языковые модели склонны к предвзятости и дезинформации. Исследование направлено на смягчение гендерных предубеждений путем изменения данных предварительного обучения таким образом, чтобы фиксированный процент имел местоимения определенного пола. Эту предварительную подготовку также можно воспроизвести. Запоминание Запоминание в больших языковых моделях — еще одна область, широко изучаемая. Запоминание последовательности моделируется как точечный процесс Пуассона. Исследование направлено на то, чтобы понять, влияет ли расположение конкретной последовательности в наборе обучающих данных на запоминание. Было замечено, что местоположение не влияет на запоминание. Влияние периодичности сроков предварительной подготовки Было обнаружено, что для языковых моделей с параметрами 2,8B и выше появление терминов, специфичных для задачи, в корпусе предварительного обучения улучшает производительность модели при выполнении таких задач, как ответы на вопросы. Существует также корреляция между размером модели и производительностью при выполнении более сложных задач, таких как арифметика и математические рассуждения. Резюме и следующие шаги Подведем итоги ключевых моментов нашей дискуссии.
Источник: www.kdnuggets.com Комментарии: |
|