Aioli: фреймворк для алгоритмического смешивания данных обучения LLM |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-11-19 12:36 компьютерная лингвистика, кластеризация данных, алгоритмы машинного обучения Производительность LLM напрямую зависит от правильного выбора и пропорций наборов данных для обучения, например, юридических текстов, кода, математических формул. Существующие методы выбора оптимального соотношения данных для обучения (data mixing) варьируются от подбора регрессионных моделей на основе результатов обучения до динамического обновления пропорций в процессе обучения. Эмпирические исследования показывают, что ни один из существующих методов по отдельности не превосходит простую базовую стратифицированную выборку по среднему значению перплексии. Linear Mixing Optimization (LMO) - унифицированный алгоритм, который объединяет существующие методы data mixing. В рамках LMO задача data mixing формулируется как оптимизационная задача, цель которой - минимизация средних потерь для каждой группы данных. AIOLI (https://github.com/HazyResearch/aioli) - прикладной фреймворк, основанный на LMO. AIOLI динамически оценивает параметры смешивания в процессе обучения, используя историю значений потерь и динамические пропорции смеси. Тесты на 6 различных наборах данных SlimPajama показали, что AIOLI превосходит стратифицированную выборку, улучшая среднюю перплексию на тестовых данных на 0.28 балла. AIOLI особенно эффективен в условиях ограниченных вычислительных ресурсов. В ситуациях, когда пропорции смеси данных определяются на основе коротких циклов обучения, AIOLI может динамически корректировать эти пропорции на протяжении всего цикла обучения. В репозитории AIOLI (https://github.com/HazyResearch/aioli) доступны примеры скриптов запуска и подробное описание ключей (https://github.com/HazyResearch/aioli?tab=readme-ov-file#usage) запуска. Установка и запуск: # Clone repo Лицензирование: Apache 2.0 License. Arxiv (https://arxiv.org/pdf/2411.05735) Github (https://github.com/HazyResearch/aioli) Источник: github.com Комментарии: |
|