Малые языковые модели: обзор, измерения и выводы |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-10-04 13:00 Исследование, проведенное Университетом Кембриджа, Пекинским университетом почты и телекоммуникаций о малых языковых моделях, опубликованных в открытом доступе в период с 2022-2024 гг. Авторами были проанализированы 59 современных открытых SLM, их архитектуру, используемые наборы данных для обучения и алгоритмы. Целевая группа состояла из моделей с 100M–5B параметрами, построенных на архитектуре декодера-трансформера, которые подходят для устройств от носимых гаджетов до смартфонов и планшетов. Выводы, к которым пришли авторы: Архитектура SLM Наблюдается переход от Multi-Head Attention (MHA) к Group-Query Attention (GQA) для повышения эффективности. Gated FFN с активацией SiLU и промежуточным соотношением 2-8 становится все более популярным выбором. Большинство моделей используют RMS-нормализацию и размер словаря более 50 тыс. токенов. Инновации в архитектуре пока ограничены. Наборы данных для обучения The Pile был наиболее часто используемым набором данных, но в последнее время выбор стал более разнообразным, все чаще используются RefinedWeb и RedPajama. Современные SLM обучаются на значительно большем количестве токенов (обычно >1.5T), чем предполагает закон Chinchilla (https://www.educatingsilicon.com/2024/04/29/revised-chinchilla-scaling-laws-impact-on-llm-compute-and-token-requirements/), что указывает на их «переобучение» для повышения производительности на устройствах с ограниченными ресурсами. Алгоритмы обучения Чаще используются новые методы: Maximal Update Parameterization (µP), Knowledge Distillation и Two Stage Pre-training Strategy для повышения стабильности обучения и эффективности переноса знаний. Возможности SLM За период с 2022 по 2024 год SLM показали значительное повышение производительности в разных задачах обработки естественного языка, превзойдя серию LLM LLaMA-7B. Семейство моделей Phi имеет самые высокие показатели точности, соперничая с LLaMA 3.1 8B. SLM, обученные на общедоступных датасетах, сокращают разрыв с моделями, обученными на закрытых данных, в задачах, связанных со здравым смыслом. Контекстное обучение Большинство SLM обладают способностью к контекстному обучению, хотя она зависит от задачи. Более крупные модели из SLM более восприимчивы к контекстному обучению. Latency и потребление VRAM Помимо размера модели, на задержку влияет и архитектура: количество слоев, ширина FFN, размер словаря и совместное использование параметров. Влияние архитектуры модели на скорость вывода более значительно на этапе предварительной обработки (prefill), чем на этапе декодирования. Использование памяти во время выполнения обычно линейно коррелирует с количеством параметров модели. Влияние квантования и оборудования Преимущества квантования на этапе декодирования больше, чем на этапе предварительной обработки. Графические процессоры демонстрируют еще большее преимущество перед центральными процессорами на этапе предварительной обработки. Arxiv (https://arxiv.org/pdf/2409.15790) GitHub (https://github.com/UbiquitousLearning/SLM_Survey) Источник: github.com Комментарии: |
|