Raise a Child in Large Language Model:  К эффективной и обобщаемой тонкой настройке

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Последние предварительно обученные языковые модели содержат от миллионов до миллиардов параметров. Поэтому в различных последующих задачах возникает необходимость точной настройки чрезвычайно большой предварительно обученной модели с ограниченным обучающим корпусом.

Ребята из Alibaba предложили простую, но эффективную технику тонкой настройки - Child-Tuning, которая обновляет подмножество параметров (называемое дочерней сетью) больших предварительно обученных моделей путем стратегического маскирования градиентов не дочерней сети во время обратного процесса.

Ссылка на статью: https://arxiv.org/pdf/2109.05687v1.pdf

Ссылка на GitHub: https://github.com/alibaba/AliceMind


Источник: github.com

Комментарии: