Трансформеры учат нейросети

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2023-02-15 09:09

Трансформер — одна из самых популярных моделей нейронных сетей, придуманная Гуглом в 2017 году. Примерами популярных реализаций таких моделей являются GPT-3, BERT, ChatGPT.

Главная идея, которая позволила им заиметь такой успех — механизм внимания, который позволяет выстраивать связи между элементами в последовательности (например, словами в предложении). До сих пор было не понятно, в чем секрет успеха такой архитектуры, почему они способны генерировать осмысленный текст, отвечать на вопросы и по контексту понимать, что от них хотят. Взглянуть на параметры сети и понять в чем дело нереально: в ней больше 100 миллиардов параметров, так что магия, происходящая внутри, оставалась загадкой.

Однако в конце 2022 года исследователи из DeepMind и не только предложили математическое объяснение столь грандиозного успеха. Оказывается, механизм внимания во время работы может имитировать обучение других нейронных сетей. Получается эдакая нейронная сеть в нейронной сети. На примере нескольких моделей (таких как OLS и Ridge-регрессия) исследователи показали, что обученные трансформеры действительно при некоторых условиях имитируют внутри себя обучение этих моделей (или по крайней мере очень близкое к ним поведение).

Но на этом исследования не закончились и благодаря новому взгляду на механизм внимания удалось его усовершенствовать, чтобы помочь трансформерам в этом нелёгком деле обучения нейросетей: вместо обычного градиентного спуска, который по неопытности использовал обычный трансформер для обучения своих мета-сетей, к нему прикрутили градиентный спуск с импульсом, который люди давно используют для ускорения обучения своих сетей.

И оно сработало: результаты, хоть и не сильно, но стали получше. Это стало очередным подтверждением того, что трансформеры учат маленьких нейросеток-рабов работать вместо себя.

Sources:

https://arxiv.org/abs/2212.10559

https://arxiv.org/abs/2211.15661


Источник: arxiv.org

Комментарии: