Трансформеры учат нейросети |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-02-15 09:09 Трансформер — одна из самых популярных моделей нейронных сетей, придуманная Гуглом в 2017 году. Примерами популярных реализаций таких моделей являются GPT-3, BERT, ChatGPT. Главная идея, которая позволила им заиметь такой успех — механизм внимания, который позволяет выстраивать связи между элементами в последовательности (например, словами в предложении). До сих пор было не понятно, в чем секрет успеха такой архитектуры, почему они способны генерировать осмысленный текст, отвечать на вопросы и по контексту понимать, что от них хотят. Взглянуть на параметры сети и понять в чем дело нереально: в ней больше 100 миллиардов параметров, так что магия, происходящая внутри, оставалась загадкой. Однако в конце 2022 года исследователи из DeepMind и не только предложили математическое объяснение столь грандиозного успеха. Оказывается, механизм внимания во время работы может имитировать обучение других нейронных сетей. Получается эдакая нейронная сеть в нейронной сети. На примере нескольких моделей (таких как OLS и Ridge-регрессия) исследователи показали, что обученные трансформеры действительно при некоторых условиях имитируют внутри себя обучение этих моделей (или по крайней мере очень близкое к ним поведение). Но на этом исследования не закончились и благодаря новому взгляду на механизм внимания удалось его усовершенствовать, чтобы помочь трансформерам в этом нелёгком деле обучения нейросетей: вместо обычного градиентного спуска, который по неопытности использовал обычный трансформер для обучения своих мета-сетей, к нему прикрутили градиентный спуск с импульсом, который люди давно используют для ускорения обучения своих сетей. И оно сработало: результаты, хоть и не сильно, но стали получше. Это стало очередным подтверждением того, что трансформеры учат маленьких нейросеток-рабов работать вместо себя. Sources: https://arxiv.org/abs/2212.10559 https://arxiv.org/abs/2211.15661 Источник: arxiv.org Комментарии: |
|