Недавняя статья от Google Brain под названием "Gradients are Not All You Need" ?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2021-12-07 16:58

Практически все нейросети сейчас обучаются с помощью алгоритмов оптимизации, основанных на подсчете градиентов (градиентный спуск: классический backprop). Когда говорят о каких-то инновациях в DL, чаще всего упоминают новые архитектуры сетей или новые наборы данных, насчет способа обучения умалчивается: предполагается, что сетки по умолчанию обучаются градиентным спуском.

Однако "приготовить" алгоритм оптимизации для обучения сети не всегда просто: часто возникают проблемы, и исследователи проводят много экспериментов, подбирая оптимальные параметры сети и алгоритма оптимизации, чтобы обучение проходило стабильно. И чем сложнее архитектура сети, тем сложнее стабилизировать оптимизацию.

Если вы слышали о таких проблемах, как затухание или взрыв градиентов (vanishing/exploding gradients), вы понимаете, о чем речь.

В статье "Gradients are Not All You Need" авторы рассматривают проблемы gradient-based оптимизации ИИ-алгоритмов и способы борьбы с ними. Статья расскажет о том, почему с математической точки зрения происходят фейлы (спойлер: все завязано на спектре якобиана системы) и какие способы защититься от этих фейлов подойдут в разных ситуациях. Интересно, что один из лучших методов достижения стабильности обучения — использование black-box оптимизации (то есть вообще без явного подсчета градиентов)

https://arxiv.org/pdf/2111.05803.pdf

Методы дифференцируемого программирования широко используются в сообществе и ответственны за возрождение машинного обучения за последние несколько десятилетий. Хотя эти методы являются мощными, у них есть пределы. В этом кратком отчете мы обсуждаем общий режим сбоя, основанный на хаосе, который проявляется в различных различимых обстоятельствах, начиная от рекуррентных нейронных сетей и численного моделирования физики до обучения обученных оптимизаторов. Мы прослеживаем эту неудачу до спектра якобиана исследуемой системы и предоставляем критерии для того, когда практика-
инициатор может ожидать, что эта неудача испортит их алгоритмы оптимизации, основанные на дифференциации
.
Введение

Благодаря ошеломляющему успеху методов глубокого обучения в обеспечении быстрых функциональных приближений практически для каждой проблемы, которую хотят рассмотреть практикующие специалисты, стало популярным пытаться создавать дифференцируемые реализации различных систем - логика заключается в том, что, используя проверенный и надежный набор методов, использующих производные при оптимизации нейронных сетей для задачи, нужно только возьмите интересующую их задачу, сделайте ее дифференцируемой, поместите ее в соответствующее место в конвейере и обучите “от начала до конца”. Это привело к избытку пакеты дифференцируемой программного обеспечения, начиная через физики твердого тела [Гейден и соавт., 2021, Ху и соавт., 2019, Werling и соавт., 2021, Degrave и соавт., 2019, - де-Авила Belbute-Перес и соавт., 2018, граду и соавт., 2021, Фримен и соавт., 2021], графика [Ли и соавт., 2018, Като и соавт., 2020], молекулярной динамики [Schoenholz и Cubuk, 2020, Hinsen, 2000], дифференциации хотя процедуры оптимизации [Маклорин, 2016], симуляторы погоды [Бишоф и др., 1996] и
симуляторы ядерного синтеза [Макгрейви и др., 2021].

Автоматическое дифференцирование обеспечивает концептуально простую обработку для вычисления производных, хотя эти системы и часто могут применяться с ограниченными затратами на вычисления и память [Paszkeet al., 2017, Ablin et al., 2020, Margossian, 2019, Бишоф и др., 1991, Корлисс и др., 2013]. Однако полученные градиенты формально “правильны” в том смысле, что они в точности соответствуют желаемому математическому объекту, может не быть алгоритмически полезным — особенно при использовании для оптимизации определенных функций системной динамики. В этой работе мы обсуждаем одну потенциальную проблему, возникающую при работе с итеративными дифференцируемыми системами: хаос.


Источник: arxiv.org

Комментарии: