Недавняя статья от Google Brain под названием "Gradients are Not All You Need" ? |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-12-07 16:58 Практически все нейросети сейчас обучаются с помощью алгоритмов оптимизации, основанных на подсчете градиентов (градиентный спуск: классический backprop). Когда говорят о каких-то инновациях в DL, чаще всего упоминают новые архитектуры сетей или новые наборы данных, насчет способа обучения умалчивается: предполагается, что сетки по умолчанию обучаются градиентным спуском. Однако "приготовить" алгоритм оптимизации для обучения сети не всегда просто: часто возникают проблемы, и исследователи проводят много экспериментов, подбирая оптимальные параметры сети и алгоритма оптимизации, чтобы обучение проходило стабильно. И чем сложнее архитектура сети, тем сложнее стабилизировать оптимизацию. Если вы слышали о таких проблемах, как затухание или взрыв градиентов (vanishing/exploding gradients), вы понимаете, о чем речь. В статье "Gradients are Not All You Need" авторы рассматривают проблемы gradient-based оптимизации ИИ-алгоритмов и способы борьбы с ними. Статья расскажет о том, почему с математической точки зрения происходят фейлы (спойлер: все завязано на спектре якобиана системы) и какие способы защититься от этих фейлов подойдут в разных ситуациях. Интересно, что один из лучших методов достижения стабильности обучения — использование black-box оптимизации (то есть вообще без явного подсчета градиентов) https://arxiv.org/pdf/2111.05803.pdf Методы дифференцируемого программирования широко используются в сообществе и ответственны за возрождение машинного обучения за последние несколько десятилетий. Хотя эти методы являются мощными, у них есть пределы. В этом кратком отчете мы обсуждаем общий режим сбоя, основанный на хаосе, который проявляется в различных различимых обстоятельствах, начиная от рекуррентных нейронных сетей и численного моделирования физики до обучения обученных оптимизаторов. Мы прослеживаем эту неудачу до спектра якобиана исследуемой системы и предоставляем критерии для того, когда практика- Благодаря ошеломляющему успеху методов глубокого обучения в обеспечении быстрых функциональных приближений практически для каждой проблемы, которую хотят рассмотреть практикующие специалисты, стало популярным пытаться создавать дифференцируемые реализации различных систем - логика заключается в том, что, используя проверенный и надежный набор методов, использующих производные при оптимизации нейронных сетей для задачи, нужно только возьмите интересующую их задачу, сделайте ее дифференцируемой, поместите ее в соответствующее место в конвейере и обучите “от начала до конца”. Это привело к избытку пакеты дифференцируемой программного обеспечения, начиная через физики твердого тела [Гейден и соавт., 2021, Ху и соавт., 2019, Werling и соавт., 2021, Degrave и соавт., 2019, - де-Авила Belbute-Перес и соавт., 2018, граду и соавт., 2021, Фримен и соавт., 2021], графика [Ли и соавт., 2018, Като и соавт., 2020], молекулярной динамики [Schoenholz и Cubuk, 2020, Hinsen, 2000], дифференциации хотя процедуры оптимизации [Маклорин, 2016], симуляторы погоды [Бишоф и др., 1996] и Автоматическое дифференцирование обеспечивает концептуально простую обработку для вычисления производных, хотя эти системы и часто могут применяться с ограниченными затратами на вычисления и память [Paszkeet al., 2017, Ablin et al., 2020, Margossian, 2019, Бишоф и др., 1991, Корлисс и др., 2013]. Однако полученные градиенты формально “правильны” в том смысле, что они в точности соответствуют желаемому математическому объекту, может не быть алгоритмически полезным — особенно при использовании для оптимизации определенных функций системной динамики. В этой работе мы обсуждаем одну потенциальную проблему, возникающую при работе с итеративными дифференцируемыми системами: хаос. Источник: arxiv.org Комментарии: |
|