Команда Yandex Research подготовила новую подборку свежих научных статей для ML-специалистов

2020-09-22 14:20

архитектура нейронных сетей, машинное обучение python

Команда Yandex Research подготовила новую подборку свежих научных статей для ML-специалистов — на сей раз с конференции ICML. Это одна из самых значимых конференций в области машинного обучения и искусственного интеллекта. В 2020 году на ICML приняли 1088 статей из 4990 поданных заявок. Делимся с вами кратким обзором нескольких интересных работ. Из них вы узнаете, например, о новых подходах к разметке неописанных изображений и генерации аудиосигнала из случайного шума, а также о том, как научить беспилотный транспорт лучше справляться с разными дорожными ситуациями.

1. Generative Pretraining from Pixels

https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf

Подходы для получения представлений изображений в unsupervised-постановке становятся все более популярной областью исследований, так как неразмеченных картинок в мире гораздо больше, чем размеченных. В обработке языка присутствует похожий тренд с обучением огромных языковых моделей, которые потом можно файнтюнить на небольших выборках.

Авторы статьи исследуют, насколько применим подход с unsupervised pretraining из NLP для CV-домена. Они обучают генеративную авторегрессивную Transformer-сеть (назвали Image GPT, по аналогии с GPT-1/2/3 для текстов) и подают ей на вход изображения, представляя каждый пиксель в виде отдельного токена. Проблему очень длинного контекста в случае ImageNet-изображений (224 х 224 пикселя) они решают уменьшением картинок до более низкого разрешения либо использованием латентных представлений из VQ-VAE. Хотя обучаемая модель и не учитывает явным образом 2D-структуру изображений, эмбеддинги из промежуточных слоев Image GPT оказываются довольно неплохи, что демонстрируется качеством линейного классификатора поверх эмбеддингов после претрейна на ImageNet.

Предложенный подход дал результаты лучше state-of-the-art-метода SimCLR на CIFAR-10/100 и оказался на 4.5% хуже на ImageNet, при этом в iGPT использовались картинки размером 64 х 64 пикселя вместо полных. Также авторы демонстрируют хорошее (но не лучшее) качество представлений при файнтюнинге модели целиком, в том числе при дообучении с небольшим числом размеченных объектов. Минус подхода на текущий момент состоит в большом количестве необходимых ресурсов для обучения: iGPT-XL училась на 2048 TPU-ядрах и имеет 6,8 миллиардов параметров.

2. Self-supervised Label Augmentation via Input Transformations

https://proceedings.icml.cc/static/paper_files/icml/2020/2048-Paper.pdf

Для задачи классификации изображений статья предлагает «помочь» модели CNN путем обогащения обучающего сигнала, который можно получить автоматически. Помимо классификационных меток целевой задачи, можно автоматически породить self-supervised метки «на сколько градусов относительно естественной ориентации повернуто изображение: 0, 90, 180, 270». После этого можно считать новой меткой пару (класс, угол поворота). И на таком расширенном множестве меток учится обычная классификационная модель с кросс-энтропийным лоссом. За счет дополнительного обучающего сигнала на многих академических датасетах достигается существенный профит.

3. Test-Time Training with Self-Supervision for Generalization under Distribution Shifts

https://proceedings.icml.cc/static/paper_files/icml/2020/4786-Paper.pdf

Для задачи классификации изображений авторы предлагают в test-time адаптироваться под конкретный тестовый пример, тем самым учитывая его потенциальную смещенность от обучающего множества. То есть параметры модели будут зависеть от конкретного тестового примера. Для этого обучаются в multi-task постановке, помимо основной классификационной задачи еще предсказывая ориентацию изображения (метки для этой задачи можно получить автоматически в self-supervised режиме, вращая обучающие изображения на известные углы). Обученная таким образом нейросеть производит фичи, из которых можно предсказывать как классификационную метку, так и поворот.

В test-time, применяясь к конкретному примеру, параметры нейросети «доучиваются» только на предсказание поворота. Здесь идет расчет на то, что случится positive transfer и доученная сеть сгенерирует фичи, более подходящие также для целевой задачи классификации. Авторы демонстрируют профит от своего протокола для случая, когда распределение тестовых объектов слегка отличается от распределения обучающих (например, зашумленные изображения).

4. Automatic Shortcut Removal for Self-Supervised Representation Learning

https://proceedings.icml.cc/static/paper_files/icml/2020/4487-Paper.pdf

В парадигме обучения эмбеддингов в self-supervised режиме, картинки могут изменяться каким-то детерминированным способом и прокси-задача заключается в предсказании этой трансформации. Например, картинка поворачивается на угол, кратный 90 градусам, и цель сети — угадать поворот. При этом на картинке могут сохраняться подсказки, какой был поворот, например, текст. Не хочется, чтобы модель выучивала простые способы предсказания вроде определения положения текста. Авторы предлагают при обучении добавить на входе дополнительную img2img модель — линзу, которая пытается в адверсариальном режиме минимальными изменениями удалить такие подсказки. Получается ощутимый прирост в качестве.

5. Puzzle Mix: Exploiting Saliency and Local Statistics for Optimal Mixup

https://proceedings.icml.cc/static/paper_files/icml/2020/6618-Paper.pdf

Mixup — популярный способ аугментации данных, при котором две картинки накладываются друг на друга и цель модели — угадать оба наложенных класса. Авторы предлагают улучшенный вариант: наложение с дополнительным сдвигом и перенормировкой смешивания так, чтобы максимизировались наложенные друг на друга saliency map. В итоге они получают прирост качества по сравнению с такого рода аугментациями.

6. Improving Transformer Optimization Through Better Initialization

https://proceedings.icml.cc/static/paper_files/icml/2020/5691-Paper.pdf

Статья про то, почему трансформеры так сложно учить и что с этим делать. Известно, что трансформеры глубже четырех слоев капризны в обучении: для наилучшего качества их принято обучать с learning rate warmup («разогревом»). Если не делать warmup, модель сходится к более плохому оптимуму или вообще расходится. Возникает вопрос «Почему 6-слойный трансформер учится сложнее, чем 152-слойный resnet?

Оказывается, во всем виноват layer normalization. Если аккуратно выписать, как устроен backprop в слоях layernorm, можно заметить, что градиент там затухает. Более того, за первые шаги оптимизации, пока статистики adam ещё не стабилизировались, степень затухания будет увеличиваться по экспоненте.

Авторы предлагают выкинуть layernorm как таковой и вместо него использовать хитрую инициализацию трансформера, которая позволяет обучать его без нормализации. Авторы показывают, что с их инициализацией можно учить модели даже с 200 слоями и, возможно, еще глубже.

7. WaveFlow: A Compact Flow-based Model for Raw Audio

https://proceedings.icml.cc/static/paper_files/icml/2020/647-Paper.pdf

В статье предлагается модификация известной модели для генерации сырого аудиосигнала по мел-спектрограмме (иногда называют вокодером) WaveGlow.

WaveGlow представляет собой normalizing-flow-модель, то есть набор обратимых преобразований, превращающих случайный шум в требуемый сигнал. Каждое из этих преобразований обусловлено на входную спектрограмму, а также на часть преобразуемых переменных. Такая структура зависимости позволяет быстро проводить как инференс, так и обучение. Другой вариант — полностью авторегрессионная генерация. Такие модели обладают лучшим качеством, но очень медленно генерируют звук.

Авторы WaveFlow предлагают нечто среднее: можно разделить сигнал на блоки небольшой длины, где авторегрессионная зависимость будет только внутри блока. Интуитивно такое разделение помогает лучше моделировать локальную структуру и увеличивает экспрессивность преобразования. Это подтверждается экспериментами: схожая по качеству модель имеет более чем в 15 раз меньше параметров, чем WaveGlow, и она немного быстрее, а самая большая модель достигает качества авторегрессионного WaveNet, будучи все еще в 8 раз быстрее реального времени при генерации.

8. NGBoost: Natural Gradient Boosting for Probabilistic Prediction

https://proceedings.icml.cc/static/paper_files/icml/2020/3337-Paper.pdf

Статья про неопределенность в градиентном бустинге для задачи регрессии. Очень простой и естественный подход — предполагаем некоторую вероятностную модель для распределения таргета при условии факторов (например, нормальное распределение), обучаем одновременно все параметры этого распределения (например, среднее и дисперсию), на каждой итерации считаем градиенты функции потерь (например, likelihood) по параметрам и приближаем эти градиенты очередным решающим деревом (одно дерево на каждый параметр). Однако при обучении нескольких параметров одновременно метод становится чувствителен к масштабам параметров. Авторы показывают, что это действительно проблема и предлагают использовать натуральные градиенты, которые лишены этого недостатка.

9. Graph Structure of Neural Networks

https://proceedings.icml.cc/static/paper_files/icml/2020/201-Paper.pdf

Авторы представляют нейронную сеть как итерации одного и того же вычислительного графа. Они рассматривают два параметра графа: среднюю длину пути между вершинами и меру локальной связности (коэффициент кластеризации). В статье показывается, что независимо от архитектуры эти параметры хорошо коррелируют с качеством классификации нейронной сети, в том числе на вполне современных архитектурах и достаточно сложных задачах.

10. Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts?

https://proceedings.icml.cc/static/paper_files/icml/2020/2969-Paper.pdf

Цель авторов этой статьи — сделать беспилотное вождение устойчивым к новым дорожным ситуациям и наделить его способностью справляться с ними без катастрофических последствий. Во-первых, оценивается эпистемическая неопределенность (неопределенность в знаниях), используя ансамбли моделей. Во-вторых, меры эпистемической неопределенности используются для динамического обращения к эксперту, который может помочь машине адекватно действовать в новых ситуациях. В-третьих, предлагается новый датасет CARNOVEL, на котором можно оценивать способность детектировать и безопасно действовать в новых ситуациях. Авторы добиваются улучшения ряда метрик качества. Более того, они показывают, что они могут успешно динамически запрашивать демонстрации эксперта в новых ситуациях и быстро адаптироваться.

11. Rethinking Bias-Variance Trade-off for Generalization of Neural Networks

https://proceedings.icml.cc/static/paper_files/icml/2020/2946-Paper.pdf

В статье рассматривают линейные нейронные сети и исследуют их генерализацию аналитически. Получается, что хуже всего иметь «среднюю» модель — там пик дисперсии модели и большая ошибка на тесте, а на маленьких и больших моделях — генерализация хорошая.

Источник: proceedings.icml.cc

Команда Yandex Research подготовила новую подборку свежих научных статей для ML-специалистов — на сей раз с конференции ICML.

Комментарии: