NeurIPS — знаковое событие в области машинного обучения

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


NeurIPS — знаковое событие в области машинного обучения. Это одна из крупнейших международных конференций, на которой каждый год представляют последние научные достижения. NeurIPS 2020 прошла в декабре и стала рекордной по числу принятых статей — из более чем 9000 приняли 1903.

По традиции исследовательская группа Яндекса подготовила обзор интересных работ конференции. В них авторы решают задачу переноса текстуры изображения с помощью автокодировщика, рассказывают о новом подходе к генерации картинок из шума, пробуют обучить модель объяснять то или иное предсказание, предлагают схему обучения априорных сетей без использования внедоменных данных и делятся другими свежими идеями.

А если вы хотите обсудить итоги NeurIPS 2020 и пообщаться с авторами статей, присоединяйтесь к нашей встрече NeurIPS New Year AfterParty, которая состоится 19 января: https://ya.cc/t/419EitAaGjyFd Там будут обзоры работ по NLP, RL и CV и большая дискуссия в конце.

1. ConvBERT: Improving BERT with Span-based Dynamic Convolution

https://proceedings.neurips.cc/paper/2020/file/96da2f590cd7246bbde0051047b0d6f7-Paper.pdf

Исследователи предлагают модифицировать архитектуру Transformer для предобучения на текстах, заменив часть голов в multihead attention на динамические свертки, ядро которых генерируется в зависимости от эмбеддинга входного токена. Чтобы лучше учитывать контекст каждого токена, авторы предлагают вместо предсказания весов свертки по одному токену использовать его контекст — по сути, используя еще один сверточный слой на входе. Для избавления от избыточных вычислений авторы факторизуют feed-forward слои сети и уменьшают в несколько раз эмбеддинги ключей для self-attention. В результате экспериментов выросло качество по сравнению с ELECTRA, к тому же удалось в несколько раз снизить число вычислений по сравнению с и так довольно эффективным методом.

2. All Word Embeddings from One Embedding

https://proceedings.neurips.cc/paper/2020/file/275d7fb2fd45098ad5c3ece2ed4a2824-Paper.pdf

В современных моделях обработки текстов матрицы векторов слов (BPE-токенов) занимают довольно много памяти из-за большого размера словаря и числа параметров на каждый эмбеддинг. В этой работе авторы предлагают заменить большую матрицу эмбеддингов на набор из одного базового эмбеддинга, небольшого числа случайных фильтров (для их получения надо знать только random seed) и полносвязной сети. Итоговый эмбеддинг слова получается так: выбирается уникальный набор фильтров для каждого слова (они разбиты на несколько групп так, чтобы вероятность совпадения во всех группах для двух слов была небольшая), они складываются и превращаются в маску, на которую потом умножается базовый эмбеддинг перед полносвязной частью.

Такими экспериментами исследователи показывают, что с достаточно выразительной полносвязной сетью (чье число параметров все равно намного меньше, чем у эмбеддинг-слоя) получается сохранить качество для GloVe-эмбеддингов и даже обучить с нуля модели перевода и суммаризации без потерь качества и с сильной экономией параметров.

3. Language models are few-shot learners

https://papers.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

Cтатья от OpenAI, в ней речь идет о GPT-3. С этой темой наверняка уже многие знакомы, а если нет, можно два видео — короткое: https://www.youtube.com/watch?v=_x9AwxfjxvE или длинное: https://www.youtube.com/watch?v=_8yVOC4ciXc OpenAI обучили модель еще на порядок больше и заметили, что теперь она может решать некоторые NLP-таски по паре десятков примеров. То есть вы буквально даете на вход модели в качестве префикса описание задачи и примеры, и она начинает неплохо отвечать на вопросы, переводить или генерировать regex по тексту.

Авторы позиционируют это как few-shot learning — мол, модель настолько умная, что прямо во время forward pass может научиться решать NLP-задачу. Однако эксперименты исследователей не позволяют сделать такой вывод. Модель действительно неплохо решает математику по не более чем 64 обучающим примерам, но она ведь училась на огромных объемах сырого текста — возможно, где-то в них кроются гигабайты таких же математических примеров, и модель просто их вспомнила. Впрочем, даже если так, это все равно одна из самых значимых статей NeurIPS 2020. Жаль, что OpenAI не открыли код.

4. Denoising Diffusion Probabilistic Models

https://papers.nips.cc/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf

Картинки можно генерировать сразу (GAN, VAE, NF), по одному пикселю (pixelRNN, pixelCNN, iGPT) и еще множеством разных способов. В последнее время становится популярным подход «генерировать картинки постепенно» — начинать с шума и последовательно сдвигаться в сторону увеличения вероятности. Этот подход появился чуть больше года назад, а уже стал state-of-the-art на картинках и неплохо подошел для речи.

С технической точки зрения вы обучаете полносверточную модель, которая берет на вход картинку и предсказывает, куда нужно сдвинуть каждый пиксель, чтобы стало лучше. Для решения этой задачи статья математически как бы рассматривает процесс смешивания картинки с шумом и учит нейронную сеть его обращать — превращать шум в картинку. И тоже генерирует картинки весьма пристойного качества. С момента публикации на NeurIPS наука научилась существенно ускорять подобные модели: https://arxiv.org/abs/2010.02502

5. How Can I Explain This to You? An Empirical Study of Deep Neural Network Explanation Methods

https://proceedings.neurips.cc/paper/2020/file/2c29d89cc56cdb191c60db2f0bae796b-Paper.pdf

Часто бывает важно знать не только предсказание модели, но и почему предсказание именно такое. Например, «почему у этого пациента рак» или «почему тебе точно понравится это видео». Здесь нужны аргументы. Например, можно показать похожие примеры среди пациентов или уже просмотренных видео — это explanation by example. Можно подчеркнуть самые важные признаки — SHAP/LIME/saliency maps.

Авторы статьи старались понять, что из этого больше нравится людям. Для этого они взяли несколько сотен людей на MTurk и заставили их выбирать наиболее полезный метод объяснения для четырех видов данных: картинок, текста, речи и показаний сенсоров. Для картинок, звука и сенсоров с большим отрывом победил explanation by example — похожие картинки намного убедительнее, чем выделение признаков LIME/SHAP. Для текстов ситуация обратная — победил LIME (и с небольшим отрывом SHAP), а похожие примеры показали себя намного хуже. Важный момент: в эксперименте сравнивались не только математические методы, но и способы представления информации. То, что LIME для текстов лучше SHAP на 10%, не означает, что аппроксимация вектора Шепли плохо подходит для объяснения. Возможно, пользователям больше подошел интерфейс LIME.

Исследование, проведенное в статье, далеко не универсально — возможно, если вы будете объяснять предсказания, например, медикам, их предпочтения будут сильно отличаться. Но статья решает правильную проблему — нам нужно научить свои алгоритмы объяснять предсказания. Не все существующие для этого подходы одинаково полезны.

6. GANSpace: Discovering Interpretable GAN Controls

https://papers.nips.cc/paper/2020/file/6fe43269967adbb64ec6149852b5cc3e-Paper.pdf

Здесь исследователи развивают линию работ по применению предобученных моделей GAN для семантического редактирования картинок, а именно, стремятся найти такие векторы в латентном пространстве, что сдвиги по ним приводят к интерпретируемым изменениям генерируемых семплов. Авторы анализируют распределение активаций в ранних слоях GAN и эмпирически показывают, что главные направления (PCA) этого распределения часто соответствуют искомым «интерпретируемым направлениям». Теоретических обоснований предложенного метода статья не предлагает, но экспериментально демонстрирует его перспективность на SOTA-моделях. Важно, что предложенный метод не требует размеченных данных.

7. Swapping Autoencoder for Deep Image Manipulation

https://proceedings.neurips.cc//paper/2020/file/50905d7b2216bfeccb5b41016357176b-Paper.pdf

Авторы решают задачу переноса текстуры одного изображения на другое с сохранением контента. Для этого предлагают новую модель автокодировщика, у которого в латентном пространстве разделены контент и текстура. При обучении на парах изображений меняют местами текстурные части латентного кода и дополнительным слагаемым лосса требуют, чтобы после подмены декодер выдавал реалистичные картинки (через обучение вспомогательных дискриминаторов). Одинаковость стиля/текстуры у исходного и выходного изображений обеспечивается еще одним лосс-термом, который требует близости распределений патчей из обеих картинок.

8. Equivariant Maps for Hierarchical Structures

https://proceedings.neurips.cc/paper/2020/file/9efb1a59d7b58e69996cf0e32cb71098-Paper.pdf

Здесь авторы исследуют явный вид линейных слоев глубоких сетей, которые инвариантны относительно семейств преобразований. Сверточные слои являются простейшим примером эквивариантных линейных преобразований: операторов, коммутирующих с фиксированными преобразованиями входного и выходного вектора. В этом случае пространственные сдвиги входного тензора соответствуют сдвигам выходного тензора.

Рассмотрим обратную задачу: предположим, задано действие некоторой группы на входном и выходном тензорах, нужно найти линейные преобразования, эквивариантные относительно этих действий, то есть действующие согласованными с ними способами. Для действий, заданных группами специального довольно общего вида, авторы приводят явную формулу соответствующих эквивариантных линейных операторов. Опираясь на полученные теоретические результаты, авторы ставят новую соту в ряде задач семантической сегментации облаков точек. Подход кажется достаточно универсальным и потенциально может быть применен и в других областях, где данные имеют иерархическую структуру.

9. Training Generative Adversarial Networks by Solving Ordinary Differential Equations

https://proceedings.neurips.cc/paper/2020/file/3c8f9a173f749710d6377d3150cf90da-Paper.pdf

Авторы исследуют динамику системы дифференциальных уравнений, которые напоминают линеаризованный GAN в окрестности неподвижной точки, и показывают, что если решать эту систему точно, то траектории всегда сходятся к неподвижной точке. В случае численного решения этой системы, если использовать самый простой метод — метод Эйлера — это свойство нарушается. Если же применить более продвинутый метод Рунге — Кутты (даже второго порядка, что вычислительно не очень тяжело), то траектории успешно сойдутся куда надо. Авторы предлагают использовать такой же алгоритм (более продвинутый оптимизационный шаг на основе численных интеграторов ODE) для оптимизации настоящих сетей GAN. Исследователи показывают профит по FID и более хорошую сходимость для синтетики.

10. Posterior Network: Uncertainty Estimation without OOD Samples via Density-Based Pseudo-Counts

https://papers.nips.cc/paper/2020/file/0eac690d7059a8de4b48e90f14510391-Paper.pdf

Авторы предлагают осмысленную схему обучения априорных (здесь называют апостериорными) сетей без использования внедоменных данных. Априорные сети параметризуют распределение Дирихле, что позволяет им давать осмысленные оценки неопределенности. В частности, для каждого входа они предсказывают концентрацию Дирихле — чем она больше, тем мы увереннее.

В статье предлагается схема, где на представления последнего слоя поклассово обучается поточная генеративная модель и предсказанная концентрация Дирихле является суммой произведения количества примеров данного класса в обучающей выборке на плотность этого класса. Если тестовый пример попадает в один или более регион высокой плотности, то мы уверены, а если нет, то мы не уверены. То, что у поточной модели плотность интегрируется в единицу, позволяет гарантировать, что при правильном обучении бОльшая часть вероятностной массы будет во внутридоменном регионе, а во внедоменных регионах она будет низкой. Единственный минус — потребность в потоке на каждый класс. В целом идея свежая и интересная.

11. Design Space for Graph Neural Networks

https://proceedings.neurips.cc/paper/2020/file/c5c3d4fe6b2cc463c7d7ecba17cc9de7-Paper.pdf

Graph neural networks (GNN) — это нейронные сети, которые решают задачи на графах. Например, задачу классификации вершин (когда известны классы только для части вершин) или классификации графов. Есть известная проблема, что архитектуры GNN, успешные для одних графовых задач, могут совершенно не работать для других. Авторы анализируют эту проблему. Они рассматривают большое количество архитектур GNN и несколько разных датасетов и предлагают переносить информацию о хороших архитектурах с уже изученных задач на похожие. Чтобы определить, насколько две задачи похожи, они выбирают несколько anchor-моделей и смотрят, как эти модели себя показывают на задачах (сравнивают полученные ранжирования).

Оказывается, такой подход неплохо отражает близость задач, т. е. для близких задач оптимальные из всех возможных опций архитектуры GNN тоже будут похожи. Еще авторы анализируют, какие детали архитектуры чаще улучшают качество GNN-моделей. В целом предложенный подход довольно стандартный, но статья может быть полезна для тех, кто хочет использовать GNN-модели для своих задач и затрудняется с выбором архитектуры.

12. Erd?s Goes Neural: an Unsupervised Learning Framework for Combinatorial Optimization on Graphs

https://papers.nips.cc/paper/2020/file/49f85a9ed090b20c8bed85a5923c669f-Paper.pdf

Исследователи решают задачи комбинаторной оптимизации с помощью GNN в unsupervised-режиме. Пример задачи — поиск клики (полного подграфа) максимального размера в графе. GNN выдает вероятности на вершинах, и в соответствии с этими вероятностями выбирается решение (например, просто семплированием вершин независимо друг от друга с этими вероятностями). Чтобы такой подход выдавал разумное решение, в функции потерь есть два слагаемых: первое отвечает за стоимость решения (в случае поиска клики — минус ее размер), а второе — за вероятность того, что при семплировании вершин согласно имеющимся вероятностям мы получим подходящее решение (полученный подграф будет кликой).

Второе слагаемое мотивировано стандартным вероятностным рассуждением: если у объекта положительная вероятность, то он существует (отсюда в названии статьи упомянуто имя венгерского математика Пала Эрдеша, который часто использовал вероятностный метод в своих доказательствах). Авторы доказывают, что значение их лосса влечет за собой гарантии на вероятность того, что семплированное решение будет подходящим, а также гарантии на стоимость решения. В экспериментах показывают конкурентоспособность своего решения по сравнению с текущими нейросетевыми и алгоритмическими state-of-the-art подходами. Ограничение подхода — не для всех задач легко выписать функцию потерь нужного вида.

Многие материалы конференции, в том числе видеопрезентации, уже доступны на сайте: https://neurips.cc/virtual/2020/public/cal_main.html


Источник: neurips.cc

Комментарии: