Продолжаем делиться обзорами научных статей с ведущих конференций по машинному обучению.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Продолжаем делиться обзорами научных статей с ведущих конференций по машинному обучению. Команда Yandex Research подготовила подборку c конференции по компьютерному зрению ECCV 2020, которая завершила серию летних ML-конференций. Авторы представили новые подходы к интерпретируемости работы сети, критически рассмотрели нечестные эксперименты прошлого в metric learning и предложили неочевидные методы обучения сетей GAN. Еще исследователи научили нейросети генерировать картинки с более продвинутой структурой — раньше сети так не умели рисовать.

1. Rethinking Few-shot Image Classification: A Good Embedding is All You Need?

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123590256.pdf

В статье рассматривается задача few-shot классификации изображений для постановки, когда есть большой размеченный датасет (например, Imagenet) и малое количество изображений целевых классов (не из Imagenet), которые будет необходимо различать. Так как на малом числе картинок целевых классов обучиться не выйдет, необходимо каким-то образом использовать большой размеченный датасет.

За последние несколько лет было опубликовано огромное число статей по few-shot классификации, но эта статья показала, что максимально простое решение работает не хуже. Оказалось, что достаточно выучить классификатор на большом размеченном датасете, с его помощью вычислить эмбеддинги картинок из целевых классов, а затем на них выучить логистическую регрессию. Такое максимально практичное решение опередило по качеству сложные state-of-the-art подходы из литературы.

2. A Metric Learning Reality Check

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700681.pdf

Статья наводит порядок в работах по metric learning — задаче обучения эмбеддингов для поиска изображений того же класса. В последние годы эта задача была очень популярна: было разработано множество новых функций потерь, подходов к сэмплингу негативов, способов снижения оверфита на обучающие классы. Причем все статьи репортили улучшение над предыдущими на академических бенчмарках. Авторы этой статьи проделали огромную работу по честному сравнению существующих методов и показали, что простые contrastive и triplet лоссы на всех датасетах достигают околооптимального качества, а все преимущества более старых методов вызваны нечестными экспериментами. Уже после публикации первый автор в своем блоге (https://medium.com/@tkm45/updates-to-a-metric-learning-reality-check-730b6914dfe7) подробно расписал, в чем состоит нечестность сравнения во многих известных статьях.

3. The Hessian Penalty: A Weak Prior for Unsupervised Disentanglement

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123510579.pdf

Работа исследователей из Berkeley и MIT — про регуляризатор для обучения сетей GAN, который обеспечивает интерпретируемость координат в латентном пространстве. Помимо стандартного GAN-лосса, авторы предлагают минизировать отклонение гессианов (активаций генератора по координатам латентного пространства) от диагональных, тем самым обеспечивая «независимость» изменений выхода генератора при варьировании различных координат. К сожалению, при обучении их методом с нуля качество генерируемых изображений проседает, поэтому они предлагают модификацию своей техники для поиска интерпретируемых направлений в готовой обученной сети GAN. Строгого теоретического обоснования своей идеи авторы не приводят, но эмпирически подтверждают ее работоспособность, успешно интерпретируя направления в нескольких моделях GAN.

4. In-Domain GAN Inversion for Real Image Editing

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123620579.pdf

Инвертирование генеративной модели G обычно происходит в две стадии. Сначала предобучается некоторый энкодер E: G(z) -> z. Затем для инверсии картинки I в качестве приблизительного прообраза берется z' = E(I) и оптимизируется простым градиентным спуском так, чтобы G(z') = I. Авторы предлагают обучать энкодер на реальных картинках из того же домена, что и данные для обращения. Используя еще некоторые трюки, они получают очень хорошие инверсии реальных картинок в StyleGAN и показывают разные красивые приложения.

5. How does Lipschitz Regularization Influence GAN Training?

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610307.pdf

При обучении сетей GAN крайне эффективны различные способы регуляризации нормы. Один из таких способов — Липшицева регуляризация с ограничением на показатель Липшицевости генератора и дискриминатора. Авторы показывают (для не самых современных моделей), что такой подход делает лосс-функцию почти линейной. Кроме того, из их анализа получается, что Липшицева регуляризация частично убирает разницу между различными лосс-функциями при адверсариальном обучении. Хотя интересно было бы видеть эксперименты на сотовых моделях, статья дает интересную точку зрения на роль Липшицевой регуляризации.

6. Gradient Centralization: A New Optimization Technique for Deep Neural Networks

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460613.pdf

Авторы предлагают простой способ улучшить обобщающую способность нейронных сетей с помощью простой модификации градиентного спуска, вдохновляясь известными идеями вроде Batch normalization. Они предлагают применять похожую процедуру к градиентам по весам сети на каждом шаге оптимизационного процесса, а именно центрировать градиент, вычитая среднее по каждому столбцу (для сверток сначала решейпим градиент в матрицу и делаем то же самое). Этот метод можно интерпретировать как projected gradient descent, где у нас задано некое ограничение на веса, и мы на каждом шагу проецируем градиент на касательное пространство к этому ограничению. В численных экспериментах показывается, что тестовая точность стабильно улучшается на несколько процентов. Добавить это в оптимизацию несложно — можете попробовать в вашей задаче.

7. TopoGAN: A Topology-Aware Generative Adversarial Network

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123480120.pdf

Во многих областях где хотелось бы применять генеративные модели, например медицинские снимки или спутниковые снимки дорог, в данных есть некоторая структурная «топологическая» информация. Это могут быть, например, мембраны, связи между нейронами или то, как организованы дороги. Обычные же генеративные модели плохо подходят для имитации таких данных и часто генерируют что-то нереалистичное, без какой-то интересной структурной информации.

Авторы статьи предлагают использовать аппарат топологического анализа данных и добавить в лосс дискриминатора при обучении сети GAN член, который отвечает за похожесть «топологий» реальных и сгенерированных картинок (авторы рассматривают только бинарные маски, которые затем трансформируют в реальные картинки с помощью моделей pix2pix). Авторы представляют новый способ измерять похожесть топологии и показывают, как его можно дифференцировать (что достаточно интересно само по себе). Также они предлагают новые метрики качества для таких датасетов, основанные на сравнении топологической информации, которая содержится внутри сгенерированных и реальных картинок. Таким методом получается генерировать намного более интересные со структурной точки зрения картинки.


Источник: www.ecva.net

Комментарии: