Продолжаем делиться обзорами научных статей с ведущих конференций по машинному обучению. |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-10-19 17:18 Продолжаем делиться обзорами научных статей с ведущих конференций по машинному обучению. Команда Yandex Research подготовила подборку c конференции по компьютерному зрению ECCV 2020, которая завершила серию летних ML-конференций. Авторы представили новые подходы к интерпретируемости работы сети, критически рассмотрели нечестные эксперименты прошлого в metric learning и предложили неочевидные методы обучения сетей GAN. Еще исследователи научили нейросети генерировать картинки с более продвинутой структурой — раньше сети так не умели рисовать. 1. Rethinking Few-shot Image Classification: A Good Embedding is All You Need? http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123590256.pdf В статье рассматривается задача few-shot классификации изображений для постановки, когда есть большой размеченный датасет (например, Imagenet) и малое количество изображений целевых классов (не из Imagenet), которые будет необходимо различать. Так как на малом числе картинок целевых классов обучиться не выйдет, необходимо каким-то образом использовать большой размеченный датасет. За последние несколько лет было опубликовано огромное число статей по few-shot классификации, но эта статья показала, что максимально простое решение работает не хуже. Оказалось, что достаточно выучить классификатор на большом размеченном датасете, с его помощью вычислить эмбеддинги картинок из целевых классов, а затем на них выучить логистическую регрессию. Такое максимально практичное решение опередило по качеству сложные state-of-the-art подходы из литературы. 2. A Metric Learning Reality Check http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700681.pdf Статья наводит порядок в работах по metric learning — задаче обучения эмбеддингов для поиска изображений того же класса. В последние годы эта задача была очень популярна: было разработано множество новых функций потерь, подходов к сэмплингу негативов, способов снижения оверфита на обучающие классы. Причем все статьи репортили улучшение над предыдущими на академических бенчмарках. Авторы этой статьи проделали огромную работу по честному сравнению существующих методов и показали, что простые contrastive и triplet лоссы на всех датасетах достигают околооптимального качества, а все преимущества более старых методов вызваны нечестными экспериментами. Уже после публикации первый автор в своем блоге (https://medium.com/@tkm45/updates-to-a-metric-learning-reality-check-730b6914dfe7) подробно расписал, в чем состоит нечестность сравнения во многих известных статьях. 3. The Hessian Penalty: A Weak Prior for Unsupervised Disentanglement http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123510579.pdf Работа исследователей из Berkeley и MIT — про регуляризатор для обучения сетей GAN, который обеспечивает интерпретируемость координат в латентном пространстве. Помимо стандартного GAN-лосса, авторы предлагают минизировать отклонение гессианов (активаций генератора по координатам латентного пространства) от диагональных, тем самым обеспечивая «независимость» изменений выхода генератора при варьировании различных координат. К сожалению, при обучении их методом с нуля качество генерируемых изображений проседает, поэтому они предлагают модификацию своей техники для поиска интерпретируемых направлений в готовой обученной сети GAN. Строгого теоретического обоснования своей идеи авторы не приводят, но эмпирически подтверждают ее работоспособность, успешно интерпретируя направления в нескольких моделях GAN. 4. In-Domain GAN Inversion for Real Image Editing http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123620579.pdf Инвертирование генеративной модели G обычно происходит в две стадии. Сначала предобучается некоторый энкодер E: G(z) -> z. Затем для инверсии картинки I в качестве приблизительного прообраза берется z' = E(I) и оптимизируется простым градиентным спуском так, чтобы G(z') = I. Авторы предлагают обучать энкодер на реальных картинках из того же домена, что и данные для обращения. Используя еще некоторые трюки, они получают очень хорошие инверсии реальных картинок в StyleGAN и показывают разные красивые приложения. 5. How does Lipschitz Regularization Influence GAN Training? http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123610307.pdf При обучении сетей GAN крайне эффективны различные способы регуляризации нормы. Один из таких способов — Липшицева регуляризация с ограничением на показатель Липшицевости генератора и дискриминатора. Авторы показывают (для не самых современных моделей), что такой подход делает лосс-функцию почти линейной. Кроме того, из их анализа получается, что Липшицева регуляризация частично убирает разницу между различными лосс-функциями при адверсариальном обучении. Хотя интересно было бы видеть эксперименты на сотовых моделях, статья дает интересную точку зрения на роль Липшицевой регуляризации. 6. Gradient Centralization: A New Optimization Technique for Deep Neural Networks http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460613.pdf Авторы предлагают простой способ улучшить обобщающую способность нейронных сетей с помощью простой модификации градиентного спуска, вдохновляясь известными идеями вроде Batch normalization. Они предлагают применять похожую процедуру к градиентам по весам сети на каждом шаге оптимизационного процесса, а именно центрировать градиент, вычитая среднее по каждому столбцу (для сверток сначала решейпим градиент в матрицу и делаем то же самое). Этот метод можно интерпретировать как projected gradient descent, где у нас задано некое ограничение на веса, и мы на каждом шагу проецируем градиент на касательное пространство к этому ограничению. В численных экспериментах показывается, что тестовая точность стабильно улучшается на несколько процентов. Добавить это в оптимизацию несложно — можете попробовать в вашей задаче. 7. TopoGAN: A Topology-Aware Generative Adversarial Network http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123480120.pdf Во многих областях где хотелось бы применять генеративные модели, например медицинские снимки или спутниковые снимки дорог, в данных есть некоторая структурная «топологическая» информация. Это могут быть, например, мембраны, связи между нейронами или то, как организованы дороги. Обычные же генеративные модели плохо подходят для имитации таких данных и часто генерируют что-то нереалистичное, без какой-то интересной структурной информации. Авторы статьи предлагают использовать аппарат топологического анализа данных и добавить в лосс дискриминатора при обучении сети GAN член, который отвечает за похожесть «топологий» реальных и сгенерированных картинок (авторы рассматривают только бинарные маски, которые затем трансформируют в реальные картинки с помощью моделей pix2pix). Авторы представляют новый способ измерять похожесть топологии и показывают, как его можно дифференцировать (что достаточно интересно само по себе). Также они предлагают новые метрики качества для таких датасетов, основанные на сравнении топологической информации, которая содержится внутри сгенерированных и реальных картинок. Таким методом получается генерировать намного более интересные со структурной точки зрения картинки. Источник: www.ecva.net Комментарии: |
|