Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне. Коллеги из команды Yandex Research поделились статьями, которые показались им наиболее интересными. Сегодня мы публикуем первую часть статей из списка, будет и вторая.

1. Cross-Batch Memory for Embedding Learning

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Cross-Batch_Memory_for_Embedding_Learning_CVPR_2020_paper.pdf

В статье решается задача обучения эмбеддингов для поиска похожих изображений. В существующих пайплайнах обучающие пары/триплеты формируются только внутри одного батча, при этом чем больше размер батча, тем выше качество итогового решения. Но GPU память ограничена, поэтому батч и эффективное количество обучающего сигнала от него невелики.

Авторы предлагает простой способ увеличить число обучающих пар на каждой итерации обучения. Они замечают, что на поздних этапах обучения эмбеддинги, спродуцированные моделью, меняются лишь немного, поэтому эмбеддинги, вычисленные на предыдущих итерациях, можно запомнить и использовать при составлении пар/триплетов на последующих итерациях. Эта простая модификация существенно улучшает качество на трех академических датасетах ценой нескольких строчек кода и небольшого увеличения потребления памяти.

2. CNN-generated images are surprisingly easy to spot... for now

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_CNN-Generated_Images_Are_Surprisingly_Easy_to_Spot..._for_Now_CVPR_2020_paper.pdf

В последние годы вероятностные модели (в первую очередь, GAN) добились значительных успехов в генерации реалистичных изображений, поэтому появилась проблема недобросовестного использования фейковых картинок и видео. Авторы статьи задаются вопросом, а действительно ли остро стоит эта проблема и правда ли тяжело отличить реальные изображения от картинок, сгенерированных сетями GAN. Чтобы ответить на этот вопрос, авторы собирают большой датасет из картинок, сгенерированных множеством современных GAN, и хотят обучить классификатор, который отличает реальные картинки от сгенерированных.

Как видно из названия статьи, им удается обучить такой классификатор. Более того, классификатор, обученный на картинках из одной сети GAN, отлично распознает фейки, порожденные другими сетями GAN. В итоге отличить фейковые картинки от реальных не составляет большого труда.

3. Learning Better Lossless Compression Using Lossy Compression

https://openaccess.thecvf.com/content_CVPR_2020/papers/Mentzer_Learning_Better_Lossless_Compression_Using_Lossy_Compression_CVPR_2020_paper.pdf

Статья предлагает новый метод решения задачи сжатия изображений без потерь (lossless). Идея метода проста — авторы берут state-of-the-art необучаемый метод сжатия с потерями (lossy), сжимают им картинку, а затем в lossless-режиме кодируют лишь остаток от сжатия с потерями. Остатки обычно распределены проще, и для их lossless-кодирования необходимо небольшое число бит. На момент проведения CVPR код, который воспроизводит эксперименты, еще не был выложен, но в результатах авторы заявляют о преимуществах их метода перед известными lossless-JPEG2000 и WebP.

4. Image Processing Using Multi-Code GAN Prior

https://openaccess.thecvf.com/content_CVPR_2020/papers/Gu_Image_Processing_Using_Multi-Code_GAN_Prior_CVPR_2020_paper.pdf

Авторы предлагают инвертировать GAN не полностью, а локальными частями с помощью нескольких кодов: то есть найти несколько латентных кодов, и из их перевзвешенных промежуточных фич синтезировать финальную картинку. Инверсии получаются очень приличными. На основе этой техники можно решать разные задачи: шумоподавление, морфинг, инпейнтинг — когда испорченная картинка восстанавливается, а ее инверсия оказывается тем, что нам и надо.

5. Effectively Unbiased FID and Inception Score and where to find them

https://openaccess.thecvf.com/content_CVPR_2020/papers/Chong_Effectively_Unbiased_FID_and_Inception_Score_and_Where_to_Find_CVPR_2020_paper.pdf

Сейчас одна из самых популярных метрик качества генеративных моделей — FID, который измеряет разницу между распределениями эмбеддингов настоящих и сгенерированных данных, вписывая в них гауссианы. В статье аккуратно расписывается его смещенность по числу семплов и приводится исправленный вариант. На практике это, скорее всего, имеет смысл для очень близких моделей, например для сравнения разных сидов.

А здесь вы можете посмотреть исследования команды Яндекса: https://research.yandex.com


Источник: research.yandex.com

Комментарии: