Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне.

2020-07-27 11:21

Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне. Коллеги из команды Yandex Research поделились статьями, которые показались им наиболее интересными. Сегодня мы публикуем первую часть статей из списка, будет и вторая.

1. Cross-Batch Memory for Embedding Learning

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Cross-Batch_Memory_for_Embedding_Learning_CVPR_2020_paper.pdf

В статье решается задача обучения эмбеддингов для поиска похожих изображений. В существующих пайплайнах обучающие пары/триплеты формируются только внутри одного батча, при этом чем больше размер батча, тем выше качество итогового решения. Но GPU память ограничена, поэтому батч и эффективное количество обучающего сигнала от него невелики.

Авторы предлагает простой способ увеличить число обучающих пар на каждой итерации обучения. Они замечают, что на поздних этапах обучения эмбеддинги, спродуцированные моделью, меняются лишь немного, поэтому эмбеддинги, вычисленные на предыдущих итерациях, можно запомнить и использовать при составлении пар/триплетов на последующих итерациях. Эта простая модификация существенно улучшает качество на трех академических датасетах ценой нескольких строчек кода и небольшого увеличения потребления памяти.

2. CNN-generated images are surprisingly easy to spot... for now

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_CNN-Generated_Images_Are_Surprisingly_Easy_to_Spot..._for_Now_CVPR_2020_paper.pdf

В последние годы вероятностные модели (в первую очередь, GAN) добились значительных успехов в генерации реалистичных изображений, поэтому появилась проблема недобросовестного использования фейковых картинок и видео. Авторы статьи задаются вопросом, а действительно ли остро стоит эта проблема и правда ли тяжело отличить реальные изображения от картинок, сгенерированных сетями GAN. Чтобы ответить на этот вопрос, авторы собирают большой датасет из картинок, сгенерированных множеством современных GAN, и хотят обучить классификатор, который отличает реальные картинки от сгенерированных.

Как видно из названия статьи, им удается обучить такой классификатор. Более того, классификатор, обученный на картинках из одной сети GAN, отлично распознает фейки, порожденные другими сетями GAN. В итоге отличить фейковые картинки от реальных не составляет большого труда.

3. Learning Better Lossless Compression Using Lossy Compression

https://openaccess.thecvf.com/content_CVPR_2020/papers/Mentzer_Learning_Better_Lossless_Compression_Using_Lossy_Compression_CVPR_2020_paper.pdf

Статья предлагает новый метод решения задачи сжатия изображений без потерь (lossless). Идея метода проста — авторы берут state-of-the-art необучаемый метод сжатия с потерями (lossy), сжимают им картинку, а затем в lossless-режиме кодируют лишь остаток от сжатия с потерями. Остатки обычно распределены проще, и для их lossless-кодирования необходимо небольшое число бит. На момент проведения CVPR код, который воспроизводит эксперименты, еще не был выложен, но в результатах авторы заявляют о преимуществах их метода перед известными lossless-JPEG2000 и WebP.

4. Image Processing Using Multi-Code GAN Prior

https://openaccess.thecvf.com/content_CVPR_2020/papers/Gu_Image_Processing_Using_Multi-Code_GAN_Prior_CVPR_2020_paper.pdf

Авторы предлагают инвертировать GAN не полностью, а локальными частями с помощью нескольких кодов: то есть найти несколько латентных кодов, и из их перевзвешенных промежуточных фич синтезировать финальную картинку. Инверсии получаются очень приличными. На основе этой техники можно решать разные задачи: шумоподавление, морфинг, инпейнтинг — когда испорченная картинка восстанавливается, а ее инверсия оказывается тем, что нам и надо.

5. Effectively Unbiased FID and Inception Score and where to find them

https://openaccess.thecvf.com/content_CVPR_2020/papers/Chong_Effectively_Unbiased_FID_and_Inception_Score_and_Where_to_Find_CVPR_2020_paper.pdf

Сейчас одна из самых популярных метрик качества генеративных моделей — FID, который измеряет разницу между распределениями эмбеддингов настоящих и сгенерированных данных, вписывая в них гауссианы. В статье аккуратно расписывается его смещенность по числу семплов и приводится исправленный вариант. На практике это, скорее всего, имеет смысл для очень близких моделей, например для сравнения разных сидов.

А здесь вы можете посмотреть исследования команды Яндекса: https://research.yandex.com

Телеграм: t.me/ainewsline

Источник: research.yandex.com



		Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне.
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-07-27 11:21 Семинары, системы технического зрения Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне. Коллеги из команды Yandex Research поделились статьями, которые показались им наиболее интересными. Сегодня мы публикуем первую часть статей из списка, будет и вторая. 1. Cross-Batch Memory for Embedding Learning https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Cross-Batch_Memory_for_Embedding_Learning_CVPR_2020_paper.pdf В статье решается задача обучения эмбеддингов для поиска похожих изображений. В существующих пайплайнах обучающие пары/триплеты формируются только внутри одного батча, при этом чем больше размер батча, тем выше качество итогового решения. Но GPU память ограничена, поэтому батч и эффективное количество обучающего сигнала от него невелики. Авторы предлагает простой способ увеличить число обучающих пар на каждой итерации обучения. Они замечают, что на поздних этапах обучения эмбеддинги, спродуцированные моделью, меняются лишь немного, поэтому эмбеддинги, вычисленные на предыдущих итерациях, можно запомнить и использовать при составлении пар/триплетов на последующих итерациях. Эта простая модификация существенно улучшает качество на трех академических датасетах ценой нескольких строчек кода и небольшого увеличения потребления памяти. 2. CNN-generated images are surprisingly easy to spot... for now https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_CNN-Generated_Images_Are_Surprisingly_Easy_to_Spot..._for_Now_CVPR_2020_paper.pdf В последние годы вероятностные модели (в первую очередь, GAN) добились значительных успехов в генерации реалистичных изображений, поэтому появилась проблема недобросовестного использования фейковых картинок и видео. Авторы статьи задаются вопросом, а действительно ли остро стоит эта проблема и правда ли тяжело отличить реальные изображения от картинок, сгенерированных сетями GAN. Чтобы ответить на этот вопрос, авторы собирают большой датасет из картинок, сгенерированных множеством современных GAN, и хотят обучить классификатор, который отличает реальные картинки от сгенерированных. Как видно из названия статьи, им удается обучить такой классификатор. Более того, классификатор, обученный на картинках из одной сети GAN, отлично распознает фейки, порожденные другими сетями GAN. В итоге отличить фейковые картинки от реальных не составляет большого труда. 3. Learning Better Lossless Compression Using Lossy Compression https://openaccess.thecvf.com/content_CVPR_2020/papers/Mentzer_Learning_Better_Lossless_Compression_Using_Lossy_Compression_CVPR_2020_paper.pdf Статья предлагает новый метод решения задачи сжатия изображений без потерь (lossless). Идея метода проста — авторы берут state-of-the-art необучаемый метод сжатия с потерями (lossy), сжимают им картинку, а затем в lossless-режиме кодируют лишь остаток от сжатия с потерями. Остатки обычно распределены проще, и для их lossless-кодирования необходимо небольшое число бит. На момент проведения CVPR код, который воспроизводит эксперименты, еще не был выложен, но в результатах авторы заявляют о преимуществах их метода перед известными lossless-JPEG2000 и WebP. 4. Image Processing Using Multi-Code GAN Prior https://openaccess.thecvf.com/content_CVPR_2020/papers/Gu_Image_Processing_Using_Multi-Code_GAN_Prior_CVPR_2020_paper.pdf Авторы предлагают инвертировать GAN не полностью, а локальными частями с помощью нескольких кодов: то есть найти несколько латентных кодов, и из их перевзвешенных промежуточных фич синтезировать финальную картинку. Инверсии получаются очень приличными. На основе этой техники можно решать разные задачи: шумоподавление, морфинг, инпейнтинг — когда испорченная картинка восстанавливается, а ее инверсия оказывается тем, что нам и надо. 5. Effectively Unbiased FID and Inception Score and where to find them https://openaccess.thecvf.com/content_CVPR_2020/papers/Chong_Effectively_Unbiased_FID_and_Inception_Score_and_Where_to_Find_CVPR_2020_paper.pdf Сейчас одна из самых популярных метрик качества генеративных моделей — FID, который измеряет разницу между распределениями эмбеддингов настоящих и сгенерированных данных, вписывая в них гауссианы. В статье аккуратно расписывается его смещенность по числу семплов и приводится исправленный вариант. На практике это, скорее всего, имеет смысл для очень близких моделей, например для сравнения разных сидов. А здесь вы можете посмотреть исследования команды Яндекса: https://research.yandex.com Телеграм: t.me/ainewsline Источник: research.yandex.com Комментарии:

Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне.

Комментарии: