Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне. |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-07-27 11:21 Совсем недавно состоялась ведущая конференция по компьютерному зрению — CVPR. В этом году она впервые целиком проходила в онлайне. Коллеги из команды Yandex Research поделились статьями, которые показались им наиболее интересными. Сегодня мы публикуем первую часть статей из списка, будет и вторая. 1. Cross-Batch Memory for Embedding Learning https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Cross-Batch_Memory_for_Embedding_Learning_CVPR_2020_paper.pdf В статье решается задача обучения эмбеддингов для поиска похожих изображений. В существующих пайплайнах обучающие пары/триплеты формируются только внутри одного батча, при этом чем больше размер батча, тем выше качество итогового решения. Но GPU память ограничена, поэтому батч и эффективное количество обучающего сигнала от него невелики. Авторы предлагает простой способ увеличить число обучающих пар на каждой итерации обучения. Они замечают, что на поздних этапах обучения эмбеддинги, спродуцированные моделью, меняются лишь немного, поэтому эмбеддинги, вычисленные на предыдущих итерациях, можно запомнить и использовать при составлении пар/триплетов на последующих итерациях. Эта простая модификация существенно улучшает качество на трех академических датасетах ценой нескольких строчек кода и небольшого увеличения потребления памяти. 2. CNN-generated images are surprisingly easy to spot... for now https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_CNN-Generated_Images_Are_Surprisingly_Easy_to_Spot..._for_Now_CVPR_2020_paper.pdf В последние годы вероятностные модели (в первую очередь, GAN) добились значительных успехов в генерации реалистичных изображений, поэтому появилась проблема недобросовестного использования фейковых картинок и видео. Авторы статьи задаются вопросом, а действительно ли остро стоит эта проблема и правда ли тяжело отличить реальные изображения от картинок, сгенерированных сетями GAN. Чтобы ответить на этот вопрос, авторы собирают большой датасет из картинок, сгенерированных множеством современных GAN, и хотят обучить классификатор, который отличает реальные картинки от сгенерированных. Как видно из названия статьи, им удается обучить такой классификатор. Более того, классификатор, обученный на картинках из одной сети GAN, отлично распознает фейки, порожденные другими сетями GAN. В итоге отличить фейковые картинки от реальных не составляет большого труда. 3. Learning Better Lossless Compression Using Lossy Compression https://openaccess.thecvf.com/content_CVPR_2020/papers/Mentzer_Learning_Better_Lossless_Compression_Using_Lossy_Compression_CVPR_2020_paper.pdf Статья предлагает новый метод решения задачи сжатия изображений без потерь (lossless). Идея метода проста — авторы берут state-of-the-art необучаемый метод сжатия с потерями (lossy), сжимают им картинку, а затем в lossless-режиме кодируют лишь остаток от сжатия с потерями. Остатки обычно распределены проще, и для их lossless-кодирования необходимо небольшое число бит. На момент проведения CVPR код, который воспроизводит эксперименты, еще не был выложен, но в результатах авторы заявляют о преимуществах их метода перед известными lossless-JPEG2000 и WebP. 4. Image Processing Using Multi-Code GAN Prior https://openaccess.thecvf.com/content_CVPR_2020/papers/Gu_Image_Processing_Using_Multi-Code_GAN_Prior_CVPR_2020_paper.pdf Авторы предлагают инвертировать GAN не полностью, а локальными частями с помощью нескольких кодов: то есть найти несколько латентных кодов, и из их перевзвешенных промежуточных фич синтезировать финальную картинку. Инверсии получаются очень приличными. На основе этой техники можно решать разные задачи: шумоподавление, морфинг, инпейнтинг — когда испорченная картинка восстанавливается, а ее инверсия оказывается тем, что нам и надо. 5. Effectively Unbiased FID and Inception Score and where to find them https://openaccess.thecvf.com/content_CVPR_2020/papers/Chong_Effectively_Unbiased_FID_and_Inception_Score_and_Where_to_Find_CVPR_2020_paper.pdf Сейчас одна из самых популярных метрик качества генеративных моделей — FID, который измеряет разницу между распределениями эмбеддингов настоящих и сгенерированных данных, вписывая в них гауссианы. В статье аккуратно расписывается его смещенность по числу семплов и приводится исправленный вариант. На практике это, скорее всего, имеет смысл для очень близких моделей, например для сравнения разных сидов. А здесь вы можете посмотреть исследования команды Яндекса: https://research.yandex.com Источник: research.yandex.com Комментарии: |
|