Свежие идеи компьютерного зрения — в сегодняшней подборке интересных статей с конференции CVPR 2020. |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-07-30 12:29 Свежие идеи компьютерного зрения — в сегодняшней подборке интересных статей с конференции CVPR 2020. Это вторая часть списка от исследовательской команды Яндекса. 1. FDA: Fourier Domain Adaptation for Semantic Segmentation https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_FDA_Fourier_Domain_Adaptation_for_Semantic_Segmentation_CVPR_2020_paper.pdf Простой и недорогой способ доменной адаптации — подмена части Фурье-спектра одного домена Фурье-спектром другого. Обмен идет низкими частотами, которые мало влияют на объекты/текстуры. Это показывает хорошие результаты на задаче сегментации. 2. Single-Image HDR Reconstruction by Learning to Reverse the Camera Pipeline https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Single-Image_HDR_Reconstruction_by_Learning_to_Reverse_the_Camera_Pipeline_CVPR_2020_paper.pdf Авторы берут процесс преобразования HDR (High Dynamic Range) в LDR (Low Dynamic Range) и разбивают его на части: клип сигнала, нелинейное преобразование, квантизация. Для преобразования LDR в HDR они пытаются приблизить сетками каждый из этих шагов в обратном порядке. В части сетапов получают state-of-the-art результаты. 3. A Multigrid Method for Efficiently Training Video Models https://openaccess.thecvf.com/content_CVPR_2020/papers/Wu_A_Multigrid_Method_for_Efficiently_Training_Video_Models_CVPR_2020_paper.pdf В статье анализируют, как эффективнее обучать модели для видео. Есть компромисс между разрешением видео, размером мини-батча и качеством модели. Большие батчи нельзя брать при высоком разрешении кадров, но при маленьком разрешении модели становится плохо. Авторы вдохновляются идеей из multigrid-методов в численной оптимизации и в процессе обучения динамически меняют разрешение: например, стартуют с большого батча и маленького разрешения и постепенно снижают размер батча, повышая разрешение. Также здесь рассматриваются и другие схемы. 4. Towards Robust Image Classification Using Sequential Attention Models https://openaccess.thecvf.com/content_CVPR_2020/papers/Zoran_Towards_Robust_Image_Classification_Using_Sequential_Attention_Models_CVPR_2020_paper.pdf Статья про новый вид моделей, которые по построению устойчивее для adversarial-атак. Это микс CNN, LSTM и аттеншена. Авторы из DeepMind вдохновлялись двумя идеями. Во-первых, feedforward-архитектуры не совсем полностью соответствуют тому, как люди смотрят на картинку — вместо одного взгляда на картинку целиком мы много раз смотрим на её разные части. Во-вторых, у adversarial-атак обычно «глобальная» структура, то есть они атакуют одновременно по всем пространственным координатам. Если наша модель будет смотреть на части картинки и агрегировать информацию, то по идее она станет более робастной. Авторы реализовывают свою идею с помощью LSTM-сети, которая последовательно обрабатывает результат аттеншена выхода с последнего сверточного слоя ResNet на себя (делим его вдоль каналов на две части: одна часть выступает в роли ключей, вторая — в роли значений). Дальше несколько суток идет обучение на 150 TPU, сеть показывает хорошую робастность, плюс adversarial-атаки теперь выглядят не просто как шум, а имеют смысл (например, когда делаем таргетированную атаку на класс «змея», на картинке появляются контуры змеи). 5. Adversarial Vertex Mixup: Toward Better Adversarially Robust Generalization https://openaccess.thecvf.com/content_CVPR_2020/papers/Lee_Adversarial_Vertex_Mixup_Toward_Better_Adversarially_Robust_Generalization_CVPR_2020_paper.pdf Здесь предлагается новый подход к тренировке сетей, которые устойчивы к adversarial-атакам. Одна из целей — уменьшить generalization gap при adversarial training (где разница между трейном и тестом может быть порядка 40%). Основная идея в том, чтобы скомбинировать два подхода. — Mixup — берем линейную комбинацию двух семплов и их лейблов в качестве обучающего примера. — Label smoothing — учим кросс-энтропию не с one-hot target, а сглаженным (показателем u), у правильного класса вероятность u, а (1-u) размазывается по остальным классам равномерно. Алгоритм получается следующий: по входу x генерируем адверсариальную картинку x*, например PGD-атакой, и строим adversarial vertex kx* с тем же классом, что x. Делаем им обоим label smoothing с разными коэффициентами, и для обучения делаем mixup этих двух точек (x и kx*). Есть теоретический анализ через робастные (полезные для классификации) и неробастные (по сути, ненужные для классификации) фичи. Результаты довольно впечатляют, особенно когда они применяют технику к предыдущему state-of-the-art подходу и получают практически полностью робастную к PGD-атаке сеть. Источник: openaccess.thecvf.com Комментарии: |
|