Google Research: самообучение трэкингу объектов

2018-07-06 20:00

Написал Карл Vondrick, научный сотрудник, восприятие машины

Отслеживание объектов на видео является фундаментальной проблемой в области компьютерного зрения, важное значение для таких приложений, как распознавание активности, объекта взаимодействия, или прямая стилизация. Тем не менее, обучение машины визуально отслеживать объекты является сложной задачей частично, потому что это требует больших, маркированных наборов данных отслеживания для обучения, которые нецелесообразно комментировать в масштабе. В “отслеживании появляется путем окрашивания видео"мы вводим сверточную сеть, которая раскрашивает оттенки серого видео, но ограничена копированием цветов из одной опорной рамки. При этом сеть учится визуально отслеживать объекты автоматически без контроля. Главное, хотя модель никогда не обучался специально для отслеживания, он может следить за несколькими объектами, отслеживать через окклюзии, и остаются устойчивыми деформациями, не требуя каких-либо надписью обучающих данных.

Пример отслеживания прогнозы на общедоступных, научных данных Дэвис 2017. После обучения раскрашиванию видео, механизм отслеживания автоматически появляется без присмотра. В первом кадре мы указываем области интереса (обозначаемые разными цветами), и наша модель распространяет его вперед без дополнительного обучения или наблюдения.

Научиться перекрашивать видео Наша гипотеза заключается в том, что временная когерентность цвета обеспечивает отличные крупномасштабные тренировочные данные для обучающих машин для отслеживания регионов в видео. Ясно, что есть исключения, когда цвет не является временно когерентным (например, свет включается внезапно), но в целом цвет стабилен с течением времени. Кроме того, большинство видео содержат цвет, обеспечивая масштабируемый само-контролируемый сигнал обучения. Мы деколируем видео, а затем добавляем этап раскрашивания, потому что может быть несколько объектов с одним цветом, но путем раскрашивания мы можем научить машины отслеживать конкретные объекты или регионы. Для того, чтобы тренировать нашу систему, мы используем видео от кинетика набора данных, который является большая общественная коллекция видео с изображением повседневной деятельности. Мы преобразуем все видео кадры, кроме первого кадра, в серый масштаб и обучаем сверточную сеть, чтобы предсказать исходные цвета в последующих кадрах. Мы ожидаем, что модель научится следовать за регионами, чтобы точно восстановить оригинальные цвета. Наше главное наблюдение-необходимость следовать за объектами для раскрашивания, что приведет к автоматическому изучению модели для отслеживания объектов.

Проиллюстрируем видео recolorization задач, используя видео из Дэвиса 2017 набора данных. Модель получает в качестве входного сигнала один цветной кадр и видео серого масштаба и предсказывает цвета для остальной части видео. Модель учится копировать цвета из системы отсчета, что позволяет изучать механизм отслеживания без наблюдения человека.

Чтобы научиться копировать цвета из одной опорной рамки, необходимо, чтобы модель указывала на нужную область для копирования нужных цветов. Это заставляет модель изучить явный механизм, который мы можем использовать для отслеживания. Чтобы увидеть, как работает модель раскрашивания видео, мы покажем некоторые предсказанные раскрашивания из видео в наборе данных Kinetics ниже.

Примеры прогнозируемых цветов из цветной отсчета применяется для ввода видео с помощью общедоступных кинетика набора данных.

Несмотря на то, что сеть обучена без тождеств, наша модель учится отслеживать любую визуальную область, указанную в первом кадре видео. Мы можем отслеживать очерченные объекты или одну точку в видео. Единственное изменение, которое мы делаем, заключается в том, что вместо распространения цветов по всему видео мы теперь распространяем метки, представляющие интересующие области. Анализируя трекер Поскольку модель обучена на большом количестве немеченых видео, мы хотим получить представление о том, что узнает модель. На видео ниже показана стандартная уловка, чтобы визуализировать вложениями узнал по нашей модели, проецируя их в трех измерениях, используя Анализ главных компонент (РСА) и построение его как RGB-кино. Результаты показывают, что ближайшие соседи в изученном пространстве вложения, как правило, соответствуют идентичности объекта, даже над деформациями и изменениями точки зрения.

Верхний ряд: мы покажем видео от Дэвис 2017 набора данных. Нижний ряд: мы визуализируем внутренние вложения из модели раскрашивания. Подобные встраивания будут иметь аналогичный цвет в этой визуализации. Это говорит о том, что обученное встраивание группирует пиксели по идентификатору объекта.

Отслеживание Позе Мы обнаружили, что модель может также отслеживать человеческие позы, заданные ключевые точки в начальном кадре. Мы показываем результаты на общедоступных, научных данных JHMDB , где мы отслеживаем человеческого сустава скелет.

Примеры использования модели для отслеживания движений человеческого скелета. В этом случае вход был человеческой позой для первого кадра и последующее движение автоматически отслеживается. Модель может отслеживать человеческие позы, даже если она никогда не была специально обучена для этой задачи.

Пока мы еще не переигрывают сильно защищенные модели, раскрашивания модели научается отслеживать видео сегментов и человека представляют достаточно хорошо, чтобы превзойти новейшие методы на основе оптического потока. Ломая представление типом движения предлагает что наша модель более робастный отслежыватель чем оптически подача для много естественных сложностей, как динамические предпосылки, быстрое движение, и окклюзии. Пожалуйста, см. в статье дополнительные сведения. Будущей Работы Наши результаты показывают, что раскрашивание видео дает сигнал, который может быть использован для обучения, чтобы отслеживать объекты в видео без надзора. Кроме того, мы обнаружили, что сбои в нашей системе коррелируют с сбоями в раскрашивании видео, что говорит о том, что дальнейшее улучшение модели раскрашивания видео может способствовать прогрессу в самонадзорном отслеживании. Благодарности Этот проект был возможен только благодаря сотрудничеству в Google. В состав основной команды входят Абхинав Шривастава, Алиреза Фатхи, Серхио Гвадаррама и Кевин Мерфи. Мы также благодарим Дэвида Росса, Брайана Сейболда, Чэня Суна и Рахуля Суктханкара.

Источник: ai.googleblog.com

Google Research: самообучение трэкингу объектов

Комментарии: