ObjectNet — датасет, который поставил в тупик лучшие модели компьютерного зрения

2021-02-21 18:00

Модели компьютерного зрения, которые при тестировании точны в 97% случаев, не справляются с распознаванием объектов, когда их начинают применять в жизни. Это может создавать угрозы для жизни и здоровья людей, так как эти модели используют, например, в автомобилях с автоматическим управлением.

Многие модели обучались на датасете ImageNet, в котором собрано около 14 миллионов изображений из социальных сетей. Преимущество датасета — его размер, а недостаток — однообразие: большинство объектов на фотографиях сняты целиком, под прямым углом и в максимально привычном контексте — например, тарелки на кухне.

Создатели ObjectNet решили устранить этот перекос, поэтому в датасет вошли фотографии, сделанные фрилансерами, на которых объекты сняты с неожиданного ракурса или в беспорядочно захламленных комнатах. Когда ведущие модели компьютерного зрения протестировали на ObjectNet, их точность упала до 50-55%.

*Примеры изображений из датасетов ImageNet и ObjectNet*
*(Источник)*

Исследователи задумались о том, что в архитектуру современных детекторов объектов еще не встроено понимание, как объекты существуют в реальном мире. Поэтому нужно разрабатывать более умные алгоритмы, которые будут знать, что все объекты на самом деле трехмерные, и их можно вращать и перемещать в новые контексты.

У ObjectNet есть еще одно существенное отличие: он не содержит обучающих изображений, тогда как большинство датасетов разделены на данные для обучения и данные для тестирования. Обучающие данные часто имеют сходства с тестовыми, что дает моделям фору при тестировании.

Если обучать и тестировать модель на одном и том же датасете, производительность и точность обычно сильно улучшается. Однако, когда исследователи все же позволили моделям тренироваться на половине данных ObjectNet, а затем протестировали их на оставшейся половине, улучшения были незначительными.

Это доказывает, что у моделей возникают сложности именно из-за необычного расположения объекта на фотографии или непривычной обстановки. Ведь даже наборы данных с миллионами изображений не могут показать каждый объект во всех его возможных положениях и контекстах, что усложняет моделям компьютерного зрения работу, когда они сталкиваются с этими объектами в реальной жизни.

Таким образом, цель разработчиков датасета ObjectNet — побудить исследователей на создание новых, революционных технологий и алгоритмов компьютерного зрения, которые смогут с высокой точностью распознавать объекты в любой обстановке и с любой стороны.

Источник: sysblok.ru

ObjectNet — датасет, который поставил в тупик лучшие модели компьютерного зрения

Комментарии: