ObjectNet — датасет, который поставил в тупик лучшие модели компьютерного зрения |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-02-21 18:00 Модели компьютерного зрения, которые при тестировании точны в 97% случаев, не справляются с распознаванием объектов, когда их начинают применять в жизни. Это может создавать угрозы для жизни и здоровья людей, так как эти модели используют, например, в автомобилях с автоматическим управлением. Многие модели обучались на датасете ImageNet, в котором собрано около 14 миллионов изображений из социальных сетей. Преимущество датасета — его размер, а недостаток — однообразие: большинство объектов на фотографиях сняты целиком, под прямым углом и в максимально привычном контексте — например, тарелки на кухне. Создатели ObjectNet решили устранить этот перекос, поэтому в датасет вошли фотографии, сделанные фрилансерами, на которых объекты сняты с неожиданного ракурса или в беспорядочно захламленных комнатах. Когда ведущие модели компьютерного зрения протестировали на ObjectNet, их точность упала до 50-55%. Исследователи задумались о том, что в архитектуру современных детекторов объектов еще не встроено понимание, как объекты существуют в реальном мире. Поэтому нужно разрабатывать более умные алгоритмы, которые будут знать, что все объекты на самом деле трехмерные, и их можно вращать и перемещать в новые контексты. У ObjectNet есть еще одно существенное отличие: он не содержит обучающих изображений, тогда как большинство датасетов разделены на данные для обучения и данные для тестирования. Обучающие данные часто имеют сходства с тестовыми, что дает моделям фору при тестировании. Если обучать и тестировать модель на одном и том же датасете, производительность и точность обычно сильно улучшается. Однако, когда исследователи все же позволили моделям тренироваться на половине данных ObjectNet, а затем протестировали их на оставшейся половине, улучшения были незначительными. Это доказывает, что у моделей возникают сложности именно из-за необычного расположения объекта на фотографии или непривычной обстановки. Ведь даже наборы данных с миллионами изображений не могут показать каждый объект во всех его возможных положениях и контекстах, что усложняет моделям компьютерного зрения работу, когда они сталкиваются с этими объектами в реальной жизни. Таким образом, цель разработчиков датасета ObjectNet — побудить исследователей на создание новых, революционных технологий и алгоритмов компьютерного зрения, которые смогут с высокой точностью распознавать объекты в любой обстановке и с любой стороны. Источник: sysblok.ru Комментарии: |
|