Опенсорсные массивы данных для Computer Vision |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-03-05 17:54 Модели Computer Vision, обучаемые на опенсорсных массивах данных Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем. В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
В этой статье мы расскажем о некоторых из самых популярных и эффективных датасетов, используемых в сфере глубокого обучения (Deep Learning, DL) для обучения современных систем ML под задачи CV. Выбирайте опенсорсные массивы данных внимательно Обучение компьютеров на изображениях и видеофайлах — это серьёзная операция, требующая больших объёмов данных. Одиночный файл изображения — это многомерная многомегабайтная цифровая сущность, содержащая лишь крошечную долю информации в контексте всей задачи «интеллектуального анализа изображений». Популярные опенсорсные массивы данных для моделей Computer Vision Не все массивы данных одинаково подходят для всех типов задач CV. Существуют следующие распространённые задачи CV:
Мы представим список популярных опенсорсных массивов данных, относящихся к большинству этих категорий. ImageNet (самый известный) ImageNet — это развивающийся исследовательский проект по созданию легкодоступной базы изображений для исследователей всего мира. Наверно, это самый известный массив изображений, считающийся золотым стандартом для исследователей и студентов. CIFAR-10 (для начинающих) Это коллекция изображений, обычно используемая для обучения алгоритмов машинного обучения и компьютерного зрения новичками в данной отрасли. Также это один из самых популярных массивов данных в исследованиях машинного обучения для быстрого сравнения алгоритмов, поскольку он отражает слабые и сильные места конкретной архитектуры, не накладывая при этом дополнительных требований на процесс обучения и подстройки гиперпараметров. MegaFace и LFW (распознавание лиц) Labeled Faces in the Wild (LFW) — это база данных фотографий лиц, предназначенная для изучения задачи неограниченного распознавания лиц. Она содержит 13233 изображений 5749 людей, скачанных и распознанных из веба. В качестве дополнительной задачи исследователи ML могут использовать 1680 человек с двумя или более отдельными фотографиями. Это публично доступный бенчмарк для верификации лиц, также называемой сопоставлением пар (для него требуется не менее двух изображений одного человека). IMDB-Wiki (идентификация гендера и возраста) Один из крупнейших опенсорсных массивов данных изображений лиц с метками гендера и возраста для обучения. Суммарно в нём находится 523051 изображение лиц, 460723 изображения — это лица 20284 знаменитостей с IMDB, а 62328 — с Википедии. MS Coco (распознавание и сегментирование объектов) COCO, или Common Objects in COntext — это крупный массив данных для распознавания, сегментации и создания подписей к объектам. Массив данных содержит фотографии 91 легкоузнаваемый тип объектов и 2,5 миллиона размеченных экземпляров на 328 тысячах изображений. Кроме того, он содержит ресурсы для более сложных задач CV, в том числе многообъектной разметки, аннотирования масками сегментации, создания подписей к изображениям и распознавания ключевых точек. Также он имеет хорошую поддержку интуитивно-понятного API, помогающего в загрузке, парсинге и визуализации аннотаций в COCO. API поддерживает множество форматов аннотаций. MPII Human Pose (определение поз) Этот массив данных используется для определения артикулированных человеческих поз. Он состоит из приблизительно 25 тысяч изображений, содержащих более 40 тысяч людей с аннотированными суставами тела. Каждое видео извлечено из видео YouTube и снабжено информацией о предыдущем и последующем неразмеченном кадре. В целом массив охватывает 410 действий человека, а каждое изображение дополнено меткой действия. Flickr-30k (создание подписей к изображениям) Этот корпус создания подписей к изображениям состоит из собранных краудсорсингом 158915 подписей, описывающих 31783 изображений. Это расширенная версия массива Flickr 8k. В новых изображениях и подписях упор делается на людях, участвующих в повседневных действиях и событиях. 20BN-SOMETHING-SOMETHING (видеоклипы человеческих действий) Этот массив данных является крупной коллекцией плотно размеченных видеоклипов, в которых люди выполняют заданные простые действия с повседневными объектами. Он был создан множеством краудсорсеров, что позволяет моделям ML развить тонкое понимание простых действий, происходящих в физическом мире. Barkley DeepDrive (для обучения беспилотного транспорта) Массив данных Berkeley DeepDrive , созданный Калифорнийским университетом в Беркли, состоит из более чем 100 тысяч видеоклипов с разнообразными типами аннотаций, в том числе ограничивающими прямоугольниками, областями, пригодными для движения транспорта, разметки на уровне изображений, дорожной разметки и полнокадровой сегментации экземпляров объектов. Кроме того, в этом массиве данных присутствует большое разнообразие географических, природных и погодных условий. Подходящее оборудование и бенчмарки для этих массивов данных Не нужно говорить, что для создания высококачественной системы ML или бизнес-решения этих массивов недостаточно. Для получения оптимального решения любой научной или бизнес-задачи нужна комбинация правильно выбранного массива данных, оборудования для обучения, продуманной подстройки и стратегии бенчмаркинга.
Кроме того, для хорошего бенчмарка следует учитывать множество параметров производительности. Параметры производительности Существует три основных индекса:
Какие наборы данных с открытым исходным кодом лучше всего подходят для ваших моделей компьютерного зрения? В этой статье мы обсудили необходимость доступа к высококачественным крупномасштабным наборам данных для обучения сложных моделей DNN, которые постепенно становятся повсеместными в приложениях компьютерного зрения. Источник: habr.com Комментарии: |
|