В ней я для начала соберу подборку интересных и свежих (относительно) датасетов. А бонусом в конце статьи прикреплю полезные ссылки по самостоятельному поиску датасетов.
Распознавание пола по голосу. Эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
Студенческое потребление алкоголя. Данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».
Рентгенография грудной клетки. Более 112 тысяч рентгенограмм грудной клетки от более чем 30 тысяч уникальных пациентов.
Отчеты об убийствах, 1980–2014 годы. Проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
База данных подержанных автомобилей. Более 370 тысяч подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
Дом открытых данных правительства США. Данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
EconData. Несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и СМИ.
Центр исследования побережья. Интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
Качество красного вина. Простой и понятный практический набор данных для регрессионного или классификационного моделирования.
Таблицы английской футбольной премьер-лиги (1968–2019 годы).
HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
Labelme. Большой датасет аннотированных изображений.
ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
Visual Genome. Датасет, где примерно 100 тысяч подробно аннотированных изображений.
Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
Oxford’s Robotic Car. Более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
Cityscape Dataset. Большой датасет, содержащий записи 100 уличных сцен в 50 городах.
WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.
Berkeley DeepDrive. Огромный датасет для автопилотов. Он содержит более 100 тысяч видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
MIMIC-III. Датасет с обезличенными данными о состоянии здоровья примерно 40 тысяч пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
Полезные ссылки по поиску датасетов
Конечно, Kaggle — место встречи всех любителей соревнований по машинному обучению.
Machine Learning Repository — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
VisualData — поиск датасетов для машинного зрения, есть удобная классификация по категориям.
DATA USA — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.
На этом наша короткая подборка подошла к концу. Если у кого-то есть, чем дополнить или поделиться — пишите в комментариях.
Всем знаний!
Подпишись на канал «Нейрон» в Telegram (@neurondata) ? там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.