52 датасета для тренировочных проектов

Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.
SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.
Статья переведена при поддержке компании EDISON Software, которая выполняет «на отлично» заказы из Южного Китая, а также разрабатывает веб-приложения и сайты.
Parkinson Dataset — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease)
Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.
Uber Pickups Dataset — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R)
Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.
Credit Card Fraud Detection Dataset — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project)
Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python)
Enron Email Dataset — содержит пол миллиона писем от 150 менеджеров Enron.
The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.
Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.
Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R )
UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.
Flickr 30k Dataset — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project)
IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
MS COCO dataset — 1,5 млн размеченных изображений.
CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.
20BN-something-something dataset v2 — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия.
Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов.
Photo sketching dataset — содержит более 1000 изображений с их контурными чертежами.
CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.
IMDB-Wiki dataset — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project)
Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube
Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).
LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).
RAVDESS Dataset — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project)
Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами.
Baidu Apolloscape Dataset — датасет для развития технологий самостоятельного вождения.
Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.
IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.
Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.
Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.
Food environment Atlas Data Portal — содержит данные исследований о питании в США.
Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.
London Datastore Portal — данные о жизни людей в Лондоне.
Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

Читать ещё

14 open-source проектов для прокачки Data Science мастерства (easy, normal, hard)
Front-end додзё: проекты для тренировки навыков разработчика (5 новых + 43 старых)
Топ-12 самых интересных ИТишных динамических инфографик



		52 датасета для тренировочных проектов
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-12-16 16:24 алгоритмы машинного обучения Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning) Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков. MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений. The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений. Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project ) Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами. SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей. Статья переведена при поддержке компании EDISON Software, которая выполняет «на отлично» заказы из Южного Китая, а также разрабатывает веб-приложения и сайты. Parkinson Dataset — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease) Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом. Uber Pickups Dataset — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R) Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов. Credit Card Fraud Detection Dataset — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project) Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python) Enron Email Dataset — содержит пол миллиона писем от 150 менеджеров Enron. The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций. Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры. Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R ) UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных. Flickr 30k Dataset — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project) IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project) MS COCO dataset — 1,5 млн размеченных изображений. CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 3232 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100. GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project) ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу. Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project) Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов. Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео. MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам. 20BN-something-something dataset v2 — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия. Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов. Photo sketching dataset — содержит более 1000 изображений с их контурными чертежами. CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами. IMDB-Wiki dataset — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project) Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов). LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов). RAVDESS Dataset — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project) Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами. Baidu Apolloscape Dataset — датасет для развития технологий самостоятельного вождения. Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент). The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам. IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах. American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США. Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных. Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира. Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.). Data Portal: Open government data (India) — открытая правительственная платформа данных Индии. Food environment Atlas Data Portal — содержит данные исследований о питании в США. Health Data Portal — это портал Министерства здравоохранения и социальных служб США. Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем. London Datastore Portal — данные о жизни людей в Лондоне. Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.) Читать ещё* 14 open-source проектов для прокачки Data Science мастерства (easy, normal, hard) Front-end додзё: проекты для тренировки навыков разработчика (5 новых + 43 старых) Топ-12 самых интересных ИТишных динамических инфографик Телеграм: t.me/ainewsline Источник: habr.com Комментарии:

52 датасета для тренировочных проектов

Комментарии: