Датасеты, необходимые для отработки навыков DS и создания отличного портфолио

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Единственный способ изучить data science, data analysis, machine learning или темы искусственного интеллекта — это практиковаться или выполнять проекты. Альтернативы этому нет. Но по большому счету приходится тратить много времени на поиск подходящего набора данных. В этой статье ты найдешь датасеты, которые могут быть полезными новичкам. Каждый датасет привязан к определенной DS-теме.

Автор: Рашида Насрин Саки — магистрант в Бостонского университета и DataScientist. Оригинал статьи. Адаптировано и переведено датасайентистами из LabelMe.

1. Census Dataset (данные по переписи)

Если ты хочешь понять, как исследовать большой набор данных — поработай с этим датасетом. Он огромный.

Отлично подойдет для исследовательского анализа данных, статистического анализа и моделирования. Также подойдет для практики визуализации данных .

Загрузить можно отсюда .

2. Airbnb

Этот датасет могут скинуть для интервью — собеседования с задачей провести исследовательский анализ данных и разработать модель машинного обучения.

Этот датасет содержит много текстовых и числовых данных. Он также подойдет для множества других практических проектов.

По этой ссылке ты увидишь несколько наборов данных. Однако автора статьи попросили загрузить файл listings.csv для целей собеседования.

3. Cars Dataset

Это датасет можно использовать для практики некоторых регрессионных моделей и исследовательского анализа данных. К тому же он разумного размера.

Этот набор данных содержит следующие классы: YEAR, Make, Model, Size, (kW), Unnamed: 5, TYPE, CITY (kWh/100 km), HWY (kWh/100 km), COMB (kWh/100 km), CITY (Le/100 km), HWY (Le/100 km), COMB (Le/100 km), (g/km), RATING, (km), TIME (h).

Скачать можно по этой ссылке.

4. Heart Disease Dataset

Применение этого датасета можно посмотреть тут.

Он содержит классы: age, sex, chest pain type (4 вида), resting blood pressure, serum cholestoral in mg/dl, fasting blood sugar > 120 mg/dl, resting electrocardiographic results (values 0,1,2), maximum heart rate achieved, exercise induced angina, oldpeak = ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels (0–3) colored by flourosopy и т.д.

Ознакомься с этим набором данных. Наверняка ты станешь часто к нему возвращаться.

Скачать можно по этой ссылке.

5. NHANES Dataset

Замечательный набор данных для учащихся. Наименования столбцов этого датасета сначала могут показаться не очень понятными.

Но как только ты к ним привыкнешь, у тебя получится использовать этот датасет набор для практики моделей анализа данных, визуализации, статистического моделирования и машинного обучения (как классификации, так и регрессии).

Скачать можно тут.

6. People Wiki Dataset

Этот датасет включает в себя профили известных людей прямиком из Википедии.

Набор данных содержит три столбца: URI, name и text (тоже из Википедии)…

Простой, но очень полезный набор данных для Natural Language Processing. Применение этого датасета можно посмотреть тут.

Скачивание по ссылке.

7. Amazon Product Review Dataset

Этот набор данных содержит миллионы отзывов на продукты Amazon.

В нем три столбца: название продукта, отзыв и рейтинг. Этот датасет отлично подойдет для Natural Language Processing. Ознакомиться с примером использования для анализа тональности можно тут.

Скачивание по этой ссылке.

8. Набор данных о фильмах

Это еще один набор данных, который подходит для машинного обучения и Natural Language Processing. Хорошо подойдет для создания рекомендательной системы.

Датасет содержит следующие столбцы: index, budget, genres, homepage, id, keywords, original_language, original_title, overview, popularity, production_companies, production_countries, release_date, revenue, runtime, spoken_languages, status, tagline, title, vote_average, vote_count, cast, crew, director.

Скачать можно по этой ссылке.

9. Набор данных о ценах на жилье

Это весьма популярный набор данных для разработки моделей регрессии. В основном для прогнозирования цен на жилье на основе информации в соседних столбцах. Но использовать его можно также и для других целей.

Этот набор данных содержит следующие столбцы: id, date, price, bedrooms, bathrooms, sqft_living, sqft_lot, floors, waterfront, view, condition, grade, sqft_above, sqft_basement, yr_built, yr_renovated, zip code, lat, long, sqft_living15, sqft_lot15.

Скачивание по ссылке.

10. Грибной датасет

Найден на Coursera в топике «Прикладная наука о данных со специализацией на Python».

Используется для задач классификации, а так же для других целей.

Содержит следующие столбцы: class, cap-shape, cap-surface, cap-color, bruises, odor, gill-attachment, gill-spacing, gill-size, gill-color, stalk-shape, stalk-root, stalk-surface-above-ring, stalk-surface-below-ring, stalk-color-above-ring, stalk-color-below-ring, veil-type, veil-color, ring-number, ring-type, spore-print-color, population, habitat.

Ссылка на этот набор данных.

11. Olympic Dataset

Этот набор данных содержит информацию о результатах Олимпийских игр. Каждая строка содержит данные по стране. Дает почувствовать все грани боли от фильтрации данных. Автор статьи изучил библиотеки Python (Numpy и Pandas), используя этот набор данных.

Загрузить можно тут.

12. Titanic Dataset

Еще один очень популярный набор данных. Опытные DS используют этот датасет, чтобы представлять свои концепции.

“Титаник” содержит следующие столбцы: PassengerId, Survived, P-class, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked.

Подойдет для исследовательского анализа данных , моделей машинного обучения (особенно моделей классификации), статистического анализа и практической отработки визуализации данных .

Сесть на борт “Титаника” по этой ссылке.

13. Iris Dataset

Еще один широко котируемый набор данных в курсах по Data Science.

Особенно хорош для изучения классификационных моделей.

Содержит следующие столбцы: SepalLength, SepalWidth, PetalLength, PetalWidth, Name.

Вот ссылка.

14. Fraud Dataset

Найден на Coursera в топике «Прикладная наука о данных со специализацией на Python».

Используется для моделей классификации.

Примечание: проект по выявлению мошенничества с кредитными картами хорошо смотрится в портфолио.

Загрузить можно тут.

15. Canada Immigration Dataset

Этот набор данных предоставляет информацию о числе иммигрантов, приехавших из той или иной страны по годам.

Отличный датасет для отработки Exploratory Data Analysis и визуализации данных.

Пример использования: настольная шпаргалка по Python Matplotlib

Скачивание по этой ссылке.

16. Facebook Stock Data

Этот датасет дает информацию о ежедневной динамике акций Facebook.

Столбцы в этом наборе данных следующие: Date, Open, High, Low, Close, Adj Close, Volume.

Это может быть очень полезно при анализе и визуализации временных рядов или проблемах, связанных с временными рядами.

Пример использования: детали функции Pandas date_range

Ссылка здесь

17. Digits Dataset

Этот набор данных содержит значения пикселей для цифр. Обычно используется для задач многоклассовой классификации.

Позаимствован из курса машинного обучения профессора Эндрю Ына на Coursera.

Скачивание по ссылке.

18. BBC Text Dataset

Еще один замечательный набор данных для Natural Language Processing.

Этот набор данных содержит информацию о различных типах новостей из архивов BBC. Это большой набор текстовых данных.

Популярен в задачах мультиклассовой классификации.

Набор данных объемный, но в нем всего два столбца: текст и категория.

Вот ссылка на этот набор данных.

19. Cats vs Dogs

Очень часто используется для отработки классификации изображений.Внутри ты найдешь изображения кошек и собак. Датасет хорош для проблем computer vision.

Ссылка.

20. Malignant vs Benign

Еще один полезный набор данных для проблем компьютерного зрения. Датасет содержит изображения двух типов рака кожи. Подходит для задач классификации изображений.

Скачивание по ссылке.

21. Natural Images Dataset

Этот набор данных содержит изображения самолетов, автомобилей, кошек, собак, цветов, фруктов, мотоциклов и людей.

Подойдет для практики мультиклассовой классификации.

Вот ссылка на этот набор данных.

Заключение

Если среди списка не нашлось нужного датасета, то тебе в LabelMe. Ведь это наш профиль. Никакой возни с шаблонами. Поручи сбор датасета опытной команде, где есть жесткие критерии качества. Ты можешь сам убедиться в этом, получив бесплатную тестовую разметку за 3 часа. Оставить заявку можно на нашем сайте или напрямую связавшись с CEO LabelMe Георгием Каспарьянцем: +7 (926)345 53 82.


Источник: m.vk.com

Комментарии: