14 проектов по науке о данных для вашего 14-дневного карантина |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-05-02 15:00 Проекты по визуализации Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены три интересных набора данных, с помощью которых вы сможете пополнить свои портфолио, создав несколько интересных визуализаций. Визуализируем коронавирус Уровень сложности: легкий Ссылка на набор данных здесь. Визуализация представлена здесь. Научившись создавать такие визуализации, как показано выше, с помощью Plotly, вы сможете показать, как коронавирус распространился по всему миру с течением времени! Plotly — удивительная библиотека, которая придает визуализации данных динамичность, привлекательность и простоту. Визуализация Австралийских лесных пожаров Уровень сложности: легкий Ссылка на набор данных здесь. Череда лесных пожаров 2019–2020 годов, также известная как «Черное лето», включала последовательность из экстремальных лесных пожаров, первый из которых произошел в июне 2019 года. По данным Википедии, пожары уничтожили приблизительно 18,6 млн га и более 5900 зданий. Это послужит источником информации для интересного проекта! Используйте свои навыки визуализации данных в Plotly или Matplotlib, чтобы показать масштабы и географический охват лесных пожаров. Визуализируем температуру поверхности Земли Уровень сложности: легкий — средний Ссылка на набор данных здесь. Все еще встречаете людей, которые отрицают изменение климата? Создайте несколько визуализаций данных, чтобы показать, как температура поверхности Земли менялась с течением времени. Сделать это можно с помощью линейного графика или очередной анимированной фоновой картограммы. Бонус: вы можете создать модель прогнозирования, которая покажет, какая температура Земли ожидается через пятьдесят лет. Разведочный анализ данных Разведочный анализ данных (Exploratory Data Analysis (EDA), или Data Exploration) — это ступень в процессе анализа данных, на которой используется ряд методов, обеспечивающих лучшее понимание используемого набора данных. Исследуем данные от Airbnb в Нью-Йорке Уровень сложности: средний Ссылка на набор данных здесь. С 2008 года постояльцы и владельцы жилья используют Airbnb (онлайн-площадка для размещения, поиска и краткосрочной аренды частного жилья), чтобы расширить возможности путешествий и предоставить персонализированные способы знакомства с миром. Этот набор данных содержит информацию об объявлениях в Нью-Йорке на 2019 год, местонахождение жилья, цены, отзывы и многое другое. Вот некоторые вопросы, на которые вы можете попробовать ответить:
Определяем наиболее важные факторы, связанные с нехваткой кадров и эффективностью работы сотрудников Уровень сложности: легкий Ссылка на набор данных здесь IBM создала синтетический набор данных, который вы можете использовать, чтобы понять, как различные факторы влияют на нехватку кадров и удовлетворение сотрудников своей работой. Некоторые из переменных включают образование, вовлеченность в работу, рейтинг эффективности и баланс между работой и личной жизнью. Изучите этот набор данных чтобы посмотреть, есть ли существенные переменные, которые действительно влияют на удовлетворенность сотрудников. Далее посмотрите, сможете ли вы ранжировать переменные от наиболее важных до наименее важных. Работаем с мировыми рейтингами университетов Уровень сложности: легкий Ссылка на набор данных здесь. Как думаете, входит ли какой-нибудь университет в вашей стране в список лучших ВУЗов по всему миру? Для начала, что значит быть «лучшим» университетом? Этот набор данных содержит три глобальных рейтинга. Используя эти данные, попытайтесь ответить на следующие вопросы:
Зависят ли успехи в учебе от употребления алкоголя? Уровень сложности: легкий Ссылка на набор данных здесь. Влияет ли алкоголь на оценки учащихся? Если нет, то что тогда влияет? Эти данные были получены в ходе опроса учащихся старшей школы в США на курсах математики и португальского языка. Набор содержит несколько переменных: потребление алкоголя, размер семьи, участие во внеклассных программах. Этот набор поможет определить взаимосвязь между успеваемостью в школе и различными факторами. В качестве бонуса посмотрите, сможете ли вы предсказать итоговую оценку учащегося на основе других переменных! Исследуем данные с Pokemon Уровень сложности: легкий Ссылка на набор данных здесь. Специально для геймеров! Набор данных, который содержит информацию обо всех 802 покемонах всех семи поколений. Вот несколько вопросов для исследования.
Изучаем факторы, влияющие на продолжительность жизни Уровень сложности: легкий Ссылка на набор данных здесь ВОЗ создала набор данных о состоянии здоровья жителей всех стран на протяжении определенного времени, который включает в себя статистические данные об ожидаемой продолжительности жизни, смертности взрослого населения и многое другое. Изучив взаимосвязи между различными переменными, определите: какой фактор оказывает наибольшее влияние на продолжительность жизни? Набор данных был подготовлен с целью ответа на следующие вопросы:
Прогнозирование и моделирование Анализируем ряды динамики потребления энергии Уровень сложности: средний — продвинутый Ссылка на набор данных здесь. Этот набор данных состоит из данных о потребляемом электричестве c сайта PJM (региональная электропередающая организация в США). Используя этот набор данных, попробуйте построить модель временного ряда для прогнозирования потребления энергии. В дополнение к этому посмотрите, сможете ли вы вывести статистику потребления энергии по часам, дням, в период каникул и отпуска, а также выявить тенденции! Прогнозируем одобрение кредита Уровень сложности: легкий Ссылка на набор данных здесь. Набор данных Analytics Vidhya состоит из 615 строк и 13 столбцов по прошлым кредитам, которые были и не были утверждены. Попробуйте создать модель, предсказывающую, будет ли одобрен кредит или нет. Оцениваем стоимость подержанного автомобиля Уровень сложности: средний Ссылка на набор данных здесь. Craigslist — крупнейшая в мире платформа продажи подержанных автомобилей для продажи. Набор данных состоит из очищенных данных Craigslist и обновляется каждые несколько месяцев. Попробуйте создать набор данных, который поможет предсказать, будет ли автомобиль переоценен или недооценен. Определяем мошенничество с банковскими картами Уровень сложности: средний — продвинутый Ссылка на набор данных здесь. Данные о 492 мошенничествах из 284 807 транзакций, произошедших за два дня. Набор данных крайне не сбалансирован, на положительный класс (мошенничество) приходится 0,172% всех транзакций. Научитесь работать с несбалансированными наборами данных и создайте модель обнаружения мошенничества с банковскими картами. Обнаруживаем рак кожи Уровень сложности: продвинутый Посмотрите, сможете ли вы построить нейронную сеть для обнаружения рака кожи с помощью более чем 10000 изображений. Это определенно самый сложный проект, который требует обширных знаний в области нейронных сетей и распознавания изображений. Читайте также:
Источник: m.vk.com Комментарии: |
|