5 мощных проектов по машинному обучению для начинающих

2018-02-04 21:00

В этой статье мы расскажем о пяти идеях, используя которые вы сможете реализовать действительно хорошие проекты по машинному обучению.

5 мощных проектов по машинному обучению для начинающих Как вы знаете, количество изученного теоретического материала не может заменить практику. Теоретические уроки и книги могут внушить вам ложное представление о том, что вы достаточно изучили материал и хорошо разбираетесь в теме. Однако как только вы попробуете применить полученные знания, вы поймёте, что материал на деле сложнее, чем в теории.

Эти проекты помогут вам усовершенствовать навыки по машинному обучению и изучить новые темы. К тому же, выполненные проекты прекрасно дополнят ваше портфолио, что будет плюсом при трудоустройстве.

Поработайте с финансовыми рынками

Финансовый рынок — отличная вещь для любого Data Scientist, даже для того, кто далек от финансовой сферы.

Во-первых, у вас есть огромный выбор: вы можете работать с ценами, фундаментальными данными, глобальными макроэкономическими показателями, индексами волатильности и т. д.

Во-вторых, данные могут быть очень подробными. Вы можете с лёгкостью получить данные любой компании по дню (или даже минуте). Это поможет вам творчески обдумывать торговые стратегии.

Наконец, финансовые рынки имеют короткие циклы отклика, поэтому вы сможете быстро перестроить прогноз под новые данные.

Некоторые идеи для проекта:

Количественное инвестирование — спрогнозируйте движение цены в течение 6 месяцев, основываясь на фундаментальных показателях в ежеквартальных отчётах компаний.
Прогноз — создайте модели временных рядов или рекуррентных нейронных сетей на разности между подразумеваемой и фактической волатильностью.
Статистический арбитраж — найдите схожие рынки по движениям цен и другим факторам и ищите периоды, когда цены начинают расходиться.

Очевидно, что написание подобных проектов лишь для практики в машинном обучении — простая вещь. Однако монетизация, извлечение материальной выгоды из подобных проектов — максимально сложная практика. Ничего из вышесказанного не является финансовым советом, и мы крайне не рекомендуем торговать реальной валютой, если вы не разбираетесь в рынках.

Гайд:

Плейлист видео по машинному обучению, применяемому для инвестирования.

Источники данных:

Рынок данных, который предоставляет бесплатные (и премиум) финансовые и экономические данные. Например, вы можете скачать цены на конец дня для более 3000 американских компаний или экономические данные из Федерального резерва.

Количественное финансовое сообщество, которое предлагает бесплатную платформу для разработки алгоритма торговли. Включает в себя наборы данных.

Фундаментальные данные 5000+ американских компаний за последний 5 лет.

Создайте нейросеть, которая распознаёт текст, написанный от руки

Нейронные сети и Deep Learning — два главных прорыва в развитии современного искусственного интеллекта. Они привели к большим достижениям в области распознавания объектов (прочитайте нашу статью про распознавание объектов на Python), генерации текстов и даже в области беспилотных автомобилей.

Чтобы больше углубиться в эту тему, вам стоит начать с чего-то попроще, не с изображений.

MNIST Handwritten Digit Classification Challenge — стандартная точка входа. С изображениями работать гораздо сложнее, чем с реляционными моделями данных. MNIST данные дружелюбны по отношению к новичкам и имеют небольшие размеры, так что с лёгкостью поместятся на одном компьютере.

Для начала мы рекомендуем начать с первой главы обучения ниже. Там вы научитесь создавать нейросеть на Python с нуля, которая будет распознавать письменный текст с большой точностью.

Гайд:

Сайт по нейросетям и Deep Learning.

Источник данных:

MNIST

Исследуйте Enron

Скандал Enron был самым большим корпоративным кризисом в истории.

В 2000 Enron была одной из самых больших энергетических компаний в Америке. Затем, когда компанию уличили в мошеннических махинациях, она обанкротилась в течение года.

К счастью для нас, есть данные e-mail переписок бывших сотрудников Enron. Это 500 тысяч электронных писем между 150 бывшими сотрудниками, в основном, старшими руководителями. Это также единственная крупнейшая публичная база данных электронных писем, что делает её ещё более ценной.

Фактически, Data Scientist используют этот набор данных уже много лет для проектов по машинному обучению.

Проекты по машинному обучению, которые вы можете попробовать реализовать:

Анализ текста сообщений и их классификация по степени важности, целям и проч.
Социальный анализ. Создайте сеть сотрудников и посредством анализа сообщений найдите ключевых влиятельных лиц.
Обнаружение аномалий. Проанализируйте входящие и отправленные сообщения по часам и попытайтесь обнаружить “ненормальное” поведение, которое привело к общественному конфликту.

Источники данных:

Улучшите заботу о здоровье

Ещё одна отрасль, которая активно развивается благодаря проектам по машинному обучению — это здравоохранение и забота о здоровье.

Во многих странах для того, чтобы стать доктором, необходимо потратить много лет на обучение. Порог вхождения в эту сферу довольно велик, а процесс становления врачом очень сложен.

В результате в последнее время предпринимаются значительные усилия для облегчения рабочей нагрузки врачей и повышения общей эффективности системы здравоохранения с помощью машинного обучения.

Возможные проекты:

Профилактическая помощь — прогнозирование заболеваний как на индивидуальном, так и на общем уровне.
Диагностическая помощь — автоматическая классификация изображений, например, сканы, x-ray и т. п.
Страхование — определение страховых взносов на основе общедоступных факторов риска.

Гайды:

Источники данных:

Сборник данных, связанных со здравоохранением
Ещё один сборник данных, предоставленный правительством США
Health Nutrition and Population Statistics — статистика здоровья и населения, предоставленная Всемирным банком.

Анализируйте социальные медиа

Социальные медиа уже практически стали синонимом “big data” из-за огромного количества контента, создаваемого пользователями.

Добыча этих данных — беспрецедентный способ сохранить руку на пульсе общественного мнения, настроения и трендов. Facebook, Twitter, YouTube, WeChat, WhatsApp, Reddit… Список можно продолжать и продолжать.

Кроме того, каждое последующее поколение тратит ещё больше времени на соцсети, чем предыдущее. Это значит, что данные в социальных сетях станут ещё более актуальными для маркетинга, брендов и бизнеса в целом.

Несмотря на то, что существует множество популярных социальных сетей, Twitter является классической точкой входа в практику машинного обучения.

С данными Twitter вы получаете интересное сочетание данных (содержимое твитов) и метаданных (местоположение, хештеги, пользователи, повторные твиты и т. д.), которые открывают вам почти бесконечное количество путей для анализа.

Гайды:

Источники данных:

Twitter API
StockTwitsAPI. StockTwits — это как твиттер для трейдеров и инвесторов. Вы можете использовать этот набор данных разными интересными способами.

Оригинал

Телеграм: t.me/ainewsline

Источник: proglib.io



		5 мощных проектов по машинному обучению для начинающих
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-02-04 21:00 алгоритмы машинного обучения В этой статье мы расскажем о пяти идеях, используя которые вы сможете реализовать действительно хорошие проекты по машинному обучению. Как вы знаете, количество изученного теоретического материала не может заменить практику. Теоретические уроки и книги могут внушить вам ложное представление о том, что вы достаточно изучили материал и хорошо разбираетесь в теме. Однако как только вы попробуете применить полученные знания, вы поймёте, что материал на деле сложнее, чем в теории. Эти проекты помогут вам усовершенствовать навыки по машинному обучению и изучить новые темы. К тому же, выполненные проекты прекрасно дополнят ваше портфолио, что будет плюсом при трудоустройстве. Поработайте с финансовыми рынками Финансовый рынок — отличная вещь для любого Data Scientist, даже для того, кто далек от финансовой сферы. Во-первых, у вас есть огромный выбор: вы можете работать с ценами, фундаментальными данными, глобальными макроэкономическими показателями, индексами волатильности и т. д. Во-вторых, данные могут быть очень подробными. Вы можете с лёгкостью получить данные любой компании по дню (или даже минуте). Это поможет вам творчески обдумывать торговые стратегии. Наконец, финансовые рынки имеют короткие циклы отклика, поэтому вы сможете быстро перестроить прогноз под новые данные. Некоторые идеи для проекта: Количественное инвестирование — спрогнозируйте движение цены в течение 6 месяцев, основываясь на фундаментальных показателях в ежеквартальных отчётах компаний. Прогноз — создайте модели временных рядов или рекуррентных нейронных сетей на разности между подразумеваемой и фактической волатильностью. Статистический арбитраж — найдите схожие рынки по движениям цен и другим факторам и ищите периоды, когда цены начинают расходиться. Очевидно, что написание подобных проектов лишь для практики в машинном обучении — простая вещь. Однако монетизация, извлечение материальной выгоды из подобных проектов — максимально сложная практика. Ничего из вышесказанного не является финансовым советом, и мы крайне не рекомендуем торговать реальной валютой, если вы не разбираетесь в рынках. Гайд: Плейлист видео по машинному обучению, применяемому для инвестирования. Источники данных: Рынок данных, который предоставляет бесплатные (и премиум) финансовые и экономические данные. Например, вы можете скачать цены на конец дня для более 3000 американских компаний или экономические данные из Федерального резерва. Количественное финансовое сообщество, которое предлагает бесплатную платформу для разработки алгоритма торговли. Включает в себя наборы данных. Фундаментальные данные 5000+ американских компаний за последний 5 лет. Создайте нейросеть, которая распознаёт текст, написанный от руки Нейронные сети и Deep Learning — два главных прорыва в развитии современного искусственного интеллекта. Они привели к большим достижениям в области распознавания объектов (прочитайте нашу статью про распознавание объектов на Python), генерации текстов и даже в области беспилотных автомобилей. Чтобы больше углубиться в эту тему, вам стоит начать с чего-то попроще, не с изображений. MNIST Handwritten Digit Classification Challenge — стандартная точка входа. С изображениями работать гораздо сложнее, чем с реляционными моделями данных. MNIST данные дружелюбны по отношению к новичкам и имеют небольшие размеры, так что с лёгкостью поместятся на одном компьютере. Для начала мы рекомендуем начать с первой главы обучения ниже. Там вы научитесь создавать нейросеть на Python с нуля, которая будет распознавать письменный текст с большой точностью. Гайд: Сайт по нейросетям и Deep Learning. Источник данных: MNIST Исследуйте Enron Скандал Enron был самым большим корпоративным кризисом в истории. В 2000 Enron была одной из самых больших энергетических компаний в Америке. Затем, когда компанию уличили в мошеннических махинациях, она обанкротилась в течение года. К счастью для нас, есть данные e-mail переписок бывших сотрудников Enron. Это 500 тысяч электронных писем между 150 бывшими сотрудниками, в основном, старшими руководителями. Это также единственная крупнейшая публичная база данных электронных писем, что делает её ещё более ценной. Фактически, Data Scientist используют этот набор данных уже много лет для проектов по машинному обучению. Проекты по машинному обучению, которые вы можете попробовать реализовать: Анализ текста сообщений и их классификация по степени важности, целям и проч. Социальный анализ. Создайте сеть сотрудников и посредством анализа сообщений найдите ключевых влиятельных лиц. Обнаружение аномалий. Проанализируйте входящие и отправленные сообщения по часам и попытайтесь обнаружить “ненормальное” поведение, которое привело к общественному конфликту. Источники данных: База данных E-mail Описание базы данных (PDF) Улучшите заботу о здоровье Ещё одна отрасль, которая активно развивается благодаря проектам по машинному обучению — это здравоохранение и забота о здоровье. Во многих странах для того, чтобы стать доктором, необходимо потратить много лет на обучение. Порог вхождения в эту сферу довольно велик, а процесс становления врачом очень сложен. В результате в последнее время предпринимаются значительные усилия для облегчения рабочей нагрузки врачей и повышения общей эффективности системы здравоохранения с помощью машинного обучения. Возможные проекты: Профилактическая помощь — прогнозирование заболеваний как на индивидуальном, так и на общем уровне. Диагностическая помощь — автоматическая классификация изображений, например, сканы, x-ray и т. п. Страхование — определение страховых взносов на основе общедоступных факторов риска. Гайды: R: Создание моделей машинного обучения для прогнозирования болезней Машинное обучение в здравоохранении от Microsoft Источники данных: Сборник данных, связанных со здравоохранением Ещё один сборник данных, предоставленный правительством США Health Nutrition and Population Statistics — статистика здоровья и населения, предоставленная Всемирным банком. Анализируйте социальные медиа Социальные медиа уже практически стали синонимом “big data” из-за огромного количества контента, создаваемого пользователями. Добыча этих данных — беспрецедентный способ сохранить руку на пульсе общественного мнения, настроения и трендов. Facebook, Twitter, YouTube, WeChat, WhatsApp, Reddit… Список можно продолжать и продолжать. Кроме того, каждое последующее поколение тратит ещё больше времени на соцсети, чем предыдущее. Это значит, что данные в социальных сетях станут ещё более актуальными для маркетинга, брендов и бизнеса в целом. Несмотря на то, что существует множество популярных социальных сетей, Twitter является классической точкой входа в практику машинного обучения. С данными Twitter вы получаете интересное сочетание данных (содержимое твитов) и метаданных (местоположение, хештеги, пользователи, повторные твиты и т. д.), которые открывают вам почти бесконечное количество путей для анализа. Гайды: Python: добываем данные Twitter R: сентимент-анализ с машинным обучением Источники данных: Twitter API StockTwitsAPI. StockTwits — это как твиттер для трейдеров и инвесторов. Вы можете использовать этот набор данных разными интересными способами. Оригинал Телеграм: t.me/ainewsline Источник: proglib.io Комментарии:

5 мощных проектов по машинному обучению для начинающих

Комментарии: