Подборка: Более 70 источников по машинному обучению для начинающих

2016-02-04 00:31

Индикатор кулачкового аналогового компьютера / Wiki

В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов.

Это список предназначен для тех, кто только начинает изучать тему машинного обучения, например, с использованием Python (если вы хотите начать учить Python, вам в помощь эта статья).

Машинное обучение - это лишь одна из математических дисциплин, связанных с понятием «данные». Чтобы разобраться в том, что такое аналитика данных, анализ данных, наука о данных, машинное обучение и большие данные, прочитайте этот материал.

Вот инструменты, которые вам понадобятся:

Python (Python 3 - наилучший вариант),
IPython и Jupyter Notebook (IPython Notebook),
Пакеты для расчетов: NumPy, Pandas, Scikit-Learn, Matplotlib.

Вы можете установить Python 3 и все необходимые пакеты в несколько кликов с помощью сборки Anaconda Python. Anaconda - это достаточно популярный дистрибутив среди людей, занимающихся машинным обучением.

Не страшно, если у вас установлен Python 2.7. Переходить на Python 3 нет необходимости. Вместо Anaconda вы можете воспользоваться pip или virtualenv. Не можете определиться? Прочитайте этот материал.

Для начала познакомьтесь с IPython Notebook (это займет 5-10 минут). Еще можете посмотреть это видео. Далее рассмотрите неЅ 21e8 Ђольшой пример (это займет 10 минут) классификации цифр с использованием библиотеки scikit-learn.

Наглядное введение в теорию машинного обучения

Давайте побольше узнаем о машинном обучении: об идеях и особенностях. Прочитайте статью Стефани Йи (Stephanie Yee) и Тони Чу (Tony Chu) «Наглядное введение в машинное обучение. Часть 1».

Прочитайте статью профессора Педро Домингоса (Pedro Domingos). Во время чтения не торопитесь, делайте заметки. В статье можно выделить два основных момента:

Одних только данных недостаточно. Домингос писал: «-нет ничего удивительного в том, что для обучения нужны знания. Машинное обучение не может получить что-то из ничего, но может получить большее из меньшего. Обучение похоже на сельское хозяйство, где большую часть работы делает природа. Фермеры дают семенам питательные вещества, чтобы вырастить урожай. Так и здесь: чтобы создать программу, нужно совместить знания и данные».

Большое количество данных лучше детально продуманного алгоритма. Не пытайтесь изобретать велосипед и усложнять решения: выбирайте кратчайший путь, ведущий к цели. Домингос говорит: «Как правило, «глупый» алгоритм с большим количеством данных превосходит «умный» алгоритм с небольшим количеством данных. В машинном обучении главную роль всегда играют данные».

Итак, знания и данные имеют решающее значение. Это означает, что усложнять алгоритмы нужно только тогда, когда у вас действительно нет выбора.

Схема составлена на основе слайда из лекции Алекса Пинто (Alex Pinto) «Математика на страже безопасности: руководство по мониторингу с применением машинного обучения».

Обучайтесь на примерах

Выберете и рассмотрите один или два примера из представленных ниже.

Распознавание лиц на фотографиях из базы данных сайта Labeled Faces in the Wild.
Машинное обучение на основе данных о катастрофе Титаника. Здесь демонстрируются методы преобразования данных и их анализа, а также техники визуализации. Есть примеры методов машинного обучения с учителем.
Прогнозирование итогов выборов: использование модели Нейта Сильвера (Nate Silver) для составления прогноза итогов выборов президента США в 2012 году, опубликованных The New York Times.

Вот еще руководства и обзоры:

Введение в машинное обучение с sklearn
Обучение с помощью scikit-learn

Другие источники, в которых можно найти блокноты IPython:

Галерея интересных блокнотов IPython: статистика, машинное обучение и наука о данных.
Большая галерея Фабиана Педрегозы (Fabian Pedregosa).

Курсы по машинному обучению

Будет полезно, если вы начнете работать над каким-нибудь небольшим самостоятельным проектом - так у вас будет возможность применить полученные знания на практике. Можете воспользоваться одним из этих наборов данных.

Еще часто рекомендуют книгу «The Elements of Statistical Learning», но она, как правило, выступает в роли справочника. Книга бесплатная, поэтому скачайте ее или добавьте в закладки браузера.

Еще есть вот эти онлайн-курсы:

Курс «Машинное обучение» профессора Педро Домингоса из Вашингтонского университета.
Практикум по науке о данных.
Наука о данных.
Видео «Введение в машинное обучение с scikit-learn» от Кевина Маркхэма (Kevin Markham). После просмотра видеоматериала, вы можете пройти интерактивный курс по науке о данных (есть его более ранние версии: 7, 5, 4, 3).
Гарвардский курс CS109 - наука о данных.
Продвинутый курс статистических вычислений (курс BIOS8366 университета Вандербильта).

Отзывы о курсах и различн 10f8 ые обсуждения:

Ознакомьтесь с ответом Джека Голдинга (Jack Golding) на Quora. Там вы найдете ссылку на специализацию «Data Science» на Coursera - если вам не нужен сертификат, то можете пройти все 9 курсов бесплатно.
Другое обсуждение на Quora: как стать специалистом по обработке и анализу данных?
Большой перечень ресурсов по науке о данных от сайта Data Science Weekly, а также список открытых онлайн-курсов.

Изучаем Pandas

Чтобы работать с Python, вам необходимо познакомиться с пакетом Pandas. Вот список материалов, которые в этом помогут:

Основное: знакомство с Pandas,
Руководство: несколько вещей в Pandas, которые я бы хотел знать раньше (блокноты IPython),
Полезные фрагменты кода Pandas,

Вам также стоит уделить внимание этим ресурсам:

Cookbook: репозиторий с примерами,
Структуры данных: раздел DataFrame,
Изменение формы данных путем транспонирования DataFrame,
Вычислительные средства: моменты и функции,
SE: о ковариации простыми словами,
Groupby: как выполнить split-apply-combine на некотором подмножестве столбцов,
Визуализация DataFrame.

Еще больше материалов и статей

Доступная книга Джона Формана (John Foreman) «Data Smart»,
Курс по науке о данных с блокнотами IPython,
Статья: основные трудности раздела науки о данных (прочитайте статью и комментарий Джозефа Маккарти (Joseph McCarthy)),
IPython: ключевые навыки специалистов по работе с данными.

Вопросы 1ff9 , ответы, чаты

На данный момент лучшим местом для поиска ответов на свои вопросы является раздел о машинном обучении на stackexchange.com. Также есть сабреддит: /r/machinelearning. Присоединяйтесь к каналу по scikit-learn на Gitter! Еще стоит обратить внимание на обсуждения на Quora и большой перечень материалов по науке о данных от сайта Data Science Weekly.

Другие вещи, которые полезно знать

Наука о данных: статья Джона Формана (John Foreman), специалиста по обработке и анализу данных в MailChimp.
Статья: одиннадцать факторов, ведущих к переобучению, и как их избежать.
Достойная статья: «Машинное обучение: накладные расходы, которые влечет за собой технический долг» («Machine Learning: The High-Interest Credit Card of Technical Debt»). Цель данной статьи: определить специфические факторы риска при машинном обучении и создать шаблоны, с помощью которых можно их избежать.
Джон Форман: «Опасный мир машинного обучения».
Kdnuggets: «Издержки систем машинного обучения».

Вам нужна практика. Пользователь с ником Olympus на Hacker News отметил, что для этого необходимо участвовать в конкурсах и соревнованиях. Kaggle и ChaLearn - это платформы для исследователей, где можно попробовать свои силы, участвуя в различных состязаниях. Здесь вы найдете примеры кода для конкурса Kaggle. Еще вариант: HackerRank.

Послушайте и почитайте, что победители конкурсов Kaggle говорят о предложенных ими решениях. Например, почитайте блог «No Free Hunch».

Конкурсы или состязания лишь один из способов попрактиковаться. Вы можете начать проводить исследования:

Начните с вопроса. «Самая важная вещь в науке о данных - это вопрос», - говорит доктор Джефф Лик (Dr. Jeff T. Leek). Начните с вопроса, затем найдите реальные данные и проанализируйте их.
Огласите результаты и обратитесь за экспертной оценкой.
Устраните найденные проблемы. Поделитесь своими открытиями.

Подробнее о научном методе вы можете узнать здесь и здесь.

Вот еще парочка руководств по машинному обучению:

Машинное обучение для разработчиков: машинное обучение и библиотека Smile для Java и Scala.
Материалы для изучения машинного обучения от Джека Симпсона (Jack Simpson).
Гидеон Вульфсон: как обучить машину.
Доктор Рэндал Олсон (Randal Olson): примеры машинного обучения, упражнения и руководство. Богатый раздел с дополнительной литературой.

Источник: habrahabr.ru



		Подборка: Более 70 источников по машинному обучению для начинающих
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2016-02-04 00:31 машинное обучение новости Индикатор кулачкового аналогового компьютера / Wiki В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов. Это список предназначен для тех, кто только начинает изучать тему машинного обучения, например, с использованием Python (если вы хотите начать учить Python, вам в помощь эта статья). Машинное обучение - это лишь одна из математических дисциплин, связанных с понятием «данные». Чтобы разобраться в том, что такое аналитика данных, анализ данных, наука о данных, машинное обучение и большие данные, прочитайте этот материал. Вот инструменты, которые вам понадобятся: Python (Python 3 - наилучший вариант), IPython и Jupyter Notebook (IPython Notebook), Пакеты для расчетов: NumPy, Pandas, Scikit-Learn, Matplotlib. Вы можете установить Python 3 и все необходимые пакеты в несколько кликов с помощью сборки Anaconda Python. Anaconda - это достаточно популярный дистрибутив среди людей, занимающихся машинным обучением. Не страшно, если у вас установлен Python 2.7. Переходить на Python 3 нет необходимости. Вместо Anaconda вы можете воспользоваться pip или virtualenv. Не можете определиться? Прочитайте этот материал. Для начала познакомьтесь с IPython Notebook (это займет 5-10 минут). Еще можете посмотреть это видео. Далее рассмотрите неЅ 21e8 Ђольшой пример (это займет 10 минут) классификации цифр с использованием библиотеки scikit-learn. Наглядное введение в теорию машинного обучения Давайте побольше узнаем о машинном обучении: об идеях и особенностях. Прочитайте статью Стефани Йи (Stephanie Yee) и Тони Чу (Tony Chu) «Наглядное введение в машинное обучение. Часть 1». Прочитайте статью профессора Педро Домингоса (Pedro Domingos). Во время чтения не торопитесь, делайте заметки. В статье можно выделить два основных момента: Одних только данных недостаточно. Домингос писал: «-нет ничего удивительного в том, что для обучения нужны знания. Машинное обучение не может получить что-то из ничего, но может получить большее из меньшего. Обучение похоже на сельское хозяйство, где большую часть работы делает природа. Фермеры дают семенам питательные вещества, чтобы вырастить урожай. Так и здесь: чтобы создать программу, нужно совместить знания и данные». Большое количество данных лучше детально продуманного алгоритма. Не пытайтесь изобретать велосипед и усложнять решения: выбирайте кратчайший путь, ведущий к цели. Домингос говорит: «Как правило, «глупый» алгоритм с большим количеством данных превосходит «умный» алгоритм с небольшим количеством данных. В машинном обучении главную роль всегда играют данные». Итак, знания и данные имеют решающее значение. Это означает, что усложнять алгоритмы нужно только тогда, когда у вас действительно нет выбора. Схема составлена на основе слайда из лекции Алекса Пинто (Alex Pinto) «Математика на страже безопасности: руководство по мониторингу с применением машинного обучения». Обучайтесь на примерах Выберете и рассмотрите один или два примера из представленных ниже. Распознавание лиц на фотографиях из базы данных сайта Labeled Faces in the Wild. Машинное обучение на основе данных о катастрофе Титаника. Здесь демонстрируются методы преобразования данных и их анализа, а также техники визуализации. Есть примеры методов машинного обучения с учителем. Прогнозирование итогов выборов: использование модели Нейта Сильвера (Nate Silver) для составления прогноза итогов выборов президента США в 2012 году, опубликованных The New York Times. Вот еще руководства и обзоры: Введение в машинное обучение с sklearn Обучение с помощью scikit-learn Другие источники, в которых можно найти блокноты IPython: Галерея интересных блокнотов IPython: статистика, машинное обучение и наука о данных. Большая галерея Фабиана Педрегозы (Fabian Pedregosa). Курсы по машинному обучению Будет полезно, если вы начнете работать над каким-нибудь небольшим самостоятельным проектом - так у вас будет возможность применить полученные знания на практике. Можете воспользоваться одним из этих наборов данных. Еще часто рекомендуют книгу «The Elements of Statistical Learning», но она, как правило, выступает в роли справочника. Книга бесплатная, поэтому скачайте ее или добавьте в закладки браузера. Еще есть вот эти онлайн-курсы: Курс «Машинное обучение» профессора Педро Домингоса из Вашингтонского университета. Практикум по науке о данных. Наука о данных. Видео «Введение в машинное обучение с scikit-learn» от Кевина Маркхэма (Kevin Markham). После просмотра видеоматериала, вы можете пройти интерактивный курс по науке о данных (есть его более ранние версии: 7, 5, 4, 3). Гарвардский курс CS109 - наука о данных. Продвинутый курс статистических вычислений (курс BIOS8366 университета Вандербильта). Отзывы о курсах и различн 10f8 ые обсуждения: Ознакомьтесь с ответом Джека Голдинга (Jack Golding) на Quora. Там вы найдете ссылку на специализацию «Data Science» на Coursera - если вам не нужен сертификат, то можете пройти все 9 курсов бесплатно. Другое обсуждение на Quora: как стать специалистом по обработке и анализу данных? Большой перечень ресурсов по науке о данных от сайта Data Science Weekly, а также список открытых онлайн-курсов. Изучаем Pandas Чтобы работать с Python, вам необходимо познакомиться с пакетом Pandas. Вот список материалов, которые в этом помогут: Основное: знакомство с Pandas, Руководство: несколько вещей в Pandas, которые я бы хотел знать раньше (блокноты IPython), Полезные фрагменты кода Pandas, Вам также стоит уделить внимание этим ресурсам: Cookbook: репозиторий с примерами, Структуры данных: раздел DataFrame, Изменение формы данных путем транспонирования DataFrame, Вычислительные средства: моменты и функции, SE: о ковариации простыми словами, Groupby: как выполнить split-apply-combine на некотором подмножестве столбцов, Визуализация DataFrame. Еще больше материалов и статей Доступная книга Джона Формана (John Foreman) «Data Smart», Курс по науке о данных с блокнотами IPython, Статья: основные трудности раздела науки о данных (прочитайте статью и комментарий Джозефа Маккарти (Joseph McCarthy)), IPython: ключевые навыки специалистов по работе с данными. Вопросы 1ff9 , ответы, чаты На данный момент лучшим местом для поиска ответов на свои вопросы является раздел о машинном обучении на stackexchange.com. Также есть сабреддит: /r/machinelearning. Присоединяйтесь к каналу по scikit-learn на Gitter! Еще стоит обратить внимание на обсуждения на Quora и большой перечень материалов по науке о данных от сайта Data Science Weekly. Другие вещи, которые полезно знать Наука о данных: статья Джона Формана (John Foreman), специалиста по обработке и анализу данных в MailChimp. Статья: одиннадцать факторов, ведущих к переобучению, и как их избежать. Достойная статья: «Машинное обучение: накладные расходы, которые влечет за собой технический долг» («Machine Learning: The High-Interest Credit Card of Technical Debt»). Цель данной статьи: определить специфические факторы риска при машинном обучении и создать шаблоны, с помощью которых можно их избежать. Джон Форман: «Опасный мир машинного обучения». Kdnuggets: «Издержки систем машинного обучения». Вам нужна практика. Пользователь с ником Olympus на Hacker News отметил, что для этого необходимо участвовать в конкурсах и соревнованиях. Kaggle и ChaLearn - это платформы для исследователей, где можно попробовать свои силы, участвуя в различных состязаниях. Здесь вы найдете примеры кода для конкурса Kaggle. Еще вариант: HackerRank. Послушайте и почитайте, что победители конкурсов Kaggle говорят о предложенных ими решениях. Например, почитайте блог «No Free Hunch». Конкурсы или состязания лишь один из способов попрактиковаться. Вы можете начать проводить исследования: Начните с вопроса. «Самая важная вещь в науке о данных - это вопрос», - говорит доктор Джефф Лик (Dr. Jeff T. Leek). Начните с вопроса, затем найдите реальные данные и проанализируйте их. Огласите результаты и обратитесь за экспертной оценкой. Устраните найденные проблемы. Поделитесь своими открытиями. Подробнее о научном методе вы можете узнать здесь и здесь. Вот еще парочка руководств по машинному обучению: Машинное обучение для разработчиков: машинное обучение и библиотека Smile для Java и Scala. Материалы для изучения машинного обучения от Джека Симпсона (Jack Simpson). Гидеон Вульфсон: как обучить машину. Доктор Рэндал Олсон (Randal Olson): примеры машинного обучения, упражнения и руководство. Богатый раздел с дополнительной литературой. Источник: habrahabr.ru Комментарии: