Data Science за 6 месяцев: мой опыт обучения

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Этим летом я прошел курс "Аналитик данных (Data Science)" от МГТУ им. Баумана в рамках федерального проекта "Искусственный интеллект". Этот проект интересен тем, что позволяет освоить специальность, связанную с ИИ, с финансовой поддержкой государства (до 90%). Большинство курсов стоило порядка 10 000 - 20 000 рублей.

Выбранный мной курс изначально ориентировался на людей с опытом. Для поступления требовалось сдать тест с довольно сложными вопросами: по базам данных, алгоритмам, типам данных и их преобразованию, а также по основам статистики. Считаю это большим плюсом, так как благодаря такому отбору вводные модули оказались короче, а основной материал был для меня новым и полезным. Тем не менее, базовые темы вроде информационной безопасности и статистики тоже были освещены, но скорее в обзорном формате.

Курс состоял из предзаписанных видео и вебинаров и презентаций. На каждый модуль приходилось около 5-7 часов вебинаров, где преподаватель в реальном времени объяснял материал другими словами, уточнял устаревшие моменты и отвечал на вопросы. В программе заявлено 150 "аудиторных" часов (60% курса) — похоже на правду, причем предзаписанных видео, вероятно, было даже больше 100 часов. Однако их качество варьировалось.

Всего за неделю мы разобрали ключевые библиотеки Python, а также внутренние особенности языка. Однако неожиданностью стало включение ООП, поскольку вопросов по нему во входном тесте не было. Освоить его в таком темпе оказалось сложной задачей, и не все смогли быстро наверстать недостающие знания. В результате на этом этапе учебная группа заметно сократилась.

Подробно изучили весь процесс построения решения на основе машинного обучения — от сбора и предобработки сырых данных до получения бизнес-ценности. Разбирали, как разложить задачу на ключевые этапы, а также свести к типовой задаче машинного обучения - классификации, кластеризации или регрессии.

Один из самых детализированных модулей был посвящен предобработке данных. Мы изучили методы обработки выбросов, заполнение пропусков, нормализацию, стандартизацию, снижение размерности, семплирование, feature engineering и даже написание парсеров.

Курс подробно охватывал классические методы машинного обучения с учителем и без. Обучение с подкреплением и transfer learning затронули лишь поверхностно. В целом рассмотрели более 30 алгоритмов, в основном из библиотеки SkLearn. Также была отдельно рассмотрена тема ансамблевых методов — объединения моделей.

Изучили методы валидации, метрики оценки качества моделей и стратегии борьбы с переобучением.

Разобрали основы архитектуры нейросетей (слои, функции активации), а также их разновидности — рекуррентные и сверточные. Подсветили особенности ключевых задач, которые решают нейросети: Object Detection, анализ аудио, NLP, прогнозирование временных рядов.

Отдельный модуль был посвящен выведению моделей в production: версионирование с Apache Airflow, разворачивание в Docker, распределение нагрузки с помощью Spark и Kafka.

Курс длился 6 месяцев и оказался очень насыщенным и сложным, несмотря на наличие базовых знаний по теме. Для меня это один из самых полезных образовательных опытов. Многие темы тяжело найти в русскоязычных источниках, что также повышает его ценность. Вероятно, этот курс надолго останется для меня эталоном того, как может быть выстроен образовательный процесс. Определенно рекомендую тем, кто хочет глубже погрузиться в Data Science. На сайте центра ДПО курс сейчас называет "Data Science PRO".


Источник: vk.com

Комментарии: