Машинное обучение и интеллектуальный анализ: от информационного поиска к распознаванию речи

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Интернет-магазины, социальные сети, мобильные приложения и стриминговые сервисы генерируют огромные объёмы данных, которые невозможно проанализировать классическими инструментами статистики. Для их обработки используются методы добычи данных (data mining), построенные на машинном обучении. Вот о каких современных и классических источниках знаний стоит хотя бы помнить.

— Курс по машинному обучению Константина Воронцова

ya.cc/fCsKVEuZ33ReyN

Мы за системный подход, а потому не можем обойти стороной курс лекций по машинному обучению, который проходят большинство студентов ШАДа. Он посвящён математическим основам машинного обучения, задачам и методам их решения. В материалах первого семестра разбираются классификация, кластеризация, регрессия и понижение размерности, а в лекциях второго — обучение без учителя, рекомендательные системы, трансформеры и алгоритмы прогнозирования. Советуем именно вики-страницу на MachineLearning?ru — там вы найдёте не только видео (с отметкой, какие лекции недавно обновились), но и сопутствующую информацию.

— Основы статистического обучения. Интеллектуальный анализ данных, логический вывод и прогнозирование | Тревор Хасти, Роберт Тибришани

Фундаментальное исследование, покрывающее основные понятия статистического обучения: регрессию, методы классификации, регуляризацию, ядерное сглаживание, оценку и выбор моделей, а также другие темы. Авторы книги — профессора статистики в Стэнфордском университете и выдающиеся авторитеты в машинном обучении. В частности, они разработали обобщенные аддитивные модели, а также методы LASSO, CART и MARS.

— Анализ больших наборов данных | Юре Лесковец, Ананд Раджараман, Джеффри Ульман

Книга считается базовым руководством по работе с данными. Вот лишь часть тем, которые она охватывает: технология распараллеливания алгоритмов MapReduce (применяется во множестве IT-компаний, включая Яндекс), хеширование в потоковой обработке данных, кластеризация и показатель PageRank. Во второе издание также добавлены главы о социальных сетях, машинном обучении и понижении размерности — всё очень практическое.

— Анализ текста с помощью LingPipe

alias-i.com/lingpipe-book

LingPipe — библиотека обработки естественного языка на Java, используемая для задач классификации. API библиотеки адаптирован для абстрагирования и позволяет оперативно заменять токенизаторы, экстракторы функций или классификаторы. В инструкции описаны инструменты для обработки текста: потоковый ввод-вывод, декодирование символов, представление строк и регулярные выражения. Чтобы освоить LingPipe, знание лингвистики не требуется, а вот глубокое понимание алгоритмов и статистического моделирования пригодится.

И ещё две ссылки для тех, кто погружен в тему:

— Survey Of Clustering Data Mining Techniques

ya.cc/DqW9IOH03BpLyY

Алгоритмы кластеризации используются для анализа данных в CRM-системах, маркетинге, медицине, вычислительной биологии и других областях. В исследовании рассматриваются классические методы обработки сверхбольших баз данных, насчитывающих миллионы записей.

— Speech and Language Processing

web.stanford.edu/~jurafsky/slp3

Ещё одна фундаментальная работа, на этот раз посвящённая языковым технологиям: машинному переводу, диалоговым системам, распознаванию речи и преобразованию текста. Вы узнаете, что такое регулярные выражения, нормализация текста, наивный байесовский анализ, классификация сентиментов и логистическая регрессия. Каждая глава строится вокруг одного или нескольких примеров, иллюстрирующих сильные и слабые стороны конкретного подхода.

Комментарии: