Машинное обучение и интеллектуальный анализ: от информационного поиска к распознаванию речи

2022-01-28 13:57

компьютерная лингвистика, большие данные big data

Интернет-магазины, социальные сети, мобильные приложения и стриминговые сервисы генерируют огромные объёмы данных, которые невозможно проанализировать классическими инструментами статистики. Для их обработки используются методы добычи данных (data mining), построенные на машинном обучении. Вот о каких современных и классических источниках знаний стоит хотя бы помнить.

— Курс по машинному обучению Константина Воронцова

ya.cc/fCsKVEuZ33ReyN

Мы за системный подход, а потому не можем обойти стороной курс лекций по машинному обучению, который проходят большинство студентов ШАДа. Он посвящён математическим основам машинного обучения, задачам и методам их решения. В материалах первого семестра разбираются классификация, кластеризация, регрессия и понижение размерности, а в лекциях второго — обучение без учителя, рекомендательные системы, трансформеры и алгоритмы прогнозирования. Советуем именно вики-страницу на MachineLearning?ru — там вы найдёте не только видео (с отметкой, какие лекции недавно обновились), но и сопутствующую информацию.

— Основы статистического обучения. Интеллектуальный анализ данных, логический вывод и прогнозирование | Тревор Хасти, Роберт Тибришани

Фундаментальное исследование, покрывающее основные понятия статистического обучения: регрессию, методы классификации, регуляризацию, ядерное сглаживание, оценку и выбор моделей, а также другие темы. Авторы книги — профессора статистики в Стэнфордском университете и выдающиеся авторитеты в машинном обучении. В частности, они разработали обобщенные аддитивные модели, а также методы LASSO, CART и MARS.

— Анализ больших наборов данных | Юре Лесковец, Ананд Раджараман, Джеффри Ульман

Книга считается базовым руководством по работе с данными. Вот лишь часть тем, которые она охватывает: технология распараллеливания алгоритмов MapReduce (применяется во множестве IT-компаний, включая Яндекс), хеширование в потоковой обработке данных, кластеризация и показатель PageRank. Во второе издание также добавлены главы о социальных сетях, машинном обучении и понижении размерности — всё очень практическое.

— Анализ текста с помощью LingPipe

alias-i.com/lingpipe-book

LingPipe — библиотека обработки естественного языка на Java, используемая для задач классификации. API библиотеки адаптирован для абстрагирования и позволяет оперативно заменять токенизаторы, экстракторы функций или классификаторы. В инструкции описаны инструменты для обработки текста: потоковый ввод-вывод, декодирование символов, представление строк и регулярные выражения. Чтобы освоить LingPipe, знание лингвистики не требуется, а вот глубокое понимание алгоритмов и статистического моделирования пригодится.

И ещё две ссылки для тех, кто погружен в тему:

— Survey Of Clustering Data Mining Techniques

ya.cc/DqW9IOH03BpLyY

Алгоритмы кластеризации используются для анализа данных в CRM-системах, маркетинге, медицине, вычислительной биологии и других областях. В исследовании рассматриваются классические методы обработки сверхбольших баз данных, насчитывающих миллионы записей.

— Speech and Language Processing

web.stanford.edu/~jurafsky/slp3

Ещё одна фундаментальная работа, на этот раз посвящённая языковым технологиям: машинному переводу, диалоговым системам, распознаванию речи и преобразованию текста. Вы узнаете, что такое регулярные выражения, нормализация текста, наивный байесовский анализ, классификация сентиментов и логистическая регрессия. Каждая глава строится вокруг одного или нескольких примеров, иллюстрирующих сильные и слабые стороны конкретного подхода.

Источник: vk.com



		Машинное обучение и интеллектуальный анализ: от информационного поиска к распознаванию речи
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-01-28 13:57 компьютерная лингвистика, большие данные big data Интернет-магазины, социальные сети, мобильные приложения и стриминговые сервисы генерируют огромные объёмы данных, которые невозможно проанализировать классическими инструментами статистики. Для их обработки используются методы добычи данных (data mining), построенные на машинном обучении. Вот о каких современных и классических источниках знаний стоит хотя бы помнить. — Курс по машинному обучению Константина Воронцова ya.cc/fCsKVEuZ33ReyN Мы за системный подход, а потому не можем обойти стороной курс лекций по машинному обучению, который проходят большинство студентов ШАДа. Он посвящён математическим основам машинного обучения, задачам и методам их решения. В материалах первого семестра разбираются классификация, кластеризация, регрессия и понижение размерности, а в лекциях второго — обучение без учителя, рекомендательные системы, трансформеры и алгоритмы прогнозирования. Советуем именно вики-страницу на MachineLearning?ru — там вы найдёте не только видео (с отметкой, какие лекции недавно обновились), но и сопутствующую информацию. — Основы статистического обучения. Интеллектуальный анализ данных, логический вывод и прогнозирование \| Тревор Хасти, Роберт Тибришани Фундаментальное исследование, покрывающее основные понятия статистического обучения: регрессию, методы классификации, регуляризацию, ядерное сглаживание, оценку и выбор моделей, а также другие темы. Авторы книги — профессора статистики в Стэнфордском университете и выдающиеся авторитеты в машинном обучении. В частности, они разработали обобщенные аддитивные модели, а также методы LASSO, CART и MARS. — Анализ больших наборов данных \| Юре Лесковец, Ананд Раджараман, Джеффри Ульман Книга считается базовым руководством по работе с данными. Вот лишь часть тем, которые она охватывает: технология распараллеливания алгоритмов MapReduce (применяется во множестве IT-компаний, включая Яндекс), хеширование в потоковой обработке данных, кластеризация и показатель PageRank. Во второе издание также добавлены главы о социальных сетях, машинном обучении и понижении размерности — всё очень практическое. — Анализ текста с помощью LingPipe alias-i.com/lingpipe-book LingPipe — библиотека обработки естественного языка на Java, используемая для задач классификации. API библиотеки адаптирован для абстрагирования и позволяет оперативно заменять токенизаторы, экстракторы функций или классификаторы. В инструкции описаны инструменты для обработки текста: потоковый ввод-вывод, декодирование символов, представление строк и регулярные выражения. Чтобы освоить LingPipe, знание лингвистики не требуется, а вот глубокое понимание алгоритмов и статистического моделирования пригодится. И ещё две ссылки для тех, кто погружен в тему: — Survey Of Clustering Data Mining Techniques ya.cc/DqW9IOH03BpLyY Алгоритмы кластеризации используются для анализа данных в CRM-системах, маркетинге, медицине, вычислительной биологии и других областях. В исследовании рассматриваются классические методы обработки сверхбольших баз данных, насчитывающих миллионы записей. — Speech and Language Processing web.stanford.edu/~jurafsky/slp3 Ещё одна фундаментальная работа, на этот раз посвящённая языковым технологиям: машинному переводу, диалоговым системам, распознаванию речи и преобразованию текста. Вы узнаете, что такое регулярные выражения, нормализация текста, наивный байесовский анализ, классификация сентиментов и логистическая регрессия. Каждая глава строится вокруг одного или нескольких примеров, иллюстрирующих сильные и слабые стороны конкретного подхода. Источник: vk.com Комментарии:

Машинное обучение и интеллектуальный анализ: от информационного поиска к распознаванию речи

Комментарии: