ИИ и Natural Language Processing: большой обзор рынка. Часть 1 |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-12-24 12:26 В рамках серии Up Great стартовали новые конкурсы по искусственному интеллекту. Победители получат 200 млн руб. за решения, способные анализировать тексты на русском и английском языке. Пока идет сбор заявок, мы запускаем цикл статей о том, как сегодня выглядит рынок Natural Language Processing в России и в мире. Технологии ИИ стали ключевым технологическим трендом 2018 года, а объем глобальных инвестиций в эти технологии и продукты на их основе превышает 1 млрд долларов. За период 2011?2018 гг. было приобретено более 180 частных компаний, работающих над проектами технологий ИИ. По прогнозам Frost&Sullivan, к 2022 году рынок искусственного интеллекта вырастет до 10 млрд долларов за счет применения технологий машинного обучения и распознавания естественного языка в рекламе, розничной торговле, финансах и здравоохранении. Динамика искусственного интеллекта будет основываться на шести фундаментальных технологиях:
Рынок обработки естественного языка (NLP) и продуктов на его основе оценивается аналитиками в районе 8 млрд долларов в 2018 году и вырастет до 40 млрд долларов к 2025 году. Основными драйверами станут возрастающий спрос на более продвинутый уровень пользовательского опыта, рост пользования умными девайсами, рост инвестиций в здравоохранение, растущее применение сетевых и облачных бизнес-приложений и рост M2M-технологий. Что такое NLP Обработка естественного языка (NLP, Natural Language Processing) — технология, находящаяся на пересечении computer science, искусственного интеллекта и лингвистики. Ее основное предназначение заключается в обработке и «понимании» естественного языка и ответа на вопросы. С развитием голосовых интерфейсов и чат-ботов, NLP постепенно становится одной из ключевых технологий практического применения искусственного интеллекта. Задачи и сферы применения NLP: Рост рынка NLP сдерживается такими факторами, как наличие разрыва в части восприятия/понимания/распознавания текстовой информации между человеком и машиной, дефицит кадров и программ подготовки исследователей в области NLP, а также сложность машинной обработки и понимания контекста и смысла текстов. Определенные ограничения существуют непосредственно применительно к пониманию русского языка. В данном случае качество понимания зависит от множества факторов: языка, национальной культуры, самого собеседника и т.д. Например:
Рыночные тенденции в сегменте NLP Стратегия развития основных игроков рынка NLP в мире подразумевает увеличение рыночной доли и прибыльности. Ключевые игроки (крупные компании) приобретают стартапы, работающие над технологиями обработки естественного языка, чтобы усилить свои позиции и расширить возможности собственных выпускаемых продуктов. Так, в апреле 2018 года Microsoft приобрела стартап Semantic Machines (специализация - распознавание речи и NLP) и компанию Maluuba — разработчика голосового помощника. В свою очередь, Apple приобрела компанию Novauris Technologies, которая занимается разработкой специализированных голосовых помощников. В 2019 году компания 3M объявила о заключении соглашения о приобретении технологического бизнеса компании MModal общей стоимостью $1 млрд. Ожидается, что сделка позволит 3М расширить и усилить бизнес информационных систем для здравоохранения (3M Health Information Systems). MModal является ведущим мировым провайдером информационных технологий для медицины, в том числе облачных сервисов, которые, используя искусственный интеллект, помогают врачам работать с клинической документацией, проводить сбор и анализ данных пациентов. Рыночные тенденции в сегменте NLP: Сравнительный анализ технологий NLP Одна из главных технологических тенденций в сегменте обработки естественного языка на сегодняшний день — это использование методов машинного обучения для снижения трудозатрат на разметку текстов, методов машинного обучения без учителя или с частичным привлечением учителя, методов активного машинного обучения и др. Также один из трендов последнего времени — это использование алгоритма переноса знаний (Transfer Learning), в рамках которого NLP-модели обучаются решать несложные задачи с применением большого объема данных. Далее эти предобученные модели используются для решения других, более специфических задач. Примерами предобученных сетей являются BERT и XLNet, которые можно использовать для решения основных задач обработки естественного языка. Такие модели развивают “идею трансформеров” (или Transformer Network) — доминирующего на данный момент подхода к построению моделей для работы с последовательностями. Если взглянуть на General Language Understanding Evaluation (GLUE) benchmark Leaderboard[1], то сверху можно увидеть много моделей, основанных на трансформерах. Включая обе модели, которые показывают результат лучше человека. [1] Бенчмарк GLUE — General Language Understanding Evaluation (общая оценка понимания естественного языка) разработан в 2018 году учеными из Нью-Йоркского университета, университета штата Вашингтон и DeepMind. GLUE оценивает системы понимания естественного языка по результатам выполнения заданий: ответов на вопросы, анализа тональности текста и продолжения повествования. GLUE был опубликован в мае 2018 года, за полгода его существования результаты лучших моделей улучшились с 68% верных ответов до 80% (результат последней модели Google BERT), при этом средний результат человека составляет 90%. Также стоит отметить, что лингвистические модели прошлых лет (word2vec) были построены на статистике и учитывали совместную встречаемость слов в огромном корпусе текстов. Современные модели (ULMfit, ELMo) используют технологию обучения без учителя. Общие технологические тенденции рынка NLP (Альманах ИИ. "Обработка естественного языка, распознавание и синтез речи", №2, сентябрь 2019):
Продолжение следует. Текст подготовлен на основе исследования Frost&Sullivan в интересах Технологических конкурсов Up Great Материал опубликован пользователем. Написать Источник: vc.ru Комментарии: |
|