Российская технология распознавания речи группы компаний ЦРТ признана лучшей в мире |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-05-12 14:02 © www.speechpro.ru Технология диаризации и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6). Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки. Группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса, значительно превзойдя конкурентов. Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5, конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом — с перекрытием речи до 20%. Именно на решении этой, самой сложной, задачи сфокусировалась команда ЦРТ. Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Для распознавания здесь сложны одновременная речь 2-4 человек, реверберация и интенсивный шум — звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех. Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место: © www.speechpro.ruНа графике: результаты конкурса, в столбцах — количество допущенных ошибок. Источник: https://chimech...e6/results.html Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь. Кроме группы ЦРТ, в конкурсе участвовали научные команды со всего мира: и известные IT-компании — Toshiba и ряд других, и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др. «Группа ЦРТ уже 30 лет создает, развивает и совершенствует речевые технологии. В этом году на CHiME-6 впервые в истории стояла самая сложная задача — работа с несегментированной речью. Качественное распознавание речи разных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь. Так, качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит — существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телеком. Признание группы ЦРТ в этом международном конкурсе — не просто наша личная победа, но знаковое событие для всей индустрии, и мы рады выводить решение задач в области распознавания речи, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке», — комментирует генеральный директор группы компаний ЦРТ Дмитрий Дырмовский. «Задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. И мы приветствуем достижения группы компаний ЦРТ в этой области», — поделился Джон Баркер, представитель Университета Шеффилд (Великобритания), участник организационного комитета CHiME Challenge. Группа компаний ЦРТ (входит в экосистему Сбербанка) — глобальный разработчик интеллектуальных речевых технологий, распознавания лиц, технологический эксперт в области искусственного интеллекта и машинного обучения. Одна из немногих компаний в мире, которая создает и развивает обе биометрические модальности: лицо и голос. Технологии выявления подделок голоса и распознавание речи от группы ЦРТ занимают лидирующие позиции в мировых рейтингах NIST, ASVspoof Challenge, VOiCES, CHiME Challenge. Решения ЦРТ востребованы в 70 странах мира. Источник: sdelanounas.ru Комментарии: |
|