Tinkoff VoiceKit и речевая аналитика CoMagic будут работать сообща |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2020-10-12 16:34 Денис Ерзиков менеджер продукта «Речевая аналитика», CoMagic Недавно технология распознавания речи Tinkoff VoiceKit стала доступна клиентам CoMagic. Обсудили с разработчиками Тинькофф, что происходит «под капотом» их системы распознавания речи и есть ли будущее у маркетинга без речевых технологий. Мы познакомились с ребятами из Тинькофф на конференции Intercom в прошлом ноябре, когда офлайн-event и рукопожатия еще были легальны. Спустя полгода запустили совместный проект. Технологии распознавания речи Tinkoff VoiceKit и речевая аналитика CoMagic будут работать сообща, двигать рынок речевых технологий и помогать бизнесу. Разберемся, в чем смысл такого союза и почему речевые технологии дают больше пользы бизнесу, чем традиционное прослушивание звонков. Что есть что в речевых технологиях Для начала разберемся в терминах. Если вы понимаете разницу между расшифровкой речи и речевой аналитикой, можете пропустить этот пункт. Тинькофф предоставляет внешним клиентам услугу распознавания и синтеза речи — перевода звука в текст и наоборот. Технологии CoMagic позволяют эти расшифрованные данные анализировать — по ключевым словам и их сочетаниям. Основной профит для бизнеса кроется именно в этих конечных данных.
С помощью речевой аналитики клиенты CoMagic контролируют работу колл-центров, отделов продаж и клиентского сервиса. Они повышают качество обслуживания, находят инсайты и в результате увеличивают продажи. Пример можно посмотреть на нашем сайте. К слову, для контроля колл-центра в Тинькофф используют тот же Tinkoff VoiceKit в связке с собственной аналитикой, которая, правда, недоступна внешним клиентам. Но для внедрения подобных систем аналитики важно понимать, чем она отличается от «работы по старинке» — когда выделенный сотрудник прослушивает несколько звонков и пытается делать выводы о ситуации в целом. И это, пожалуй, главный отраслевой барьер, с которым сталкиваются поставщики речевых технологий. От собственной разработки к конкурентной услуге Денис Ерзиков, CoMagic: Если бизнес «по старинке» прослушивает 5–10 % звонков, он никогда не узнает полной картины — 90 % информации останется в серой зоне. Каким был контроль качества в Тинькофф до внедрения речевых технологий? И в какой момент их стали применять для решения этой задачи? Технология расшифровки речи изначально разрабатывалась для контроля качества нашего удаленного колл-центра. Мы хотели получить текстовую версию звонков и с помощью собственной речевой аналитики начать измерять этот процесс, понять, какие есть проблемы и возможности. К тому же нас интересовало все, что связано с колл-центром, продажами, телефонной коммуникацией. Началось все с расшифровки и речевой аналитики, потом был синтез речи для «Олега», позже подключились голосовые роботы. Денис Ерзиков, CoMagic: Почему решили предложить продукт рынку? Поняли, что он готов на все 100 % и будет востребован, коммерчески успешен? Вадим Купцов, Тинькофф: Здесь все не так однозначно. Первыми клиентами действительно стали партнеры, с которыми уже что-то тестировали, видели, что цели бизнеса достигаются. Но выход на внешний рынок, наоборот, позволил нам дополнительно расширять список тематик, дообучать и развивать систему. Если в какой-то нише точность расшифровки недостаточна, мы смотрим, хватит ли данных — записей звонков — для дообучения системы. Если да, прокачиваем весь движок — у нас нет деления на тематики. Разумеется, любой проект должен приносить прибыль, но тут все взаимосвязано.
Про точность расшифровки для людей и для машины Денис Ерзиков, CoMagic: Точность расшифровки записанной речи человеком — 99 %, искусственным интеллектом после обучения тематике — от 80 до 95 %. Плюс машина прослушает 100 % разговоров. По КПД человек существенно уступает машине. В чем секрет и как происходит эта «магия»? Всю эту «магию» с расшифровкой речи осуществляет нейросеть. Она получает на входе звук в каком-либо виде, например, спектрограмму или wave-форму. Допустим, это спектрограмма — картинка с частотами, показывающая, в какой момент времени какая частота присутствовала в сигнале. На выходе нейросеть выдает вероятности произнесения отдельных букв в каждый момент времени. Дальше мы подключаем языковую модель. Она учитывает тематику, если участвовала в обучении, или использует общие данные. Модель определяет, с какой вероятностью можно встретить в данном языке определенную последовательность звуков и сложенных из них слов. Нейросеть с языковой моделью соединяет алгоритм декодер, который уже выдает предложения. Денис Ерзиков, CoMagic: Алгоритмам речевой аналитики не требуется связный текст. Они допускают погрешность в точности до 10 % и работают с отдельными словами, каждое из которых, в идеале, и вовсе бы нормализовать — привести к начальной форме. Например, «именительный падеж, единственное число» для существительных. Но качество расшифровки и стройность текста важны для клиента — удобнее читать, ссылаться на материал, находить инсайты. Какова у вас точность расшифровки? Андрей Степанов, Тинькофф: Нельзя говорить о точности расшифровки для всей системы распознавания. Она зависит от тематики и качества звука. Если кто-то из разработчиков заявляет, что ошибка системы не выше 5 %, скорее всего, речь об аудиокнигах. Это такой маркер: хорошее качество звука и широкой лексикон. Тест на аудиокнигах показывает, насколько богатый язык распознает модель. Но в бизнес-тематиках много специфической лексики, качество речи и записи не всегда идеально. Поэтому нам и интересно партнерство с новыми клиентами — чем больше тематик, тем шире лексикон системы.
Денис Ерзиков, CoMagic: Tinkoff VoiceKit расставляет знаки препинания и согласует окончания. Опция, необязательная для алгоритмов речевой аналитики, но такая важная для того, кто будет эту расшифровку читать. Как система не путается в запятых? Ведь один только союз «как» имеет не меньше шести правил пунктуации. Андрей Степанов, Тинькофф: Пока что модель по работе с пунктуацией не учитывает интонацию. Но, надеюсь, мы придем и к этому. На текущий момент система на основе текста выдает 5–6 возможных вариантов — какие знаки должны стоять, как человек должен был это говорить: где пауза, где восклицательный знак. Далее она определяет, где вероятность выше. Сейчас точность расставленных знаков достигает 93 %. Пример расшифрованного звонка в CoMagic
Про машинное обучение и интерфейс в речевой аналитике Технология Tinkoff VoiceKit доступна всем клиентам CoMagic наряду с решением от прежнего партнера. Пользователи могут выбрать вариант расшифровки, который им кажется более удачным. Единственное, на что стоит обратить внимание, это алгоритм «Smart-тег» от CoMagic. Если он был обучен на массиве данных, полученных с помощью одной системы распознавания, при переходе на другую может потребоваться его дообучение. Smart-тег — это функция разметки разговоров на базе машинного обучения. Она кардинально отличается от обычного тегирования в нашей речевой аналитике, где принцип прост: вы задаете список слов, а алгоритмы находят в диалогах соответствующие словоформы и присваивают им определенный тег. Smart-тег сам обучается на выборке не менее 1000 размеченных заранее звонков, например: «успешная допродажа», «негатив», «заявка на сервис» / «на покупку» авто. Система определяет слова с наибольшим весом для конкретной тематики и находит в тексте соответствие. При изменении качества расшифровки, точности согласования тех же окончаний в Tinkoff VoiceKit, возможно, систему придется дообучить, но, конечно, надо тестировать и смотреть результат в конкретной тематике.
Клиенты CoMagic могут обучить алгоритм «Smart-тег» на основе расшифровок Tinkoff VoiceKit, использовать все опции сквозной аналитики и работать в едином интерфейсе в личном кабинете. — В рамках речевой аналитики большую часть времени разработчиков занимает создание интерфейсов и алгоритмов для работы со всем массивом данных, — отмечает Дарья Черникова. — В два клика найти звонок с нужным словом, выгрузить отчет, добавить вручную теги, которые подтянутся в сводку. Без этого вы получите не сервис речевой аналитики, а разрозненный набор опций. Мы постоянно общаемся с клиентами: что добавить, как сделать удобнее. Так, мы неоднократно слышали, что в расшифровке не хватает знаков препинания. Мы понимаем, что они не влияют на расстановку тегов и поиск по словам, но кому-то с таким текстом работать комфортнее, — это важная обратная связь. После подключения Tinkoff VoiceKit эта проблема будет полностью решена. Заключение Речевую аналитику в CoMagic мы изначально разрабатывали для контроля качества колл-центров, отдела продаж и клиентского сервиса. Везде, где есть вербальная коммуникация, внедрение речевой аналитики оправданно и перспективно. А учитывая тренд на работу с большими данными, без анализа записей разговоров трудно представить маркетинг будущего — маркетинг, в котором предельно персонифицирована коммуникация, а бизнес знает о клиенте зачастую больше, чем он сам. Источник: vc.ru Комментарии: |
|