Из голоса — в текст: как речевые технологии совершенствуют медицину

2020-11-20 22:02

Наша задача — сэкономить время на заполнении медицинских бумаг. Голосовой ввод работает без искажений, но есть и сложности. Например, врачам нужно потратить около двух недель, чтобы освоить новую систему.

Всем привет. Меня зовут Алексей Рыбаков, я руководитель продуктового управления медицинских систем группы ЦРТ. В частности, мы занимаемся разработкой и внедрением голосового ассистента для врачей Voice2Med, с помощью которого они могут заполнять протоколы исследований и обследований, просто диктуя результаты. Получается такой аналог Siri или Google Assistant, только заточенный под медицинскую тематику и с качеством распознавания 97-98%. Я расскажу, как и зачем мы разрабатывали Voice2Med, и как к новой технологии адаптировались врачи (а это не так просто).

COVID-19 ускорил развитие ИИ в здравоохранении

Голосовой ассистент может быть и не поражает воображение пользователя, избалованного новыми технологиями. Но в России технологии распознавания речи для врачей начали внедрять только недавно, а в 2020 году, во многом благодаря пандемии, распространение технологии ускорилось, в том числе и в Москве. На самом деле, уже сейчас можно говорить о начале небольшой революции в рабочем процессе врача.

Дело в том, что российские врачи половину своего рабочего времени могут тратить на заполнение бумаг: протоколы исследований, осмотров пациентов и пр. Часто им приходится это делать прямо во время приема пациента — вместо того, чтобы его осматривать.

Во всем мире медицина уже давно шагнула в век современных технологий. В Европе, Израиле, США такая рутина довольно давно отдана на откуп искусственному интеллекту: врач просто надиктовывает, а система сама за ним все записывает и правильно заполняет протокол. Клиники по всему миру внедряют заполнение медицинских документов с помощью технологий распознавания голоса.

685 000 врачей в мире заполняют медицинское протоколы голосом. 90% больниц в США и Канаде уже внедрили системы автоматизации медицинского документооборота. В Европе до 40% врачей пользуются речевыми технологиями, а если говорить о радиологии — то 90% врачей.

В России пандемия также дала импульс распространению технологий. В этом году совместно с Центром диагностики и телемедицины мы внедрили Voice2Med в отделениях лучевой диагностики московских поликлиник. В пилотном проекте участвовали всего 7 московских поликлиник. Сейчас Voice2Med работает уже более чем в 80 медучреждениях Москвы, а также в Перми, Мордовии, Тюмени, Мурманске.

Источник: архив Центра диагностики и телемедицины

Но прежде чем внедрять нашу систему, мы потратили год на ее обучение.

Как мы обучали Voice2Med: 2,6 млн протоколов, «осень и порос» вместо остеохондроз

Хайп вокруг ИИ оправдано вызывал (и вызывает до сих пор, будем честны) скепсис в медицинском сообществе. Чтобы его преодолеть, наши технические эксперты работали в тесной коллаборации с экспертами Центра диагностики и телемедицины (полное название — Государственное бюджетное учреждение здравоохранения города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы», ГБУЗ «НПКЦ ДиТ ДЗМ»). С самого начала запуска проекта Центр собирал отзывы врачей-пользователей речевой технологии, и на основе полученных данных ЦРТ дообучала алгоритмы распознавания речи.

Основная сложность была в распознавании медицинских терминов.

В самом начале проекта, в 2019 году, основные ошибки распознавания заключались в неправильно распознанных предлогах и в несогласованности предложений, например, "в верхней доле” могло превратиться в “верней доле”, а фраза “КТ картина отрицательная" в “КТ картина отрицательные“.

Никита Кудрявцев

Врач-рентгенолог, руководитель проекта по внедрению технологии распознавания речи в медицинских организациях, младший научный сотрудник отдела инновационных технологий Центра диагностики и телемедицины

Лично мне больше всего запомнилось "остеохондроз” = “осень и порос"

. С подобным качеством распознавания сталкивались, наверное, все, кто пользовался голосовыми помощниками на своих смартфонах. Понятно, что для профессиональных голосовых ассистентов такое качество неприемлемо.

Другой большой проблемой во время обучения системы стало отсутствие единого стандарта. Далеко не у всех есть единые шаблоны и стандарты работы, как в Москве. Поэтому

в регионах в разных больницах врачи даже «говорят по-разному», и заполняют протоколы по-разному: у всех свои методы, учебные школы, привычки.

В нижегородской больнице протоколы радиологических исследований могут отличаться от новосибирских протоколов. Из-за этого на первых этапах система работала прекрасно для одной больницы, а для другой — хуже. Поэтому очень важно набрать действительно внушительную статистическую базу, чтобы язык «сошелся», покрыл все возможные обороты, фразы и т.д.

В первые месяцы в систему было передано Центром диагностики и телемедицины всего 25 тыс. обезличенных протоколов в радиологии из примерно 40 медицинских учреждений. В общей сложности было передано в систему более 2,6 млн медицинских протоколов.

После этого, благодаря обратной связи от врачей-рентгенологов, анализа их аудиозаписей и анализа текста готовых протоколов исследований, система распознает даже самые сложные термины.

Особенность проекта — взаимодействие с Департаментом информационных технологий: на развитой IT-инфраструктуре удалось качественно протестировать и интегрировать решение. Департамент здравоохранения Москвы поддержал проект, обеспечив качественное обучение специалистов. Ключевым фактором успеха стала ежедневная работа над развитием проекта совместно с Центром диагностики и телемедицины под руководством главного рентгенолога Москвы Сергея Морозова.

Дмитрий Дырмовский

Генеральный директор группы ЦРТ

В итоге в Voice2Med встроены словари медицинской речи для врачей разных специализаций – терапии и педиатрии, рентгенологии, патологической анатомии, эндоскопии, ультразвуковой диагностики. Благодаря тематическим модулям система распознает все медицинские термины и выражения, включая аббревиатуры и сокращения,

с точностью 97-98%.

Фактически, мы уже приблизились к максимальному качеству распознавания, и приток новых протоколов не дает значимого улучшения.

Кроме того, в процессе работы мы поняли, что традиционная гарнитура может быть не всегда удобна, и реализовали интеграцию с микрофонами Philips, которые используются как джойстики управления рабочей станцией.

Выдержка из выступления Сергея Морозова, директора Центра диагностики и телемедицины. Источник: официальная группа Центра диагностики и телемедицины

Кто работает с Voice2Med

Наш продукт используется при описании рентгенограмм, КТ-, МРТ-томограмм, ультразвуковых исследований, лабораторных и морфологических анализов. Эксперты Центра диагностики и телемедицинских технологий уверены, что голосовое заполнение медицинских протоколов будет полезно бригадам скорой помощи, дежурным врачам, отдельным специалистам – хирургам, эндоскопистам, врачам судебной медицины, терапевтам и невропатологам.

На сегодня в московских поликлиниках более 21 тысячи протоколов рентгенологических исследований заполнено с помощью технологии голосового ввода.

И наша технология не теряет в качестве распознавания, даже если врач работает в СИЗ.

Пример работы Voice2Med в «красной зоне» временного госпиталя в Ледовом дворце «Крылатское» (Москва):

Источник: репортаж News.ru

Врачам тоже нужно учиться работать с голосовым вводом

Сейчас это кажется очевидным, но в начале мы не думали, что здесь необходимо какое-то специальное обучение для врачей. Казалось бы, что такого: надеваешь гарнитуру, открываешь активное окно для заполнения и начинаешь диктовать результаты. Оказалось, что это целая наука. Попробуйте сами надиктовать какой-нибудь текст голосовым помощникам Siri, Google Assistant или «Алисе». Вы увидите, как сложно добиться нужного результата.

Поэтому голосовому вводу нужно учиться. Это не так сложно, как научиться писать, но это то, во что нужно инвестировать свое время. На практике же далеко не все врачи готовы заниматься самообразованием: кто-то из-за скепсиса, кто-то из-за нехватки времени. Очень часто после первых попыток они видели, что протокол заполнен с ошибками, и откладывали гарнитуру в сторону — навсегда. Многие сомневались в эффективном использовании технологии. Мы даже проводили исследования: через месяц после внедрения голосового ввода 40% врачей относились к системе скептически. Зато уже спустя три месяца число врачей, которые не поддерживали технологию, составило всего 6%.

Нужно понимать, что ошибки на первом этапе — это нормально. Начать работу с Voice2Med врач может практически сразу, но требуется примерно 2 недели на кропотливое внедрение голосового распознавания в свою работу. Первые протоколы могут заполняться даже медленней, чем традиционным способом. Есть несколько ограничений или правил диктовки. Чем более естественная речь, тем лучше распознавание.

Есть и формальные правила. Например, не надо говорить “ноль пять”: система не может точно знать, что здесь имеется в виду. Поэтому нужно говорить “ноль целых пять десятых”. То же самое касается правила произношений знаков препинания. Их приходится называть самостоятельно, поскольку синтаксис в русском языке очень сложный, а цена ошибки здесь велика и она может сильно повлиять на смысл текста.

Зато когда врач осваивает систему, экономия времени на заполнение протоколов достигает 22% — это статистический факт.

Хронометражные исследования, проведенные Центром диагностики и телемедицины, подтвердили эффективность голосового ввода Voice2Med для заполнения медицинских документов. Так же мы постарались помочь врачам с адаптацией. Подготовили для них учебно-методические материалы, памятки, инструкции, видеоуроки.

Никита Кудрявцев

Врач-рентгенолог, руководитель проекта по внедрению технологии распознавания речи в медицинских организациях, младший научный сотрудник отдела инновационных технологий Центра диагностики и телемедицины

Теперь врачи-рентгенологи отмечают, что для общего знакомства с технологией оказалось достаточно всего одного рабочего дня, и при ежедневном использовании через 1 месяц уже можно стать уверенным пользователем. А кроме того, мы пытаемся работать с медицинскими образовательными учреждениями, чтобы будущие врачи привыкали и обучались технологии со студенческой скамьи.

Самое главное, что уже большое количество врачей регулярно используют эту технологию. Потому что это удобно. Уверен, что распознавание речи будет развиваться, и, вероятно, станет стандартом оснащения рабочего места врача-рентгенолога. В московских поликлиниках и референс-центре — это уже стандарт. В будущем технология может использоваться в работе врачей УЗД, патоморфологии, эндоскопии, возможно терапии, хирургии и многих других.

Сергей Морозов

Главный специалист по лучевой и инструментальной диагностике Москвы, директор Центра диагностики и телемедицины.

Технология может экономить час рабочего времени в день

Чтобы оценить эффективность технологии, Центр диагностики и телемедицины провел тестирования, в котором приняло участие 15 врачей-рентгенологов. Во время тестирования фиксировалась длительность заполнения рентгенологических протоколов с помощью клавиатурного и голосового ввода — через неделю после внедрения технологии распознавания речи и через месяц после внедрения.

Сначала голосовой ввод оказался медленней клавиатурного, так как много времени уходило на проверку и корректировку введенного текста (больше двух с половиной минут против 35 секунд), а точность распознавания составила всего 87%.

Но затем врачи лучше освоили голосовой ввод, а точность распознавания была повышена до 90% за счет дообучения нейросетевой акустической модели словаря системы распознавания речи — помогла обратная связь от врачей-рентгенологов и анализ готовых рентгенологических протоколов.

Так что протоколы заполнялись с помощью голосового ввода уже быстрее клавиатурного — на целых 2 мин 13 сек.

Это освобождает врачам до 1 часа 10 минут рабочего времени ежедневно.

Конечно, чтобы Voice2Med заработал у врачей, одного распознавания речи недостаточно. Поэтому в него встроены словари автозамен, возможность структурированного заполнения протоколов и другие необходимые для работы фичи.

Голосовое заполнение медицинской документации с помощью Voice2Med позволяет экономить на заполнении медицинских протоколов более 20% времени, а кроме того — существенно повышает качество медицинской документации и улучшает эргономику рабочих мест. Современный голосовой интерфейс является естественным и интуитивным. Он помогает нецифровым специалистам преодолеть сложности в освоении компьютерной техники, а цифровые специалисты подчеркивают его технологичность.

Дмитрий Дырмовский

Генеральный директор группы ЦРТ

Мы также любим говорить (потому что это правда), что благодаря голосовому вводу рабочие места врачей стали эргономичнее. Врачи-лаборанты могут проводить исследования под микроскопом и сразу же фиксировать результаты, а врачи-рентгенологи — изучать КТ-, МРТ-томограммы, рентгенограммы, также сразу фиксируя результат, не отвлекаясь на заполнение данных, как это было раньше. В наших планах внедрение голосового ввода для специалистов УЗИ, чтобы они могли параллельно (синхронно) заполнять протокол. Все это, конечно, снимает лишнюю нагрузку с врачей и помогает им сконцентрироваться на основных задачах.

Три главных вывода

Технология голосового ввода работает. Это доказано на практике в десятках медучреждений и больше нет смысла проводить пилотные проекты.
Технология — не волшебная таблетка, приняв которую, врач начинает работать быстрее. Нужно учиться. Все врачи, которые проявили терпение в этом, отмечают, что их продуктивность повысилась.
Мы открыты к сотрудничеству и готовы адаптировать систему под новые задачи.

И хотя в России рынок речевых решений в сфере здравоохранения только начинает формироваться, мы уверены, что речевые технологии — это перспективный инструмент, который освобождает врачей от рутинных задач.

Источник: vc.ru

Из голоса — в текст: как речевые технологии совершенствуют медицину

Комментарии: