Потерявший слух советский математик устроился в Google, чтобы помочь другим людям с нарушениями слуха и речи |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-11-29 15:07 Дмитрий Каневский разрабатывает продукты, которые помогают людям общаться с близкими, коллегами, мобильными устройствами и целым миром. Тем не менее он научился читать по губам, закончил МГУ, стал кандидатом наук, переехал в США и сейчас работает исследователем в Google. Последние 40 лет он разрабатывает устройства и технологии, которые помогают людям с нарушениями слуха. Например, прибор, помогающий «слышать» с помощью кожи, и приложение, которое переводит в текст речь людей с сильным акцентом, заиканием и другими особенностями речи. Изобретатель рассказал, как создал свой аппарат для чтения с губ, устроился в Google и помог разработать алгоритм для автоматического создания титров на YouTube. Конструктор В детстве я потерял слух. Но меня научили читать по губам, и я пошёл в обычную школу. У меня было много друзей. Тогда я не испытывал больших сложностей в общении. Трудно стало, когда в восьмом классе я перешёл во вторую математическую школу в Москве. Там были другие ребята и сложные технологические предметы — учиться приходилось в основном по учебникам. Тем не менее после школы я поступил в МГУ — в 1969 году, а потом ещё восемь лет учился математике и стал кандидатом наук, написав диссертацию по алгебраической геометрии. Заканчивая диссертацию, я встретил будущую жену. Она переезжала со своими родителями в Израиль, и я решил отправиться вслед за ней. Я знал, что в новой стране не буду так же хорошо читать по губам, как в СССР, и не смогу свободно общаться с людьми. Тогда я разработал аппарат, который помогал читать с губ. Прибор крепился на теле и позволял «слышать» кожей — улавливал звуки и переводил их в вибрации. Проблема была в том, что некоторые звуки, например «с», «ш», «и», «а», находятся на высоких частотах, поэтому их сложно почувствовать кожей. Тогда я придумал переводить высокие частоты в низкие. Мне удалось сделать настолько маленький аппарат, что его под одеждой не замечали другие люди. Я получил разрешение вывезти устройство в Израиль, и оно помогало мне говорить на иврите, в котором большое количество слов с «высокочастотными» звуками вроде «шабат», «шалом» и так далее. В Израиле я показал аппарат одному доктору. Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства. Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана. В месяц я зарабатывал 2000 шекелей, это было в 1981 году. Аппарат потом применяли во многих странах — он был универсален для всего мира. В одной больнице его сравнили с разработкой компании Cohler, которая вживляла передатчик в ухо человека, чтобы он мог считывать звуки. Мой аппарат показал такой же результат, как у Cohler, но их разработка стоила $25 тысяч и требовала серьёзной операции, а мой вариант был в несколько раз дешевле и не требовал вмешательства хирургов. В 1984 году американская компания Spectro выкупила авторские права на аппарат (сумму сделки Каневский назвать отказался — vc.ru). Сперва я отправился работать в академические институты в Германии и США, а после перешёл в IBM. Работа в IBM В начале работы я разработал алгоритм для распознавания речи. Чтобы перевести речь в текст, системе требовалось считать акустический сигнал и сопоставить его со словом, которое он представляет. Для этого звук представляется как последовательность чисел, которая сравнивается с каждым словом в словаре, используя некоторый критерий. Произнесённым считается слово, которое лучше всего согласовано с этой последовательностью чисел. Критерии — многочлены, которые состояли из 50 млн переменных, или параметров. В 1990-е годы вычислять многочлены с 50 млн параметров за линейное время (временная сложность алгоритма, которая зависит от числа операций — vc.ru) позволяли методы динамического программирования. Более совершенные критерии были основаны не на многочленах, а на рациональных функциях — отношениях многочленов. Для них долгое время не могли найти способ вычисления значений для 50 млн параметров в линейное время. А я нашёл этот метод. И когда его стали применять, точность распознавания речи значительно улучшилась. Вместе с этим я постоянно работал над технологиями, которые помогали бы людям с нарушениями слуха. В то время появился интернет и с его помощью я создал первые в мире сервисы, которые помогали понимать речь. Например, сервис, который позволял переводить устную речь в письменную. Для этого клиент звонил людям, умеющим быстро печатать, включал громкую связь, и они набирали текст, который слышали во время звонка. Текст в реальном времени высвечивался на экране компьютера клиента, и тот понимал, о чём говорят рядом с ним. Такая услуга стоила до $120–150 в час. Также я занимался изобретательством, не связанным с распознаванием речи. Одна из таких технологий — Artificial Passenger (искусственный пассажир — vc.ru). Она помогала водителям не уснуть за рулём. Система наблюдала за человеком, разговаривала с ним, поэтому водитель, отвечая на вопросы, не засыпал. Другая разработка касалась безопасности в банках. Чтобы подтвердить личность клиента, консультанты обычно просили назвать его имя матери или жены. Я разработал систему, которая позволяла банку собирать больше информации о клиенте, чтобы сотрудники каждый раз могли задать новый вопрос. Например: «Как зовут вашу собаку?» или «Когда вы вернулись из отпуска?» В это же время технология идентифицировала голос звонящего и проверяла, действительно ли он принадлежит клиенту банка. Если всё было в порядке и человек давал правильный ответ на вопрос, сотрудник банка понимал, что звонит не мошенник. Распознавание речи для YouTube В 2014 году я перешёл в Google, где продолжил работать над распознаванием речи. Я занялся системой Closed Caption для YouTube, которая автоматически распознаёт речь на видео и переводит её в субтитры. В то время технология работала плохо, и мы с командой должны были улучшить её алгоритм. Для создания акустических моделей слов (математических функций, основанных на фонемах — элементарных единицах речи — vc.ru) нам были нужны данные: тексты и их озвученные версии, чтобы обучить машину. Причём нужно, чтобы слова произносились разными голосами. Ранее для этого нанимались люди, которые слушали и расшифровывали аудио в текст. Так набирались несколько тысяч часов примеров речи, что мало для хорошей системы распознавания. YouTube интересен тем, что там огромное количество видео, где звук и текст уже имеются. Многие пользователи загружают на сайт видеоролики, в которые уже сами вшили субтитры с расшифровкой. Отчасти это делалось потому, что ролики с субтитрами поиск выдавал выше. У меня появилась идея использовать для обучения алгоритмов сотни тысяч часов готовых данных от пользователей. Проблема была лишь в том, что люди часто делают не только ошибки в тексте, но и просто ставят в субтитры случайный набор букв, чтобы получить высокий ранг при поиске. Нам пришлось поставить фильтры, которые отличали качественные данные от плохих. В итоге мы закончили разработку в 2016 году, и Closed Caption стала намного лучше распознавать речь. То, что видят пользователи сейчас, нажимая на автоматическое создание субтитров, — результат этой работы. Проекты для людей с ограниченными возможностями В 2017 году я перебрался из офиса Нью-Йорка в калифорнийское отделение Google. Уже тут за полгода вместе с командой я создал приложение Live Transcribe, которое использует ту же технологию перевода речи в текст, что и YouTube, но в виде отдельного приложения. С помощью него люди с проблемами слуха могут узнать, что им говорят. Система распознаёт и дополнительные звуки, о которых также пишет пользователю: лай собаки, плач ребёнка, звук гитары, стук в дверь, смех и так далее. Эта часть аудиоинформации обрабатывается на самом телефоне, а расшифровка прямой речи работает через интернет. Один из главных создателей этого приложения — Чет Гнеги. Часто сотрудники Google разрабатывают проекты для решения проблем их коллег. Гнеги видел, как я использую сервисы, где люди печатают для меня речь, которую слышат, и решил помочь. Он создал первый прототип приложения. Оно помогало нам работать вместе и в итоге выросло в отдельный проект Google под названием Live Transcribe. Ещё один проект, в котором я участвую, — Euphonia. Это приложение для людей с нестандартной речью: тех, у кого есть БАС (заболевание, при котором поражается центральная нервная система — vc.ru), глухих, заикающихся, людей переживших инсульт. Для этого проекта нам вновь нужно множество примеров нестандартной речи. Только в этот раз их не найти даже на YouTube. Такая речь очень индивидуальна, и здесь нужен другой подход для сбора данных. Я сам надиктовал первые 25 часов записи. Я заранее писал доклады, с которыми планировал выступать, а потом записывал их в аудио. Так я тренировал систему. Я мог выступать, а зрители видели текстовую расшифровку моих докладов. С каждым новым выступлением система всё лучше меня понимала и распознавала даже новые фразы. Сейчас мне уже не нужно писать доклады заранее — алгоритм переводит в текст абсолютно всё, что я говорю. Так стало понятно, что этот подход работает, и мы начали приглашать людей с особенной речью тоже читать и записывать текст. В случае с людьми с БАС мы начали работу с того, что дали им типичные фразы, которые они говорят, чтобы взаимодействовать, например, с Google Home. Им нужно повторить 100 фраз, чтобы натренировать систему под себя. Таким людям трудно разговаривать, и они быстро устают, поэтому мы не можем ждать от них большого количества записей. Тем не менее постепенно мы начали объединять примеры речи разных людей с этим заболеванием, чтобы в будущем создать универсальную систему. Это медленный процесс — данных слишком мало, и Euphonia — всё ещё проект-исследование, а не готовый продукт. Euphonia не требует соединения с интернетом, как в случае с Live Transcribe. У смартфонов небольшие вычислительные мощности, на которых сложно заниматься расшифровкой аудио. Однако команде удалось справиться с этим. Многие люди боятся, что их данные обрабатываются через интернет. Если пользователь приходит к врачу, то и он, и врач переживают, что их диалог попадёт на удалённые серверы. Тут этого нет, потому что для Euphonia не нужно подключение к сети. Сейчас мы даём ссылку, где люди с особенностями речи могут зарегистрироваться и оставить примеры своей речи. В некоторых случаях Google старается делать для них бесплатно индивидуальный распознаватель речи. Также я работаю над проектом по распознаванию языка жестов. Здесь мы работаем с визуальной информацией. Эта задача ещё труднее, чем распознавание речи. Сейчас разработка находится на начальном этапе. В языке жестов один жест может означать не отдельную букву, а целую фразу. И нам вновь нужно найти огромное количество примеров. По этому проекту мы сотрудничаем с Галлодетским университетом. В США это единственное высшее учебное заведение для слабослышащих и глухих. Кроме этого я вернулся к идее своего прибора, который переводил высокие частоты в низкие. Мои коллеги работают над его новой версией, более современной, с помощью которой получится передавать больше информации. Источник: vc.ru Комментарии: |
|