Алгоритм научился читать по губам с недостижимой для человека точностью |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-08-01 20:00 Лаборатория DeepMind научила нейросеть читать по губам с точностью в 59%. По этому показателю искусственный интеллект превзошел своих предшественников, а также профессиональных чтецов. Технология предназначена для людей с нарушением слуха и речи, но воспользоваться ей смогут и спецслужбы. В ходе эксперимента алгоритм лаборатории DeepMind изучил видеоролики без звука c говорящими людьми общей продолжительностью 37 минут. Нейросеть оценивала записи впервые, но при этом смогла расшифровать речь в большинстве случаев. ИИ ошибочно распознал лишь 41% слов. Для сравнения, предыдущий алгоритм от других разработчиков ошибался в 77% случаев. Специалисты по зрительному восприятию речи справились с задачей еще хуже и некорректно расшифровали 93% слов. Как поясняет Science, лаборатория DeepMind добилась такого высокого показателя благодаря новому методу машинного обучения. Предыдущие алгоритмы пытались распознавать отдельные буквы в речи, тогда как новая система анализировала фонемы — минимальные звуковые единицы языка. Для обучения алгоритма разработчики отобрали на YouTube 140 часов видео, на которых люди разговаривают в различных ситуациях. Затем специальная программа выделила только те части видео, где люди разговаривали на английском языке и их хорошо было видно в анфас. Система обрезала видео, оставив лишь кадры с отчетливыми движениями рта при говорении. В результате DeepMind составила базу видео продолжительностью 4000 часов, состоящую из коротких роликов в несколько секунд с аннотациями. Таким образом, разработчики собрали более 127 тысяч английских слов с обозначением фонем в каждом из них. Полученная база данных в семь раз превосходит аналоги и позволяет нейросети расшифровывать беззвучно произносимые слова с беспрецедентной точностью. Система обрабатывает видеоконтент в несколько этапов, что также повышает качество расшифровки. Кроме того, ИИ понимает, как фонемы влияют друг на друга. Так, движения рта при произнесении английской t будут разными в словах boot и beet — и программа это учитывает. Технология позволит создать приложение, которое поможет неслышащим людям распознавать речь собеседников. Люди с нарушениями речи также смогут воспользоваться ИИ-системой в качестве персонального расшифровщика. Но у алгоритма есть и другие сценарии применения. Его можно использовать для расшифровки речи на архивных видео, записанных без звука, а также для анализа видеозаписей с камер слежения. Алгоритм очень заинтересует и спецслужбы, считают эксперты. Искусственный интеллект приобретает все больше возможностей с каждым годом. Современные алгоритмы не только распознают лица и голоса, но также понимают эмоции людей разных рас, устанавливают национальность по почерку и определяют характер по движению глаз. При этом многие эксперты опасаются, что подобные функции превратят ИИ в мощный инструмент контроля и слежки за людьми. Источник: hightech.plus Комментарии: |
|