Разработана офлайн-система распознавания речи, работающая с точностью в 97% |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-10-24 07:00 Как правило, различные системы распознавания речи, лиц, переводчики и прочие используют огромные серверные мощности для своей работы. А для того, чтобы сделать их доступными для каждого, разработчики передают все данные по интернету, что не дает возможности использовать их в офлайне. Однако современные алгоритмы нейросетей помогают добиться действительно потрясающих результатов. Не так давно Microsoft и Google уже сделали свои переводчики на основе нейросетей полностью независящим от сети, а сейчас настало время алгоритмов распознавания голоса. За разработку отвечает группа исследователей из Университета Ватерлоо и стартапа под названием DarwinAI. Их технология получила название EdgeSpeechNets. «В этом исследовании мы используем стратегию создания архитектуры с низким уровнем нагрузки на устройство, но со всеми плюсами подхода с использованием мощной нейросети с глубоким машинным обучением.» Для начала эксперты создали прототип будущей системы, который выполнял распознавание речи, но обладал ограниченным словарным запасом. При этом он был способен выявлять известные ему ключевые слова даже из очень быстрого потока речи. После этого полученные данные использовались для преобразования звукового сигнала в математическую формулу. Эта формула и использовалась в дальнейшем для проектирования нейросети, которая обладала бы высокой производительностью, но была бы не требовательна к железу. После этого ученые решили испытать получившуюся программу. Для этого использовалось хранилище Google Speech Commands, которое содержит 65000 1-секундных звуковых образцов. В итоге одна из версий системы, а именно EdgeSpeechNet-D, показала просто отличный результат, достигнув точности в 97% на довольно слабом смартфоне Motorola Moto E c процессором 1,4 ГГц. «EdgeSpeechNet имеет более высокую точность распознавания при гораздо низких затратах на вычисления. Полученные результаты демонстрируют, что EdgeSpeechNet смогла достичь самой современной производительности, требуя значительно меньше вычислительной мощности, что делает их очень подходящими для использования в мобильных устройствах и приложениях.» Источник: m.vk.com Комментарии: |
|