Компьютерную модель научили распознавать речь, предсказывая ее. |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-06-30 23:01 Мозг человека производит нейронные осцилляции, которые можно измерить с помощью ЭЭГ. Это электромагнитные волны, которые возникают от когерентной электрической активности сетей нейронов. Их несколько типов, различающихся по частоте колебания — альфа, бета, тета, дельта и гамма. Они связаны с когнитивными функциями, такими как восприятие, память, внимание и так далее. Однако нейробиологи не знают, как именно они воздействуют на когнитивные функции. Группа ученых под руководством профессора Анне-Лиз Жиро из Университета Женевы в 2015 году показала, что тета-волны и гамма-волны координируют цепочку звуков в слогах. Теперь ученые разработали компьютерную модель нейронной сети, производительность которой в секвенировании живой разговорной речи превосходит автоматические системы распознавания речи. В этой модели тета-волны (от 4 до 7 Гц) позволяют следовать ритму слогов. Гамма-волны (около 80 Гц) используются для нарезки звукового сигнала на меньшие куски и их кодирования. Так возникает фонемный профиль, связанный с каждой последовательностью звуков, которую можно сопоставить с библиотекой известных слогов. Одно из преимуществ такой модели в том, что она спонтанно адаптируется к скорости речи. Для того чтобы придерживаться биологических реалий, профессор Жиро и ее команда использовали теорию предиктивного кодирования. Она утверждает, что мозг функционирует так хорошо потому, что постоянно пытается понять и предсказать, что произойдет дальше, на основе изученных моделей. В случае устной речи он ищет наиболее вероятные объяснения для звуков. В итоге система работает так: входящий звук модулируется тета-волной, что позволяет понять контуры слога. Гамма-волны помогают закодировать слог. Во время этого процесса система предлагает возможные варианты звуков и корректирует выбор при необходимости. Повторив эти шаги несколько раз подряд, система получает верный слог. Модель успешно протестировали с помощью 2888 различных слогов в 220 предложениях на английском языке. «С одной стороны, нам удалось соединить два различных теоретических фреймворка в одной компьютерной модели, — пояснила профессор Жиро. — С другой, мы показали, что нейронные колебания, скорее всего, ритмически соответствуют эндогенной функции мозга с сигналами, которые поступают через органы восприятия. Если мы поместим это в теорию предиктивного кодирования, это будет значить, что осцилляции вероятно позволяют мозгу строить верные догадки в нужный момент». Комментарии: |
|