Компьютерную модель научили распознавать речь, предсказывая ее.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Мозг человека производит нейронные осцилляции, которые можно измерить с помощью ЭЭГ. Это электромагнитные волны, которые возникают от когерентной электрической активности сетей нейронов. Их несколько типов, различающихся по частоте колебания — альфа, бета, тета, дельта и гамма. Они связаны с когнитивными функциями, такими как восприятие, память, внимание и так далее.

Однако нейробиологи не знают, как именно они воздействуют на когнитивные функции. Группа ученых под руководством профессора Анне-Лиз Жиро из Университета Женевы в 2015 году показала, что тета-волны и гамма-волны координируют цепочку звуков в слогах. Теперь ученые разработали компьютерную модель нейронной сети, производительность которой в секвенировании живой разговорной речи превосходит автоматические системы распознавания речи.

В этой модели тета-волны (от 4 до 7 Гц) позволяют следовать ритму слогов. Гамма-волны (около 80 Гц) используются для нарезки звукового сигнала на меньшие куски и их кодирования.

Так возникает фонемный профиль, связанный с каждой последовательностью звуков, которую можно сопоставить с библиотекой известных слогов. Одно из преимуществ такой модели в том, что она спонтанно адаптируется к скорости речи.

Для того чтобы придерживаться биологических реалий, профессор Жиро и ее команда использовали теорию предиктивного кодирования. Она утверждает, что мозг функционирует так хорошо потому, что постоянно пытается понять и предсказать, что произойдет дальше, на основе изученных моделей. В случае устной речи он ищет наиболее вероятные объяснения для звуков.

В итоге система работает так: входящий звук модулируется тета-волной, что позволяет понять контуры слога. Гамма-волны помогают закодировать слог. Во время этого процесса система предлагает возможные варианты звуков и корректирует выбор при необходимости. Повторив эти шаги несколько раз подряд, система получает верный слог.

Модель успешно протестировали с помощью 2888 различных слогов в 220 предложениях на английском языке.

«С одной стороны, нам удалось соединить два различных теоретических фреймворка в одной компьютерной модели, — пояснила профессор Жиро. — С другой, мы показали, что нейронные колебания, скорее всего, ритмически соответствуют эндогенной функции мозга с сигналами, которые поступают через органы восприятия. Если мы поместим это в теорию предиктивного кодирования, это будет значить, что осцилляции вероятно позволяют мозгу строить верные догадки в нужный момент».

Комментарии: