Активность мозга при прослушивании цифр синтезировали в речь

2019-02-03 18:44

Американским ученым удалось обучить алгоритм воссоздавать речь из мозговой активности человека при ее прослушивании. Для этого они использовали активность аудиторной коры, полученной с помощью электродов, вживленных в мозг пациентов с эпилепсией, при прослушивании отдельных цифр, а затем синтезировали на ее основе короткие фразы. Получившаяся речь оказалась разборчивой в 75 процентах случаев. Статья с исследованием опубликована в Scientific Reports.

Современные нейрокомпьютерные интерфейсы помогают восстанавливать потерянную связь между мозгом и другими органами человеческого тела: например, в результате инсульта конечности человека могут быть парализованы, но считывание активности мозга человека может помочь ему пользоваться планшетом. Также подобные интерфейсы разрабатываются для частичного восстановления зрения.

Создание нейрокомпьютерных интерфейсов, которые бы могли воссоздавать из мозговой активности речь, также важно, так как может позволить общаться с людьми с так называемым «синдромом запертого человека», при котором тело оказывается полностью парализованным. Уже существующие технологии, которые позволяют синтезировать речь из активности мозга, не очень эффективны, так как получившийся звук остается неразборчивым.

В новой работе ученые из Колумбийского университета (Нью-Йорк) под руководством Хассана Акбари (Hassan Akbari) решили использовать активность мозга, полученную при прослушивании речи, для ее дальнейшего синтеза в произнесенный текст. В их исследовании приняли участие пять пациентов с эпилепсией, которых готовили к операции: для мониторинга приступов в их головной мозг вживили электроды. Активность их головного мозга, таким образом, ученые записывали с помощью инвазивной электрокортикографии. У двух пациентов электроды были вживлены в верхнюю височную извилину, а у остальных трех — в область поперечной височной извилины (извилины Хершеля). И тот, и другой участок головного мозга участвуют в процессе распознавания речи.

Во время эксперимента участники в течение 30 минут слушали короткие рассказы. Полученные записи мозговой активности затем разделили на куски по 300 миллисекунд и соотнесли из с теми звуками, которые слышал каждый участник в момент активности. Эти данные использовали для обучения четырех моделей, основанных на простой нейросети с линейной регрессией и глубокой нейросети. Модели были основаны либо на воссоздании простой спектрограммы звука с последующим синтезом речи, либо на вокодере, который для синтеза речи, помимо спектрограммы, также использует несколько дополнительных параметров, включая временные и пространственные характеристики голоса говорящего.

Спектрограммы речи (сверху — оригинал), синтезированные из мозговой активности с помощью каждого метода. Слева — неозвученные и озвученные частоты речи из спектрограмм

Hassan Akbari et al. / Scientific Reports, 2019

Для тестирования полученных моделей ученые затем использовали активность мозга, которую получили, когда участники прослушивали набор из прослушанных цифр от 0 до 10. Самой эффективной оказалась модель, основанная на глубокой нейросети с вокодером: получившиеся записи синтезированного звука дали послушать добровольцам, которые посчитали реконструированные звуки не только самыми разборчивыми (им удалось правильно распознать 75 процентов всех произнесенных цифр), но и также самыми качественными; также им удалось правильно распознать пол говорящего в 80 процентах случаев.

Ученые также уточнили, что эффективность полученных моделей возрастала с увеличением количества использованных для получения мозговой активности электродов и длительности аудио в тестовой выборке.

Результаты опроса добровольцев: распознается ли цифра, качество речи и пол говорящего

Hassan Akbari et al. / Scientific Reports, 2019

Активность мозга при прослушивании и производстве речи очень похожа: исследования показывают, что при прослушивании речи, сказанной кем-то, и при «воображаемом» прослушивании (то есть прослушивании собственных мыслей) активны одни и те же участки мозга. Созданная модель, таким образом, может быть полезна не только для реконструкции сказанного из услышанного, но и для синтеза речи из того, что человек думает. Это, в свою очередь, и поможет людям, утратившим способность воспроизводить речь, «говорить». Авторы работы уточняют, что разработанный ими алгоритм работает только для участников эксперимента, причем для каждого — индивидуально; к тому же для правильной работы такого алгоритма пришлось использовать много данных мозговой активности, получить которые не так просто, учитывая инвазивность использованного метода.

В прошлом году японские исследователи обучили нейросеть похожей задаче: их алгоритм умеет воссоздавать изображения из мозговой активности человека, который на них смотрит.

Елизавета Ивтушок

Источник: nplus1.ru



		Активность мозга при прослушивании цифр синтезировали в речь
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-02-03 18:44 работа головного мозга Американским ученым удалось обучить алгоритм воссоздавать речь из мозговой активности человека при ее прослушивании. Для этого они использовали активность аудиторной коры, полученной с помощью электродов, вживленных в мозг пациентов с эпилепсией, при прослушивании отдельных цифр, а затем синтезировали на ее основе короткие фразы. Получившаяся речь оказалась разборчивой в 75 процентах случаев. Статья с исследованием опубликована в Scientific Reports. Современные нейрокомпьютерные интерфейсы помогают восстанавливать потерянную связь между мозгом и другими органами человеческого тела: например, в результате инсульта конечности человека могут быть парализованы, но считывание активности мозга человека может помочь ему пользоваться планшетом. Также подобные интерфейсы разрабатываются для частичного восстановления зрения. Создание нейрокомпьютерных интерфейсов, которые бы могли воссоздавать из мозговой активности речь, также важно, так как может позволить общаться с людьми с так называемым «синдромом запертого человека», при котором тело оказывается полностью парализованным. Уже существующие технологии, которые позволяют синтезировать речь из активности мозга, не очень эффективны, так как получившийся звук остается неразборчивым. В новой работе ученые из Колумбийского университета (Нью-Йорк) под руководством Хассана Акбари (Hassan Akbari) решили использовать активность мозга, полученную при прослушивании речи, для ее дальнейшего синтеза в произнесенный текст. В их исследовании приняли участие пять пациентов с эпилепсией, которых готовили к операции: для мониторинга приступов в их головной мозг вживили электроды. Активность их головного мозга, таким образом, ученые записывали с помощью инвазивной электрокортикографии. У двух пациентов электроды были вживлены в верхнюю височную извилину, а у остальных трех — в область поперечной височной извилины (извилины Хершеля). И тот, и другой участок головного мозга участвуют в процессе распознавания речи. Во время эксперимента участники в течение 30 минут слушали короткие рассказы. Полученные записи мозговой активности затем разделили на куски по 300 миллисекунд и соотнесли из с теми звуками, которые слышал каждый участник в момент активности. Эти данные использовали для обучения четырех моделей, основанных на простой нейросети с линейной регрессией и глубокой нейросети. Модели были основаны либо на воссоздании простой спектрограммы звука с последующим синтезом речи, либо на вокодере, который для синтеза речи, помимо спектрограммы, также использует несколько дополнительных параметров, включая временные и пространственные характеристики голоса говорящего. Спектрограммы речи (сверху — оригинал), синтезированные из мозговой активности с помощью каждого метода. Слева — неозвученные и озвученные частоты речи из спектрограмм Hassan Akbari et al. / Scientific Reports, 2019 Для тестирования полученных моделей ученые затем использовали активность мозга, которую получили, когда участники прослушивали набор из прослушанных цифр от 0 до 10. Самой эффективной оказалась модель, основанная на глубокой нейросети с вокодером: получившиеся записи синтезированного звука дали послушать добровольцам, которые посчитали реконструированные звуки не только самыми разборчивыми (им удалось правильно распознать 75 процентов всех произнесенных цифр), но и также самыми качественными; также им удалось правильно распознать пол говорящего в 80 процентах случаев. Ученые также уточнили, что эффективность полученных моделей возрастала с увеличением количества использованных для получения мозговой активности электродов и длительности аудио в тестовой выборке. Результаты опроса добровольцев: распознается ли цифра, качество речи и пол говорящего Hassan Akbari et al. / Scientific Reports, 2019 Активность мозга при прослушивании и производстве речи очень похожа: исследования показывают, что при прослушивании речи, сказанной кем-то, и при «воображаемом» прослушивании (то есть прослушивании собственных мыслей) активны одни и те же участки мозга. Созданная модель, таким образом, может быть полезна не только для реконструкции сказанного из услышанного, но и для синтеза речи из того, что человек думает. Это, в свою очередь, и поможет людям, утратившим способность воспроизводить речь, «говорить». Авторы работы уточняют, что разработанный ими алгоритм работает только для участников эксперимента, причем для каждого — индивидуально; к тому же для правильной работы такого алгоритма пришлось использовать много данных мозговой активности, получить которые не так просто, учитывая инвазивность использованного метода. В прошлом году японские исследователи обучили нейросеть похожей задаче: их алгоритм умеет воссоздавать изображения из мозговой активности человека, который на них смотрит. Елизавета Ивтушок Источник: nplus1.ru Комментарии:

Активность мозга при прослушивании цифр синтезировали в речь

Комментарии: