Программный кот: эмоциональное мяуканье поможет создать эмпатичный ИИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-12-09 12:27

ИИ теория

Российские ученые создали технологию, которая позволит ИИ не только передавать эмоции голосом, но и распознавать их по интонации человека. Для этого они проанализировали эмоциональные выкрики людей и выявили их акустические характеристики. Эффективность метода исследователи подтвердили, преобразовав кошачье мяуканье в звуки с разными эмоциональными оттенками, понятные большинству людей. Технологию планируют использовать для обучения искусственного интеллекта, а также для создания методик, помогающих пациентам с аутизмом лучше понимать эмоции и взаимодействовать с окружающими. Кроме того, эксперты отмечают потенциал подхода для усиления эмоционального воздействия в кино.

Мяуканье с эмоциональной окраской

Специалисты Сколтеха и Института высшей нервной деятельности и нейрофизиологии РАН в ходе экспериментов выявили физические параметры звуков, которые характерны для смеха, плача и испуга. Они также обнаружили акустические признаки искренности этих эмоций. Затем, чтобы проверить справедливость своих результатов, ученые с помощью полученных данных придали нейтральному кошачьему мяуканью различный эмоциональный окрас. Большинство людей, принявших участие в исследовании, смогли распознать в звуках животного радость, печаль и страх. Полученные характеристики можно будет использовать, чтобы обучить ИИ выражать голосом эмоции и понимать их по голосу человека, а также для создания технологии, которая поможет людям с аутизмом и шизофренией, неспособным понимать чувства других людей, общаться с окружающими.

— Мы исследовали невербальные звуки плача, смеха и испуг и при помощи сложных атематических методов выявили их специфические физические характеристики. Это показатели громкости, частотного спектра, степень хаотичности и другие. Радостные вокализации характеризовались более высокими фрактальными размерностями, а грустные звуки отличались громкостью и сниженной акустической изменчивостью. Вокализации страха идентифицировались по их минимальному и максимальному уровням громкости и повышенной спектральной плотности мощности в диапазоне 1–2 кГц. Искренность в невербальных звуках коррелировала с нелинейными характеристиками, — сказала ведущий научный сотрудник лаборатории Высшей нервной деятельности человека института РАН Галина Портнова.

Ученые собрали набор видео с естественными ситуациями, в которых люди переживают эти эмоции, и извлекли из него 664 звука. После того как в них были определены отличительные признаки каждого переживания, ученые решили проверить, как они могут влиять на восприятие человека. Для этого они записали набор мяуканий и придали ему специфические характеристики радости, печали и страха.

— Люди склонны «очеловечивать» изображения и звуки. Например, в неодушевленных предметах узнавать лица или в криках животных слышать какие-то чувства. Кошки научились модифицировать свои естественные вокализации так, чтобы они были похожи на человеческие. Поэтому мы решили использовать их в экспериментах, — рассказала специалист.

Ученые прикрепили микрофон к домашней кошке Дусе и за двое суток записали ее мяуканье при взаимодействии с человеком, когда оно было максимально нейтральным и животное ничего не боялось. Затем эти записи были модифицированы при помощи найденных алгоритмов. Так были получены радостные, испуганные и грустные звуки, которые продемонстрировали экспертам.

— 80% хорошо узнавали радостное мяуканье, узнавание грусти и испуга было чуть меньше, но тоже значимым. Так как изначальный звук был нейтральным, то эксперимент подтвердил нашу гипотезу об акустических характеристиках, специфичных для каждой эмоции, — сказала Галина Портнова.

Применение технологии

Так как ученым удалось выделить для каждой эмоции звуковые параметры, которые говорят о ее искренности, то полученные данные можно также использовать в системах оценки правдивости человека в режиме реального времени. На следующем этапе авторы исследования планируют провести серию экспериментов с пациентами с аутизмом, шизофренией и депрессией, чтобы научить их понимать чувства собеседников.

— Наше исследование показывает, что человек воспринимает некие универсальные характеристики звука для распознавания эмоциональной окраски поступающей информации. Более того, эти характеристики присущи звукам в целом, а не только воспринимаемой человеческой речи. Далее мы можем перенести найденные характеристики, например методами генеративного ИИ, на любые другие изначально нейтральные звуки и вызвать нужные эмоции у человека, слушающего запись, — сказал старший преподаватель Центра искусственного интеллекта Сколтеха Максим Шараев.

Такая техника будет очень востребована в клинике и психофизиологических экспериментах, но может также пригодиться и, к примеру, в индустрии развлечений, добавил он.

— Наработки, улучшающие взаимопонимание ИИ и человека, ведут нас к прогрессу. Но не совсем понятно, до какой степени он может быть чувствителен к эмоциям. Это исследование описывает только базовые эмоции, но из них строятся сложные эмоции, а с ними всё не так однозначно. Пока машина не умеет разбираться в таких нюансах, — сказала научный сотрудник Института психологии РАН Ирина Ветрова.

По ее мнению, технология, которая подсказывает чувства окружающих, была бы полезна для некоторых категорий пациентов. Запрос на такие устройства актуален, но важно в данном случае использовать ИИ как помощника, а не полностью полагаться на его оценки.

Как пояснил специалист по коммуникационным системам и кибернетическим эмоциональным системам Артемий Котов, исследования влияния эмоциональной окраски голоса на эффективность коммуникации между человеком и машиной ведутся уже несколько десятилетий. И правильные параметры действительно могут ее облегчить.

— Это нужно и полезно. Эмоции опознаются человеком, вопрос в том, где и как их правильно должен выражать робот. Распознавание машиной чувств человека тоже важно. Но проблема в том, что у людей нужно разделять испытываемые эмоции и выражаемые. Это очень тонкая грань, и объяснить ее компьютеру может быть слишком сложно, — отметил он.

По мнению генерального продюсера кинокомпании RED MOON CINEMA Саида Дашука, найденные параметры звука можно использовать для дополнительной эмоциональной окраски голосов актеров в кино.

— Это вполне реально, так как ИИ хорошо анализирует и обучается на голосовых примерах. Он может выявлять паттерны тех или иных характеристик звука. Теоретически это реально, но нужно проверять на практике. Усиление эмоциональных акцентов в голосе было бы очень интересно создателям кино, чтобы подчеркнуть, например, радость или смех, — сказал эксперт.

По его словам, это можно сравнить с эффектом «25-го кадра», однако последний слишком очевиден и легко распознается. А вот тонкая настройка звука остается незаметной для зрителя и благодаря воздействию на подсознание может оказывать куда более сильный эффект.


Источник: vk.com

Комментарии: