Машины учат слова как люди, по картинкам

2016-12-20 15:33

Системы распознавания речи, подобные тем, что преобразуют произносимые слова в текст на смартфонах, как правило, являются результатом машинного обучения. Компьютеры просматривают тысячи или даже миллионы аудиофайлов и их транскрипцию, чтобы узнать, какие акустические характеристики соответствуют написанным словам.

Но расшифровка записей является дорогостоящей, трудоемкой работой, которая используется для ограниченного ряда языков.

На прошедшей недавно конференции по «Системам обработки нейронной информации» исследователи из Лаборатории искусственного интеллекта и информатики (CSAIL) Массачусетского технологического института (МIТ) представили новый подход к обучению систем распознавания голоса, который не зависит от транскрипции. Вместо этого их система анализирует соответствие между изображениями и устными описаниями этих изображений, собранными в большую коллекцию аудиозаписей. Система узнает, какие акустические особенности записи коррелируют с определенными характеристиками изображения.

«Цель данной работы заключается в попытке учить машину языку способом, который больше нравится людям, - говорит Джим Гласс, старший научный сотрудник CSAIL и соавтор доклада с описанием новой системы. - Современные методы обучения систем распознавания речи очень контролируемые».

Больших успехов удалось добиться в системе Google Siri, но она требует дорогостоящего обучения. Поэтому она обучена распознать лишь основные языки. В мире есть 7000 языков, и, вероятно, меньше 2 процентов из них поддерживаются системами распознавания речи. Новый подход специалистов МIТ, который они применяют на протяжении нескольких лет, использует менее контролируемый способ.

Как сообщается, новая система не соотносит записанную речь с письменным текстом, вместо этого она соотносит речь с группами тематически связанных изображений.

Например, если высказывание связано с определенным классом изображений, а изображения имеют связанный с ними текст терминов, тогда, вероятно, можно найти транскрипцию произношения без вмешательства человека. Аналогично класс изображений с соответствующим текстом терминов в разных языках может обеспечить способ автоматического перевода.

И, наоборот, текстовые термины, связанные с группами подобных изображений, таких как гроза и облака, позволяют сделать вывод об их значении. Благодаря тому, что система в каком-то смысле усваивает значения слов, связанные с ними образы, а не только звуки, она имеет более широкий спектр возможностей для применения, чем стандартные системы распознавания речи.

Для проверки своей системы исследователи использовали базу данных из 1000 изображений, каждое из которых имело запись в свободной форме связанного с ним словесного описания.

Телеграм: t.me/ainewsline

Источник: www.robogeek.ru



		Машины учат слова как люди, по картинкам
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2016-12-20 15:33 теория распознавания образов Системы распознавания речи, подобные тем, что преобразуют произносимые слова в текст на смартфонах, как правило, являются результатом машинного обучения. Компьютеры просматривают тысячи или даже миллионы аудиофайлов и их транскрипцию, чтобы узнать, какие акустические характеристики соответствуют написанным словам. Но расшифровка записей является дорогостоящей, трудоемкой работой, которая используется для ограниченного ряда языков. На прошедшей недавно конференции по «Системам обработки нейронной информации» исследователи из Лаборатории искусственного интеллекта и информатики (CSAIL) Массачусетского технологического института (МIТ) представили новый подход к обучению систем распознавания голоса, который не зависит от транскрипции. Вместо этого их система анализирует соответствие между изображениями и устными описаниями этих изображений, собранными в большую коллекцию аудиозаписей. Система узнает, какие акустические особенности записи коррелируют с определенными характеристиками изображения. «Цель данной работы заключается в попытке учить машину языку способом, который больше нравится людям, - говорит Джим Гласс, старший научный сотрудник CSAIL и соавтор доклада с описанием новой системы. - Современные методы обучения систем распознавания речи очень контролируемые». Больших успехов удалось добиться в системе Google Siri, но она требует дорогостоящего обучения. Поэтому она обучена распознать лишь основные языки. В мире есть 7000 языков, и, вероятно, меньше 2 процентов из них поддерживаются системами распознавания речи. Новый подход специалистов МIТ, который они применяют на протяжении нескольких лет, использует менее контролируемый способ. Как сообщается, новая система не соотносит записанную речь с письменным текстом, вместо этого она соотносит речь с группами тематически связанных изображений. Например, если высказывание связано с определенным классом изображений, а изображения имеют связанный с ними текст терминов, тогда, вероятно, можно найти транскрипцию произношения без вмешательства человека. Аналогично класс изображений с соответствующим текстом терминов в разных языках может обеспечить способ автоматического перевода. И, наоборот, текстовые термины, связанные с группами подобных изображений, таких как гроза и облака, позволяют сделать вывод об их значении. Благодаря тому, что система в каком-то смысле усваивает значения слов, связанные с ними образы, а не только звуки, она имеет более широкий спектр возможностей для применения, чем стандартные системы распознавания речи. Для проверки своей системы исследователи использовали базу данных из 1000 изображений, каждое из которых имело запись в свободной форме связанного с ним словесного описания. Телеграм: t.me/ainewsline Источник: www.robogeek.ru Комментарии:

Машины учат слова как люди, по картинкам

Комментарии: