Читать не надо слушать: запускаем распознавание голосовых сообщений

2020-06-09 13:02

Столько мемов о том, как все не любят голосовые! А кто эти 30 миллионов пользователей, которые записывают аудиосообщения? Признавайтесь ? Для сравнения: это почти треть тех, кто активно пользуется ВКонтакте каждый месяц.

Понимаем представителей обеих сторон. Голосовые сообщения любят за скорость — в дороге, например, удобнее говорить, а не писать. Ещё аудио ценят за особый уровень близости: они передают интонации, акценты, эмоции — почти как живой разговор. Но есть и минусы: например, запись не послушаешь во время звонка или встречи, наушники не всегда под рукой, а нужную информацию сложно найти в переписке.

Мирим два лагеря с помощью искусственного интеллекта: наши разработчики создали совершенно новую технологию распознавания голосовых сообщений — вы уже можете её попробовать в приложении VK. Расскажем подробнее, как она работает.

Что умеет новая технология?

Она расшифровывает голосовые сообщения длительностью до 30 секунд. Нажмите на кнопку с буквами рядом с аудио — и увидите текст. Нейросеть даже расставляет знаки препинания!

Более того, голосовые теперь учитываются при поиске: если в аудио есть фраза, которую вы ищете, запись покажется в списке найденного вместе с текстовыми сообщениями.

Как работает распознавание голосовых?

Расскажем в общих чертах о жизни каждого голосового сообщения. После того, как вы его запишете и отправите, аудио попадёт на сервер — там хранится модель, которую мы используем для распознавания. Запись обрабатывается тремя нейросетями и возвращается в переписку в виде текста.

Почему нейросети три? Одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Так вы увидите в расшифровке связный текст.

Как видите, распознавание полностью автоматизировано. У сотрудников ВКонтакте и любых других сторонних лиц нет доступа к вашим личным сообщениям: как голосовым, так и текстовым.

Чем технология ВКонтакте отличается от других?

Мы создали собственную технологию, чтобы учесть все особенности ВКонтакте.

Высокая нагрузка
Каждый день серверы ВКонтакте обрабатывают сотни миллионов голосовых сообщений разной длительности, качества и наполнения. Всё это создаёт огромную нагрузку — и ни одно из существующих решений для речи на русском языке не могло с ней совладать.

Условия общения
С друзьями в чате общаются совсем не так, как с голосовыми помощниками: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений.

Наша нейросеть готова ко всем трудностям. Гул толпы, лай собаки, смех друзей или музыка на фоне не помешают распознать аудио, а модные словечки или вырвавшееся на эмоциях ругательство сохранятся и в тексте.

Как модель обучалась?

Чтобы познакомить модель со сленгом, участники программы VK Testers записывают специально подготовленные фразы. Из них алгоритмы и запоминают новые слова.

Нейросеть, которая отвечает за пунктуацию, обучается на субтитрах фильмов и текстах русской классической литературы. Она проанализировала миллионы строк, чтобы правильно расставить запятые в вашем «Слушай, купи, пожалуйста, огурцы и молоко».

Также тестировщики оценивали каждое расшифрованное сообщение. Мы изучали эту информацию, чтобы понять, хорошо ли нейросети справляются со своей работой. И выяснили, что большинству результат распознавания нравится.

Однако искусственный интеллект в чём-то похож на человека: иногда ошибается, но становится лучше, если его обучать. Этим мы не перестаём заниматься. Так что со временем качество расшифровки будет становиться всё выше.

Почему распознаются только аудио до 30 секунд?

Это 90% от всех голосовых сообщений, которые записывают ВКонтакте. Так что мы начали с самого популярного, а в будущем распознавание станет доступно и для более длинных аудио.

Какие планы?

Функция появится ещё и в версии для компьютера, а расшифровывать можно будет как более длинные, так и пересланные сообщения.

Не хотите слушать голосовое? Не нужно, прочитайте его. Хотите записать? Записывайте, не боясь, что собеседник занят. Распознавание голосовых делает мир добрее, а наше отношение друг к другу теплее. Будьте собой и общайтесь как нравится!

Телеграм: t.me/ainewsline

Источник: vk.com



		Читать не надо слушать: запускаем распознавание голосовых сообщений
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-06-09 13:02 нейросети новости, Творчество ИИ Столько мемов о том, как все не любят голосовые! А кто эти 30 миллионов пользователей, которые записывают аудиосообщения? Признавайтесь ? Для сравнения: это почти треть тех, кто активно пользуется ВКонтакте каждый месяц. Понимаем представителей обеих сторон. Голосовые сообщения любят за скорость — в дороге, например, удобнее говорить, а не писать. Ещё аудио ценят за особый уровень близости: они передают интонации, акценты, эмоции — почти как живой разговор. Но есть и минусы: например, запись не послушаешь во время звонка или встречи, наушники не всегда под рукой, а нужную информацию сложно найти в переписке. Мирим два лагеря с помощью искусственного интеллекта: наши разработчики создали совершенно новую технологию распознавания голосовых сообщений — вы уже можете её попробовать в приложении VK. Расскажем подробнее, как она работает. Что умеет новая технология? Она расшифровывает голосовые сообщения длительностью до 30 секунд. Нажмите на кнопку с буквами рядом с аудио — и увидите текст. Нейросеть даже расставляет знаки препинания! Более того, голосовые теперь учитываются при поиске: если в аудио есть фраза, которую вы ищете, запись покажется в списке найденного вместе с текстовыми сообщениями. Как работает распознавание голосовых? Расскажем в общих чертах о жизни каждого голосового сообщения. После того, как вы его запишете и отправите, аудио попадёт на сервер — там хранится модель, которую мы используем для распознавания. Запись обрабатывается тремя нейросетями и возвращается в переписку в виде текста. Почему нейросети три? Одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Так вы увидите в расшифровке связный текст. Как видите, распознавание полностью автоматизировано. У сотрудников ВКонтакте и любых других сторонних лиц нет доступа к вашим личным сообщениям: как голосовым, так и текстовым. Чем технология ВКонтакте отличается от других? Мы создали собственную технологию, чтобы учесть все особенности ВКонтакте. Высокая нагрузка Каждый день серверы ВКонтакте обрабатывают сотни миллионов голосовых сообщений разной длительности, качества и наполнения. Всё это создаёт огромную нагрузку — и ни одно из существующих решений для речи на русском языке не могло с ней совладать. Условия общения С друзьями в чате общаются совсем не так, как с голосовыми помощниками: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений. Наша нейросеть готова ко всем трудностям. Гул толпы, лай собаки, смех друзей или музыка на фоне не помешают распознать аудио, а модные словечки или вырвавшееся на эмоциях ругательство сохранятся и в тексте. Как модель обучалась? Чтобы познакомить модель со сленгом, участники программы VK Testers записывают специально подготовленные фразы. Из них алгоритмы и запоминают новые слова. Нейросеть, которая отвечает за пунктуацию, обучается на субтитрах фильмов и текстах русской классической литературы. Она проанализировала миллионы строк, чтобы правильно расставить запятые в вашем «Слушай, купи, пожалуйста, огурцы и молоко». Также тестировщики оценивали каждое расшифрованное сообщение. Мы изучали эту информацию, чтобы понять, хорошо ли нейросети справляются со своей работой. И выяснили, что большинству результат распознавания нравится. Однако искусственный интеллект в чём-то похож на человека: иногда ошибается, но становится лучше, если его обучать. Этим мы не перестаём заниматься. Так что со временем качество расшифровки будет становиться всё выше. Почему распознаются только аудио до 30 секунд? Это 90% от всех голосовых сообщений, которые записывают ВКонтакте. Так что мы начали с самого популярного, а в будущем распознавание станет доступно и для более длинных аудио. Какие планы? Функция появится ещё и в версии для компьютера, а расшифровывать можно будет как более длинные, так и пересланные сообщения. Не хотите слушать голосовое? Не нужно, прочитайте его. Хотите записать? Записывайте, не боясь, что собеседник занят. Распознавание голосовых делает мир добрее, а наше отношение друг к другу теплее. Будьте собой и общайтесь как нравится! Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Читать не надо слушать: запускаем распознавание голосовых сообщений

Комментарии: