Meta обучила нейросеть data2vec работе с речью, изображениями и текстом, чтобы она смогла «понимать мир»

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Исследователи Meta обучили одну модель искусственного интеллекта (ИИ) обрабатывать речь, изображения и текст — они надеются, что подобные «мультимодальные» системы лягут в основу будущих разработок в области дополненной реальности и метавселенной.

Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модель, получившая название data2vec, выполняет задачи разного рода: при голосовом вводе она распознаёт речь; при вводе данных в формате картинки она идентифицирует объекты на ней; а получив на вводе текст, проверяет его на грамматические ошибки и анализирует интонации с эмоциональным фоном. Традиционно ИИ-алгоритмы обучаются на данных одного типа, однако в случае с data2vec было решено работать с тремя форматами. Но с каждым из них нейросеть работает независимо от остальных.

Компания надеется, что в перспективе подобные мультимодальные модели сделают компьютеры более адаптивными — способными совмещать физические и цифровые окружения в едином понятийном измерении. «Люди воспринимают мир через комбинацию зрения, слуха и слов — системы вроде этой однажды станут понимать мир так же, как и мы. Когда-нибудь она будет встроена в очки дополненной реальности или ИИ-ассистент, чтобы, например, помочь человеку приготовить обед, примечая пропущенные ингредиенты, рекомендуя убавить огонь или [выполняя] более сложные задачи», — прокомментировал проект изданию The Register глава Meta Марк Цукерберг (Mark Zuckerberg).

Аппаратная платформа системы data2vec была построена с использованием 16 ускорителей NVIDIA V100 и A100. В качестве исходных данных для обучения ИИ использовались 960 часов голосовых аудиозаписей, несколько миллионов слов из книг и со страниц «Википедии», а также картинки из базы ImageNet-1K. В ходе тестирования при выполнении конкретных заданий data2vec показала себя эффективнее некоторых топовых ИИ-моделей, обученных на данных только одного типа. В перспективе, заявил один из разработчиков проекта, планируется расширить восприятие нейросети данными других типов, таких как запахи, 3D-объекты и видеозаписи.


Источник: 3dnews.ru

Комментарии: