Первый высокопроизводительный самоконтролируемый алгоритм, работающий с речью, зрением и текстом

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Обучение с самоконтролем — когда машины учатся, непосредственно наблюдая за окружающей средой, а не обучаясь с помощью помеченных изображений, текста, аудио и других источников данных — привело ко многим значительным недавним достижениям в области искусственного интеллекта. Но в то время как люди, похоже, учатся одинаково, независимо от того, как они получают информацию — например, используют ли они зрение или звук, — в настоящее время существуют большие различия в том, как алгоритмы обучения с самообучением учатся на изображениях, речи, тексте и других модальностях.

Это несоответствие стало серьезным препятствием для более широкого применения достижений в области самостоятельного обучения. Поскольку мощный алгоритм, предназначенный, скажем, для понимания изображений, не может быть непосредственно применен к другой модальности, такой как текст, трудно продвигать несколько модальностей вперед с одинаковой скоростью.

Вот почему Meta AI разработала и рада анонсировать data2vec, первый высокопроизводительный алгоритм с самоконтролем, который работает для нескольких модальностей. Мы применяем data2vec отдельно к речи, изображениям и тексту, и он превзошел предыдущие лучшие универсальные алгоритмы для компьютерного зрения и речи и является конкурентоспособным в задачах NLP. Это также представляет собой новую парадигму целостного самостоятельного обучения, где новые исследования улучшают несколько методов, а не только один. Он также не полагается на контрастивное обучение или реконструкцию входного примера. В дополнение к ускорению прогресса в области искусственного интеллекта, data2vec приближает нас к созданию машин, которые легко узнают о различных аспектах окружающего мира. Это позволит нам разработать более адаптируемый искусственный интеллект, который, как мы полагаем, сможет выполнять задачи, выходящие за рамки возможностей современных систем.

В рамках этого объявления мы делимся кодом и предварительно обученными моделями на data2vec, чтобы другие члены исследовательского сообщества могли использовать нашу работу.

Как работает data2vec

Большая часть искусственного интеллекта по-прежнему основана на контролируемом обучении, которое работает исключительно с помеченными данными. Но просто невозможно собрать помеченные данные для всех вещей, которые мы хотели бы, чтобы машины делали. Например, хотя исследователи проделали большую работу по созданию крупномасштабных маркированных наборов данных для английской речи и текста, это невозможно сделать буквально для тысяч языков, на которых говорят на планете.

Самоконтроль позволяет компьютерам узнавать о мире, просто наблюдая за ним, а затем выясняя структуру изображений, речи или текста. Наличие машин, которые не нужно явно обучать классификации изображений или пониманию разговорной речи, просто намного более масштабируемо.

Исследования в области самостоятельного обучения сегодня почти всегда сосредоточены на одной конкретной модальности. Таким образом, исследователи, работающие над одним методом, часто используют совершенно иной подход, чем те, кто работает над другим. Что касается текста, исследователи обучают модели заполнять пробелы в предложениях. Речевые модели, однако, должны изучить перечень основных звуков речи, чтобы предсказать пропущенные звуки. В компьютерном зрении модели часто обучаются назначать аналогичные представления цветному изображению коровы и одному и тому же изображению, перевернутому вверх ногами, поэтому они ассоциируются гораздо теснее, чем с несвязанным изображением, таким как изображение утки.

Алгоритмы также предсказывают различные единицы измерения для каждой модальности: пиксели или визуальные маркеры для изображений, слова для текста и выученные списки звуков для речи. Набор пикселей сильно отличается от аудиосигнала или фрагмента текста, и из-за этого разработка алгоритма была привязана к определенной модальности. Это означает, что алгоритмы все еще функционируют по-разному в каждой модальности.

data2vec обучается таким же образом для изображений, речи и текста.

Data2vec упрощает это, обучая модели предсказывать их собственные представления входных данных, независимо от способа. Сосредоточив внимание на этих представлениях — слоях нейронной сети — вместо прогнозирования визуальных маркеров, слов или звуков, один алгоритм может работать с совершенно разными типами входных данных. Это устраняет зависимость от целей, специфичных для конкретной модальности, в задаче обучения. Прямое предсказание представлений не является простым, и для этого потребовалось определить надежную нормализацию функций для задачи, которая была бы надежной в различных условиях.

Наш метод использует сеть учителей для первого вычисления целевых представлений из изображения, фрагмента текста или речевого высказывания. Затем мы маскируем часть входных данных и повторяем процесс с сетью учащихся, которая затем предсказывает скрытые представления учителя. Модель студента должна предсказывать представления полных входных данных, даже если она имеет представление только о некоторой информации. Сеть учителей идентична модели учащихся, но с весами, которые немного устарели.

Мы протестировали этот метод на популярном тесте компьютерного зрения ImageNet, где он показал лучшие результаты, чем существующие методы для популярных размеров моделей. Что касается речи, мы обнаружили, что она работает лучше, чем wav2vec 2.0 или Hubert, два предыдущих алгоритма с самоконтролем Meta AI для речи. Что касается текста, мы протестировали его на популярном наборе тестов GLUE, и он работал так же хорошо, как и Роберта, повторная реализация БЕРТА.

Данные 2 vec для компьютерного зрения: производительность популярного бенчмарка ImageNet для моделей VIT-B по сравнению с другими новейшими методами.

Данные 2 vec для речи: производительность базовых моделей в тесте LibriSpeech с данными, помеченными 10 часами, по сравнению с другими новейшими методами. Более низкая частота ошибок указывает на более высокую производительность.

Data2vec для текста: производительность в тесте понимания естественного языка GLUE для базовых моделей по сравнению с Roberta при переподготовке с исходными настройками BERT. Более высокий балл указывает на лучшую производительность.

К машинам, которые учатся, наблюдая за окружающим миром

В то время как самостоятельное обучение добилось значительного прогресса в области компьютерного зрения, видео и других индивидуальных методов благодаря различным целям обучения, основная идея этого подхода состоит в том, чтобы учиться в более общем плане: ИИ должен уметь учиться выполнять множество различных задач, в том числе совершенно незнакомых. Мы хотим, чтобы машина не только распознавала животных, показанных в ее обучающих данных, но и адаптировалась для распознавания новых существ, если мы скажем ей, как они выглядят. Data2vec демонстрирует, что один и тот же алгоритм с самоконтролем может хорошо работать в разных режимах - и часто лучше, чем лучшие существующие алгоритмы. Это открывает путь для более общего самостоятельного обучения и приближает нас к миру, где искусственный интеллект может использовать видео, статьи и аудиозаписи для изучения сложных предметов, таких как игра в футбол или различные способы выпечки хлеба. Мы также надеемся, что data2vec приблизит нас к миру, где компьютерам требуется очень мало помеченных данных для выполнения задач. Поскольку трудно, а иногда и невозможно собрать аннотированные примеры — например, для обучения моделей распознавания речи для тысяч языков — data2vec является важным шагом на пути к более общему ИИ. Этот проект дополняет исследования по общей архитектуре моделей, и мы надеемся, что в будущем мы сможем устранить необходимость в экстракторах функций, специфичных для модальности, объединив эти два направления работы.

Access the open source code and release pretrained models here and read the paper here.


Источник: ai.facebook.com

Комментарии: