Meta* будет учить ИИ на сырых видеороликах

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Мы официально дожили до момента, когда весь качественный текст в интернете закончился. Нейросети прочитали вообще всё, и теперь исследователи из Meta* бьют тревогу, ведь датасеты истощаются.

Янн ЛеКун и его команда выпустили философско-технический трактат, в котором сравнили современные LLM с узниками пещеры Платона. Мол, текстовые нейросети видят лишь словесные тени реального мира, но понятия не имеют, как выглядит сам мир. И чтобы алгоритмы поумнели по-настоящему, их нужно кормить не книгами, а сырыми, неразмеченными видеороликами.

Инженеры собрали модель с нуля, смешав в одном котле тексты, картинки и видео с действиями. ИИ оказался на удивление всеядным. Раньше считалось, что зрение и язык внутри нейросети конкурируют, и для них нужны разные мозговые центры (энкодеры). Но Meta* доказала, что всё можно засунуть в одну архитектуру (RAE на базе SigLIP 2). Самое интересное, что просмотр гигабайтов сырого видео не только не отупил языковые навыки модели, но и парадоксальным образом улучшил генерацию текста.

Но и это не всё. Модель научилась предсказывать физику. Если ей дать картинку и текстовую команду в духе "Выйди из тени", она сгенерирует следующий кадр, где объект реально выходит на свет, хотя таких команд в обучающей выборке вообще не было.

*Признана экстремистской в РФ


Источник: vk.com

Комментарии: