FAIR опубликовала новые инструменты для восприятия и взаимодействия ИИ с миром

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Команда Fundamental AI Research (FAIR) компании Марка Цукерберга представила серию новых разработок: методики и модели, улучшающие компьютерное зрение, 3D-локализацию объектов и совместное обучение языковых агентов. Все модели, техотчеты, датасеты и код этих проектов уже доступны на платформах Hugging Face и GitHub.

Perception Encoder: «Глаза» для ИИ нового поколения

Perception Encoder - новый виток развития в сфере обработки визуальной информации. Модель, обученная с помощью этой методики на масштабных данных, превосходит аналоги в задачах классификации изображений и видео, включая сложные сценарии — распознавание ската, зарывшегося в морское дно, или крошечной птицы на заднем плане снимка. Благодаря интеграции с LLM, Encoder улучшает ответы на визуальные вопросы, описание сцен и понимание пространственных отношений между объектами.

Модель (https://huggingface.co/collections/facebook/perception-encoder-67f977c9a65ca5895a7f6ba1) ?Github (https://github.com/facebookresearch/perception_models)?Датасет (https://ai.meta.com/datasets/pe-video/)?Техотчет (https://ai.meta.com/research/publications/perception-encoder-the-best-visual-embeddings-are-not-at-the-output-of-the-network/)

Perception Language Model: Расширенное понимание задач визуального восприятия.

Для задач, требующих анализа видео и текста, Meta выпустила Perception Language Model (PLM). Ее обучали на 2,5 млн. новых аннотированных видеозаписей — это крупнейший датасет для понимания действий и контекста в динамике. PLM доступна в трёх вариантах (1, 3 и 8 млрд параметров). Дополнительный бонус — PLM-VideoBench, бенчмарк для оценки тонкого понимания сцен, который заполняет пробелы существующих тестов.

Модель (https://huggingface.co/collections/facebook/perception-lm-67f9783f171948c383ee7498) ?GitHub (https://github.com/facebookresearch/perception_models) ?Датасет (https://ai.meta.com/datasets/plm-data/) ?Техотчет (https://ai.meta.com/research/publications/perceptionlm-open-access-data-and-models-for-detailed-visual-understanding/)

Locate 3D: Роботы учатся «слышать» запросы.

Как заставить робот найти красную чашку на столе или вазу возле телевизора? Locate 3D решает эту задачу через анализ 3D-точечных облаков и текстовых подсказок. Модель учитывает пространственные связи и контекст, отличая «вазу у TV» от «вазы на столе». В основе — трехэтапный пайплайн: предобработка данных, кодирование 3D-сцены и декодирование запроса. Для обучения использовали 130 тыс. аннотаций из ARKitScenes и ScanNet, что вдвое увеличило объём доступных данных для локализации объектов.

Модель (https://github.com/facebookresearch/locate-3d) ?Демо (https://locate3d.atmeta.com/) ?Датасет (https://github.com/facebookresearch/locate-3d/tree/main/locate3d_data) ?Техотчет (https://ai.meta.com/research/publications/locate-3d-real-world-object-localization-via-self-supervised-learning-in-3d/)

Dynamic Byte Latent Transformer: Эффективность без токенизации.

Dynamic Byte Latent Transformer - архитектура, которая работает на уровне байтов, а не токенов, что повышает устойчивость к ошибкам, ускоряет обработку и "отменяет" необходимость токенизации для масштабирования. На тесте CUTE модель показывает преимущество в +55 пунктов против традиционных подходов.

Модель (https://huggingface.co/facebook/blt) ?GitHub (https://github.com/facebookresearch/blt) ?Техотчет (https://arxiv.org/abs/2412.09871)

Collaborative Reasoner: ИИ-агенты учатся работать в команде.

Совместное решение задач — следующий этап развития ИИ. Collaborative Reasoner — это фреймворк, где два агента ведут диалог, чтобы прийти к общему решению. Они могут спорить, аргументировать и согласовывать ответы на сложные вопросы. Для обучения используют синтетические диалоги, которые генерирует сама модель. Результаты впечатляют: на некоторых задачах совместная работа даёт прирост эффективности до 29% по сравнению с одиночным агентом.

GitHub (https://github.com/facebookresearch/collaborative-reasoner) ?Техотчет (https://ai.meta.com/research/publications/collaborative-reasoner-self-improving-social-agents-with-synthetic-conversations/)

Статья (https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/)


Источник: ai.meta.com

Комментарии: