NVIDIA представила нейросеть NVLM 1.0, которая понимает мемы

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-09-19 08:30

ИИ проекты

Компания NVIDIA анонсировала собственную мультимодальную большую языковую модель (LLM) с незамысловатым названием NVLM 1.0 (NVIDIA Vision Language Model). В ходе первых тестов она хорошо справилась с визуальными задачами, а также показала своё понимание мемов и рукописного почерка, обогнав даже GPT-4o в одном из испытаний.

NVIDIA NVLM 1.0

Испытания в бенчмарке OCRBench подтвердили продвинутые возможности NVLM 1.0 по считыванию текста с картинки — в этой дисциплине нейросеть NVIDIA обошла GPT-4o. Кроме того, она хорошо показала себя в математических задачах, опередив Google Gemini и уступив всего 3 пункта Claude 3.5. Компания также подчеркнула способность нейросети выступать в роли «пояснительной бригады», рассказывая смысл мемов.

Результаты тестирования различных LLM, включая собственную, компания опубликовала в виде сводной таблицы.

NVIDIA NVLM 1.0

Всего NVIDIA показала три модели со схожей архитектурой, но обладают разными особенностями. В частности, NVLM-D использует для картинок предобученный энкодер, который соединён с обычным двухслойным перцептроном. В свою очередь, NVLM-Х для обработки токенов изображения полагается на механизм ross-attention. Первая более экономна по части количества параметров, а NVLM-X расходует больше ресурсов GPU, но лидирует в обработке картинок в высоком разрешении. Модель NVLM-H стала чем-то средним между ними.

NVIDIA NVLM 1.0

Подробнее узнать о NVLM 1.0 (статья на английском языке) можно по этой ссылке, а ознакомиться с кодом — на Github.

Источник: nvlm-project.github.io


Источник: 4pda.to

Комментарии: