Llama 3.2: Первая мультимодальная ИИ модель с открытыми весами

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-10-12 12:01

ИИ проекты

Для тех, кто ищет опенсорсную альтернативу мультимодальным возможностям GPT-4o, а именно AI-зрению, есть хорошие новости. Первая открытая модель такого типа доступна на HuggingFace: это Llama 3.2.

Точнее, это коллекция моделей, которая включает две обычных LLM для генерации текста - 1B и 3B, а также версии 11B и 90B, которые способны работать с изображениями. Эти модели способны решать разнообразные задачи, связанные с визуальным вводом - анализ изображений, распознавание определенных визуальных паттернов. Как и предыдущие модели Llama, версии 11B и 90B можно запускать в облаке immers.cloud для инференса и файнтюнинга, используя GPU с достаточным объемом видеопамяти.

1B и 3B версии позволяют использовать возможности ИИ на менее мощном железе, так как эти модели очень легковесные, но в то же время конкурируют по качеству с Gemma 2 и Phi-3.5, судя по бенчмаркам.


Источник: vk.com

Комментарии: