Для тех, кто ищет опенсорсную альтернативу мультимодальным возможностям GPT-4o, а именно AI-зрению, есть хорошие новости. Первая открытая модель такого типа доступна на HuggingFace: это Llama 3.2.
Точнее, это коллекция моделей, которая включает две обычных LLM для генерации текста - 1B и 3B, а также версии 11B и 90B, которые способны работ