Самые интересные Open Source AI релизы за неделю

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-01-20 21:06

ИИ проекты

VideoChat2-Flash (https://huggingface.co/OpenGVLab/VideoChat-Flash-Qwen2_5-2B_res448), мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).

Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.

Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA (https://huggingface.co/ByteDance/Sa2VA-26B) с параметрами 26B.

Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench (https://huggingface.co/datasets/omkarthawakar/VRC-Bench)- это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 (https://t.me/machinelearning_interview/1455)- это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

LLM

- MiniMax-Text-01 (https://t.me/ai_machinelearning_big_data/6530)- новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов?

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B (https://t.me/ai_machinelearning_big_data/6517) - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустилиHelium-1 Preview 2B (https://t.me/ai_machinelearning_big_data/6524) - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B (https://huggingface.co/LatitudeGames/Wayfarer-12B) - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon??

- ReaderLM-v2 (https://huggingface.co/jinaai/ReaderLM-v2) - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B (https://huggingface.co/driaforall/Dria-Agent-a-3B), новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI (https://huggingface.co/unsloth/phi-4) адаптировали Phi-4 (https://huggingface.co/unsloth/phi-4) к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

Vision

- MatchAnything (https://huggingface.co/spaces/LittleFrog/MatchAnything) - это новая универсальная модель для сопоставления изображений.

- FitDit (https://huggingface.co/spaces/BoyuanJiang/FitDiT) - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

Аудио

- OuteTTS-0.3-1B (https://t.me/ai_machinelearning_big_data/6547)- это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

Поиск

- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0 (https://huggingface.co/lightblue/lb-reranker-0.5B-v1.0), которая поддерживает более 95 языков

- cde-small-v2 (https://huggingface.co/jxm/cde-small-v2) - это новая SOTA модель эмбедингов текста небольшого размера.


Источник: huggingface.co

Комментарии: