Самые интересные Open Source AI релизы за неделю

2025-01-20 21:06

VideoChat2-Flash (https://huggingface.co/OpenGVLab/VideoChat-Flash-Qwen2_5-2B_res448), мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).

Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.

Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA (https://huggingface.co/ByteDance/Sa2VA-26B) с параметрами 26B.

Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench (https://huggingface.co/datasets/omkarthawakar/VRC-Bench)- это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 (https://t.me/machinelearning_interview/1455)- это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

LLM

- MiniMax-Text-01 (https://t.me/ai_machinelearning_big_data/6530)- новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов?

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B (https://t.me/ai_machinelearning_big_data/6517) - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустилиHelium-1 Preview 2B (https://t.me/ai_machinelearning_big_data/6524) - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B (https://huggingface.co/LatitudeGames/Wayfarer-12B) - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon??

- ReaderLM-v2 (https://huggingface.co/jinaai/ReaderLM-v2) - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B (https://huggingface.co/driaforall/Dria-Agent-a-3B), новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI (https://huggingface.co/unsloth/phi-4) адаптировали Phi-4 (https://huggingface.co/unsloth/phi-4) к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

Vision

- MatchAnything (https://huggingface.co/spaces/LittleFrog/MatchAnything) - это новая универсальная модель для сопоставления изображений.

- FitDit (https://huggingface.co/spaces/BoyuanJiang/FitDiT) - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

Аудио

- OuteTTS-0.3-1B (https://t.me/ai_machinelearning_big_data/6547)- это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

Поиск

- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0 (https://huggingface.co/lightblue/lb-reranker-0.5B-v1.0), которая поддерживает более 95 языков

- cde-small-v2 (https://huggingface.co/jxm/cde-small-v2) - это новая SOTA модель эмбедингов текста небольшого размера.

Источник: huggingface.co



		Самые интересные Open Source AI релизы за неделю
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-01-20 21:06 ИИ проекты VideoChat2-Flash (https://huggingface.co/OpenGVLab/VideoChat-Flash-Qwen2_5-2B_res448), мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen). Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab. Модели представлены в размерах 2B и 7B и разрешении 224 и 448. - BytedanceTalk выпустил модель SA2VA (https://huggingface.co/ByteDance/Sa2VA-26B) с параметрами 26B. Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах. - VRC-Bench (https://huggingface.co/datasets/omkarthawakar/VRC-Bench)- это новый бенчмарк для оценки эффективности мультимодальных LLM. - MiniCPM-o 2.6 (https://t.me/machinelearning_interview/1455)- это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса. LLM - MiniMax-Text-01 (https://t.me/ai_machinelearning_big_data/6530)- новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов? - Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B (https://t.me/ai_machinelearning_big_data/6517) - ризонинг модели, которую можно обучить всего за 450 долларов! - Kyutai labs выпустилиHelium-1 Preview 2B (https://t.me/ai_machinelearning_big_data/6524) - многоязычный LLM для edge девайсов и мобильных устройств. - Wayfarer-12B (https://huggingface.co/LatitudeGames/Wayfarer-12B) - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon?? - ReaderLM-v2 (https://huggingface.co/jinaai/ReaderLM-v2) - это новая модель синтаксического анализа HTML от JinaAI. - Вriaforall выпустила Dria-Agent-a-3B (https://huggingface.co/driaforall/Dria-Agent-a-3B), новую модель генерации кода (для Python), основанную на Qwen2.5. - UnslothAI (https://huggingface.co/unsloth/phi-4) адаптировали Phi-4 (https://huggingface.co/unsloth/phi-4) к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию. Vision - MatchAnything (https://huggingface.co/spaces/LittleFrog/MatchAnything) - это новая универсальная модель для сопоставления изображений. - FitDit (https://huggingface.co/spaces/BoyuanJiang/FitDiT) - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT. Аудио - OuteTTS-0.3-1B (https://t.me/ai_machinelearning_big_data/6547)- это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями. Поиск - Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0 (https://huggingface.co/lightblue/lb-reranker-0.5B-v1.0), которая поддерживает более 95 языков - cde-small-v2 (https://huggingface.co/jxm/cde-small-v2) - это новая SOTA модель эмбедингов текста небольшого размера. Источник: huggingface.co Комментарии:

Самые интересные Open Source AI релизы за неделю

Комментарии: