DeepSeek раскатал Vision Mode в чат-боте

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



DeepSeek запустил (https://x.com/PKUCXK/status/2067460570958426452) Vision Mode в веб-версии и мобильном приложении. Режим поддерживает визуальный CoT для сложных задач (геометрические выводы, анализ графиков и прямую конвертацию UI-скринов в HTML).

В основе функции лежит работа Thinking with Visual Primitives (https://github.com/mitkox/Thinking-with-Visual-Primitives), в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях.

Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT.

Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком.

Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет.


Телеграм: t.me/ainewsline

Источник: github.com

Комментарии: