DeepSeek раскатал Vision Mode в чат-боте |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-06-22 11:25 DeepSeek запустил (https://x.com/PKUCXK/status/2067460570958426452) Vision Mode в веб-версии и мобильном приложении. Режим поддерживает визуальный CoT для сложных задач (геометрические выводы, анализ графиков и прямую конвертацию UI-скринов в HTML). В основе функции лежит работа Thinking with Visual Primitives (https://github.com/mitkox/Thinking-with-Visual-Primitives), в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях. Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT. Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком. Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет. Телеграм: t.me/ainewsline Источник: github.com Комментарии: |
|