Alibaba представила Qwen3-VL-2B и Qwen3-VL-32B

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-10-22 12:02

ИИ проекты

Qwen3-VL-32B превосходи GPT-5 mini и Claude 4 Sonnet* в задачах STEM, визуальных вопросах (VQA), OCR, анализе видео и агентных сценариях.

При этом у модели всего 32 млрд параметров и она сопоставима, а на некоторых бенчмарках даже превосходит модели на 235 млрд параметров (лучше всего показывает себя на *OSWorld*).

Попробовать (https://chat.qwen.ai/?models=qwen3-vl-32b) / HF (https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe)

Google выкатили обновление для AI Studio

Значительно прокачали возможности студии по генерации кода. Сгенерированный проекты можно просматривать или дорабатывать прямо в браузере и деплоить. Также добавили прикольный режим «I’m Feeling Lucky», который генерирует случайную идею для вайбкодинга.

aistudio (http://aistudio.google.com/apps)

Умный дизайн DeepSeek OCR

На первый взгляд кажется просто моделью для распознавания текста. Но на деле - это совершенно новый способ того, как ИИ может хранить и обрабатывать информацию.

Обычно модели работают с текстовыми токенами - каждый кусочек слова превращается в отдельный токен, и при длинных документах их число растёт квадратично, делая работу медленной и дорогой. DeepSeek решает эту проблему иначе: она превращает длинный текст в изображение, кодирует его в набор компактных визуальных токенов и затем восстанавливает текст обратно.

Эксперименты показали: даже при 9–10-кратном сжатии точность OCR остаётся около 97%, а при 20-кратном - около 60%. Это доказывает, что плотные визуальные представления способны нести ту же информацию куда эффективнее, чем обычные текстовые токены.

Ключевая инновация DeepSeek- новый энкодер DeepEncoder, который умеет обрабатывать страницы высокого разрешения без переполнения памяти. Он делает это в три шага: сначала применяет локальное внимание для мелких деталей, затем 16? свёрточное сжатие, а потом глобальное внимание для понимания всей структуры документа. Такая последовательная архитектура сохраняет точность, но радикально снижает число токенов и объём активаций.

Авторы также предлагают механизм «забывания»: старый контекст можно постепенно уменьшать в разрешении, чтобы свежая информация оставалась чёткой, а старая занимала меньше места. DeepSeek - как всегда умницы.

DeepSeek-OCR (https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf)

Goldman Sachs: экономика США растёт без новых рабочих мест

США входят в фазу "`jobless growth`"- производительность растёт благодаря ИИ, но найм почти остановился.

Goldman отмечает: компании делают больше с теми же людьми, а реальный рост занятости вне здравоохранения стал отрицательным. Джером Пауэлл описал рынок как “очень мало найма, мало увольнений”, а выпускники всё чаще не могут найти первую работу.

По данным Challenger, планы по найму - на минимуме с 2009 года. Рост есть, рабочих мест - всё меньше.

futurism (http://futurism.com/artificial-intelligence/goldman-sachs-genz-automation)

Claude Desktop теперь доступен для всех

Anthropic объявила о публичном релизе Claude Desktop - приложения для Mac и Windows.

На Mac теперь можно делать скриншоты, кликать по окнам, чтобы поделиться контекстом с Claude, и управлять агентом голосом.

Скачать для Mac и Windows (http://claude.com/download)


Источник: claude.com

Комментарии: