Траектория развития LLMs |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-11-20 12:22 13 ноября был представлен ChatGPT 5.1, 17 ноября представлен Grok 4.1, а 18 ноября представили Gemini 3 PRO (на очереди Claude Opus 4.5, но цикл обновления в 2025 завершен, в следующие 4-5 месяцев громких релизов не будет). От OpenAI инновации косметические (чуть быстрее и производительнее, немного эффективнее и стабильнее), но без прорыва (больше на уровне оптимизации внутренних алгоритмов). Grok 4.1 – акцент на эмоциональном интеллекте, творческом функционале, более нативная и человекоподобная подача, минимизация цензуры, уменьшение галлюцинаций примерно в 3 раза, скорость обработки актуальных данных из соцсетей и новостей. Gemini 3 PRO – анонсирована, как прорывная модель (формально в лидерах по всем ключевым бенчмаркам), которая по заявлениям Google: • Лучше понимает контекст – способен улавливать глубину и нюансы, будь то восприятие тонких намёков в творческой идее или анализ накладывающихся друг на друга слоёв сложной проблемы. • Значительный прогресс в сложном мультимодальном понимании (неоднозначные градиенты восприятия в фото и видео), т.е. способен лучше читать эскизы с руки. • Существенный прогресс в агентных режимах и абстрактном понимании. По Gemini 3 после тестов надо сделать более полный обзор. Как развиваются LLMs? 2023 год – активное расширение контекстного окна без акцента на стабильности и точности ответов, первичное внедрение мультимодальности (на первом этапе только картинки и текст), углубление знаний по широкой выборке данных в рамках закона масштабирования, первая итерация тонкой настройки LLMs через отдельные с инструкциями GPT, внедренные OpenAI в ноябре 2023. 2024 год – длинный контекст, как эффективное рабочее пространство, расширение мультимодальности до полноценной поддержки файлов, реалтайм видео, сложных фото и эффективной транскрипции аудио, внедрение полноценных поисковых движков (полный доступ к сети), первое появление рассуждающих моделей в сентябре с релизом o1-preview и полноценным развертыванием в декабре, внедрение памяти LLMs по всей истории чатов для более персонализированных ответов. 2025 год – активное расширение агентных режимов и экспериментальных инструментов/плагинов для точной калибровки, настройки LLMs (инструментальная интеграция), внедрение внешних источников данных (MCP), появление режима «глубокого исследования», чистка моделей от галлюцинаций и работа над стабильностью по всему диапазону контекстного окна, акцент на точности следованию инструкциям, фокус на безопасности модели, акцент на эмоциональном интеллекте и тонкой настройки тональности диалога, повышение управляемости моделей. Таким образом, от размера контекста и количества параметров в 2023 перешли к расширенной мультимодальности и рассуждающим моделям с WEB доступом в 2024 и далее в 2025 внедрение агентных режимов с доступом к внешним источникам с акцентом на стабильность, точность и безопасность. От простого текстового чатбота в 2023 к мультимодальным ИИ помощникам в 2024 и попытка имитации ИИ агентов с расширенной автономностью и глубоким исследованием в 2025. Куда пойдет ИИ индустрия в 2026 и далее (по моему мнению)? Расширение контекста уже невозможно (в августе объяснял почему), все доступные источники данных обработали (модели умнее не станут, а глупее – легко при обучении на синтетических данных), экспансия количества параметров экономически неэффективна и уничтожит экономику LLMs (параметров сильно выше не будет), а мультимодальность довели практически до совершенства, как и сетевые функции. Инфраструктурное развертывание в бизнесе. Попытки глубокой интеграции ИИ в корпоративные, бизнес решения через узкоспециализированные ИИ агенты с тонкой калибровкой параметров под конкретные задачи (часто локальные), работа над стабильностью и точностью, снижение галлюцинаций с одновременным расширением количества доступных внешних источников данных в контуре регуляторных ограничений, цензуры и безопасности. Тренд на гибкость, адаптивность, персонализированность, способности следованию инструкциям и далее попытка развертывания мультиагентных режимов. https://t.me/spydell_finance Источник: t.me Комментарии: |
|