Психоистория Азимова как техническое задание: как я построил мультиагентный AI-прогнозатор |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-03-18 11:47 Короче, я прочитал «Основание» Азимова лет в четырнадцать и с тех пор не мог отделаться от одной мысли. Гэри Селдон придумал психоисторию – науку, которая предсказывает поведение больших групп людей статистически, как физик предсказывает поведение газа, не зная ничего про отдельную молекулу. Фантастика, понятно, хоть и годная. Но позавчера я поймал себя на том, что у нас уже есть все кубики. LLM-ы, которые умеют анализировать текст, потоки новостей в реальном времени, байесовская статистика и самое главное – у нас теперь есть вайбкодинг! Это почти, как родная шаурма в Белграде – неожиданно и приятно. Ну и я подумал, а что если попробовать? Не как метафору, а буквально. Взять психоисторию как техзадание и посмотреть, что получится. У меня получился Seldon Vault – сайт, который каждый день генерирует прогнозы о том, что произойдёт в мире, и потом честно считает, сколько раз угадал. Бесплатный, конечно же. Семь аналитиков, скептик и арбитр Архитектура Seldon устроена как аналитическое бюро, а не как один всезнающий оракул. Каждый день система собирает сигналы из десятка открытых источников – RSS-ленты мировых СМИ, Reddit, Telegram, Bluesky, предсказательные рынки (Polymarket, Metaculus), макроэкономика (FRED, Fear & Greed Index), базы конфликтов (ACLED, UCDP), катастрофы (GDACS) и геополитические события (GDELT). Первым их обрабатывает процессор сигналов – дешёвая модель (DeepSeek), которая классифицирует: это немедленная новость или структурный тренд? Важно или шум? Дальше отфильтрованные сигналы уходят параллельно семи аналитикам. Каждый смотрит на одни и те же данные через свою оптику:
Геополитик смотрит на визит Макрона в Пекин и видит дрейф Европы от атлантизма. Экономист смотрит на тот же визит и видит контракты на сжиженный газ. Военный аналитик – изменение переговорных позиций по Тайваню. Одно событие, семь интерпретаций, и ни одна не полная без остальных. Каждый аналитик предлагает прогнозы с вероятностями. Но прежде чем они попадут к арбитру, через них проходит Скептик. Институционализированное сомнение Скептик – мой любимый агент и самая мощная модель из доступных мне - Claude Opus. Его задача проста и неприятна: найти, почему прогноз неправильный. Он получает каждый предложенный прогноз и систематически пытается его разрушить. Проверяет факты через Tavily Search API. Ищет контрпримеры. Оценивает, не опирается ли аналитик на устаревшие данные или логическую ошибку. Каждому прогнозу скептик ставит risk score от 0 до 100. Если риск ниже 50 – автоматический отказ, прогноз не проходит дальше. Оказалось, что институционализированное сомнение работает в любой области. В разведке США этот паттерн существовал ещё со времён Перл-Харбора, когда Шерман Кент в 1949 году основал аналитическое подразделение ЦРУ и сформулировал принцип:
После скептика выжившие прогнозы попадают к Селдону – арбитру. Он синтезирует топ-5 прогнозов, взвешивая мнения аналитиков, тяжесть критики скептика и собственную оценку. Результат – билингвальный прогноз (английский + русский) с вероятностью от 5% до 95%. Почему не 0% и не 100%? Потому что абсолютная уверенность – признак либо бога, либо идиота, и языковая модель не относится ни к одной категории. Прогнозы обновляются, а не умирают Прогнозы тут не одноразовые. Каждые шесть часов система прогоняет повторный цикл: появились новые данные – аналитики пересматривают оценки, скептик заново проверяет, вероятность сдвигается по формуле Байеса:
Вчера эскалация 40%, сегодня стороны отозвали послов – вероятность ползёт вверх. Но не бесконечно: максимальный сдвиг за день ограничен в 15 процентных пунктов, чтобы система не паниковала от каждого заголовка в Reuters. Каскады: как события связываются в цепочки Самое интересное начинается, когда прогнозы перестают быть изолированными точками и собираются в каскадные нарративы. Представьте, что система выдала прогноз «Новые санкции против полупроводникового экспорта в Китай – вероятность 70%». Отдельно – «Задержка строительства TSMC в Аризоне – вероятность 55%». И ещё – «Замедление роста AI-стартапов в Юго-Восточной Азии – вероятность 45%». По отдельности – три разных прогноза. Но Селдон-арбитр видит каузальную цепочку: санкции ? дефицит чипов ? задержки производства ? замедление зависимых индустрий. Он создаёт нарратив – граф связей, где каждое ребро имеет направление, силу и условный сдвиг. Если первое событие в цепочке сбывается, вероятности всех связанных прогнозов автоматически пересчитываются. Сдвиг затухает с каждым «хопом» (коэффициент 0.5) и ограничен тремя уровнями глубины. Без затухания одна сбывшаяся новость на входе могла бы раскачать всю систему до безумия. Азимов, кстати, описал ровно этот эффект в «Основании». Гэри Селдон называл их «точками ветвления» – моменты, когда одно событие каскадно меняет траекторию всей системы. Только у Азимова это была математика вымышленной вселенной, а у меня – граф в PostgreSQL с D3-визуализацией на фронтенде. Brier Score, или как не врать себе Вот тут начинается самое болезненное. В 1950 году метеоролог Гленн Брайер опубликовал в Monthly Weather Review статью, где предложил элементарную формулу для оценки точности вероятностных прогнозов:
Если ты предсказал дождь с вероятностью 80%, и дождь пошёл (исход = 1), твой Brier Score = (0.8 ? 1)? = 0.04. Отлично. Если не пошёл – (0.8 ? 0)? = 0.64. Плохо. Чем ближе к нулю, тем точнее. Seldon считает Brier Score для каждого разрешённого прогноза. И для каждого агента отдельно – за последние 30 дней. Эти данные возвращаются обратно в промпты агентов как обратная связь: «За последний месяц ваши прогнозы в секторе Technology имели средний Brier Score 0.28. Ваши прогнозы с высокой уверенностью (>75%) были точны в 3 из 5 случаев». Это заставляет модели (через промпт, не через файн-тюнинг) калиброваться. Агент, который постоянно завышает вероятности, получает об этом прямой фидбек и начинает быть аккуратнее. Зачем это нужно? Без метрики точности всё остальное – просто красивый текст. А с метрикой появляется неприятная штука: ты видишь, где система врёт. Brier Score 0.25 не звучит сексуально в заголовке, зато честно показывает, стоит ли вообще читать эти прогнозы. Через полгода будет понятно. Где ломается Я бы хотел написать, что система работает безупречно. Но тогда мне нужно будет перечитать собственную статью про галлюцинации LLM и устыдиться. Во-первых, LLM-галлюцинации в прогнозах. Модель может уверенно сослаться на несуществующее событие, и если скептик не поймает эту галлюцинацию через внешний поиск – она просочится в финальный прогноз. Частично это решается архитектурно (скептик с Tavily), но не на 100%. Во-вторых, кластеризация вокруг 50%. LLM-ы, как и люди, не любят рисковать. Когда модель не уверена, она тяготеет к безопасным 45-55%. Формально не ошибка, но бесполезно, прогноз «вероятность 50%» – это вежливый способ сказать «я не знаю». В-третьих, чёрные лебеди. Нассим Талеб в 2007 году написал целую книгу о событиях, которые невозможно предсказать по определению, потому что они не имеют прецедентов. COVID, крах FTX, крах доткомов – ни одна система на основе исторических паттернов не предскажет то, чего никогда не было. Селдон у Азимова тоже не предсказывал Мула. В-четвёртых, качество данных. СМИ, Reddit, Telegram – это не объективная реальность, это уже отфильтрованная картина мира с собственными bias. GDELT великолепен, но он отражает то, что попало в новости, а не то, что происходит. Разведка знает разницу, а наша система – не всегда. Ну и работает это? Честно – не знаю пока. Система запущена вчера, прогнозы генерируются каждый день, Brier Score копится. Через полгода будет достаточно данных, чтобы ответить на этот вопрос. Может оказаться, что семь LLM-агентов предсказывают будущее не лучше подбрасывания монетки. Может оказаться, что скептик отсекает слишком много годных прогнозов. А может оказаться, что ансамбль действительно ловит тренды, которые люди пропускают. Brier Score покажет. А пока – seldonvault.io. Всё бесплатно, API открыт, методология описана. Заходите, смотрите прогнозы, через полгода вместе посчитаем, сколько раз угадали. Я не планирую делать его платным, даже если предсказания будут выполняться на 100% и он сможет предсказать Селдоновские кризисы на 3000 лет вперед. Просто люблю Азимова и мне всегда хотелось сделать нечто подобное. Источник: habr.com Комментарии: |
|