Топовые LLM плохо предсказывают будущие научные открытия |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-30 11:22 Оксфорд, Стэнфорд, Институт Аллена и Sakana AI выложили (https://arxiv.org/pdf/2605.22681) работу, в которой ставится вопрос: способен ли ИИ предвидеть ход научного прогресса. Исследование примыкает к дискуссии об "автономном учёном" на базе ИИ - направлении, которое сейчас волнует индустрию, его развивает в том числе и Sakana AI. Чтобы отделить реальный прогноз от существующих знаний, авторы построили (https://seanwu25.github.io/CUSP-Science/) бенч CUSP. Языковые модели обычно знают уже состоявшиеся открытия из обучающих данных, поэтому при прямом вопросе об известном результате легко дают верный ответ. CUSP это блокирует: для события, скажем, 2025 года модели разрешают опираться только на сведения, доступные до этой даты. Говоря проще, систему возвращают в прошлое и заставляют предсказывать будущее вслепую. В основу теста легли 4760 научных событий за январь 2024 - март 2026 годов из журналов Nature, Science, Cell и подборок заметных работ по ИИ. На этой базе было сформировано (https://huggingface.co/datasets/SeanWu25/CUSP) 17 429 заданий. В прогонах принимали участие GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 и GPT-OSS 20B. Результаты Выбрать правдоподобное техническое направление смогли - на вопросах с выбором ответа GPT-5.4 показала точность 81,9%. Но определить, будет ли конкретное достижение вообще реализовано, модели почти не способны: точность держалась в пределах 45–52%, что близко к подбрасыванию монеты. Сроки все модели называли с запаздыванием: медианная ошибка GPT-5.4 составила 14 месяцев, Claude Sonnet 4.5 - 17, а вот LLaMA 3.3 оказалась самой точной - 4 месяца. В задачах на проектирование решения даже лучший результат (5,04 из 10 у GPT-5.4) не попадал в реально применённый позже технический путь. Рисёрч отмечает деталь: качество прогноза почти не зависело от того, относится событие к периоду до или после среза знаний модели. Это означает, что дело не только в нехватке данных. Доступ к дополнительной информации повышает результаты, но не закрывает разрыв, причём для самых цитируемых работ он был заметнее. [спойлер: До кучи - модели систематически переоценивали уверенность в своих ответах.] Вывод LLM пока выступают скорее ретроспективными толкователями уже известных результатов, чем надёжными предсказателями будущих. Лицензирование: MIT License Страница проекта (https://seanwu25.github.io/CUSP-Science/) Arxiv (https://arxiv.org/pdf/2605.22681) Датасет (https://huggingface.co/datasets/SeanWu25/CUSP) Github (https://github.com/SeanWu25/cusp-scientific-foresight) Телеграм: t.me/ainewsline Источник: github.com Комментарии: |
|