Топовые LLM плохо предсказывают будущие научные открытия

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2026-05-30 11:22

ИИ проекты

Оксфорд, Стэнфорд, Институт Аллена и Sakana AI выложили (https://arxiv.org/pdf/2605.22681) работу, в которой ставится вопрос: способен ли ИИ предвидеть ход научного прогресса.

Исследование примыкает к дискуссии об "автономном учёном" на базе ИИ - направлении, которое сейчас волнует индустрию, его развивает в том числе и Sakana AI.

Чтобы отделить реальный прогноз от существующих знаний, авторы построили (https://seanwu25.github.io/CUSP-Science/) бенч CUSP.

Языковые модели обычно знают уже состоявшиеся открытия из обучающих данных, поэтому при прямом вопросе об известном результате легко дают верный ответ.

CUSP это блокирует: для события, скажем, 2025 года модели разрешают опираться только на сведения, доступные до этой даты.

Говоря проще, систему возвращают в прошлое и заставляют предсказывать будущее вслепую.

В основу теста легли 4760 научных событий за январь 2024 - март 2026 годов из журналов Nature, Science, Cell и подборок заметных работ по ИИ. На этой базе было сформировано (https://huggingface.co/datasets/SeanWu25/CUSP) 17 429 заданий.

В прогонах принимали участие GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 и GPT-OSS 20B.

Результаты

Выбрать правдоподобное техническое направление смогли - на вопросах с выбором ответа GPT-5.4 показала точность 81,9%.

Но определить, будет ли конкретное достижение вообще реализовано, модели почти не способны: точность держалась в пределах 45–52%, что близко к подбрасыванию монеты.

Сроки все модели называли с запаздыванием: медианная ошибка GPT-5.4 составила 14 месяцев, Claude Sonnet 4.5 - 17, а вот LLaMA 3.3 оказалась самой точной - 4 месяца.

В задачах на проектирование решения даже лучший результат (5,04 из 10 у GPT-5.4) не попадал в реально применённый позже технический путь.

Рисёрч отмечает деталь: качество прогноза почти не зависело от того, относится событие к периоду до или после среза знаний модели.

Это означает, что дело не только в нехватке данных. Доступ к дополнительной информации повышает результаты, но не закрывает разрыв, причём для самых цитируемых работ он был заметнее.

[спойлер: До кучи - модели систематически переоценивали уверенность в своих ответах.]

Вывод

LLM пока выступают скорее ретроспективными толкователями уже известных результатов, чем надёжными предсказателями будущих.

Лицензирование: MIT License

Страница проекта (https://seanwu25.github.io/CUSP-Science/)

Arxiv (https://arxiv.org/pdf/2605.22681)

Датасет (https://huggingface.co/datasets/SeanWu25/CUSP)

Github (https://github.com/SeanWu25/cusp-scientific-foresight)

Телеграм: t.me/ainewsline

Источник: github.com



		Топовые LLM плохо предсказывают будущие научные открытия
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-05-30 11:22 ИИ проекты Оксфорд, Стэнфорд, Институт Аллена и Sakana AI выложили (https://arxiv.org/pdf/2605.22681) работу, в которой ставится вопрос: способен ли ИИ предвидеть ход научного прогресса. Исследование примыкает к дискуссии об "автономном учёном" на базе ИИ - направлении, которое сейчас волнует индустрию, его развивает в том числе и Sakana AI. Чтобы отделить реальный прогноз от существующих знаний, авторы построили (https://seanwu25.github.io/CUSP-Science/) бенч CUSP. Языковые модели обычно знают уже состоявшиеся открытия из обучающих данных, поэтому при прямом вопросе об известном результате легко дают верный ответ. CUSP это блокирует: для события, скажем, 2025 года модели разрешают опираться только на сведения, доступные до этой даты. Говоря проще, систему возвращают в прошлое и заставляют предсказывать будущее вслепую. В основу теста легли 4760 научных событий за январь 2024 - март 2026 годов из журналов Nature, Science, Cell и подборок заметных работ по ИИ. На этой базе было сформировано (https://huggingface.co/datasets/SeanWu25/CUSP) 17 429 заданий. В прогонах принимали участие GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 и GPT-OSS 20B. Результаты Выбрать правдоподобное техническое направление смогли - на вопросах с выбором ответа GPT-5.4 показала точность 81,9%. Но определить, будет ли конкретное достижение вообще реализовано, модели почти не способны: точность держалась в пределах 45–52%, что близко к подбрасыванию монеты. Сроки все модели называли с запаздыванием: медианная ошибка GPT-5.4 составила 14 месяцев, Claude Sonnet 4.5 - 17, а вот LLaMA 3.3 оказалась самой точной - 4 месяца. В задачах на проектирование решения даже лучший результат (5,04 из 10 у GPT-5.4) не попадал в реально применённый позже технический путь. Рисёрч отмечает деталь: качество прогноза почти не зависело от того, относится событие к периоду до или после среза знаний модели. Это означает, что дело не только в нехватке данных. Доступ к дополнительной информации повышает результаты, но не закрывает разрыв, причём для самых цитируемых работ он был заметнее. [спойлер: До кучи - модели систематически переоценивали уверенность в своих ответах.] Вывод LLM пока выступают скорее ретроспективными толкователями уже известных результатов, чем надёжными предсказателями будущих. Лицензирование: MIT License Страница проекта (https://seanwu25.github.io/CUSP-Science/) Arxiv (https://arxiv.org/pdf/2605.22681) Датасет (https://huggingface.co/datasets/SeanWu25/CUSP) Github (https://github.com/SeanWu25/cusp-scientific-foresight) Телеграм: t.me/ainewsline Источник: github.com Комментарии:

Топовые LLM плохо предсказывают будущие научные открытия

Комментарии: