OPENAI СДЕЛАЛА БЕНЧМАРК ДЛЯ ПРОВЕРКИ НАУЧНОГО МЫШЛЕНИЯ ИИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-12-25 12:21

OpenAI запустила новый бенчмарк Frontier Science, предназначенный для комплексной оценки научного мышления искусственного интеллекта. Инструмент создан для того, чтобы проверять компетенции ИИ в таких областях, как физика, химия и биология, и выявлять способность моделей справляться с задачами различного уровня сложности. Для разработки стандарта компания привлекла 42 победителей международных олимпиад и 45 действующих ученых, что позволяет сделать тесты максимально приближенными к реальным академическим сценариям.

Бенчмарк разделен на два основных направления. Первый трек, называемый «Олимпиада», включает сложные теоретические задачи, которые выходят за рамки стандартного школьного или университетского курса. Второй трек - «Исследования» - ориентирован на задачи уровня PhD, с которыми сталкиваются реальные научные сотрудники в лабораториях и исследовательских центрах. Такой подход позволяет оценивать не только способность моделей воспроизводить известные факты, но и применять знания в новых, сложных ситуациях.

Ответы моделей проверяются с помощью верифицированного авто-грейдера на базе GPT-5. В тестировании уже приняли участие ведущие модели 2025 года. Результаты показали, что лидером стал GPT-5.2 в конфигурации x-high, успешно решившая 77% задач из трека «Олимпиада» и 25% задач трека «Исследования». Ближайший конкурент, Gemini 3 Pro, показал практически идентичный результат в теоретическом треке — 76%, но уступил в тестах исследовательского уровня. Эти результаты дают компаниям и исследователям возможность объективно сравнивать производительность различных моделей и понимать их реальные возможности в научной аналитике.

OpenAI подчеркивает, что Frontier Science не просто очередной набор тестов, а инструмент, способный выявить сильные и слабые стороны моделей в применении научного мышления на практике. Бенчмарк может помочь при разработке новых ИИ-систем, создании обучающих курсов для моделей и при оценке их применимости для сложных научных исследований. В долгосрочной перспективе такие стандарты позволят ускорить автоматизацию научной работы, включая анализ данных, моделирование экспериментов и проверку гипотез, а также улучшат качество взаимодействия ИИ с профессиональными исследователями.


Источник: vk.com

Комментарии: