Математический рубеж (FrontierMath) — набор сверхсложных задач для оценки математических способностей нейросетей

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Не так давно (~ два месяца назад) международная группа математиков, включая Теренса Тао, закончила работу над тестовым набором сверхсложных математических задач "Математический рубеж" (FrontierMath). Он предназначен для оценки математических способностей нейросетей.

https://epoch.ai/frontiermath

Задачи охватывают большинство разделов современной математики: от теории чисел и вещественного анализа, до абстрактных вопросов алгебраической геометрии и теории категорий.

Для решения одной задачи понадобится от нескольких часов до нескольких дней — либо вы вообще не сможете ее решить)

Каждая задача имеет один конкретный числовой ответ. Нейросеть должна дать этот ответ, иначе задача считается нерешенной. То, как нейросеть пришла к ответу, в оценке ее способностей не учитывается.

Математический рубеж использует новые, ранее нигде неопубликованные задачи, составленные профессиональными математиками, экспертами в своей области.

Решение нескольких задач открыто:

https://epoch.ai/frontiermath/benchmark-problems

Современные нейросети решают менее 2% задач, что свидетельствует об огромном разрыве между возможностями ИИ и мастерством математического сообщества.

Однако, совсем недавно, нейросеть o3 научилась решатьподбирать ответ к каждой четвертой задаче Математического рубежа.

https://deepnewz.com/ai-modeling/openai-unveils-o3-o3-mini-models-exceeding-human-performance-on-arc-agi-4f05e4f7

:-О

Подробности приведены в препринте.

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. 2024.

https://arxiv.org/abs/2411.04872


Источник: arxiv.org

Комментарии: