В середине мая был созван математический конклав

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-06-20 11:28

ИИ проекты

В середине мая был созван математический конклав. Тридцать известных математиков с разных частей планеты приехали в Беркли. Каждая задача, которую не мог решить o4-mini, приносила математику, который ее придумал, вознаграждение в размере 7500 долларов.

https: // frontiermath-symposium . epoch . ai / сайт конкурса

https: // arxiv. org / abs / 2411.04872 статья про бэнчмарк frontiermath

На скриншоте пример задачи с сайта конкурса

В течение двух дней математики задавали боту сложные математические задачи. Оказалось, что бот способен ответить на некоторые из самых сложных решаемых задач в мире .

«У меня есть коллеги, которые буквально сказали, что эти модели приближаются к математическому гению», — рассказал Кен Оно, математик из Университета Вирджинии, руководитель турнира.

Рассматриваемый чат-бот работает на основе o4-mini , так называемой модели большого языка рассуждений (LLM). Он был обучен OpenAI делать очень сложные выводы. Аналог Google, Gemini 2.5 Flash , обладает схожими способностями. Как и LLM, которые работали в более ранних версиях ChatGPT, o4-mini учится предсказывать следующее слово в последовательности. Однако по сравнению с этими более ранними LLM, o4-mini и его эквиваленты являются более легкими, более гибкими моделями, которые обучаются на специализированных наборах данных с более сильным подкреплением от людей. Такой подход приводит к чат-боту, способному гораздо глубже погружаться в сложные проблемы математики, чем традиционные LLM .

Чтобы отслеживать прогресс o4-mini, OpenAI ранее поручил Epoch AI, некоммерческой организации, которая проводит сравнительный анализ LLM, придумать 300 математических вопросов, решения которых еще не были опубликованы. Даже традиционные LLM могут правильно ответить на многие сложные математические вопросы. Тем не менее, когда Epoch AI задал нескольким таким моделям эти вопросы, которые были непохожи на те, на которых они обучались, наиболее успешные смогли решить менее 2 процентов , что показало, что этим LLM не хватает способности рассуждать. Но o4-mini оказался совсем другим.

Epoch AI наняла Эллиота Глейзера, недавно получившего докторскую степень по математике, для разработки нового бенчмарка, получившего название FrontierMath , в сентябре 2024 года. Проект собрал новые вопросы по разным уровням сложности, причем первые три уровня охватывали задачи уровня бакалавриата, магистратуры и исследовательского уровня.

К апрелю 2025 года Глейзер обнаружил, что o4-mini может решить около 20 процентов вопросов. Затем он перешел к четвертому уровню: набору вопросов, которые были бы сложными даже для академического математика. Только небольшая группа людей в мире была бы способна разработать такие вопросы, не говоря уже о том, чтобы ответить на них. Математики, которые участвовали, должны были подписать соглашение о неразглашении, требующее от них общаться исключительно через приложение для обмена сообщениями Signal. Другие формы контакта, такие как традиционная электронная почта, потенциально могли быть просканированы LLM и непреднамеренно обучить его, тем самым загрязнив набор данных.

Epoch AI провела очную встречу в субботу, 17 мая, и воскресенье, 18 мая. Там участники должны были завершить последнюю партию вопросов-задач. 30 участников были разделены на группы по шесть человек. В течение двух дней ученые соревновались друг с другом, чтобы придумать задачи, которые они могли решить, но которые сбили бы с толку бота.

За 10 минут бот справлялся с задачами уровня PhD, на которую у человека ушли бы недели. Сначала изучал литературу, потом решал "игрушечные" версии задач для тренировки, а затем на основе придуманных им самим игрушечных задач решал основную.

Из сотен попыток математикам удалось "обмануть" бота лишь 10 раз...

Вердикт экспертов: "Это то, что делал бы очень, очень хороший аспирант — даже больше"

"Вспомните, как в 2020 году все поражались, что модель GPT-3 могла (не всегда и с ошибками) выполнять сложение трехзначных чисел. А теперь представьте, где мы будем через несколько лет …" — Джек Кларк.


Источник: vk.com

Комментарии: