OPENAI СДЕЛАЛА БЕНЧМАРК ДЛЯ ПРОВЕРКИ НАУЧНОГО МЫШЛЕНИЯ ИИ |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-12-25 12:21 OpenAI запустила новый бенчмарк Frontier Science, предназначенный для комплексной оценки научного мышления искусственного интеллекта. Инструмент создан для того, чтобы проверять компетенции ИИ в таких областях, как физика, химия и биология, и выявлять способность моделей справляться с задачами различного уровня сложности. Для разработки стандарта компания привлекла 42 победителей международных олимпиад и 45 действующих ученых, что позволяет сделать тесты максимально приближенными к реальным академическим сценариям. Бенчмарк разделен на два основных направления. Первый трек, называемый «Олимпиада», включает сложные теоретические задачи, которые выходят за рамки стандартного школьного или университетского курса. Второй трек - «Исследования» - ориентирован на задачи уровня PhD, с которыми сталкиваются реальные научные сотрудники в лабораториях и исследовательских центрах. Такой подход позволяет оценивать не только способность моделей воспроизводить известные факты, но и применять знания в новых, сложных ситуациях. Ответы моделей проверяются с помощью верифицированного авто-грейдера на базе GPT-5. В тестировании уже приняли участие ведущие модели 2025 года. Результаты показали, что лидером стал GPT-5.2 в конфигурации x-high, успешно решившая 77% задач из трека «Олимпиада» и 25% задач трека «Исследования». Ближайший конкурент, Gemini 3 Pro, показал практически идентичный результат в теоретическом треке — 76%, но уступил в тестах исследовательского уровня. Эти результаты дают компаниям и исследователям возможность объективно сравнивать производительность различных моделей и понимать их реальные возможности в научной аналитике. OpenAI подчеркивает, что Frontier Science не просто очередной набор тестов, а инструмент, способный выявить сильные и слабые стороны моделей в применении научного мышления на практике. Бенчмарк может помочь при разработке новых ИИ-систем, создании обучающих курсов для моделей и при оценке их применимости для сложных научных исследований. В долгосрочной перспективе такие стандарты позволят ускорить автоматизацию научной работы, включая анализ данных, моделирование экспериментов и проверку гипотез, а также улучшат качество взаимодействия ИИ с профессиональными исследователями. Источник: vk.com Комментарии: |
|