Самый сложный тест для ИИ, самые неожиданные результаты

2026-03-17 19:09

Если вы помните книгу про Электроника, то также можете помнить оттуда тест Тьюринга, переименованный ради художественных допущений. И того, как там машина была слишком очевидна по сравнению с человеком, пусть и шутящим про то, сколько выстрелов в кино он сосчитал.

Сейчас почти все ИИ смогут пройти тест Тьюринга и это проблема - учёные заметили, что для ИИ, по сути своей, уже нет такого же разрывательно сложного теста, как Юкари на фантазме (возвращение в 2024ый год и ассоциации с Тохо?). Поэтому Техасские исследователи придумали новый тест.

Тысяча исследователей (судя по упомянутому списку, действительно, сколько Редактор раньше не видел - прим. Редактора) со всего мира, разработала новый тип теста, сильнее чем MMLU - Massive Multitask Language Understanding (в современном мире почему-то IT-определения не переводятся, ни эталон производительности (бенчмарк), ни данный тест Большой Языковой Модели).

HLE - Humanity's Last Exam (aka "Последний Экзамен Человечества") стал результатом. Тест из 2500 вопросов, охватывающий математику, гуманитарные науки, естественные науки, древние языки и широкий спектр узкоспециализированных академических областей.

Завершён (по списку вопросов) он был ещё в начале апреля 2025го и после активно проверялся на нейросетях. Вопросы также были составлены таким образом, чтобы иметь один чёткий и проверяемый ответ (список вопросов редактор не нашёл, но при этом был вопрос про перевод древних пальмирских надписей, понимание произношения библейского иврита или знания анатомии птиц в мельчайших подробностях).

Ну и вопросы так звучали, чтобы ответ нельзя было ни загуглить, ни спросить у Акю. Причём, если на тестах модели отвечали правильно на вопрос, он... исключался из итогового экзамена.

- Когда системы ИИ начинают показывать чрезвычайно хорошие результаты на тестах, проводимых людьми, есть соблазн подумать, что они приближаются к уровню понимания человека, - сказал Тунг Нгуен, тот, кто доработал многие вопросы (73 штуки) для экзамена. - Но HLE напоминает нам, что интеллект - это не только распознавание образов, но и глубина, и контекст, и специализированные знания.

Суть теста была для того, чтобы понять, где ИИ ещё отстаёт от понимания человека. Первые проверки подтвердили эффективность HLE. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2,7%, а Claude 3.5 Sonnet - 4,1%. Модель o1 от OpenAI - 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли точности от 40% до 50%. Один раз, летом 2025го, затесался на вершине даже Грок.

Нгуен отмечает, что точные инструменты изучения ИИ в первую очередь нужны для разработчиков, чтобы понять границы знаний и возможностей языковых моделей. По мнению исследовательской группы, высокие баллы ИИ в тестах, созданных для людей, не обязательно указывают на настоящий интеллект. Эти показатели измеряют, лишь насколько хорошо ИИ может задачи, придуманные для обучения людей, но не отражает более глубокое их понимание.

Последний Экзамен Человечества создан как эталон для будущих систем ИИ. Для достижения этой цели исследователи опубликовали лишь некоторые вопросы публично, оставив большинство скрытым, чтобы модели ИИ не могли просто запомнить ответы (достаточно очевидно, но всё равно печально).

Источник: vk.com



		Самый сложный тест для ИИ, самые неожиданные результаты
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-03-17 19:09 ИИ проекты Если вы помните книгу про Электроника, то также можете помнить оттуда тест Тьюринга, переименованный ради художественных допущений. И того, как там машина была слишком очевидна по сравнению с человеком, пусть и шутящим про то, сколько выстрелов в кино он сосчитал. Сейчас почти все ИИ смогут пройти тест Тьюринга и это проблема - учёные заметили, что для ИИ, по сути своей, уже нет такого же разрывательно сложного теста, как Юкари на фантазме (возвращение в 2024ый год и ассоциации с Тохо?). Поэтому Техасские исследователи придумали новый тест. Тысяча исследователей (судя по упомянутому списку, действительно, сколько Редактор раньше не видел - прим. Редактора) со всего мира, разработала новый тип теста, сильнее чем MMLU - Massive Multitask Language Understanding (в современном мире почему-то IT-определения не переводятся, ни эталон производительности (бенчмарк), ни данный тест Большой Языковой Модели). HLE - Humanity's Last Exam (aka "Последний Экзамен Человечества") стал результатом. Тест из 2500 вопросов, охватывающий математику, гуманитарные науки, естественные науки, древние языки и широкий спектр узкоспециализированных академических областей. Завершён (по списку вопросов) он был ещё в начале апреля 2025го и после активно проверялся на нейросетях. Вопросы также были составлены таким образом, чтобы иметь один чёткий и проверяемый ответ (список вопросов редактор не нашёл, но при этом был вопрос про перевод древних пальмирских надписей, понимание произношения библейского иврита или знания анатомии птиц в мельчайших подробностях). Ну и вопросы так звучали, чтобы ответ нельзя было ни загуглить, ни спросить у Акю. Причём, если на тестах модели отвечали правильно на вопрос, он... исключался из итогового экзамена. - Когда системы ИИ начинают показывать чрезвычайно хорошие результаты на тестах, проводимых людьми, есть соблазн подумать, что они приближаются к уровню понимания человека, - сказал Тунг Нгуен, тот, кто доработал многие вопросы (73 штуки) для экзамена. - Но HLE напоминает нам, что интеллект - это не только распознавание образов, но и глубина, и контекст, и специализированные знания. Суть теста была для того, чтобы понять, где ИИ ещё отстаёт от понимания человека. Первые проверки подтвердили эффективность HLE. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2,7%, а Claude 3.5 Sonnet - 4,1%. Модель o1 от OpenAI - 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли точности от 40% до 50%. Один раз, летом 2025го, затесался на вершине даже Грок. Нгуен отмечает, что точные инструменты изучения ИИ в первую очередь нужны для разработчиков, чтобы понять границы знаний и возможностей языковых моделей. По мнению исследовательской группы, высокие баллы ИИ в тестах, созданных для людей, не обязательно указывают на настоящий интеллект. Эти показатели измеряют, лишь насколько хорошо ИИ может задачи, придуманные для обучения людей, но не отражает более глубокое их понимание. Последний Экзамен Человечества создан как эталон для будущих систем ИИ. Для достижения этой цели исследователи опубликовали лишь некоторые вопросы публично, оставив большинство скрытым, чтобы модели ИИ не могли просто запомнить ответы (достаточно очевидно, но всё равно печально). Источник: vk.com Комментарии:

Самый сложный тест для ИИ, самые неожиданные результаты

Комментарии: