Самый сложный тест для ИИ, самые неожиданные результаты |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-03-17 19:09 Если вы помните книгу про Электроника, то также можете помнить оттуда тест Тьюринга, переименованный ради художественных допущений. И того, как там машина была слишком очевидна по сравнению с человеком, пусть и шутящим про то, сколько выстрелов в кино он сосчитал. Сейчас почти все ИИ смогут пройти тест Тьюринга и это проблема - учёные заметили, что для ИИ, по сути своей, уже нет такого же разрывательно сложного теста, как Юкари на фантазме (возвращение в 2024ый год и ассоциации с Тохо?). Поэтому Техасские исследователи придумали новый тест. Тысяча исследователей (судя по упомянутому списку, действительно, сколько Редактор раньше не видел - прим. Редактора) со всего мира, разработала новый тип теста, сильнее чем MMLU - Massive Multitask Language Understanding (в современном мире почему-то IT-определения не переводятся, ни эталон производительности (бенчмарк), ни данный тест Большой Языковой Модели). HLE - Humanity's Last Exam (aka "Последний Экзамен Человечества") стал результатом. Тест из 2500 вопросов, охватывающий математику, гуманитарные науки, естественные науки, древние языки и широкий спектр узкоспециализированных академических областей. Завершён (по списку вопросов) он был ещё в начале апреля 2025го и после активно проверялся на нейросетях. Вопросы также были составлены таким образом, чтобы иметь один чёткий и проверяемый ответ (список вопросов редактор не нашёл, но при этом был вопрос про перевод древних пальмирских надписей, понимание произношения библейского иврита или знания анатомии птиц в мельчайших подробностях). Ну и вопросы так звучали, чтобы ответ нельзя было ни загуглить, ни спросить у Акю. Причём, если на тестах модели отвечали правильно на вопрос, он... исключался из итогового экзамена. - Когда системы ИИ начинают показывать чрезвычайно хорошие результаты на тестах, проводимых людьми, есть соблазн подумать, что они приближаются к уровню понимания человека, - сказал Тунг Нгуен, тот, кто доработал многие вопросы (73 штуки) для экзамена. - Но HLE напоминает нам, что интеллект - это не только распознавание образов, но и глубина, и контекст, и специализированные знания. Суть теста была для того, чтобы понять, где ИИ ещё отстаёт от понимания человека. Первые проверки подтвердили эффективность HLE. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2,7%, а Claude 3.5 Sonnet - 4,1%. Модель o1 от OpenAI - 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли точности от 40% до 50%. Один раз, летом 2025го, затесался на вершине даже Грок. Нгуен отмечает, что точные инструменты изучения ИИ в первую очередь нужны для разработчиков, чтобы понять границы знаний и возможностей языковых моделей. По мнению исследовательской группы, высокие баллы ИИ в тестах, созданных для людей, не обязательно указывают на настоящий интеллект. Эти показатели измеряют, лишь насколько хорошо ИИ может задачи, придуманные для обучения людей, но не отражает более глубокое их понимание. Последний Экзамен Человечества создан как эталон для будущих систем ИИ. Для достижения этой цели исследователи опубликовали лишь некоторые вопросы публично, оставив большинство скрытым, чтобы модели ИИ не могли просто запомнить ответы (достаточно очевидно, но всё равно печально). Источник: vk.com Комментарии: |
|