Исследователи рассказали, почему нейросети ошибаются, когда оценивают работы школьников |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-19 12:37 Исследователи из Университета Джорджии проанализировали бесплатную LLM-модель с открытым исходным кодом от французской компании Mistral — Mixtral-8x7B-instruct и выяснили, как она будет действовать в оценке письменных работ учеников. Учёные использовали несколько подходов, чтобы научить нейросеть вырабатывать правила для проверки, но и в наилучшем варианте ИИ-оценки совпали с теми, что выставили педагоги, только на 54%. Работа опубликована в журнале Technology, Knowledge and Learning, а её полный текст доступен на сервисе предпринтов arXiv. В ходе исследования учёные поручили модели оценить письменные ответы учеников средней школы по естественно-научным предметам, в основном по физике. Всего использовалось 12 заданий, для каждого из которых выбрали по 800 ответов учащихся. Исследователи стремились понять, как именно рассуждает нейросеть при выполнении такой задачи. Потому они запрашивали у неё не только итоговые оценки, но и рубрики, которые модель генерировала для проверки. В критериальном оценивании рубрики — это наборы параметров (критериев), по которым оценивают работу учеников. В частности, бывают аналитические рубрики (по ним оценивают отдельные аспекты работы) и холистические (оценивают работу как целое). Исследователи использовали несколько разных подходов:
При каждом экспериментальном условии авторы сравнивали сгенерированные нейросетью рубрики с теми, что разработали педагоги, а также проверяли, насколько точно нейросеть оценивает ученические работы по этим критериям. Такой подход позволил заглянуть в «мыслительный процесс» модели. Выяснилось, что Mixtral быстро адаптировалась к задачам, но в её рассуждениях зачастую не хватало логики. Например, при одном из экспериментальных условий нейросеть предложила для задания «Объясни, как твоя модель показывает, что передача тепловой энергии меняет движение молекул воды и её температуру» такие бессмысленные критерии оценки: «Модель показывает молекулы воды до и после нагревания» и «Модель показывает кинетическую энергию молекул воды до и после нагревания». То есть нейросеть в качестве критериев для оценки предлагала использовать ключевые слова из задания. Оценивая работы учеников с применением этой рубрики, она засчитывала как правильные все ответы, где эти термины употреблялись. В итоге эксперимент показал, что точность работы Mixtral в оценке работ учеников варьировалась:
Чуть более высокая точность оценки получилась, когда нейросеть проверила задание по собственным критериям, разработанным на примерах аналитических рубрик для остальных 11 заданий, а также с учётом написанной людьми для этого задания холистической рубрики. В таком варианте выставленные нейросетью оценки совпали с учительскими на 54,6%. Авторы связывают результат с тем, что в таком варианте, с одной стороны, имелись подробные подготовленные профессионалами примеры критериев, а с другой — аналитические рубрики для оценки этого задания нейросеть сгенерировала в стиле, который, предположительно, лучше подходит для машинного восприятия. А вот примеры оценённых учителями работ не помогли нейросети в проверке. В таком варианте эксперимента у Mixtral тоже были примеры аналитических рубрик для остальных 11 заданий, а вместо холистической рубрики для проверяемого задания нейросети выдавали примеры оценённых работ. Точность оценок при этом снизилась до 48,4%, а в разработанных аналитических рубриках появились нелогичные критерии. Исследователи считают, что при наличии готовых примеров оценки нейросеть использует самый простой вариант — комбинирует ключевые слова из высоко оценённых работ. Итак, авторы не рекомендуют обучать нейросети для автоматической проверки заданий на проверенных работах учеников. Вместо этого они советуют предоставлять ИИ-моделям качественные и подробные аналитические рубрики, а также использовать смешанные подходы, где ИИ будет разрабатывать критерии оценки под контролем человека. Стоит, однако, отметить ограничение исследования: в нём использовали бесплатную модель Mixtral-8x7B-instruct и не работали с другими нейросетями. Можно предположить, что результаты с использованием других нейросетевых моделей или специально обученных инструментов могли бы быть лучше (впрочем, они могли быть и хуже). Ранее исследователи НИУ ВШЭ разработали бенчмарк для оценки генеративного ИИ для образовательных задач. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. Нейросеть GPT-4 правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%. Источник: skillbox.ru Комментарии: |
|