Исследование: ИИ справляется со сложными историческими экзаменами лишь на 46% |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-01-22 21:33 Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как показало новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей. В чём суть исследования Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей — это GPT-4 от OpenAI, Llama от Meta и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости. Результаты исследования, представленные на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности на 46%, а это совсем немного превышает уровень случайных угадываний. «Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей». Мария дель Рио-Чанона, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет. Причина низких результатов Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями. Например, ИИ-система ошибочно заявила, что в древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия. «Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается», — пояснила дель Рио-Чанона. Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных. По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях. Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы. Источник: skillbox.ru Комментарии: |
|