Из-за ошибки сканирования или перевода появился фальшивый научный термин; ИИ разносит его по всему интернету

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Искусственный интеллект, прочёсывающий огромное количество информации, оказался заражён несуществующим научным термином. Этот набор слов уже попал в базы данных ИИ OpenAI и Anthropic. 

Речь идёт о «термине» «вегетативная электронная микроскопия» (vegetative electron microscopy). Как сообщает The Conversation, он мог появиться из статьи о клеточных стенках бактерий, опубликованной в журнале Bacteriological Reviews в 1959 году и позже оцифрованной. Расположение колонок в статье сбило с толку программное обеспечение оцифровки, которое смешало слово vegetative из одной колонки со словом electron из другой. 

Ещё одна теория его возникновения отсылает к ошибке перевода. Фраза vegetative electron microscopy появилась в двух научных статьях из Ирана (в подписях и аннотациях на английском языке) в 2017 и 2019 году. Как поясняет Retraction Watch, этому поспособствовала ошибка перевода с языка фарси: слова «вегетативный» и «сканирование» отличаются в ??персидской письменности одной точкой, а сканирующая электронная микроскопия — вполне реальная вещь. Упущенной точки, как считают исследователи, вполне может быть достаточно, чтобы появился ошибочный термин.

На сегодняшний день «вегетативная электронная микроскопия» появляется в 22 статьях. Одну из них авторам пришлось отозвать из журнала Springer Nature, а для второй было выпущено исправление.

В Retraction Watch в качестве вероятного источника заражения нейросетей «вегетативной электронной микроскопией» называют объёмный датасет CommonCrawl на более чем 250 млн веб-страниц и петабайты данных. По данным исследователей, многие модели, если предложить им отрывки из научных статей, бодро продолжают их несуществующим термином. 

«Мы обнаружили, что ошибка сохраняется в новых моделях ИИ, включая GPT-4o и Claude 3.5 от Anthropic. Это говорит о том, что бессмысленный термин теперь может быть навсегда встроен в базы знаний ИИ», — указывают исследователи.


Источник: habr.com

Комментарии: