Специалисты MIT обнаружили ошибки в наборах данных, используемых для тестирования ИИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Команда исследователей, возглавляемая специалистами из Массачусетского технологического института (MIT), изучила десять наборов данных, чаще всего используемых для тестирования систем машинного обучения. Ученые обнаружили, что около 3,4% данных были неточными или неправильно маркированными. Это могло вызвать проблемы в системах искусственного интеллекта, которые используют эти наборы данных.

Наборы данных, на каждый из которых есть ссылки более чем в 100 000 работ, включают текстовые материалы, изображения и видео из групп новостей, магазина Amazon, сервиса YouTube и базы фильмов IMDb. Среди ошибок —; отрицательные отзывы о товарах, ошибочно помеченные как положительные, неверное описание того, что изображено на иллюстрациях, неточное описание содержания звукозаписей.

Показательно, что для обнаружения возможных ошибок исследователи тоже использовали методы машинного обучения и соответствующие программные инструменты.

Остается добавить, что некоторые ошибки можно считать незначительными, а порой следует скорее говорить о неоднозначности входных данных. Тем не менее, в одном из наборов данных —; тесте QuickDraw —; ошибки есть примерно в 10% набора. Чему может научиться ИИ на таких данных —; остается только догадываться.


Источник: m.vk.com

Комментарии: