Hotels-50K: датасет с миллионом фотографий номеров отелей

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Датасет Hotels-50K содержит миллион изображений из 50 000 отелей в разных странах. Датасет c номерами отелей создан с целью сопоставлять фотографии со снимками жертв human traffic (торговли людьми) из незаконной онлайн-рекламы, и помогать полиции определять, в каком отеле находятся похищенные люди. Датасет пригодится и для других задач машинного обучения.

Торговля людьми

По данным ООН, 59% общемировой торговли людьми приходится на торговлю с целью сексуальной эксплуатации. Сотни тысяч людей ежегодно перевозятся через границы против своей воли. Большинство из них — молодые женщины, которых принуждают заниматься проституцией.

Торговцы людьми часто фотографируют своих жертв в гостиничных номерах, чтобы использовать их снимки в рекламе. Разработчики хотят использовать машинное обучение, чтобы помочь полицейским и некоммерческим организациям определить, в каких отелях находятся жертвы, основываясь на фотографиях из рекламы.

Датасет собрала команда исследователей Adobe, Университета Джорджа Вашингтона и Университета Темпл в США. Поскольку большинство гостиничных номеров выглядят примерно одинаково, необходимы многочисленные фотографии из как можно большего числа разных отелей, чтобы научить нейронную сеть их различать.

База данных TrafficCam

Фотографии для обучения взяты с туристических сайтов, таких как Expedia. На них показаны чистые, хорошо освещенные номера.

Для тестирования фотографии взяты из базы данных TraffickCam. Фото номеров для TraffickCam делают туристы, когда останавливаются в отелях. Онлайн-реклама, с которой нужно сопоставить фото отеля, обычно плохого качества, поэтому любительские зернистые снимки подходят лучше, чем качественные фото с сайтов отелей.

Из 50 000 классов в датасете 13 900 имеют соответствующие изображения любительских фотографий из TraffickCam.

Результаты

Исследователи использовали две предварительно обученные нейронные сети (ResNet-50 и VGG) для проверки набора данных. Нейросети сопоставляли изображения из TraffickCam с идеальными изображениями отелей. Тестовая выборка состояла из 17 954 фотографий. Обе сети смогли правильно идентифицировать гостиничную сеть по фото почти с 80% точностью. Однако модели пока плохо определяют конкретный отель сети — точность составила 24%.

Ученые надеются, что другие исследователи примут участие в разработке программных продуктов для помощи жертвам секс-траффикинга. Датасет опубликован на GitHub


Источник: neurohive.io

Комментарии: