Новые датасеты для распознавания лиц в сложных условиях

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Распознавание лиц — рядовая задача глубокого обучения, и сверточные нейронные сети справляются с ней довольно хорошо. Facebook обычно правильно распознает вас и ваших друзей на фотографиях.

Но является ли данная задача решенной? Что делать, если изображение сбивает с толку? Что, если человек выдает себя за кого-то другого? Может ли большое количество макияжа обмануть нейронную сеть? Насколько легко распознать человека, который носит очки?

Распознавание замаскированных лиц по-прежнему представляет собой довольно сложную задачу для нейронных сетей, в первую очередь из-за отсутствия подходящих датасетов. В этой статье мы представим несколько собранных в последнее время датасетов. Каждый из них отражает различные типы искажений лиц, но их цель одна и та же — помочь разработчикам создавать лучшие модели для распознавания замаскированных лиц.

Disguised Faces in the Wild

Количество изображений: 11 157

Количество лиц: 1 000

Год: 2018

Изображения: истинное, изображение-подтверждение, замаскированное, изображение-имитатор.

Начнем с самого нового датасета, представленного ранее в этом году – Disguised Faces in the Wild (DFW). В основном он состоит из изображений знаменитостей индийского или европейского происхождения. В датасете основное внимание уделяется задаче распознавания замаскированных лиц.

Согласно описанию DFW, в него включены следующие изображения лиц: с закрывающими лицо прическами, бородой, усами, очками, макияжем, головными уборами (шляпы, тюрбаны, вуали) и маскарадными масками. Изображения отличаются позой человека, его выражением лица, этнической принадлежностью, возрастом, полом, одеждой, а также освещением, фоном и качеством камеры.

В датасете есть четыре типа изображений:

  • Истинное изображение лица: для каждого человека есть фотография, на котором его лицо не скрыто.
  • Изображение-подтверждение: для 903 человек имеются изображения, на котором их лица не скрыты и могут быть использованы для установления соответствия.
  • Замаскированное изображение лица: для каждого человека имеется от 1 до 12 изображений с преднамеренно или непреднамеренно замаскированным лицом.
  • Изображение имитатора: для 874 человек имеется от 1 до 21 изображений их имитаторов. Имитатор —  любой другой человек, намеренно или непреднамеренно претендующий на то, чтобы выдать себя за другого.
Пример изображений трех человек из датасета DFW. Каждая строка соответствует одному человеку и содержит истинное изображение (серая рамка), изображение-подтверждение (желтая), замаскированное изображение (зеленая) и изображение имитатора (синяя).

Суммарно датасет DFW содержит 1 000 обычных изображений, 903 изображений-подтверждений, 4 814 замаскированных изображений и 4 440 изображений имитаторов.

Makeup Induced Face Spoofing

Количество изображений: 642

Количество лиц: 107 + 107 знаменитостей

Год: 2017

Попытка человека выдать себя за знаменитостей.

Makeup Induced Face Spoofing dataset (MIFS) также используется для распознавания лиц имитаторов, но с упором на макияж. Исследователи извлекли изображения из видео на YouTube, на которых бьюти-блоггеры использовали макияж для того, чтобы стать похожими на знаменитостей. Следует отметить, однако, что они не пытались обмануть автоматизированную систему распознавания лиц сознательно, а лишь хотели добиться зрительного сходства со знаменитостями.

Датасет состоит из 107 наборов из четырех фотографий: 2 до макияжа и 2 — после. Кроме того, в каждый набор включено по два изображения знаменитостей. Тем не менее, важно указать, что эти изображения не обязательно используются как опорные: знаменитости иногда сильно меняют внешность, и поэтому исследователи пытались выбрать такие их фотографии, которые были бы наиболее схожи с фотографиями имитаторов после макияжа.

Наконец, на всех изображениях оставлялись только лица. После этого на них уже не видны прическа и украшения. Примеры изображений приведены ниже.

Примеры изображений в датасете MIFS: до макияжа/после макияжа/изображение знаменитости.

Всего датасет MIFS содержит 214 изображений лиц до макияжа, 214 — после, и 214 изображений знаменитостей, с которыми блоггеры хотели добиться сходства. Следует отметить, что если один человек пытался добиться сходства с несколькими знаменитостями, или же несколько человек пытались повторить внешность одной знаменитости, то все изображения дублируются соответствующее число раз.

Датасет Specs on Faces

Количество изображений: 42 592

Количество лиц: 112

Год: 2017

Примеры изображений из датасета SoF: метаданные для каждого изображения включают 17 меток лица, прямоугольник, выделяющий очки, и прямоугольник, выделяющий лицо.

Считается, что очки, как пример естественной окклюзии, нарушают работу многих алгоритмов распознавания лиц. Вот почему датасет изображений людей в очках имеет особое значение. Specs on Faces dataset (SoF) включают в себя 2 662 изображения размером 640 ? 480 пикселей, на которых изображены 112 человек (66 мужчин и 46 женщин) разных возрастов. На всех из них надеты очки. Датасет состоит из двух частей:

  • 757 фотографий лиц, снятых в разных условиях (время, место, естественное/искусственное освещение);
  • 1905 фотографий лиц, снятых специально в плохих условиях освещения: 12 человек были сфотографированы под светом одной лампой, расположенной под разными углами, чтобы получить разные направления тени.
Фотографии, снятые в разных условиях освещения.

Также для каждого из исходных изображений имеются:

  • 6 дополнительных изображений с искусственной окклюзией — нос и рот закрыты белым прямоугольником;
  • 9 дополнительных изображений с наложенными фильтрами: гауссовским шумом, гауссовским размытием и изогелией с использованием нечеткой логики.

Таким образом, SoF включает в себя 42 592 изображения 112 человек и огромный бонус — расставленные вручную метки, которые содержат идентификатор человека, ориентацию фото (фронтальная или нет), 17 меток лица, прямоугольники, выделяющие лицо и очки, а также метки пола, возраста, эмоции на лице человека и качество освещения.

Large Age-Gap Face Verification

Количество изображений: 3 828

Количество лиц: 1 010 знаменитостей

Год: 2017

Примеры пар изображений одного человека в датасете LAG.

Еще одной проблемой является большая разница в возрасте одного и того же человека на разных фотографиях. Может ли алгоритм распознать личность по детской фотографии? Датасет Large-age gap (LAG) был создан для того, чтобы помочь разработчикам решить эту сложную задачу.

Датасет состоит из фотографий знаменитостей, найденных в поиске Google по картинкам и в видео на YouTube. Есть два случая: большая разница в возрасте на фотографиях (например, 0 и 80 лет) и значительное изменение внешности вследствие взросления. Как говорит автор датасета, «от 0 до 15 лет — относительно небольшая разница в возрасте, приводящая к большой разнице во внешности».

Датасет LAG учитывает оба варианта. Он содержит 3 828 изображений 1 010 знаменитостей. Для каждого из них есть хотя бы одно изображение в детстве (молодости) и одно изображение в среднем (пожилом) возрасте. Всего было сгенерировано 5 051 пар изображений.

Еще примеры пар изображений одного человека в датасете LAG.

Проблема распознавания лиц до сих пор актуальна. Существует множество сложных задач, с которыми не справляются существующие алгоритмы распознавания лиц — для них проблемой оказывается даже наличие очков. К счастью, регулярно появляются новые датасеты изображений лиц. Хотя каждый из них фокусируется на различных аспектах проблемы, вместе они создают отличную основу для значительного улучшения работы систем распознавания лиц.


Источник: neurohive.io

Комментарии: