Загляни в глаза машине

2017-10-21 19:02

методы распознавания образов, искусственный интеллект, ИИ проекты, системы технического зрения

Видеть — значит понимать увиденное. Мы слепы, если в нашем мозгу не работают зрительные зоны неокортекса — своеобразный биокомпьютер, ответственный за распознавание образов. Сейчас подобные анализаторы, способные узнавать лица и понимать их выражение, появляются у искусственных систем.

Итак, вещи обретают зрение, а у зрения есть собственный разум. Сначала мне кажется, что он туповат: только что включённая система распознавания лиц LUNA не торопится войти в штатный режим и запомнить меня. Но вот наконец она рапортует, что запомнила, и просит ввести имя. Пол и возраст LUNA может определить сама. С полом легко: у меня борода, а вот возраст система завысила на пять лет — видимо, из-за той же бороды. Теперь камера узнаёт меня, даже если я снимаю очки или поворачиваю голову. Приходится попробовать средство посерьёзней — мы направляемся к шкафу с париками и накладными усами. Я выбираю густые кудри, скрывающие к тому же пол-лица, — LUNA всё равно узнаёт меня.

27 команд

из сильнейших вузов пяти стран мира приняли участие в международном хакатоне по ИИ и компьютерному зрению VisionHack в сентябре 2017 года. Победила команда DoubleA Team из МГУ им. М. В. Ломоносова.

Наигравшись с париками, мы открываем ICQ и начинаем развлекаться с масками для видеозвонков: на моё цифровое лицо в реальном времени накладываются маски — можно неузнанным общаться в видеочате.

Следующий номер нашей программы — Face.DJ. Это приложение строит 3D-модель лица по селфи, а потом «надевает» это лицо на виртуальную голову, чтобы вы могли примерять причёски и аксессуары. Другое назначение приложения — анимировать пользователя, создать его мультяшную копию для игр и прочих онлайн-занятий.

— Мы готовим такое же приложение для сервиса знакомств: люди при первом контакте часто не хотят раскрываться, — рассказывает Юля, пиарщик компании VisionLabs, разработавшей LUNA. — Некоторые надевают маски, чтобы добавить в романтическое общение элемент игры.

У кросс-платформенной системы LUNA тоже много масок. Есть приложение в мессенджере Telegram, которое распознаёт пол и возраст по лицу, есть LUNA в «облаке» и LUNA для браузера. Но главное — эту универсальную программу можно внедрять в самые разные технологические продукты, чтобы использовать для определения лиц.

— С какой целью?

— Например, одному из наших клиентов нужно выбирать фотографии — так называемый bestshot из видеопотока. Так вот, наша программа справляется с этим сама. Другому клиенту нужно, чтобы система распознавала лицо не только при входе в интернет-банк, но и на протяжении всего сеанса, потому что вы можете отойти, а вашим доступом воспользуется злоумышленник. эту задачу мы тоже решили.

Главные клиенты VisionLabs — банки. Например, в «Почта Банке» системой LUNA оборудованы 50 тысяч рабочих мест — это самое большое внедрение биометрии в мире. Важно распознавать и лица клиентов, чтобы сравнивать фотографии в паспортах с фото в базе данных. Ведь самое распространённое мошенничество в этой сфере — вклейка своего фото в чужой паспорт для получения кредита.

Как видят машины

К нам подходит Александр Ханин, директор VisionLabs.

— Расскажите о компьютерном зрении, — прошу я его.

— Компьютерное зрение — это область прикладной математики, которая по сложности эквивалентна задаче создания искусственного интеллекта в целом. Визуальный канал основной для получения информации об окружающем мире. И доверяем мы увиденному больше, чем другим источникам.

Задача компьютерного зрения — научить программу по фотографии или видео делать выводы и понимать картинку так же, как человек. Или даже лучше. Вот когда машина сравняется с человеком в этом умении, можно будет считать, что задача решена. Пока же она решена лишь для некоторых узких прикладных областей. Например, для распознавания лиц или дефектов оборудования.

— Задача распознавания лиц решена?

— Да, уже сейчас достоверно показано, что машина различает лица лучше нас. И точнее, и быстрее. Человек не очень хорошо определяет возраст, национальность. Тот, кто живёт в Европе, хуже различает лица людей с азиатской внешностью, и наоборот. Ещё мы забывчивы. В довершение всего машина делает это в десятки миллионов раз быстрее.

Зато человек анализирует не отдельные параметры, а лицо и даже ситуацию в целом. Мы понимаем контекст, в котором лицо собеседника принимает то или иное выражение. Как машина со всем этим справляется?

— Сочетая лучшие методики компьютерного зрения и машинного обучения. Взять, например, метод глубокого обучения — его особенность в том, что человек не задаёт параметры лица для распознавания.

— Нейросеть программирует сама себя?

10 миллионов

изображений понадобилось нейросети системы LUNA, чтобы научиться распознавать любые лица.

— Нейросети появились ещё в 1970-х, а революция в этой области началась примерно в 2013–2014-м. Потому что только к этому времени удалось накопить достаточно большие объёмы данных, чтобы учить нейросети, а вычислительные мощности стали относительно дешёвыми. Продолжать разрабатывать детерминированные методы распознавания — указывать, какие части лица как сравнивать, — стало бессмысленно.

Прорыв произошёл, когда отказались от заданных параметров, например от ключевых точек на лице. Вместо этого машине поставили задачу: «Смотри, вот десять тысяч пар фотографий, каждая пара — один человек. Проанализируй их, чтобы суметь определить на фото, которые ты пока не видишь, где один человек, а где разные». Машина сама находит критерии, которые важны для решения этой задачи.

— Вы именно так обучали свою систему?

— Ну да, это типичная задача идентификации — сравнить фотографию, сделанную сейчас, с фото в паспорте и подтвердить, что это один и тот же человек. Мы давали машине на вход большие данные — миллионы пар фотографий, а на выходе требовали правильного ответа для любых фотопортретов. И система училась — сама настраивала параметры так, чтобы минимизировать ошибки. То есть для глубокого обучения сначала надо найти обучающую выборку — много примеров правильных решений. Потом программа работает уже сама.

— Где же вы взяли эти миллионы пар фотографий?

— Есть доступные обучающие выборки для исследователей — сначала мы использовали их, а дальше уже работали с партнёрами и клиентами, которые разрешили продолжить обучение на их данных.

Как преуспеть на рынке

— Задача распознавания людей по лицу решена. А как обстоит дело с определением эмоций?

— Как, например, в африканских странах люди миновали стадию телеграфа и сразу перешли на мобильную связь, так и мы, не решая задачу распознавания эмоций, сразу перешли на более высокий уровень — к выводам о важных для наших клиентов характеристиках человека. Практика показывает: от того, что машина определяет, улыбается человек или нахмурен, пользы для бизнеса никакой. Нужны более серьёзные умения.

Основные виды биометрии.

Классификация способов идентификации человека

Лицо. Программа по фото или видеоизображению лица анализирует размер и форму глаз, носа, скул, их взаиморасположение и на основе этих данных создаёт уникальную комбинацию, которую затем сравнивает с имеющимися на предмет совпадения.

Глаза. Распознавание происходит в результате сравнения цифрового изображения радужной оболочки глаза с имеющимися в базе.

Отпечатки пальцев. Дактилоскопический метод основан на неповторимости папиллярного рисунка кожи; широко применяется в криминалистике.

Речь. Способ распознавания, основанный на преобразовании звучащей речи в цифровую информацию.

Вены. Способ идентификации на основе венозного рисунка руки или пальцев.

— Распознавать ложь, например?

— Да. Или определять, соответствует кандидат вашим требованиям или нет. Удовлетворён клиент обслуживанием или нет — улыбка ведь может выражать не только радость, но и насмешку и скрытое недовольство. Поэтому само по себе распознавание эмоций — это подзадача. Мы изучаем лицо в динамике, последовательность реакций на вопросы, обслуживание, обстановку.

— Есть ли в мире инновационные продукты, на которые вы ориентируетесь?

— Мы сами на переднем крае. Медицинский факт, что наш продукт — первая в мире комплексная система распознавания лиц для банков и ретейла, которая работает и в мобильном телефоне, и на сайте, и в отделениях, и в банкоматах, и в терминалах самообслуживания — везде. Мы не только первые, но пока, насколько я знаю, единственные.

— В каких-то терминалах самообслуживания уже установлена система распознавания лиц?

— Да, например, в банке «Открытие» — в терминалах электронной очереди. И это не пилотные проекты, а такие, которые работают и удовлетворяют заказчиков в реальных условиях.

— Чувствуете, как конкуренты дышат в спину?

— Пилотных проектов в близких к нам областях много. Компаний, которые занимаются распознаванием лиц, только в России десятки, в Китае — около сотни, в мире — больше тысячи. Поэтому я и говорю, что сама по себе задача распознавания лиц решена, — во всяком случае для большинства сегментов и практических целей.

Для успеха на рынке важны не технологии. Большинству клиентов плевать, какая у нас технология и как именно мы решаем задачу, допустим, по ускорению обслуживания в банке или магазине, — с помощью распознавания лиц, прогноза погоды или чёрной магии. Им важно, чтобы был результат.

Распознать всех!

— А какие задачи ещё не решены, но будут — в обозримой перспективе? Над чем работают специалисты?

— Нам нужно научить машины находить конкретные лица в полностью неконтролируемой обстановке, например в толпе. Многие говорят, что умеют это делать, но по факту ничего такого пока не внедрили. Видимо, напрасно говорят.

— А разве узнавать случайных людей по лицам не запрещено законом? Это ведь использование персональных данных.

— Бизнесу запрещено, конечно. Это нарушение прав человека и вмешательство в частную жизнь. Вообще, технологии сейчас позволяют сделать гораздо больше, чем разрешает законодательство. Но мы работаем только в белой зоне — в полном соответствии с законом. Для нас важно не нарушать принципы. Мы не имеем права использовать без согласия человека его данные из соцсетей и поэтому не станем делать, например, для магазина систему, которая ищет информацию о клиенте по его фотографии. Но мы можем разработать программу, которая будет приблизительно оценивать пол и возраст покупателей по снимкам.

Наша компания работает только с бизнесом, а вот у служб национальной безопасности есть системы, которые ищут людей по фотографии.

— То есть ФСБ можно, а обычным людям нельзя?

— Да. Если спецслужба хочет найти террориста в толпе, ей нужно сканировать и распознать всех. А если человек зашёл в магазин и программа по фотографии нашла его аккаунт в соцсети, узнала телефон и начала рассылать спам, это очень серьёзное нарушение. На Западе за это предусмотрена уголовная ответственность.

— В аэропортах уже есть системы распознавания лиц?

— Да, в основном на паспортном контроле — они проверяют, ваш ли это паспорт, не поддельный ли и не числитесь ли вы в списке заблокированных или в федеральном розыске.

За рубежом степень автоматизации значительно выше. В аэропортах Сингапура, Лондона, Парижа паспортный контроль можно проходить автоматически, без участия сотрудников. Вы сканируете свой паспорт, вас фотографируют, происходит сверка — и всё, можно идти дальше.

Угадай, что на картинке

— Как будет развиваться компьютерное зрение?

9,2 тысячи

потенциально мошеннических заявок, например попыток оформления кредитов по утерянным или украденным паспортам, распознала установленная в «Почта Банке» LUNA за 2016 год.

— Есть большая группа задач, именуемых visual question answering: вы показываете компьютеру картинку, и он должен понять, что там изображено. Это очень сложно: если просто учить распознавать объекты по отдельности, ничего не получится — надо понимать контекст и взаимосвязь объектов.

Другая похожая задача — индентификация действий человека, они ведь тоже определяются во многом по контексту. Например, если человек поднял руку, что это значит? Он указывает дорогу или собирается кого-то ударить? Вот сидим, думаем.

— То есть вы хотите научить машины различать образы, смысл которых зависит от контекста?

— Научить интерпретировать контекст и таким образом распознавать картинки, действия, сцены.

Когда роботы прозреют

— А что будет дальше, лет через десять?

— Хотелось бы, чтоб разработку компьютерного зрения довели до конца. Тогда у роботов появятся настоящие глаза, а значит, возможность понимать происходящее и адекватно реагировать. Иначе они не станут частью общества, а так и будут игрушками с пультами управления.

— Как системы, распознающие лица, изменят нашу жизнь в ближайшие годы?

— Вы совершенно точно заметите работу таких систем при авторизации — например, когда будете разблокировать телефон. Многие уже привыкли к Touch ID, но скоро самым распространённым способом станет вхождение в систему по лицу. Приходя домой, вы не будете искать ключи, на работе вам не понадобится пропуск. Ускорится обслуживание и самообслуживание в банках, магазинах — во всей сфере услуг: расчёты будут происходить без карточек. На улицах станет безопаснее, потому что появится видеонаблюдение с функциями отслеживания. Города и страны получат дополнительную защиту, а возмездие за преступление станет неизбежным. Система будет фиксировать всё: кто и где это сделал, куда потом пошёл. На смену понятию «безопасный город» придёт «умный город»: одна и та же инфраструктура будет обеспечивать безопасность и, допустим, управление потоками людей и машин, а также много чего другого.

— Одна и та же система установленных повсюду камер и компьютерного зрения?

— Да, алгоритму без разницы, кого распознавать: вип-клиента или воришку. Лица у всех устроены одинаково: глаза, рот и нос.

Но дело не только в лицах. Эта же система может заняться, скажем, регулированием освещения. Если в помещении нет людей, зачем жечь электричество? Машина вызовет коммунальные службы, если зафиксирует неполадки, и так далее.

— Жить в мире, где всё на виду, страшновато. Технически всё проще становится построить антиутопию, где за всеми ведётся тотальная слежка...

— Я думаю, в итоге мир станет лучше и намного безопаснее. Но обманывать будет труднее. Например, мы с партнёрами недавно разработали продукт, который не только даёт доступ в рабочее помещение, но и учитывает проведённое там время: пришли во столько-то, ушли во столько. Прогуляли, опоздали, не вернулись с обеда — всё будет зафиксировано.

— И никак нельзя будет от этого спрятаться? Наверняка появятся маски с чужим лицом.

— Безусловно, есть масса способов обмануть систему, и в этой области «гонка вооружений» только начинается. Был такой видеоролик, где учили делать макияж, препятствующий распознаванию. Но то было года три назад — нынешние алгоритмы так просто не проведёшь.

— А если вместо лица показывать фотографию?

— Чтобы вычислить мошенников, в системах распознавания лиц программируют специальный «детектор живости» (lifeness detector), который определяет, человек перед ним или фотография. Показателей живости несколько. Самый простой, который считается мировым стандартом, — это моргание. Ещё система может попросить человека улыбнуться, повернуть голову, приблизиться к камере, чтобы убедиться, что он реальный. Но если камера оснащена сенсором глубины, это не требуется: машина сразу понимает, что в кадре объёмный объект, а не фото.

Кто ещё в лидерах

Распознавание лиц — это не только наука и технологии, но и большой бизнес, который в развитых странах растёт стремительными темпами. Исследовательская компания Allied Market Research прогнозирует, что к 2022 году его оборот составит почти десять миллиардов долларов. Среди ведущих игроков есть и российские. Из десятков стартапов и исследовательских проектов мы выделили три самых успешных.

NTechLab. Выпускник МГУ Анатолий Кухаренко начинал с приложения, определявшего породу собак по фотографии. Но уже в 2015 году созданный им с партнёрами по NTechLab алгоритм FaceN одержал победу в двух из четырёх номинаций главного мирового конкурса по распознаванию лиц MegaFace, обойдя команду Google. Однако настоящая слава пришла к компании после разработки популярнейшего приложения FindFace, предназначенного для поиска по фото людей в соцсети «ВКонтакте». Сегодня число заявок на интеграцию технологии FindFace приближается к тысяче.

Vocord. Компанию «Вокорд» можно смело считать чемпионом мира по распознаванию лиц: на сайте конкурса MegaFace она занимает первое место, лидируя с солидным отрывом. Команда «Вокорд» — ветераны на рынке систем компьютерного зрения: программу дистанционного биометрического определения лиц Vocord FaceControl они выпустили ещё в 2008 году. Сегодня их продуктами пользуются больше двух тысяч коммерческих и государственных организаций. Специализация компании — идентификация лиц, то есть поиск человека в толпе.

VisionLabs. Их продукты входят в тройку лучших мировых коммерческих систем распознавания лиц. Подробнее об этой компании читайте в основном тексте.

Опубликовано в специальном выпуске журнала «Кот Шрёдингера» за октябрь 2017 г.

_{Подписаться на «Кота Шрёдингера»}

Источник: kot.sh

Загляни в глаза машине

Комментарии: