Загляни в глаза машине

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Видеть — значит понимать увиденное. Мы слепы, если в нашем мозгу не работают зрительные зоны неокортекса — своеобразный биокомпьютер, ответственный за распознавание образов. Сейчас подобные анализаторы, способные узнавать лица и понимать их выражение, появляются у искусственных систем.

Итак, вещи обретают зрение, а у зрения есть собственный разум. Сначала мне кажется, что он туповат: только что включённая система распознавания лиц LUNA не торопится войти в штатный режим и запомнить меня. Но вот наконец она рапортует, что запомнила, и просит ввести имя. Пол и возраст LUNA может определить сама. С полом легко: у меня борода, а вот возраст система завысила на пять лет — видимо, из-за той же бороды. Теперь камера узнаёт меня, даже если я снимаю очки или поворачиваю голову. Приходится попробовать средство посерьёзней — мы направляемся к шкафу с париками и накладными усами. Я выбираю густые кудри, скрывающие к тому же пол-лица, — LUNA всё равно узнаёт меня.

27 команд

из сильнейших вузов пяти стран мира приняли участие в международном хакатоне по ИИ и компьютерному зрению VisionHack в сентябре 2017 года. Победила команда DoubleA Team из МГУ им. М. В. Ломоносова.

Наигравшись с париками, мы открываем ICQ и начинаем развлекаться с масками для видеозвонков: на моё цифровое лицо в реальном времени накладываются маски — можно неузнанным общаться в видеочате.

Следующий номер нашей программы — Face.DJ. Это приложение строит 3D-модель лица по селфи, а потом «надевает» это лицо на виртуальную голову, чтобы вы могли примерять причёски и аксессуары. Другое назначение приложения — анимировать пользователя, создать его мультяшную копию для игр и прочих онлайн-занятий.

— Мы готовим такое же приложение для сервиса знакомств: люди при первом контакте часто не хотят раскрываться, — рассказывает Юля, пиарщик компании VisionLabs, разработавшей LUNA. — Некоторые надевают маски, чтобы добавить в романтическое общение элемент игры.

У кросс-платформенной системы LUNA тоже много масок. Есть приложение в мессенджере Telegram, ко­торое распознаёт пол и возраст по лицу, есть LUNA в «облаке» и LUNA для браузера. Но главное — эту универсальную программу можно внедрять в самые разные технологические продукты, чтобы использовать для определения лиц.

— С какой целью?

— Например, одному из наших клиентов нужно выбирать фотографии — так называемый bestshot из видеопотока. Так вот, наша программа справляется с этим сама. Другому клиенту нужно, чтобы система распознавала лицо не только при входе в интернет-банк, но и на протяжении всего сеанса, потому что вы можете отойти, а вашим доступом воспользуется злоумышленник. эту задачу мы тоже решили.

Главные клиенты VisionLabs — банки. Например, в «Почта Банке» системой LUNA оборудованы 50 тысяч рабочих мест — это самое большое внедрение биомет­рии в мире. Важно распознавать и лица клиентов, чтобы сравнивать фотографии в паспортах с фото в базе данных. Ведь самое распространённое мошенничество в этой сфере — вклейка своего фото в чужой паспорт для получения кредита.

Как видят машины

К нам подходит Александр Ханин, директор VisionLabs.

— Расскажите о компьютерном зрении, — прошу я его.

— Компьютерное зрение — это область прикладной математики, которая по сложности эквивалентна задаче создания искусственного интеллекта в целом. Визуальный канал основной для получения информации об окружающем мире. И доверяем мы увиденному больше, чем другим источникам.

Задача компьютерного зрения — научить программу по фотографии или видео делать выводы и понимать картинку так же, как человек. Или даже лучше. Вот когда машина сравняется с человеком в этом умении, можно будет считать, что задача решена. Пока же она решена лишь для некоторых узких прикладных областей. Например, для распознавания лиц или дефектов оборудования.

— Задача распознавания лиц решена?

— Да, уже сейчас достоверно показано, что машина различает лица лучше нас. И точнее, и быстрее. Человек не очень хорошо определяет возраст, национальность. Тот, кто живёт в Европе, хуже различает лица людей с азиатской внешностью, и наоборот. Ещё мы забывчивы. В довершение всего машина делает это в десятки миллионов раз быстрее.

Зато человек анализирует не отдельные параметры, а лицо и даже ситуацию в целом. Мы понимаем контекст, в котором лицо собеседника принимает то или иное выражение. Как машина со всем этим справляется?

— Сочетая лучшие методики компьютерного зрения и машинного обучения. Взять, например, метод глубокого обучения — его особенность в том, что человек не задаёт параметры лица для распознавания.

— Нейросеть программирует сама себя?

10 миллионов

изображений понадобилось нейросети системы LUNA, чтобы научиться распознавать любые лица.

— Нейросети появились ещё в 1970-х, а революция в этой области началась примерно в 2013–2014-м. Потому что только к этому времени удалось накопить достаточно большие объёмы данных, чтобы учить нейросети, а вычислительные мощности стали относительно дешёвыми. Продолжать разрабатывать детерминированные методы распознавания — указывать, какие части лица как сравнивать, — стало бессмысленно.

Прорыв произошёл, когда отказались от заданных параметров, например от ключевых точек на лице. Вместо этого машине поставили задачу: «Смотри, вот десять тысяч пар фотографий, каждая пара — один человек. Проанализируй их, чтобы суметь определить на фото, которые ты пока не видишь, где один человек, а где разные». Машина сама находит критерии, которые важны для решения этой задачи.

— Вы именно так обучали свою систему?

— Ну да, это типичная задача идентификации — сравнить фотографию, сделанную сейчас, с фото в паспорте и подтвердить, что это один и тот же человек. Мы давали машине на вход большие данные — миллионы пар фотографий, а на выходе требовали правильного ответа для любых фотопортретов. И система училась — сама настраивала параметры так, чтобы минимизировать ошибки. То есть для глубокого обучения сначала надо найти обучающую выборку — много примеров правильных решений. Потом программа работает уже сама.

— Где же вы взяли эти миллионы пар фотографий?

— Есть доступные обучающие выборки для исследователей — сначала мы использовали их, а дальше уже работали с партнёрами и клиентами, которые разрешили продолжить обучение на их данных.

Как преуспеть на рынке

— Задача распознавания людей по лицу решена. А как обстоит дело с определением эмоций?

— Как, например, в африканских странах люди миновали стадию телеграфа и сразу перешли на мобильную связь, так и мы, не решая задачу распознавания эмоций, сразу перешли на более высокий уровень — к выводам о важных для наших клиентов характеристиках человека. Практика показывает: от того, что машина определяет, улыбается человек или нахмурен, пользы для бизнеса никакой. Нужны более серьёзные умения.

Основные виды биометрии.

Классификация способов идентификации человека

Лицо. Программа по ­фото или видеоизображению лица анализирует размер и форму глаз, носа, скул, их взаиморасположение и на основе этих данных создаёт уникальную комбинацию, которую затем сравнивает с имеющимися на предмет совпадения.

Глаза. Распознавание происходит в результате сравнения цифрового изображения радужной оболочки глаза с имеющимися в базе.

Отпечатки пальцев. Дактилоскопический метод основан на неповторимости папиллярного рисунка кожи; широко применяется в криминалистике.

Речь. Способ распознавания, основанный на преобразовании звучащей речи в цифровую информацию.

Вены. Способ идентификации на основе венозного рисунка руки или пальцев.

— Распознавать ложь, например?

— Да. Или определять, соответствует кандидат ­вашим требованиям или нет. Удовлетворён клиент обслужи­ванием или нет — улыбка ведь может выражать не только радость, но и насмешку и скрытое недовольство. Поэтому само по себе распознавание эмоций — это подзадача. Мы изучаем лицо в динамике, последовательность реакций на вопросы, обслуживание, обстановку.

— Есть ли в мире инновационные продукты, на которые вы ориентируетесь?

— Мы сами на переднем крае. Медицинский факт, что наш продукт — первая в мире комплексная система распознавания лиц для банков и ретейла, которая работает и в мобильном телефоне, и на сайте, и в отделениях, и в банкоматах, и в терминалах самообслуживания — везде. Мы не только первые, но пока, насколько я знаю, единственные.

— В каких-то терминалах самообслуживания уже установлена система распознавания лиц?

— Да, например, в банке «Открытие» — в терминалах электронной очереди. И это не пилотные проекты, а такие, которые работают и удовлетворяют заказчиков в реальных условиях.

— Чувствуете, как конкуренты дышат в спину?

— Пилотных проектов в близких к нам областях много. Компаний, которые занимаются распознаванием лиц, только в России десятки, в Китае — около сотни, в мире — больше тысячи. Поэтому я и говорю, что сама по себе задача распознавания лиц решена, — во всяком случае для большинства сегментов и практических целей.

Для успеха на рынке важны не технологии. Большинству клиентов плевать, какая у нас технология и как именно мы решаем задачу, допустим, по ускорению обслуживания в банке или магазине, — с помощью распознавания лиц, прогноза погоды или чёрной магии. Им важно, чтобы был результат.

Распознать всех!

— А какие задачи ещё не решены, но будут — в обозримой перспективе? Над чем работают специалисты?

— Нам нужно научить машины находить конкретные лица в полностью неконтролируемой обстановке, например в толпе. Многие говорят, что умеют это делать, но по факту ничего такого пока не внедрили. Видимо, напрасно говорят.

— А разве узнавать случайных людей по лицам не запрещено законом? Это ведь использование персональных данных.

— Бизнесу запрещено, конечно. Это нарушение прав человека и вмешательство в частную жизнь. Вообще, технологии сейчас позволяют сделать гораздо больше, чем разрешает законодательство. Но мы работаем только в белой зоне — в полном соответствии с законом. Для нас важно не нарушать принципы. Мы не имеем права использовать без согласия человека его данные из соцсетей и поэтому не станем делать, например, для магазина систему, которая ищет информацию о клиенте по его фотографии. Но мы можем разработать программу, которая будет приблизительно оценивать пол и возраст покупателей по снимкам.

Наша компания работает только с бизнесом, а вот у служб национальной безопасности есть системы, которые ищут людей по фотографии.

— То есть ФСБ можно, а обычным людям нельзя?

— Да. Если спецслужба хочет найти террориста в толпе, ей нужно сканировать и распознать всех. А если человек зашёл в магазин и программа по фотографии нашла его аккаунт в соцсети, узнала телефон и начала рассылать спам, это очень серьёзное нарушение. На Западе за это предусмотрена уголовная ответственность.

— В аэропортах уже есть системы распознавания лиц?

— Да, в основном на паспортном контроле — они проверяют, ваш ли это паспорт, не поддельный ли и не числитесь ли вы в списке заблокированных или в федеральном розыске.

За рубежом степень автоматизации значительно выше. В аэропортах Сингапура, Лондона, Парижа паспортный контроль можно проходить автоматически, без участия сотрудников. Вы сканируете свой паспорт, вас фотографируют, происходит сверка — и всё, можно идти дальше.

Угадай, что на картинке

— Как будет развиваться компьютерное зрение?

9,2 тысячи

потенциально мошеннических заявок, например попыток оформления кредитов по утерянным или украденным пас­пор­там, распознала установленная в «Почта Банке» LUNA за 2016 год.

— Есть большая группа задач, именуемых visual question answering: вы показываете компьютеру ­картинку, и он должен понять, что там изображено. Это очень сложно: если просто учить распознавать объекты по отдельности, ничего не получится — надо понимать контекст и взаимосвязь объектов.

Другая похожая задача — индентификация действий человека, они ведь тоже определяются во многом по контексту. Например, если человек поднял руку, что это значит? Он указывает дорогу или собирается кого-то ударить? Вот сидим, думаем.

— То есть вы хотите научить машины различать образы, смысл которых зависит от контекста?

— Научить интерпретировать контекст и таким образом распознавать картинки, действия, сцены.

Когда роботы прозреют

— А что будет дальше, лет через десять?

— Хотелось бы, чтоб разработку компьютерного зрения довели до конца. Тогда у роботов появятся настоящие глаза, а значит, возможность понимать происходящее и адекватно реагировать. Иначе они не станут частью общества, а так и будут игрушками с пультами управления.

— Как системы, распознающие лица, изменят нашу жизнь в ближайшие годы?

— Вы совершенно точно заметите работу таких систем при авторизации — например, когда будете разблокировать телефон. Многие уже привыкли к Touch ID, но скоро самым распространённым способом станет вхождение в систему по лицу. Приходя домой, вы не будете искать ключи, на работе вам не понадобится пропуск. Ускорится обслуживание и самообслуживание в банках, магазинах — во всей сфере услуг: расчёты будут происходить без карточек. На улицах станет безопаснее, потому что появится видеонаблюдение с функциями отслеживания. Города и страны получат дополнительную защиту, а возмездие за преступление станет неизбежным. Система будет фиксировать всё: кто и где это сделал, куда потом пошёл. На смену понятию «безопасный город» придёт «умный город»: одна и та же инфраструктура будет обеспечивать безопасность и, допустим, управление потоками людей и машин, а также много чего другого.

— Одна и та же система установленных повсюду камер и компьютерного зрения?

— Да, алгоритму без разницы, кого распознавать: вип-клиента или воришку. Лица у всех устроены одинаково: глаза, рот и нос.

Но дело не только в лицах. Эта же система может заняться, скажем, регулированием освещения. Если в помещении нет людей, зачем жечь электричество? Машина вызовет коммунальные службы, если зафиксирует неполадки, и так далее.

— Жить в мире, где всё на виду, страшновато. Технически всё проще становится построить антиутопию, где за всеми ведётся тотальная слежка...

— Я думаю, в итоге мир станет лучше и намного безопаснее. Но обманывать будет труднее. Например, мы с партнёрами недавно разработали продукт, который не только даёт доступ в рабочее помещение, но и учитывает проведённое там время: пришли во столько-то, ушли во столько. Прогуляли, опоздали, не вернулись с обеда — всё будет зафиксировано.

— И никак нельзя будет от этого спрятаться? Наверняка появятся маски с чужим лицом.

— Безусловно, есть масса способов обмануть систему, и в этой области «гонка вооружений» только начинается. Был такой видеоролик, где учили делать макияж, препятствующий распознаванию. Но то было года три назад — нынешние алгоритмы так просто не проведёшь.

— А если вместо лица показывать фотографию?

— Чтобы вычислить мошенников, в системах распознавания лиц программируют специальный «детектор живости» (lifeness detector), который определяет, человек перед ним или фотография. Показателей живости несколько. Самый простой, который считается мировым стандартом, — это моргание. Ещё система может попросить человека улыбнуться, повернуть голову, приблизиться к камере, чтобы убедиться, что он реальный. Но если камера оснащена сенсором глубины, это не требуется: машина сразу понимает, что в кадре объёмный объект, а не фото.

Кто ещё в лидерах

Распознавание лиц — это не только наука и технологии, но и большой бизнес, который в развитых странах растёт стремительными темпами. Исследовательская компания Allied Market Research прогнозирует, что к 2022 году его оборот составит почти десять миллиардов долларов. Среди ведущих игроков есть и российские. Из десятков стартапов и исследовательских проектов мы выделили три самых успешных.

NTechLab. Выпускник МГУ Анатолий Кухаренко начинал с приложения, определявшего породу собак по фотографии. Но уже в 2015 году созданный им с партнёрами по NTechLab алгоритм ­FaceN одержал победу в двух из четырёх номинаций главного мирового конкурса по распознаванию лиц MegaFace, обойдя команду Google. Однако настоящая слава пришла к компании после разработки популярнейше­го приложения FindFace, предназначенного для поиска по фото людей в соцсети «ВКонтакте». Сегодня число заявок на интеграцию технологии FindFace приближается к тысяче.

Vocord. Компанию «Вокорд» можно смело считать чемпионом мира по распознаванию лиц: на сайте конкурса MegaFace она занимает первое место, лидируя с солидным отрывом. Команда «Вокорд» — ветераны на рынке систем компьютерного зрения: программу дистанционного биометрического определения лиц Vocord FaceControl они выпустили ещё в 2008 году. Сегодня их продуктами пользуются ­больше двух тысяч коммерческих и государственных организаций. Специализация компании — идентификация лиц, то есть поиск человека в толпе.

VisionLabs. Их продукты входят в тройку лучших мировых коммерческих систем распознавания лиц. Подробнее об этой компании читайте в основном тексте.

Опубликовано в специальном выпуске журнала «Кот Шрёдингера» за октябрь 2017 г.

Подписаться на «Кота Шрёдингера»


Источник: kot.sh

Комментарии: