Узнать из миллиарда: возможности системы распознавания лиц от NTechlab

2016-10-19 20:30

методы распознавания образов, искусственный интеллект, ИИ проекты

Лаборатории NTechlab всего один год. За этот год команда заняла первое место на международном чемпионате по распознаванию лиц The MegaFace Benchmark, обогнав в том числе Google и команду Пекинского университета, и выпустила наделавшее шума приложение для поиска профиля в vk.com по фотографии FindFace. В составе NTechlab 20 человек, а в их активе уже 300 заявок от клиентов, 30 успешных тестов и облачное решение. Основатель лаборатории Артем Кухаренко рассказал, как получилось решить поставленную задачу эффективнее других и создать коммерчески востребованный продукт.

«Узнать из миллиарда» для команды NTechlab - не просто слова. Для поиска человека по базе в 1 миллиард фото требуется меньше секунды. «До нас никто не умел эффективно работать с большими базами фотографий, - говорит Артем Кухаренко. - Это преимущество дает ключ для решения реальных задач. Поиск преступника в режиме онлайн или определение постоянного покупателя по камерам в магазине системе -по зубам-».

Кроме отличной скорости поиска по большим базам фотографий, у алгоритма очень высокая точность распознавания. Секрет кроется в глубинном обучении и архитектуре нейронной сети. В лаборатории отмечают, что в разговоре про точность нужно понимать, как она измеряется. На больших базах фотографий она обычно ниже: найти одного человека из миллиона намного сложнее, чем одного из ста. На чемпионате The MegaFace Benchmark у NTechlab точность составляла 73% для базы в миллион фотографий, при этом на 10 000 фотографий - больше чем 95%. Если же говорить о задаче верификации, когда надо сравнить две фотографии, то здесь система безупречна более чем в 99% случаев.

Нейронная сеть - сердце и мозг системы. Для систем искусственного интеллекта сложными оказываются задачи, с которыми человеческий мозг справляется без труда. Мы легко узнаем лицо друга в толпе или определим породу собаки. В момент принятия решения на нас влияет миллион факторов и прошлый опыт. Эта же модель лежит в основе нейронных сетей. На вход нейрона подается множество неравнозначных сигналов. На основании их суммы он формирует выходной сигнал. Если система ошибается, то формула, отвечающая за вес входных сигналов, корректируется. Такое обучение на «собственных ошибках» повышает точность.

Удивительно, при виде знакомого лица в нашем мозгу происходят примерно те же операции, что и при машинном распознавании. Система получает исходное изображение, например, в случае с FindFace, фотографию случайного прохожего. Затем на этой фотографии распознается непосредственно лицо. По словам Артема Кухаренко, обнаружение лица - самая ресурсоемкая операция во всем процессе, каким бы странным это ни казалось. Сейчас команда работает над тем, чтобы этот алгоритм работал быстрее и требовал меньше ресурсов.

Второй этап распознавания - построение вектора признаков с помощью обученной нейронной сети. Вектор признаков представляет собой 80 чисел, которые содержат всю информацию о лице. Для одного человека числа очень похожи, для двух разных людей - сильно отличаются. Именно на этом отличии построена система поиска. На данном этапе нужно выявить информацию, которая не изменится, если человек наденет очки, отрастит бороду или если между фотографиями есть разница в несколько лет.

На последнем этапе происходит поиск этого «лица» по базе фотографий. Во время многочисленных исследований и вычислений для создания специального алгоритма поиска, команде разработчиков NTechlab требовались производительные рабочие станции. Выбор пал на ПК на базе процессоров Intel^ Core- i7, благодаря чему удалось создать действительно эффективный инструмент, который позволяет оперативно искать по большому объему фотографий. Если база увеличивается в 10 раз, то время поиска увеличивается не в 10, а только в 1,5 раза.

Возможности применения системы впечатляют: тут найдется место и легкомысленным приложениям для знакомств, и системам безопасности на государственном уровне. Безопасность - вообще одно из ключевых направлений, и здесь у разработки NTechlab одни козыри. Существующие системы решают задачу сравнения пары снимков, как в аэропорту, когда вашу фотографию из паспорта сравнивают с фотографией из базы. Однако этого недостаточно для обеспечения безопасности в масштабах города, например. Решение NTechlab способно в режиме реального времени обрабатывать информацию с тысяч камер наблюдения и обнаруживать преступников в огромном мегаполисе.

В розничной торговле система может заменить дисконтные карты. Достаточно сохранить вектор признаков покупателя по его фотографии. Когда он в следующий раз зайдет в торговый центр, его лицо распознают через камеру наблюдения. Кроме удобства, это решает проблему хранения личных данных - магазину больше не нужно хранить имена, фамилии, телефоны.

Для сферы развлечений реализован сценарий по поиску фотографий посетителей. Посетители делают селфи, отправляют боту, который возвращает все фотографии, на которые они попали. Эта схема хорошо ложится на фестивали, мероприятия, свадьбы. По словам Артема, у команды уже есть успешные кейсы для фестиваля Alfa Future People и австралийского парка аттракционов.

NTechlab не собираются расслабляться на волне первого успеха и уже запустили облачный сервис по распознаванию лиц. Любая компания может загрузить туда свою базу фотографий, осуществлять по ней поиск, встраивать в свои сервисы. В скором времени планируется запуск SDK для сторонних разработчиков, а еще через несколько месяцев - сервис по распознаванию лиц для обеспечения безопасности на предприятиях.

Сейчас в лаборатории работают над оптимизацией алгоритма и увеличением точности. В планах - распознавание эмоций по фотографиям и работа над модулем, который позволит отличать живого человека от его фотографии. Преуспеть в сфере искусственного интеллекта без постоянного развития невозможно.

Автор статьи: Ольга Останина

Источник: iq.intel.ru

Узнать из миллиарда: возможности системы распознавания лиц от NTechlab - iQ Russia

Комментарии: