Компьютерное зрение видит эмоции, пульс, дыхание и ложь — но как построить на этом стартап. Разговор с Neurodata Lab |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-08-28 16:05 Наши отношения с компьютерным зрением не были такими шумными, пока оно не научилось творить чудеса с человеческими лицами. Алгоритмы подменяют людей на фото и видео, меняют возраст, расу и пол. Это и главное интернет-развлечение последних лет, и источник тревог. Сегодня приложения штурмуют чарты, завтра протестующие пилят столбы с камерами, распознающими лица. И, кажется, мы только в самом начале пути. Того, что компьютер может считать с нашего лица, будет все больше и больше.
В начале месяца мы посетили офис Neurodata Lab. Основное направление для компании — распознавание человеческих эмоций. Мы постарались выяснить как это делается и зачем нужно. Neurodata Lab получила на «Моём круге» среднюю оценку 4,6 и среднюю рекомендацию 95% от своих сотрудников, которые выше всего оценили такие критерии, как профессиональный рост, интересные задачи, хорошие отношения с коллегами и то, что компания делает мир лучше. В 2016 году десять актеров — пять мужчин и пять женщин — приняли участие в необычных съемках. Они выходили на пустую площадку, одетые в черные обтягивающие костюмы, и на камеры, расположенные в разных углах комнаты, на фоне зеленой стены изображали «ничего» — просто свое нейтральное состояние. Затем актеры отыгрывали короткие сценарии. В сценариях не было реплик, только описания ситуаций, поэтому актеры импровизировали. В каждой сцене им нужно было пережить одну из шести эмоций — злость, печаль, отвращение, радость, страх или удивление. Мимика и жесты опытных актеров часто становится стереотипной, подходящей для театра больше, чем для реальной жизни, поэтому здесь все актеры были студентами. За ними следил преподаватель из киношколы, но не только. Основным режиссером была ученый и исследователь Ольга Перепелкина. Кроме видео и звука на съемках фиксировались биоэлектрические реакции поверхности кожи и другие физиологические характеристики. Каждую сцену снимали разным актерским составом несколько раз, и в итоге набрали около семи часов материала. Актеры, закончив работу, описывали, где и какие эмоции они в действительности испытывали во время игры. Затем видеоматериалы посмотрел еще 21 человек, и в каждом из видео они отмечали, какую эмоцию, как им кажется, испытывает актер. В какой момент эта эмоция начинается, и когда заканчивается. Так начиналась работа над первым русскоязычным мультимодальным датасетом для распознавания эмоций — RAMAS. Но полученный материал подходил только для научных исследований и экспериментов — не для обучения алгоритмов промышленного масштаба. — (Ольга Перепелкина) Нам нужно было собрать гигантский датасет. Не 7, а 107 и больше часов. Мы построили веб-платформу Emotion Miner, выгрузили туда кучу видео, которые есть в открытом доступе в интернете, привели туда десятки тысяч людей со всего мира, и они начали размечать данные. Таким образом мы разметили 140 часов видео по 20-ти шкалам (не только эмоции, но и разные когнитивные и социальные характеристики), и собрали самый большой в мире эмоциональный датасет. — А как вам удалось найти столько людей для разметки? — (О.П.) Все просто — мы платили им деньги за работу. Проводили рекламные акции, вложили небольшой бюджет в маркетинг. В принципе, это было не очень сложно. Сейчас на платформе зарегистрированы почти 70 тысяч человек. Но в действительности размечали датасет около двух тысяч человек. Продукты Стартап Neurodata Lab создали предприниматели Георгий Плиев и Максим Рябов. Они финансировали исследования не ради научного любопытства, а чтобы найти для технологии коммерческое применение. Сейчас Affective Computing или «эмоциональные вычисления» — не самая популярная сфера на рынке нейросетей и компьютерного зрения. Есть высокая конкуренция в сфере распознавания лиц. Развлекательные приложения попадают в центр внимания одно за другим. А системы, которые работают с эмоциями, не выходят из статуса «перспективных» уже несколько лет. Однако по прогнозам Gartner и других исследований ей прогнозируют бурный рост Принцип работы Человек учится определять эмоции неосознанно — с самого детства он начинает ассоциировать определенные паттерны поведения с эмоциями, которые испытывают люди вокруг. Уже научившись этому, он может проанализировать, по каким признакам это делает. Самое очевидное — по тому, какое выражение принимают рот и глаза. Но на лице множество мимических мышц, которые создают невероятное количество выразительных нюансов. Их мы воспринимаем автоматически, хотя можем осознанно зацепиться взглядом за определенные детали. Как идет разработка Neurodata Lab — небольшая компания, которая до недавнего времени существовала только как лаборатория. В ней есть научный отдел, команда Data Science и отдел разработки, который упаковывает новые разработки и открытия в продукты. Каждый отдел — это 5-6 человек. Всего в команде около 30 сотрудников. Ученые-исследователи В научном отделе работают психологи, физиологи и биологи. В штате всего четыре человека и три стажера, но они построили целую международную сеть коллабораций. Например, в России есть проекты совместно с МГУ, ВШЭ и РАНХиГС. За рубежом — с университетом Глазго, Парижским технологическим университетом, университетом Женевы, инженерной лабораторией в Генуе, которая занимается анализом движений. — (О.П.) Во-первых, они читают статьи. Например, мы захотели научиться распознавать ложь, а не только эмоции, и нужно разобраться — а что же такое ложь, как работает детектор лжи, что уже сделано в этой сфере, каковы проблемы классического полиграфа, как его можно обмануть, какие алгоритмы самые классные, как устроена человеческая психика, какие есть психологические особенности, возникающие, когда человек врет, как работает физиология, почему (и действительно ли) у человека холодеет нос и краснеют уши, когда он обманывает, и так далее. Потом мы проводим огромное количество экспериментов. Для того, чтобы создать систему, которая распознает пульс и частоту дыхания по видео, нужно было собрать много данных. К нам постоянно приходят испытуемые, у нас есть оборудование и всякие штуки, которые контактным образом измеряют пульс человека. Измеряем ЭКГ, фотоплетизмографию, кожно-гальваническую реакцию. У нас были прикольные эксперименты, когда мы хотели понять, как двигается кровоток по лицу, и тогда мы наклеивали электроды прямо на лицо. Наконец, мы показываем людям разные видосики. Пытаемся их напугать или наоборот — развеселить. Научные сотрудники анализируют данные, считают статистику, на основе этих данных пишут статьи и патенты. Приходят потом в технический отдел к Андрею и говорят: «Мы вычитали классную штуку, провели эксперимент, можно попробовать сделать алгоритм, который будет работать вот так». Или Андрей приходит к нам и говорит: «Мы хотим детектировать падения, нужно придумать как собрать данные». И научный отдел садится и думает, как это можно сделать просто и быстро. — Работа мечты. — (А.Б.) Одни думают — другие делают. Дата сайентисты и разработчики Отдел Data Science работает параллельно с разработкой продуктов. Датасаентисты обучают нейросети на Torch, когда есть пространство для маневра в исследованиях, и на MXnet, когда нужно сделать быстро работающее решение. После подтверждения всех гипотез о применимости нейросетей ребята переносят их на TensorRT для увеличения скорости работы и отдают команде разработки для внедрения в продакшн. Как идет набор команды Весной в команду пришли продакт-менеджеры, и теперь стартапу нужны разработчики. Бэкендеры, которые будут поддерживать веб на PHP и Symphony, либо убедят переехать, например, на Python или Go. Фронтендер, который будет делать страницы для новых веб-сервисов, расширять функционал и улучшать юзабилити уже существующих. Разработчик ядра, который, помимо знания Python на высоком уровне, понимает Data Science и специфику работы с железом, тестировщики, С++ разработчики для работы с SDK и многие другие. — Как у вас проходит найм?— (А.Б.) Для дата сайентистов я скидываю не очень сложную, но довольно показательную задачу, по которой можно судить о навыке думать и программировать. Я сам делаю ее за сорок минут. Джуниор справляется за 4-6 часов. После этого мы созваниваемся и обсуждаем технические моменты. Я ему предлагаю побрейнштормить над новой задачей. Мы вместе строим гипотезы, вместе проверяем. Я просто смотрю, как человек себя чувствует в незнакомой обстановке в плане задач. Понимает ли он, как происходит процесс разработки моделей, с чем там можно столкнуться и чего не стоит бояться. После этих этапов остается где-то 10% людей. На джунов обычно откликается человек 50. Пятерых оставшихся мы зовем на финальное собеседование к нам в офис, и просто общаемся с почти полной готовностью взять в команду. — А с разработчиками? — (А.Б.) А вот с разработчиками у нас все немного хуже. Мы даем им такое тестовое: нужно развернуть маленький сервис на любом фреймворке, какой нравится, внутри докера. Этот сервис должен общаться с другими докерами, в которых лежит Postgres и RabbitMQ. Есть задача читать в рэббите канал, принимать оттуда задачу по наполнению БД и записывать все в базу данных. Казалось бы, задача эта очень простая, ее делать где-то час. Но все рушится, когда мы говорим, что будем передавать для записи в базу данных картинки. Постоянно получается так, что эту задачу все решают абсолютно по-разному. И у каждого человека почти всегда есть какая-то новая идея, которую я до этого вообще даже не видел и не представлял. Но при этом все чего-то не досматривают. На тестовом отсекается примерно половина кандидатов. Потом мы тоже зовем разработчиков в офис. Начинаем разговаривать на общие темы, узнавать, что дальше, что хочется и прочее. И после этого, к сожалению, у нас почти 0% выхлопа. — По каким критериям вы понимаете, что человеку не хватает софт скиллов или он не сможет работать в стартапе? — (А.Б.) Простыми разговорами из разряда: «Слушай, а представь, что...». Он начинает развивать мысль, и ты случайно добавляешь, что у нас горят сроки, и осталось две недели на проект, который надо делать два месяца. Некоторые говорят: «Такого нельзя допускать». Окей. Другие говорят: «Это очень плохо, но мы выжмем максимум. Всего, конечно же, не сделаем. Может половину, но это уже лучше, чем четверть. И вообще все будет классно, потому что самое ужасное — это незаконченный проект». Вот такие люди — сразу да. Дело в отношении к задаче. Этические нормы и моральные дилеммы Распознавание лиц, эмоциональные вычисления — все это исследования и технологии, основанные на данных. Вопросы из разряда, «кому должны принадлежать данные», «кто и как должен контролировать их сбор» — современная пограничная территория. Источник: habr.com Комментарии: |
|