Дэвид Форсит — Компьютерное зрение

2018-01-24 18:05

системы технического зрения, распознавание образов

Специалист по Computer Studies рассказывает об обучении сверточных нейросетей, компьютерной классификации изображений и приложениях компьютерного зрения

— Еще 50 лет назад не существовало ни компьютерного зрения, ни мультимедиа. Какие этапы прошло развитие этих технологий до 2012 года, когда глубокая нейронная сеть победила в распознавании изображений на ImageNet?

— Насчет мультимедиа это, скорее всего, верно, но компьютерное зрение существовало и 50 лет назад. В 1963 году Ларри Робертс из MIT опубликовал работу «Компьютерное восприятие в трехмерных объектах». Развитие этих технологий началось с осознанием самой возможности их создания — в этом и заключался тезис Робертса. Последующие десятилетия связаны с осознанием их трудоемкости. Важным было понимание того, что мир полон признаков трехмерных форм — это открытие 1970–1980-х годов. В 1990–2000-х пришло осознание того, что трехмерные формы могут быть реконструированы из фильмов и что для этого очень полезна геометрия. В 2000–2010-е была открыта польза статистических методов, пришло осознание того, что текстура играет важную роль в процессе распознания объекта. Следующим важным шагом стало применение сверточных нейронных сетей. Ян Лекун был одним из первых, кто осознал их потенциал. Несмотря на то что он пришел к этому уже в 1990-х, распространение этот метод получил к 2012 году, когда Крижевский, Сатскевер и Хинтон показали нам потрясающие результаты в классификации изображений на основе ImageNet с применением сверточных нейронных сетей.

— На что ориентировались исследователи, пытаясь повысить точность опознания объектов?

— Существенным был переход от малых массивов данных к более крупным и замена создаваемых человеком признаков системы на признаки, которые полностью конструируются автоматически. Это вызвало ряд вопросов. Например, если люди успешно распознают объекты без использования больших объемов данных, почему нам приходится снабжать ими компьютеры? Другой вопрос связан с тем, что у нас не существует ни одной теории, которую можно было бы использовать для контроля за действиями обученных признаков глубоких сетей. Случаи, когда изображение одной категории классифицируется как принадлежащее другой, очень характерны для глубоких сетей, но мы не знаем, как остановить подобное поведение.

— В чем конкретно состоят техники узнавания геометрических форм и цветов?

— Узнавание геометрических форм требует стратегий их реконструкции. Давно известно, каким образом можно воссоздать геометрию из фильмов, но не совсем ясно, как добиться этого в работе с одиночными изображениями. Узнавание цвета связано с идентификацией цвета поверхности в изображении. Это вызывает значительные трудности, потому как то, как мы видим цвет изображения, зависит одновременно и от цвета поверхности, и от света: белая карточка в красном свете выглядит так же, как красная в белом свете. Физическое обоснование этого требует много времени, хотя соответствующие алгоритмы существуют уже с 1970-х годов.

— Как устроен процесс классификации изображений?

— Мы берем большой набор категоризированных изображений, сверточную нейронную сеть и несколько ядер процессора и обучаем сеть на этих изображениях. Что в процессе обучения происходит в самой сети, для нас остается загадкой. Мы видим, как она идентифицирует локальные паттерны, их скопления, скопления этих скоплений и так далее и к получившемуся набору свойств применяет классификатор. До сих пор не до конца понятно, почему именно такой способ наиболее эффективен.

— А программа находит объекты на изображениях?

— Это происходит непосредственно после классификации. Сеть делит изображения на квадратные области. Вероятность того, что объект окажется в какой-то из них, довольно высока. К этим областям далее применяется классификатор, если он фиксирует в них объект, мы считаем его обнаруженным. Успешность этого процесса зависит от того, как изображение будет разделено на области. Если области будут слишком малыми, есть риск упустить объект. Но если сделать их слишком крупными, классификатор переполнится ложноположительными результатами.

— В каких областях применяются техники компьютерного зрения?

— В самых разных. Например, в киносъемках они активно используются для воссоздания движений камеры, благодаря чему можно вставлять в видео новые объекты или создавать видеоэффекты. В крупных строительных проектах компьютерное зрение применяется для создания виртуальной модели строительного объекта, с которой потом сверяются все планы. Такую модель получают на основе фотографий, снятых запущенным над объектом дроном. Google и Facebook наверняка уже применяют компьютерное зрение для размещения рекламы и привлечения пользователей. Ведется активная работа над автономными транспортными средствами — есть надежда, что применение компьютерного зрения повысит их надежность и безопасность. Автоматическая фотография уже даже не кажется нам новшеством, компьютерное зрение используется в большинстве современных любительских камер, которые без труда обнаруживают лица или исправляют эффект красных глаз.

— Каковы слабые стороны компьютерного зрения? Есть ли сферы, в которых оно все еще неприменимо?

— Мы до сих пор не совсем понимаем, что конкретно оно делает. У нас есть набор отработанных инструментов, которые очень полезны, но, например, мы все еще не понимаем, какую репрезентацию система зрения должна производить, чтобы считаться нам полезной. Нам непонятно, как научить ее находить и описывать редкие объекты или сцены. Все еще очень плохо удается описывать свойства физического объекта, определить, что он влажный, склизкий или бугристый. Не удается решать проблемы, в которых существует множество разных правильных ответов. Например, удивительно интересной в этом случае оказывается задача определения цветовых полей изображения, выполненного в оттенках серого. Успешнее всего удается разрешить проблемы, которые связаны с большими объемами тренировочных данных и при которых нам необходимо применять регрессию или дискриминацию.

— Как бы вы оценили уровень развития компьютерного зрения в отношении распознавания и понимания движений людей, человеческой активности?

— Постоянной загадкой остается то, как система компьютерного зрения, понимающая человеческую активность, повела бы себя. Какую информацию она бы смогла воспроизвести? Очень много сведений о разных людях мы получаем не в артикулированном виде, а в процессе наблюдения за ними. Например, нам известно, что обычно людям легко вести разговор, если они друг к другу расположены. Но как нам найти способ это выразить?

— А в отношении распознавания слов и изображений?

— В этом смысле компьютерное зрение за короткое время преодолело очень длинный путь, в частности, в вопросах техник и типах проблем, с которыми мы можем работать. Все еще имеются трудности, связанные с системами оценочных показателей: нам сложно судить о том, насколько успешно эти системы решают проблемы, неясно, какие именно проблемы нам стоит решать, как стоит определять исходные точки.

— Картинки какого типа компьютеру удается узнавать лучше всего, а какие, наоборот, хуже?

— К сожалению, на этот вопрос невозможно дать определенный ответ. Компьютеры успешно распознают те изображения, которые у них получается распознавать. В частности, это зависит от того, как много данных о типе этих изображений они имеют.

— А как происходит процесс обработки сцены? Насколько успешно на данный момент удается распознавать сцены? Какие исследования проводятся в этом направлении?

— Вы помещаете изображение в сеть, обученную распознавать сцены, и она присваивает сцене категорию по тому же принципу, по которому происходит классификация изображений. Как и в случае с классификацией, здесь наблюдаются значительные успехи. Большинство исследований связаны с формированием массива данных из различных сцен и созданием классификаторов, которые эффективно с ними работают. Однако все еще не совсем понятно, каким образом стоит формулировать категории для таких сцен. Чем вообще является сцена?

— Как развитие компьютерного зрения соотносится с развитием искусственного интеллекта? Каким образом искусственный интеллект должен развиваться как система, чтобы разработки в области компьютерного зрения не проходили независимо от него?

— Сомневаюсь, что кто-то может дать точный ответ на этот вопрос, хотя тут может быть множество мнений. Существует ряд убедительных биологических оснований полагать, что при очевидной ценности и важности зрения интеллект является некоторым специальным навыком. Множество животных особей успешно существуют без интеллекта, но особей, не имеющих развитой зрительной системы, почти нет — разве что кроме тех, которые обитают в темноте.

— В чем заключается биологический подход к созданию компьютерного зрения?

— Некоторым людям кажется необоснованным использовать для создания компьютерных зрительных систем принципы, реализуемые в биологических организмах. Но здесь есть неувязка: насколько мы можем утверждать, что сами понимаем эти принципы? Биологическое зрение в большей степени напоминает не систему принципов, а некоторую совокупность приемов, которые помогают животному успешно функционировать. Вообще говоря, биологический подход вдохновляет отдельных специалистов, но не меня. Однако не вижу ничего плохого в поиске идей в самых разных областях.

— Как на основе изображений реализовывается моделирование и визуальное воспроизводство? В какой сфере эти технологии применимы и каковы перспективы их развития?

— Основная идея заключается в том, что новые изображения можно создавать из фрагментов уже существующих, организованных особым образом — этот вывод чрезвычайно полезен. Одна из ключевых перспектив развития здесь связана с использованием знаний о том, как классификатор представляет изображения, для манипуляций с ними. Например, можно отрегулировать пиксели изображения таким образом, чтобы изображенный на нем объект был определен классификатором, настроенным на поиск деревянных объектов.

— Как скоро мы сможем получить машину, которая видит так же, как человек?

— Не уверен, что мы вообще способны определить, что машина видит все, как человек. Более продуктивным мне кажется просто создание машин, которые были бы нам полезны.

— Открывает ли новые возможности для компьютерного зрения возникновение новых типов нейросетей? Есть ли какие-то отдельные техники машинного обучения, которые могли бы способствовать очередному прорыву в этой области?

— Сегодня исследователи стараются применить в компьютерном зрении все возможные типы архитектуры нейронных сетей. Здесь делать какие-либо прогнозы довольно сложно. Нам до сих пор не до конца понятно, что именно позволило нейросетям стать бо?льшим, чем просто экспериментальная разработка: использование огромного объема данных, улучшенные обучающие алгоритмы, применение блоков линейной ректификации, графических процессоров или улучшенная оптимизация гиперпараметров — все эти новации были в них применены, но непонятно, какие именно отразились на эффективности таким впечатляющим образом.

— Каковы основные задачи и проблемы в сфере разработок, связанных с компьютерным зрением?

— Множество проблем мы можем решить, обратившись для этого к сферам классификации и регрессии, сковывающим нас, но удивительно полезным. Это необходимо, потому что мы действительно не слишком глубоко понимаем, какого рода визуальные репрезентации окружающего мира требуются для разных целей. Что мы в этом случае должны требовать от компьютера? Наверное, простое перечисление всех объектов на изображении и описание отношения между ними нам ничего не даст.

Другая важная задача связана с достижением глубокого понимания того, как функционируют уже существующие нейросети, чтобы в дальнейшем использовать более сложные методы. У нас есть много теорий относительно обучения, но они не объясняют нам то, что нам было бы важно знать о нейросетях. Например, мы знаем, что нейросети очень гибки и могут совмещать множество функций. Системы, обладающие такими свойствами, часто плохо поддаются генерализации, но нейросети генерализуются легко. В чем же причина?

Было бы также очень полезно добиться того, чтобы можно было судить о том, насколько метод, который был обучен и оценен на одном массиве данных, возможно применить к другому массиву данных. Также необходимо остановить критические атаки на нейросетевые исследования, но это требует такого уровня понимания всех процессов, которого мы пока не достигли.

Источник: postnauka.ru

Дэвид Форсит — Компьютерное зрение

Комментарии: