Как мы учили компьютеры понимать картинки

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Позвольте вам кое-что показать. 

(Видео) Девочка: Кот сидит на кровати. Мальчик гладит слона. Люди садятся в самолёт. Это большой самолёт. 

Фей-Фей Ли: Трёхлетняя девочка описывает то, что она видит на фотографиях. Ей предстоит ещё много узнать об этом мире, но она уже довольно искусно справляется с очень важной задачей: она осознаёт то, что видит. Наше общество технологически развито больше, чем когда-либо. Мы отправляем людей на Луну, создаём телефоны, которые говорят с нами, и настраиваем радиостанции, чтобы слушать только такую музыку, которая нам нравится. Но эта задача всё ещё не под силу нашим самым продвинутым механизмам и компьютерам. Сегодня я выступлю перед вами с докладом о наших последних достижениях в области машинного зрения, одной из самых передовых и потенциально революционных технологий в области компьютерных наук. 

Да, мы создали прототипы беспилотных автомобилей, но без компьютерного зрения они не смогут отличить на дороге бумажный пакет, по которому можно проехать, от камня похожего размера, который стоит объехать. Мы создали замечательные мегапиксельные камеры, но не смогли вернуть зрение слепым. Беспилотные аппараты могут преодолевать огромные расстояния, но не обладают достаточной технологией зрения, чтобы помочь нам отслеживать динамику вырубки тропических лесов. Повсюду находятся камеры видеонаблюдения, но они не могут предупредить нас о тонущем в бассейне ребёнке. Фотографии и видеоролики становятся неотъемлемой частью нашей жизни. Они накапливаются с такой скоростью, что их все невозможно просмотреть ни одному человеку, ни группе людей. Мы, участники TED, тоже этому поспособствовали. Нашему самому продвинутому программному обеспечению не под силу воспринимать этот огромный массив данных и управлять им. Иначе говоря, коллективно наше общество слепо, потому что наши самые умные машины всё ещё не умеют видеть. 

«Почему же это так сложно?» — спросите вы. Фотокамеры могут делать вот такие фотографии, преобразовывая свет в двухмерную числовую последовательность, известную как «пиксели». Но это просто числа. Они не несут в себе никакого смысла. Так же, как «слышать» — не то же самое, что «слушать», «делать» фотографии — не то же самое, что «видеть» их, а под «видеть», конечно же, имеется в виду «понимать». Природе пришлось усердно трудиться в течение 540 миллионов лет, чтобы решить эту задачу, и многие из этих усилий были направлены на создание аппарата обработки визуальных данных в нашем мозге, а не глаз как таковых. Зрение начинается с глаз, но фактически происходит в мозге. 

В течение вот уже 15 лет, начиная с аспирантуры в Калтехе, а затем возглавляя стэнфордскую лабораторию зрения, я работаю вместе с наставниками, коллегами и студентами, обучая компьютеры видеть. Сфера наших исследований — машинное зрение и обучение машин. Это часть области под названием искусственный интеллект. Наша главная задача — научить машины видеть, так как это можем мы: называть объекты, узнавать людей, использовать трёхмерную геометрию вещей, понимать отношения, эмоции, действия и намерения. Мы можем создавать целые истории о людях, местах, вещах — стоит нам только на них взглянуть. 

Первый шаг к этой цели — научить машины видеть объекты, стандартные элементы визуального мира. Простыми словами, процесс обучения — это демонстрация компьютеру некоторых обучающих изображений определённых объектов, например, кошек, и разработка модели, которая обучается на основе данных изображений. Насколько это может быть сложным? Кошка — это просто набор очертаний и цветов, и именно этим мы занимались на заре моделирования объектов. Посредством математического алгоритма мы сообщали компьютеру, что у кошки круглая морда, пухленькое тело, два острых уха и длинный хвост, и этого было достаточно. А как насчёт этого кота? (Смех) Он изогнут непонятно как. Нужно добавить ещё одну форму и точку обзора в модель. А если кот прячется? Как насчёт этих смешных котов? Теперь вы меня понимаете. Даже простой домашний питомец может представлять бесконечное число вариаций в модели объекта, а это всего лишь один объект. 

Где-то восемь лет назад простое, но значительное наблюдение изменило ход моих мыслей. Никто не говорит ребёнку, как надо видеть, особенно в ранние годы жизни. Он учится этому на реальных примерах. Если предположить, что глаза ребёнка — это пара биологических камер, то они делают один снимок каждые 200 миллисекунд, — среднее время движения глазного яблока. К трём годам ребёнок уже увидит сотни миллионов изображений окружающего мира. Это очень много обучающих примеров. И вместо того, чтобы улучшать алгоритмы, я предложила предоставить этим алгоритмам такую же обучающую информацию, которую через опыт получает ребёнок, в таком же количестве и качестве. 

Как только мы это осознали, мы поняли, что нам нужно было собрать базу данных, содержащую намного больше изображений, чем когда-либо ранее, возможно, в тысячи раз больше. В 2007 году я и профессор Кай Ли из Принстонского университета запустили проект ImageNet. К счастью, нам не пришлось устанавливать камеру себе на голову и ждать много лет. Мы использовали интернет — кладезь изображений, самую большую из созданных человечеством. Мы скачали почти миллиард изображений и для их описания применили краудсорсинг-платформу Amazon Mechanical Turk. На пике активности ImageNet была одним из самых популярных работодателей для сотрудников Amazon Mechanical Turk: порядка 50 000 работников из 167 стран мира помогли нам привести в порядок, отсортировать и описать почти миллиард изображений-кандидатов. Вот сколько потребовалось усилий, чтобы охватить лишь малую часть той базы изображений, которую создаёт мозг ребёнка в ранние годы развития. 

Оглядываясь назад, идея использования большого архива данных для обучения компьютеров сейчас может показаться очевидной, но в 2007 году это было далеко не так. Долгое время у нас совсем не было единомышленников. Некоторые дружелюбные коллеги советовали мне заняться более полезным делом, и нам никогда не хватало денег на исследования. Однажды я даже пошутила со своими студентами, что я снова открою свою химчистку, чтобы профинансировать ImageNet. В конце концов, именно с её помощью я оплатила обучение в университете. 

И мы продолжили работать. В 2009 году проект ImageNet собрал базу из 15 миллионов изображений, 22 тысяч классов объектов и предметов, упорядоченных при помощи повседневных английских слов. Как количественно, так и качественно это был беспрецедентный по размеру проект. Например, в случае с котами в базе содержится более 62 000 котов разных пород, в разных позах, всех видов, как домашних, так и диких. Мы были на седьмом небе от счастья, когда база ImageNet была готова. Мы хотели, чтобы она принесла пользу всему научному сообществу. И мы, как и TED, открыли бесплатный неограниченный доступ к базе данных для всего мирового научного сообщества. (Аплодисменты) 

Сейчас, когда у нас есть база данных, чтобы питать наш компьютерный мозг, мы готовы вернуться к алгоритмам. Как оказалось, база данных, предоставленная ImageNet, точно подходила для определённого класса алгоритмов обучения машин, который называется свёрточная нейронная сеть, начало которому положили Кунихико Фукушима, Джефф Хинтон и Ян ЛеКун ещё в 1970-е и 80-е годы. Так же как и в мозге, состоящем из миллиардов взаимосвязанных нейронов, простейшей операционной единицей нейронной сети является нейроподобный узел. Он принимает входные данные от одних узлов и отправляет выходные данные другим. Более того, сотни тысяч или даже миллионы таких узлов упорядочены по иерархическим уровням, также по аналогии с человеческим мозгом. В обычной нейронной сети, которую мы используем для обучения нашей модели распознавания, содержится 24 миллиона узлов, 140 миллионов параметров и 15 миллиардов связей. Эта модель огромна. Функционирующая на основе базы ImageNet при помощи современных микропроцессоров для обучения этой огромной модели, свёрточная нейронная сеть превзошла все ожидания. Она позволила создать эффективную систему для получения новых многообещающих результатов в распознавании объектов. Вот компьютер, который говорит нам,  что на картинке есть кот и где этот кот находится. Конечно, на картинках не только коты. Вот компьютер, который сообщает нам, что на фото мальчик и плюшевый мишка, собака, человек, и маленький воздушный змей на заднем фоне. Или фотография с большим количеством объектов: мужчина, скейтборд, перила, фонарь и т.д. Когда компьютер не уверен в том, что он видит, он обучен действовать по-умному и давать нам наиболее безопасный ответ, без неоправданных рисков, что именно и сделал бы человек. Но бывает и так, что наш алгоритм совершенно безошибочно сообщает нам, какие объекты он видит. Например, марку, модель и год выпуска автомобиля. 

Мы применили этот алгоритм к миллионам фотографий на Google Street View из сотен американских городов и получили очень интересные результаты. Во-первых, они подтвердили известный факт, что стоимость автомобиля зависит от дохода семьи. Но, к удивлению, цены на автомобили также зависят от уровня преступности в городах или даже модели голосования в разных штатах. 

Минутку. Это свершилось? Компьютеры догнали или даже превзошли человеческие возможности? Не тут-то было. Пока мы научили компьютеры только видеть объекты. Это сродни тому, как маленький ребёнок учится произносить несколько слов. Это невероятное достижение, но это всего лишь первый шаг. Вскоре будет пройден новый этап развития, и ребёнок сможет составлять из слов предложения. И вместо того чтобы сказать, что на картинке кошка, маленькая девочка скажет, что кошка лежит на кровати. 

Для того чтобы научить компьютер видеть картинку и составлять предложения, связь между большой базой данных и алгоритмом обучения машин должна выйти на новый уровень. Теперь компьютер должен учиться не только по фотографиям, но и на основе предложений естественного языка, составляемых человеком. Отталкиваясь от факта, что мозг объединяет зрение и язык, мы разработали модель, соединяющую части визуальной картины, как маленькие фрагменты, со словами и фразами в предложениях. 

Около четырёх месяцев назад мы привели всё это к общему знаменателю и создали одну из первых моделей компьютерного зрения, способную, подобно человеку, создавать предложения после просмотра фотографии в первый раз. Сейчас я покажу вам, что говорит компьютер, когда видит фотографию, которую описывала девочка в начале этого доклада. 

(Видео) Компьютер: Рядом со слоном стоит мужчина. Большой самолёт находится на взлётно-посадочной полосе аэропорта. 

ФФЛ: Конечно, мы продолжаем усердно работать над улучшением нашего алгоритма, и ему предстоит ещё многому научиться. (Аплодисменты) 

Компьютер всё ещё допускает ошибки. 

(Видео) Компьютер: Кот лежит на кровати в одеяле. 

ФФЛ: Конечно, когда он видит слишком много котов, он считает, что всё остальное тоже выглядит как кот. 

(Видео) Компьютер: Мальчик держит бейсбольную биту. (Смех) 

ФФЛ: Если он не видел зубной щётки, он принимает её за бейсбольную биту. 

(Видео) Компьютер: Мужчина едет верхом по улице рядом со зданием. (Смех) 

ФФЛ: Мы не обучили компьютер основам искусства. 

(Видео) Компьютер: Зебра стоит на поле с травой. 

ФФЛ: Он также ещё не может оценить красоту природы так, как это можем мы с вами. 

Это длительный процесс. Дорасти до трёх лет было трудно. Ещё сложнее — от трёх до тринадцати и так далее. Позвольте вам снова показать фотографию мальчика с тортом. Компьютер уже умеет видеть предметы и даже вкратце рассказывать историю о том, что изображено на фотографии. 

(Видео) Компьютер: Человек сидит за столом с тортом. 

ФФЛ: На этой фотографии изображено гораздо больше, чем просто человек и торт. Компьютер не видит, что это особый итальянский торт, который пекут только во время Пасхи. На мальчике надета его любимая футболка, которую ему подарил отец после поездки в Сидней. И невооружённым глазом видно, как счастлив мальчик и о чём именно он думает в этот момент. 

Это мой сын Лео. В моих поисках визуального интеллекта я постоянно думаю о Лео и о том мире, в котором он будет жить. Когда машины будут способны видеть, доктора и медсёстры обзаведутся дополнительной парой неустающих глаз для диагностики заболеваний и ухода за пациентами. Машины на дорогах станут умнее и безопаснее. Не только люди, но и роботы смогут оказывать помощь в зонах бедствий и спасать людей из-под завалов. С помощью машин мы откроем новые виды животных и растений, усовершенствуем материалы и расширим границы своей деятельности. 

Постепенно машины обретут зрение. Сначала мы научим их видеть. Затем они помогут видеть лучше нам самим. Впервые человек будет осваивать и осознавать мир посредством не только своих, но и компьютерных глаз. Мы будем не только использовать машины благодаря их интеллекту, но и работать совместно с ними так, как никто и не мог вообразить. 

Это моя задача: дать машинам визуальный интеллект и создать лучшее будущее для Лео и всего мира. 

Спасибо. 


Источник: www.ted.com

Комментарии: