Станислав Протасов — Обучение автономных систем

2017-09-28 13:25

ПостНаука рассказывает о современных технологиях в проекте «Банк знаний», созданном совместно с Корпоративным университетом Сбербанка. На этот раз кандидат физико-математических наук Станислав Протасов говорит об обучении автономных систем, глупых роботах и интеллектуальных возможностях машин.

— Как новый виток развития технологий машинного обучения повлиял на достижения робототехники? Как самообучающиеся системы способствуют появлению более автономных устройств?

— Я бы не стал объединять тренды развития робототехники и искусственного интеллекта. Проблемы, с которыми столкнулись две эти области, оказались совершенно разными. Здесь нужен экскурс в историю обоих направлений.

Развитие искусственного интеллекта (которое связывают преимущественно с достижениями в архитектурах искусственных нейронных сетей (ИНС)) все еще ограничено существующими математическими моделями и вычислительными ресурсами. Очередная «зима нейронных сетей», как принято считать, закончилась в 2012 году: модель сверточных нейронных сетей AlexNet победила на соревнованиях ImageNet по распознаванию изображений, продемонстрировав качественный рывок: доля ошибок при топ-5 распознавании была 15,4%, в то время как у второго места — 26,2%. Стало понятно, что качество распознавания объектов может быть близким к человеческому. Модели машинного обучения, используемые в Facebook Research или Google Research, уже сейчас опережают людей по качеству распознавания: если показать человеку пачку картинок, он будет ошибаться в распознавании чаще, чем машинный интеллект.

На волне таких достижений появилось много ученых и инженеров, которые хотели бы приобщиться к технологиям искусственного интеллекта. Если раньше все пользовались давно существующими инструментами, то с 2012 года выросло огромное сообщество. Facebook взялась за развитие библиотеки машинного обучения Caffe2, также огромное сообщество выросло вокруг TensorFlow — системы open-sourceот Google.

Сообщество во многом способствовало тому, что модели машинного обучения получали все больше и больше данных для «тренировки». Математические модели, предложенные Яном Лекуном в конце 1990-х годов, получили, с одной стороны, вычислительные мощности (за счет развития многоядерных процессоров и графических карт), с другой — возможность «тренироваться» на больших объемах данных. Сложившееся сообщество разработчиков стало браться за самые разные задачи, стало экспериментировать с новыми подходами, связанными с машинным обучением. Одновременно развивается «железная» база. Так, Google разрабатывает Tensor processing unit (TPU) — для тензорных вычислений — основной составляющей обучения нейронных сетей.

На границе XX и XXI веков появились очень способные рекуррентные нейросети. Например, архитектура LSTM (долгой краткосрочной памяти, Long short-term memory) помогла на качественно новом уровне выстроить работу с естественным языком. Многие знают, что за счет нейросетей удалось повысить точность машинного перевода. Это ощутимо на бытовом уровне. Я сам заметил, что теперь отправляю текст на русском в Google Translate и затем редактирую текст предложенного варианта перевода, используя его как черновик. Раньше я предпочитал переводить самостоятельно с нуля.

— А у робототехники была «зима»?

— Робототехника существует, например, на заводах бесконечно долго, и здесь, на мой взгляд, «зимы» не было. Наличие у роботов искусственного интеллекта — это совершенно другая история. Это вопрос не про развитие робототехники, а про создание искусственного интеллекта.

В робототехнике произошли, конечно, свои важные события, но здесь я подхожу скорее с позиции наблюдателя. Я заметил, что стало расти число разработчиков дронов. На самом деле то, что появилось множество летающих аппаратов, — большое достижение. Появилось новое поколение легких и одновременно емких аккумуляторов. Одновременно электроника становилась все более легкой и мощной. Поэтому роботы стали не только передвигаться по земле, но и отправляться в небо и под воду.

Я помню, что в 2010 году компания WillowGarage, которая плотно работала с командой разработчиков OpenCV (открытой библиотекой алгоритмов компьютерного зрения), показывала робота. Он перемещался со штепселем «в руке», искал по меткам розетку, втыкал штепсель и подзаряжался. В 2014 году на Skolkovo Robotics я расспрашивал ребят, разработавших дроны, и они рассказывали, что в отношении времени в воздухе речь шла максимум о десятках минут. Вопрос автономности всегда стоял очень остро. А сейчас Amazon уже доставляет посылки дронами в Великобритании. Недавно в Иннополисе я общался с разработчиками проекта, которые рассчитывают возить почту из аэропорта с помощью дронов. Это показывает, как быстро развиваются способности дронов в отношении времени автономной работы, грузоподъемности и надежности.

Мы увидели накопление изменений, которые привели к качественному скачку. Изменились инженерные решения, способы 3D-печати, появились новые, более легкие материалы, эволюционировали аккумуляторы. Более мощный процессор быстрее обсчитывает: он потребляет меньше энергии, а прокладывает маршрут лучше. Становятся легче сенсоры. Более легкими стали камеры и системы компьютерного зрения. Мне недавно попалось видео, где камеры GoPro повесили на орла. Птица не испытала особых проблем, и ребята получили отличное панорамное видео.

Все эти новшества касаются всех типов роботов. Они имеют свои предпосылки: удешевление компонентов в эпоху массового производства, развитие технологий 3D-печати и другие. Поэтому, когда у искусственного интеллекта начались крупные успехи, снова вспомнили про роботов. Исторически было модно объединять робототехнику и искусственный интеллект в одну область.

— И как тогда выглядит смычка робототехники и технологий искусственного интеллекта?

— Раньше и сейчас роботы работали по заданным программам, «неинтеллектуально». Например, робот может ехать по сплошной линии, штампует ванны или детали корпуса Tesla на заводе из листа стали. Чем больше ты доверяешь его автономности в принятии решений, тем «умнее» он должен быть. Очевидно, что здесь используют последние достижения в области искусственного интеллекта. Одно из них — машинное зрение. То, как машинное обучение подстегнуло качество распознавания изображений, сказалось на том, что роботу, который условно автономен и гарантирует очень высокую точность распознавания изображений, можно дать более критические задачи.

Патрулирующие роботы и автономные автомобили допускают ошибки, но делают это гораздо реже, чем раньше. Их уже сейчас можно выпустить на дороги общего пользования. Совокупность факторов в развитие «железа», инженерных решений, активности сообщества разработчиков вокруг открытых решений — все это позволило роботам выйти за пределы нишевых применений и привлекать специалистов все более широкого профиля. Я имею в виду, что долгое время разработчики роботов были зачастую специалистами достаточно узких дисциплин. Сейчас ситуация меняется: мехатроника и робототехника становятся полем междисциплинарных исследований.

— Робототехника становится модной?

— В России бум детской робототехники. Каждая школа, университет, детский кружок внедряют программы по робототехнике. У всех конструкторы для программируемой робототехники, все учатся писать программы. И когда у абитуриентов в университете спрашиваешь, чем они хотят заниматься, они отвечают: «искусственный интеллект», «робототехника» и «информационная безопасность». Дети не могут сказать, что именно они вкладывают в эти слова, но эти слова для них про «волшебное будущее», ассоциирующееся с возможностью заработать много денег, если удастся стать профессионалом. Сообщество разработчиков растет за счет детей, за счет студентов, за счет появления магистратур по робототехнике в разных вузах.

— Насколько машинное обучение отвечает за современное состояние робототехники?

— В робототехнике задачи действительно в первую очередь инженерные. А машинное обучение — это про душу робота. У ученых, которые работают в робототехнике, совершенно другой стиль мышления, чем у математиков и специалистов по машинному обучению. Те, кто занимается роботами, мыслят задачами точности позиционирования, свойствами материалов.

Например, проект «Гагарин» в Иннополисе. Инженеры построили хорошую современную мехатронную голову. В ней около тридцати сервоприводов: она смотрит камерами, слышит, моргает, улыбается, поднимает брови. Проект добавляет к этому телу технологии компьютерного зрения для распознавания лиц и эмоций собеседника, технологии распознавания и синтеза речи, учит общаться с человеком. В плане же «интеллектуальности» робот использует открытые решения: распознавание объектов в окружающей обстановке, анализ эмоций собеседника, системы голосового управления — все это берется из решений в открытом доступе. В этом смысле многие робототехнические улучшения — это попытка «прикрутить» к Robot Operating System самые разные инструменты, доступные на рынке. Вся сложность именно в том, чтобы работа всех компонентов и всех систем, в каком-то смысле «надерганных» из разных мест, была слаженной.

Конечно, в робототехнике машинное обучение применяется не только для «оживления» голов. Например, задачи по равновесию бипедальных, гусеничных, колесных роботов и летающих дронов хорошо решаются средствами машинного обучения.

— Поэтому все большее распространение получают специализированные роботы?

— Сегодня действительно разработчики фокусируются на создании роботов, которые умели бы решать конкретные и часто прикладные задачи. Но я пока не видел реально полезных моделей антропоморфных роботов, которые бы вели себя как люди, демонстрировали признаки интеллекта и при этом были бы действительно полезными помощниками. Скажем, смотришь на двуногого робота Atlas от Boston Dynamics и понимаешь, что через пару лет он действительно будет обладать всеми степенями свободы человека и выполнять многие задачи не хуже. Но одновременно думаешь о том, что если разработчики ставят задачу максимизировать скорость перемещения робота, то Atlas должен быть не на двух ногах, а на колесах. Или вряд ли должен быть прямоходящим.

Я думаю, что попытка сделать антропоморфных роботов навеяна научной фантастикой. Это, кстати, часто происходит в робототехнике в целом, и не только в отношении уподобления роботов человеку. Например, заметьте, сегодня задумываются о регулировании все более интеллектуальных роботов, и в разработке законодательной базы для робототехники опираются на три закона робототехники Азимова. Даже здесь научная фантастика указывает путь.

— Какие «умные» технологии помогают роботам все лучше справляться с прикладными задачами?

— В каком-то смысле машинное обучение стало «серебряной пулей».

Начнем с задач распознавания объектов. После успехов с ImageNet все задумались, что цифровых данных, похожих на картинки (с точки зрения машинной обработки), очень много. Картинка — это прямоугольник, который можно разложить на несколько слоев, как минимум по трем цветам. Их может быть больше, когда речь идет о многоспектральных и гиперспектральных изображениях. К этим слоям еще добавляется временная шкала — получается тензор. Данных, представимых в виде тензора, помимо видео и картинок, много, например медицинские изображения. Или данные с сенсоров мобильного телефона, или, например, параметры устройств из «умных домов» — это такие же тензоры данных.

Современные модели ИНС и методы их обучения оказались достаточно универсальными для всех этих данных. Например, метод активного обучения (когда алгоритм сам назначает прецедент, на котором будет учиться) можно приложить к задаче наблюдения за посевами с помощью аэрофотосъемки, а можно к задаче обучения вождению автомобиля — в обоих случаях это позволит уменьшить размер размеченной обучающей выборки, а значит, ручной труд эксперта.

— Какие новые методы машинного обучения приходят в робототехнику?

— Очень многие новые решения используют ИНС. Раньше от нейросетей, грубо говоря, ждали ответа на два типа вопросов о данных. Первый — к какой группе отнести объект? С этими справлялись алгоритмы классификации. Второй вопрос — сколько баллов поставить? Например, для ранжирования поисковой выдачи или для рейтингования заемщиков по надежности.

Современные достижения в машинном обучении позволяют отвечать на все более сложные вопросы. Повсеместно начинают использоваться алгоритмы deep learning, кардинально отличающиеся, на мой взгляд, от классического машинного обучения. Deep learning уменьшает объем ручной работы эксперта с системой. Раньше ученому нужно было рассказывать, на каких признаках нужно учиться. «Тренировка» моделей требовала и труда ученого, и вычислительных ресурсов. Deep learning предполагает, что машине можно просто отдать сырые данные на вход, машина разберется, как ей учиться, самостоятельно. Автокодировщик — простой пример архитектуры алгоритмов для обучения нейросетей «без учителя» — в его самом примитивном воплощении сводится к нейросети с тремя слоями: входным, промежуточным и выходным. Значения на выходном слое должны получаться как можно более близким к входному. Но что происходит в среднем скрытом слое — знает только машина.

Именно поэтому сейчас все говорят о том, что машинное обучение — это про то, как обобщать данные, как выделить из них то, что можно назвать философской категорией «концепт».

Эти способности к генерализации и к выявлению концептов нейросети развиваются настолько быстро, что это действительно может показаться пугающим. Один из ботов проекта OpenAI недавно обошел игрока в Dota2, причем учился он в игре с самим собой, никто специально с ним не играл. Алгоритмы компании DeepMind, очевидно, будет выигрывать у людей во все более сложных играх и не остановятся на успехах в игре в го или в игре Atari. Проект comma.ai учится водить машину по изображению за лобовым стеклом. Это заставляет задуматься: машине дают просто картинки реального или выдуманного мира, и этого достаточно, чтобы она показывала совершенно удивительные способности к обобщению данных.

Это означает, что от классического машинного обучения, когда нужна подготовленная обучающая выборка и надзор за обучением нейросетей, мы переходим к моделям, при которых достаточно отправить алгоритм в реальный мир. Из этого вытекает то, что, действительно, очень скоро в мире появится достаточно большое количество систем, способных заменить людей. И вот здесь важно, что именно инженерные новшества в робототехнике дадут «оболочку» все более самостоятельным системам на основе нейросетей. Роботы действительно будут вытеснять людей в поле задач, которые имеют достаточно рутинную природу. Я, например, ожидаю, что еще на моем веку в мире исчезнут таксисты и охранники.

— В каких отраслях интеллектуальные системы уже заменяют людей?

— Нужно вспомнить не только робототехнические системы, но и «интеллектуальных агентов». Голосовые ассистенты уже умеют держать контекст разговора, но пока они построены на том, что одна программа умеет связываться с другими программами с помощью wizards — специально написанных правил. Но на самом деле даже этого сейчас для пользователей может быть достаточно. Я могу попросить голосового ассистента поставить музыку, позвонить другу, заказать товары в магазине. При этом помощник найдет самый дешевый вариант и закажет доставку до дома. Я готов потратить чуть больше времени на объяснения, зная, что я сам сравнивать варианты буду дольше и еще, возможно, выгодное предложение пропущу. Такие сценарии уже работают в отдельных решениях, и я уверен, что они все активнее будут входить в жизнь.

Голосовые помощники являются основой систем «умного дома». Но пока реальных воплощений по-настоящему «умных домов» мало. Даже экскурсия по дому Марка Цукерберга не представляет нам «умного дома»: помощник Цукерберга умеет раздвигать шторы и включать музыку, но, кажется, потенциал ассистентов в доме должен быть куда больше. Сегодня на этом рынке ждут прорывов от Amazon, Google и Apple. Все они представили домашних ассистентов.

В целом я вижу большое будущее для систем специализированного искусственного интеллекта. Пример — разработчики системы Watson от IBM делают ставку на совершенствовании диалогового интерфейса. При этом на базе Watson уже создан не один коммерческий проект. Такой подход — построение искусственного интеллекта для одной задачи, но максимально «умного» — выглядит перспективнее, чем создание бота, запускающего по очереди программы. Ведь решения, связанные с набором wizards, будут приобретать все более сложную логику, все более разветвленные пути поиска решений. Возможно, рано или поздно масштабировать их станет слишком сложно.

— Что сегодня может сдерживать прогресс в обучении нейросетей, в прогрессе искусственного интеллекта?

— Главной сложностью, несмотря на то что я сказал, все равно остаются качественные данные. Подготовка данных все еще требует серьезного вовлечения человека. Дело не столько в том, что нужно размечать объекты на изображениях, сколько в первоначальной подготовке данных. Очень важно проверить соответствие обучающей выборки и реальных данных, которые модель увидит в ходе работы. Например, один из недавних экспериментов моих студентов был связан с распознаванием радужной оболочки для системы биометрической идентификации. На собранных данных ребята показали точность распознавания в 99,6%, и это очень неплохо. Но мне очевидно, что если выйти на улицу и собрать фото глаз самых разных прохожих, то показатели точности на такой выборке будут совсем другими.

Отдельный вопрос связан с доступностью и открытостью данных в отдельных областях. Очень много вопросов с их консолидацией, с юридическими аспектами. Яркий пример — медицинские данные. В целом их очень много. Скажем, и результаты обследований вроде ЭКГ, и итоги врачебных осмотров давно в цифровом виде. Но вот бывшие коллеги решили обучить нейросеть обрабатывать данные флюорографии — им просто выдали коробку с CD, пришлось сажать студентов копировать все на жесткий диск.

В этом примере тоже видна проблема формирования набора данных. Нужно понимать, что, чтобы научить систему делать что-то простое, ей достаточно показать не очень много примеров. Чем сложнее модель с точки зрения количества параметров, тем больше наглядного материала нужно прогнать. Например, чтобы научить один искусственный нейрон решать линейные уравнения, можно показать ему всего восемь примеров. Но чтобы алгоритмы распознавания объектов на изображениях так здорово отличали разные виды кошек в интернете, системе нужно продемонстрировать миллионы фото. Это зависимость пропорциональная, поэтому, если в каких-то областях приходится работать с малыми данными, начинаются проблемы. В случае медицинских данных какие-то данные оказываются просто недоступными из-за бюрократии, какие-то данные оказываются нерепрезентативны. Например, флюорография — самый массовый в России скрининг. Но на сто человек с признаками патологии — единицы. А еще изображения размечают медицинские эксперты, которые могут ошибаться. Что это означает с точки зрения работы с данными? Если ты загружаешь в обработку изображения с такими результатами, твоя система тяготеет к необоснованно оптимистичным прогнозам. Возможно, вскоре мы будем получать все более точные данные. Выходом может стать, например, отслеживание изменений изображения во времени.

Поэтому в областях, где с данными есть проблемы, скорее всего, активнее развиваются системы поддержки принятия решений, а не полноценные автономные системы. В том числе поэтому нельзя делегировать постановку диагноза машине. Видимо, к этой точке мы будем идти еще какое-то время. Но уже сейчас мы можем построить хорошего помощника для врача. Пусть он будет давать много ложноположительных «тревожных прогнозов», зато ни одно истинно положительное срабатывание не будет пропущено парой «врач — алгоритм».

Источник: postnauka.ru

Станислав Протасов — Обучение автономных систем

Комментарии: