Метод альтер-эго для обучения роботов из университета Карнеги-Меллона (+видео)

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, рбработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп

Новостная лента форума ailab.ru

2017-06-16 11:29

роботы

Исследователи из университета Карнеги-Меллона и Google решили объединить теорию игр и глубокого обучения, чтобы лучше понять способности захвата и более быстрого обучения роботов. Их идея заключается в том, чтобы в учебном процессе ввести противника – «второе я» робота, который будет прилагать все усилия в попытке сделать захват, - сообщает Robotics.ua.

Обучение роботов манипулированию различными объектами является чрезвычайно трудоемким процессом, и очень скучным. Поэтому робототехники используют в этих целях стратегии ИИ, такие как самоконтролируемое обучение, вместо того, чтобы позволить роботу постепенно определять, как воспринимать вещи, пробуя несколько разных техник снова и снова. Даже с большим количеством роботов это занимает много времени, и, хотя вы можете в конце концов получить очень хорошую обобщенную концепцию захвата, в этой структуре нет довольно хорошего представления о том, что роботы «понимают» свои действия.

Проблема в том, что большую часть времени эти методы используют захваты двоичного типа с очень простыми датчиками. Но захват в реальном мире не работает точно так, как это делают большинство людей, просто потому, что можно что-то поднять и не уронить, и это не обязательно означает, что способ, который вы используете – лучший. А неустойчивые, едва функциональные захваты означают, что падение объекта значительно более вероятно, особенно если происходит что-то непредвиденное за пределами робототехнических лабораторий.

Принцип захвата из CMU

Концепция состязательного захвата из CMU проста: все дело в попытке понять что-то, в то время как что-то другое затрудняет это. Исследователи – Леррел Пинто, Джеймс Дэвидсон и Абхинав Гупта, которые на прошлой неделе представили свою работу на конференции ICRA 2017, сформулировали свой состязательный подход как работа двух игроков (популярная техника из теории игр). В своей модели один игрок представляет собой сверточную нейронную сеть, которая пытается преуспеть в захвате, в то время как другой пытается сорвать первую задачу.
Такие вещи, как гравитация, инерция и трение, являются основными противниками, с которыми робот должен сталкиваться все время. Роботов можно запрограммировать с помощью состязательных альтер-эго (второе я), чтобы они могли вмешиваться в процессы друг друга, чтобы добиться успеха.

Если противник одержал успех, это означает, что захват не был хорошим, и программа узнает об этом провале. В то же время, программа противников учится на своем успехе, и в итоге вы получаете своего рода эскалацию гонки вооружений, которая позволяет роботам все лучше и лучше выполнять свою работу. И поэтому это исследование является перспективным для реальных приложений. Чтобы роботы были полезны, им нужно будет работать в средах, где им постоянно бросают вызов.

 

Более выгодная стратегия

По информации robotics.ua, исследователи продемонстрировали, что их состязательная стратегия может ускорить процесс обучения и привести к более надежной системе, чем подход, который не полагается на противника. Они также показали, что это лучше, чем просто пытаться совершать много дополнительных захватов без противника.
После трех тренировок скорость схватывания улучшается с 43 до 58 процентов. Обратите внимание, что базовый метод, который не выполняет состязательную работу, имеет коэффициент захвата всего 47 процентов. Это ясно указывает на то, что дополнительный контроль со стороны состязательного агента значительно более полезен, чем просто сбор данных. Интересен тот факт, что примеры с противниками приводят к скорости захвата 52%. Это наглядно показывает, что в случае использования нескольких роботов обучение с помощью состязательности является более выгодной стратегией.

CMU, захват, США, обучение роботов - Искусственный интеллект и экспертные системы - Robotics Общим результатом является значительное улучшение по сравнению с базовым уровнем в захвате новых объектов: увеличение общего коэффициента успешного захвата до 82 процентов (по сравнению с 68 процентами, если не используется состязательное обучение). Часть трюка здесь делает противника полезным, выбирая поведение, которое будет сложным (но не невозможным) для робота с захватом. Вы можете сделать это, наблюдая за тем, как робот терпит неудачу, а затем программирует противника, чтобы нацелиться на этот режим отказа. В зависимости от того, какие вещи вы хотите понять, и о ситуациях, которые вы хотите преодолеть, можно использовать этот метод для более быстрого обучения.

 

Видео

Ольга Славинская


Источник: robotics.ua