Метод альтер-эго для обучения роботов из университета Карнеги-Меллона (+видео)

2017-06-16 11:29

Исследователи из университета Карнеги-Меллона и Google решили объединить теорию игр и глубокого обучения, чтобы лучше понять способности захвата и более быстрого обучения роботов. Их идея заключается в том, чтобы в учебном процессе ввести противника – «второе я» робота, который будет прилагать все усилия в попытке сделать захват, - сообщает Robotics.ua.

Обучение роботов манипулированию различными объектами является чрезвычайно трудоемким процессом, и очень скучным. Поэтому робототехники используют в этих целях стратегии ИИ, такие как самоконтролируемое обучение, вместо того, чтобы позволить роботу постепенно определять, как воспринимать вещи, пробуя несколько разных техник снова и снова. Даже с большим количеством роботов это занимает много времени, и, хотя вы можете в конце концов получить очень хорошую обобщенную концепцию захвата, в этой структуре нет довольно хорошего представления о том, что роботы «понимают» свои действия.

Проблема в том, что большую часть времени эти методы используют захваты двоичного типа с очень простыми датчиками. Но захват в реальном мире не работает точно так, как это делают большинство людей, просто потому, что можно что-то поднять и не уронить, и это не обязательно означает, что способ, который вы используете – лучший. А неустойчивые, едва функциональные захваты означают, что падение объекта значительно более вероятно, особенно если происходит что-то непредвиденное за пределами робототехнических лабораторий.

Принцип захвата из CMU

Концепция состязательного захвата из CMU проста: все дело в попытке понять что-то, в то время как что-то другое затрудняет это. Исследователи – Леррел Пинто, Джеймс Дэвидсон и Абхинав Гупта, которые на прошлой неделе представили свою работу на конференции ICRA 2017, сформулировали свой состязательный подход как работа двух игроков (популярная техника из теории игр). В своей модели один игрок представляет собой сверточную нейронную сеть, которая пытается преуспеть в захвате, в то время как другой пытается сорвать первую задачу.
Такие вещи, как гравитация, инерция и трение, являются основными противниками, с которыми робот должен сталкиваться все время. Роботов можно запрограммировать с помощью состязательных альтер-эго (второе я), чтобы они могли вмешиваться в процессы друг друга, чтобы добиться успеха.

Если противник одержал успех, это означает, что захват не был хорошим, и программа узнает об этом провале. В то же время, программа противников учится на своем успехе, и в итоге вы получаете своего рода эскалацию гонки вооружений, которая позволяет роботам все лучше и лучше выполнять свою работу. И поэтому это исследование является перспективным для реальных приложений. Чтобы роботы были полезны, им нужно будет работать в средах, где им постоянно бросают вызов.

Более выгодная стратегия

По информации robotics.ua, исследователи продемонстрировали, что их состязательная стратегия может ускорить процесс обучения и привести к более надежной системе, чем подход, который не полагается на противника. Они также показали, что это лучше, чем просто пытаться совершать много дополнительных захватов без противника.
После трех тренировок скорость схватывания улучшается с 43 до 58 процентов. Обратите внимание, что базовый метод, который не выполняет состязательную работу, имеет коэффициент захвата всего 47 процентов. Это ясно указывает на то, что дополнительный контроль со стороны состязательного агента значительно более полезен, чем просто сбор данных. Интересен тот факт, что примеры с противниками приводят к скорости захвата 52%. Это наглядно показывает, что в случае использования нескольких роботов обучение с помощью состязательности является более выгодной стратегией.

CMU, захват, США, обучение роботов - Искусственный интеллект и экспертные системы - Robotics

CMU, захват, США, обучение роботов - Искусственный интеллект и экспертные системы - Robotics

Общим результатом является значительное улучшение по сравнению с базовым уровнем в захвате новых объектов: увеличение общего коэффициента успешного захвата до 82 процентов (по сравнению с 68 процентами, если не используется состязательное обучение). Часть трюка здесь делает противника полезным, выбирая поведение, которое будет сложным (но не невозможным) для робота с захватом. Вы можете сделать это, наблюдая за тем, как робот терпит неудачу, а затем программирует противника, чтобы нацелиться на этот режим отказа. В зависимости от того, какие вещи вы хотите понять, и о ситуациях, которые вы хотите преодолеть, можно использовать этот метод для более быстрого обучения.

Видео

Ольга Славинская

Источник: robotics.ua



		Метод альтер-эго для обучения роботов из университета Карнеги-Меллона (+видео)
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2017-06-16 11:29 роботы новости Исследователи из университета Карнеги-Меллона и Google решили объединить теорию игр и глубокого обучения, чтобы лучше понять способности захвата и более быстрого обучения роботов. Их идея заключается в том, чтобы в учебном процессе ввести противника – «второе я» робота, который будет прилагать все усилия в попытке сделать захват, - сообщает Robotics.ua. Обучение роботов манипулированию различными объектами является чрезвычайно трудоемким процессом, и очень скучным. Поэтому робототехники используют в этих целях стратегии ИИ, такие как самоконтролируемое обучение, вместо того, чтобы позволить роботу постепенно определять, как воспринимать вещи, пробуя несколько разных техник снова и снова. Даже с большим количеством роботов это занимает много времени, и, хотя вы можете в конце концов получить очень хорошую обобщенную концепцию захвата, в этой структуре нет довольно хорошего представления о том, что роботы «понимают» свои действия. Проблема в том, что большую часть времени эти методы используют захваты двоичного типа с очень простыми датчиками. Но захват в реальном мире не работает точно так, как это делают большинство людей, просто потому, что можно что-то поднять и не уронить, и это не обязательно означает, что способ, который вы используете – лучший. А неустойчивые, едва функциональные захваты означают, что падение объекта значительно более вероятно, особенно если происходит что-то непредвиденное за пределами робототехнических лабораторий. Принцип захвата из CMU Концепция состязательного захвата из CMU проста: все дело в попытке понять что-то, в то время как что-то другое затрудняет это. Исследователи – Леррел Пинто, Джеймс Дэвидсон и Абхинав Гупта, которые на прошлой неделе представили свою работу на конференции ICRA 2017, сформулировали свой состязательный подход как работа двух игроков (популярная техника из теории игр). В своей модели один игрок представляет собой сверточную нейронную сеть, которая пытается преуспеть в захвате, в то время как другой пытается сорвать первую задачу. Такие вещи, как гравитация, инерция и трение, являются основными противниками, с которыми робот должен сталкиваться все время. Роботов можно запрограммировать с помощью состязательных альтер-эго (второе я), чтобы они могли вмешиваться в процессы друг друга, чтобы добиться успеха. Если противник одержал успех, это означает, что захват не был хорошим, и программа узнает об этом провале. В то же время, программа противников учится на своем успехе, и в итоге вы получаете своего рода эскалацию гонки вооружений, которая позволяет роботам все лучше и лучше выполнять свою работу. И поэтому это исследование является перспективным для реальных приложений. Чтобы роботы были полезны, им нужно будет работать в средах, где им постоянно бросают вызов. Более выгодная стратегия По информации robotics.ua, исследователи продемонстрировали, что их состязательная стратегия может ускорить процесс обучения и привести к более надежной системе, чем подход, который не полагается на противника. Они также показали, что это лучше, чем просто пытаться совершать много дополнительных захватов без противника. После трех тренировок скорость схватывания улучшается с 43 до 58 процентов. Обратите внимание, что базовый метод, который не выполняет состязательную работу, имеет коэффициент захвата всего 47 процентов. Это ясно указывает на то, что дополнительный контроль со стороны состязательного агента значительно более полезен, чем просто сбор данных. Интересен тот факт, что примеры с противниками приводят к скорости захвата 52%. Это наглядно показывает, что в случае использования нескольких роботов обучение с помощью состязательности является более выгодной стратегией. Общим результатом является значительное улучшение по сравнению с базовым уровнем в захвате новых объектов: увеличение общего коэффициента успешного захвата до 82 процентов (по сравнению с 68 процентами, если не используется состязательное обучение). Часть трюка здесь делает противника полезным, выбирая поведение, которое будет сложным (но не невозможным) для робота с захватом. Вы можете сделать это, наблюдая за тем, как робот терпит неудачу, а затем программирует противника, чтобы нацелиться на этот режим отказа. В зависимости от того, какие вещи вы хотите понять, и о ситуациях, которые вы хотите преодолеть, можно использовать этот метод для более быстрого обучения. Видео Ольга Славинская Источник: robotics.ua Комментарии:

Метод альтер-эго для обучения роботов из университета Карнеги-Меллона (+видео)

Комментарии: