ИИ сейчас учится эволюционировать подобно земным формам жизни

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Новая система обучения с подкреплением в Стэнфорде имитирует эволюцию, как никогда раньше

Эта статья является частью наших обзоров научных работ по искусственному интеллекту, серии публикаций, в которых рассматриваются последние открытия в области искусственного интеллекта.

Сотни миллионов лет эволюции благословили нашу планету широким разнообразием форм жизни, каждая из которых разумна по-своему. Каждый вид эволюционировал, чтобы развить врожденные навыки, способности к обучению и физическую форму, которые обеспечивают его выживание в окружающей среде.

Но, несмотря на вдохновение природой и эволюцией, область искусственного интеллекта в значительной степени сосредоточена на создании отдельных элементов интеллекта и их объединении после разработки. Хотя этот подход дал отличные результаты, он также ограничил гибкость агентов ИИ в некоторых базовых навыках, присущих даже простейшим формам жизни.

В новой статье, опубликованной в научном журнале Nature, исследователи ИИ из Стэнфордского университета представляют новую технику, которая может помочь предпринять шаги по преодолению некоторых из этих ограничений. Получившая название “Глубокое эволюционное обучение с подкреплением”, новая методика использует сложную виртуальную среду и обучение с подкреплением для создания виртуальных агентов, которые могут развиваться как по своей физической структуре, так и по способностям к обучению. Полученные результаты могут иметь важные последствия для будущих исследований в области искусственного интеллекта и робототехники.

Эволюцию трудно смоделировать

Evolution in AI

Фото: Бен Диксон / TechTalks

В природе тело и мозг развиваются вместе. На протяжении многих поколений каждый вид животных проходил через бесчисленные циклы мутаций, чтобы вырастить конечности, органы и нервную систему для поддержания функций, необходимых ему в окружающей среде. У комаров есть тепловое зрение, чтобы определить тепло тела. У летучих мышей есть крылья для полета и эхолокационный аппарат для навигации в темных местах. У морских черепах есть плавники для плавания и система детекторов магнитного поля, позволяющая преодолевать очень большие расстояния. Люди имеют вертикальное положение, которое освобождает их руки и позволяет им видеть далекий горизонт, руки и ловкие пальцы, которые могут манипулировать объектами, и мозг, который делает их лучшими социальными существами и решателями проблем на планете.

Интересно, что все эти виды произошли от первой формы жизни, появившейся на Земле несколько миллиардов лет назад. Основываясь на давлении отбора, вызванном окружающей средой, потомки этих первых живых существ эволюционировали во многих различных направлениях.

Изучение эволюции жизни и разума интересно. Но воспроизвести его чрезвычайно сложно. Системе искусственного интеллекта, которая хотела бы воссоздать разумную жизнь таким же образом, как это сделала эволюция, пришлось бы искать очень большое пространство возможных морфологий, что чрезвычайно дорого с вычислительной точки зрения. Для этого потребуется много параллельных и последовательных циклов проб и ошибок.

Исследователи ИИ используют несколько коротких путей и заранее разработанных функций для преодоления некоторых из этих проблем. Например, они фиксируют архитектуру или физический дизайн ИИ или роботизированной системы и фокусируются на оптимизации обучаемых параметров. Другой короткий путь - это использование ламарковской, а не дарвиновской эволюции, в которой агенты ИИ передают свои изученные параметры своим потомкам. Еще один подход заключается в том, чтобы обучать различные подсистемы ИИ отдельно (зрение, передвижение, язык и т.д.), а затем соединять их вместе в конечной ИИ или роботизированной системе. Хотя эти подходы ускоряют процесс и снижают затраты на обучение и развитие агентов ИИ, они также ограничивают гибкость и разнообразие результатов, которые могут быть достигнуты.

Глубокое Эволюционное Обучение с Подкреплением

Deep Evolutionary Reinforcement Learning structure

Фото: Бен Диксон / TechTalks

В своей новой работе исследователи из Стэнфорда стремятся приблизить исследования ИИ на шаг к реальному эволюционному процессу, сохраняя при этом затраты как можно более низкими. “Наша цель - разъяснить некоторые принципы, регулирующие отношения между сложностью окружающей среды, эволюционной морфологией и обучаемостью интеллектуального управления”, - пишут они в своей статье.

Их структура называется Глубоким эволюционным обучением с подкреплением. В DERL каждый агент использует глубокое обучение с подкреплением, чтобы приобрести навыки, необходимые для достижения максимальных целей в течение своей жизни. ДЕРЛ использует дарвиновскую эволюцию для поиска в морфологическом пространстве оптимальных решений, что означает, что при появлении нового поколения агентов ИИ они наследуют только физические и архитектурные черты своих родителей (наряду с небольшими мутациями). Ни один из изученных параметров не передается из поколения в поколение.

“DERL открывает двери для проведения крупномасштабных экспериментов в силико, чтобы дать научное представление о том, как обучение и эволюция совместно создают сложные взаимосвязи между сложностью окружающей среды, морфологическим интеллектом и обучаемостью задач управления”, - пишут исследователи.

Моделирование эволюции

В качестве своей основы исследователи использовали MuJoCo, виртуальную среду, которая обеспечивает высокоточное моделирование физики твердого тела. Их дизайнерское пространство называется Universal Animal (UNIMAL), в котором цель состоит в создании морфологий, которые изучают задачи передвижения и манипулирования объектами в различных ландшафтах.

Каждый агент в окружающей среде состоит из генотипа, который определяет его конечности и суставы. Прямой потомок каждого агента наследует генотип родителя и проходит через мутации, которые могут создавать новые конечности, удалять существующие конечности или вносить небольшие изменения в такие характеристики, как степени свободы или размер конечностей.

Каждый агент проходит обучение с подкреплением, чтобы максимизировать вознаграждение в различных условиях. Самая основная задача - передвижение, при котором агент вознаграждается за расстояние, которое он преодолевает во время эпизода. Агенты, чья физическая структура лучше подходит для передвижения по местности, быстрее учатся использовать свои конечности для передвижения.

Чтобы проверить результаты системы, исследователи создали агентов в трех типах местности: плоской (FT), переменной (VT) и переменной местности с изменяемыми объектами (MVT). Равнинная местность оказывает наименьшее давление на морфологию агентов. С другой стороны, переменная местность заставляет агентов разрабатывать более универсальную физическую структуру, которая может взбираться на склоны и обходить препятствия. Вариант MVT имеет дополнительную проблему, требующую от агентов манипулировать объектами для достижения своих целей.

Преимущества DERL

The benefits of DERL

Заслуга: Бен Диксон /TechTalksDeep Эволюционное обучение с подкреплением создает множество успешных морфологий в разных средах

Одним из интересных выводов DERL является разнообразие результатов. Другие подходы к эволюционному ИИ, как правило, сходятся в одном решении, потому что новые агенты напрямую наследуют телосложение и знания своих родителей. Но в DERL потомкам передаются только морфологические данные, система в конечном итоге создает разнообразный набор успешных морфологий, включая двуногих, трехногих и четвероногих с руками и без рук.

В то же время система демонстрирует черты эффекта Болдуина, который предполагает, что агенты, которые быстрее учатся, с большей вероятностью размножаются и передают свои гены следующему поколению. ДЕРЛ показывает, что эволюция “выбирает для более быстрых учеников без какого-либо прямого давления на отбор для этого”, согласно статье в Стэнфорде.

“Интересно, что существование этого морфологического эффекта Болдуина может быть использовано в будущих исследованиях для создания воплощенных агентов с меньшей сложностью выборки и более высокой способностью к обобщению”, - пишут исследователи.

Agents trained in DERL are evaluated across a variety of tasks

Агенты, обученные в DERL, оцениваются по различным задачам

Наконец, структура DERL также подтверждает гипотезу о том, что более сложные среды приведут к появлению более интеллектуальных агентов. Исследователи протестировали эволюционировавших агентов в восьми различных задачах, включая патрулирование, побег, манипулирование объектами и разведку. Их результаты показывают, что в целом агенты, которые развивались в условиях изменяющейся местности, учатся быстрее и работают лучше, чем агенты ИИ, которые имели дело только с плоской местностью.

Их выводы, похоже, согласуются с другой гипотезой исследователей DeepMind о том, что сложная среда, подходящая структура вознаграждения и обучение с подкреплением могут в конечном итоге привести к появлению всех видов разумного поведения.

Исследования в области искусственного интеллекта и робототехники

Среда DERL имеет лишь малую часть сложностей реального мира. “Хотя DERL позволяет нам сделать значительный шаг вперед в масштабировании сложности эволюционных сред, важным направлением будущей работы будет разработка более открытых, физически реалистичных и многоагентных эволюционных сред”, - пишут исследователи.

В будущем исследователи расширят спектр задач по оценке, чтобы лучше оценить, как агенты могут повысить свою способность изучать поведение, относящееся к человеку.

Эта работа может иметь важные последствия для будущего искусственного интеллекта и робототехники и подтолкнуть исследователей к использованию методов исследования, которые гораздо больше похожи на естественную эволюцию.

“Мы надеемся, что наша работа будет способствовать дальнейшим масштабным исследованиям обучения и эволюции в других контекстах, чтобы дать новые научные представления о появлении быстро обучаемых интеллектуальных моделей поведения, а также о новых технических достижениях в нашей способности создавать их в машинах”, - пишут исследователи.

Эта статья была первоначально опубликована Беном Диксоном в TechTalks, публикации, в которой рассматриваются тенденции в области технологий, то, как они влияют на то, как мы живем и ведем бизнес, и проблемы, которые они решают. Но мы также обсуждаем злую сторону технологий, мрачные последствия новых технологий и то, на что нам нужно обратить внимание. Вы можете прочитать оригинальную статью здесь.

Также помечен


Источник: thenextweb.com

Комментарии: