Компания DeepMind в коллаборации с Университетом Техаса разработала алгоритм, позволяющий искусственному интеллекту «мотивировать» себя на изучение окружающего мира |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-06-02 14:27 Специалисты в области искусственного интеллекта (ИИ) давно работают над алгоритмами «любопытства», которые позволяли бы машинам самостоятельно исследовать окружающий мир и обучаться ради самого процесса обучения. Однако скопировать человеческую любознательность очень сложно. Например, большинство существующих алгоритмов не способны оценить пробелы ИИ в знаниях, чтобы предсказать, что ему будет интересно, до того, как он это увидит. То есть компьютер пока не способен в отличие от человека оценить, интересна ли ему книга, только по ее обложке. Кроме того, люди (в частности, маленькие дети) исследуют не все подряд и не случайным образом — они выбирают любопытную для них часть реальности и концентрируются на ней, так как у них возникает внутренняя мотивация заниматься именно этим. Двое исследователей — Тодд Хестер, сотрудник компании Google DeepMind (именно ее алгоритм AlphaGo победил чемпиона мира в настольной игре го) и информатик из Университета Техаса Питер Стоун — решили приблизить ИИ к человеческому способу познания мира и разработали новый алгоритм любопытства под названием «Целенаправленное исследование с внутренним вознаграждением за вариативность и новизну» (Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards (TEXPLORE-VENIR). Алгоритм основан на технике, которая называется «усиленное обучение». В процессе усиленного обучения программа пробует что-то делать, и, если это действие продвигает ее ближе к некой установленной цели, например к концу лабиринта, программа получает небольшое вознаграждение и с большей вероятностью повторит этот маневр в будущем. «Наградой» выступают баллы, начисляемые ИИ. А получает он их, как видно из названия, за два типа поведения: вариативность (отклонения в предсказательных моделях ИИ, чтобы побудить его исследовать, где его модель не определена, — иначе говоря, двигаться от простого к сложному) и стремление к новым состояниям, которые отличаются от тех, на которых он тренировался. То есть награды выдаются за поиск нового и разнообразного. DeepMind использовал именно алгоритмы усиленного обучения, чтобы научить свои программы играть в компьютерные игры или настольную игру го путем случайных экспериментов. Таким образом новый алгоритм учится и строит модель мира, «награждая» себя за открытие информации, которая не похожа на то, с чем он сталкивался раньше. Например, он находит новые точки на карте или, если это кулинарное приложение, экзотические рецепты. Он также награждает себя за уменьшение неопределенности — за то, что эти места и рецепты становятся ему известны. Свой метод программисты протестировали на двух сценариях. Первый — виртуальный лабиринт, состоящий из четырех комнат, соединенных закрытыми на замок дверями. Компьютерная программа (бот) должна была найти ключ, взять его и использовать для открытия дверей. Каждый раз, когда она проходила в дверь, она зарабатывала 10 очков, и у нее было 3000 шагов для достижения результата. Если исследователи сначала давали боту исследовать 1000 шагов, руководствуясь только TEXPLORE-VENIR, он зарабатывал примерно 55 очков в среднем во время 30 000-шагового теста. Но если бот использовал другие алгоритмы любопытства для такого исследования, он набирал от 0 до 35 очков. В другой обстановке, когда боту нужно было одновременно и исследовать комнаты, и проходить сквозь двери, TEXPLORE-VENIR зарабатывал 70 очков, R-Max — 35, а другие — меньше пяти, сообщают исследователи. Затем исследователи применили алгоритм к физическому роботу — игрушке Nao. В трех разных заданиях машина зарабатывала очки за удар по тарелке, за то, что она держала розовую ленту на руке перед глазами или нажимала кнопку на ноге. Для каждой задачи у робота было 200 шагов, чтобы заработать очки, но сначала 400 шагов для исследования (поиска способов, как можно выполнить все указанные действия) — беспорядочно или используя TEXPLORE-VENIR. И в 13 испытаниях этот алгоритм показал себя лучше алгоритмов беспорядочного перебора. «Так, эксперименты с ботом и роботом показали, что TEXPLORE-VENIR хорошо подготовлен к поиску решений для заранее поставленных задач. Это похоже на то, как дети сначала беспорядочно „болтают“ руками и ногами, прежде чем учатся ползать, а потом ходить», — говорится в сообщении журнала Science. Усиленное обучение очень важно для развития ИИ, так как позволяет роботу адаптироваться к условиям среды и задачам, которые изначально не были заложены в его программу. Например, базовая модель домашнего робота может быть помещена в дом, где он будет обучаться задачам, которые требуются от него в данном конкретном домашнем хозяйстве. Как считает Тодд Хестер, следующим шагом будет использование глубоких нейронных сетей, алгоритмов, смоделированных по архитектуре мозга, чтобы роботы могли обучаться как дети. Статья с описанием нового алгоритма опубликована в журнале Artificial Intelligence. Ранее ИИ победил человека и в покере. Источник: chrdk.ru Комментарии: |
|