Новый алгоритм DeepMind самостоятельно освоил игры Atari |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-12-26 11:35 Разработчики DeepMind представили MuZero — алгоритм, который может справиться с любой игрой, не зная правил на начальном этапе. Вместо построения модели игровой среды MuZero использует информацию о текущем и предыдущем шаге, а также о возможном исходе одного из следующих шагов, в результате чего обучается играть самостоятельно. Алгоритм научили играть не только в классические для алгоритмов DeepMind го, сёги и шахматы, на также 57 игр для приставки Atari, включая Ms. Pac-Man. Статья опубликована в журнале Nature. Одна из ключевых задач машинного обучения — это создание алгоритмов, которые могут эффективно взаимодействовать с какой-либо средой: это может быть какое-то открытое пространство (например, дорога для беспилотного автомобиля) или массив больших данных (например, текстовый корпус для алгоритмов обработки естественного языка). Для ее решения сначала необходимо научиться решать много маленьких задач, одна из которых — планирование дальнейших действий в среде. В свою очередь, чтобы научить алгоритм планировать действия, нужно дать ему либо набор правил, которым он будет пользоваться при взаимодействии со средой, либо все необходимые данные об этой среде. Например, представленная компанией DeepMind в конце 2017 года AlphaGo Zero (или просто AlphaGo) умеет играть в шахматы, сёги и го (причем в последней даже обыгрывает знаменитый AlphaGo — первый подобный алгоритм компании), но изначально требует свода правил, которым может пользоваться: например, информации о том, как могут ходить шахматные фигуры. Из-за того, что алгоритмам необходима информация о среде или правилах в ней, их до сих пор не удавалось сделать универсальными: их применение ограничивается только несколькими играми. Исправить это решили разработчики из DeepMind под руководством Дэвида Сильвера (David Silver). Вместо того, чтобы учить алгоритм взаимодействовать с известной средой или попытаться смоделировать ее полностью уже во время игры, исследователи решили сосредоточиться на нескольких важных для игры аспектах, которые оцениваются и обновляются на каждом шаге: понимание текущей позиции, поиск лучшего варианта следующего шага и оценка предыдущего сделанного шага. На каждом шаге MuZero проводит поиск по дереву методом Монте-Карло: на каждом шаге у алгоритма есть информация о его текущем состоянии и предыдущем состоянии, а также об исходе только что предпринятого действия. На основании этого глубокая нейросеть учится оценивать возможные исходы следующего шага, пользуясь уже полученной и сохраненной информацией, и предпринимать его, исходя из возможного исхода действия (например, полученной награды или ответного шага противника). Совсем недавно DeepMind представила другой (неигровой) алгоритм — AlphaFold, предсказывающий структуру белка по аминокислотной последовательности. Подробнее о его работе и применении вы также можете узнать в нашем материале «Гадание на белковой гуще». Елизавета Ивтушок Источник: nplus1.ru Комментарии: |
|