Сила коммуникации. 6 вещей, которые боты OpenA Five делают лучше людей

2019-04-14 15:22

В ночь с 13 на 14 апреля представители проекта OpenAI Fiveпровели новую демонстрацию своих ботов, которые играют в Dota 2. Прошлый раз зрители видели их на The International 8, где у профессиональных команд практически не было проблем в битве с искусственным интеллектом. Разработчики решили не расширять поле деятельности, а дать своему детищу еще немного времени на обучение. Копнуть не вширь, а вглубь.

В течение полугода OpenAI тренировался на тех же 17 персонажах, не используя призываемых существ и иллюзии. По человеческим меркам это миллионы и миллионы матчей накапливаемого игрового опыта. И вот он, видимый невооруженным взглядом прогресс — боты без особых проблем обыгрывают действующих чемпионов мира OG. Можно долго спорить о том, что это не настоящая дота, что игроки OG не воспринимали матч серьезно или что боты все еще совершают глупые поступки. Но в некоторых моментах OpenAI действительно уже превосходит человека. И это не только мгновенное нажимание кнопок. Объясняем, что и почему боты делают лучше на пути к победе над человеческой командой.

Оценивают свои и вражеские ресурсы в драке

Кто бы что ни говорил про нажимание кнопок и тимплей, но использование информации — вот главный козырь OpenAI перед игроком человеком. Сразу несколько хайлайтов в прошедшем матче зависело именно от того, что перед OG в игре видят список вероятностей, а боты – список команд к действию. Та самая Crystal Maiden, хладнокровно использовавшая ультимейт в лицо соперникам – это пример того, как отсутствие сомнений и лишних размышлений может выиграть тебе драку.

Во-первых, OpenAI явно рассчитывает, что сохранить жизнь, а значит не получить «кнутом» за смерть, не получится. Значит, нужно сделать максимум, чтобы получить «пряник» – награду за убийство. Обратите внимание, как в последний момент Crystal Maiden не только дает Nova для замедления и получает с ульта броню, но и поворачивается лицом к Riki, чтобы не получить дополнительный урон. Кроме того, бот «помнит», что Witch Doctor уже выдал «каски», знает, что Earthshaker вне зоны досягаемости, и видит реакцию союзного Sniper. Уже ничто не может помешать Crystal Maiden прожать ультимейт.

И это далеко не единственный подобный момент. Боты под управлением OpenAI идут драться там, где человеческая команда отступит, чтобы сохранить ресурсы или перегруппироваться. Например, они рассчитывают, что отсутствие двух ключевых ультимейтов у соперников – это намного серьезней, чем смерть одного-двух из героев-ботов. И отправляются в драку, продолжая загонять противника.

При этом они оценивают ситуацию не только вокруг себя, то, что находится в пределах видимости экрана для человека, а анализируют ситуацию в целом. Например, когда на средней линии умирает герой от рук двух или более противников — на другой части карты тут же начинается атака. Да, люди делают то же самое, но для этого им нужно следить за картой, обменяться информацией, банально крикнуть в войс-чат «В миду двое». Боты не тратят на это время. Они уже нажали в тебя стан и ракету.

И здесь дело не только в том, что они идеально рассчитывают свои и вражеские ресурсы, анализируя данные. Их преимущество в том, что боты «видят» игру полностью одинаково, потому что являются клонами одного и того же искусственного интеллекта. Нет, или не управляет один суперкомпьютер, но они идентично оценивают каждую игровую ситуацию. И там, где людям еще нужно найти взаимопонимание по конкретному вопросу и обсудить решение, боты уже действуют.

Оценивают свой потенциал

Кроме того, что Open AI оценивают свой потенциал в конкретный момент времени, они просчитывают эффективность собственного пика и действий на несколько минут вперед. В течение трансляции команда OpenAI несколько раз показывала экран расчетов ботов. Они рассматривают возможность забрать Рошана или строения. А также постоянно оценивают собственные шансы на победу. И именно это стало одним из самых интересных моментов шоу-матча.

С оценкой силы пика все понятно — в базе данных OpenAI миллионы матчей, в которых есть статистика по проценту побед конкретного пика против драфта соперника. Но их предсказания в процессе игры совершенно отличаются от того, что видит и предсказывает человек. 19 минута игры, боты отстают от OG почти на 1000 золота, люди занимают топ-3 по нетворсу и только что свободно дрались под вражескими тир-2. По вышкам ситуация идентичная. «Ровная игра» – скажет человек. «95% в нашу пользу» – ответит OpenAI. И будет прав, судя по драке, случившейся сразу после этого сообщения в чате.

Как объяснил Йохан n0tali Сундштайн после матча, они действительно чувствовали преимущество и понимали, что захватили большую часть карты. Но боты оценивают не визуальную составляющую и ощущения, а свой потенциал выиграть драку, забрать строение и убить соперника. И он оказался намного выше и важнее на этот момент игры. Возможно, они просчитывают, что имея более высокий шанс убить героя соперника, они еще и превосходят их в пуш-потенциале, то есть статистически быстрее сносят строения. Что и демонстрируют сразу после драки.

Дерутся под вышками

Уже когда OpenAI Five показывали впервые, боты осознавали, что удары вышек – это больно и опасно. Тогда они то ли случайно, то ли специально продемонстрировали трюк с вардом, который ставился прямо под башню соперника во время атаки. Он брал на себя несколько тычек от вышки и сохранял здоровье герою. Не очень рационально с человеческой точки зрения, но вполне эффективно (даже с точки зрения золота) — для бота.

Теперь под вышками они дерутся практически филигранно. Это заменит и Ярослав NS Кузнецов.

Боты ловко и практически незаметно переводят атаку башен на крипов, практически всегда подставляют под «орехи» героя, который переживет удар и защищают своих «младших». Например, переаггривают башню от более слабых героев или заставляют соперника отходить дальше от своей вышки, чтобы не попадать под ее атаки. Для них радиус ее атаки — это цифра, которую достаточно просто просчитать и ориентироваться, чтобы держаться на самой границе.

Но помимо этого они научились использовать строение как защитный элемент, чего не делали раньше. Во время атаки соперника, они не просто рвутся в бой, а выдерживают паузу, чтобы подпустить вражеских героев ближе к башне и получить от этого максимум преимущества.

Переключаются между целями в драке

Благодаря фактически мгновенному анализу данных, боты тут же реагируют на любое изменение в драке, будь то смена позиции или нажатое BKB. Например, вот этот файт демонстрирует, как OpenAI не концентрируется на одной цели, а переключается между ними, чтобы вынести максимум пользы.

Пока Sniper и Death Prophet разбираются с Shadow Fiend, Sven влетает со спины, дает идеальный стан, а дальше в ход идет прокаст Gyrocopter. За это время DP и Sniper не стали переключаться на более уязвимые цели, они продолжили убивать Shadow Fiend. Но посмотрите дальше. Как только драка переходит в другое русло и соперники начинают разбегаться, Sniper переключается и атакует Viper, а не продолжает погоню за Shadow Fiend. И при этом он даже не сдвинулся с места. Боты делают это намного более умело, чем люди, потому что анализируя данные, намного проще рассчитать необходимое количество урона или дальность атаки.

Используют курьера

А теперь откройте матч OG против OpenAI и проследите за миникартой. Между поведением ботов и людей есть одно важное отличие.

YouTube50:03

Курьер ботов не останавливается. За первые три минуты, пока OG оставляют курьера для мидера, который использует его в нужный момент, боты сгоняли своего ослика на три разные линии. Он носит фласки, более серьезные предметы, собирает рецепты и постоянно курсирует по карте. Когда OpenAI Five демонстрировали впервые, у каждого бота был свой неуязвимый курьер, и его бесконечное использование стало серьезной причиной победы ботов. Но теперь ИИ знает, как выжать такой же максимум и из одного ослика.

Впрочем, понимание того, что курьер ботов не стоит на месте, в конце концов сослужит OpenAI плохую службу. Даже во время этого матча Topson несколько раз воспользовался его постоянными перемещениями и оттягивал получение ключевых артефактов. Однако кто знает, сколько драк для Open AI выиграла вовремя принесенная фласочка, пока курьер OG отдыхал в безопасности на базе.

Распределяют ресурсы

В первую очередь разработчики объяснили: у ботов нет любимых героев для конкретных ролей. В их парадигме вообще практически отсутствует понимание ролей так, как мы привыкли их видеть. Они не отдают друг другу крипов или киллы, потому что ты керри и тебе нужнее. Но зато распределяют обязанности по покупке вардов и дастов. Бот, за которым закреплена обязанность приобрести предметы для обзора — это четверка. Тот, кому нужно носить с собой просветки — пятерка. Остальные герои занимают кор-позиции от 1 до 3. Но это зависит не только от героя, но и от ситуации на карте.

Чтобы зрители (и разработчики) точнее понимали, что происходит с ролями в команде, боты оповещали нас о смене позиции. Вот после выигранной драки Gyrocopter решает стать саппортом-четверкой, то есть покупать варды.

А через некоторое время и несколько сражений он возвращается на кор-позицию.

Как объяснили разработчики, смена ролей может зависит от многих факторов. Например, боты, приобретая тот или иной предмет, знают его «запас прочности» и оценивают нужды союзников. Если твоего свободного золота достаточно, а инвентарь соответствует положению на карте, то можно пойти и потратить деньги на варды. На самом деле, люди делают то же самое, иногда прося друг друга прикупить дастов или вижена, пока кто-то копит на Blink или BKB. Но ботам не нужны обсуждения и просьбы, они до копейки понимают, кому сейчас это важнее.

Кроме того, еще ни в одном матче OpenAI не оставляли без фарма сразу двух героев. В их случае может отставать один персонаж, которому больше пришлось перемещаться по карте, а не бить крипов. Остальные де успевают догонять позиции по нетворсу в процессе игры. Например, Crystal Maiden ботов просто ушла фармить лес. Чем-то напоминает игру Team Secret, неправда ли?

Это не значит, что боты стали совершенными игроками в доту. На самом деле, это OG пришли покатать с OpenAI в их версию игры, а не боты ворвались в настоящую Dota 2. Но прогресс, который команда разработчиков совершила за полгода – невероятен и демонстрирует, как сильно можно ускорить самообучение машины практически без предустановок. Да, они все еще прожимают станы в одного героя и неадекватно ведут себя, когда соперник исчезает в тумане войны. Но важно то, как они самостоятельно научились за полгода тому, на что у игрока могут уйти десятки лет игрового опыта. Да хотя бы прожимать байбек, чтобы убить волну крипов, подходящую к базе, при этом комплексно оценивая свой потенциал! И при этом делая это на уровне, сопоставимом с человеком. Вот что важно в этом проекте, а не дурацкий вард где-то посреди леса.

Источник: m.vk.com

Сила коммуникации. 6 вещей, которые боты OpenA Five делают лучше людей

Комментарии: