ИИ впервые обыграл сразу пятерых профессионалов покера |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-07-13 09:16 Разработанный Fаcebook и исследователями из Университета Карнеги-Меллона алгоритм дал бой 12 профессионалам, впервые обыграв людей за столом с шестью игроками, а не один на один. ИИ зарабатывал по $1000 в час. Искусственный интеллект взял верх над человеком в очередной игре — самой популярной разновидности покера «Техасский холдем». Еще в 2015 году были созданы боты, которые на равных состязались с человеком в дуэли один на один. Теперь специалисты из Facebook и Университета Карнеги-Меллона обучили ИИ гораздо более сложной задаче — прибыльной игре за столом с шестью игроками (6-max table). Это самый популярный вариант при игре онлайн. В двухнедельных испытаниях системы Pluribus участвовали известнейшие профессионалы игры и многократные чемпионы, включая Криса Фергюсона, Тревора Сэвейджа и Джимми Чу. ИИ оказался лучше каждого из них, зарабатывая в среднем около $1000 в час, отмечает Verge. При этом обучение алгоритма благодаря двум интересным находкам исследователей обошлось бы всего в $150 при покупке облачных мощностей. Разработка прибыльного алгоритма для игры в покер на высшем уровне — задача намного сложнее обучению шахматам или го по двум причинам. Во-первых, в покере игрокам известна лишь очень ограниченная информация. Во-вторых, есть много способов одержать победу, выиграть больше или хотя бы проиграть меньше в каждой раздаче, или руке. Процесс обучения Pluribus его соавтор Ноам Браун описал в статье для Science. Ключевыми он называет два подхода. На первом этапе Pluribus играл сам с собой, отсеивая убыточные стратегии методом проб и ошибок. Например, через 60 часов «самообучения» ИИ полностью избавился от лимпинга — дешевой, но любимой лишь проигрывающими игроками стратегии, которая оставляет ее приверженца без инициативы в ходе раздачи. А вскоре обучился прибыльно применять и нетривиальные ходы, например донк-ставки. Однако гораздо больший эффект дала вторая новация: Браун и коллеги ограничили горизонт планирования ИИ двумя-тремя ближайшими шагами. Во-первых, это серьезно сэкономило вычислительные ресурсы. А во-вторых, вероятно, сыграло главную роль в том, что Pluribus вел себя непредсказуемо для игроков-людей, которые пытались обыграть ИИ онлайн в течение двух недель. Состязание проходило в двух форматах: за столом было либо пять людей и один ИИ, либо пять ИИ и один профессионал. Verge отмечает, что часто способность к прибыльному блефу считается исключительной прерогативой людей. Однако лишенный стратегического мышления Pluribus очень успешно блефовал — это отмечают все противостоявшие ему игроки-люди. Для алгоритма это был лишь один из способов выиграть раздачу, а никакого «имиджа» за игровым столом у него не было вовсе. «ИИ очень трудно выдавить из любой руки [в которой он участвует]», — заявил CNN Тревор Сэвейдж. Исследователи объявили, что не будут обнародовать алгоритм во избежание нарушения баланса в этой популярной игре, передает Business Insider. Браун говорит, что используемые при разработке Pluribus подходы могут усилить многие другие алгоритмы. Широкий спектр действий и дефицит информации характерны для большинства ситуаций, возникающих в реальном мире. Он полагает, что это пригодится и алгоритмам, выявляющим финансовые махинации, и формулирующим условия сделок, и даже автопилотам, выбирающим дорогу в плотном трафике. Источник: hightech.plus Комментарии: |
|