ttt-rl (Tic-Tac-Toe Reinforcement Learning)

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Суть проекта

Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования нейронных сетей. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми.

Чем интересен?

Минимализм и простота

Весь код написан на чистом C (~400 строк).

Нет зависимостей — только стандартная библиотека.

Идеален для изучения основ RL «с нуля».

Классический подход к RL

Используется метод Temporal Difference (TD) Learnin

Агент обучается через игру (self-play) и обновляет стратегию на основе наград.

Образовательная ценность

Понятная визуализация процесса обучения (таблицы Q-значений).

Пример того, как простая задача помогает понять фундамент RL.

Эффективность

После обучения агент играет почти оптимально, избегая поражений.

Код легко модифицировать для экспериментов (например, изменить размер доски).

Как это работает?

Q-таблица хранит «ценность» каждого действия в конкретном состоянии.

Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования).

P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! ?

Github (https://github.com/antirez/ttt-rl)


Источник: github.com

Комментарии: