![]() |
![]() |
![]() |
|||||
![]() |
ttt-rl (Tic-Tac-Toe Reinforcement Learning) |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-03-24 12:37 ![]() Суть проекта Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования нейронных сетей. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми. Чем интересен? Минимализм и простота Весь код написан на чистом C (~400 строк). Нет зависимостей — только стандартная библиотека. Идеален для изучения основ RL «с нуля». Классический подход к RL Используется метод Temporal Difference (TD) Learnin Агент обучается через игру (self-play) и обновляет стратегию на основе наград. Образовательная ценность Понятная визуализация процесса обучения (таблицы Q-значений). Пример того, как простая задача помогает понять фундамент RL. Эффективность После обучения агент играет почти оптимально, избегая поражений. Код легко модифицировать для экспериментов (например, изменить размер доски). Как это работает? Q-таблица хранит «ценность» каждого действия в конкретном состоянии. Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования). P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! ? Github (https://github.com/antirez/ttt-rl) Источник: github.com Комментарии: |
||||||