Модификация награды в алгоритмах обучения с подкреплением

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Конечная формулировка задачи обучения с подкреплением включает в себя функцию награды. Зачастую эта функция определяет насколько эффективно будут обучаться те или иные алгоритмы, а так же то, как выглядит оптимальная политика для задачи.

На семинаре мы посмотрим на примеры того, как можно изменять сходимость методов обучения с подкреплением при помощи модификации функции награды различными способами. Так же мы поговорим про основанные на методе потенциалов аддитивные добавки к функции награды, чем они хороши и как их можно использовать при решении задач.

Докладчик: Олег Свидченко.

Ссылка на слайды: https://docs.google.com/presentation/...


Источник: www.youtube.com

Комментарии: