Обучение с подкреплением с использованием предпочтений человека

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.

Докладчик: Михаил Шавкунов.

Ссылка на статью: https://arxiv.org/abs/1706.03741


Источник: arxiv.org

Комментарии: