Обучение с подкреплением с использованием предпочтений человека

МЕНЮ


Искусственный интеллект. Новости
Поиск
Регистрация на сайте
Сбор средств на аренду сервера для ai-news

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация




RSS


RSS новости

Новостная лента форума ailab.ru


Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.

Докладчик: Михаил Шавкунов.

Ссылка на статью: https://arxiv.org/abs/1706.03741


Источник: arxiv.org

Комментарии: