Обучение с подкреплением с использованием предпочтений человека

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo.

Докладчик: Михаил Шавкунов.

Ссылка на статью: https://arxiv.org/abs/1706.03741


Телеграм: t.me/ainewsline

Источник: arxiv.org

Комментарии: