Обучение с подкреплением с использованием предпочтений человека |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2019-04-14 17:30 Для некоторых систем RL очень сложно установить взаимосвязь между общей целью и функцией награды, которая используется в state-of-the-art системах. Мы рассмотрим подход, который способен решать задачи без явного доступа к самой функции награды. Также, этот подход будет учитывать траектории, выбранные самими пользователями. Экспериментальные результаты будут представлены на основе Atari игр и в симуляторе MuJoCo. Докладчик: Михаил Шавкунов. Ссылка на статью: https://arxiv.org/abs/1706.03741 Телеграм: t.me/ainewsline Источник: arxiv.org Комментарии: |
|