В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да?
Вот статья исследователей искусственного интеллекта, где обсуждается ровно этот вопрос: что делать с агентами, которые (гады!) максимизируют награду, а не выполняют задачи -- https://openai.com/blog/faulty-reward-f
Третий ход уже интересней: "It may be possible to use transfer learning to train on many similar games, and infer a “common sense” reward function for this game. Such a reward function might prioritize finishing the race based on the fact that a typical game has such a goal, rather than focusing on the idiosyncrasies of this particular game's reward function. This seems more similar to how a human would play the game" -- в современных компаниях это означает, что неопытные сотрудники будут слепо следовать максимизации достижения своих KPI, а вот опытные будут пытаться следовать здравому смыслу и житейскому опыту. Свежо предание, только кто им это даст? Сначала им нужно будет придумать, как обдурить систему с KPI. Ну, её и дурят повсеместно, чисто из опыта.
В любом случае интересно посмотреть, как машинное обучение будет преодолевать теоретические ограничения тупого бихевиоризма, которым пропитаны сверху донизу крупные компании. Ибо проблемы проблемами, но бихевиоризм работает, и работает хорошо -- даже когда заказ цели неправильный, эта неправильная цель ведь достигается!
Вот видео из текста по ссылке, там хорошо видно, как агент немедленно сходит с маршрута гонки, как только находит способ резкого поднятия своих показателей согласно установленной ему системы KPI (https://www.youtube.com/watch?v=tlOIHk
Ничего не напоминает из корпоративной жизни?