Бихевиоризм, корпоративные KPI и искусственный интеллект

Когда мы обсуждаем "палочную систему" в полиции, ругаем дурацкие корпоративные KPI и хороним бихевиоризм в психологии, мы занимаемся одним и тем же: преодолеваем ограничения обучения с подкреплением. Ибо что ты у этого обучения попросишь, то и получишь: "вы этого хотели -- вот вам!". А хотят-то не этого, не хотят выполнения KPI, хотят "сделайте мне красиво!", просто сформулировать не могут -- принципиально не могут, в этом проблема.

В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да?

Вот статья исследователей искусственного интеллекта, где обсуждается ровно этот вопрос: что делать с агентами, которые (гады!) максимизируют награду, а не выполняют задачи -- https://openai.com/blog/faulty-reward-functions/. Первым же пунктом там стоит: не нужно прямо специфицировать награду, а нужно имитировать, как закончил бы эту задачу человек. Ха-ха три раза! Человек бы (его так обычно сегодня и учат) сразу предложил бы установить KPI, связанный с решением задачи, так что это не помогает. Нужно сразу же говорить: "как закончил бы эту задачу человек, не испорченный современным менеджментом с засильем KPI -- а тот человек, который действительно хочет решить задачу". Вторым пунктом там стоит, что нужно получить от человека обратную связь, оценивающую качество работы. В компаниях это означает, что есть недочеловеческие подразделения, которые используют максимизацию KPI, и какие-то человеки, которые не связаны KPI, и поэтому могут проверить недочеловеков. Но в современных корпорациях где таких возьмёшь? Там ведь KPI снизу доверху!

Третий ход уже интересней: "It may be possible to use transfer learning to train on many similar games, and infer a “common sense” reward function for this game. Such a reward function might prioritize finishing the race based on the fact that a typical game has such a goal, rather than focusing on the idiosyncrasies of this particular game's reward function. This seems more similar to how a human would play the game" -- в современных компаниях это означает, что неопытные сотрудники будут слепо следовать максимизации достижения своих KPI, а вот опытные будут пытаться следовать здравому смыслу и житейскому опыту. Свежо предание, только кто им это даст? Сначала им нужно будет придумать, как обдурить систему с KPI. Ну, её и дурят повсеместно, чисто из опыта.

В любом случае интересно посмотреть, как машинное обучение будет преодолевать теоретические ограничения тупого бихевиоризма, которым пропитаны сверху донизу крупные компании. Ибо проблемы проблемами, но бихевиоризм работает, и работает хорошо -- даже когда заказ цели неправильный, эта неправильная цель ведь достигается!

Вот видео из текста по ссылке, там хорошо видно, как агент немедленно сходит с маршрута гонки, как только находит способ резкого поднятия своих показателей согласно установленной ему системы KPI (https://www.youtube.com/watch?v=tlOIHko8ySg):

Ничего не напоминает из корпоративной жизни?



		Бихевиоризм, корпоративные KPI и искусственный интеллект
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2016-12-27 15:02 Психология, искусственный интеллект Когда мы обсуждаем "палочную систему" в полиции, ругаем дурацкие корпоративные KPI и хороним бихевиоризм в психологии, мы занимаемся одним и тем же: преодолеваем ограничения обучения с подкреплением. Ибо что ты у этого обучения попросишь, то и получишь: "вы этого хотели -- вот вам!". А хотят-то не этого, не хотят выполнения KPI, хотят "сделайте мне красиво!", просто сформулировать не могут -- принципиально не могут, в этом проблема. В искусственном интеллекте налетели на ту же проблему: стоит сформулировать, за что компьютерный агент получает подкрепление, и он немедленно научается максимизировать это подкрепление, а не выполнять задуманную задачу. Скажем, решили добавить чуть-чуть очков за попутное поражение целей в ходе гонки. Агент немедленно перестал финишировать гонку, но стал поражать цели, аккуратно дожидаясь их возникновения. Если вы готовы заплатить за каждую дохлую крысу, то в первые три дня люди переловят почти всех крыс, а через полгода вы обнаружите множество крысиных ферм, где будут этих крыс разводить. Неожиданенько, да? Вот статья исследователей искусственного интеллекта, где обсуждается ровно этот вопрос: что делать с агентами, которые (гады!) максимизируют награду, а не выполняют задачи -- https://openai.com/blog/faulty-reward-functions/. Первым же пунктом там стоит: не нужно прямо специфицировать награду, а нужно имитировать, как закончил бы эту задачу человек. Ха-ха три раза! Человек бы (его так обычно сегодня и учат) сразу предложил бы установить KPI, связанный с решением задачи, так что это не помогает. Нужно сразу же говорить: "как закончил бы эту задачу человек, не испорченный современным менеджментом с засильем KPI -- а тот человек, который действительно хочет решить задачу". Вторым пунктом там стоит, что нужно получить от человека обратную связь, оценивающую качество работы. В компаниях это означает, что есть недочеловеческие подразделения, которые используют максимизацию KPI, и какие-то человеки, которые не связаны KPI, и поэтому могут проверить недочеловеков. Но в современных корпорациях где таких возьмёшь? Там ведь KPI снизу доверху! Третий ход уже интересней: "It may be possible to use transfer learning to train on many similar games, and infer a “common sense” reward function for this game. Such a reward function might prioritize finishing the race based on the fact that a typical game has such a goal, rather than focusing on the idiosyncrasies of this particular game's reward function. This seems more similar to how a human would play the game" -- в современных компаниях это означает, что неопытные сотрудники будут слепо следовать максимизации достижения своих KPI, а вот опытные будут пытаться следовать здравому смыслу и житейскому опыту. Свежо предание, только кто им это даст? Сначала им нужно будет придумать, как обдурить систему с KPI. Ну, её и дурят повсеместно, чисто из опыта. В любом случае интересно посмотреть, как машинное обучение будет преодолевать теоретические ограничения тупого бихевиоризма, которым пропитаны сверху донизу крупные компании. Ибо проблемы проблемами, но бихевиоризм работает, и работает хорошо -- даже когда заказ цели неправильный, эта неправильная цель ведь достигается! Вот видео из текста по ссылке, там хорошо видно, как агент немедленно сходит с маршрута гонки, как только находит способ резкого поднятия своих показателей согласно установленной ему системы KPI (https://www.youtube.com/watch?v=tlOIHko8ySg): Ничего не напоминает из корпоративной жизни? Источник: ailev.livejournal.com Комментарии:

Бихевиоризм, корпоративные KPI и искусственный интеллект

Комментарии: