Machine learning в риск-менеджменте: стоимость входа

2020-02-18 07:27

Одним из стимулов развития моделей машинного обучения в сфере оценки и управления кредитным риском стала практика применения внутренних рейтинговых моделей российскими банками, в том числе в рамках IRB-подхода к оценке кредитных рисков. Из-за заблуждения об избыточной ресурсоемкости и себестоимости разработки подобных моделей они пока не получили достаточного распространения, особенно среди небольших кредитных организаций.

Модели машинного обучения могут значительно упростить такие процедуры, связанные с принятием риска, как:

принятие первичных решений по кредитным заявкам на основе скоринга;
определение уровня резервирования требований банков к корпоративным заемщикам и контрагентам в соответствии со стандартом МСФО 9;
установление кредитных лимитов и иных лимитов риска на заемщиков и контрагентов;
оптимизация условий предоставления финансирования;
портфельное моделирование в целях построения прогноза денежных потоков;
формирование суждения о дефолтности пула активов на основе индивидуальной оценки входящих в его состав кредитов;
оценка контрагентов на предмет вероятности невыполнения обязательств не только по кредитным, но и любым другим договорам;
валидация используемых в процедурах кредитования, инвестирования и управления рисками методологий, моделей и экспертных систем.

Типовые целевые переменные для оценки — это вероятность дефолта (PD) заемщиков и иных контрагентов, уровень потерь при дефолте контрагента (LGD), производные от них ожидаемые потери (EL) — величина, в абсолютном или относительном выражении представляющая собой математическое ожидание потерь банка-кредитора по отдельному кредиту или целому пулу активов. Указанным целевым переменным в отличие от простой классификации или ранжирования сопоставляется точная величина, как того требуют, в частности, стандарты Базельского комитета по банковскому надзору, последовательно имплементируемые в регулирование российского банковского сектора.

Машинное, или индуктивное, обучение основано на выявлении эмпирических закономерностей в данных и тем самым противопоставляет разработанные с его применением модели экспертным системам, созданным на основе накопленных знаний, экспертных наблюдений и суждений. Дилемма «что эффективнее» в принципе не возникает, поскольку различные модели имеют разное целевое назначение и, более того, могут органично дополнять друг друга. Простейший пример — проведение первичного скоринга заемщиков, отсечение заявок с минимальным скоринговым баллом и последующий андеррайтинг прошедших заданный критерий заявок, в ходе которого эксперты принимают во внимание результаты скоринга и выявленные машинными методами факторы риска.

Активному распространению моделей машинного обучения в области риск-менеджмента препятствуют опасения чрезмерных трудозатрат и материальных издержек, связанных с их внедрением и поддержкой. В действительности наиболее эффективные и популярные среды разработки, как и функциональные библиотеки для применяемых языков программирования, распространяются на бесплатной основе, а для разработки и даже последующего применения стандартной модели достаточно одной не самой новой рабочей станции. Самый сложный и трудоемкий этап создания модели — это подготовка массива данных для ее обучения. Условимся понимать под обучающей выборкой наблюдений и параметров статистику дефолтов заемщиков (например, корпоративных) за определенный период времени, а также параметры и характеристики этих заемщиков (общую информацию, исходные и производные финансовые показатели, платежную дисциплину, данные о структуре собственности и органах управления и так далее) и выданных им кредитов (суммы, ставки, срочность, обеспеченность, факты реструктуризации и другие условия). Обучающая выборка одновременно должна отвечать целому ряду требований, в числе которых:

достаточный объем выборки при отсутствии строго формализованных универсальных критериев достаточности;
историчность (к примеру, ретроспективы последнего завершившегося года определенно будет недостаточно для обучения эффективной модели, поскольку такой непродолжительный период может быть недостаточно репрезентативен в рамках текущего бизнес-цикла);
однозначность классификации наблюдений (например, на дефолтные и устойчивые) на основе специально разработанных правил, которые наиболее применимы к выборке и соответствуют целям применения модели;
унифицированность и чистота данных, в том числе значений, необходимых для расчета всех предполагаемых параметров модели, которые будут протестированы на предмет их предсказательной способности и либо войдут в модель, либо будут отвергнуты;
однородность статистики;
релевантность статистики для предсказания целевых переменных в будущем на ее основе.

С учетом перечисленных требований при формировании выборки средние и небольшие с позиции клиентской базы, объема и гранулированности активных операций кредитные организации могут сталкиваться со следующими проблемами.

Во-первых, банк может просто не располагать однородной статистикой дефолтов и массивом характеристик объектов кредитного риска за существенное число завершившихся периодов в силу работы в небольшой рыночной нише с ограниченной клиентской базой или волатильности объемов активных операций.

Во-вторых, накопленная статистика может быть нерелевантна для обучения модели в соответствии с поставленными задачами. С такой сложностью может столкнуться кэптивный банк, решивший переориентировать политику на рыночных заемщиков, банк с неокончательно сформированной географической структурой деятельности или кредитная организация, претерпевающая изменение отраслевой или размерной структуры кредитного портфеля.

В-третьих, может возникнуть неоднозначность при классификации наблюдений, даже в случае такого простого признака, как факт дефолта. Многие кредитные организации прибегают к практике реструктуризации потенциально проблемных кредитов во избежание моментального дефолта заемщика и с целью его отсрочки на период, когда банк с позиции своих финансовых показателей будет готов абсорбировать стресс капитала и финансового результата при отражении потерь. В отчетности наблюдение из приведенного примера по умолчанию не будет классифицировано как дефолт. Однако очевидно, что в будущем сложности с погашением обязательств нужно заблаговременно предсказать. Это говорит о том, что правила фиксации дефолтов должны быть расширены относительно применяемых для формирования отчетности и в приведенном примере как минимум учитывать в качестве дефолтов вынужденные реструктуризации.

Накопленная статистика может быть нерелевантна для обучения модели в соответствии с поставленными задачами. С такой сложностью может столкнуться кэптивный банк, решивший переориентировать политику на рыночных заемщиков

В-четвертых, при отсутствии соответствующего опыта и инструментов задача обработки, систематизации и интерпретации накопленных данных может представляться сложно реализуемой, а при использовании необработанных данных результат может оказаться столь неожиданным, что демотивирует инициаторов разработки. Далее разработанная модель должна пройти процедуру валидации на тестовой выборке, отличной от обучающей выборки, в ходе чего заново возникают все перечисленные выше сложности. Зачастую валидация осуществляется не только в практических внутренних, но и в регулятивных целях в случаях, если применение модели и ссылающиеся на нее внутренние документы должны быть согласованы Банком России. Наконец, процедуры разработки и валидации должны быть автоматизированы в достаточной степени, для того чтобы по завершении очередного периода и аккумулирования соответствующего объема наблюдений модель могла быть легко дообучена с учетом актуальной статистики.

Описанные сложности формирования выборки и разработки моделей не означают, что они останутся по большей части недоступными для небольших кредитных организаций. Обучающая выборка не обязательно должна быть сформирована на основе собственной статистики. Огромные массивы данных о заемщиках, по крайней мере корпоративного сектора, могут быть получены из открытых источников. Кроме того, сейчас начинает формироваться рынок разработки моделей внешними контрагентами, работающими с банковским сектором и располагающими историческими и актуальными данными по кредитным портфелям российских банков. Статистика обезличивается и используется для разработки и валидации моделей. Заказчик не получает доступа к обучающей выборке, что устраняет риск распространения конфиденциальной информации. Затем подрядчик сопровождает разработанные модели и актуализирует их по мере обновления рыночных данных. Важнейший аспект для заказчика при подобном взаимодействии — получить результаты валидации моделей не только на данных исполнителя, но и на собственных данных, даже если их выборка мала и непригодна для разработки. Если аутсорсинг функций по разработке моделей оценки кредитного риска укоренится и сформируется прозрачный рынок с разработчиками, имеющими устойчивые позиции и признанную деловую репутацию, то планы небольших банков по внедрению моделей машинного обучения даже в целях применения IRB-подхода перестанут казаться сверхамбициозными и невыполнимыми.

Телеграм: t.me/ainewsline

Источник: m.vk.com

Machine learning в риск-менеджменте: стоимость входа

Комментарии: