Использование нейронной сети для построения модели оценки заёмщиков в сфере онлайн-микрофинансирования |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-10-25 15:46 В настоящее время для построения скоринговой модели стандартом “де факто” в финансовой отрасли является использование функций логистической регрессии (logit-функций). Суть метода сводится к нахождению такой линейной комбинации начальных данных (предикторов), которая в результате logit-преобразования будет максимально правдоподобно осуществлять предсказания.
Практический недостаток метода — в необходимости длительной подготовки данных для построения модели (около недели работы специалиста). В реальных условиях работы микрофинансовой компании набор данных о заемщиках постоянно меняется, подключаются и отключаются различные дата-провайдеры, сменяются поколения займов — этап подготовки становится узким местом. Другой недостаток logit-функций связан с их линейностью — влияние каждого отдельного предиктора на конечный результат равномерно на всем множестве значений предиктора. Модели на базе нейронных сетей лишены этих недостатков, но редко применяются в отрасли — нет надежных методов оценки переобучения, большое влияние “шумящих” значений в исходных данных. Ниже мы покажем, как с помощью применения различных методов оптимизации модели на базе нейронных сетей позволяют получить лучший результат предсказаний по сравнению с моделями на базе logit-функций. 1. Постановка задачи упрощения структуры математической модели и ее решение с использованием методов негладкой регуляризации (на примере линейной модели) 1.1 Постановка задачи построения модели Большинство прикладных исследований имеют цель установления закономерной взаимосвязи некоторой измеряемой величины и нескольких факторовгде — среднее значение наблюдаемой величины , зависящей от переменных и — допустимые множества параметров и . Восстановление зависимости производится на основании данных наблюдения Оценки параметров можно получить, например, методом наименьших квадратов 1.2. Линейная модель В задаче построения линейной модели требуется по данным D построить модель следующего вида (оценить ее неизвестные параметры )где — компоненты вектора, — набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (3), — число информативных компонент вектора , участвующих в модели, n-размерность вектора . 1.3. Logit-модели Logit-модель имеет вид где а функция активации может быть задана одним из следующих видов Последняя из функций линейная. Наряду с (7)-(8), может применяться для сравнения качества аппроксимации с (7)-(8).1.4. Двухслойная сигмоидальная нейронная сеть (с одним скрытым слоем) В задаче аппроксимации сетью прямого распространения требуется по данным обучить двухслойную сигмоидальную нейронную сеть (НС) следующего вида (оценить ее неизвестные параметры )где — компоненты вектора , — набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (3), — функция активации нейрона, — число нейронов, — размерность вектора . 1.5. Функции активации сигмоидальной нейронной сети Приведем функции активации сигмоидального вида и их производные, которые мы будем использовать:1.6. Предварительная обработка входных данных Основная цель предобработки данных заключается в максимизации энтропии входных данных. Когда все значения переменной совпадают то она не несет в себе информации. И, напротив если значения переменной равномерно распределены на заданном интервале, то ее энтропия максимальна.Для преобразования компонент переменных с целью повышения степени равномерности компонент переменной используют формулу logit-модели 1.7. Подавление избыточных переменных и сглаживание Для подавления избыточных переменных предварительное обучение следует производить посредством минимизации по квадратичной ошибки и негладкого сглаживающего функционалагде – параметр регуляризации, — множество номеров переменных массива – по которым проводится регуляризация. Функционал предназначен для подавления избыточных переменных модели . Поэтому в решении будет присутствовать множество компонент, близких к нулю, которые необходимо исключать, используя специальные алгоритмы. 2. Сглаживающие функционалы для сглаживания и подавления избыточных переменных 2.1. Негладкая регуляризация Производные функционала, подобного (8) имеют следующий вид При они будут сколь угодно большими. Это означает что углы звезд – поверхностей уровня вырождаются в иглы, что замедляет скорость сходимости методов минимизации и приводит к аварийным преждевременным остановам.Линии уровня функционала (10) (линии уровня звездоподобного вида) изображены на рисунке 1. На рис. 1 приведено взаимодействие двух функционалов (основного и сглаживающего) и приведены направления их градиентов и результирующего градиента. 2.2. Частный случай негладкой регуляризация (бритва Оккама) Рассмотрим (8) при условииПроизводные (10) имеют следующий вид Поверхности уровня имеют вид прямоугольников, расположенных симметрично относительно нуля и повернутых на 45 градусов. Функция (10) негладкая. 2.3. Негладкая регуляризация с ограниченными производными В следующем функционале мы избавимся от наличия углов, вырождающихся в иглыНедостатком (10) является неоднородная чувствительность к параметру при вариациях порядков оцениваемых параметров для различных нейронных сетей. 2.4. Негладкая однородная регуляризация с ограниченными производными В следующем функционале мы избавимся от неоднородности по параметрамПреобразуем (12) Введем нормированные переменные Тогда (16) примет вид Обозначим структуру функции. Здесь первый множитель является однородной функцией степени и отображает общий рост функции. Второй сомножитель в (16) является однородной функцией нулевой степени и определяет поведение функции в зависимости от структуры пропорций между переменными. Обозначим свойства функционала (16), которые определяют его эффективность.
Следующие ниже функции мы рассмотрим на предмет обладания ими обозначенных нами свойств, необходимых для устранения избыточных переменных. 2.5. Квадратичная регуляризация (регуляризация Тихонова) Производные квадратичной функцииимеют следующий вид Не позволяет решить задачу устранения избыточных переменных, поскольку она не обладает свойством 2. 3. Результаты численного исследования На тестовых и реальных данных исследовались logit-модели и сигмоидальные нейронные сети с негладкой однородной регуляризацией и квадратичной регуляризацией Тихонова.3.1. Исследование на реальных данных различных моделей Восстановление различных зависимостей производилось на основании данных наблюдениягде в качестве величин использовались характеристики дефолта или отсутствие дефолта . Оценки неизвестных параметров модели производились методом наименьших квадратов Проводилась предварительная обработка входных данных. Основная цель предобработки данных заключается в максимизации энтропии входных данных. Когда все значения переменной совпадают то она не несет в себе информации. И, напротив, если значения переменной равномерно распределены на заданном интервале, то ее энтропия максимальна. Для преобразования компонент переменных с целью повышения степени равномерности компонент переменной используют формулу logit-модели Качество моделей оценивалось на основе характеристики AUC, определяющая площадь под ROC-кривой. Кривая ошибок или ROC-кривая – графичекая характеристика качества бинарного классификатора, зависимость доли верных положительных классификаций от доли ложных положительных классификаций при варьировании порога решающего правила. Преимуществом ROC-кривой является её инвариантность относительно отношения цены ошибки I и II рода. Площадь под ROC-кривой AUC (Area Under Curve) является агрегированной характеристикой качества классификации, не зависящей от соотношения цен ошибок. Чем больше значение AUC, тем «лучше» модель классификации. Данный показатель часто используется для сравнительного анализа нескольких моделей классификации. 3.2. Исследование Logit-моделей с различными типами регуляризации Logit-модельиспользовалась с тремя видами функция активации которые мы будем обозначать соответственно LIN, ABS и EXP. Коэффициенты модели находились посредством минимизации функции В качестве использовалась квадратичная функция регуляризации Тихонова и негладкая однородная функция при негладкой регуляризации В алгоритме регуляризации присутствовало 2 этапа. Выбиралось некоторое начальное значение , а на последующих итерациях получалось удвоением . При таких значениях рассчитывалась модель и производилось удаление переменных с чрезмерно малыми коэффициентами. На каждой итерации также рассчитывалась модель с некоторым малым значением . Такой способ предполагает сглаживание и удаление переменных при больших параметрах регуляризации и свободное построение модели при малых значениях. Модели при малых параметрах регуляризации могут оказаться полезными в предположении, что оставшиеся после удаления переменные являются значимыми для построения модели. В следующей таблице приведены результаты расчетов модели, число переменных которой nx=254. AUC_O – AUC на обучающей выборке AUC_T — AUC на тестовой выборке 3.3. Выводы исследование на реальных данных Logit-моделей Лучшие варианты моделей с квадратичной регуляризацией получены посредством сценария с предварительным удалением части коэффициентов модели при больших параметрах регуляризации с последующим расчётом параметров модели с малыми коэффициентами регуляризации. Такие сценарии требуют больших параметров регуляризации, что может привести к удалению значимых компонент модели.Оптимальная модель при негладкой оптимизации получена при малых значениях параметров регуляризации, что позволяет нам сделать вывод о том, что здесь наблюдается одновременный эффект удаления слабых переменных и сглаживание по остальной части переменных. Сравнение средних показателей AUC_O и AUC_T моделей говорит о получении более эффективными модели на основе негладкой оптимизации. Средние результаты для Logit-моделей 3.4. Исследование нейросетевых моделей с различными типами регуляризации Строились двухслойные сигмоидальные нейронные сети (с одним скрытым слоем). В задаче аппроксимации сетью прямого распространения требуется по данным D обучить двухслойную сигмоидальную нейронную сеть (НС) следующего вида (оценить ее неизвестные параметры )где — компоненты вектора , — набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (3), — функция активации нейрона, — число нейронов, — размерность вектора . Нейросетевая модель-модель использовалась с двумя видами функции активации которые мы будем обозначать соответственно LIN, ABS и EXP. Коэффициенты модели находились посредством минимизации функции В качестве использовалась квадратичная функция регуляризации Тихонова и негладкая однородная функция при негладкой регуляризации В алгоритме регуляризации присутствовало 2 этапа. Выбиралось некоторое начальные значение , а на последующих итерациях получалось удвоением . При таких значениях рассчитывалась модель и производилось удаление переменных с чрезмерно малыми коэффициентами. На каждой итерации также рассчитывалась модель с некоторым малым значением . Такой способ предполагает сглаживание и удаление переменных при больших параметрах регуляризации и свободное построение модели при малых значениях. Модели при малых параметрах регуляризации могут оказаться полезными в предположении, что оставшиеся после удаления переменные являются значимыми для построения модели. Результаты для нейросети без фиксации центров. В следующих таблицах приведены результаты расчетов моделей, число переменных которой = 254. Результаты для нейросети с фиксацией центров. AUC_O – AUC на обучающей выборке AUC_T — AUC на тестовой выборке 3.5. Выводы исследования на реальных данных нейросетевых моделей Лучшие варианты моделей с квадратичной регуляризацией получены посредством сценария с предварительным удалением части коэффициентов модели при больших параметрах регуляризации с последующим расчётом параметров модели с малыми коэффициентами регуляризации. Такие сценарии требуют больших параметров регуляризации, что может привести к удалению значимых компонент модели.Оптимальная модель при негладкой оптимизации получена при малых значениях параметров регуляризации, что позволяет нам сделать вывод о том, что здесь наблюдается одновременный эффект удаления слабых переменных и сглаживание по остальной части переменных. Сравнение средних показателей AUC_O и AUC_T моделей говорит о получении более эффективными модели на основе негладкой оптимизации. Второй вывод заключается в том что предварительная фиксация рабочих областей нейронов положительно сказывается на получении более эффективной нейросетевой модели. Фиксация нейронов на первом этапе не позволяет уходить рабочим областям из области данных, тем самым оставляя рабочими все нейроны. Средние результаты для нейросетей без фиксации центров. Средние результаты для нейросетей с фиксацией центров. AUC_O – AUC на обучающей выборке AUC_T — AUC на тестовой выборке Как показала наша практика, сигмоидальные нейронные сети с одним внутренним слоем могут успешно использоваться для прогноза дефолта заёмщика и показывают лучшие результаты, чем модели на базе функций логистической регрессии. Недостатки моделей на базе нейронных сетей успешно преодолеваются предварительной регуляризацией входных данных и выполнением обучения модели с фиксацией рабочих областей нейронов. Источник: habrahabr.ru Комментарии: |
|