Метод логистической регрессии — наиболее часто используемый метод для построения скоринговых систем в банках. Важным заключительным этапом построения скоринговой системы является этап ее валидации, который заключается в проверке достоверности полученной модели на обучающей, контрольной выборке и реальных данных.
Валидация скориновой модели должна производиться на основе системы критериев качества. Во- вторых, проводится сравнительный анализ методов оценки эффективности ранжирования заемщиков по модели логистической регрессии, а также по скоринговой карте, построенной на основе логистической регрессии. В третьих, дается обзор стратегий валидации скоринговых моделей. Нежинская, 7, МЭСИ, кафедра Математической статистики и эконометрики. Москва, Ленинградский пр- кт, д. МФПУ «Синергия», кафедра Бизнес- статистики. Одна из ключевых задач при управлении индивидуальными кредитными рисками в банке — оценка вероятности дефолта по кредиту у потенциальных заемщиков.
Для оценки этой вероятности могут применяться различные статистические модели, но наибольшее распространение на практике получила модель логистической регрессии. На основе полученных оценок коэффициентов логистической регрессии строится скоринговая карта, переводящая коэффициенты модели в скоринговые баллы. Именно по набранному суммарному скоринговому баллу происходит ранжирование заемщиков и принимается решение о выдачи кредита. О степени валидации (от англ. Модель должна давать корректные прогнозы не только на обучающей совокупности, но и на практике при ее применении. Проверку достоверности модели, как правило, производят на обучающей и контрольной выборке в пропорциях примерно 7.
Хорошая модель должны давать приемлемые результаты точности и на обучающей, и на контрольной выборке. Схожие показатели, полученные на обеих выборках — признак того, что на практике модель будет выдавать верные прогнозы. Например, первая выборка используется для оценки параметров модели. Вторая выборка — для проверки модели. Если получаются значительные отклонения результатов по обучающей и тестовой выборке, то из них удаляются выбросы или переменные, влияющие на эти отклонения, а затем строится новая модель по объединенной первой и второй выборке. Результаты новой модели проверяются на заранее зарезервированной третьей выборке. Таблица классификации представляет собой таблицу сопряженности из двух строк и двух столбцов между переменными фактических и предсказанных значений зависимой переменной.
Книгу «Руководство по кредитному скорингу» Под редакцией Элизабет Мэйз 1 магазине по цене 1148 руб.
Обычно в такой таблице сопряженности приводятся не суммы по строкам и столбцам, а процент корректных предсказаний по категориям зависимой переменной и общий процент всех предсказаний по модели (см. На гистограмме буквами обозначаются градации предсказанной зависимой переменной: «П» — «плохой» заемщик, если прогнозное и фактическое значение зависимой переменной не совпадают; «Х» — «хороший» заемщик, если прогнозное и фактическое значение зависимой переменной не совпадают. Каждый столбик на гистограмме соответствует определенной предсказанной вероятности, а его высота — количеству наблюдений, для которых предсказана данная вероятность.
На гистограмме классификации букве «Х» в правой части, а букве «П» в левой части соответствуют правильные предсказания. В случае идеальной классификации все буквы «Х» должны быть левее буквы «П», а разделять их будет вероятность отсечения «плохих» и «хороших» заемщиков. Чем лучше качество прогнозирования построенной модели, тем теснее наблюдения на гистограмме будут сгруппированы у соответствующих концов левой и правой оси. Пример построения гистограммы классификации. Для оценки качества классификации часто прибегают к анализу ROC- кривых (от англ. Этот анализ также позволяет выбрать оптимальный порог вероятности разделения «плохих» и «хороших» заемщиков для достижения приемлемого уровня чувствительности и специфичности модели. Пример построения ROC- кривой.
ROC- кривая показывает зависимость доли верно классифицированных положительных исходов (чувствительности) от доли неверно классифицированных отрицательных исходов (единица минус специфичность). ROC- кривая может строится по значениям спрогнозированных вероятностей дефолта по модели логистической регрессии или по результатам классификации на основе построенной скоринговой карты.
В первом случае ROC- анализ позволяет выбрать порог вероятности разделения «плохих» и «хороших» заемщиков для достижения приемлемого уровня чувствительности и специфичности модели. А во втором — оптимальный скоринговый балл отсечки «плохих» и «хороших» заемщиков. Задача анализа чувствительности — минимизировать кредитный риск, связанный с выдачей кредита. Модель с высокой специфичностью будет менее тщательно выявлять «плохих» заемщиков и будет является рискованной. Задача анализа специфичности в кредитном скоринге — минимизировать риск упущенной выгоды, связанной с отказом в выдаче кредита. Для определения оптимального порога классификации существуют множество критериев, например.
Модель должна точнее классифицировать «плохих» заемщиков, т. При снижении порога отсечения в модели будет увеличиваться чувствительность, т.
За оптимальный порог отсечения можно взять точку баланса между чувствительностью и специфичностью. Площадь под кривой AUC изменяется от 0. Обычно считают, что значение площади от 0. Следует отметить, что показатель площади под кривой предназначен.
Значение площади под кривой не содержит никакой информации о чувствительности и специфичности модели. Этот показатель переводит значение площади под кривой в диапазон от 0 до 1, чем выше его величина, тем выше дискриминирующая способность модели. Рассчитывается индекс Джини по формуле. AUG — площадь по ROC- кривой. При ранжировании заемщиков по хорошей скоринговой карте «плохие» и «хорошие» заемщики должны иметь максимально различающиеся скоринговые баллы. Например, «плохим» заемщикам присваивался меньший балл, чем «хорошим». В итоге группа «плохих» кредитов должна иметь в сумме меньше баллов, чем группа «хороших».
Чем более явно будут разделены распределения скоринговых баллов для «плохих» и «хороших» кредитов, тем эффективнее будет работать скоринговая карта.