如何用「逻辑回归」构建金融评分卡模型？（上）-技术圈

虽然现在出现了很多性能优秀的分类算法，包括svm，RF，GBDT，DNN等，作为最简单的分类算法，lr依然是工业界主流的分类算法之一。那么lr到底有什么魔力，即使面对如此众多的 “高手” 面前，依然屹立不倒呢？

市面上关于lr 的书籍和文章大部分的讲解都是针对 lr一些基本理论或者一些推导公式。掌握这些还远远不够，要想让lr发挥其最大效果，必须要有一套科学的、严密的数据预处理流程。

和市面上对lr算法的讲解不同，本文将以金融评分卡模型为例，讲解一整套lr配套的数据处理流程，包括数据获取，EDA (探索性数据分析)，数据预处理，到变量筛选，lr模型的开发和评估，生成评分卡模型。希望大家在阅读本篇文章之后能够轻松驾驭lr算法。

1. 评分卡模型的背景知识

风控顾名思义就是风险控制，指风险管理者采取各种措施和方法，消灭或减少风险事件发生的各种可能性，或风险事件发生时造成的损失。

信用评分卡模型是最常见的金融风控手段之一，它是指根据客户的各种属性和行为数据，利用一定的信用评分模型，对客户进行信用评分，据此决定是否给予授信以及授信的额度和利率，从而识别和减少在金融交易中存在的交易风险。

评分卡模型在不同的业务阶段体现的方式和功能也不一样。按照借贷用户的借贷时间，评分卡模型可以划分为以下三种：

贷前：申请评分卡（Application score card），又称为A卡
贷中：行为评分卡（Behavior score card），又称为B卡
贷后：催收评分卡（Collection score card），又称为C卡

以下为评分卡模型的示意图：

那么怎么利用评分卡对用户进行评分呢？一个用户总的评分等于基准分加上对客户各个属性的评分。以上面的评分卡为例：

举个例子某客户年龄为27岁，性别为男，婚姻状况为已婚，学历为本科，月收入为10000，那么他的评分为:

Q1: 请计算以上评分卡模型的最低分和最高分

最低分为基准分与每个字段最低分相加：

最高分为基准分与每个字段最高分相加：

以上我们基本了解了评分卡模型的具体用法，看到以上评分卡案例之后，相信很多人肯定会有以下三个疑问：

用户的属性有千千万万个维度，而评分卡模型所选用的字段在30个以下，那么怎样挑选这些字段呢？
评分法卡模型采用的是对每个字段的分段进行评分，那么怎样对评分卡进行有效分段呢？
最关键的，也是大家最关心的问题是怎样对字段的每个分段进行评分呢？这个评分是怎么来的？

2.评分卡模型的开发

1.总体流程介绍

信用评分卡的开发有一套科学的、严密的流程，包括数据获取，EDA，数据预处理，到变量筛选，lr模型的开发和评估，生成评分卡模型以及布置上线和模型监测。典型的开发流程如下图所示：

本文仅介绍线下评分卡模型的开发，即数据获取，EDA, 数据预处理，变量筛选，lr模型开发，模型评估和生成评分卡。

2.数据获取

数据的获取途径主要有两个：

金融机构自身字段：例用户的年龄，户籍，性别，收入，负债比，在本机构的借款和还款行为等
第三方机构的数据：如用户在其他机构的借贷行为，用户的消费行为数据等

3.EDA（探索性数据分析）

该步骤主要是获取数据的大概情况，例如每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等。以便制定合理的数据预处理方案。

4.数据预处理

数据预处理主要包括数据清洗，变量分箱和 WOE 编码三个步骤。

4.1数据清洗

数据清洗主要是对原始数据中脏数据，缺失值，异常值进行处理。关于对缺失值和异常值的处理，我们采用的方法非常简单粗暴，即删除缺失率超过某一阈值（阈值自行设定，可以为30%，50%，90%等）的变量，将剩余变量中的缺失值和异常值作为一种状态。

4.2变量分箱

在这里我们回答第二个问题评分卡是怎样对变量进行分段的，评分卡模型通过对变量进行分箱来实现变量的分段。那么什么是分箱呢？以下为分箱的定义：

对连续变量进行分段离散化
将多状态的离散变量进行合并，减少离散变量的状态数

常见的分箱类型有以下几种，下面将一一讲解：

1. 无监督分箱

无监督的分箱主要包括以下几类：

等频分箱：把自变量按从小到大的顺序排列，根据自变量的个数等分为k部分，每部分作为一个分箱
等距分箱：把自变量按从小到大的顺序排列，将自变量的取值范围分为k个等距的区间，每个区间作为一个分箱
聚类分箱：用k-means聚类法将自变量聚为k类，但在聚类过程中需要保证分箱的有序性

由于无监督分箱仅仅考虑了各个变量自身的数据结构，并没有考虑自变量与目标变量之间的关系，因此无监督分箱不一定会带来模型性能的提升。

2. 有监督分箱

包括 Split 分箱和 Merge 分箱。

1）Split 分箱是一种自上而下(即基于分裂)的数据分段方法。如下图所示，Split 分箱和决策树比较相似，切分点的选择指标主要有 entropy，gini 指数和 IV 值等。

2）Merge 分箱，是一种自底向上(即基于合并)的数据离散化方法。如下图所示为Merge 分箱的示意图，Merge 分箱常见的类型为Chimerge分箱。

3）Chimerge 分箱是目前最流行的分箱方式之一，其基本思想是如果两个相邻的区间具有类似的类分布，则这两个区间合并；否则，它们应保持分开。Chimerge通常采用卡方值来衡量两相邻区间的类分布情况。

3. Chimerge的具体算法如下

1）输入：分箱的最大区间数n

2）初始化

连续值按升序排列，离散值先转化为坏客户的比率，然后再按升序排列
为了减少计算量，对于状态数大于某一阈值 (建议为100) 的变量，利用等频分箱进行粗分箱
若有缺失值，则缺失值单独作为一个分箱

3）合并区间

计算每一对相邻区间的卡方值
将卡方值最小的一对区间合并

重复以上两个步骤，直到分箱数量不大于n

4）分箱后处理

对于坏客户比例为 0 或 1 的分箱进行合并 (一个分箱内不能全为好客户或者全为坏客户)
对于分箱后某一箱样本占比超过 95% 的箱子进行删除
检查缺失分箱的坏客户比例是否和非缺失分箱相等，如果相等，进行合并

5）输出：分箱后的数据和分箱区间

Q2: 一般一个评分卡模型的有效持续时间是 1个月左右甚至更长时间，中间也许会有一些客户的数据发生变化，比如一个月之内突然换工作，工资上涨等等，针对这种情况，我们该怎样处理呢？

这里我们需要假设客户在短期内属性变化不会太大，即使客户的属性变化，只要在同一分箱中，依然会给这个客户相同的分数。举例来说：对于工资我们可以划分为5箱，即<3000, 3000-5000, 5000-8000, 8000-12000, >12000，假设一个客户的工资为9000，在一个月内工资上涨，那我们就假设这个客户的工资上涨之后不会超过12000，也就是说依然在8000-12000分箱中。

这样在考虑客户工资变化的前提下，不会因为客户工资的发生变化而变成了另外一个人，保证了模型的稳定性。

Q3：上文说到将变量中的缺失值作为一种状态是什么意思？

这里的意思是说让缺失值单独分为一箱。

Q4：比如年龄变量中出现“500岁”这种异常字段该怎样处理？

对于年龄特征我们划分为4段，即18-25, 25-35, 35-55, > 55，我们可以直接把500划分到>55这一个分箱中。另外我们也可以通过一些手段检测出异常值，将异常值单独分为一箱。

总结一下特征分箱的优势：

特征分箱可以有效处理特征中的缺失值和异常值
特征分箱后，数据和模型会更稳定
特征分箱可以简化逻辑回归模型，降低模型过拟合的风险，提高模型的泛化能力
将所有特征统一变换为类别型变量
分箱后变量才可以使用标准的评分卡格式，即对不同的分段进行评分

End.
作者：August
来源：知乎专栏
本文为转载分享，如侵权请联系后台删除