风控建模之多特征筛选



古今之成大事业、大学问者,必经过三种之境界:

昨夜西风凋碧树。独上高楼,望尽天涯路。”此第一境也。孤独,迷茫;

“衣带渐宽终不悔,为伊消得人憔悴。”此第二境也。在追逐梦想的路上锲而不舍;

“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处。”此第三境也。在实践的路上,量变到质变,领悟真谛。

——王国维《人间词话》

建模过程中,特征必须要具备一定的区分度,特征之间线性无关,特征相对稳定。同时,在建模过程中,特征不是越多越好,因为过多的特征会导致模型训练 容易过拟合,训练速度也会变慢,而且会增加 开发上线以及后期监控维护成本。所以通过前一篇文章中提到的对单特征的覆盖度、IV值、PSI分析筛选后,我们还需要在建模过程中对剩下的特征进一步筛选,找出最优的模型组合。

1、方差膨胀系数(variance inflation factor,VIF)

一个被判定为有用的特征,也需要考虑是否能被其他特征替代。因为有些区分度虽然好,但是已经有别的一个特征或特征组具有同样的区分度,相关性很强,那留一个就可以。

这时候就需要把多个特征的线性相关性找出来,方差膨胀系数是衡量多元线性回归模型中多重共线性严重程度的一种度量。

方差膨胀系数表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值:

R 2 是指用X i 做因变量,对其他全部 X k 做一个线性回归的决定系数 ( coefficient of determination)

决定系数反应了Xi 的波动有多少百分比能被Xk 的波动所描述,即拟合程度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。

(简单理解就是把测试特征xi放在左边,剩下的放在右边。如果xi可以被右边的特征线性表达,就说明这个特征和其他特征的信息是重合的,可以去掉。如果不能,就说明这个特征是有意义的。)

VIF的取值大于1。VIF值越小越接近于1,多重共线性越小;越大,说明自变量之间存在共线性越大。一般来讲,如果方差膨胀因子超过10,则回归模型存在严重的多重共线性。当自变量的容忍度大于0.1,方差膨胀系数小于10的范围是可以接受的,表明自变量之间没有共线性问题存在。

2、 逐步回归(Stepwise Regression)

其基本思想是,贪心地遍历所有特征 组合,以保证最终模型的特征 组合为最优。

(1)向前逐步回归

初始情况下,模型中只有一个特征 ,之后尝试加入另一个特征 。上述过程不断迭代,直至没有特征 满足放入模型的条件。

(2)向后逐步回归

先将所有特征放入模型,然后用去掉某一个特征的方式反复训练模型,把模型性能下降最少的那个特征去掉,直到达到指定的特征个数。

比如有100个特征,去掉其中一个特征,用剩下99个特征训练模型,性能下降0.1在可接受范围内,那么这个特征可以去掉。

在风控建模的实际应用中,向后逐步回归要更合适一些,因为在信贷业务中特征的选择是有迹可循的,有框架可参考,所以使用向后逐步回归更快。

3、业务逻辑

参考同行业的特征框架,每个维度都需要保留一定的特征。每一个维度的特征的存在有益于模型的健壮性,并且不容易被反推欺诈。同时风控建模一定是和业务紧密联系的,需要保证模型的可解释性。返回搜狐,查看更多




上一篇:乙肝植物来源替代药物,科学家鉴定,多种化合
下一篇:5 分钟出核酸检测结果!复旦大学团队研发出新型