1500字范文 > 向前logistic回归与向后筛选出一样的变量_风控建模之特征筛选与建模（python）...

向前logistic回归与向后筛选出一样的变量_风控建模之特征筛选与建模（python）...

时间：2023-07-07 16:56:06

特征筛选

在建模之前的一步就是将特征工程做好的变量进行筛选，在风控项目中筛选分为两步：初步筛选、逐步回归筛选以及稳定性筛选。

初步筛选

通常评分卡模型的特征筛选主要从以下4个角度出发：缺失率（一般变量较少时可以可以相对放宽，使用一些方法，如插值等，来填充缺失值）好坏区分能力（即IV值）相关性(一般使用皮尔逊相关系数)分箱后的单调性

信息量（IV）

信息量（Information Value，IV）定义为特征WOE编码的加权求和，woe的计算公式（前面章节有详细介绍：风控建模之特征转换）:

其中pyi和pni的定义与WOE编码中完全相同。单个特征的IV等于该特征每个取值对应的ivi的累加。

从公式上看，IV衡量的是变量不同取值样本标签的分布差异，可以从一定程度上反映单特征对标签区分的贡献度。

对于特征的IV筛选标准：特征整体的IV值不高时，可以将筛选的阀值调低，如在项目中一般调低至0.01，去寻找有效特征；而当特征的IV值大于0.5时，说明该特征具有显著好坏区分能力，因而可以作为前置的策略规则，提前拒绝高风险人群，对于规则阀值的确定可以依据bad_rate以及业务需要进行设置。

python代码：

import

逐步回归筛选

逐步回归（Stepwise Regression）是一种线性回归模型自变量选择方法，其基本思想是，贪心地遍历所有变量最优组合，以保证最终模型的变量组合为最优。该过程涉及多次F检验。分为：向前逐步回归、向后逐步回归、双向逐步回归。在风控建模项目中，是在特征转换成woe编码时，进行逐步回归筛选特征。

向前逐步回归

初始情况下，模型中只有一个F检验显著性最高的变量，之后尝试加入另一个F检验显著性最高的变量。上述过程不断迭代，直至没有变量满足放入模型的条件。

向后逐步回归

与前向选择相反。首先将所有变量同时放入模型，然后将其中F检验显著性最低的变量从模型中剔除。上述过程不断迭代，直至没有变量满足剔出模型的条件。

双向逐步回归

将前向选择与后向消除同时进行。模型中每加入一个自变量，可能使得某个已放入模型的变量显著性减小。当其显著性小于阈值时，可将该变量从模型中剔除。双向消除即每增加一个新的显著变量的同时，检验整个模型中所有变量的显著性，将不显著变量剔除，从而得到最优的变量组合。

在实际项目实践中，双向逐步回归的表现较好。

combiner

经验证，direction = ‘both’效果最好。estimator = ‘ols’以及criterion = ‘aic’运行速度快且结果对逻辑回归建模有较好的代表性

stepwise_rt_list

稳定性筛选（PSI）

在实际业务中，最后决定模型是否能够上线的标准是模型及变量的PSI（模型表现KS只要达到30以上就具备区分好坏能力），不然可能出现的情况就是在训练集里模型表现良好，而在测试集以及时间外样本验证中KS跌如狗，那么之前的工作前功尽弃，少侠请重新再来吧！所以特征稳定性筛选是十分必要的，一般而言特征整体稳定，那么模型就稳定，KS不会波动太大。