基于逻辑回归的流失预警模型

2017-09-03郭向红

福建质量管理 2017年10期

关键词：优度因变量回归系数

郭向红

(内蒙古移动公司内蒙古呼和浩特 010000)

基于逻辑回归的流失预警模型

郭向红

(内蒙古移动公司内蒙古呼和浩特 010000)

当输入变量过多时，逻辑回归模型训练的时间会很长，而且更重要的是往往因为运算量过大而无法进行。因此，本文讨论了利用主成分分析进行变量降维，介绍了逻辑回归的基本理论和流失预警模型的开发过程。

逻辑回归；流失预警模型

一、模型简介

回归分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用，尽管如此，在运用回归分析方法时仍不该忽略方法应用的前提假设条件。违背了某些关键假设，则得到的分析结论很可能是不合理的。比如，利用多元回归分析变量之间关系或者进行预测时的一个基本要求就是：因变量均是连续型变量。然而实际应用中这种要求未必都能得到较好的满足，如本文所讨论的根据通信用户近期的消费行为和通话行为特征，建立通信用户的是否有流失倾向的回归分析模型，来判断用户是否有潜在的流失意愿。这个模型中的因变量设为是否有可能流失，这是个纯粹的二值品质型变量，显然不满足上面的要求。对于这类问题，我们通常采用逻辑回归进行解决。

当输入变量过多时，逻辑回归模型训练的时间会很长，而且更重要的是往往因为运算量过大而无法进行。因此，本文首先讨论了利用主成分分析进行变量降维，然后介绍了逻辑回归的基本理论和流失预警模型的开发过程。

(一)使用主成分分析进行数据预处理

在许多实际问题中，我们经常用多个变量来刻画某一事物，但由于这些变量之间往往具有相关性，很多变量带有重复信息，这样就给分析问题带来了很多不便，同时也使分析结论不具有真实性和可靠性，因此，人们希望寻找到少量几个综合变量来代替原来较多的变量，使这几个综合变量能较全面地反映原来多项变量的信息，同时相互之间不相关。主成分分析是满足上述要求的一种处理多变量问题的方法。

1.基本思想

主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合。为了能更清晰的解释主成分的基本思想，我们从用两个指标来衡量n个样本点的二维空间入手。

推而广之，第一主成分y1的方差达到最大，其方差越大，表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息，再考虑选取第二主成分y2，y2在剩余的线性组合中方差最大，并且与y1不相关，如若第一、第二主成分仍然不能反映原变量的全部信息，再考虑选取第三主成分y3，y3在剩余的线性组合中方差最大，并且与y1、y2不相关，依此可求出全部p个主成分，它们的方差是依次递减的。在实际工作中，在不损失较多信息的情况下，通常选取前几个主成分来进行分析，达到简化数据结构的目的。

2.数学模型

主成分分析可以针对总体，也可以针对样本，但在许多问题中所涉及的总体都是未知的，所以我们主要讨论样本的主成分。仍从二维空间入手，设有两个变量的信息如图所示，大部分的样本点集中在椭圆范围内：

两个变量的信息分布

如果我们取椭圆的长轴y1、短轴y2作为样本点新的坐标轴，容易看出y1坐标变化程度大，即y1的方差最大，而y2的变化程度相对较小，即y2的方差较小。于是可以说变量(x1，x2)的信息大部分集中在新变量y1上，而小部分集中在新变量y2上。上图中的新坐标y1，y2是x1，x2经过坐标旋转而得到的，其旋转公式为：

y1=cosθx1+sinθx2

y2=-sinθx1+cosθx2

系数满足的要求是：

(cosθ)2+(sinθ)2=1;(-sinθ)2+(cosθ)2=1;cosθ(-sinθ)+sinθcosθ=0

我们可以称y1为它们的第一主成分，y2为它们的第二主成分，坐标的正交变换为主成分变换。推广开来，设有n个样本点，每个样本点都有p项变量x1,x2,…,xp，其原始数据矩阵表示为：

其中xij是第i个样本点第j个指标的观测值。如前所述，通过主成分变换得到的线性组合可以表示为x1,x2,…,xp的线性组合：

y1=u11x1+u12x2+……+u1pxp

y2=u21x1+u22x2+……+u2pxp

…………

yp=up1x1+up2x2+……+uppxp

3.模型求解

为了求出主成分，只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。设R的特征根λ1≥λ2≥…≥λp>0，相应的单位特征向量为：(ui1ui2… uip)’，那么相应的主成分就是：yi=ui1zx1+ui2zx2+……+uipzxp。

4.实验结果

采用TWM软件中的主成分分析模块，对有400多个变量字段的数据挖掘宽表进行降维操作。发现前30个主成分变量的累计方差贡献为61.8%，提取这些变量，作为逻辑回归模型的输入变量。

二、逻辑回归流失预警模型

(一)逻辑回归模型

逻辑回归是根据输入字段值对记录进行分类的一种统计技术。当被解释变量为0/1二值变量时，称为二项逻辑回归。二项逻辑回归虽然不能直接采用一般线性多元回归模型建模，但仍然可以充分利用线性回归模型建立的理论和思路进行建模。

1.若采用简单线性回归模型，即Yi=β0+βixi+εi，当Yi只取0，1两值时，由ε～N(0,σ2)，E(ε)=0，

有E(Yi)=β0+βixi=1×P+0×(1-P)=P，即E(Yi)为xi时yi=1的概率值。因此，可以利用一般线性多元回归模型对因变量为1的概率P进行建模，此时模型因变量的取值范围就是0到1之间，即Py=1=β0+βixi。

2.由于概率P的取值范围为[0,1]，而一般线性回归模型要求因变量取值为(-∞,+∞)，因此可以对概率P做转换处理。而一般线性模型建立关于因变量取值为1时的概率的回归模型时，模型中自变量与概率值之间的关系是线性的。在实际应用中，这个概率与自变量之间往往是一种非线性关系。因此，对概率P的转换处理采用非线性转换(Logit变换)，具体如下：

(1)第一步，将P转换成Ω，即Ω=P/(1-P)，其中Ω成为发生比，是事件发生的概率与不发生的概率的比值。可得Ω是P的单调增函数，从而保证了P与Ω增长的一致性，由此得出Ω的取值范围为(0,+∞)。

(2)第二步，将Ω转换成lnΩ，即lnΩ=ln(P/(1-P))，式中lnΩ称为Logit P，经过变换后的Ω与Logit P之间的增长性一致，且Logit P取值为(-∞,+∞)。经过Logit变换后，可以利用一般线性回归模型建立自变量与因变量之间的关系模型，即逻辑回归模型LogitP=β0+βixi转换为ln(P/(1-P))=β0+βixi，于是有P/(1-P)=exp(β0+βixi)，从而有：

此式即为逻辑回归函数，它是典型的增长函数，能很好的体现概率P和自变量间的非线性关系。

(二)逻辑回归方程中回归系数的含义

逻辑回归模型采用极大似然估计法对模型的参数进行估计。极大似然估计法是一种在总体分布密度函数和样本信息的基础上，求解模型中未知参数估计值的方法。它基于总体的分布密度函数构造一个包含未知参数的似然函数，并求解在似然函数值最大下的未知参数值。因为在形式上，逻辑回归模型与一般线性回归模型相同，所以可以以类似的方法理解和解释逻辑回归模型系数的含义。即当其他自变量保持不变时，自变量xi每增加一个单位，将引起Logit P增加(或减少)βi个单位。但是Logit P无法直接观察且测量单位也无法确定，因此通常以逻辑回归函数的标准差作为Logit P的测度单位。在现实应用中，大家通常更为关心的是自变量变化引起概率P变化的程度，因为它们之间的关系是非线性的。因此，人们将注意力集中在自变量给Ω带来的变化。

当逻辑回归模型的回归系数确定后，将其代入Ω的函数，即Ω=exp(β0+βixi)。当其他的自变量保持不变，xi增加一个单位时，可将新的发生比设为Ω′，则有Ω′=Ωexp(βi)。由此可知，当xi增加一个单位时将引起发生比扩大exp(βi)倍，当回归系数为负时发生比缩小。

(三)逻辑回归方程的检验

1.回归方程的显著性校验

逻辑回归方程显著性检验的目的是检验自变量全体与Logit P的线性关系是否显著，是否可以用线性模型拟合。基本思路是：若方程中的诸多变量对Logit P的线性解释有显著意义，则会使得回归方程对样本的拟合得到显著提高，可采用对数似然比测度拟合程度是否有了提高。其零假设为H0：各回归系数同时为0，自变量全体与Logit P的线性关系不显著。

2.回归系数的显著性校验

逻辑回归系数显著性检验的目的是逐个检验模型中各自变量是否与Logit P有显著的线性关系，以解释Logit P是否有重要贡献。其零假设为H0:βi=0，即某回归系数与零无显著性差异，相应的自变量与Logit P的线性关系不显著。回归系数的显著性检验采用的是检验统计量为Wald检验统计量，数学定义为Wald=(βi/Sβi)2。其中βi是回归系数，Sβi是回归系数标准误差，Wald检验统计量服从χ2(1)分布。

3.回归方程的拟合优度校验

在逻辑回归分析中，拟合优度可以从两方面考察：一方面是回归方程能够解释因变量的变差的程度，如果方程可以解释因变量较大部分的变差，则说明拟合优度高，反之说明拟合优度低；另一方面，由回归方程计算出的预测值与实际值之间吻合的程度，即方程的总体错判率是低还是高，如果错判率低，说明拟合优度高，否则说明拟合优度低。拟合优度检验的常用指标有Cox & SnellR2统计量，Nagel ker keR2统计量，错判矩阵，残差分析等。

4.模型训练过程和结果

利用得到的前30个主成分变量，采用TWM工具中的逻辑回归模型进行训练。然后将训练后的模型作为评分模型，对用户信息进行评分，从而分析出可能流失的客户。