基于特征选择的存量客户流失预警分析

2022-10-14李琼阳何月华

许昌学院学报 2022年5期

李琼阳,何月华

(许昌学院数理学院，河南许昌 461000)

智能手机的广泛应用，使得移动、联通和电信在最近的10年里快速发展.但随着携号转网政策的施行，运营商的客户量增速迟缓，发卡量稳步不前.运营商之间的竞争日益激烈，互相挖取竞争对手客户的事情时常发生，客户流失已成为电信行业里亟待解决的主要问题，高质量客户的转网往往会给企业带来非常大的损失.从成本角度来看，争取一个新客户的运营成本远比维护高质量老客户的成本高.因此，建立一套具有实际意义的预警监察系统，帮助企业在客户流失前做出预警防范，具有极其重要的作用.

客户流失预警归根结底是分类问题，把现存客户分为两类：即将流失和非流失，本质是一个二分类问题.对于二分类问题有很多种数据挖掘技术可以利用，如逻辑回归、神经网络、决策树等.国内外许多学者都曾利用这些方法进行相应的研究，杨英英[1]建立了基于组合决策树模型的手机客户流失预警系统；林涛[2]利用卡方检验和相关系数检验等方式选择特征，基于逻辑回归构建宽带用户流失预警模型；彭佳雯[3]建立了基于SOM神经网络的客户价值评估及流失分析体系；杨荣等[4]建立了基于基尼系数的决策树模型，对存量客户进行流失预警；崔亚奇[5]基于C5.0算法进行了航空客户流失分析；戴凤英[6]先使用Adaboost算法计算变量特征重要度，选择重要建模特征，后分别使用Logistic回归、Adaboost算法和XGBoost算法建立客户流失预测模型；李爱民[7]使用K-means聚类分析和Logistic回归建立客户流失预警模型，深刻研究客户流失原因，分析各种因素对客户流失的影响程度，从而制定有效的客户挽留策略.在算法选择上，用得最多的是逻辑回归和决策树，主要是因为模型可解释强，算法简便.本文主要基于客户消费数据，利用统计方法筛选出重要的特征，结合决策树探索构建运营商客户流失预警模型.

1 研究方法

为构建可靠的客户流失预警模型，需要选择对目标变量影响力较强的解释变量，即选择建模特征.本文采用信息值作为筛选建模变量的依据，用可解释性强、计算方法简单、可输出分类标签的决策树模型作为建模方法.

1.1 解释变量重要性的度量

信息值(informationofvalue)简记为IV，常用于度量建模特征对目标变量的影响强度，是建模过程中选择建模特征的一个非常重要的指标，它与信息理论中的熵比较类似，主要用于二分类问题，下面介绍信息值的计算.为表述方便，可将二分类问题中的目标变量用0、1表示，其中流失客户表示为1，现存客户表示为0.证据权重记为W，表示建模特征取某一个具体值时对研究问题中的流失比例造成的影响，譬如当建模特征取值为j时对流失比例造成的影响记为Wj，其计算公式为

(1)

这里BT表示总样本中的流失客户样本数，GT表示总样本中的现存客户样本数，Bj表示总样本中该建模特征取值为j时的流失客户样本数，Gj指表示总样本中建模特征取值为j时的现存客户样本数.

信息值主要用来衡量一个建模特征中包含的信息量，假设该建模特征有q个取值，则其对应的信息值计算方法如下：

(2)

从上述公式可知，信息值其实是建模特征每个取值所对应的证据权重的加权和式，信息值的大小决定了建模特征对目标变量影响力的强弱.

根据IV信息值判定一个变量对目标变量影响程度的规则如下：

①若IV<0.02，几乎无影响，不予考虑；

②若0.02≤IV<0.1，说明该变量对目标变量有微弱的影响力；

③若0.1≤IV<0.3，说明该变量对目标变量影响力一般；

④若IV≥0.3，说明该变量对目标变量有比较强的影响力.

1.2 决策树

决策树是一种常见的机器学习分类算法，原理简单，对连续型变量有很好的处理方法，对缺失数据也不敏感.其具备独特的树形结构，因而能够高效处理高维、大规模的样本数据.决策树建模的核心是如何在树形结构划分时选择最优的结点特征.通常，随着树形结构的不断划分，决策树结点中的样本应尽可能是同类的，即决策树结点的“纯度”应不断增大.

决策树建模中常用“信息熵”来衡量样本集合的纯度.假设目前样本集合D中第k类样本占比为pk(k=1,2,…,m)，则D的信息熵记为E，计算公式为

(3)

E(D)的值愈小，则表示样本集合D愈“纯”.

假设某特征a是离散的，有n个可能值{a1,a2,…,an}，若用特征a来对集合D进一步划分，则会产生n个分支结点，而且第i个结点囊括了D中所有在特征a上取值为ai的样本，记为Di.可利用(3)式算出Di的信息熵.一般说来n个分支结点所含有的样本数不相同，故赋给每个分支结点一定的权重：|Di|/|D|，其中，|D|是指样本集合中的样本数，|Di|指样本集合中D中所有在特征a上取值为ai的样本数.由此可算出利用特征a对样本集合D进一步划分得到的“信息增益”，记为G,计算公式为

(4)

通常，信息增益越大，表示利用特征a对样本集合D进行划分，使得各分支结点的纯度越高.因此“信息增益”在决策树划分属性的选择上有较为广泛的应用.

2 实证分析

2.1 数据获取和预处理

数据获取：建模数据是某地运营商提供的客户消费行为数据，共有100 000个样本，样本数据集中有当月消费额、套餐金额、每月通话时长、入网时长、流量使用、账户余额、是否为流失客户等共有82个变量.其中有29 060个样本为已流失的样本，标记为“1”，有70 940个样本为现存客户，标记为“0”，正负样本比例约为1∶ 2.4.

数据预处理：运营商提供的数据并不能够直接使用，其中可能存在着缺失值、异常值和重复样本等问题，数据质量不高，为了保证建模型效率，往往需要对数据进行预处理.

缺失值的处理方法比较多，对于样本来说，一个样本中如果有20%以上的变量值是缺失的，这个样本可以直接删掉.经过计算，建模数据中没有样本的变量缺失值比例达到20%.

对于变量来说，当此变量只有一种取值时，表明此变量包含的信息量太少，无研究的必要，可以直接删掉.当变量的缺失值很少时，可以将缺失值直接赋值为0或者是填补一个合适的值.根据实际情况，可以用同一个常数、均值、众数、中位数或用某种预测的方法预测的一个值[8].经过初步探索，共剔除了3个无研究价值的变量，剩余的79个变量中有50个变量存在缺失值，其中2个变量缺失比例超过了70%，故而直接删除了这两个变量，30个有缺失值的变量缺失比例不超过5%，18个有缺失值的变量缺失比例不超过10%，缺失比例不高，可将缺失值置为0.是否为流失客户这个目标变量没有缺失值.

在处理异常值时要根据情况具体分析，如本月消费金额，显然该变量是非负的.如果某个样本在该变量上的值是负数，则一定是有问题的，可考虑用0来代替.本文在处理异常值时，用此变量的均值±3倍标准差来代替.

经过样本数据主键的比较，无重复样本.

在实证分析中，使用R、Excel编写代码和计算.

2.2 特征的选择

首先计算每个解释变量的信息值，选择信息值大于0.4的变量进入模型.为了保证建模效果，最大限度避免变量之间可能存在的多重共线性，所以继续计算筛选出来的变量之间的相关系数，对于相关系数较强的变量，不宜全部进入模型，可根据变量获取的难度、变量观测数据的质量、对目标变量的影响力等予以删除.

最终选出9个对目标变量(是否为流失用户)有重要影响的解释变量，如表1所示

表1 建模变量的影响力

2.3 分类器的构建及对比

以是否为流失客户为被解释变量，以2.2中筛选出来的9个变量为解释变量，将100 000个样本按照7∶ 3的比例随机分成训练集和测试集，训练集和测试集中正负样本比例大致为1∶ 2.4.训练集中有70 000个样本，其中有49 628个现存客户样本，20 372个流失客户样本；测试集中有30 000个样本，其中有21 312个现存客户样本，8 688个流失客户样本.分别构建决策树和逻辑回归模型，将二者在训练集和测试集上的查准率、查全率进行比较，结果如下：

表2 建模效果对比

表中(0,0)表示为正确识别现存用户的样本数，记为a；(0,1)表示将现存用户误判为流失用户的样本数，记为b；(1,0)表示将流失用户误判为现存用户的样本数，记为c；(1,1)表示正确识别流失的用户样本数，记为d；查全率记为r，查准率记为p，计算公式如下：

(5)

(6)

结果表明，经由信息值筛选出来的变量是合理的，是对目标变量影响力较强的变量，不论是逻辑回归算法还是决策树算法，都达到了80%以上的准确率.但是，决策树算法的建模结果无论是查准率还是查全率，都要优于逻辑回归算法，而且决策树模型在测试集的建模结果依然稳健，表明首先基于信息值筛选出来重要变量，继而采用决策树算法构建客户流失预警模型是具有一定的实用价值的.

3 结论

携号转网政策的施行，使得三家运营商面临着客户流失的困境，精准快速地识别出即将转网的用户，对于企业的生存和发展至关重要.决策树算法是目前在建立客户流失预警体系中应用最广泛的分类算法之一，本文基于信息值构建的分类器在识别流失客户上效果显著，具有较高的实用价值.可基于上述模型，对现存客户进行预测，将现存客户分为即将流失和不会流失两类，对于即将流失的用户精准施策，不仅能够保障运营商的用户量，还可以为企业的长远发展提供强有力的支撑.