基于决策树技术的铁路货运企业客户流失问题研究

2011-10-19吉林大学军需科技学院王雪冰

河南科技 2011年14期

吉林大学军需科技学院王雪冰

吉林大学军需科技学院王雪冰

随着我国服务市场的开放、市场竞争的发展，客户选择服务供应商的余地越来越大，企业之间对客户的争夺越来越激烈。据市场调研显示，在自然状态下一家企业的年客户流失率为10%~25%，即如果企业不做任何开发新客户和保持老客户的工作，企业的客户群将在4~10年丧失殆尽。因此，分析客户流失的原因，吸引潜在客户，增加现有客户满意度，减少客户流失率，充分占有市场，已成为企业在激烈市场竞争中制胜的关键。

铁路的客户流失，一般有五个方面的含义：一是指客户为了较低的服务价格而转移，二是指客户因对企业的服务不满而转移，三是指客户因离开该地区而转移，四是指客户转向更高的物流服务质量而转移，五是指客户的平均消费量降低，从高价值客户转移为低价值客户。

铁路客户流失分析是指利用数据挖掘等分析方法，对已经流失的客户信息进行分析，寻找出具有流失趋势客户的行为特征，再将这些特征的应对措施应用于现有的客户服务，采取相应的营销手段保持客户和发展客户。客户流失分析过程包括前期的数据准备，建立流失分析模型、模型测试以及流失分析模型的应用。

一、决策树解决客户流失问题

1. 业务问题定义。客户流失分析的目的是挽留客户，增加业务收入。因此进行客户流失分析和客户zz挽留应与客户服务成本相结合。客户消费带来的收益可能大于或小于企业为其服务的成本，因此需要对流失的客户进一步分类，针对不同的分类，分别定义业务问题，进而区别处理。例如，有完整联系资料与没有联系资料的客户，短期使用服务的客户和长期使用服务的客户，集体客户和个人客户本地客户和外来客户。

根据上述的客户分类，我们可以对各种类别的客户流失情况进行分析，找出流失群体特性，采取必要的挽留措施。

2. 数据选择。数据选择包括输入变量、目标变量和建模数据的选择。

（1）输入变量和目标变量的选择。输入变量是模型中的自变量，在建模过程中需要寻找自变量和目标变量的关系。对于输入变量，我们选择客户交易属性和客户的基本属性作为模型的输入变量；客户流失分析的目标变量设置为客户流失状态。

（2）建模数据的选择。根据前述的流失客户的分类，选择企业真正关心的、具有挽留价值的流失客户数据建模。企业的客户信息和交易信息分别存放在个人用户表和订单表等多个表内。去除这些表中不需要的信息，如传真、邮编等，将需要的信息抽取整理成为能被挖掘算法利用的数据表格。表1为流失模型数据输入表，其中有些字段在业务系统中并不直接存在，需要计算转换得到，如客户使用物流服务的频率、运费总额等。

表1 流失模型数据输入

3. 数据清洗和预处理。数据清洗和预处理是建模前的数据准备工作，一方面保证建模数据的正确性和有效性，另一方面通过对数据格式和内容的调整，使数据更符合建模的需要。数据整理的工作主要包括数据整合、抽样、缺失值处理等。包括按比例抽取已流失客户和未流失客户，将两类数据合并，构成建模的数据源。

4. 流失分析模型的选择和建立。数据挖掘技术提供了决策树、神经网络等多种用于流失分析的建模方法。人工神经网络方法的优点是对噪声数据具有高承受能力，但其明显的缺点是结果的可解释性较差，即不能对分析结果做出比较明确的解释，这一点是不符合解决客户流失问题的要求的。由于决策树方法具有在大数据量的前提下，分类效率和正确性较高，以及分类结果具有良好的可解释性等优点，因此我们采用了决策树的方法来解决流失问题。

（1）决策树原理。决策树是一个类似于流程图的树结构，其中每个内部节点表示在一个属性变量上的测试，每个分枝代表一个测试输出，每个树的叶节点代表类，树的最顶层节点是根节点。对于未知的样本分类，样本的属性变量在决策树上的内部节点测试，当从判定树中提取分类规则时，对从根到树叶的每条路径创建一个规则，沿着给定路径上的每个属性变量值，形成规则前件（IF部分），叶节点包含分类，形成规则后件（THEN部分）。

问题的关键是建立一棵决策树。这个过程通常分为两个阶段：建树和剪枝。剪枝的目的是去掉噪声或异常的数据。1948年，香农提出了信息论，对信息量（Information）和熵进行了定义，因此，使用信息增益（Information Gain）作为衡量节点分裂质量的指标。由于决策树建树算法是一个递归的过程，因此，下面我们仅讨论某个特定节点N的分裂方法。

设指向N的训练集为S，其中包含m个不同的类，它们能够区分不同的类Ci（i=1，…，m）。设Si是S中属于类Ci的记录的个数。那么分类之前，系统的总熵为：

其中，Pi是任意样本属于Ci的概率，用估计。从式（1）中看出，总熵是属于各个类的记录的信息量的加权平均。

分割后。现在属性A是带有v个不同值的属性，A可以把S分成v个子集。如果A被选为测试属性，那么这些子集表示从代表集合S出发的所有树枝。设sij表示在Sj中类为Ci的记录个数。则按A的每个属性值进行分割后的信息量，即系统总熵为：

总熵E(A)是各个子集信息量的加权平均。对N用属性A分类后的信息增益为：

信息增益由系统熵的减少值定量描述。熵是一个衡量系统混乱程度的统计量。熵越大，表示系统越混乱。分类的目的是使系统有序，因此，最佳的分裂方案是使熵减少量最大的分裂方案。

剪枝。我们采用同步剪枝法。在建树的过程中，当满足一定条件时，比如信息增益达到某个预先设定的阈值时，节点不再继续分裂，内部节点成为一个叶子节点。叶子节点取子集中频率最大的类作为子集的标志，或者可能仅存储这些实例的概率分布函数。

（2）客户流失模型。客户流失模型构造过程如图1所示。

二、客户流失分析实验

在研究中，我们采用了Clementine8.0中的分析服务等工具，针对某铁路货运公司某营业部的生产数据，进行建模分析。由于该公司历年来对客户流失的数据重视不足，收集流失客户数据的工作变得非常困难，因此我们针对公司2009年1—12月一年的数据进行手工操作，收集了3 057位客户的生产数据记录。对这些客户的使用服务频率进行了分析，用以判断其流失风险性的大小。

1. 客户使用服务频率分析。主要采用统计学的直方图和二维分布图的方法，针对客户的付款日期变量进行分析，分析流程如图2所示。图3显示了某位客户的付款日期变量的分析结果示例。

从图3中我们可以看到，自然美光学的付款日期直方图和总费用均近似于正态分布。我们从客户资料了解到，该企业主要经营镜片，不受季节限制，向全国各地均有发货。因此我们认为自然美光学为流失风险性较小的客户，归入稳定客户类。

而对于付款日期只有1~2次，客户资料模糊或是地址为外地的客户，我们认为其为流失风险性较大的客户，归入不稳定客户类。

2. 客户特性归纳分析。按照上面的客户使用服务频率分析方法，我们将3 057位客户分别归入稳定客户类和不稳定客户类。并采用Clementine8.0中的决策树归纳算法，建立了数据挖掘流程，决策树模型的输入变量为客户的总运费、客户使用服务的频次、货物运输总距离；输出变量为客户的状态。运行数据挖掘流程，分别归纳出了两类客户的一般特性，归纳结果如图4所示。