APP下载

基于C4.5算法的民航客户价值细分研究

2014-07-13张劲松

西安航空学院学报 2014年5期
关键词:剪枝细分决策树

张劲松,江 波

(1. 中国民用航空飞行学院 空中交通管理学院,四川 广汉 618307;2.中国民用航空飞行学院 研究生处,四川 广汉 618307)

1 概述

近年来,我国民航业发展迅速,面临的市场竞争也越发激烈,尤其是随着高铁的开通和运营,民航运输受到了巨大冲击。为了应对行业内外的竞争,航空公司除了采取降低票价、完善管理等手段外,加强市场细分,对不同航线市场进行针对性的营销,也逐渐成为了航空公司的关注重点。在众多的市场细分标准中,以客户盈利能力为主要依据的客户价值细分,体现了以客户价值为中心的差异化营销思想,有助于企业营销资源的优化、价值客户的保持和利润的最大化,因此,客户价值细分在金融、电信等行业得到了大量应用。

目前,关于旅客价值的市场细分在民航领域已有研究,但仍处于起步阶段:周虹等人[1]利用自组织神经网络,对旅客进行盈利能力细分,但其把累计票价花费作为价值旅客标准的正确性有待考量,如一个经常购买打折机票的旅客,虽然票价花费较多,但其对公司的价值却低于购买高价票的商务旅客[2];演克武等人[3]利用决策树ID3算法对民航旅客进行价值细分,但ID3算法无法处理连续性的数值,当旅客的行为属性较多时,决策树的生成效果就会不好;Liu Jiale, Du Huiying[4]在AHP确定权重的基础上建立RFM模型,并对民航旅客价值细分,但该方法考虑的旅客的行为特征较少,并且利用AHP确定权重对主观经验的依赖较重,容易受到研究者主观看法的影响。因此,本文在前人研究的基础上,拟采用决策树C4.5算法对民航旅客进行价值细分,以挖掘出购买航空公司公务舱、头等舱和高折扣经济舱机票的那部分为公司创造高价值的旅客的行为特征[5-6],为航空公司提升营销效果,优化旅客管理提供参考。

2 决策树C4.5算法

决策树方法的本质是贪心算法,它从一个无一定规则的实例集中通过一个由上到下、分而治之的过程归纳出一组利用树形结构表示的分类规则,决策树算法在众多的分类方法中以其分类准确率高、规则提取简单、可以显示重要的决策属性而在各行业中广泛应用[7]。

在民航旅客价值细分中,由于各旅客行为属性的重要程度存在差异,利用决策树归纳分析,可以体现各旅客行为属性的重要程度,可更直观的了解价值旅客的重点特征。

决策树C4.5算法是Quinlan[8]在1993年针对决策树ID3算法提出的改进算法,它以信息增益率代替ID3算法的信息增益量作为属性的选择标准,划分时以信息增益率最大的属性作为分裂节点,克服了ID3算法偏向选择属性取值多的属性等缺点,并且能离散化处理连续属性。

假定S为旅客行为数据训练样本集,有n个类别Xi(i=1,……,n),pi为训练集S中的样本属于Xi的概率,选择属性A作为分裂节点,属性A根据训练数据集测试有m个不同的输出,并将S划分为m个子集Sj(j=1,2,…m)。则其信息增益率用公式表示为

(1)

其中,SplitHA(S)为将信息增益规范化的分裂信息,用公式表示为

(2)

Gain(A)为信息增益,用公式表示为

Gain(A)=H(S)-HA(S)

(3)

上式中:H(S)为S的熵,即训练集S中,分类所需的期望信息;HA(S)是将S划分为m个子集Sj(j=1,2,…,m)后,训练集再分类所需的信息量。

C4.5算法会通过剪枝避免过度拟合数据和生成的树过于庞大,剪枝后的决策树复杂度低,分类速度也更快。

3 基于C4.5算法的旅客价值细分建模

3.1 运算平台和数据准备

本文采用的分析工具为Weka3.6,它是一种非商业化的基于Java语言的开源机器学习和数据挖掘软件,利用该平台可实现决策树、朴素贝叶斯、支持向量机等多种分类方法。实验平台为一台普通的PC机,运行Windows7系统,处理器为Intel(R) Core(TM)i5-3210M CPU, 频率为2.5GHZ,运行内存2GB。数据来源为对国内某大型机场航站楼旅客调查问卷,在对原始数据集进行数据清理、数据变换后,得到有效样本3244个。为了减少非必要属性为分类结果的影响,提高机器学习算法的性能,降低决策树的复杂度,首先利用Weka软件Preprocess选项中的Attribute Selection进行分类器特征筛选(evaluator选择 Information Gain Attribute Eval,search 为Ranker,搜索参数为默认值),根据信息增益值排序后选取年收入(Annual income)、地面交通方式(Traffic)、是否常旅客(FQT)、购买途径(Purchase)、是否现金支付(Cash)、购票提前时间(Time)、旅客等级(Rank) 7个旅客特征作为研究类别,旅客数据统计如表1所示。

表1 旅客数据统计表

在旅客特征中,购票提前时间是连续属性,其它类别均为离散属性。年收入分为≤5万、5~10万、≥10万三类,常旅客和现金支付均分为是(Y)、否(N)两类,购买途径分为直销(Direct)和代理(Agency)两类,直销包括航空公司的网站、售票处和电话销售,代理包括代理商网站、售票处和电话销售,旅客地面交通方式分为私家车(Car)、公交/地铁(Bus)、出租车(Taxi)三种类。旅客细分的目标类别为旅客等级,其分为价值旅客(VIP)、普通旅客(COM)两类,价值旅客是指机票为头等舱、公务舱和8折以上经济舱的旅客,其它机票类型旅客为普通旅客。

3.2 模型构建

用决策树C4.5算法对旅客价值细分建模的思想是:

(1)对训练集进行训练:假设S为旅客行为数据训练集,把gainration(A)最大的值作为分裂节点,按此标准把S分为m个子集,如果第j个子集Sj具有同样的类别,那么该节点就会停止分裂并成为C4.5决策树的叶子结点,采用同样的方法对于不满足条件的其它子集依次递归构建树,直到所有的子集所含的元组都属于一个类别。

(2)决策树剪枝:采用后剪枝方法对生成的初始决策树剪枝,在剪枝过程中采用悲观估计弥补生成决策树时的乐观偏差。

(3)根据决策树根节点到树叶的每一条路径提取的分类规则,形成旅客价值细分规则集,将规则集提供给用户,把用户可行的细分规则存入数据库,结合需要指导旅客细分工作。

对数据集进行训练时,为了降低树的尺寸并获得较高的准备率,通过对算法的验证和评价,对confidence Factor (剪枝过程中的置信因子,值越小剪枝越多,默认值为0.25) 取0.1,其它的参数均取默认值,最后得到的决策树如图1。

图1 旅客价值细分决策树

3.3结果评价

决策树是C4.5算法对数据归纳分析后得到的执行结果,对生成决策树的评估和分析直接关系到决策树分类的价值。对选定的分类器测试主要有三种测试模式:

一是根据用来训练的实例的效果来评价;

二是将数据集取出一定的百分比用来测试,根据这些实例的效果对结果进行评价;

三是采用K-折交叉验证的方法,将数据集分为K个样本,取K-1样本为训练集,余下的一份为验证集,交叉验证重复K次,根据K次验证结果对结果进行评价。基于样本数量和三种模式的评价效果,本文采用的测试方法是十折交叉验证,结果显示,总体的分类准确率较高,具体的分类结果见表2。

从旅客价值细分决策树中可以看出:旅客所选择的第一个选择属性是购票提前时间,说明购票提前时间早是价值旅客的第一个主要特征,这与购票时间越晚机票价格越高的平常经验相吻合。其后的主要特征有年收入、是否常旅客等,在高收入人群中购票提前时间≤7天的旅客最可能是价值旅客,在中低收入人群中,旅客是否为价值旅客的主要影响特征为是否为常旅客,是航空公司常旅客的客户最有可能是航空公司的价值客户,这也从侧面反映出航空公司把常旅客群体作为营销的重点的必要性。

从决策树中还可以看出,中高收入群体中价值旅客验证正确率更高,低收入旅客群体为航空公司价值旅客的比例较小。在得到分类效果良好的决策树模型之后,找出价值旅客的显著特征,航空公司可以根据该分类模型预测价值客户比例较高的旅客群体,并对该群体进行针对性营销,以提升营销效果,减少营销资源的浪费。

4 与其它分类算法的比较

在分类模型的评价指标中,常用准确率、召回率、精确度三个指标识别分类结果,准确率反映了正确预测的样本数在预测样本总数中的比例,精确率反映了被分类器判定的正例中真正的正例样本的比重,召回率反映了被正确判定的正例占总的正例的比重,其中准确率是应用最为广泛的指标,代表了分类器对全体样本的判定能力[9-10]。限于收集的样本数量,如果把样本按比例训练和测试,结果可能具有一定的偶然性,因此本文均采用十折交叉验证对各类算法进行评价。根据旅客行为特征统计数据利用五种常用的分类算法分别建模,得到和C4.5算法的对比结果如表3所示。

表2 C4.5决策树分类结果

表3 五种分类算法实验结果比较

由表3可知,在5种常用的分类算法中,C4.5算法的分类准确率、召回率、精确率都是最高的,在建模时间上虽低于朴素贝叶斯分类法和K最近邻分类法,但仍具有较快的分类速度。综合各方面考虑,C4.5算法在旅客价值细分上具有相对理想的分类效果。

5 结语

为了应对行业内外的市场竞争,数据挖掘在航空公司市场营销中发挥着越来越重要的作用。本文在对机场旅客调查数据分析的基础上,通过决策树C4.5算法对民航旅客进行价值细分,采用十折交叉验证对生成的决策树进行验证,结果显示决策树C4.5算法分类正确率达85.2343%,在与常用的分类方法综合对比分析后,表明利用C4.5算法进行旅客价值细分具有较好的分类效果。对决策树的分析可以得出,提前购票时间短、年收入高是航空公司价值客户的主要特征,其后涉及到的主要特征是是否常旅客、地面交通方式等,在中低收入旅客群体中,常旅客群体更易是航空公司的价值旅客,在营销中应重点关注。

[1] 周虹,许俐.自组织人工神经网络在民航旅客盈利能力细分中应用[J].交通运输工程学报, 2003, 3(4): 78-81.

[2] 谌波, A航空公司常旅客计划研究[D].成都:电子科技大学, 2007.

[3] 演克武,张磊,孙强. 决策树分类法中ID3算法在航空市场客户价值细分中的应用[J].商业研究, 2008, (3): 24-29.

[4] Liu Jiale,Du Huiying.Study on Airline Customer Value Evaluation Based on RFM Model[C]//Proc. of the 2010 International Conference on Computer Design and Applications.S. I: IEEE Press,2010:278-281.

[5] 潘玲玲.基于旅客行为的航空旅客细分模型研究及其实现[D].南京:南京航空航天大学, 2011.

[6] 朱津川.细分客源, 把握国航在成都航空市场的利润点[J].江苏航空, 2007(4): 17-19.

[7] 程克非, 程蕾, 黄永东.基于J48决策树算法的水质评价方法[J].计算机工程, 2012, 38(11): 264-267.

[8] Quinlan J R. C4.5:Programs for Machine Learning[M].San Mateo: Morgan Kaufman Publisher, 1993:17-42.

[9] 张宏莉, 鲁刚.分类不平衡协议流的机器学习算法评估与比较[J].软件学报, 2012,23(6): 1500-1516.

[10] 徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报, 2009, 20(10): 2692-2704.

猜你喜欢

剪枝细分决策树
人到晚年宜“剪枝”
基于YOLOv4-Tiny模型剪枝算法
基于梯度提升决策树的量子科学实验卫星光学实验预测
基于激活-熵的分层迭代剪枝策略的CNN模型压缩
深耕环保细分领域,维尔利为环保注入新动力
决策树和随机森林方法在管理决策中的应用
剪枝
决策树多元分类模型预测森林植被覆盖
1~7月,我国货车各细分市场均有增长
整体低迷难掩细分市场亮点