APP下载

ID3算法在汽车售后服务中的应用

2011-12-28郭春丽李明东

通化师范学院学报 2011年10期
关键词:决策树类别数据挖掘

郭春丽,李明东 ,赵 刚

(西华师范大学计算机应用研究所,四川南充637002)

ID3算法在汽车售后服务中的应用

郭春丽,李明东 ,赵 刚

(西华师范大学计算机应用研究所,四川南充637002)

决策树算法被成功应用到很多分类问题上,其中ID3算法是其典型算法.文中就该算法在汽车售后服务企业客户特征分析中的应用做了实例研究.阐述了ID3算法的原理以及实现算法,分析了客户的特征.以一个具体的案例讲解了ID3算法在汽车售后服务企业中客户管理的具体应用流程.文中实现ID3算法作用于汽车售后客户的数据,得到一个客户特征分析模型,可以帮助汽车企业根据不同特征的客户采取不同的策略,从而获得较大利润.

数据挖掘;汽车售后;ID3算法

1 引言

据调查,国外汽车的80%的利润是由售后服务得到,而整车销售只占总利润的20%,因此很多公司都努力提高汽车售后服务水平.而随着数据库的多年使用,在日益竞争激烈的汽车行业里,汽车售后服务商存有大量的客户数据.如何提高汽车售后服务水平,发现客户的需求和服务中的一些规律,这些将成为汽车售后服务企业关心和重视的问题,鉴于此种情况,本文利用数据挖掘技术ID3算法,根据汽车售后服务业客户消费行为特征对客户进行细分及客户特征分析,把大量的客户按照标准分成不同的类.最终根据客户的类别属性特征,为不同的类型的客户制定不同营销策略,从而为企业获得较高的利润.

2 数据挖掘ID3算法详述

2.1 ID3算法的基本原理

决策树算法ID3处理离散型描述属性,因此在选择根节点以及各内部节点上的分枝属性时,将信息增益作为度量标准.ID3算法的基本原理是:

假设给定的数据集为X={(xi,yi)|i=1,2,…,total},其中样本 xi(i=1,2,…,total),用 d维特征向量 xi=(xi1,xi2,…,xid) 来表示,xi1,xi2,…,xid分别对应 d 个描述属性 A1,A2,…,Ad的具体取值;yi(i=1,2,…,total) 表示样本 xi的类标号.假设所要研究的分类问题含有m个类别,则yi∈{c1,c2,…,cm}.需要强调的是,创建根节点时,数据集X是最初给定的所有数据,在创建内部节点时,数据集X是上层节点的某分支上对应的数据集.

假设nj是数据集X中属于类别cj的样本数量,则各类别的先验概率为:

其中j=1,2,…,m.对给定数据集X所需的期望信息为:

假设描述属性Af(f=1,2,…,d)具有q个不同的取值 {a1f,a2f,…,aqf},利用描述属性可以将数据集X划分为q个子集,其中Xs(s=1,2,…,q) 中样本在Af上具有相同的取值asf.设ns表示子集Xs中的样本数量,njs表示子集Xs中属于类别cj的样本数量.则有描述属性Af划分数据集X所得的熵为

其中

其中,pjs=njs/ns表示在子集Xs中类别为cj的数据样本所占的比例.式(4)中的熵值越小,表示属性对数据集划分的纯度越高.

根据式(2),式(3)和式(4),可以得到利用描述属性Af(f=1,2,…,d)划分数据集时信息增益,如式(5)所示.

选择具有最高信息增益的描述属性作为给定数据集X的分枝属性,从而创建决策树中的一个节点,并且根据该描述属性的不同取值再创建分支,之后对各分支中的样本子集递归调用上述方法建立该节点的各个子节点.当某个分枝上的所有数据样本样本都属于同一个类别时划分停止,形成叶节点;或者当某个分枝上的样本不属于同一个类别,但是又没有剩余的描述属性可以进一步划分数据集时也形成叶节点,并且用多数样本所属的类别来标记这个叶节点.

2.2 ID3算法的实验过程

输入:给定训练集Xtrain,其中每一个训练样本均是由一组描述属性的具体取值表示的特征向量,并且每个训练样本都有类标号;给定描述属性组成的集合,作为决策树种根节点和各内部节点上的分支属性的候选集.

输出:决策树.

(1)如果训练集Xtrain中的样本都属于同一个类别,则将根节点标记为叶节点,否则进行第(2)步.

(2)如果描述属性集为空集,则将根节点标记为叶节点,类标号为Xtrain中包含样本数量最多的类标号,否则进行第(3)步.

(3)根据信息增益评价标准,从给定的描述属性集中选择一个信息增益的值最大的描述属性作为根节点的分支属性,之后进行第(4)步.

(4)按照根节点中分支属性的具体取值从根节点进行分枝,假设测试属性有M种取值,则Xtrain被划分为M个样本子集,每个具体的样本子集对应一个分支,而且其中的样本具有相同的属性值,之后进行第(5)步.

(5)对于根节点下面的各个内部节点,采用递归调用的方法重复步骤(1)~(4),继续选择最佳的分支属性作为内部节点,直到所有的样本都被归类于某个节点为止.

3 基于ID3算法的进一步汽车售后服务数据客户细分方法

3.1 数据预处理

某汽车4S店在经过多年的电脑化管理之后,拥有大量的客户基本信息.在客户信息表中有很多属性.在数据准备时,由于决策树的建立要求没有噪音数据与缺失数据,因此需要除掉表中一些不必要的属性,进行属性概化,将连续属性概化为区间值.由于是以分析客户的特征性指标为例,所以选取了代表客户特征的四个属性:性别,月收入,婚姻状况,学历.类别是客户类别,分为一类客户、二类客户、三类客户.其中第一类客户是重要发展客户,即最近来店消费时间距现在较近,但研究时间范围内,客户来店内接受服务的次数和消费总额均低于整体平均值;第二类客户定位为重要挽留客户,最近来店消费时间距现在较远,研究时间范围内客户来店内接受服务的次数低于平均值,但消费总额高于整体平均值,即目前来看企业较有价值的客户;第三类客户是客户最近来店消费时间距现在较近,且研究时间范围内客户来店内接受服务的次数和来店消费总额均高于整体平均值,说明客户经常来店接受服务且消费金额较大,即目前来看是企业最有价值的客户.

本实证研究基于某汽车4S店2010年服务记录,选择客户的本体信息包括性别与月收入,婚姻状况和学历来进行特征分析,对数据进行预处理之后得到表1.

表1 数据预处理后的某4S店客户信息表

用ID3算法构建客户特征分析决策树:

图1 为利用ID3算法对客户特征属性分析得出的决策树.

图1 运用ID3算法得到的决策树

3.2 数据挖掘结果分析

通过决策树可得到如下分析结果:月收入高且学历偏高的人比较有可能是重要发展客户,而月收入高但学历中等的人比较可能是重要保持客户;月收入中等的人比较可能是重要挽留客户;月收入低已婚的男性或者学历偏高的女性可能是重要保持客户,而月收入低已婚的中等学历的女性有可能是重要发展客户,月收入低未婚的男性比较有可能是重要保持客户.根据客户的类别属性特征,汽车4S店可以为不同的类型的客户制定针对性的营销策略.比如当我们接待一位潜在的客户时,可以根据他的一些本体属性大致判断该客户属于哪一种客户,然后有针对性的采取相应策略,比如对于重要发展客户,可以通过分析客户需求或者促销等措施,在未来不断提升该类客户价值;对于重要挽留客户由于最近没有来店消费了,这时企业需要弄清该类客户最近没有来店消费的原因,比如是否对本店的服务不满意.或者去了别的店.企业应尽力去挽留该客户,不断提升该类老客户的忠诚度,使该类客户慢慢发展为本店最有价值的客户;对于重要保持客户,企业应该珍惜该类客户对本企业的忠诚度,与之保持良好关系,使该类客户在未来成为企业的最有价值客户.通过以上措施.可以帮助企业节约成本,从而获得最大利润.

4 结束语

研究了决策树分类算法ID3,通过该算法作用于汽车售后服务数据,得出一个根据汽车售后服务中客户特征模型,可以使企业根据客户价值级别的不同,更好的在客户中分配企业有限的资源.同时根据客户的不同需求,设计和实施不同的客户保持策略.通过这些可以使企业牢牢保持对企业来讲最有价值的客户,从而提高企业的利润.

[1]韩秋明,李微,李华锋,等.数据挖掘技术应用实例[M].北京:机械工业出版社,2009:31-112.

[2]韩慧,王建新,孙俏,等.数据仓库与数据挖掘[M].北京:北京大学出版社,2009:108-116.

[3]胡可云,田凤占,黄厚宽.数据挖掘理论与应用[M].北京:清华大学出版社,2008:18-22.

[4]刘远琳,孙细明.客户分类系统的ID3算法流程及实现[J].计算机与数字工程,2009(3):88-90.

[5]杨明,张载鸿.决策树学习算法ID3的研究[J].计算机技术与发展,2002,12(5):6-8.

Application of ID3 Algorithm in Automotive After-sale Service

GUO Chun-li,LI Ming-dong,ZHAO Gang
(Institute of Computer Application,China West Normal University,Nanchong,Sichuan 637002,China)

Decision tree algorithm has been successfully applied in much classification issue.ID3 algorithm is the representative algorithm.The application of algorithm has been given an instance study for the analysis of the customer features in the automotive after-sale service.Describing the principle and implementation of the ID3 algorithm and analyzing the features of the clients,also explaining concretely the approach of how to use ID3 to manage the clients in the automotive after-sale service.At the end,setting up the customer characteristics analysis model of automotive after- sale services.Through those strategies,the companies can realize the maximization of their total profits.

data mining;automotive after-sale service;ID3 algorithm

TP274

A

1008-7974(2011)10-0019-03

2011-04-20

郭春丽(1984-),女,宁夏石嘴山人,在读硕士研究生.李明东(1958-),男,四川广安籍,教授,硕士生导师.

(责任编辑:王前)

猜你喜欢

决策树类别数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
壮字喃字同形字的三种类别及简要分析
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
服务类别
一种基于Hadoop的大数据挖掘云服务及应用
多类别复合资源的空间匹配
基于肺癌CT的决策树模型在肺癌诊断中的应用