APP下载

基于K均值聚类的网络客户实证性研究

2020-01-08

昭通学院学报 2019年5期
关键词:续费投资额潜力

(昭通学院 数学与统计学院,云南 昭通 657000)

1 引言

随着大数据时代的到来,数据的产生、清洗、预测并给出相应的决策意见,一直是统计工作者研究的重要内容。目前,随着经济、科学技术、计算机技术与网络技术的普遍应用,使得互联网企业逐渐意识到网络客户体验的重要性。根据相关研究数据表明,为网络客户提供优质的网络体验,可以有效提高客户的满意度、忠诚度以及消费行为。本文通过对网络客户体验的客户分类及对应方法进行研究,为网络客户体验的客户分类提供有效参考[1]。

2 数据的预处理和统计描述

2.1 样本数据的选取

本文实证研究的数据来源于某网络公司为做客户分类所收集的17 431个数据,我们主要研究未失效的3 791个客户数据,起始变量包括账户ID,账务名称,公司名称,一级行业,关联客户ID,对应二级账号,部门,客服姓名,绑定状态,最近续费方式,百度统计状态,信誉等级,信誉成长值,首次续费金额,最近续费金额,搜索+网盟日均消费,累计失效次数,累计失效天数,总投资,总续费金额,总续费次数,消费提升潜力,账号在网时间/月,月均投资额,月均续费次数,月均续费额,客户贡献率总共27个变量。

2.2 数据的预处

通过观察数据,可以看出数据中存在大量缺失,变量之间存在多重共线,不利于我们使用分类方法。于是要进行数据的预处理,即变量选择和缺失数据插补[2]。

根据本实例分类的目的,我们选择以下变量:信誉等级、信誉成长值、搜索+网盟日均消费、累计失效次数、累计失效天数、平均失效率(=累计失效天数/累计失效次数,单位为:天/次)、消费提升潜力、账号在网时间/月、月均投资额(一个月按30.416 67计算=365/12)、月均续费次数、月均续费额、续费增长率(最近续费金额-首次续费金额)/首次续费金额)、客户贡献率(=该客户总投资额/所有客户总投资额)。

对于选取变量的缺失数据利用均值插补方法进行缺失插补。得到完整的客户样本量共计3 791个。

2.3 变量描述

信誉等级:在本文中用阿拉伯数字1或2表示,数字越大,表示信誉等级越高。

信誉成长值:是指从开户到现在累计起来的信誉度,信誉成长值越大,声誉越好。

搜索+网盟日均消费:搜索+网盟日均消费越高越好。

累计失效次数:累计失效次数越多,证明客户的积极性不太高,但也不是绝对性的。

累计失效天数:累计失效天数越多,证明客户积极性不高,但也不是绝对性的。

平均失效率(=累计失效天数/累计失效次数,单位为:天/次):平均失效率越大,说明累计失效天数越多,反映客户的状况不是很好。

消费提升潜力:消费提升潜力越大越好。

账号在网时间/月:账号在网时间/月越长越好

月均投资额(一个月按30.416 67计算=365/12):月均投资额越大越好

月均续费次数:月均续费次数越多越好。

月均续费额:月均续费额越高越好。

续费增长率((最近续费金额-首次续费金额)/首次续费金额):续费增长率越大越好。

客户贡献率(=该客户总投资额/所有客户总投资额):客户贡献率越大越好。

3 模型的建立及分析过程

3.1 模型分类原则:二八法则

任何一个成功的企业都有一个共同的目标:最大限度争取最大量的客户,提供给客户最好服务。但是在企业发展中很难或者不可能做到对每一个客户都平等对待,研究发现,公司发展过程中,20%的客户为公司创造了80%的利润,而80%的客户仅为公司带来20%的利润——这就是著名的“二八法则”[3],为此,一个公司要想得到持续健康的发展,必须合理优化资源配置。本文首先根据已有数据,分析了公司的客户结构,然后通过从不同的角度思考对客户进行不同的分类,最后根据分类结果提出针对性资源配置方法或者服务改进策略。

3.2 模型的建立

先通过计算客户的累积贡献率观察公司客户的分布状况

客户贡献率:

首先,根据公式(1)计算出所有客户的累积贡献率,我们把结果展示在图1中:

根据图1我们可以得到:该公司17 431个客户中投资额排名前1 127名客户为公司做了80%的贡献,即6.5%的客户为公司做了80%的贡献;而前2 932名客户的总投资为公司做了90%的贡献,即16.82%的客户为公司做了90%的贡献。

图1 所有状态下客户投资累积贡献率

其次,计算账户正常生效状态下客户的贡献率和累积贡献率,我们把结果展示在图2中:

图2 正常生效账户客户总投资累积贡献率

根据图2我们可以得到:在3 791个正常生效账户中,总投资排名前273个账户为公司作出80%的贡献(在所有正常生效账户中),即:7.2%的客户为公司作出了80%的贡献;总投资排名前802个账户为总司作出了90%的贡献,即21.16%的客户为公司作出了90%的贡献。

综上所述,说明:从本部分的分析,我们可以看出公司客户的总体投资分布情况,为进一步认清每个客户的价值提供一方面的依据。但要注意并不是排名靠后的账户价值就不高,那些排名靠后的账户或客户,只要发展较好,依然有可能成为公司的大客户,未来为公司作出巨大的贡献[3]。

可以看出公司的贡献分布符合二八法则,其后我们尝试依靠K-均值聚类方法构建了3个不同的模型。

3.2.1 模型一

(下面的分类模型是基于正常生效的账户进行分类得到)

这个模型只考虑各账户月均投资进行的客户分类。各账户的月均投资额的考虑,更能反映出客户的价值,避免了由于开户时间短,总投资额相对较小,但是潜力巨大的客户的错误分类估计,同时对相应客户采取的一系列营销手段,是大有好处的[4]。

经过计算分析,我们把均值比较接近的,放在同一类中,此模型分类统计结果如下表:

表1 模型一分类统计结果

根据分类模型有以下结论:

第1类客户:月均投资额最高,平均每个客户每个月能在公司的投资额为213 617.4元,第1类客户有38个,占总客户的1%;

第2类客户:仅有一个,每个月在公司的投资额为1 315 677元,所占比例非常小;

第3类客户:平均每个客户的投资额为79 687.65元,这类客户有97个,占总客户的0.026%;

第4类客户:每个客户的月均投资额为4 111.481元,这类客户有3 640个,占公司客户的96.02%;第5类客户:刚开户的客户,有15个,占总客户的0.4%。

由该模型分类结果及分类统计结果可以看出客户对公司的价值排序(由高到低)为:第1类、第2类、第3类、第4类、第5类。但是第5类为新开客户,它的分类是合理地,但其价值排名,需要到以后具备相应数据进行划分。

3.2.2 模型二

选取各账户月均投资额、月均续费次数、月均续费额、消费提升潜力四个指标为分类依据,先对数据进行标准化,然后建立基于K-均值聚类法的分类模型进行分类。我们先来看一下K-均值聚类的定义:

K-均值聚类:K-均值聚类是最简单的一种聚类算法。算法的目的是使各个样本与所在类均值的误差平方和达到最小(这也是评价K-均值聚类算法最后聚类效果的评价标准)

K-均值聚类算法的一般步骤:

(1)初始化。输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。

(2)进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。

(3)更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。反复执行第二步和第三步直至满足中止条件。

评价标准:

假设有M个数据源,C个聚类中心。μc为聚类中心。该公式的意思也就是将每个类中的数据与每个聚类中心做离差平方和,j最小,意味着分割的效果最好,类似于最小二乘估计的思想。

根据公式(2),计算分析后,得到此分类模型统计结果如下表:

表2 模型二分类统计结果

由模型二的统计结果可得到以下结论:

第1类客户:消费提升潜力均值为84、月均投资额为1 315 677、月均续费额和月均续费次数为0,这类客户仅有一个,占总客户的0.026%;

第2类客户:消费提升潜力均值为81.35 092、月均投资额为21 663.43、月均续费额均值为20 915.35、月均续费均值次数为2.381 274,这类客户有436个,占总客户的11.50%;

第3类客户:消费提升潜力均值为91.902 44、月均投资额为184 447、月均续费额均值为197 586.4、月均续费均值次数为4.693 503,这类客户有41个。由此可见,这类客户对公司的价值是最高的,占总客户的1.08%;

第4类客户:消费提升潜力均值为49.769、月均投资额为1 816.585、月均续费额均值为1 497.44、月均续费均值次数为0.436 697,这类客户有2 316个,占总客户的61.09%;

第5类客户:消费提升空间为空的客户,有997个,占总客户的26.30%。

由该模型分类结果及分类统计结果可以看出客户对公司的价值排序(由高到低)为:第3类、第2类、第1类、第4类、第5类。注意:在第5类客户中也有很多高价值的客户,这里只是由于这些客户的消费提升潜力为空所以归为了这一类中,切不可以为,上面的结论完全正确。对于第5类这样的客户可以寻找其他的方法分类。

3.2.3 模型三

选取各账户消费提升潜力、账号在网时间(=数据下载时间-开户时间)、月均投资额、月均续费次数、月均续费额、续费增长率六个指标为分类依据,先对数据进行标准化,然后建立基于K-均值聚类法的分类模型进行分类。

3其中:

通过计算分析,该分类模型的统计结果如下表:

表3 型三分类统计结果

由分类模型三的统计结果可得到以下结论:

第1类客户:消费提升潜力均值为82.867 07、在网时间均值为25.332 05个月、月均投资额为26 378.23、月均续费次数均值为2.690 308、月均续费额为25 525.64,续费增长率为239.16%,这类客户有331个,占总客户的8.73%;

第2类客户:消费提升潜力均值为93、在网时间均值为112.3726个月、月均投资额为201 504.1、月均续费次数均值为3.550 688、月均续费额为201 490.3,续费增长率为29 900%,这类客户有1个,占总客户的0.026%;

第3类客户:消费提升潜力均值为91.875、在网时间均值为31.723 56个月、月均投资额为184 020.6、月均续费次数均值为4.722 073、月均续费额为197 488.8,续费增长率为682.99%,这类客户有40个,占总客户的1.06%;

第4类客户:消费提升潜力均值为51.727 88、在网时间均值为28.846 88个月、月均投资额为2 250.445、月均续费次数均值为0.548 572、月均续费额为1 958.437、续费增长率为28.45%、这类客户有2 113个、占总客户的55.74%;

第5类客户:有缺失值的客户、消费提升潜力均值为45.592 23、在网时间均值为6.469 664个月、续费增长率为21.59%,有1 306个,占总客户的34.45%。

由该模型分类结果及分类统计结果可以看出客户对公司的价值排序(由高到低)为:第2类、第3类、第1类、第4类、第5类。注意:在第5类客户中也有很多高价值的客户,这里只是由于这些客户的消费提升潜力为空所以归为了这一类中,切不可以为,上面的结论完全正确。对于第5类这样的客户可以寻找其他的方法分类。

3.3 客户类型与判别标度

根据上面的分析结果,我们可以得到:

(1)新兴潜在型客户:主要以消费提升潜力为衡量标准,满足条件为月均投资额>总账户月均投资额平均值、消费提升潜力>前321名客户消费潜力平均值、续费增长率>0;

(2)稳定型客户(或忠诚客户):主要以月均续费次数为衡量标准,满足的条件为月均续费次数>总用户月均续费次数均值、累积失效次数<总用户累积失效次数均值、续费增长率>=0;

(3)问题型:这类客户主要考虑三个指标,分别是消费提升潜力、月均续费次数、月均续费额。具体为消费提升潜力>前321名客户消费潜力平均值、月均续费次数<总账户月均续费次数均值、月均续费额<总账户月均续费额;

(4)流失型:这类客户考虑的指标分别为累积失效次数、续费增长率。具体为累积失效次数>总账户累积失效次数均值、续费增长率<0;

4 结论

4.1 如何守住“大”客户

(1)谁是你的大客户——找准你的大客户;

(2)攻——寻找大客户的突破点;

(3)守——如何牢牢守住你的大客户;

(4)防——怎样打好你最后的攻坚战;

(5)修身——完美做人做事,吸引客户。

4.2 如何开发中等客户

(1)指派专门的营销人员(或客户代表)经常联络,定期走访,为他们提供服务的同时要给予更多的关注,营销主管也应该定期的去拜访他们。

(2)密切注意该类客户的产品销售、资金支付能力、人事变动、重组等异常动向。

4.3 如何吸引小客户

小客户在一个公司的所有客户中占有很大的比重,此类客户对企业完成经济指标贡献甚微,消费额占企业总消费额的百分之二十左右[5]。由于他们数量众多,具有“点滴汇成大海”的增长潜力,企业应控制这方面的服务投入,按照“方便、及时”的原则,为他们提供大众化的基础性服务,或者将精力重点放在发掘有潜力的“明日之星”上,使其早日升为中等客户甚至大客户。企业营销人员应保持与这些客户的联系,并让他们知道当他们需要帮助的时候,企业总会伸出援助之手。

猜你喜欢

续费投资额潜力
销售皆套路
你被APP“自动续费”了吗
自动续费
新加坡本地金融科技企业2020年上半年吸引投资额4.62亿元
你被自动续费坑过吗?
潜力榜
Китай вышел на второе место в мире по объемам прямых внешних инвестиций
PPP模式怎样发挥最大潜力?
学习潜力揭秘
12星座