APP下载

商品精确营销中聚类分析与关联规则分析应用研究

2017-04-26范生万

华东经济管理 2017年5期
关键词:项集数目关联

范生万,刘 放

商品精确营销中聚类分析与关联规则分析应用研究

范生万1,刘 放2

(1.安徽工商职业学院工商管理系,安徽合肥231131;2.安徽审计职业学院会计系,安徽合肥230051)

为了实现商品的精确营销,结合数据挖掘中的聚类分析和关联规则技术发现隐藏在海量数据中的有用信息。文章在对客户数据采用改进的聚类分析算法进行分类的基础上,针对每一个分类的客户,利用Apriori算法进行关联规则分析,得到有用的关联规则以指导商品的精确营销。最后通过一个实例说明关联规则的分析过程。

精确营销;聚类;关联规则

精确营销是在充分了解客户需求的基础上,针对顾客偏好,差别地进行一对一的营销。然而企业的客户信息系统存在海量数据,一个急需解决的问题就是如何对数据进行有效的清洗、提取和挖掘得到有价值的信息。本文就数据挖掘中的聚类分析与关联规则分析技术进行研究,分析其在商品精确营销中应用。

一、基于爬山法k-均值聚类分析的企业客户分类

聚类(非监督分类)是指按照相似程度对具体的或抽象的对象进行分类的过程,从而使得在类间对象间相似性最低,在类内对象间相似性最高。K-均值聚类算法是一种常用的聚类算法,但是存在以下两个问题:一是聚类数目需要预选设定;二是随机选取的初始化聚类中心。为此,要想确定初始聚类中心和聚类数目上限采用爬山法将是很好的选择[1]。

给定N维样本集合{x1,x2,…,xn},令样本点xi(i=1,2,…,n)处的势函数为:

rα是表示邻域半径的一个正常数,其之外的数据点对势计算的影响较小。由(1)式可知,聚集在样本点xi周围的样本点数与势成正比,即样本点数越多势越高。设=max{i=1,2,…,n},初始聚类(第一个)的中心位置取对应的x*1,根据(2)式对每个样本点逐一调整势:

rβ是一个正常数。令,i=1,2,…,n},初始聚类(第二个)中心位置取相应的x*2。则调整势函数的一般关系式如(3)所示:

可以采用以下两种形式表示邻域半径:

其中n是数据集合的样本个数,max{·}、min{·}分别为求最大值和最小值函数。在具体应用中,可以令rα=rβ=rf或rα=rβ=rm。

聚类数目可以用下式确定:

聚类的数目即为当式(6)成立时的k值。其中δ<1是一个给定的参数,当δ≥0.5则可以得到比较合理的聚类数目,而在δ≥0.5的范围内,聚类数目kmax最多的是δ=0.5时,因此聚类数目的上限是kmax,故将样本集的聚类数目是在[2,kmax]范围内。基于爬山法k-均值聚类算法的具体步骤如下:

(1)令rα=rβ=rf或rα=rβ=rm,δ=0.5,k=1;

利用基于爬山法K-均值聚类算法可以自动对商品企业客户进行聚类分析,而不需预选确定聚类数目,把具有相似购买倾向的客户聚为一类[2]。

二、基于关联规则的商品精确营销

设I={i1,i2,…,im}是项的集合。关联规则是形如A⇒B(A⊂I,B⊂I,且A⋂B≠Φ)的蕴涵式,A⇒B在事物集D中成立,信任度为C,支持度为S。其中,

既满足最小信任度阈值又满足最小支持度阈值的规则称为强规则[3]。

关联分析分两个步骤:一是频度,即找出所有的频繁项集,也就是满足最小支持度的项集;二是信任度,即从频繁项集中得到强关联规则,也就是产生满足最小支持度和最小信任度的规则。Apriori算法是挖掘关联规则的基本算法,它通过迭代方法逐层搜索去找频繁项集,可用K-项集来搜索K+1)-项集,其处理过程如下:

(1)基于事务数据库找到频繁1-项集的集合L1。若L1非空,则由L1用于产生候选长度为2的候选项C2;

(2)对事务数据库进行扫描,对C2中候选集的支持计数逐一进行计算;

(3)得到由C2中的候选2-项集组成的集合L2;

(4)重复步骤1-3,持续到没有频繁项集合产生为止。

在Apriori算法中,只要找一个Lk就一定要扫描一次数据库,在海量数据情况下算法运行时间显著增加[4]。

因此,在进行关联规则分析之前,对数据进行聚类分析,将数据分为几个类,再分别对各类进行关联规则分析,从中发现商品销售规律,并根据这些规律实现商品个性化、主动式的推荐服务[5]。如对强规则A⇒B,表明购买商品A的几乎肯定都购买商品B,因此公司可以采用以下策略:①商品A和B可以进行捆绑销售;②顾客购买商品A时,适当推荐商品B,反之亦然;③在进货和发货运输上将关联产品配套安排;④零售时,商品A和B货架相邻,方便零售顾客购买。

三、应用举例

以合肥某商品企业的部分客户数据为例,说明聚类分析和关联规则在商品精确营销中的应用。首先,利用改进的K-均值聚类算法对客户进行分类,将购买相似系列商品的客户分为一类,如购买高等教育商品类用户。然后针对每一类客户,利用Apriori算法进行关联规则分析。最后获取有用的关联规则,用以指导商品的精确营销[6]。下面以某一类客户为例说明关联规则分析过程,假定最小事务支持计数为2(即min_sup=2/9=22%)。

由频繁项集{I1I2 I5},可以产生如下的关联规则:

I1∧I2⇒I5 confidence=3/4=75%

I1∧I5⇒I2 confidence=3/5=60%

I1∧I2⇒I5 confidence=3/5=60%

I1⇒I2∧I5 confidence=3/6=50%

I2⇒I1∧I5 confidence=3/7=42.9%

I5⇒I1∧I2 confidence=3/7=42.9%

如果将最小置信度阈值定为70%,则只有第一个是强关联规则。

四、结论

本文先采用改进的聚类分析算法将大量的客户数据切割成数个较小的类,该聚类算法可以解决常用k-均值算法聚类数目和初始聚类中心难以确定的问题。通过聚类分析,每个类中的数据较为接近且数据量大大减少,再通过对Apriori算法的采用进行关联规则分析,进而得到指导商品精确营销的有效规则。

[1]李荣.基于K均值聚类算法的商品商品推荐仿真系统[J].计算机仿真,2010,27(6):346-349.

[2]万星火,檀亦丽.数据挖掘的聚类方法[J].统计与决策,2005(9):125-126.

[3]程险峰.多种关联规则挖掘算法的研究与分析[J].长春理工大学学报:自然科学版.2011,34(1):107-109.

[4]叶孝明,柳炳祥.基于关联规则挖掘的零售业交叉销售的策略[J].统计与决策,2007(7):156-157.

[5]李清峰等.数据挖掘中关联规则的一种高效Apriori算法[J].计算机应用与软件,2004(12):19-23.

[6]裴继红等.聚类中心的初始化方法[J].电子科学学刊,2000(6):28-30.

Applied Research of Clustering Analysis and Association Rules Analysis in Commodity Precise Marketing

FAN Sheng-wan1,LIU Fang2
(1.Department of Business Administration,Anhui Business Vocational college,Hefei 231131,China; 2.Department of Accounting,Anhui Audit College,Hefei 230051,China)

In order to realize precise marketing of goods,this paper combines the clustering analysis and association rules in data mining techniques to discover the useful information hidden in the massive data.The paper,based on the classification of customer data by employ⁃ing the improved clustering analysis algorithm,applies the Apriori algorithm to make the association rules analysis for each category of cus⁃tomers,and gains the useful association rules to guide the precise marketing of goods.Finally,the paper offers an example to illustrate the analysis process of association rules.

precise marketing;clustering;association rules

F713.5

A

1007-5097(2017)05-0182-03

[责任编辑:张兵]

10.3969/j.issn.1007-5097.2017.05.026

2017-02-16

安徽省高校人文社会科学研究重点项目(SK2016A0133);高校学科(专业)拔尖人才学术资助重点项目(gxbjZD2016090)

范生万(1976-),男,重庆人,副教授,工学硕士,研究方向:计算机应用技术,电子商务。刘放(1978-),男,安徽合肥人,教授,项目管理硕士,研究方向:市场营销。

猜你喜欢

项集数目关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
移火柴
“一带一路”递进,关联民生更紧
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
奇趣搭配
智趣
《哲对宁诺尔》方剂数目统计研究
牧场里的马
分布式数据库的精简频繁模式集及其挖掘算法*