APP下载

一种大数据挖掘技术
——Apriori算法分析

2015-11-26玄文启

中国科技信息 2015年22期
关键词:项集海量数据挖掘

玄文启

一种大数据挖掘技术
——Apriori算法分析

玄文启

随着互联网的广泛应用与云计算技术得到飞速发展,如何从大数据中寻求数据规律,并以此做出科学的预测与决策,成为目前数据挖掘技术的主要研究方向之一。Apriori算法就是一种基于海量数据并挖掘关联规则频繁项集的典型算法,其在大数据挖掘分析中具有较大研究与应用价值。

随着计算机技术广泛应用,在日常管理工作中形成了海量的大数据,这使人们更加需要能够快速高效地从数据形式不同的、有噪声的大数据中分析数据内涵,并从中发现有用的知识体系与规律,从而指导人们做出科学预测与决策,Apriori算法就应此而生,成为基于大数据挖掘过程的经典算法之一。

Apriori算法是一种挖掘布尔型关联规则的频繁项集的迭代算法,该算法需要在数据挖掘过程中通过多次描述数据库来不断寻找候选集,然后实现剪枝,即除去包含非频繁子集的候选集。此算法通过对最小支持度阈值的设置,能系统地控制了候选项数量的无序增长,,并在大数据的数据挖掘过程中产生较大的研究价值。

Apriori算法过程分析

就其工作原理而言,Apriori算法是应用逐层搜索的迭代方法原理实现,主要包括两个步骤 :一是通过算法的迭代来检索出事务数据库中的所有频繁项集;二是利用频繁项集构造出满足用户最小信任度的处理规则来实现数据挖掘分析过程。

Apriori算法具体实现过程如下:

(1)通过扫描事务数据库D,计算出支持度Ci,得到频繁项集的集合Li;

(2)连接步:这是算法自连接过程,其原则是保证与前项相同,并按关联规则实现连接;

(3)剪枝步:就是使任一频繁项集的所有非空子集也必须保持频繁属性。即若某候选非空子集不是频繁的,则该候选肯定也不是频繁的,可将其删除;

(4)通过迭代扫描数据库D,从而计算出各个项集支持度,并将不满足的项集去掉,即通过迭代循环,直到使某个值为空,算法停止(如图1所示)。

Apriori算法改进

图1 Apriori算法过程

通过对上述算法分析,可以看到Apriori算法存在的主要缺点:一是每次寻找频繁项集和候选项集时都要扫描数据库D;二是当事务数据库数据量较为庞大时,所形成的频繁项集和候选项集数量也很庞大,这对于在海量的数据库检索分析过程中,会使得Apriori 算法效率就会大打折扣,并对计算机资源占用开销也相应增大。

为了进一步改进Apriori算法,就其原理分析,在实际算法应用中,可通过在处理候选频繁项目集生成实现时,当进行扫描事务时可先删除其中不需要的候选频繁集、并实时进行数据压缩,动态整理事务数据库记录,这样可使扫描的效率更高,同时降低对计算机资源开销。即当第一次扫描数据库D后,候选集将不再使用事务数据库来计算支持度,而是从第二步开始循环处理生成多维数据项集,一直到再无频繁项集生成为止。

目前Apriori算法的改进主要技术主要包括AprioriTid算法、基于散列(Hash)、基于采样(Sampling)、基于数据分割(Partition)、事务压缩技术等方法。

Apriori算法的应用

目前,随着计算机网络、通信技术、云计算等飞速发展,在大数时代基于Apriori算法的数据挖掘技术得到了更加广泛的应用,主要应用为:

(1)教学质量动态检测与评价:通过数据挖掘,可从海量的学生对教学评价数据中挖掘出关联规则,从而分析出相关课程教学效果与教师教学状态之间关系,以促使教学质量改进与提高;

(2)电子商务交易:应用Apriori算法可基于网络实现电商交易实时,及时分析出客户消费习惯、消费能力、消费群体,为电商的供应商动态掌握消费市场,并与客户实现良性商务互动提供数据支撑;

(3)学生就业状况分析:应用Apriori算法可从人才培养模式中相关的专业、知识体系、从业资格等海量数据中分析大学生受教育程度与社会就业需求之间的关联性,建立大学与社会双向互动模式,从而为高校实现教育改革,进一步推动大学为适应社会需求培养人才模式提供准确、客观的数据分析;

(4)动态网络舆情监控:应用Apriori算法,通过借助internet平台,对海量的网络信息传输交互实时采集、分析,实时掌握网络用户的信息关注情况,为政府等有关部门及时掌握网络舆情,并进行实时指导、疏通提供客户依据。

玄文启

云南财经大学信息学院

玄文启,男,1971年4月生,云南嵩明人,云南财经大学副教授,硕士,主要从事计算机应用技术、信息处理技术研究。

10.3969/j.issn.1001-8972.2015.07.001

猜你喜欢

项集海量数据挖掘
一种傅里叶域海量数据高速谱聚类方法
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
不确定数据中的代表频繁项集近似挖掘
一个图形所蕴含的“海量”巧题
一种海量卫星导航轨迹点地图匹配方法
高级数据挖掘与应用国际学术会议