APP下载

应用Aprion算法实现大规模数据库关联规则挖掘的技术研究

2016-07-09郝海涛马元元

现代电子技术 2016年7期
关键词:置信度

郝海涛 马元元

摘 要: 随着信息技术的发展,大数据时代的到来,在这种环境下必须进行数据挖掘工作。从大量的应用数据中将潜在的有价值的知识和信息挖掘出来,以便将其应用在实际工作的改进中。目前,数据挖掘的方法有很多,其中关联规则挖掘技术应用比较广泛,这种数据挖掘方式利用Aprion算法,挖掘出置信度和支持度均比较高的关联信息,反映出数据库中的数据相互之间的复杂性和有趣性,进而挖掘出数据之间的有益关联,促进大规模数据库信息挖掘技术的发展,主要从Aprion算法方面分析大规模数据库关联规则挖掘的技术。

关键词: Aprion算法; 大规模数据库; 关联规则挖掘; 置信度; 支持度

中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)07?0124?03

Abstract: With the development of information technology and coming of big data era, it is necessary to perform data mining work in this environment. The potential and valuable knowledge and information should be mined from the massive application data to apply it in the improvement of practical work. The methods of data mining are numerous at present, in which the association rule mining technology is widely used. The Aprion algorithm is used in this data mining way to mine the correlation information with high confidence coefficient and support degree, which can reflect the complexity and interestingness among the data in database. And then the useful correlation among the data is mined to promote the development of large?scale database information mining technology. The association rule mining technology of large?scale database is analyzed in the aspect of Aprion algorithm.

Keywords: Aprion algorithm; large?scale database; association rule mining; confidence coefficient; support degree

0 引 言

数据挖掘(Data Mining)主要是指在大型数据库中从大量的原始数据中挖掘出一些具有未知潜在应用价值的信息。数据挖掘是解决信息技术迅速发展下数据丰富而信息匮乏的一种有效解决方式。在众多的数据挖掘方法中关联规则是一种比较重要的挖掘技术方式,对关联规则挖掘算法——Aprion算法进行详细分析,进一步研究大规模数据库关联规则挖掘的技术,促进数据库挖掘技术的发展。

1 Aprion算法概述

数据关联是信息技术发展模式下各种软件数据库中存在的一纵横能够反映一个或其他事件之间依赖性和关联性的一种信息。2个或者2个以上的数据之间存在的一种规律性,通过对这种规律性的分析,建立数据关联规则,进而挖掘出隐藏在数据之间的相互关系,并将这种关联进行有效分析。而关联规则挖掘Aprion算法是一种比较全面的分析模式算法,它能够发现记录中不同数据属性之间的关联性,而且能够反映出给定数据集中特征属相鉴定的关联性,发现每条信息记录中不同特征属相之间的相互依赖关系。可以说Aprion算法是一种最经典、最具影响力的关联规则挖掘算法。

Aprion算法主要计算模式原理是利用一种称作逐层迭代的候选集进行测试的一种定点,利用频繁[k]项集搜索候选(k+1)项集。产生1?频繁项目集[L1,]而后是2?频繁项目集[L2,]一直到不能再扩展频繁项目集的元素数据时才会停止算法;在Aprion算法的第[k]次循环中会产生k?候选项目集的集合Ck,而后实施数据库扫描程序,以便生成支持度并测试产生k?候选项目集Lk,利用频繁项目集产生关联规则。然后结合频繁项目集的向下封闭性特点实施进一步的分析,这就是常说的频繁项目集,同时也正是因为这个特点使得Aprion算法产生一种检验方法使分析过程中的数据进行有效压缩,无限缩小候选集,提高Aprion算法性能。

Aprion算法在计算的过程中使用逐层搜索方法,k项集主要用于探索(k+1)?项集。在这个算法分析过程中首先找到频繁1?项集,然后找到频繁2?项集集合,以此类推便能够有效提高Aprion算法的分析效率,压缩其搜索空间。Aprion算法的性质主要表现在以下几个方面:

(1) 如果项集I不能够满足最小支持度阈值,那么I不是频繁的,只有I出现频繁的频率时才被看做是其性质的一种表现;

(2) 如果项A被添加到项I中,项I会生成一种项集IUA的集合项,IUA项也不是频繁的,此性质属于反单调性质,也就是说如果一个集合不能通过测试,那么它所有的超集也不能通过相同的测试。

这种算法具有较高的效能性,能够利用大项集合的封闭性达到缩小计算最小支持度频繁项集数量的目的,也就是说具有避免计算不可能成为大项集的数量和候选集项,进而促进算法效能的提高。

2 Aprion算法比较分析

Aprion算法在数据分析的过程中能够产生大量的项集,而且在分析的过程中需要重复扫描数据库信息,其他算法在数据库信息分析中一般采取分而治之的策略,然后将数据库压缩到频繁模式树中,将其分为条件数据库,以便减少后续数据扫描时间,同时又能够采取频繁模式增长的方法将候选项集剔除在外,以便使其挖掘过程数据库中不存在新事务和需要解决的问题。

另外,通过对数据库信息中典型数据集的分析和实验,并进行相应的结果对比分析,发现对一些比较稀疏的数据集来说,数据挖掘分析中要求的最小支持度比0.2稍微大些,或者对于一些稠密的数据集在分析的过程中要求其支持度大于0.5,这种情况下采用Aprion算法比较合适,如果支持度不在这个范围内可以考虑其他形式算法的实施,以便最大限度的提高数据库分析效能。

3 关联分析规则的应用

3.1 数据关联规则的生成

数据挖掘工具中有很多集成了典型数据挖掘算法的模型,Aprion算法是其中之一,这种模型算法可以通过设置不同的最小置信度/支持度和关联规模。制定事务项属性在关联规则中的位置,进而优化关联规则。所以Aprion算法应用于关联数据的挖掘中能够有效提高算法效率。

3.2 算法应用举例分析

比如分析一个病例关联数据,首先针对病例系统产生的数据事务建立病例数据关联模型,然后过滤病历号、姓名等对疾病无关紧要的数据,然后剔除嗜烟嗜酒等对病例关联性不强的数据,然后将左侧设置为诊断外事项,将右侧设置为最后诊断之间的关联规则和因素。这时产生的关联规则数据比较多,但是有很多规则价值性不大;必须通过模型进行重新设置,增加最小支持度和最小置信度,此时事务数据库中最小支持度和最小置信度分别为40%,60%,如表1所示,然后根据以上数据库生成FP?tree。

4 结 语

在当今这个大数据信息量时代,数据挖掘技术显得尤为重要,挖掘方法也比较多,但是必须选择合适的挖掘方法,提高数据挖掘效率,在数据关联性分析过程中要充分利用Aprion算法,使数据挖掘的效率提高。

参考文献

[1] 王祥瑞.数据挖掘技术中关联规则挖掘的应用研究[J].煤炭技术,2011,30(8):205?207.

[2] 于延,王建华,付伟,等.基于改进的Apriori算法的入侵检测系统研究[J].计算机工程与科学,2010,32(9):23?26.

[3] 张梅峰,张建伟,张新敬,等.基于Apriori的有效关联规则挖掘算法的研究[J].计算机工程与应用,2003,39(19):196?198.

[4] 蓝祺花.动态的关联规则挖掘算法研究[D].厦门:厦门大学,2009.

[5] 丁艳辉.大规模数据库关联规则挖掘算法研究[D].济南:山东师范大学,2007.

[6] MEYER C G, PAPASTAMATIOU Y P, HOLLAND K N. Seasonal, diel, and tidal movements of green jobfish (aprion virescens, lutjanidae) at remote Hawaiian atolls: implications for marine protected area design [J]. Marine biology, 2007, 151(6): 2133?2143.

[7] 刘海蓉,闫仁武.一种改进的加权关联规则挖掘算法[J].现代电子技术,2011,34(12):51?54.

[8] 王珏.基于关联规则的医生诊疗数据挖掘系统的实现[J].现代电子技术,2013,36(19):124?126.

猜你喜欢

置信度
用于多尺度道路目标检测的优化定位置信度改进算法
基于数据置信度衰减的多传感器区间估计融合方法
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
系统可靠性评估与更新方法
正负关联规则两级置信度阈值设置方法
校核、验证与确认在红外辐射特性测量中的应用
基于改进的关联规则挖掘算法的用户兴趣挖掘
置信度条件下轴承寿命的可靠度分析