APP下载

时态数据中序列模式挖掘研究

2014-11-10卢海涛

科技创新导报 2014年13期
关键词:数据挖掘

卢海涛

摘 要:时态数据中对不确定性和周期数据如何处理,现有的时态数据模型很少涉及。分析时态数据中不确定数据和周期数据,可以从大量的数据中发现有意义的时间相关性,帮助企业决策者预测客户未来的行为变化趋势,总结客户对象随时间变化的规律,从而实现时态数据中序列模式的挖掘问题。该文对时态数据中序列模式挖掘技术进行了研究。

关键词:时态数据 序列模式 BI 数据挖掘

中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2014)05(a)-0056-01

序列模式挖掘技术是数据挖掘技术中针对时态数据库中不确定性信息的存储、组织、挖掘和维护的问题的重要研究方法,特别是商业BI过程中,库中潜存着大量的数据信息,这些数据主要以时态数据为主,因此利用数据挖掘技术综合分析和处理时态数据是很有必要的,而序列模式挖掘技术则是数据挖掘应用的主要方法。利用该技术能够在巨量数据中发现潜在有效的模式和用户信息,并将这些模式应用于商业运营中。

1 不确定数据序列算法研究

2001年,Jian Pei提出了一种新的不确定数据序列算法[1],其是基于传统Apriori算法的传递闭包性质。并且其中GSP是水平挖掘方法。而在1996年,Srikant提出的挖掘方法[2]是垂直挖掘方法。一般来说,近几年提出的基于传统Apriori算法的传递闭包性质的方法的基本流程如下:(1)采用广度优先搜索策略,生成候选模式集;(2)检测候选模式集中每项模式是否为频繁模式;(3)利用反单调性质剪枝策略对不可能成为频繁模式的候选分支进行剪枝;(4)进行迭代。这类算法有一个严重缺陷,即有大量中间结果会在自连接操作生成候选集时产生。针对这个问题,Jian Pei提出利用深度优先搜索策略来改进。同样,Jian Pei提出PrefixSpan方法是基于投影的模式扩展算法。因为采用的是递归方式,所以不会有大量中间候选集产生。2002年,Ayres[3]提出了SPAM算法,该算法更加有效,但是其有一个前置条件:全部数据都必须在内存中。

2 序列模式挖掘研究

序列模式挖掘是指从序列数据中寻找频繁子序列作为模式的知识发现过程,在很多领域都有实际的应用价值。在不同领域中,采用序列模式挖掘技术,可以发现诸多藏在数据中的知识,进而辅助决策过程。而序列模式挖掘方法的深入理解,对于诸如频繁子树、网格、子图等结构类模式的挖掘具有重要理论意义。一般而言,序列模式挖掘的执行过程是:(1)定义最小支持度阈值;(2)找出序列集合中所有满足最小支持度阈值的序列集。

早期的序列模式挖掘研究是由Agrawal等人进行的,近几年来,序列模式挖掘研究取得了长足的进步,有大量性能良好的算法被提出。这些算法可简单分类为四种:(1)基于Apriori(Apriori-based)算法;(2)GSP算法;(3)基于投影(Projection-based)算法;(4)SPADE算法。

3 时间序列模式挖掘的研究

时间序列模式相似性匹配是时间序列数据挖掘的一个重要内容。时间序列来源于实际生活的各应用领域,其具有如下特点:(1) 频繁的短期波动;(2)大量噪声干扰;(3)非稳态。这些特点导致时间序列模式匹配异常艰难。时间序列模式相似匹配的基础是相似性度量,而近几年提出的时间序列索引技术可以有效提高查询效率。

近几年来,研究者们提出了很多时间序列分类算法,但这些算法主要是对相似性度量方法进行改进,其中,在2004年,Wai-Ho[4]在时间序列分类中引入了模糊规则,以对时间序列中的噪声和模糊特性进行处理。

在对异常数据的处理过程中,通常做法是将其删除,但在某些应用背景中,异常数据具有特定价值,比如电力系统运行异常,以及信用卡使用过程监测(可能是信用卡诈骗)等。近几年,对时间序列异常,研究者们提出了不同的定义,但还未有一个公认的定义。异常挖掘有两个研究方向:(1)如何定义异常数据;(2)如何挖掘异常数据。

时间序列模式挖掘的目的是挖掘出与时间有关的频繁模式。目前被分为两类:(1)关联规则挖掘;(2)序列模式挖掘。1993年,Agrawal[5]提出关联规则挖掘,挖掘给定数据集中数据项间有价值的联系。其描述的是项集间的关联。序列模式挖掘也由 Agrawal首先提出的,其描述的是交易间的关联。

4 结论

时间序列的趋势分析应用非常广泛,但分析方法还局限于基于数学模型,当数据海量的时候,会给分析带来很多不便,并且准确率也会下降,针对目前已提出的算法,希望可以在丰富趋势挖掘的研究方法的同时,将时间序列数据挖掘的一些算法进一步引入,可以更好的延展趋势分析方法。

参考文献

[1]Jian Pei.Mining Sequential Patterns by Prefix-Projected Growth[C]//.Proc of the 17th International Conference on Data Engineering, Heidelberg, Germany,2001: 215-224.

[2] R.Srikant.Mining Sequential Patterns:Generalizations and Performance Improvements.Advances in Knowledge Discovery and Data Mining: 5th International Conference on Extending Database Technology,Avignon,France, 1996:3-17.

[3] J.Ayres.Sequential Pattern Mining Using a Bitmap Representation.Proc of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Edmonton,Canada: 2002:429-435.

[4] Wai-Ho.Mining fuzzy rules for time series classification,Budapest,Hungary,2004:25-29.

[5] R Agrawal.Mining association rules between sets of items in large databases,Proceedings of the ACM SIGMOD Congerence on Management of Data,Washington,1993:207-216.endprint

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议