APP下载

基于加权的多数据集时态关联规则算法

2020-12-24耿丽娟

科技创新与应用 2020年26期

耿丽娟

摘  要:文章将子数据集中的时态关联规则的时态因素进行了区间归一和延伸,再参考有效投票率进行规则剪辑,对剪辑后的子数据库中的规则进行加权计算得到最终的时态关联规则,最后通过算法伪代码具体实现了该算法。

关键词:加权;多数据集;时态关联规则

中图分类号:TP311.131         文献标志码:A         文章编号:2095-2945(2020)26-0026-02

Abstract: In this paper, the temporal factors of the temporal association rules in the sub-data set are normalized and extended, and then the rules are edited with reference to the effective voter turnout rate, and the final temporal association rules are obtained by weighted calculation of the rules in the edited sub-database. Finally, the algorithm is implemented by pseudo code.

Keywords: weighting; multiple data sets; temporal association rules

1 概述

關联规则描述了两个或多个变量之间的某种潜在规则。其挖掘过程可概括为两个步骤:第一,找出所有的频繁项集;第二,根据频繁项集确定强关联规则。

2 时态关联规则研究现状

现行的时态关联规则主要是针对单一数据库进行挖掘。但应用较多的是多数据库。多数据集的挖掘分为三个步骤:一,对多个数据集进行分类;二,对同类数据集进行局部模式分析;三,将挖掘到的知识进行合并[1]。

对时态关联规则国内外已经有了相关的研究。欧阳继红等提出了一种权值合成模式[2],但该方法合成数据量很大。欧阳为民等提出了一个新的时态约束下的关联规则算法[3]。Ale提到了在挖掘关联规则时缺失时态信息的问题[4]。孟志青研究了一类基于时态约束的相邻时态关联问题,但没有解决多时间粒度的问题[5]。朱建平等依据事务发生的顺序构造了加权关联规则用来体现数据的时间价值,力求使规则的发现体现一种趋势[6]。

3 以规则加权为基础的多数据集时态关联规则算法

3.1 主要思想和参数设置

以往在进行多数据集关联规则加权算法时很少考虑到时态问题,本文将规则权值引入到多数据库的时态关联规则挖掘中。

(1)数据库的权值

设D1,D2,…Dm为m个不同的数据库,Num(Di)表示数据库Di中的事务数,则数据库Di的权值为:

(2)关联规则的权值

Si为Di中的关联规则集,S={S1,S2,…Sm}为总关联规则集,R1,R2,…Rn为总规则集S中具体的关联规则。Num(Rk)表示具体规则Rk的数据库数目,则我们定义关联规则Rk的权值为:

(3)有效投票率

定义了有效投票率minωk,将规则的权值与之比较,将权值小于该阈值的无太大意义的规则删除。

(4)合成模式

设D1,D2,…Dm为m个不同的数据库,Si为Di中的关联规则集,S={S1,S2,…Sm}为总关联规则集supp1,supp2,...suppm

分别为各个数据库的最小支持度,conf1,conf2,...confm分别为各个数据库的最小置信度,对于特定的关联规则“A?圯B”,设此规则在数据库D1,D2,…Dm中的有效时间分别为[T1  T1],[T2  T2],…[Tm Tm],则合成后的支持度,置信度和有效时间分别为:

其中Extent-time函数包含延展和归并两步,关于时间区间的延展和归并技术的具体实现过程参考文献[2]。

(5)时态阈值?驻T

通过函数延展和归并后的关联规则的间区间差别很大,从几个小时到几天甚至几周不等。因此定义了时态阈值?驻T,?驻T=[Tmin,Tmax]将规则合成后的时间区间与时态阈值比较,将时间区间不在此阈值范围内的的规则删除。时态阈值的值应根据应用领域或者规则类别凭经验选取。

3.2 算法伪代码

规则缩减算法(Rule Selection)

输入:数据集库D={D1,D2,…Dm};关联规则集 S={S1,S2,…Sm};最小投票率minωR

输出:缩减后的关联规则集

(1)input  D, S, minωR

(2)for对于数据集中的每一个数据库Di  do

for对于关联规则集中的每一个关联规则R  do

(3)output  S;

规则合成算法

输入:关联规则集 S={S1,S2,…Sm};minsupp;minconf;

输出:合成后的关联规则集

(1)input  S={S1,S2,…Sm},minsupp,minconf;

(2)call  Rule Selection(S);

(3)for对规则集中的每条规则A?圯B  do

(4)分别按照支持度和置信度的高低排列规则集S中的关联规则R

(5)对于第四步中支持度和置信度大于阈值的关联规则R判断其时间区间是否满足时态阈值的要求范围

(6)输出R中时间区间在时态阈值范围内的关联规则R

4 结束语

本文介绍了时态关联规则的研究现状,在此基础上提出了一种多数据集时态加权关联算法,介绍了算法的思想和具体实现,最后通过算法伪代码具体实现了该算法。

参考文献:

[1]唐懿芳,牛力,张师超.多数据源关联规则挖掘算法研究[J].广西师范大学学报(自然科学版),2002,20(4):27-31.

[2]欧阳继红,王仲佳,等.具有动态加权特性的关联规则算法[J].吉林大学学报,2005(5),43(3):314-319.

[3]欧阳为民,蔡庆生.在数据库中发现具有时态约束的关联规则[J].软件学报,1999,10(5):527-532.

[4]Ale J M,Rossi G H. An Approach to Cyclic Association Rules[C].In Proc. of the 2000 ACM Symposium on Applied Computing,2000:294-300.

[5]孟志青.一类相邻时态关联规则的知识发现问题[J].模式识别与人工智能,2001,14(4):458-462.

[6]朱建平,乐燕波.数据挖掘中加权时态关联规则的构造[J].计算机工程,2008,34(6):51-53.