APP下载

关联规则挖掘及其在银行金融服务中的应用研究

2018-07-12王培静赵乃萱王培吉

时代金融 2018年29期
关键词:项集置信度事务

王培静 赵乃萱 王培吉

(1.中国人民银行包头支行,内蒙古 包头 014010;2.西南大学经济管理学院,重庆 400715;3.内蒙古科技大学理学院,内蒙古 包头014010)

一、引言

为了科学、有效利用数据信息资源,对数据只进行存取和查询,已不能满足人们对数据进行知识抽取、发现数据间隐藏的依赖关系,从而为做出合理决策提供科学支持的需要,由此产生并发展了多种用于数据理解和分析的数据挖掘理论和方法,数据挖掘[1]是指从数据库或数据仓库的数据源中提取出隐含的、先前未知的、对做出合理决策有潜在价值的知识、规则、模式,为决策者提供前瞻的,基于知识的科学、有效的决策意见。

1993年AgrawalR.等人首先提出的挖掘顾客交易数据库中项集之间的依赖关系(规则、知识、模式)-关联规则及其挖掘问题,将关联规则挖掘用于分析消费者的购买习惯,帮助企业进行科学决策、制定最优营销策略。AgrawalR.于1994年提出了挖掘关联规则的经典算法,这就是一直普遍使用的Apriori算法[2]。

二、关联规则数据挖掘

基于Apriori算法的关联规则数据挖掘模型中主要解决两个问题:一是从事务数据库中挖掘所有的频繁项集;二是由频繁项集产生基于支持度-置信度关联规则评估体系的强关联规则。

(一)从事务数据库中挖掘频繁项集

第一,输入信息系统S={U,I,F}和最小支持度min-sup,生成分辨矩阵D,压缩分辨矩阵;

第二,挖掘频繁项集LK:

求频繁1-项集(k=1):(1)把分辨矩阵D中每个项目的支持计数和最小支持度比较,取那些支持计数大于或等于最小支持度行,生成频繁1-项集L1;(2)删除分辨矩阵中那些支持计数小于最小支持度所对应的行;(3)k=2。

求频繁k-项集(k>=2):(1)将用于保存每个项目在频繁k-1-项集中出现次数的数组置零;将用于统计频繁k-项集中项集的个数的变量清零;(2)分辨矩阵中分辨行向量(行向量)进行对位与运算,通过比较支持计数和最小支持度,找出频繁k-项集;(3)k=k+1。

(二)由频繁项集产生基于支持度-置信度关联规则评估体系的强关联规则

给定事务集D中的关联规则AB,D中事务同时包含A,B的百分比S,称为关联规则AB在事务集D中成立具有支持度S;包含A的事务中同时包含B的百分比C称为关联规则AB在事务集D中成立具有置信度C,分别衡量规则有用性和确定性。D中事务包含B的百分比EC,称为关联规则AB的期望置信度;置信度C与期望置信度的比值称为该关联规则的兴趣度i。

拟按以下步骤由频繁项集产生强关联规则:

第一,当兴趣度等于1时,事务包含A与事务包含B是独立的;

第二,当兴趣度大于1时,事务包含A与事务包含B是正相关的,从频繁项集L中产生满足最小支持度、最小置信度和最小兴趣度的强关联规则;

第三,当兴趣度小于1时,事务包含A与事务包含B是负相关的,过滤无趣关联规则,从频繁项集L中产生满足最小支持度、最小置信度和最小兴趣度的含负属性项强关联规则。

三、对银行客户数据库的关联规则挖掘及应用举例

(一)挖掘目标

通过对银行客户数据库的关联规则数据挖掘,发现数据中隐含的依赖关系,得出金融信息之间的有用的强关联规则,依据数据挖掘的结果,对客户进行科学的分类,为各类客户科学设计相应的金融产品,从而给不同类的客户提供不同的金融产品,完善银行的专业化服务功能和水平。

(二)数据挖掘步骤

1.数据预处理,包括数据清理。对银行客户数据库,消除噪音或不一致数据;数据集成:组合多种数据源在一起;数据选择:从金融数据信息系统中提取与分析数据挖掘任务相关的数据;数据变换:数据变换或统一成适合数据挖掘的形式;

2.利用频繁项集基本定理:频繁项集的非空子集是频繁项集;非频繁项集的超集是非频繁项集,识别满足最小支持度的频繁项集;

3.从频繁项集中挖掘满足最小支持度、最小置信度和最小兴趣度的关联规则;

4.结合挖掘目标,识别提供知识的真正有趣的模式,解释关联规则;依据有趣的关联规则,对客户进行科学的分类,针对不同客户,设计不同的金融产品。

(三)应用举例

1.挖掘对象。银行客户数据库:存放客户信息数据,其中一个客户看作一个记录,一种信息看作一个属性,数据记录数为客户人数,属性数减1为信息种数。

金融服务产品举例

2.挖掘频繁项集L。输入:银行客户数据库和最小支持度0.2;输出:频繁项集 L={i14,i16,i17,i34,i45,i46,i47,i48,i56,i67,i146,i147,i167,i456,i467}。

3.挖掘关联规则。输入:频繁项集L,最小置信度0.7,最小兴趣度 1.5;输出:R1:i1⇒i47(s=0.2959,c=0.7632,i=2.3372),R2:i7i14(s=0.2959,c=0.8788,i=2.6097)等。

4.解释规则。规则R1:客户是教师、月收人6000元以上,贷款买房的支持度、置信度、兴趣度分别为0.2959,0.7632,2.3372。

5.应用规则。如频繁项集“客户是教师、月收人6000元以上且贷款买房”产生的强关联规则的支持度、置信度、兴趣度分别满足支持度、置信度、兴趣度的阈值,说明:教师职业、月收人6000元以上、贷款买房,它们之间具有较强的影响力,银行由此设计并提供相应的金融产品,提高银行金融服务的有效性、科学性和针对性。

猜你喜欢

项集置信度事务
基于分布式事务的门架数据处理系统设计与实现
硼铝复合材料硼含量置信度临界安全分析研究
河湖事务
正负关联规则两级置信度阈值设置方法
置信度条件下轴承寿命的可靠度分析
一种频繁核心项集的快速挖掘算法
SQLServer自治事务实现方案探析
多假设用于同一结论时综合置信度计算的新方法✴
移动实时环境下的数据一致性研究
一种新的改进Apriori算法*