APP下载

基于综合模型的可靠性参数选择方法*

2015-03-04宋太亮肖自强

火力与指挥控制 2015年11期
关键词:模糊化关键因素贝叶斯

帅 勇,宋太亮,肖自强

(1.装甲兵工程学院,北京 100072;2.中国国防科技信息中心,北京 100142)

基于综合模型的可靠性参数选择方法*

帅 勇1,宋太亮2,肖自强1

(1.装甲兵工程学院,北京 100072;2.中国国防科技信息中心,北京 100142)

为了解决装备方案与论证阶段可靠性参数及其数量选择问题,依据文本挖掘的思想对文本数据进行特征提取和特征集缩减,利用FP-Growth算法构建文本数据的FP-Tree来推理关键因素之间的频繁集,利用模糊贝叶斯网络和抽样分布的思想,对频繁集中形成关联关系的关键因素及其主要参数进行了模糊化处理,消除主观因素的影响并获得所有属性变量之间的条件互信息和最大权重有向树,对模糊先验概率估计和条件概率估计进行了推理,归纳了参数学习方法并建立综合评估模型,最后通过案例验证了综合模型的建立与推理方法,结果表明模型有效和可信。

FP-Growth,模糊贝叶斯网络,文本挖掘,关联规则,可靠性参数

0 引言

在装备研制的方案与论证阶段,设计者会根据系统工程原理和装备的战技术特点确定装备的可靠性参数,如选择平均故障间隔时间(MTBF)、致命性故障间的任务时间(MTBCF)或平均维修间隔时间(MTBM)等。但是对不同类型的装备,如何选择其可靠性参数,以及选择几个可靠性参数合适,往往通过设计的经验来决定,缺乏系统的方法和手段。

随着网络通信与计算机技术的广泛应用和信息采集技术与智能设备的快速发展,以文本形式存在的非结构化数据所占的比例逐渐加大,其中所包含的信息量和价值也不断增加,如何从文本中发掘这些设计特性之间的关联关系并将其用于指导装备的研制成为一项重要的课题。本文采用文本挖掘、关联规则分析和模糊贝叶斯网络3种方法建立综合模型,利用文本挖掘技术对文本进行预处理,使其能够适用于频繁树关联规则的运算,利用FP-Growth算法分析各关联因素之间的关系,通过模糊贝叶斯网络对各因素之间的关系模型进行训练并验证关联结果,最后通过案例验证了综合模型的可行性和有效性。

1 建模思想概述

与数据挖掘的概念有所不同,文本挖掘主要着力于从非结构化或者半结构化的文本中抽取有用的知识,而数据挖掘则主要是从结构化的数据库中发现数据的主要模式[1]。文本挖掘的主要用途是从文本中提取出未知的知识。由于必须处理非结构化的文本数据,文本挖掘涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术,是一个多学科复杂的领域。文本挖掘的一般处理过程如图1所示[1]。

图1 文本挖掘的一般处理过程

FP-Growth算法(频繁模式增长)运用一种专门为其设计的称作频繁树(FP-Tree)的存储结构用于存储事务数据,这种树型结构利用结点共用的存储方式对数据库的存储空间进行极大地压缩,而FP-Growth则在频繁树上能够在不生成候选频繁集的情形下直接搜索全部频繁集的一种算法[1]。FP-Growth算法采用的一种分而治之(Divide and Conquer)策略,试验表明,FP-Growth算法比Apriori算法至少要快一个数量级以上[2]。

贝叶斯网络是用来表示变量之间连接关系概率的图形模式,是解决不确定性知识推理的主要方法,它提供了一种自然的表示因果信息的方法,用来发现数据潜在的关系[3]。模糊性反映主观上的不确定性,即人们对有关问题定义或概念描述在语言意义理解上的不确定性。

本文结合3种数据挖掘算法的思想,通过文本挖掘技术对文本数据进行特征表示与提取,获得缩减的特征集,利用FP-Growth算法对经过处理后的文本数据集建立FP-Tree,发掘各个参数频繁项集的子集,最后利用模糊贝叶斯网络推理评估结果,验证各频繁项集子集的正确性并分析建模结果,整体建模流程如图2所示。

图2 整体建模流程图

2 关联性建模过程

对于需要挖掘的关键因素,设定其属于集合(X1,X2,…,Xn),各关键因素主要描述参数属于集合{(x11,x12,…,x1i),(x21,x22,…,x2j),…,(xn1,xn2,…,xnk)},其中 n,i,j,k 为正整数,n 为关键因素的总数。建模过程中利用文本挖掘技术将各关键因素描述参数的特征集归因入该关键因素中,用于整体评价该关键因素之间的关联关系。

2.1 文本挖掘与特征集缩减建模

2.1.1 文本数据预处理方法

本文对文本预处理采取逆向最大匹配法(ReverseMaximum Method,RM法)[1],该方法选取包含6~8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配。如果两者不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词位置,匹配的方向是从左向右。实验表明,对于汉语来说,逆向最大匹配法比最大匹配法更有效。

2.1.2 特征表示

文本特征表示指的是文本的元数据,分为描述性特征(如文本的名称,日期,大小,类型)及其语义性特征(文本的作者,机构,标题,内容等)。特征表示是以一定的特征项来代表文档,在进行文本挖掘时只需对这些特征项进行处理,从而实现对非结构化文本的处理。向量空间模型(Vector SpaceModel,VSM)是效果较好的方法之一。在该模型中,文档空间被看成由一组正交词条向量所组成的向量空间,每个文档d表示为其中的一个范化特征矢量:

式中ti为词条项,wi(d)为ti在d中的权重。可以将d中出现的所有单词作为ti,也可以要求ti是d中出现的所有短语,从而提高内容特征表示的准确性。

2.1.3 特征提取

用向量空间模型得到的特征向量的维数往往会达到数十万维,如此高维的特征对即将进行的分类学习未必全是重要和有益的,而且高维的特征会大大延长机器的学习时间,这便是特征提取所要完成的工作。特征提取算法通过构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排列,预定分数最高的特征将被选取。在文本处理中,常用的评估函数有信息增益、期望交叉熵、互信息、文本证据权和词频。本文采用文本证据权来进行特征提取,该评估函数用于衡量类的概率和给定特征时类的条件概率之间的差别,其在实验中的效果要优于期望交叉熵。文本证据权评估函数如下:

2.1.4 特征集的缩减(公式)

特征集的缩减通过潜在的语义索引(latentsemantic indexing)方法,利用矩阵理论中的“奇异值分解”(Singular Value Decomposition)技术,将词频矩阵转化为K×K的奇异矩阵,其基本步骤如下:

①建立词频矩阵;②词频矩阵的奇异值分析,分解词频矩阵为3个矩阵U、S、U。U和V是正交矩阵(UV=I),S是奇异值的对角矩阵(K×K);③对于每一个文档d,用排除了SVD中消除后的词的新向量替换原向量;④保存所有向量集合,用高级多维索引技术为其创建索引;⑤用转换后的文档向量进行相似度计算。

2.2 FP-Grow th关联规则建模

①设定最小支持度阈值,对经过处理的文本数据,寻找出频繁项集,并按支持度的大小进行排序,组成列表,令该列表为L,则有L={(xi,m),(xj,p),…,(xk,q)}。其中 i,j,k,m,p,q 为任意正整数,且m≥p≥q;

②从优先度最低的项目开始,读取包含该项目的全部事务数据,并构建关于该项目条件的频繁树;

③对于条件频繁树,根据最小支持度进行剪枝,删除小于最小支持度的节点;

④对经过剪枝后的条件频繁树提出频繁集,得到所有包含该项目的频繁集;

⑤按照优先度的逆序,选择下一个项目,重复②~④的做法,找到全部包含该项目的频繁集。频繁模式树的构造过程如图3所示;

⑥直到找到全部包含优秀度最高的项目的频繁集,则算法结束。

2.3 模糊贝叶斯网络建模

2.3.1 模糊贝叶斯网络结构建立

针对需要挖掘的影响因子,根据贝叶斯网络的参数学习原理,以上属性参数需要符合以下两个假设:

图3 频繁模式树的构造过程

依据贝叶斯网络节点,定义合适的隶属度将其模糊化,得到各个属性的模糊化权重及取值。

FTANC的结构学习方式为:FTANC是至多只有两个结点的树增广朴素模糊贝叶斯网络模型,其学习结构算法和步骤为[3]:

第1步:模糊化属性变量,如果属性取值不能精确描述,或者属性取值连续,则对这些属性定义合适的隶属度uxi(xi)将属性模糊化,而对于随机取值的属性则进行模糊化处理。

第2步计算所有属性变量之间的条件互信息。

从而有:

①按权重值的大小从高到低对边进行排序;②根据边的权重值大小按照从高到低的顺序选择连接,边的循环连接过程中不能使连接形成回路;③对连接边进行选择,这些被选中的边构成了最大权重无向树;④令其中的某个结点为根节点,以根节点作为所有边延伸方向的起点,从而实现无向树到有向树的转变。

第4步:增加一个类结点(该类结点通常与关键因素的属性有关),并在所有关键因素属性结点与该类结点之间增加一个弧。

2.3.2 模糊贝叶斯网络参数建立

①模糊先验概率估计

只需要从样本中学习得到p(xi),就可以通过定义给出ux˜i(xi)[2];

②模糊条件概率估计

③FTANC参数学习算法

FTANC参数学习算法过程以下[3]:

TAN网的每个结点至多有两个父节点,将分两种情况考虑模糊条件概率的计算。

根据FTANC结果学习阶段给出的计算公式,就可以得到模糊贝叶斯网络的CPT表。

2.4 综合评估建模

对于需要进行关联规则分析的文本数据,将需要挖掘的关键因素及其主要描述参数作为搜索的关键词,用于综合判定各关键因素之间的潜在关系。

对于给定的文本数据,分析过程如下:

①按照逆向最大匹配法统计文本中关键词出现的频率,并进行文本特征提取和特征集缩减;

②对处理后的各关键因素频次建立频繁模式树,获取各关键因素之间的关联关系频繁集;

③针对频繁集中的关键因素,将关键因素及其关键词出现转化为权重,对应的形容词采用抽样分布中避免“弃真”和“取伪”的思想,即将文本中出现诸如“高,强”等形容词归纳为一个等级,认为该属性趋近于1具有很高可能性,取值范围是(0.9,1);如出现“低、弱”等形容词归纳为一个等级,认为该属性趋近于1具有很低的可能性,取值范围是(0,0.1)。为了便于计算,取各区间的平均值0.95和0.05。各关键因素样本量化等级如表1所示。

表1 关键因素样本量化

④权重集模糊化处理。依据建模假设,设贝叶斯网络有 n 个结点,分别是 X1,X2,…,Xn,下面分别用 x1,x2,…,xn来表示 X1,X2,…,Xn的一个取值。由于属性取值不能精确描述,那么定义合适的隶属度将其模糊化,其中1≤i≤n满足

在对属性进行“模糊化”的处理时,变量x对A的隶属度只能是0或1。按照上述方式分别将这n个属性变量模糊化成n个离散的模糊变量的一个取值。

⑤建立属性变量的树增广朴素贝叶斯(TANC)网。

⑥参数学习与模糊推理。模糊先验概率的学习和 FNBC(Fisher Naive Bayes Classifier)中先验概率的学习方法一样,模糊条件概率的学习需要按照2.3节中的要求分为两种情况来说明。

⑦将生成数据用于与实际文本数据进行比较,评判或验证关联关系建立的可行性和效率。

3 案例分析

3.1 案例简介

本文以某型装甲装备的动力系统为案例进行分析。在设计该装备的动力系统之前,采集该类型装备的动力系统设计文档6份,其中使用到的可靠性参数包括:平均故障间隔时间、平均维修间隔时间、致命性故障间的任务时间、可靠寿命、使用寿命、平均故障前时间,其关联性分析参数代号如表2所示。

将这6个参数作为文本挖掘的依据,采用综合模型对这些参数与可靠性之间的关联关系进行预测,并将结果与已有报告结果进行比较和分析。

表2 关联性分析参数代号

3.2 模型推理

①利用编程对文本数据进行处理,提取文档中参数出现的频次,并将其进行特征提取和缩减,定义可靠性的分类代号为p,最终缩减的频次特征集如表3所示。

表3 文本数据缩减特征集

②建立频繁树模型。由于本案例只需要分析可靠性与其参数之间的关系,为了便于计算,当p的频次与其它关键因素频次一致时,将p的排序后移一位。给定最小支持度阈值为2,从图4中可知,在p参与的所有文本集中,FP-Tree中有3条路可选,即{(e,5),(a,1),(c,1),(f,1),(p,1)}、{(e,5),(b,3),(f,2),(d,2),(p,1)}、{(e,5),(b,1),(a,1),(f,1),(p,1)}和{(b,1),(a,1),(f,1),(d,1),(p,1)}。那么含有p的样本数据是:{(e,1),(a,1),(c,1),(f,1),(p,1)}、{(e,1),(b,1),(f,1),(d,1),(p,1)}、{(e,1),(b,1),(a,1),(f,1),(p,1)}和{(b,1),(a,1),(f,1),(d,1),(p,1)}。根据给定的最小支持度阈值,频繁集{(e,2),(f,2),(p,2)}、{(e,2),(a,2),(f,2),(p,2)}、{(e,2),(b,2),(f,2),(p,2)}、{(a,2),(c,2),(p,2)}、{(b,2),(d,2),(p,2)}和{(b,2),(a,2),(p,2)}满足要求,记录为{e,f,p}、{e,a,f,p}、{e,b,f,p}、{a,c,p}、{b,d,p}和{b,a,p}。根据关联关系推演,可以认为在最小支持度为2时,与可靠性关联性最强的可能性有6种,其中4种可能性的使用参数量为2,两种可能性的使用参数量为3。针对这种模糊的关联关系,建立模糊贝叶斯网络对案例进行训练,并比较训练结果与实际结果的正确性。

图4 可靠性管理分析FP-Tree

③针对上一步的关联关系分析,按照综合评估模型的方法统计关键词及其形容词所出现的频次,并依据关键因素样本量化等级进行区分。依据综合模型第⑤步要求,建立属性变量的树增广朴素贝叶斯(TANC)网。以{e,a,f,p}和{e,b,f,p}为例,其树增广朴素贝叶斯网结构如图5所示。

图5 各关联关系树增广朴素贝叶斯网结构

由于可靠性参数的指标不存在随机变量问题,所以在进行模糊化的时候只需要将所有变量正常模糊化处理即可。对于可靠性评定结果C,定义结果的取值为(好,差),故C的取值范围分别为(0.05,0.95)。根据表2对属性量化处理依据,指标X1,X2,…,X6及处理结果 C 模糊化为模糊变量(,可靠性各参数评价结果的词频如表 4所示。

表4 可靠性参数评价结果频次

可以比较出较大,则c˜最大评分参量的取值为0.95,表示使用寿命和平均故障前时间对该型号装备动力系统的可靠性评价结果为好,与实际报告中的结论一致。

3.3 结果分析

对案例中的数据,利用编程进行推理测试,结果和可靠性报告中的评价一致视为推理正确,FTANC评价的准确率为推理正确数与可推理案例的总数之比,分类结果如表5所示。

在当前案例的背景下,通过模型推理差异的比较,推理正确数和正确率最高分别是{e,f,p}、{e,a,f,p}和{b,d,p},最低的为{b,a,p}。此结果的意义是在最小支持度阈值为2的情况下,使用组合{e,f,p}、{e,a,f,p}或{b,d,p}来对可靠性进行评估的准确率较高,而使用{b,a,p}来评估可靠性准确率较低。通过运算过程中对差值的比较,还可以发现{e,a,f,p}组合计算出的差值较其他两个组合更大,说明使用平均维修间隔时间、使用寿命与平均故障前时间评估可靠性的灵敏性更强。因此,对于该型号装备动力系统的可靠性参数,建议选择数量为3个,分别是平均维修间隔时间、使用寿命与平均故障前时间。

表5 FTANC分类结果比较表

与传统的可靠性参数及其数量的选择方法相比,基于综合模型的可靠性参数选择算法既发挥了文本数据的集成性,又发现了可靠性与其参数之间的关联性。同时,利用模糊贝叶斯网络模型进行训练得出的结果比使用非模糊树增广朴素贝叶斯模型网络模型的精度更高。因此,综合模型具有较高的精度、较快的处理速度以及较好的结果区分度,其建模的结果是可信的。

4 结论

文本挖掘主要是寻找自然语言文本中的规律、模式或者趋向,并且通常是为了特定目的进行的关于文本的分析。通过对数据的两次扫描,FP-Growth算法避免了候选集项的产生,并极大地减少了数据交换和频繁匹配的开销。贝叶斯网络具有正向推理和逆向诊断的特点,其分析针对的是满足条件下的整体原因与结果的不确定性,而模糊性的特点则是人类问题概念的描述对语言意义理解的不确定性。本文结合以上3种方法的优点,利用文本挖掘的方法对文档进行特征提取和特征集缩减,保证了文档的高相似度,利用FP-Growth算法构件FP-Tree,推理出关键因素的关联关系,模糊化处理关键因素过程中采用了贝叶斯网络和抽样分布的思想,构建了最大权重无向树和有向树,在构建模糊贝叶斯网路网络参数模型过程中,推算了模糊先验概率、模糊条件概率及参数学习方法,最后利用案例对综合模型进行了推算和验证,结果显示该模型具有可行性和有效性。

由于篇幅的限制,本文采用的案例量和影响因素量较小,可能会影响到关联性分析的准确性;案例中使用的最小支持度阈值为2,如果使用最小支持度阈值为3也是可以计算出结果的,但不便于比较模糊贝叶斯训练结果;对于频繁集关键因素模糊化处理方法过于理想化,使得某些权重的反应灵敏度受到影响,降低了模型的推广性,如果能够在(0,1)之间利用随机数赋予权值并多次仿真,训练结果可能会更加接近于实际。

[1]刘世平.数据挖掘技术及应用[M].北京:高等教育出版社,2010.

[2]郑岩.数据仓库与数据挖掘原理及应用[M].北京:清华大学出版社,2011.

[3]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2010.

[4]成小良.无线传感器网络剩余能量实时监测方法研究[D].北京:清华大学,2010.

[5]Averill M.Law.Simulation Modeling and Analysis[M].北京:清华大学出版社,2009.9.

[6]Lonnie D B,Jeffrey LW.Systems Analysis&Design for the GolbalEnterprise[M].北京:高等教育出版社,2008.

[7]Han JW,KamberM,Pei J.DataMining Concepts and Techniques[M].北京:机械工业出版社,2012.

[8]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社,2011.

[9]Krauthausen P,Hanebeck UD.Intention Recognition forPartial-order Plans using Dynamic Bayesian Network[C]//12th IntConfon Information Fusion.Seattle,2009.

[10]Cho H C,FadaliM S,Yeo DY.Nonlinear Network Induced Time Delay System with Online Dynamic Bayesian Learning[C]//Int JointConf.Fukuoka,2009.

Research of Reliability Parameters Selection Method Based on Com prehensiveM odel

SHUAIYong1,SONGTai-liang2,XIAOZi-qiang1
(1.Academy of Armored Force Engineering,Beijing 100072,China;2.China Defense Science&Technology Information Center,Beijing 100142,China)

For the sake of solving the problem of selecting the reliability parameters and their number during the pierod of projecting and argumenting,this article extracts the feature and curtail feature sets from text data based on the thought of textmining,constructs FP-Tree of the text data to reason frequent itemset between the key factors by FP-Growth arithmetic,fuzzifys the key attributes that forms associated relationship in frequent itemsets and theirmain paremeter based on the thought of fuzzy bayesian network and sample distribution,eliminates the subjective influence factors and obtains condition mutual information and maximum weight directed tree between all the attribute variables,reasons fuzzy prior probability and contingent probability and concludes parameter learning method,establishes the integrated model,validates the foundation and reasoning method through the example finally and the result shows that themodel is believable and effective.

FP-Growth,fuzzy bayesian network,textmining,association rules,reliability parameter

TP311

A

1002-0640(2015)11-0062-07

2014-09-22

2014-11-08

军队科研计划基金资助项目(2010SC22;2012QC49)

帅 勇(1983- ),男,重庆人,博士研究生。研究方向:装备保障信息化与数据挖掘。

猜你喜欢

模糊化关键因素贝叶斯
([0,1],[0,1])-模糊拟阵的基和秩函数
海外“华龙一号”项目安全绩效关键因素研究
“缺芯”之外,限制汽车行业电动化转型的另一关键因素已愈演愈烈!
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
餐饮娱乐空间的“边界模糊化”态势探讨——餐饮娱乐空间设计专辑
论建筑工程管理中的关键因素与控制策略
民办高校会计内部控制关键因素指标体系研究
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究