基于距离测度的证据合成方法

2014-07-25刘希亮陈桂明李方溪

数据采集与处理 2014年1期

刘希亮陈桂明李方溪张倩

（第二炮兵工程大学装备管理工程系，西安，710025）

引言

作为贝叶斯理论的推广，Dempster-Shafer（DS）证据理论具有坚实的数学基础，能在不需要先验知识的情况下，以简单的推理形式，得出较好的融合结果［1，2］。D-S理论作为一种重要的不确定性推理方法，为不确定性信息的表达和合成提供了强有力的工具，在很多领域取得了广泛应用。

然而，在处理不一致证据时，D-S方法会因合成规则中的归一化过程产生与直觉相悖的结论，即遇到了“在模型x上使用方法y获得了一个与直觉相悖的结论z”的问题。有人认为是模型x（证据本身，信息源）不可靠，也有人认为是方法y（组合规则）出了问题。签于此，人们从两个方面对证据理论进行了改进：一方面，基于修正原始证据源的方法。该类方法认为，D-S合成规则本身没有错，当证据高度冲突时，应该首先对冲突证据进行预处理，然后再使用D-S合成规则。Murphy算术平均法［3］先对所有证据做算术平均处理，再利用D-S公式进行合成；邓勇加权平均法［4］认为不同的证据对最终决策的影响不一样，把算术平均处理改为加权平均，权重根据证据之间的距离来确定。Murphy算术平均法和邓勇加权平均法对单个证据做多次合成，违背了证据理论要求各证据相互独立的假设，如果均值证据本身具有不确定性，在没有增加其他证据的情况下人为地使它达到确定性，那么这种确定性是不可靠的；另一方面，基于修改D-S合成规则的方法。该类方法认为，冲突合成规则是改进和发展证据推理的关键问题。Smets［5］认为引起冲突的原因是辨识框架不完备，因此保留冲突概率k不做归一化处理；Yager［6］把冲突概率全部赋给了未知领域。在此基础上，Lefevre［7］给出了冲突证据合成的一般性框架，文献［8］把冲突概率按各个命题的平均支持程度加权进行分配，缺点是当各命题的平均支持程度相关不大时，可能出现不能收敛到确定性的情况。

本文在前人研究的基础上，遵循第二种改进思路，提出一种基于距离测度的证据合成方法，对证据理论的合成规则进行了修正。

1 经典D-S证据理论

在证据理论中，辨识框架Θ＝｛H1，H2，…，HN｝表示一个由N个两两相斥的命题构成的有限集合，用P（Θ）＝｛Φ，｛H1｝，｛H2｝，｛H3｝，…，｛HN｝，｛H1∪H2｝，｛H1∪H3｝，…，Θ｝表示Θ中2N个元素的幂集。

定义1 幂集P（Θ）上的集函数m：P（Θ）→［0，1］满足

则称m为框架Θ上的基本概率赋值函数（Basic probability assignment，BPA），m（A）反映了证据对辨识框架中命题A的支持程度。

定义2 幂集P（Θ）上所有证据的冲突概率为

式中mi（Aj）表示第i条证据第j个命题的BPA。

系数k反映了证据之间冲突（不一致）的程度，k值越大，证据之间的冲突越大，一致性越小。

定义3 幂集P（Θ）上所有证据的合成规则为

式中归一化因子1/（1-k）的作用就是避免在合成时将非0的概率赋给空集Φ［9，10］。

2 D-S合成存在的问题

由定义2和3可知，如果冲突概率k＝1，证据之间矛盾，不能使用合成规则进行融合；而当k→1时，证据高度冲突，式（4）会产生有悖常理的结果。

例1 3个医生针对同一病人进行诊断，认为病症可能是脑膜炎（M），脑震荡（C）和脑肿瘤（T）中的一种，即辨识框架P（Θ）＝｛M，C，T｝。由此获得3条诊断证据：

证据1：m1（M）＝0.95，m1（C）＝0.05；

证据2：m2（C）＝0.05，m2（T）＝0.95；

证据3：m3（M）＝0.80，m3（C）＝0.10，m2（T）＝0.10。

不难发现，证据1和2，2和3都是高度冲突的，根据式（3）可得k＝0.999 75，根据式（4）可得m（C）＝1，m（M）＝m（T）＝0。由此得出的结论是病人患脑震荡。这显然是有悖常理的，因为3个医生都认为病人患脑震荡的可能性很低，合成结果却恰好相反。

由上例可以看出D-S证据理论存在的3个问题：（1）D-S合成规则无法合成高度冲突的证据，得出合理的结果；（2）在多证据合成中，由于证据冲突会使合成结果放弃占主导地位的多数意见，而把100%的确定性赋予少数意见；（3）只要有一个证据彻底不支持某一命题，那么合成的结果对该命题的支持永远为0。

3 证据合成公式的改进

为了定量描述证据间的冲突程度，可以建立距离测度空间，将每组证据看作空间中的向量，通过证据向量之间的距离度量各个证据的一致性程度。引入证据一致性因子作为分配冲突概率的依据，若某个证据与其他证据的距离越小，则认为它们之间一致性较好，在分配冲突概率时通过一致性因子赋予该证据较大的权重，得到较多的冲突概率，最终获得较大的支持程度，反之亦然。由此提出了一种改进的证据合成公式。

设辨识框架Θ内有N个命题，获得n条相互独立的证据，以每个证据的BPA为坐标，建立一个R2N维空间（2N表示幂集P（Θ）中元素的个数），则可以得到在此空间中的一组证据向量，pi＝（mi（Φ），mi（A1），mi（A2），…，mi（An），mi（A1∪A2），mi（A1∪A3），…mi（Θ））T（1≤i≤n），所有证据组成一个含有n个证据向量的集合［11］。

定义4 集合P上的二元实值函数D（x，y）为R2N空间中任意两个向量x和y的距离，若F（x，y）满足：（1）F（x，y）＝F（y，x）；（2）0≤F（x，y）≤1；（3）当且仅当x＝y，F（x，y）＝0；当且仅当x⊥y，F（x，y）＝1，则称P为距离测度空间。

定义5 距离测度空间P中任意两个证据向量pi和pj的距离测度为

由此可以得到一个距离测度矩阵

定义6 证据mi和mj之间的一致性测度Conij为

式中

表示最小证据距离。

当两个证据之间的距离越小时，它们的一致性测度就越大，表明相互支持的程度越高。

定义7 辨识框架对证据mi的支持度Supi为

式（9）是将一致性测度中除自身以外的所有元素求和，Supi反映的是证据mi与其他所有证据的支持程度，是一致性测度的函数。如果一个证据与其他证据一致性较“好”，则认为它们相互支持。如果一个证据与其他证据一致性较“差”，则认为它们相互支持的程度也低。

定义8 证据mi与其他证据的一致性因子δi为

将一致性因子δi作为分配冲突概率的权重，可以得到以下的合成公式

利用改进合成公式进行证据合成的一般步骤如图1所示。

图1 证据合成流程图Fig.1 Flow chart of envidence combination

4 应用实例

4.1 在例1中的应用

由例1可知，经典证据理论无法合成高度冲突证据，应用本文方法，根据图1所示的合成步骤，可得距离测度矩阵

因此dmin＝0.132 3，对证据mi的支持度分别为Sup1＝1.441 4，Sup2＝0.941 1，Sup3＝1.499 6，证据mi与其他证据的一致性因子δ1＝0.371 3，δ2＝0.242 4，δ3＝0.386 3。代入式（11）得m（M）＝0.651 6，m（C）＝0.089 5，m（T）＝0.258 9。

由以上结果可知病人患脑膜炎，诊断结果符合常理（原始证据中有两位医生认为是患脑膜炎），这也证明了本文方法在处理高度冲突证据时的有效性。但由于证据较少，需要更多证据才能得出更为准确可信的结论。

4.2 在冲突证据合成中的应用

例2 假设辨识框架Θ＝｛A，B，C，D｝，依次收到如表1所示的8条证据。

表1 原始证据值Table 1 Original evidence value

为验证改进合成公式的有效性，分别利用D-S合成公式、Murphy合成公式、邓勇合成公式、李弼程合成公式和本文公式进行证据合成，结果如表2所示。

表2 证据合成结果Table 2 Evidence combination results

以命题B为例，使用不同合成方法得到的证据值如图2所示。

由表1可知，证据5和6与其他证据冲突较大，从而导致各种方法合成结果存在较大差异。从表2发现，D-S合成结果受证据5和6影响严重，由于证据5彻底否定目标B，导致以后的合成结果m（B）始终为0；其余合成方法均可抑制冲突证据5和6的干扰，合成结果符合常理，Murphy和邓勇合成都得到了较高的精度，正如前文所述，这两种方法对修正后的证据做多次合成，违背了D-S证据理论要求证据之间相互独立的假设，当证据本身具有不确定性时，在没有增加其他证据的情况下使它达到确定性，那么这种合成是不可靠的；李弼程合成得到的精度较低，不利于决策。从图1中m（B）的合成结果可以看出，当出现证据5和6时，D-S合成突然变为0，得到了与事实不符的结果；Murphy和邓勇合成最终都得到了正确的合成结果，但受证据5和6影响较大，在图中出现较大的波动；李弼程合成虽然受冲突证据影响较小，但合成精度较低，导致无法判断和决策。而本文方法较好地克服了以上几种方法的不足，受冲突证据影响小，合成精度高，相对于其他方法合成后的证据值变化小，而且随着证据数量的增加，m（B）值明显增加，有助于做出决策。这也证明了本文方法在合成冲突证据时的有效性。

图2 目标B合成结果Fig.2 Combination results of B

4.3 在非冲突证据合成中的应用

仍以例2为例，发现证据1～4之间一致性较好，运用经典D-S方法和本文方法分别进行合成，结果见表3。

表3 证据合成结果Table 3 Evidence combination results

由合成结果可知，对于非冲突证据的合成，本文方法具有和D-S方法一致的合成结果。这也证明了本文方法在处理非冲突证据时的有效性。

5 结束语

本文分析了经典D-S证据理论存在的3个方面的问题，阐述了目前证据合成的研究方向，并指出了各种改进方法的不足；改进了证据理论合成公式，通过距离测度定量描述证据之间的一致性程度，利用证据间的一致性测度和辨识框架对证据的支持度确定一致性因子，以此作为分配冲突概率的权重。改进后的合成公式适用于冲突证据和非冲突证据合成；应用实例表明，改进的证据合成公式克服了经典证据理论存在的问题，相对于其他合成方法具有较好的稳定性和精度。

［1］Dempster A P.Upper and lower probabilities induced by a multi-valued mapping［J］.Ann Mathematical Statistics，1967，38：325-339.

［2］Shafer G.A mathematical theory of evidence［M］.Princeton：Princeton University Press，1976：10-40.

［3］Murphy C K.Combining belief functions when evidence conflicts［J］.Decision Support Systems，2000，29（1）：1-9.

［4］邓勇，施文康，朱振福.一种有效处理冲突证据的组合方法［J］.红外与毫米波学报，2004，23（1）：27-32.

Deng Yong，Shi Wenkang，Zhu Zhenfu.Efficient combination approach of conflict evidence［J］.Journal Infrared Millimeter Waves，2004，23（1）：27-32.

［5］Smets P.The combination of evidence in the transferable belief model［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，1990，12（5）：447-458.

［6］Yager R R.On the Dempster-Shafer framework and new combination rules［J］.Information Sciences，1987，41（2）：93-137.

［7］Lefevre E，Colot O，Vannoorenberghe P.Belief functions combination and conflict management［J］.Information Fusion，2002，3（2）：149-162.

［8］李弼程，王波，魏俊，等.一种有效的证据理论合成公式［J］.数据采集处理，2002，17（1）：31-36.

Li Bicheng，Wang Bo，Wei Jun，et al.An efficient combination rule of evidence theory［J］.Journal of Data Acquisition and Processing，2002，17（1）：31-36.

［9］万建平，彭天强，李弼程.基于证据理论的视频语义概念检测［J］.数据采集与处理，2011，26（5）：536-542.

Wan Jianping，Peng Tianqiang，Li Bicheng.Vedio semantic concept detection based on evidence theory［J］.Journal of Data Acquisition and Processing，2011，26（5）：536-542.

［10］赵一兵，郭烈，张明恒，等.越野环境中无人驾使车的障碍目标识别［J］.数据采集与处理，2011，26（4）：442-446.

Zhao Yibing，Guo Lie，Zhang Mingheng，et al.Obstacle identification in cross-country environment for unmanned ground vehicles［J］.Journal of Data Acquisition and Processing，2011，26（4）：442-446.

［11］李巍华，张盛刚.基于改进证据理论及多神经网络的故障分类［J］.机械工程学报，2010，46（9）：93-99.

Li Weihua，Zhang Shenggang.Fault classification based on improved evidence theory and multiple neural network fusion［J］.Journal of Mechanical Engineering，2010，46（9）：93-99.