面向评估可信性的概率化元评估模型

2022-11-15李聪关爱杰李俊杰李雅楠

军事运筹与系统工程 2022年1期

李聪关爱杰李俊杰李雅楠

（中国人民解放军96901 部队，北京100094）

1 引言

评估是以定性或定量方式衡量特定对象某方面特性的一种技术手段与过程，典型应用领域如效能评估、毁伤评估、威胁评估、适应性评估、可靠性评估、体系贡献度评估和风险评估等。评估之所以重要，在于其能为各业务领域的决策活动提供依据与支撑，然而这要求评估结果必须具备相当程度的可信性，也就是做到与所关注的评估对象的实际特性或发展趋势基本吻合，否则可能会导致错误的决策。

可信性较高的评估结果才具备可用性与参考价值，才能真正地用于决策辅助。然而，如何估算评估可信性却是一项极其复杂的工作，因为评估过程中众多的主观经验因素和客观限制条件都能对可信性造成影响，主要的如指标选取、权重计算、人员水平和数据质量等，且这种影响关系通常又是非线性与随机性的，难以用确定性的显式函数关系或关联规则来描述。

本质上，评估可信性的估算实际是一种特殊的评估，属于元评估［1，2］范畴，即评估的评估，其比一般意义上的评估问题抽象层次更高、主观因素更多、数据获取更难、要素关联更强，因为评估对象不再是具象化的业务实例，而是评估活动本身，从而不可避免地引入一些模糊的、随机的、不可量化的因素，评估方式更趋向主观经验驱动而非客观数据驱动，导致经典的评估方法基本无法直接适用。目前，针对评估可信性估算这种典型元评估问题，还未出现成熟的、形式化的通用解决方案，大多情况下，仍需依靠领域专家验证评估结果，或比对历史案例数据等朴素的方法，虽原理简单，但由于无法用统一且严格的数学模型描述，因而通用性与可操作性较差。这即是本文致力解决的问题。

近年来，贝叶斯网络［3，4］技术在评估领域取得了广泛应用［5～10］，这是一种图形化、概率化的知识工程方法［11］，本质上属于贝叶斯概率统计技术，通过将随机变量抽象为节点，将随机变量间的条件概率关系抽象为有向边，以有向无环图形式表示随机事件的因果关联与概率产生语义，结合来自业务知识的先验分布与实际观测的证据事件，可以实施诊断推理与预测推理，在处理多源、异质、非线性和随机数据时具有显著优势，非常符合元评估领域的技术需求。本文就基于贝叶斯网络构建评估可信性估算模型。

2 概率化元评估模型的建立

2.1 可信性影响因素识别

既然元评估本质上也属于评估技术范畴，那么遵循评估的普遍过程，首先需要依据评估目的梳理指标，也就是对评估对象的影响因素。这里本着系统性、简明性、一致性、实用性的原则［12，13］，从评估的全要素全流程入手，基于流程、方法、人员、数据和指标等5 个维度，识别出可对评估可信性造成负面影响的20 项关键因素，具体见表1。每项影响因素实际都是可信性的风险项，每个风险项的发生均会不同程度降低评估可信性。

表1 评估可信性影响因素

2.2 模型语义的形式化描述

本文的概率化元评估模型语义使用贝叶斯网络建立与描述。遵循层次化贝叶斯网络的基本思想，引入1 个根节点：评估可信性低。再引入8 个中间节点：①评估流程可信性低；②评估方法可信性低；③人员技术水平低；④初级数据产品质量低；⑤中间数据产品质量低；⑥最终数据产品质量低；⑦评估指标构建质量低；⑧量化指标可信性低。根据评估领域和数据领域等方面的业务知识，建立这8 个中间节点和表1 中20 个影响因素节点对根节点的概率化因果关联关系网络，网络结构及节点标志如图1 所示，其中椭圆形节点代表随机变量（深色节点为20 个影响因素对应的叶节点），变量间的因果关联关系用有向边表示，方向从父节点指向子节点。这里限定网络为布尔型，所有节点取值均为True 或False，分别代表相应的节点事件发生或不发生。

之后对网络的任一非叶节点，即根节点和8 个中间节点，建立其与所有父节点的条件概率关系。当父节点少于3 个时，直接使用条件概率表；否则，使用Leaky NoisyOr 函数［18］noisyor（），这样可以显著减少建立条件概率关系时所需参数数量。下面给出此函数的具体定义：

设X为布尔型贝叶斯网络中任一节点，其N个父节点组成集合，令表示中所有节点均取值False，取True 外，其余所有节点取False。表示中所有取值为True 的节点索引。令：

等价地，定义对应的Leaky NoisyOr 函数noisyor（）为：

通过采用专家调查法，即德尔菲法，以业务领域、数据领域与评估领域作为3 个专业类别，每个类别邀请2 名以上专家，经多轮次的征询、归纳与反馈，最终形成共识后，为所有条件概率参数赋值。对于父节点少于3 个的节点，见表2～表4，对于其余节点，见表5。

表2 节点E 的条件概率表

表3 节点F1 的条件概率表

表4 节点F6 的条件概率表

表5 条件概率的Leaky NoisyOr 函数表示

2.3 证据代入与可信性估算

在估算可信性前，需要依据评估任务的实际情况，为网络中20 个影响因素节点赋予证据，形成网络证据集Evidence。对任一影响因素节点Y，证据分为两种：①硬证据，即P（Y ＝True）＝1或P（Y ＝False）＝1，用于确切表述影响因素事件发生或未发生，属于确定性证据；②虚拟证据［19，20］，用于表述影响因素事件发生的客观概率或主观信念，或影响因素在发生的空间或时间上的占比，属于非确定性证据。所谓虚拟证据就是通过引入一个虚拟节点V＇作为Y的子节点，且固定V＇＝v，那么虚拟证据就呈现为一个似然比：，不失一般性，有α，β∈（0，1）∧α+β ＝1，这样，虚拟证据可近似理解为Y在True和False 上的占比，这就达到了设置非确定性证据的目的。在给定Evidence后，直接使用贝叶斯公式推导，或更方便地借助贝叶斯网络建模软件，可求出网络任一非叶节点（根节点和8 个中间节点）在已知网络证据集时的条件概率。鉴于网络根节点含义为“评估可信性低”，则评估可信性为根节点取 False 的条件概率，即P（A ＝

3 实验与分析

实验中，使用AgenaRisk 贝叶斯网络建模软件建立本文的元评估模型。AgenaRisk 是一种交互式、模块化的贝叶斯网络可视化建模工具，允许用户以拖放和点选等非编程方式构建目标网络，并提供了类别丰富且成熟专业的构件库以及设计样例，能显著提升建模与计算效率。下面基于表6 中的3组评估想定进行可信性分析，其中想定1 和想定2是为便于比较分析而建立的极端参照想定，想定1中所有影响因素均发生（硬证据），想定2 中所有影响因素均未发生（硬证据），而想定3 代表一种典型的实际评估情形，其与想定2 大体一致，区别在于想定3 未采用成熟方法和工具，以及数据采集过程质量低（硬证据），同时，业务领域技术人员仅参与评估全流程的约40%，且有30%的指标存在相关性（虚拟证据）。从主观经验角度，想定1 与想定2 应分别对应最低与最高的评估可信性，而想定3 则必然介于两者之间。在AgenaRisk 中将本文模型划分为3 个场景，每个场景输入一组想定的证据，启动模型推断操作，得出3 组想定的评估可信性见图2。想定1～3 的可信性分别约为16.3%，85.2%和51.6%，易见，想定2 可信性最高，想定3 次之，想定1 最低，计算结果完全符合定性的经验直觉，还给出了具体量化值，便于进一步的细粒度定量分析。同时还注意到，想定1 和想定2 的可信性并非绝对化的0%和100%，这是因为表1 中的20 项影响因素仅为关键性但非完备因素，还存在一些次要因素因其未知性或控制模型复杂度的缘故未予考虑，这恰恰表明本模型能够在处理不完全信息时体现出非确定性。

图2 可信性评估结果

表6 实验评估想定

由于多数影响因素难以精确量化，需定性衡量，在实际使用本模型时，建议采取多专家综合研讨方式确定影响因素节点证据，这样可以降低证据的方差和随机性，使证据切实符合评估问题实际，从而首先在证据层面确保可信性。

5 结束语

本文提出了一种用于定量估算评估可信性的概率化元评估模型，从评估流程、方法、人员、数据和指标等5 个维度梳理出关键的评估可信性负面影响因素，在贝叶斯网络的框架下，层次化地建立了这些影响因素对于可信性的概率化因果关联关系，符合影响关系的非线性与随机性本质。本文模型为评估可信性的估算提供了一种通用化的解决途径。同时，此模型也可视为一种弹性框架，未来工作中，一方面可以根据不同业务领域的需求在横向上扩充或剪裁模型的维度和因素，增强评估的业务针对性；另一方面，可为每种影响因素在纵向上递归细分更具体更易量化的次级影响因素，提升评估结论的客观程度。