基于集成Bootstrap 方法的导弹试验鉴定精度综合评定

2020-08-22顾炎极刘大鹏李成娟李宗华

火力与指挥控制 2020年7期

顾炎极，刘大鹏，任光，李成娟，李宗华

（中国航天系统科学与工程研究院信息控制研究所，北京 100000）

0 引言

试验鉴定是武器装备全寿命管理过程中的重要环节，利用试验来获取武器参数，使用统计分析方法综合评价武器性能指标和参数。由于导弹不同于一般的产品，有着型号复杂，价格昂贵的特点，在试验鉴定中对其提出了尽可能减少试验次数的要求。现在我军导弹试验的次数一般在3～5 发，为了减少试验次数，必须充分利用各种验前信息，而这些验前信息是在不同试验条件下所获得的，如何合理地利用这些多源验前信息给出验前分布，是试验鉴定中急待解决的一个问题。我国关于试验鉴定已有初步的研究，李宏伟［1］，于子桓［2］提出试验与训练相结合的一体化靶场建设构想，以达到仿真和现场试验相结合的目的。仿真模型在经过模型验证、可信度检验后便被用来模拟真实系统，产生验前数据，此时利用仿真数据提高了现场试验精度的评估能力。

结合当前武器装备小子样试验分析与评估的特点，张湘平［3］阐述了小子样下采用的方法有：小子样下Bayes 分析方法和统计决策方法，多种信源下的数据融合理论，Bootstrap 方法，随机加权法，基于统计学习的支持向量机SVM。孙锦［4］分析了试验鉴定中的Bayes 统计分析方法，建立Bayes 统计决策模型；郑小兵［5］，雷鸣［6］，薛来［7］，宋贵宝［8］等采用Bootstrap 方法评定导弹精度。李艳霞［9］提出由于仿真数据和现场试验数据有不平衡性，现场试验数据远小于仿真数据，并且远比仿真数据重要。在这样的不平衡数据集中，为避免现场试验数据被大量验前信息所淹没，宋贵宝［8］采用重要度抽样思想，陈维义［10］引入仿真可信度，Sun［11］，Pastora［12］中提出了一种新的集成策略，将不平衡数据转化成多个平衡的数据子集，然后再通过集成分类器得到最终的假设。集成学习是通过构建多个学习器来完成学习任务，人类作出重大决定前会寻求多种意见来辅助决策，集成学习算法就是模仿这种行为而产生的。徐继伟［13］提出集成学习作为一类组合优化的学习方法，不仅能通过组合多个简单模型以获得一个性能更优的组合模型，而且允许研究者可以针对具体的机器学习问题设计组合方案，以得到更为强大的解决方案。

由于Bootstrap 方法本身的局限性，从发表的文献来看，研究人员认为Bootstrap 方法的样本个数应该大于5［14-15］，否则会导致较大的偏差。本文提出了集成Bootstrap 方法进行导弹试验鉴定，首先结合仿真信息，利用验前信息并引入重要度抽样思想进行精度估计，其次借鉴集成学习的思想，使用多组Bootstrap 方法来减少估计误差。集成Bootstrap 方法充分利用仿真信息，有效评估导弹精度。本文主要贡献有：1）针对导弹试验鉴定精度综合评定，首次在Bootstrap 方法中引入集成学习思想，提出了基于集成Bootstrap 方法的导弹精度综合评定方法。2）对集成Bootstrap 方法进行数学分析，定量分析了此方法的错误率。3）对仿真和现场试验数据具有不平衡性的问题，采用KS 相容性检验，分配仿真和现场试验数据不同权重，以避免现场数据被淹没。

1 集成Bootstrap 方法数学模型

1.1 传统Bootstrap 存在问题描述

Bootstrap 方法是一种利用再抽样技术来评估不确定性的方法，它通过计算机模拟来替代对均值、方差和其他统计量的复杂而不精确的近似方法，又称为自助法或计算机加强法。

1.2 集成算法模型

由于使用Bootstrap 方法时，样本过小会存在偏差，本文在传统Bootstrap 方法上引入集成学习的思想。集成学习是通过将多个基分类器的分类结果按一定方式集成来提升分类器的泛化性能，进而获得较高分类结果。此模型是先构建m 个子训练集，每个子训练集是通过Bootstrap 方法得到估计的参数，再通过集成规则，得到最终的参数估计，见图1。

图1 集成Bootstrap 算法模型

上式显示，随着子训练集的个数m 增加，错误率将指数下降，最终趋于0。

首先通过仿真和现场数据结合，扩大了样本量，再通过m 个子训练集采用Bootstrap 方法进行训练，得到m 个基模型，最后通过改进总和规则集成m 个基模型得到估计的参数。

1.3 基于重要度抽样的Bootstrap 方法

Bootstrap 方法直接由观测数据进行重抽样得到未知参数的近似分布表示，从而避免了对未知参数总体分布的任何假定，尤其适用于信息量较少即数据量较小的场合，因而在导弹精度综合评定中比较有效。自助法从本质上来说，就是一个再抽样过程。

Bootstrap 方法应用验前信息的前提是验前信息能够反映性能参数的统计特性，即要求验前信息与现场试验信息近似服从同一总体，这就需要对验前信息和现场试验信息进行相容性检验，并且给出验前信息的权重以便于进行Bootstrap 统计推断。

采用KS 相容性检验，取显著性水平αi，仿真和现场试验的权重就是ωi。

在子训练集中采用基于重要度采样的Bootstrap方法，先对仿真和现场试验数据分配不同权重，再进行Bootstrap 采样，可以估计导弹落点偏差的均值和方差。

1.4 集成规则

每个子训练集是一个新的样本，具有不同的正态分布参数。因此，集成规则需要组合这些分布参数，徐继伟提出了5 种集成规则用于组合不同的子训练集的多个结果，包括最大规则，最小规则，乘法规则，多数投票规则和总和规则。在文本中，使用了总和规则和改进总和规则，最后再评判优劣。

直接采用总和规则虽然会收敛，但由于到达收敛点需要大量的计算，因此，本文提出改进总和规则。改进总和规则是对于所有的子训练集，先把数据分为两类，一类是可信的，一类是不可信的。舍去不可信的数据集，再对可信的数据集求总和。本文采用改进总和规则如下：

改进总和规则优点在于改进单个的错误率，由公式比较可知，P（error）

算法：

1）生成子训练集f={mi，i=1，2，…，m}。

2）随机创建k 个点作为近邻点。

3）对每一个近邻点，计算近邻点与其他数据点之间的距离，Si=∑（mi-μi）2并将数据点分到与其最近的近邻点，并统计每个集合数据的数量作为频次，记为Fr（mi）。

4）计算每个集合的均值，作为新的近邻点。

5）重复3），4）直到Si最小。

算法返回Si，依次计算每个近邻点与其他数据之间的距离，使距离最小。随着循环进行，频次低的点会被舍去，留下的近邻点之间有较强的相关性。在舍去异常点的基础上，再使用总和规则，减少了达到错误率为0 的子训练集的个数。

2 数据分析

以某型号导弹的落点偏差分布参数为例，假设有4 发真实落点偏差数据由（X，Y）～N（100，120，102，152）产生。为了验证集成Bootstrap 方法的性能，按照以下步骤进行实验，同时以误差概率P（∈i）作为评价指标。

步骤：

1）以（X，Y）～N（100，120，102，152）产生4 组现场试验落点偏差数据。

2）根据均匀分布抽取μ'∈［90，120］，σ'∈［7，15］，并从N（μ1'，μ2'，σ'12，σ'22）产生6 组仿真信息，以作为验前信息。

3）给定相容性水平0.2，进行KS 检验，并根据相容性水平分配权重。

4）计算结合后的均值和方差。

5）设定子训练集个数为4 000，重复步骤2）～4）。

6）以最近邻规则筛选聚集度超过2 000 的数据集，得到最终估计的参数。

7）估计参数和标准值作对比，计算P（∈）。

8）计算置信度为80%落点均值和方差的置信区间。

由表1 可以看出，在不考虑验前信息的情况下，参数估计的偏差较大，P（∈）达到0.049 3；只采用Bootstrap 方法估计一次的P（∈）是0.002 25。在本文的方法下，采用两种结合规则，分别是总和规则和最近邻规则，由表中P（∈）的数据可知，采取两种不同规则估计的参数都能逼近标准值，相比于传统Bootstrap 方法提升了约80%的精度，而最近邻规则比总和规则提升了约33%的精度。

表1 落点偏差参数估计表

由下页表2 可以看出，在相同置信度的前提下，采用最近邻规则计算出的置信区间长度要小于不考虑验前信息，单次Bootstrap 方法和总和规则获得的置信区间长度。同时这也证明了仿真信息对导弹精度的评定有明显作用。

表2 落点参数置信区间

考虑子训练集的个数m 和Bootstrap 采样次数n 对误差的影响，作出P（∈）随子训练集个数m 和Bootstrap 采样次数n 变化的折线图。

由图2，图3 可知，误差P（∈）随子训练集个数增加而平滑下降，随采样次数增加而振动下降，因此，误差P（∈）和子训练集个数和采样次数有关。当子训练集达到1 500 时，误差在0.1%范围内浮动；当采样次数达到500 时，误差在0.2%内浮动。因此，基于集成Bootstrap 方法子训练集个数需要大于1 500，Bootstrap 采样次数需大于500。

图2 误差P（∈）子训练集个数折线图

图3 误差P（∈）采样次数折线图

3 结论

国内对Bootstrap 方法的研究尚且不多，因为Bootstrap 方法采用再抽样的方式，扩大了样本，但同时也引入估计偏差，其次因为Bootstrap 方法本身对样本个数要求大于5 个。本文引入集成学习思想，提出了集成Bootstrap 方法，探讨了此方法在导弹试验鉴定综合评定中的作用，利用此方法对导弹落点偏差参数进行估计，可有效估计数据的概率分布，提高了评估的可信度。未来需要讨论在集成学习框架下，子训练集采用Bayes 统计决策和Bootstrap 方法的优劣。