APP下载

基于DTSVMs-BNT协同训练的双偏振气象雷达降水粒子分类方法

2022-04-27程新宇尚金雷

火控雷达技术 2022年1期
关键词:置信度贝叶斯分类器

李 海 程新宇 尚金雷

(中国民航大学 天津 300300)

0 引言

我国广阔的疆土导致了多种多样的气候条件,而复杂的气候条件易形成繁多的气象灾害进而对交通运输,生产资料,财产安全等造成损害。双偏振气象雷达作为新型气象雷达,能够获取到降水粒子的大小、相态、空间位置等信息,因此利用双偏振气象雷达对降水粒子的精准分类对于灾害预警、雨量估计、气象预报等方面具有十分重要的意义。

1973年由Ecclesand Atlas提出利用双偏振雷达进行云层中的粒子探测。在此之后Straka and Zrnic(1996年)首次在降水粒子分类领域应用了模糊逻辑算法。此后,大部分专家学者研究了不同权重系数、雷达偏振参量的选取以及差异性隶属度函数等问题对模糊逻辑算法性能的影响。但是其隶属度函数的选取,权重系数的大小等均需要依靠专家经验值,具有很强的局限性。随着机器学习理论的兴起,其相关方法也逐渐被应用到降水粒子分类领域,如:监督学习方向的布尔决策树方法,非监督学习方向的聚类方法等。布尔决策树方法虽然原理简单,但是在多分类类别较多时,其分类错误率会快速增加。聚类算法虽然不需要训练样本和标签,但在面对非规则形状的降水粒子(如:冰晶等)时表现欠佳。在降水粒子分类领域,监督学习方法以其算法多样,分类准确性高的特点得到更多专家学者的青睐,但是其要求使用数量大、质量高的有标签训练样本,而获取有标签数据最可靠的方法是使用带有粒子检测系统的探测器深入到云层中进行采集,造成数据获取成本高、数量少的缺点。因此提高对无标签数据的应用以达到增加有标签训练样本的目的具有重要的研究价值。

在半监督学习方法中,协同训练算法能够利用无标签数据扩充训练样本集,进而提高分类器的性能。1998年,Blum等人在具有充分冗余的视图条件下,通过利用无标签样本优化分类器,并将这种算法命名为协同训练,然而具有充分冗余视图这一条件很难实现;2000年,S.Goldman 和 Y.Zhou提出一种摆脱该条件限制的协同训练方法,但是增加了运行时间,并且分类器的种类也有局限性;2007年W.Wang等人经过进一步分析指出,只要使用的分类器差别明显,就可以在不受该条件限制的情况下使用协同训练算法,即:使用单视图的数据依然可以得到良好的分类性能。然而在降水粒子分类领域,对协同训练方法的研究尚为空白,但是针对有标签训练数据样本不足的问题协同训练算法具有十分重要的意义。

因此本文提出了一种基于DTSVMs-BNT协同训练的双偏振气象雷达降水粒子分类方法。由于决策树支持向量机(Decision Tree Support Vector Machines,DTSVMs)分类器和贝叶斯网络(Bayesian Network,BNT)分类器的作用原理、区分降水粒子的方式不相同,因此可以作为差异性分类器进行协同训练。该方法使用有标签的训练数据集,利用第一个SVM分类器判断第一种降水粒子类别,第二个SVM分类器区分第二种降水粒子,以此类推分类完所有降水粒子的方法构造DTSVMs,之后通过计算确定贝叶斯网络的结构,并且通过确定的网络结构获得条件概率表来构造BNT。然后使用两个分类器分批次对无标签数据分类,并且选取分类结果中置信度符合门限条件的数据加入到有标签训练数据集中,之后利用两个分类器对新的有标签样本重新学习直到所有无标签数据都被打上标签完成协同训练过程,最后利用分类器进行降水粒子分类。

1 基于DTSVMs-BNT协同训练降水粒子分类算法

协同训练两个分类器的方法是利用一个分类器分类无标签样本,选择结果中符合条件的数据加入训练样本集,随后训练另一个分类器,两个分类器轮流重复上述过程。本文协同训练采用的两个分类器分别是DTSVMs和BNT。DTSVMs的实现方法是结合决策树算法的思想使用SVM分类器实现多种降水粒子的分类。BNT分类器的实现方法是先进行结构学习获得网络结构,再进行参数学习获得条件概率表。

1.1 DTSVMs降水粒子分类算法

DTSVMs是SVM算法的改进,通过组合多个二分类的SVM算法实现多分类的任务。DTSVMs的基本思路是使用一个SVM分类器进行一次二分类,区分出一种降水粒子后剩下的数据由下一个SVM分类器再次二分类,直到完全实现多种降水粒子分类。分类所得的降水类型为九类(视地杂波为一种降水类型),如表1所示。在降水粒子分类算法中使用到的属性条件分别是水平反射率因子、差分反射率因子、互相关系数和差分相移率,分别简记为,

表1 降水粒子输出结果

DTSVMs分类算法示意图如图1所示,由于有9种降水粒子种类需要区分,因此需要8个SVM分类器,分类器的顺序根据降水粒子类别之间的欧氏距离从大到小排序。

图1 DTSVMs示意图

使用SVM进行降水粒子分类的具体算法如下:

(1)

引入Lagrange因子,可将式(1)转换为式(2)问题为

(2)

(3)

(4)

用SVM区分第1种降水粒子,SVM区分第2种降水粒子,以此类推。利用DTSVMs分类器进行降水粒子分类的具体方法为:当输入测试数据到SVM中时,判断()的值,若值为-1则输出结果=1,表示第1种降水粒子;若值为+1则将输入SVM中继续判断()的值,重复这一过程,直到()=-1,由此实现降水粒子多分类。

1.2 BNT降水粒子分类算法

BNT分类器是根据贝叶斯方法扩展出的概率模型,能够结合图形与贝叶斯公式有效的描述不确定的降水粒子分类事件,并且BNT分类器易于实现,分类效果好。BNT分类器还可以充分利用先验信息,通过贝叶斯公式将先验信息与样本中的数据转化为概率信息,从而将不确定的降水粒子分类的问题转化为确定性的概率值问题,最终实现降水粒子分类的目标。

构造BNT分类器首先需要进行结构学习确定网络结构,之后通过参数学习获得属性节点的条件概率,最后利用贝叶斯公式进行降水粒子分类过程。

1)贝叶斯网络的结构学习

贝叶斯网络结构由属性节点,,,,类节点以及有向线段构成,进行结构学习需要计算属性节点间的互信息值,并且对满足互信息门限条件的属性节点建立无向边,最后给无向边定向,如图2所示。

图2 贝叶斯网络结构示意图

(5)

互信息值门限通常取值为01~03,多次实验证明当=025时有较好的效果,满足互信息值大于的两个节点视作可以形成无向边的节点对。

确定无向边方向的方法是与类节点之间的互信息值比较低的节点作为箭头指向方向,如果计算出的贝叶斯网络中产生环路结构,则去掉环路结构中互信息值最小的箭头。最后形成的贝叶斯网络如图3所示。

图3 贝叶斯网络结构

2)贝叶斯网络的参数学习

对贝叶斯网络获取每个属性节点计算条件概率表,即可得到类节点与,,,,以及,,,之间相互的关系,完成参数学习过程。

(6)

为防止出现分子为0的情况,对公式(6)进行拉普拉斯平滑处理为

(7)

最后得到的条件概率表如图4所示,在这个三维分布列中每一个概率值均由一个方格储存。

图4 ZDR条件概率表

3)贝叶斯网络分类算法

利用贝叶斯网络分类算法进行分类的具体方法如下:

获得贝叶斯网络结构以及条件概率表后,就可以输入到贝叶斯公式中进行分类计算。用,,,分别表示输入到分类器里面的雷达偏振参量,,,,根据贝叶斯公式实现降水粒子分类问题可以描述为式(8)所示。

(8)

其中,∈{1,2,…,9}表示降水粒子的标签数;表示第个雷达偏振参量,∈{1,2,3,4};(,,,)为常数。公式(8)转化为式(9)。

(9)

1.3 协同训练降水粒子分类算法

由于BNT分类器的速度快、运算量小,并且能够轻松引入融化层信息,而DTSVMs分类器要想加入融化层信息,需要构建多个DTSVMs分类器来实现不同融化区域的降水粒子分类。由于分类器的复杂度随着类别个数快速增加,运算速度在原来的基础上还会大幅度下降。因此将BNT分类器的分类结果作为降水粒子分类的最终结果,而将DTSVMs分类器作为辅助分类器参与到BNT分类器的协同训练过程中。

在协同训练过程中只有当分类结果的置信度符合一定条件时才能够视无标签数据有资格加入到训练样本集,经过重新训练的分类器才能有较好的准确性。

贝叶斯方法通过最大后验概率确定分类结果,因此可以根据后验概率确定分类置信度,后验概率越大则置信度越高。对于支持向量机方法,分类置信度的高低由样本与分类超平面距离决定,因此分类置信度选择基于切边权值统计特性进行估计,样本所有切边的权值之和越大说明分类正确的可能性越高。

1)BNT分类器的置信度确认方法如下:

将无标签待定样本数据,∈{1,2,…,}输入到分类器中,根据公式(9)计算贝叶斯公式的最大后验概率值,令公式(9)为

(10)

将无标签待定样本的最大后验概率值按照从大到小的顺序排列为

={,,…,,…},
>>…>>…>,∈{1,2,…,}

(11)

计算出的最大后验概率值越大则视其分类结果的准确性越高,越值得信赖,因此取集合中前个数据作为满足置信度条件的样本加入到有标签数据集中,完成BNT置信度的计算。

2)DTSVMs分类器的置信度确认方法如下:

若某一待定样本为(,),其中无标签待定样本数据为,分类器分类结果标记为,则的置信度公式为

=∑

(12)

=(1-(=))∑

(13)

(14)

(,)=1-()

(15)

协同训练时首先使用DTSVMs分类器对无标签数据进行降水粒子分类,选取分类结果中置信度高的数据加入到有标签数据集中,置信度低的数据重新放回无标签数据集。利用更新后的有标签数据集重新训练BNT分类器。之后再取出部分无标签数据集中数据使用新的BNT分类器进行分类,同样选取置信度高的样本更新训练数据集,以及重新训练DTSVMs分类器。两个分类器轮流重复上述过程。对两个分类器完成协同训练之后,利用测试数据进行降水粒子分类过程。

1.4 基于DTSVMs-BNT协同训练的双偏振气象雷达降水粒子分类方法流程

结合前文可得基于DTSVMs-BNT协同训练的双偏振气象雷达降水粒子分类算法流程,如图5所示。

图5 基于DTSVMs-BNT协同训练的双偏振气象雷达降水粒子分类流程

步骤如下:

1)步骤1:建立BNT和DTSVMs机器学习模型,使用有标签数据集,初步训练得到和分类器;

2)步骤2:从无标签数据集中取个样本,储存在待定数据集′中,使用两个分类器对′中的数据进行分类,得到预测结果;

3)步骤3:计算个样本的置信度,将置信度符合条件的个样本及其标签补充到中,重新训练和分类器;

4)步骤4:重复上述步骤,直到无标签数据集=∅,输出BNT分类器和DTSVMs分类器;

5)步骤5:利用训练好的BNT和DTSVMs分类器对新的无标签数据集进行降水粒子分类。

通过上述步骤可知协同训练的最终得到BNT和DTSVMs两个分类器,每个分类器都可以单独完成降水粒子分类任务,且分类结果较为准确。

2 实验及结果分析

实验数据集获取自美国国家海洋和大气管理局公开数据,该数据采集自美国新一代气象雷达网WSR-88D双偏振气象雷达网。其中有标签数据集是2018年5月俄克拉荷马市(OKLAHOMA)的KTLX雷达采集的回波数据,无标签数据集是2019年6月密尔沃基市(Milwaukee)的KMKX雷达采集的回波数据。两个数据集均是每类降水粒子1000个样本,两个数据集分别有9000个训练样本。测试数据集使用的是KMKX雷达于2019年8月6日5点06分采集到的0.5°仰角回波数据。

2.1 KMKX雷达回波图像数据

测试数据集雷达回波图像数据信息如图6所示。

图6 测试数据集KMKX雷达数据

2.2 实测数据验证

按照前文所述方法,完成DTSVMs-BNT协同训练之后,使用获得的协同训练BNT分类器对测试数据集进行降水粒子分类,分类结果如图7所示。其中图7(a)表示仅使用有标签训练数据集训练得到的决策树支持向量机分类器对测试数据集的分类结果;图7(b)表示仅使用有标签训练数据集训练得到的贝叶斯网络分类器对测试数据集的分类结果;图7(c)为协同训练BNT分类器的分类结果图;图7(d)是美国国家海洋和大气管理局官方提供的降水粒子分类类别,将其作为测试数据集的真实类别。从图7中可以看出,相比于两种前置分类器分类结果(图7(a)、图7(b))协同训练后分类器性能有了显著提升,分类结果更接近测试数据集的真实类别。

图7 降水粒子分类实验结果与真实类别对照

将降水粒子分类实验结果与真实类别进行对照,不难看出BNT分类器分类结果(图7(b))和协同训练BNT分类器分类结果(图7(c))更加接近官方提供的真实的分类结果(图7(d))。因此将BNT分类器对各个降水粒子的分类性能与协同训练BNT分类器对各个降水粒子的分类性能进行进一步量化。统计降水粒子分类实验结果和官方提供的真实的分类结果中的各类别粒子数量及占比,对比如表2所示。在BNT分类器分类结果中,冰雹和冰晶等粒子占比远高于官方提供的真实分类结果,准确率仅84.4%。相比于BNT分类器,协同训练使BNT分类器获得了更高的准确率,各个类别粒子的数量及占比与官方提供的真实分类结果相差很小。协同训练BNT分类器降水粒子的识别准确率提高到了90.3%,很大程度地提高了BNT算法的分类性能。协同训练算法使用一部分有标签的训练数据结合一部分无标签的数据有效地提升了分类器的分类性能,实现了降水粒子的准确分类。

表2 BNT分类器、协同训练BNT分类器和NOAA真实场景各类别粒子数量占比

3 结束语

针对有标签样本数不足的问题,本文提出了一种基于DTSVMs-BNT协同训练的双偏振雷达降水粒子分类方法。该方法首先使用有标签的训练数据集进行初步训练得到BNT和DTSVMs两个降水粒子分类器。之后使用两个分类器逐渐对无标签数据进行分类预测,计算分类结果的置信度,选取分类结果中置信度较高的无标签数据及对应的预测标签加入到训练样本集中,并且重新训练分类器。重复上述过程直到所有无标签训练数据都被打上标签,这时完成训练得到两个降水粒子分类器,最后使用得到的协同训练BNT分类器对测试数据集进行测试验证。实验证明该方法使用一部分有标签的训练数据结合一部分无标签的训练数据有效地提高了分类器性能,实现了降水粒子分类的准确分类。

猜你喜欢

置信度贝叶斯分类器
基于数据置信度衰减的多传感器区间估计融合方法
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
一种基于定位置信度预测的二阶段目标检测方法
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
基于AdaBoost算法的在线连续极限学习机集成算法