APP下载

水下目标识别中样本选择与SVME融合算法

2014-03-25杨宏晖王芸戴健

西北工业大学学报 2014年3期
关键词:训练样本子集分类器

杨宏晖, 王芸, 戴健

(西北工业大学 航海学院, 陕西 西安 710072)

学习样本和决策系统是决定基于有监督机器学习理论的水下目标识别系统识别性能的2个至关重要的因素。长期以来,为了提高水下目标识别的识别正确率,研究人员研究了特征提取[1-5]、特征选择[6-8]和决策系统设计方法,但有关水下目标样本选择的研究鲜见报道。提取的特征样本未经过样本选择的训练样本集会存在如下问题:①含有很多冗余样本;②含有与识别任务无关的不相关样本;③含有在采集录制过程中掺入的错误样本和噪声样本。学习未经选择的训练样本会导致决策系统的识别性能下降[9-10]。而且以往特征提取、特征选择和决策系统设计这3个方面的研究工作相对独立,致使整个识别系统的性能可能因为一个环节没有协同合作而下降很多。

本文提出了基于最近邻收缩样本选择的支持向量机集成算法(SVM ensemble based on weighted reduced nearest neighbor, SVME-WRNN)和基于加权免疫克隆样本选择的支持向量机集成算法(SVM ensemble based on weighted immune clonal instance selection algorithm, SVME-WICISA),这2种算法将样本选择和支持向量机集成融合在一个框架下,以提高水下目标识别系统的识别性能。利用实测水下目标数据进行了识别实验,结果证明新方法能够显著降低训练样本数目和提高综合分类器分类精度。

1 样本选择与SVME融合方法

1.1 样本选择与SVME融合方法原理

所提方法的核心思想是:利用AdaBoost算法[11]构造SVM集成模型,并在其框架中融入样本选择算法(加权最近邻收缩样本选择算法WRNN和加权免疫克隆样本选择算法WICISA),以简化SVM集成模型结构,并提高SVM集成模型的识别正确率。该方法在每次循环首先用随机遍历抽样法,根据样本加权权值对原训练样本集进行重抽样构成待选训练样本集。接着用样本选择方法选择加权识别错误率最小的训练样本子集,并训练个体SVM分类器。最后用加权多数投票法集成个体分类器。集成方法的原理如下所示:

输入:

训练样本集X

X={(xi,yi)|xi∈Rd,yi∈{1,…,K},i=1,…,n}

xi的初始加权值

w1(i)=1/n,i=1,2,…,n

Fort=1, 2, …,T

·用St训练SVM得到分类超平面ft(St)

·更新样本加权权值:

如果ft(Xt(i))=yi,则wt+1(i)=wt(i)×ξt,式中ξt=εt/(1-εt);

如果ft(Xt(i))≠yi,则wt+1(i)=wt(i);

End

Returnf1,f2,…,ft,…,fT(个体分类器集)

输出:分类器集成

在循环递进过程中,难分样本被赋予较大的加权权值,个体分类器的学习重点自适应地放在难分的样本上,从而使个体分类器分类性能逐渐增强。而且,算法还优化选择了个体分类器的训练样本集,去除了冗余和噪声样本,达到在精简分类器集成模型结构的同时提高分类器集成分类性能的目的。

1.2 WRNN算法原理

加权最近邻收缩算法的原理框图如图1所示。

图1 WRNN算法原理框图

设初始化的样本子集为S=X,从S中依次去除一个样本,如果这样的去除不会引起X的加权正确分类率的降低,就从S移除该样本,否则保留该样本。循环往复,直到S中所有样本都被检查一遍,最后得到的S是X的最小子集,并与X有相同正确分类率。该操作能有效删除无关样本、冗余样本以及噪声样本,减少样本选择数目。

1.3 WICISA算法原理

WICISA算法如图2所示,先随机生成初始抗体群,利用克隆操作、免疫基因操作(自适应海明距离交叉和加权简化最近邻变异)和克隆选择操作指导种群进化,每代计算每个抗体与抗原的加权亲合度、抗体间亲合度以及抗体克隆数,并逐代重复进化过程,直到满足进化终止条件,得出优化样本集。

图2 WICISA算法原理框图

1.3.1 加权亲和度计算

1) 抗体-抗原加权亲合度函数

抗体-抗原加权亲合度函数如(1)式所示,用于度量某抗体(一种样本选择方式)对分类贡献的大小,其中γp是第p个抗体ap选择的样本数目的倒数,则1/n≤γp≤1;εwp是第p个抗体ap的SVM分类器的加权错误分类率。参数σ可以调整γp和εwp在加权亲和度计算中所占的权重,一般识别系统对识别精度的要求高于对运行时间的要求,因此σ可在0.7~1之间取值,本文取σ=0.7。

Fp=σ(1-εwp)+(1-σ)γp

(1)

2) 抗体-抗体间亲和度函数如(2)式所示,其亲和度值计算了样本选择方式之间的差异,体现抗体群的多样性。

(2)

3) 克隆数计算

第k代每个抗体的克隆数用公式(3)计算,该方法利用抗体间亲合度和抗体-抗原亲合度来控制每个抗体的克隆数,其中对水下目标分类贡献大且多样性好的抗体克隆数目多。

(3)

nc是与克隆规模相关的设定值;「 ⎤为向上取整符号;Fp(k)是第k代抗体-抗原亲合度。

1.3.2 克隆算子的主要操作过程

克隆算子包括3个部分:克隆操作、免疫基因操作和克隆选择操作。

1) 克隆操作

将原抗体群中的每个抗体按照公式(3)计算的克隆数进行克隆,得到克隆抗体群。

2) 免疫基因操作

加权简化最近邻变异:首先设待变异抗体所选择的样本子集为S=X,按照图1所示的最近邻收缩算法原理对待变异抗体进行变异操作,最终得到新的X最小子集S,使其与X有相同的正确分类率。

3) 克隆选择操作

将免疫基因操作后得到的抗体群与父代抗体群进行比较,若父代抗体群某个体的加权抗体抗原亲合度值比子代的优越,则将父代遗传至下一代。

2 实验与讨论

2.1 实验数据

采用水下目标实测数据来验证样本选择与SVME融合方法的有效性。水下目标实测数据是一种在不同环境和天气、不同海区、不同接收设备以及不同的时间段内对目标提取而得到的声信号。它分为A、B、C、D共4类,每类480个样本,样本总数为1 920个,每个样本提取了71维多域特征,分别是波形结构特征(过零点分别特征、峰间幅值分布特征和波长差分布特征)、小波分析特征(各级小波信号的过零点的波长分布密度的信息熵、各级小波信号的相似特征和小波分解低频包络特征)以及听觉谱特征和Mel频率倒谱特征[6]。数据说明如表1所示。

表1 水下目标实测数据的说明

2.2 样本选择与分类实验参数设置

每类选取水下目标实测数据中的240个共960个样本作为训练样本,所有的1 920个样本作为测试样本。对于SVME-WRNN算法,设训练分类器的个数为T=20,对于SVME-WICISA算法的参数设置如表2所示。

表2 SVME-WICISA算法参数设置

2.3 实验结果与讨论

将水下目标数据分别用SVME-WRNN算法和SVME-WICISA算法进行分类实验,实验结果的分析与讨论如下:

1) WICISA样本选择算法中适应度变化

图3给出了实际训练20个分类器对应WICISA运算50代的每代归一化平均适应度值的变化曲线。

图3 WICISA不同分类器归一化最佳个体适应度

从图3可以看出,每一个分类器对应的适应度曲线都呈现先上升,且都在50代之前趋于稳定的趋势,这说明WICISA算法具有较好的收敛性,能更快地找到一定条件下的最优解,进化过程稳定,可以抑制优化过程中出现的退化现象。

2) 样本重要性指数

在实验中我们定义每个样本在实际训练的分类器中被选择的次数除以训练分类器的个数T为每个样本的样本重要性指数。用SVME-WRNN与SVME-WICISA得到的样本重要性指数分别如图4和图5所示。

图4 SVME-WRNN的样本重要性指数图

图5 SVME-WICISA的样本重要性指数图

从图4和图5中可以看出,SVME-WRNN的样本重要性指数在0.5以上的样本约有250个,SVME-WICISA的样本重要性指数在0.5以上的样本有180个左右,且这些样本被选择的次数明显高于其他样本。这说明SVME-WRNN与SVME-WICISA均能有效地指导最优样本子集的搜索。

3) 样本选择前后SVM分类性能的比较

表3为样本选择后集成的SVM与样本选择前SVM的分类性能的比较。其中,原始样本个数为960个,选择前单个的SVM识别率为0.977,未选择前用Adaboost算法获得集成的SVM分类时间为5.221 s。

表3 水下目标实测数据实验结果

从表3可以看出,SVME-WRNN与SVME-WICISA中优化的样本子集中被选择的样本个数的平均值分别减少至原始样本数目的25%与19%,且选择后集成的SVM分类器正确识别率与选择前的SVM分类器识别率相比略有提高;同时这2种算法与用AdaBoost算法直接获得的分类器集成相比,分类时间明显减少。这说明样本选择的SVM集成方法不仅可以大幅度减少样本数目,有效去除冗余样本、不相关样本和噪声样本,且经过样本选择后得到的SVM分类器与选择前SVM分类器具有更好的分类精度和推广性能,同时分类效率也有了一定的提高;但WICISA的样本选择方法在去除冗余样本方面比WRNN算法略好一些。

以上的实验结论均说明,这种样本选择与分类器集成相融合的方法可以在一定条件下解决水下目标识别问题。

3 结 语

提出了SVME-WRNN与SVME-WICISA 2种算法,利用样本选择的优化样本子集来训练SVM分类器,并将训练所得的分类器进行集成得到样本子集综合分类器。用水下目标实测数据进行了分类仿真实验,结果表明,该种方法不仅可以大幅度降低样本数目,而且经样本选择后集成SVM分类器与选择前SVM分类器具有更高的正确识别率,综合的分类器具有良好的分类精度;除此之外,SVME-WICISA的还具有收敛快,稳定的特点,为解决水下目标识别问题提供了一种新的方法。

参考文献:

[1] 李雪耀,彭圆,林良骥,等. 基于小波与三次样条插值的包迹谱的水下目标分类研究[J]. 声学学报,2004, 29(1): 63-67

Li Xueyao, Peng Yuan, Lin Liangji, et al. Study on Classification of Underwater Targets Based on Modulation Spectrum by Wavelet Transforms and Cubic Spline Technique[J]. Acta Acustica, 2004, 29(1): 63-67 (in Chinese)

[2] Tian Jie, Xue Shanhua, Huang Haining, et al. Classification of Underwater Still Objects Based on Multi-Field Features and SVM[J]. Journal of Marine Science and Application, 2007, 6(1): 36-40

[3] 王磊,彭圆,林正青,等. 听觉外周计算模型在水中目标分类识别中的应用[J]. 电子学报,2012,40(1): 199-203

Wang Lei, Pen Yuan, Lin Zhengqing, et al. The Application of Computational Auditory Peripheral Model in Underwater Target Classification[J]. Acta Electronica Sinica, 2012, 40(1): 199-203 (in Chinese)

[4] 李新欣. 船舶及鲸类声信号特征提取和分类识别研究[D]. 哈尔滨: 哈尔滨工程大学,2012

Li Xinxin. Research on Feature Extraction and Classification of Ship Noise and Whale Sound[D]. Harbin, Harbin Engineering University, 2012 (in Chinese)

[5] Tucker S, Brown G J. Classification of Transient Sonar Sounds Using Perceptually Motivated Features[J]. IEEE Journal of Oceanic Engineering, 2005, 30(3): 588-600

[6] 杨宏晖,戴健,孙进才,等. 用于水声目标识别的自适应免疫特征选择算法[J]. 西安交通大学学报, 2011, 45(12): 28-32

Yang Honghui, Dai Jian, Sun Jincai, et al. A New Adaption Immune Feature Selection Algorithm for Underwater Acoustic Target Classification[J]. Journal of Xi′an Jiaotong University, 2011, 45(12): 28-32 (in Chinese)

[7] Peng Yuan. A Study on Several Feature Selection Methods in Target Classification and Recognition[C]∥IEEE Computer Science and Automation Engineering, Shanghai, 2011: 736-739

[8] 杨宏晖,孙进才,袁骏. 基于支持向量机和遗传算法的水下目标特征选择算法[J]. 西北工业大学学报, 2005, 23(4): 512-515

Yang Honghui, Sun Jincai, Yuan Jun. A New Method for Feature Selection for Underwater Acoustic Targets[J]. Journal of Northwestern Polytechnical University, 2005, 23(4): 512-515

[9] Vapnik V. The Nature of Statistical Learning Theory [M]. New York: Springer-Verlag, 2000

[10] Garcia P N. Constructing Ensembles of Classifiers by Means of Weighted Instance Selection [J]. IEEE Trans on Neural Networks, 2009, 20(2): 258-277

[11] Freund Y, Schapire R E. A Decision-Theoretic Generalization of on-line Learning and an Application to Boosting[C]∥Computational Learning Theory: Second European Conference, 1995: 23-37

猜你喜欢

训练样本子集分类器
拓扑空间中紧致子集的性质研究
关于奇数阶二元子集的分离序列
人工智能
完全二部图K6,n(6≤n≤38)的点可区别E-全染色
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
宽带光谱成像系统最优训练样本选择方法研究
基于稀疏重构的机载雷达训练样本挑选方法
每一次爱情都只是爱情的子集
基于层次化分类器的遥感图像飞机目标检测