APP下载

联合支持向量机和增强学习算法的多波束声学底质分类

2021-08-14唐秋华陈义兰丁德秋

测绘学报 2021年7期
关键词:声强底质声呐

纪 雪,唐秋华,陈义兰,李 杰,丁德秋

1.测绘遥感信息工程国家重点实验室,湖北 武汉 430079;2.自然资源部第一海洋研究所,山东 青岛 266061;3.山东科技大学测绘科学与工程学院,山东 青岛 266590

海底底质是一种重要的海底浅层环境信息载体,其类型及分布是海洋空间规划、海洋调查、海洋工程建设、海洋生物栖息地调查、海洋资源开发利用以及海洋科学等研究的重要基础数据[1]。基于多波束声学遥感探测数据,结合一定的底质取样进行海底沉积物分类研究,是近年来迅速发展起来的新型海底底质分类方法,为底质类型划分提供了一种快速而有效的探测手段[2]。

常见的基于多波束的声学底质分类方法概括起来有统计分析[3-5]、图像分析[6]、聚类分析[7]、神经网络[8-10]、支持向量机(support vector machine,SVM)[11]、随机森林[12-15]、深度学习神经网络[16-18]等。目前底质分类模型多采用单一的分类模型,分类性能参差不齐。单一的分类模型不可避免地会存在一定局限,比如对初始参数敏感、泛化能力差、容易受噪声干扰、稳健性不佳等等。Boosting是一种组合单一分类方法的集成学习算法,其理论框架源于PAC(probably approximately correct)学习模型,通过对样本集的操作获得样本子集,然后用弱分类算法(弱分类器)在样本子集上训练生成一系列的基分类器。这种将弱学习方法提升为强学习方法的Boosting算法很多,AdaBoost(adaptive boosting)自适应增强算法作为Boosting算法家族最具代表性的算法参数设置简单,且无须先验知识[19-20]。由于AdaBoost分类精度在一定程度上依赖弱分类器的分类性能,并且随着训练样本数目和类别的增加,分类速度降低,训练时间变长。因此弱分类器的选择成为研究者关注的重点之一。

SVM基于结构风险最小化理论在特征空间中构建最优分类面,使得模型能够得到全局最优,并且整个样本空间的期望风险以某个概率满足一定上界[21]。与传统机器学习方法相比,SVM具有严谨的理论和数学基础,泛化能力强,可有效解决局部收敛、非线性、过学习等问题[22],在数据挖掘、模式识别、数据分类、信号处理及估计回归函数等方面得到广泛应用[23-24]。但在实际应用中,对于SVM最优参数的选择在理论上尚未得到较好解决。目前常用的SVM参数选择一般采取穷举法,但该方法计算量大,耗用时间长,寻优精度低,且不易获得最优参数。遗传算法(genetic algorithm,GA)是基于进化生物学中遗传、突变、自然选择、杂交等现象的进化机制而探索出的一种搜索自适应概率优化算法,用于解决复杂系统优化问题[25]。与传统优化算法相比,GA寻优具有搜索效率高,以群体为单位,对自变量中所有个体进行并行搜索,避免陷入局部最优解,不受目标函数影响,适应性强。

本文结合GA、SVM和AdaBoost的优势,基于SVM和增强学习框架提出一种GA-SVM-AdaBoost算法进行海底底质分类研究。首先采用GA算法对SVM的参数进行自动搜索,解决SVM的参数自动优选问题,然后将GA算法优化后的多个SVM模型作为弱分类器,根据AdaBoost算法构建强分类模型,最后应用于解决海底底质类型多样化、类型之间差异较小等多分类难点问题。

1 研究区及数据处理

1.1 研究区概况

试验区位于中国黄海中部,胶东半岛南岸青岛市境内的胶州湾。胶州湾属于半封闭海湾,具有较典型的港湾海岸,海底地貌类型多样,有丰富的粉砂质黏土、黏土质粉砂、泥质砂、砂质泥、粉砂、砾石、泥岩、基岩、粗砂等底质类型,有利于开展声学底质分类研究。本文试验利用挪威Kongsberg公司的EM3000多波束测深系统在试验区进行数据采集工作,共采集17条多波束测线数据。研究区地形、测线布设和海底表层沉积物位置及类型如图1所示。研究区水深在5~40 m范围内,结合现场底质取样分析数据以及历史沉积物类型分布资料,试验区浅表层海底沉积物包括基岩、砂、黏土质粉砂和粉砂质黏土4类。

1.2 数据处理

1.2.1 反向散射强度数据处理

多波束测深系统详细记录了每一个时序采样点的位置信息和反向散射强度信息,可以同时获取高精度的水深地形和高分辨率的声呐图像。由于动态复杂的海洋环境以及多波束测深系统自身的局限,原始的反向散射强度测量值并不能直接反映真实的海底底质特征,需进行系统的校正处理。反向散射强度数据在进行底质识别之前通常需要经过定位、系统误差改正、声强补偿改正、声呐图像处理、声呐图像特征提取等一系列处理,可以概括为以下4步:

(1)声强数据位置改正。解析多波束原始数据包中的姿态信息、导航信息、声速剖面等数据,通过声线跟踪、姿态改正、基阵空间坐标确定、基阵空间姿态确定、平面直角坐标系下水深点位置归算以及反向散射强度位置归算。

(2)声强数据补偿校正。声强数据依次进行传播损失补偿、TVG改正、声照面积改正、地形起伏度改正、中央波束改正和角度响应分析等在内的声强补偿改正[26-31],得到能反映海底底质特征的真实声强值。

(3)声呐图像获取。对声强条带数据进行拼接,然后数据重采样得到声呐图像,得到的声呐图像进行增强处理提高底质辨识度。

(4)底质分类。基于声呐图像进行特征提取和筛选,选择优势特征同时降低图像特征维度,构建分类器进行海底底质自动分类识别。

本文通过自主设计完成的MBClass多波束数据处理软件进行声呐数据改正,数据改正前后的声呐图像如图2所示。从图2的3处局部放大图可以很明显地看出,声强补偿改正模型改正后的声呐图像较好地解决了声强的角度响应问题和中央亮条带问题,声强过渡更清晰、自然。

图1 研究区概况Fig.1 Overview of the research area

图2 反向散射声强数据改正前后对比Fig.2 Comparison of backscattered strength data before and after correction

1.2.2 声呐图像增强

为改善声呐图像的视觉效果,突出不同海底底质之间的细节特征,利用基于双边滤波的Retinex算法进行海底声呐图像增强[32]。Retinex理论是一种颜色恒常知觉的计算理论[33]。该算法综合考虑像素亮度本身和周围像素位置进行照度估计,采用具有保边去噪优势的双边滤波算法进行照度估计,有效避免照度估计时高对比度边缘附近高低像素之间的相互影响。采用策略压缩照度图像和增强反射图像,最后将两者融合形成一幅新图像,如图3所示。对比输入和输出图像的局部统计直方图可以看出,经过增强后的声呐图像像素空间分布更均匀,不同底质类型对比更明显。

图3 基于双边滤波的Retinex图像增强算法实现流程Fig.3 Flow chart of Retinex image enhancement algorithm based on bilateral filtering

1.2.3 特征提取及优化

反向散射强度数据比较抽象和复杂,只凭借强度数据进行底质分类效果较差,尤其是在地形复杂和沉积物类型差异较小的区域。针对这一问题,在底质分类过程中,除了充分考虑声强变化,还要兼顾数据的空间特征。除了基本灰度信息外,本文还提取了包括12维离散小波变换(discrete wavelet transform,DWT)、9维Laws纹理特征、8维灰度共生矩阵(gray-level co-occurrence matrix,GLCM)、3维Gabor变换、2维Tamura纹理特征和1维局部二值模式(local binary pattern,LBP)等在内共计36维特征,如表1所示。不同特征的箱式图如图4所示,考虑到部分特征值较大,为了在一个范围区间内更好地展示所有特征的空间分布,文中对2号特征做2倍压缩,6号特征做5倍压缩,10号特征做10倍压缩,36号特征做2倍压缩。其中L5、E5、S5、W5和R5是长度为5的1维向量集合,分别表示灰度、边缘、点、波、纹波特征,定义如下

表1 特征信息统计Tab.1 List of characteristic information

图4 声呐图像特征提取显示Fig.4 Sonar image feature extraction

(1)

L5R5、L5S5、L5W5、E5S5、E5W5、E5R5、S5W5、S5R5和W5R5是Laws纹理的卷积模板,通过对相应的纹理向量进行卷积得到。

为了提高分类模型的性能,减少计算空间和运行时间,在底质分类前需要对36维特征进行筛选,删除冗余特征。目前特征的筛选算法有很多,从特征选择算法的发展历程来看,目前特征选择算法趋向于特征相关性。因此,本文在支持向量机递归特征约简算法(SVM recursive feature elimination,SVM-RFE)基础上增加相关偏置约简算法(correlation bias reduction,CBR,简称SVM-RFE-CBR算法[34])进行特征选择,SVM核函数选择Gauss径向基核函数(RBF)。对于训练数据集{xi,yi}、xi∈Rd、yi∈{-1,1},i=1,…,n,非线性SVM模型有

(2)

式中,β是有符号的列向量,即βi=αiyi;αi是拉格朗日乘子;H是核矩阵;符号(-k)表示特征k已被删除;Hij=K(xi,yi)只包含支持向量。对于核函数Hij=e-gSij,其中g是核函数参数,Sij=‖xi-xj‖2,则

(3)

结合采样样本,选取一定数量的样本数据,随机有放回地选取500个样本数据进行分析。保留前10维的特征分配得分(1—10,排名越靠前得分越高),重复操作6次。得分累计如图5所示,其中特征序号与表1特征序号对应。

图5 特征得分统计Fig.5 Statistics of characteristic scores

最终按照得分筛选前10维特征输入分类器进行分类,其中包括Gabor变换(0°)、3层小波分解近似分量、Gabor变换(90°)、二层小波分解近似分量、声呐图像声强、一层小波分解近似分量、Gabor变换(45°)、LBP、GLCM中值和能量。

2 分类算法

GA-SVM-AdaBoost算法通过构造GA优化后的SVM分类器作为弱分类器,综合训练样本集的分类结果以及之前总体分类的准确率,给每个训练样本分配权值,提高前一轮被弱分类器错误分类的样本权值,降低被正确分类的样本权值,并通过不断迭代改善错误分类样本的分类精度[35]。其工作流程如图6所示,可以概括为弱分类器(GA-SVM)构建和强分类模型(GA-SVM-AdaBoost)集成两部分。

图6 GA-SVM-AdaBoost分类流程Fig.6 GA-SVM-AdaBoost classification flow chart

2.1 弱分类器(GA-SVM算法)构建

特征选择部分已经对SVM模型有一个简单介绍,SVM分类模型将样本空间映射到高维空间φ(x)=[φ(x1),φ(x2),…,φ(xn)],然后在高维特征空间构造最优决策函数

y=wTφ(x)+b

(4)

式中,w是权值向量;b为偏置量。通过求解最优化问题来解决分类问题的SVM模型

(5)

式中,εi为引入的松弛变量;C是惩罚因子。引入拉格朗日乘子进行最优计算得到SVM决策函数

(6)

惩罚因子C和核函数参数g的取值会直接影响分类准确率,基于此,本文选用GA算法优化SVM模型参数。具体优化流程如下(图7):

(1)对输入的训练数据和测试数据进行归一化处理,消除原始变量之间的量纲差异。

(2)进行染色体编码与种群初始化,对SVM的惩罚函数C和核函数参数g进行二进制编码,并随机产生初始化种群。

(3)进行解码与适应度函数的确定,对种群中的各染色体解码,获取C及g的值,再用训练样本对SVM进行训练,并用训练好的SVM计算测试样本集的预测精度,由预测精度构造种群个体的适应度函数。

(4)判断优化过程是否满足遗传算法的终止条件(最大进化代数),若满足终止条件,则停止计算,输出最优参数组合,否则进行选择、交叉、变异等操作以产生新一代种群,并开始新一代遗传。

(5)将得到的最优参数惩罚因子C和核函数参数g代入SVM模型中对训练集进行训练。

(6)对测试集进行分类预测,得出分类结果并计算分类精度。

图7 GA优化的SVM神经网络工作流程Fig.7 GA-SVM neural network workflow

2.2 强分类模型(GA-SVM-AdaBoost)集成

假设训练数据集T={(xi,yi),…,(xm,ym)},xi∈X为特征矩阵,yi∈{1,2,…,N}为对应的类别标签。依次取两类样本,一类为正,一类为负,将yi设为正类,将剩余样本设为负类,设置弱分类器个数K。输入训练样本数据,初始化训练样本权值w1(i)=1/m。依次遍历所有弱分类器,第t个弱分类器ht(x),计算误差率

(7)

计算ht(x)的权值分配系数

(8)

结合多分类指数损失函数的主见叠加建模(SAMME)[36]算法构造强分类器,并对AdaBoost算法的权值分配策略进行改进

(9)

在原算法的基础上增加ln(K-t+1),更新训练数据的权值分布

(10)

(11)

式中,Zt为归一化因子。第K个弱分类器分类结束后,训练得到的所有弱分类器组成最终的强分类器G(x),输出所属类别的决策值

(12)

AdaBoost在循环中反复调用弱分类器,根据训练样本的预测结果,更新每个周期后的分布wt,使得正确分类的样本权重较低,而错误分类样本权重较高,不断改善分类精度。最后,所有的弱分类器线性组合成一个最终强分类器G(x)。

3 试验分析

为了验证GA-SVM-AdaBoost分类模型在海底底质分类中的有效性和优势性,结合研究区历史海底沉积物资料及采样数据分布,在研究区底质采样位置附近分别选取4类底质的样本。抽取其中15 600个基岩样本,9360个砂样本,6630个黏土质粉砂样本和13 650个粉砂质黏土样本,将同类样本数据顺序打乱后平均分成训练样本和测试样本数据,将训练数据分别输入,对SVM、GA-SVM、基于单层决策树的AdaBoost和GA-SVM-AdaBoost分类模型进行训练学习。然后用测试数据进行测试,最终对整个试验区进行分类,结果如图8所示。对测试数据分类结果分别计算单个类别的分类精度、总体分类精度和Kappa系数,结果如表2所示。

由表2和图8可以看出,单个分类模型如SVM、GA-SVM存在对某一类或两类分类效果不佳的问题,且分类结果会有很多“噪声”值,混合底质分类效果不好。但GA对SVM的参数优化使得SVM总体分类精度提高了4.11%。基于单层决策树的AdaBoost算法对砂、黏土质粉砂和粉砂质黏土分类表现不佳,分类精度均在70%以下。基于同样的AdaBoost框架将多GA-SVM组合构成的GA-SVM-AdaBoost模型得到的混淆矩阵Kappa系数最高达到0.89,总体分类精度达到92.19%,高出基于单层决策树的AdaBoost算法16.32%,分别高出另外两种分类模型6.98%和2.87%。充分验证GA-SVM作为弱分类器在分类性能上要优于单层决策树,以及AdaBoost增强算法集成多个单分类器要优于单个分类模型。除此之外,GA-SVM-AdaBoost算法在整个试验区底质分类中表现出明显的优势,类别之间“噪声”混合现象得到很好的弱化,对混合底质表现出较好的适应性,其中,砂分类精度最低也有85.36%,对基岩的分类精度为94.90%、黏土质粉砂分类精度为90.4%、粉砂质黏土的分类精度为97.26%。

表2 4种分类方法的精度对比Tab.2 Comparison of four classification methods

4 结 论

基于多波束声呐数据的声学底质分类相对于传统海底底质分类具有高精度、高效率和高覆盖率等优势,是传统底质分类的有益补充,不但具有重要的科学研究意义,更具有较强的应用推广价值。本文围绕多波束反向散射声强数据处理,以及联合SVM和AdaBoost算法的分类模型构建等关键问题进行系统、深入的研究,得到如下结论:

(1)通过完善的声强数据补偿改正模型对多波束反向散射声强数据进行补偿改正,得到反映真实海底底质的声强信息。SVM-RFE-CBR算法可以对36维特征进行分析筛选出10维最具分类优势的特征,大大减少计算工作量,提高分类效率和分类精度。

图8 4种分类方法分类结果Fig.8 Classification results of the four classification methods

(2)利用GA算法自适应全局优化搜索能力与SVM有机结合,通过不断的选择、交叉、变异计算得到SVM模型最优参数惩罚因子C和核函数参数g,提高了SVM模型分类精度。

(3)GA-SVM-AdaBoost算法将GA、SVM和AdaBoost三者的优势组合,通过多个GA-SVM弱分类器组合成AdaBoost强分类器。基于胶州湾试验区多波束数据分别利用SVM、GA-SVM、基于单层决策树的AdaBoost和GA-SVM-AdaBoost 4种算法进行底质分类试验并证明其有效性和优势性。GA-SVM-AdaBoost算法对基岩分类精度达到94.90%、砂分类精度为85.36%、黏土质粉砂精度为90.40%、粉砂质黏土分类精度为97.26%,其分类精度明显优于另外3种分类器。一方面证明GA对SVM参数优化可以提高SVM的分类性能;另一方面证明基于GA-SVM弱分类器的AdaBoost增强学习算法可以集成多个GA-SVM分类器的优势,分类效果要优于单一分类器和传统的AdaBoost模型。

猜你喜欢

声强底质声呐
探索大洋的“千里眼”——声呐
超音速声强近似测量方法
不同发育阶段中华绒螯蟹对底质的喜好性研究
一种ReliefF和随机森林模型组合的多波束海底底质分类方法
用于海底目标识别与底质分类的多波束水体波形预处理
一种便携式侧扫声呐舷侧支架的设计及实现
声呐
基于声强法的发动机噪声测量分析
文蛤的底质选择性及潜沙能力研究
声化学能量测量仪的研究