几种BP网络训练方法的高光谱影像分类对比分析

2015-07-04谭靖王东陈时雨北京航天泰坦科技股份有限公司北京100067武汉大学遥感信息工程学院湖北武汉430079

城市勘测 2015年6期

谭靖,王东,陈时雨(1．北京航天泰坦科技股份有限公司,北京 100067; ．武汉大学遥感信息工程学院,湖北武汉 430079)

谭靖1∗,王东2,陈时雨2
(1．北京航天泰坦科技股份有限公司,北京 100067; 2．武汉大学遥感信息工程学院,湖北武汉 430079)

摘要:以Indian Pine数据集为研究对象,利用等角特征映射对其进行特征提取,然后选取BP网络传统的梯度下降训练方法和正切拟牛顿法、Polak-Ribiere共轭梯度法、Levenberg-Marquart法3种数值优化的训练方法对其进行分类。对分类结果进行对比分析,结果表明:基于数值分析的训练方法训练网络的耗时均比梯度下降法长,但收敛效果更好;总体分类精度均比梯度下降法至少提高6%;各类别制图精度都较高,且较为稳定,而梯度下降法只对易分的类别精度高;3

种数值分析训练方法中,正切拟牛顿法和Polak-Ribiere共轭梯度法的收敛效率和分类精度比Levenberg-Marquart法高。

关键词:BP网络;训练;数值优化;高光谱影像;分类

1 引言

高光谱影像分类是遥感技术发展的重要环节,对遥感数据库建设、信息提取、农业动态监测、环境保护等各方面均有重要意义[1]。人工神经网络是高光谱影像分类的一个重要方法,其中BP网络是应用最为广泛的[2]。

很多学者对传统的BP网络训练,即基于一阶梯度网络训练的遥感分类,进行了研究。Mahmon等通过比较BP网络分类和最大似然法分类、ISODATA聚类,发现神经网络的分类效果更好[3]。Liu等鉴于梯度下降法训练网络时易局部收敛,对隐层网络进行分组设置,从而改进BP网络[4]。Philip等对BP网络的训练参数进行研究,选取合适的参数,从而改善BP网络分类的效果[5]。骆剑承等对BP网络的改进包括输入向量预处理、网络结构参数调整、学习速率调整、辅助遗传算法等[6]。Riedmiller等在进行网络训练时,利用RP方法,即通过梯度的正负值改变梯度搜索方向[7],该方法较梯度下降法有很大提升。此外,都业军等利用LM算法的BP网络训练方法进行遥感分类研究,指出LM算法是在中等规模网络中,训练速度最快的算法[8]。丁硕等利用二维数值矢量为实验对象,从算法效率上分析了数值优化的网络训练方法的势[9]。综合以上分析可知,梯度下降法在网络训练过程中,收敛较慢、易陷入局部收敛,大部分学者主要从改正网络参数方面对其进行改进;而利用基于数值优化的BP网络训练方法进行遥感分类的研究较少。

基于以上分析,本文主要对比分析梯度下降法和数值优化的训练方法在高光谱影像分类中的效果。选取Indian Pine高光谱数据集为研究对象,利用等角特征映射对其进行特征提取实现数据降维,然后利用传统的梯度下降法和具有代表性的3种数值优化网络训练方法:正切拟牛顿法、Polak-Ribiere共轭梯度法、Levenberg-Marquart法,对上述数据集进行分类及精度评价,并对比分析各种训练方法的分类效果。

2 基本理论

BP网络是多层前向神经网络,各层节点通过S型函数传递,BP网络各层节点间的权值和阈值调整采用误差反向传播学习算法。利用BP网络进行高光谱影像分类,是将影像特征作为输入,经网络传递得到对应的实际输出,最终分类类别作为期望输出,BP网络的训练即通过调整权值,使期望输出和实际输出差值(ε)最小,从而得到最佳网络,利用这个网络进行测试,即可得到最终的分类结果。

BP网络的训练实质是一个非线性目标函数的优化问题,其训练方法有传统的梯度下降法和基于数值分析的训练方法。梯度下降法每次迭代都按照一阶梯度的负方向进行,即按ε的一阶负导数进行误差修正;利用该方法虽然误差减小最快,但收敛速度不一定最快。而基于数值优化的训练方法利用了目标函数的二阶导数信息,首先确定误差改正的方向,再确定误差改正量的大小,从而进行迭代;利用该方法,迭代步长是沿梯度方向改变的,从而可以使收敛速度加快。

2．1梯度下降法(GD)

梯度下降法[10]每次迭代的权值和阈值修正公式为:其中,X(k)为网络的权值向量或阈值向量;α为学习速率;dg(k)为第k次迭代时输出误差对各权值或阈值的梯度向量。

2．2数值优化训练方法

数值优化的网络寻优分为两步:首先确定当前迭代的最佳搜索方向,而后在此方向上寻求最优迭代步长,可以统一描述为:

其中,S(X(k))为由X各分量组成的向量空间的搜索方向;η(k)为在S(X(k))的方向上,使f (X(k+1))达到极小的步长。

(1)正切拟牛顿法(OSS)

OSS法[11]的第一次迭代的搜索方向为负梯度方向,即:以后各次迭代的搜索方向为:

其中:

OSS方法是相对于BFGS拟牛顿法提出的一种拟牛顿法,减小了存储量和计算量。

(2)Polak-Ribiere共轭梯度法(CGP)

共轭梯度法[12]第一步也是沿负梯度方向进行搜索,而后各次搜索方向按当前搜索方向的共轭方向进行,如式(5)所示,共轭梯度法可以迅速达到最优值。

S(X(k))= -∇f (X(k))+β(k)S(X(k-1))(5)

其中,β(k)形式不同,可构成不同的共轭梯度法,研究表明,CGP效果更好,CGP中β(k)=,其中gk=∇f (X(k))。

共轭梯度法比大多数常规的梯度下降法收敛都要快,而且存储量和计算量很小。

(3)Levenberg-Marquart法(LM) k

LM法[11]实际是梯度下降法和拟牛顿法的结合,其搜索方向为:

其中J表示雅可比矩阵。LM训练初,令λ取很大一个值,此时相当于步长很小的梯度下降法;随着最优点的接近,λ减小到0,则S(X(k))从负梯度方向转向牛顿法的方向。

LM法所需的存储量比OSS法和CGP都要大,但LM对于中小网络的训练效果很好。

3 实验与分析

3．1数据介绍及处理

选择Indian Pine数据集(IP)为实验数据,该数据截取于AVIRIS在美国印第安纳州获取的影像,是最常用的高光谱基准测试数据集之一[13]。空间分辨率为30 m,影像大小为145×145像素,共21 025个高光谱数据点。该影像包含由400 nm～2 500 nm共计220个有效波段,去掉水气吸收带与噪声较大的波段,保留有158个波段。该数据集主要覆盖农业用地,被标记地面实况数据共计10 171个数据点,被分为12个类别,表1列出了该数据各类别详细信息,图1中左图为IP数据集经假彩色合成影像,右图为实际地物类别空间分布情况。

IP数据集实际类别信息表1

图1　IP数据集假彩色合成影像(左)和地面实况数据空间分布(右)

IP数据集是高光谱数据,利用高光谱数据直接进行分类,将出现Hughes现象,本文利用等角特征映射法(ISO法)对IP数据集进行特征提取。ISO法是流行学习中最早提出的算法,通过计算数据在流形上的测地线距离,从而能提取数据分布的非线性特征[14]。图2为利用ISO法提取IP数据集的前10个特征波段的结果,将利用这10个特征波段(简记为IPisov)进行分类研究。

3．2分类实验及结果分析

(1)网络设计

首先构建一个3层前向神经网络,其中输入层为IPisov的10个特征波段,即输入节点数为10;输出层为实际类别数,即输出节点为12;隐层节点数经大量实验发现,设置为21个效果最佳。利用BP网络训练方法对IPisov进行分类研究时,经大量实验验证,主要训练参数的初始值设定为:学习速率0．2,训练最大次数2 000,最小梯度1e-20,训练精度0．005,输入层至隐层、隐层至输出层的传输函数均为双曲正切S型函数。

利用如上设计的网络对IPisov进行分类,选择IP数据集5%的样本进行训练,剩下95%的样本进行测试;由于IP数据集各像元真实类别均已知,因此可以选择20组训练样本和对应的测试样本进行交叉验证,最终结果取20次实验的统计结果,结论可靠性高。分别利用GD法、OSS法、CGP法、LM法进行网络训练和仿真,得到最终的分类结果,从分类效率、总体精度和各类别精度3个方面对各训练方法的分类结果进行分析。

(2)各训练方法分类效率分析

利用GD法、OSS法、CGP法、LM法进行网络训练对IPisov分类消耗的时间分别为13 s、31 s、33 s、 23 min 26 s,因此:GD法训练时间很短;LM法因存储量大,训练非常耗时;OSS法和CGP法耗时基本一致,且耗时较短。

利用GD法、OSS法、CGP法、LM法进行网络训练对IPisov分类的误差曲线如图3所示,可以知道:GD法收敛较慢,且陷入局部收敛;LM法收敛很快;OSS法和CGP法收敛速度较LM稍慢,但收敛效果也很好,其中CGP法略好于OSS法。

图3　4种训练方法进行网络训练的误差曲线

综上分析,GD法训练简单,但收敛效果不好;LM法收敛效果最好,但耗时严重;OSS法和CGP法收敛效果较好,耗时也短;因此选择OSS法和CGP法进行网络训练较为理想。

(3)各训练方法总体分类精度分析

利用GD法、OSS法、CGP法、LM法进行网络训练,对IPisov进行20次分类实验,各训练方法分类的总体精度统计如表2所示,可以知道:3种数值分析训练方法的分类kappa系数均达到0．6,而GD法的kap-pa系数小于0．6;OSS法和CGP法的总体分类精度最高,达到70%,且20次实验的标准差仅约为1．1%; LM的总体分类精度次之,为66．93%;而GD法的总体分类精度仅为61．11%。

4种训练方法进行分类的总体精度统计表2

(4)各训练方法各类别分类精度分析

利用GD法、OSS法、CGP法、LM法进行网络训练,对IPisov进行20次分类实验,各训练方法分类的各类别制图精度如图4所示,可以知道:OSS法和CGP法在各类别精度都较高,LM法在类3的精度较低;而GD在类6、类8、类10、类11的精度比其他方法高,但在其他类的精度则比其他方法低很多。4种方法在类3、类12的精度都很低,其中GD法在类3和类12的精度小于5%;LM法类3精度比GD法高,但仍低于10%;而OSS法和CGP法在类3和类12精度都有较大提升。

图4　4种训练方法进行分类的各类别精度

玉米地各类别混淆矩阵表3

为了进一步说明各训练方法的分类效果,对其中较难区分的类别进行混淆矩阵分析。其中,表3为玉米地类(类1无耕作玉米地、类2耕作中玉米地、类3玉米地)的混淆矩阵,可以知道:类1相对类2、类3更容易区分,而类3很难区分;其中OSS法、CGP法、LM法效果均比GD法好,其中OSS法和CGP法比LM法效果更好。

表4为大豆地(类7无耕作大豆地、类8耕作中大豆地、类9大豆地)的混淆矩阵,可以知道:GD法对类7和类9分类效果较差,而OSS法、CGP法和LM法的分类精度较GD法有约50%的提升;GD法对类8分类效果比OSS法、CGP法、LM法稍好些,但差距不大。

大豆地各类别混淆矩阵表4

综上分析,GD法分类的各类精度不稳定,对于易分的类别效果很好,而对于较难分的类别效果很差;而数值分析训练方法分类在各类别的精度都有较大提升,而且较为稳定。

4 结论与讨论

利用BP网络3种数值分析的训练方法(OSS、CGP、LM)和传统的梯度下降法(GD)对IPisov进行分类,并将分类结果进行对比分析,得出以下结论:

(1)基于数值分析的BP网络训练方法训练网络,耗时均比GD法长,但收敛效果都比GD法好很多。其中,LM法收敛效果最好但耗时很长,OSS法和CGP法收敛效果较好且耗时较短。

(2)基于数值分析的BP网络训练方法的总体分类效果均比GD法好。其中,OSS法和CGP法的总体分类精度达到70%,且标准差仅为1．1%;LM法总体分类精度稍低一些,但与GD法相比,有将近6%的提升。

(3)基于数值分析的BP网络训练方法分类的各类别精度较高,且较为稳定,其中OSS法和CGP法效果比LM法好;GD法对于易分类别效果好,而对于较难分的类别效果很差。

(4)综合以上分析,基于数值分析的BP网络训练方法的分类效果与传统梯度下降法相比,有很大提升;其中OSS法和CGP法分类效果最好。

本文对BP网络的3种数值分析训练方法和梯度下降法用于高光谱影像分类进行了对比分析,但是仅针对特定的数据进行了研究,在今后的工作中,将进一步深入研究这些方法用于其他数据的分类效果;此外,针对各算法用于分类时存在的缺陷,进行改进。

参考文献

[1] Lunetta R S,Johnson D M,Lyon J G,et al．Impacts of imagery temporal frequency on land - cover change detection monitoring[J]．REMOTE SENSING OF ENVIRONMENT, 2004,89(4):444～454．

[2] 贾坤,李强子,田亦陈等．遥感影像分类方法研究进展[J]．光谱学与光谱分析,2011,31(10):2618～2623．

[3] Mahmon N A,Ya'acob N．A review on classification of satellite image using Artificial Neural Network(ANN)[C]．Control and System Graduate Research Colloquium(ICSGRC), 2014 IEEE 5th,Shah Alam,Malaysia,2014．

[4] Liu Z K,Xiao J Y．Classification of remotely-sensed image data using artificial neural networks,International Journal of Remote Sensing,12:11,2433～2438．

[5] Heermann P D,Khazenie N．Classification of multispectral remote sensing data using a back-propagation neural network [J]．IEEE Transactions on Geoscience and Remote Sensing,1992,30(1):81～88．

[6] 骆剑承,周成虎,杨艳．人工神经网络遥感影像分类模型及其与知识集成方法研究[J]．遥感学报,2001,5(2): 122～130．

[7] Riedmiller M,Braun H．A direct adaptive method for faster backpropagation learning:The RPROP algorithm[C]．IEEE International Conference on Neural Networks,San Francisco, California,USA,1993．

[8] 都业军,周肃,斯琴其其格等．人工神经网络在遥感影像分类中的应用与对比研究[J]．测绘科学,2010,35:120 ～121．

[9] 丁硕,常晓恒,巫庆辉．数值优化改进的BP网络的模式分类对比[J]．计算机系统应用,2014(5):139～144．

[10] Watrous R L．Learning algorithms for connectionist networks:Applied gradient methods of nonlinear optimization [J]．Technical Reports (CIS),1988,597．

[11] Saini L M,Soni M K．Artificial neural network based peak load forecasting using Levenberg-Marquardt and quasi-Newton methods[J]．IEEE proceedings generation transmission and distribution,2002,149(5):578～584．

[12] Moller M F．A scaled conjugate gradient algorithm for fast supervised learning[J]．Neural Networks,1993,6(4):525 ～533．

[13] Chakrabarty A,Choudhury O,Sarkar P,et al．Hyperspectral image classification incorporating bacterial foraging - optimized spectral weighting [ J]．Artificial Intelligence Research,2012,1(1):63～83．

[14] 谈超,关佶红,周水庚．基于等角映射的多样本增量流形学习算法[J]．模式识别与人工智能,2014(2):127～133．

Comparative Analysis of Several Training Methods of BP Network on Hyperspectral Image Classification

Tan Jing1,Wang Dong2,Chen Shiyu2
(1．LTD1 Beijing Aerospace TITAN Technology Co．,Ltd,Beijing 100067,China; 2．School of Remote Sensing and Information Engineering,Wuhan University ,Wuhan 430079,China)

Abstract:This paper study on hyperspectral image classification using BP network trained by numerical analysis methods such as OSS,CGP,LM and traditional gradient descent methods,which based on Indian Pine dataset taking feature extraction using isogonism characteristic mapping methods．Comparing the classification results,it shows:the classification result using numerical analysis methods is better than GD methods．Firstly,the training time using numerical analysis methods is longer than GD,but the convergence effect is better．And then,the total accuracy improves 6% at least against GD．In the end,the mapping accuracy of each category is better and more stable than GD,which is only sensitive on easily classified category．At last,Comparing the three numerical analysis methods,the OSS method and CGP method is better than LM method．

Key words:BP Network;training;numerical analysis;hyperspectral image;classification

文章编号:1672-8262(2015)06-73-05中图分类号:TP751．1

文献标识码:A

收稿日期:∗2015—08—27

作者简介:谭靖(1970—),男,博士,高级工程师,主要从事空间技术研究与应用。王东(1981—),博士研究生,主要研究方向为遥感图像处理、定量遥感。

基金项目:北京市科技新星计划(Z131101000413086);国家国际合作专项国家耕地资源动态监管核心技术引进与合作研究项目。