植被覆盖区高精度遥感地貌场景分类数据集

2022-05-12欧阳淑冰陈伟涛李显巨董玉森王力哲

遥感学报 2022年4期

欧阳淑冰，陈伟涛，李显巨，董玉森，王力哲

中国地质大学(武汉) 计算机学院,武汉 430074

1 引言

地貌是指地表高低起伏的几何形态特征，是内外地质营力相互作用的结果。开展地貌分类研究对全球或区域气候变化研究、区域地质研究、环境保护与灾害监测、农业、林业、水资源规划、工程建设、国防建设等具有重要意义（曹伯勋，1995；Cheng 等，2011）。长期以来，地貌制图范式主要基于地形图、航拍照片的目视判读与野外调查相结合，效率低，客观性强，对地貌学专业技能要求高。特别地，在人力不可达或者缺少基础资料的地区难以开展地貌分类与制图工作。随着高分辨率新型遥感数据采集和分析方法的发展，开展地貌自动分类成为地理学研究的重要方向之一。当前，基于遥感技术开展地貌分类研究主要有以下3类方法：（1）设定语义分类值法，主要包括设定地形属性阈值、模糊分类属性隶属度等。例如，周成虎等（2009）利用地形起伏度、海拔的属性阈值自动将中国陆地地貌分成25 个基本类型。此方法目前主要适用于对基本地貌形态的分类，易忽略个别面积较小的精细地貌分类类型（顾文亚等，2020；王彦文和秦承志，2017）；此外，该类方法主观性强；（2）基于概率聚类的算法。例如面向对象分割的方法（Drăguţ和Blaschke，2006），其结合高程、剖面曲率、高程标准差、坡度等地形因子利用灵活的模糊隶属度函数将地形分为9类。该方法能比较精准快速地对基本地貌类型进行划分，但仍需确定地形因子集的选取，包括适宜分割窗口的选取，易受人为主观的影响（仲伟敬等，2018）；（3）基于监督的算法。如利用典型的数据标记样本结合机器学习算法进行分类。Bue 和Stepinski（2007）在对火星地形地貌分类研究中发现支持向量机算法优于传统地貌分类算法。虽然机器学习算法在一定程度上提升了地貌分类的自动化程度，但其属于浅层学习，只能针对当前地貌样本设计，且训练前人工特征提取较为繁琐，泛化能力较差。

近年来，随着计算能力的飞速发展，深度学习技术以其强大的特征抽取能力在遥感解译领域取得了较大的进展，以深度学习为框架的智能遥感解译成为新的研究范式（Zhang等，2016；张兵，2018）。例如，Huang等（2018）采用Deeplab 网络对数字正射影像DOM（Digital Orthophoto Map）中的热溶地貌进行自动分类。

然而，不管是机器学习还是深度学习范式，在区域尺度上进行地貌制图，均需要大量可信的地形地貌数据集。尽管前人已经将部分专家解译小比例尺的地形地貌数据数字化，形成矢量数据，如中国1∶400 万数字地貌数据集、中国西部1∶100 万数字地貌数据集、塔克拉玛干1∶150 万风沙地貌图地貌等，但是相对于遥感目标检测、土地利用与土地覆盖遥感场景分类等其他可用于深度学习的数据集来说，当前地貌遥感数据集仍是较为缺乏。部分学者尝试通过形态学上的解译或数字化由专家解译的地貌成因成果制作地形地貌数据集，并进行深度学习自动化分类。从形态学角度上，Li 等（2020）通过影像凹凸表现将黄土地貌圈画为3 类：黄土高原、黄土山丘和黄土梁。Shumack 等（2020）通过对沙丘地貌凸起部位标记沙丘脊线。此类地貌形态在遥感图像上较为直观，多利用地貌数据的遥感影像色差及形态学的区别对数据集进行标记，标记难度较小。相较于地貌形态而言，地貌成因解译多依靠地质资料、专家解译结合现场踏勘得到最终解译成果，这也增加了遥感自动解译的难度。Du 等（2019）利用前人的1∶100 万数字地形地貌分类图制作了中国地貌多成因数据集，分类为风成地貌、干旱地貌、黄土地貌、岩溶地貌、河流地貌和冰碛地貌。数据集包含高程数据及其所提取的山体阴影、坡度、曲率等地貌形态参数。单张样本图为600 像素×600 像素（30 km×30 km）。总体上，当前地貌成因遥感场景数据集极少，粒度较粗，类型不齐全，不能满足国民经济发展与国防建设对大区域尺度乃至全球尺度地貌智能制图的需求。

在上述背景下，本文面向地貌遥感自动解译对高分辨率遥感数据集的迫切需求，制作了高植被覆盖区地貌成因遥感场景数据集（GOS10m），为计算机视觉及地貌遥感智能解译研究群体提供基础数据支撑，进而提升地貌制图的信息化、智能化程度。主要思路如下：采用地质图、遥感影像、数字高程模型DEM（Digital Elevation Model）结合现场踏勘，对地貌进行人机交互目视解译，成因分为构造地貌、流水地貌和火山熔岩地貌；数据集囊括可见光遥感影像、DEM 及基于DEM 提取的7个地貌形态参数；最后采用多模态深度学习神经网络对数据集进行评价。相较于前人地貌成因工作（表1），本数据集精细尺度更高，数据集多模态属性更强，且每张数据都含空间位置信息。

表1 地貌成因场景数据集对比表Table 1 Comparison among the datasets of geomorphologic origin for scene classification

2 数据集制作区域基本情况

2.1 自然地理概况

选择吉林省、黑龙江省交界处为研究区，总面积约5000 km2（图1）。研究区地势整体上西高东低，西部属于低山丘陵地貌，地势向四周逐渐上升。东部部分地势较低，属于低山、丘陵及平原地貌（图2）。研究区内区域植被类型丰富，覆盖度高（张海凤，2019），人为扰动对地形改造作用较小。

图1 研究区影像图Fig.1 Image of the study area

图2 研究区地形地貌示意图Fig.2 A geomorphology sketch map of the study area

2.2 区域地质概况

研究区位于天山—兴蒙造山带佳木斯—兴凯地块，具体位于张广才岭—太平岭边缘隆起带，太平岭隆起与老黑山断陷结合部位。该构造带南侧为华北板块，北侧为西伯利亚板块，其形成与古亚洲洋向北俯冲西伯利亚板块有关，古生代时期形成了一套海底火山—沉积岩，其后经历了漫长的地质演化过程，到早三叠世佳木斯地块与华北板块最终碰撞对接成功，形成了统一的大陆。晚三叠世，西太平洋域大洋板块沿西北方向俯冲亚洲板块。在中侏罗世到早白垩世期间，燕山期构造运动继承印支晚期，东西、北西、北东和南北向断裂发生活化，至此本地区大规模的构造运动基本结束，区内构造格架基本形成，并控制着构造地貌的空间形态与分布规律，期内形成的地质体是构造地貌的主要物质成分，同时奠定了新生代地貌演化的物质和形态基础。新生代以来，俯冲碰撞构造运动较弱，早期主要以火山喷发作用为主，形成的火山熔岩叠加于构造地貌之上，表现为熔岩台地、熔岩丘陵为主的地貌特征；晚期主要以河流侵蚀作用为主，叠加于两种地貌之上，表现为河谷、残坡积为主河流地貌特征。

研究区出露的地层有太古界、古生界、中生界和新生界。太古界分布范围较小，仅位于春化镇东南方向1 km处，主要岩性为片麻岩、变粒岩。古生界以二叠系在区域上较为发育。岩性主要粗碎屑岩、板岩、砂岩、粉砂岩夹灰岩、板岩夹灰岩等。中生界以三叠系为主，区域内发育面积较小，岩性主要为安山岩、英安岩、英安质凝灰角砾岩。新生界新近系由土门子组（N1t）、船底山组（N2ch）和草帽组（N2c）组成。土门子组和船底山组分布在研究区的中部及北部大部分地区，主要由橄榄、辉石玄武岩和气孔状玄武岩组成。草帽组分布于玄武岩之上，岩性主要为灰色、灰黄色砂岩、砾岩、粘土夹煤层；第四系主要由阶地和河漫滩组成、主要岩性为砂土、砂、砾石。

区域内岩浆侵入较为强烈，分布面积较广。主要以中深成中酸性花岗岩类为主，其岩性主要为花岗岩、石英闪长岩、闪长岩、花岗闪长岩，其次为闪长岩、辉石闪长岩等，主要呈岩基、岩株状产出，零星呈脉岩产出。二叠纪、三叠纪为花岗质岩浆活动的主要时期。

3 数据集地貌成因标签解译流程

3.1 地貌成因分类标准及遥感解译

地貌形成是内外营力共同作用的结果，主营力作用决定了地貌的成因类型。但是，在漫长的地质演化过程中会发生叠加改造地质作用，原有地貌的主营力作用被替代，导致地貌主成因发生改变，此种情况在研究区内广泛发育。但一般来说，成因是本质，而形态是成因的反应。对区域地貌进行分类需要确定地形要素形态（陈志明，1988）。此外，物质组成分异也是地貌分类的指标之一，物质成分的不同也会导致地貌形态上的不同（周成虎等，2009）。综上所述，本研究区成因类型主要按照物质形态的指标进行划分。

对区域进行地貌成因解译，并将解译结果形成场景数据集的真值标签。过程如下：（1）资料收集。收集区域内1∶25 万、1∶20 万基础地质图、高程DEM 数据、中国1∶100 万数字地貌图（周成虎等，2009），以及哨兵2 号多光谱影像。（2）确定分类标准。在资料整理分析的基础上，进行野外基础地质踏勘，最终确定本研究区地形地貌物质形态分类标准（表2），将地貌分为构造地貌、火山熔岩地貌、流水地貌3类。（3）人机交互目视遥感解译。根据收集的资料结合哨兵2号遥感影像色调（色彩）、地形地貌、水系、影纹图案及其组合特征，建立基础地质与遥感影像间的相互对应关系，解译出1∶5 万地形地貌物质形态分类图。（4）实地踏勘验证。通过剖面测量、照片采集、标本采集、构造分析、岩矿鉴定等手段对解译成果进行修正，得到最终解译成果（图3）。（5）在分块裁剪好场景图后，利用某一单张场景范围内占比最大的解译成因类型作为这张场景数据的标签。

图3 基于遥感解译的地貌成因真值标签图Fig.3 The label distribution of geomorphic genesis types based on remote sensing interpretation data

表2 地貌成因解译分类标准表Table 2 Classification criteria table for the interpretation of geomorphic genesis types

3.2 地貌实地调查

地貌野外调查是研究地貌的基本方法，是验证地貌类型划分和遥感影像解译成果的基本手段。本次野外验证路线约长110 km（图4），其中验证点共49 个，共取样58 个，拍摄照片148 张，穿越了主要的3 种地貌类型。地貌类型解译正确的有46个，占比93.88%，错误3个，占比6.12%，主要是部分零散的第四纪沉积物解译成构造或火山熔岩地貌。

图4 野外调查路线图Fig.4 The roadmap of field survey

3.3.1 构造地貌

通过地质资料及野外调查，对区域构造地貌进行综合分析。区内造貌的构造运动主要发生在新生代之前，集中于燕山晚期，以北北东向褶皱作用为主，其次为北东向断裂作用。具体来看，北北东向褶皱主要分布在工作区的南部和东北部，翼间角中等，岩性主要为花岗岩，以脆—韧性变形为主，受后期火山和流水作用，两翼保留往往不够完整（图5（a）），形成范围较大的褶皱侵蚀山；北东向断裂（图5（b））整体与褶皱分布存在共生关系，以韧—脆性变形为主，但是其成貌作用相对有限。整体来看，构造地貌时空分布存在明显的规律：空间主要受北北东向褶皱控制，时间上主要形成于新生代之前。

3.3.2 火山熔岩地貌

区内熔岩地貌主要集中于研究区的中部及北部。地貌内岩性以火山熔岩为主，形成于新生代，由气孔状玄武岩、气孔状安山岩等组成，多呈层状（图5（c））、丘状分布，局部风化明显，出现岩体表层破碎现象。熔岩内气孔构造发育广泛，由于气孔状构造（图5（d））是原始岩浆喷溢至地表冷凝时的挥发分逸散后留下的空洞形成的，主要分布于熔岩流的顶部，代表了原始熔岩地貌最表层的信息，所以该构造现象能够完整保存下来证明了新生代火山岩形成以后该区地壳相对比较稳定，未经受大规模的隆升剥蚀作用。

图5 地貌实地调查现场照片Fig.5 The photos of geomorphological field survey

3.3.3 流水地貌

野外调查结合区域河流分布图显示，区内流水地貌（图5（e）—（f））广泛发育，主要分布于研究区的南部台地平原地带及北部山地丘陵地带，流走向以南北向和东西向为主，以树枝状水系为主，河流以珲春河为主，属图们江水系，是图们江下游珲春市境内的主要支流。

4 数据集制作方法

GOS10m 数据集制作主要分为3 个阶段。首先对遥感影像数据源预处理后裁剪得到遥感场景数据集。其次，对获取的DEM 进行成分提取和预处理操作。最后，以遥感场景数据集为空间基准，对预处理后的DEM 及其提取成分、解译结果矢量图进行空间上裁剪，得到DEM 及其成分数据集及解译标签。

4.1 遥感数据源及预处理

在欧洲空间局网站上选择2020-10-26 两景云量<1%的哨兵2 号（表3）的L1C 级可见光数据作为遥感数据源。L1C 级数据是经过几何精校正的正射影像，其参考椭球为WGS84，空间分辨率为10 m。利用插件Sen2cor，生产出经过辐射定标和大气校正的大气底层反射率数据。由于两景影像之间色差较小，所以直接对两景影像进行镶嵌处理，得到研究区遥感镶嵌影像。在此基础上，对选取影像进行场景数据集制作，由于不同成因地貌类型在空间上相互交错，为了最大程度完整体现出地貌成因分类，设定单张场景尺寸为64×64像素（640 m×640 m）。

表3 哨兵2号卫星主要性能参数表Table 3 The main parameters of Sentinel-2 satellite

4.2 DEM数据获取及成分提取

DEM 由复杂的高程值模式组成，描述了地表形态特征，在遥感地形地貌等地表分类中有广泛的应用（Jasiewicz 和Stepinski，2013）。本文使用SRTM 1 Arc-Second Global DEM 数据（下载网址：https：//earthexplorer.usgs.gov［2021-06-10］），该数据由美国奋进号航天飞机于2000年左右基于雷达干涉影像生成，参考椭球为WGS84，高程基准是基于EGM96，空间分辨率约30 m 的格网高程数据。对下载的研究区范围DEM 数据进行预处理，并提取山体晕渲图、坡度、DEM 局部平均中值、标准偏差、坡向—向北方向偏移量、坡向—向东方向偏移量和相对偏离平均值7 个地貌形态参数。这些参数的提取方法及对地貌遥感解译的支撑作用见表4。参数提取后利用立方卷积方法在Arcgis 10.6软件中将各地貌形态参数重采样到10 m。重采样后，投影到相同坐标系后，对重采样后的各地貌形态参数图进行裁剪，裁剪单张空间范围以哨兵2号影像数据集为标准。

表4 地形参数获取方法及及其对地貌遥感解译的支撑作用描述Table 4 Methods of obtaining geomorphological variables and their role in geomorphic remote sensing interpretation

4.3 数据集标签生成处理

各标签范围以哨兵2号影像数据集为标准进行裁剪，并计算裁剪后单张场景图片中3种地貌成因类型面积占比，最后将面积占比最大的地貌成因类型定为其地貌类型标签，如图6所示。

图6 场景尺度下的地貌成因解译标签结果图Fig.6 The label distribution of geomorphic genesis types based on the scale of the scene

5 数据集描述

地貌GOS10m数据集为场景数据集，分为构造地貌成因、火山熔岩地貌成因和流水地貌成因3 类，共有9 个主要成分，分别为哨兵2 号遥感影像、DEM，以及基于DEM 提取的山体晕渲图、坡度、DEM局部平均中值、标准偏差、坡向—向北方向偏移量、坡向—向东方向偏移量和相对偏离平均值7个地貌形态参数，每个成分共有11896张样本，所有成分分辨率为10 m。其中流水地貌为897 张、火山熔岩地貌为4048 张、构造地貌为6951 张。单个样本为64 像素×64 像素（640 m×640 m），所有样本之间无重叠区域。

数据集内容（图7）主要包括（1）研究区范围哨兵2 号遥感多光谱影像图及DEM 高程影像图，存储为tiff 格式；（2）11896 张×9 个数据集主要成分样本图（图8），存储为tiff 格式；（3）样本解译标签及标签介绍，存储为txt 格式；压缩后数据量约为1.62 GB。

图7 GOS10m数据集内容描述图Fig.7 Introduction of GOS10m dataset

图8 GOS10m数据集各成分展示图Fig.8 Example of geomorphological variables data of different landform types in the GOS10m dataset

6 数据分类网络结构及结果

利用多模态深度学习神经网络对制作的数据进行训练。本文在Du 等（2019）提出的“多通道特征提取网络—多通道特征融合网络—地貌识别网络”的地貌分类网络结构的基础上进行修改，本文具体地貌分类算法框架如图9所示。

图9 地貌分类算法框架图（改自Du 等，2019）Fig.9 The framework of geomorphological classification（Revised from Du et al.，2019）

其中多通道特征提取网络修改如下：（1）网络结构Conv_block 分别更换成经典网络Vgg16、Resnet18、Densenet121 和Inceptionv3，由于不同于经典网络的原始输入，本文输入的数据分辨率较小，此外为了保持几个网络结构的对比性，固定输出的特征图尺寸为8像素×8像素，所以要对每个经典网络做一定的修改。具体修改如下：1）Vgg16（Simonyan和Zisserman，2015）：仅保留前面7个Con3卷积层和3个最大池化层，去掉后6 个Con3-512 卷积层、2 个最大池化层、3个全连接层和softmax层。2）Resnet18（He 等，2016）：为了最大程度保留Resnet18 网络结构，同时考虑大卷积核替换成3×3小卷积核的优势，即：大卷积核被多个3×3小卷积核进行叠加替代后，感受野的大小保持不变，所在卷积层表现出更多的非线性（更多的非线性函数层），且网络参数量更小。故将第一层（Conv1）7×7卷积核大小改为3×3，填充参数、步长均为1。去掉第二层开始Conv2_x 的最大池化层、最后一层的平均池化层、全连接层和softmax 层。3）Densenet121（Huang 等，2017）：同Resnet18 类似，将第一层Convolution 层，卷积核大小改为3×3，填充参数、步长均为1。去掉第二层Pooling 的最大池化层、最后一层的平均池化层、全连接层和softmax 层。4）Inceptionv3 （Szegedy 等，2016）：直接采用Inceptionv3 中小分辨率输入的79 像素×79 像素网络结构，故开始要将输入图像重采样到79 像素×79像素。

（2）将特征提取通道从3 个变成4 个，多出的一个通道为山体晕渲图、DEM 及RGB 共3 种数据按维数1 拼接而成（后简称多模态联合通道）；通道个数对识别精度的影响将讨论于7.1节。

（3）去掉所有经典网络的BatchNorm2d层（Ioffe和Szegedy，2015）（后简称Bn 层）。Bn 层对识别精度的影响将讨论于7.2节。

在多通道特征融合网络上，去掉Du等（2019）提出的残差单元。残差单元主要用于深层网络，保证网络在深层位置的效果，不会出现退化现象（He等，2016），但是本文特征融合网络深度仅3个卷积层，深度较浅，本身网络退化现象的可能性小；此外，本文粒度较小且图像有可能存在一定的噪声，在浅层网络的情况下提取的图像特征再加上残差单元可能会导致提取的特征不明显，或者带上原来的噪声的影响，导致地貌网络分类效果不佳。具体网络设计见图9和表5。

表5 多通道特征融合网络具体参数表Table 5 The detailed parameter configuration of multi-channel geomorphological feature fusion network

具体训练过程如下：首先，输入山体晕渲图、DEM、多光谱影像RGB 及三者融合样本（多模态联合通道），利用基于相同网络结构的四通道特征提取网络生成DEM 的物理特征、山体阴影、影像数据的视觉特征及融合互补语义特征。其次，利用特征融合网络融合上述特征，构建联合表示。最后，利用平均池化层、全连接层及Softmax 分类器输出每个类的得分。训练时利用交叉熵损失函数（CrossEntropy）来衡量模型是否学习到类间的分布和真实分布的差异。在测试和验证数据集时，利用argmax 函数来得到预测的结果。本次数据训练在centos7 系统下，采用Pytorch 来实现地貌分类算法。其中GOS10m 数据集分为3 部分，训练集、验证集和测试集。与Du 等（2019）验证数据时最少采用45%训练验证数据相比，本文采用少量样本验证方式，即是每个类随机选择15%的样本作为训练集，5%的作为验证集，其余80%用于测试。由于GOS10m 数据集存在类间不平衡的问题，采用权重采样的方式，同时采用3种特征成分同时随机旋转（0°，90°，180°，270°）、水平翻转、垂直翻转、对称翻转（45°对称和-45°对称）的数据增强策略，并训练迭代1000 次。实验初始，对图像进行通道均值和标准差归一化处理，初始学习率设置为0.0001，每间隔30 次，学习率为原学习率的0.1 倍，每一批训练样本数量为20。随机取样3 次，不同网络的3 次平均分类精度如表6。此外，采用最高验证精度的模型为最优模型，计算最终各模型的平均测试精度、平均测试F1-Score。结果表明，Vgg16 网络模型的平均测试精度及Resnet18网络模型的F1-Score最高分别为82.63%、79.76%。采用单次最高测试精度（83.00%）及最高测试F1-Score（80.32%）的Vgg16 模型生成分类结果和混淆矩阵如图10 和图11 所示。从地貌成因解译测试结果图来看，当一张样本场景图中包含多个地貌类别时，往往会出现错分，这可能是因为这些样本中不同种类的地貌相互混杂，地貌特征不明显。事实上，对这些复杂的地貌样本，地貌专家也不容易区分地貌类别。此外，结合混淆矩阵和分类结果图上来看，首先，错分最多的是构造地貌错分成火山熔岩地貌，可能是因为构造运动是区域运动，并不是所有在640 m×640 m 范围内的地块都受到强烈的构造运动改造，并在图像上表达出足够的构造纹理让模型识别。其次，将火山熔岩地貌错分成构造地貌，其主要为熔岩丘陵地貌中的堰塞湖地貌错分为构造地貌，可能是熔岩堰塞湖后期流水侵蚀和堆积作用较熔岩台地强，形成的地貌的图像纹理与构造地貌在640 m×640 m范围内具有一定相似性，较难区分。

图10 地貌成因解译测试结果图Fig.10 The test result map of landform classification

图11 混淆矩阵图Fig.11 The confusion matrix figure

表6 分类精度结果表Table 6 The classification accuracies

7 讨论

7.1 四通道、三通道与单通道输入的实验对比

为了验证四通道输入对识别地貌数据集的优势性，在Conv_block为Vgg16的基础上，对比三通道、单通道（少量参数）和单通道（等量参数）输入。

（1）三通道输入的网络为：将四通道输入去掉多模态联合通道后，多通道特征融合网络中特征合并后的通道数减小到原来的3/4，其余网络参数不变。

（2）单通道（少量参数）的网络：多通道特征提取网络为多模态联合通道，输入特征融合网络的通道数减小到原来的1/4，其余网络参数不变。

（3）此外考虑到单通道输入参数量较四通道少很多，为了对比的公平性，加宽卷积通道数。即单通道（等量参数）网络设计为：将Conv_block中所有卷积通道数×4 倍，故特征合并通道的数量与原四通道相同。

对上述3 次取样各训练一次，对比结果如表7所示。结果表明四通道与三通道相比，平均验证精、平均测试精度、平均测试F1-Score 分别上升0.06%、0.71%、0.75%。与单通道（少量参数）相比分别上升0.62%、1.51%、1.57%。与单通道（等量参数）相比分别上升1.75%、3.43%、3.15%。区别于单通道输入（前融合）和三通道输入（后融合），四通道输入（混合融合）虽然加大了训练复杂度，但能更好地关注特征层面的模态相关性和数据的异步性特点（刘建伟等，2020）。

表7 基于输入不同数量通道的分类精度结果表Table 7 The classification accuracies based on a different number of incoming channels

7.2 多通道特征提取网络中的Bn层

（1）为了体现Bn 层对多通道特征提取网络的影响。在Conv_block 补上Resnet18、Densenet121、Inceptionv3 原网络设计的Bn 层，与去掉Bn 层的网络做对比。对上述3次取样中取第一次，且训练一次，以四通道输入的网络为基准进行比对。结果如表8，从表8中可观察出，多通道特征提取网络中带Bn 层的分类精度明显低于不带Bn 层的精度，平均测试精度、平均测试F1-Score 相差最小的（Resnet18）也分别低出了19.77%、30.47%。

（2）在上述实验中，表明了多通道特征提取网络的Bn 层会对网络精度造成一定不良影响。为了判断是否是因为多个通道输入原因，补充一组单通道特征提取网络带Bn 层的试验，特征提取网络输入为带Bn 层的多模态联合通道，输入特征融合网络的通道数减小到原来的1/4，其余网络参数不变。训练时对上述3次取样中取第一次，且各训练一次。

实验结果可见表8，可见带有Bn 层的单通道输入网络的测试集精度结果虽然低于不带有Bn 层的四通道输入网络结果，但均较为接近，均大大高于带有Bn 层的四通道输入网络精度结果。上述结果可能原因是：不同于自然图像，地貌遥感数据集各不同输入通道间，在空间上是存在一一对应关系，而含有Bn 层的四通道输入网络在各自不同通道中不断对分布不同的输入数据进行计算后又通过Bn 层对数据的不断缩放，造成在特征融合时候空间上难以对齐各模态的数据，最终造成识别精度的降低；相比较单通道输入，对不同数据的统一计算，就算存在Bn 层的不断缩放，也可以在空间上对齐各部分的数据。

表8 基于Bn层消融实验的分类精度结果表Table 8 The classification accuracies based on ablation experiment of Bn layer

7.3 不同季节的遥感影像对识别精度的影响

选择2021-01-24、2021-04-04各两景云量<1%的哨兵2号（S2）的L1C 级可见光数据作为遥感数据源，采用与解译影像同样的图像预处理方式（图12），形成新的影像数据集。其中01-24 遥感图像中可以明显看出受到大雪天气的影响，而04-04 也可以看出同原解译用影像色差较大。在Conv_block 为Vgg16 的基础上，训练集、验证集和测试集取样，同上述3 次取样一致并各训练一次，所有实验参数不变。对两个数据集进行训练，结果如表9所示。04-04 的结果甚至比同原解译用影像（10-26）的验证测试精度在平均验证精、平均测试精度、平均测试F1-Score 结果上分别高出2.36%、0.19%、0.16%。相比较由01-24 的大雪天气所制作的数据集测试得到的平均测试精度、F1-Score 比10-26 的分别低0.6%、2.05%，表明影像色差对数据集影响较小，但大雪覆盖会改变影像上的部分地貌纹理，对网络识别地貌产生一定影响。两个季节的数据同样公开在“different_season”文件夹中。

图12 不同季节的遥感影像图Fig.12 Images from different seasons

表9 基于不同季节的影像分类精度结果表Table 9 The classification accuracies based on images of different seasons

7.4 多光谱遥感影像对识别精度的影响

为了体现多光谱遥感影像在地貌识别中的重要性，设计两个对比网络，以四通道输入的网络为基准进行比对。

（1）不含RGB 三通道输入网络：多通道特征提取网络均去除遥感影像的RGB 样本输入，仅保留山体晕渲图、DEM、及二者的联合通道共3个输入通道。多通道特征融合网络中的特征合并后的通道数减小到原来的3/4，其余网络参数不变。

（2）RGB 单通道输入网络：输入通道仅为多光谱遥感影像的RGB 通道，输入特征融合网络的通道数减小到原来的1/4，其余网络参数不变。

在Conv_block 为Vgg16 的基础上，同上述3 次取样一致并各训练一次，所有实验参数不变，对比四通道结果如表10 所示。不含RGB 三通道输入的网络结果比含RGB 四通道输入的网络结果在平均测试精度和F1-Score 分别低3.77%、4.72%。但单仅有RGB 单通道输入的时候，平均测试精度和F1-Score 也仅比不含RGB 三通道输入网络结果分别低1.98%、0.48%。结果表明多光谱遥感影像RGB要素对提高地貌识别精度起到一定作用。

表10 基于多光谱遥感影像消融实验的分类精度结果表Table 10 The classification accuracies based on ablation experiment of remote sensing image

8 结论

地貌数据集是实现地貌自动分类和加深对地貌形态学认识的重要数据之一。然而，目前缺乏高精度地貌成因类数据集，阻碍了地貌遥感自动解译领域的向前发展。本文基于哨兵2号可见光影像和DEM，结合野外实地调研，构建了3大类地貌成因遥感场景数据集（GOS10m）。该数据集共9个成分，分别为哨兵2 号可见光影像，DEM 影像，以及基于DEM提取的7个地形参数。每种成分中各样本大小为64 像素×64 像素，空间分辨率为10 m，勾绘标注有构造地貌成因、火山熔岩地貌成因和流水地貌等成因地貌3 类。基于哨兵2 号可见光影像、DEM 影像和山体晕渲图，利用多模态深度学习神经网络对该数据集进行了分类验证，测试分类精度可达82.63%。结果表明，相较于前人工作，构建的地貌成因场景分类数据集精度较高，成分更多，验证了其能够在区域尺度上自动分类不同成因地貌，能够为地貌成因精细自动分类提供数据支撑。

本次研究虽然仅用20%的样本作为训练和验证样本，所得出的测试样本精度就可达到较高的结果。然而，还可以采取一些改进策略来进一步提升精度。例如，可以尝试采用更高精度的DEM数据，以及其他DEM 特征成分作为输入数据，来验证其他高精度DEM 数据及特征成分是否能更好地区分不同成因地貌特征；或可尝试更多通道输入，来拓宽输入数据信息覆盖度，提升信息互补程度；或可以尝试加大场景分割尺度，对比是否更大的场景范围下，不同成因的地貌特征区别度更高。特别地，本次研究没有对分类结果进行后处理，如果采用邻域合并等策略对分类结果形成的孤立的场景进行合并的话，将能进一步提升基于场景分类的遥感地貌制图的应用能力。后续我们将继续针对地貌形态分类制作多类型高分辨率数据集，并开展质量评价和区域分类研究。

志谢感谢吴朝明在数据集制作过程中的相关工作。