APP下载

基于信息熵分层抽样的冬小麦区域种植面积估算

2018-04-08李文君张锦水北京师范大学北京00875河南省农业科学院河南郑州45000

河南农业科学 2018年2期
关键词:格网信息量信息熵

王 铮,李文君,张锦水*(.北京师范大学,北京 00875; .河南省农业科学院,河南 郑州 45000)

准确、及时获取农作物面积信息,对政府及农业管理部门加强作物生产管理,制订合理、有效的农业政策,提高农产品竞争力,实现粮食生产和贸易安全等具有十分重要的意义[1-5]。遥感技术在此方面具有高效、及时、客观等优势,已在世界及我国的作物种植统计、监测工作中得到了广泛的应用[6-11]。但直接使用分类结果的像元进行面积统计,与实际作物面积存在偏差[12]。目前通常是采用遥感结合抽样的方法对作物种植面积进行估算,以满足有关部门的需要[13-16]。其方法是利用遥感识别、分类结果构建更加现实和完整的抽样框,以达到对作物面积进行高效、及时地抽样估算[17]。目前,一些国家实施了一系列基于遥感技术的农作物种植面积和产量调查。如:美国的LACIE计划(Large Area Crop Inventory Experiment)、CDL计划(Cropland Data Layer)、欧盟MARS计划(Monitoring Agriculture with Remote Sensing)和LUCAS计划(Land Use/Cover Area Statistics)[18]。分层抽样是当前运行的遥感抽样面积调查计划中常用的方法,而在分层抽样中,选取哪种辅助变量作为分层标志是非常重要的。所以,设计高效且易于获取的指标作为分层标志对于农作物区域面积抽样估算尤为重要。国外一些研究机构和学者通常采用面积规模指标进行分层抽样的研究,如:Pradhan[19]采用航拍照片的抽样单元内作物面积构建分层指标,基于遥感和面积抽样方法,对伊朗哈马丹省的作物面积进行抽样调查;陈仲新等[20]以县内冬小麦面积作为分层标志,推算中国冬小麦种植面积变化;张锦水等[21]以耕地地块内作物的遥感识别面积作为分层标志,估算北京市冬小麦种植面积;谭建光等[22]对混合像元、同期作物的影响进行了综合考虑,基于遥感分类误差的影响因素定义结构规模指标,并验证了该指标的有效性。以上遥感调查中的分层标志实质上均和图像识别的作物面积紧密相关,但面积规模是纯粹的数量统计结果,并不能反映空间分布结构、分类误差及分类的不确定性,一定程度上影响了其作为分层标志进行抽样推算的精度。

根据信息熵的定义及其在分类评价中的应用,该指标能够反映像元的分类不确定性,也在一定程度上反映地类的空间分布情况和分类误差。而根据信息熵设计度量抽样单元内像元集合不确定性指标作为分层指标还较为鲜见。本研究基于信息熵概念设计信息熵变化量(ΔH)(以下简称信息熵指标)和相对自信息量(FI)(以下简称信息量指标),以冬小麦为研究对象,与传统面积规模指标进行对比分析,探讨信息熵和信息量作为分层标志的可行性,旨在为今后开展农作物种植面积遥感抽样调查工作提供试验支持。

1 材料和方法

1.1 研究区概况

选取河南省中牟和汤阴两县作为研究区域。其中,中牟县近年来坚持发展特色农业和都市型现代农业,蔬菜、大蒜、西瓜、水稻、花生等种植比例均较大,种植结构复杂、地块破碎,尤其大蒜产量常年居全国前列,2016年中牟冬小麦种植面积为837.2 hm2,同期大蒜种植面积为912.9 hm2,特别在4月份,冬小麦进入挺身、拔节期,此时蒜苗与冬小麦颜色和姿态均极其相似,这给遥感分类信息提取造成很大困难,本次试验选用的即为此时期的遥感影像。汤阴县以平原为主,是传统的冬小麦生产县,地块规整、种植结构单一,遥感识别相对难度较低。选取这2个县作为研究区,对分析本研究拟定指标的适用条件具有很好的代表性。

1.2 试验数据来源

1.2.1数据准备与预处理试验分别采用中牟2016年4月21日和汤阴2016年4月30日GF-1号(WFV相机,像元分辨率16 m)遥感影像为试验目标影像;采用同期中牟、汤阴GF-1号(P/MS相机,2 m全色,8 m多光谱)融合后的2 m多光谱遥感影像为试验验证模拟真值影像。特别指出的是,此时期冬小麦和蒜苗的光谱特征极其相似,属于同时期易混作物。分别对2个县影像进行正射校正、辐射定标、大气校正等,以融合后的2 m多光谱影像为基准,配准误差控制在1个16 m像元以内。并利用2个县耕地地块矢量数据对原始影像进行裁剪,得到两县耕地地块影像数据。

1.2.2遥感影像分类结果对2 m多光谱遥感影像进行目视解译,分别选取2个县的训练样本,并以该套样本,采用最大似然分类器分别对2个县的耕地地块内影像进行分类,分别得到2个县的耕地地块内冬小麦的分类结果。提取16 m遥感影像最大似然分类输出的规则文件的冬小麦规则值,用以计算像元的冬小麦后验概率,并基于冬小麦的后验概率计算信息熵、信息量指标。表1为以2 m分辨率遥感图像分类结果为准真值,以16 m分辨率影像为目标构建的冬小麦分类结果的混淆矩阵,2个县16 m分辨率遥感影像的分类精度分别达到82.24%和88.27%。从图1和图2可以看出,中牟由于地面信息较复杂,其冬小麦分类结果以及冬小麦最大似然分类的后验概率均与地块矢量信息差别较大,而汤阴由于地面信息相对简单,三者之间差别较小。

1.3 信息熵以及信息量指标设计

遥感分类是基于遥感影像中像元的不同波段的光谱特征、空间结构等信息,按照一定规则或算法划为相应的类别。但遥感分类具有不确定性,这种不确定性一是来自于识别目标本身存在的不确定性,具体表现为同物异普现象和同普异物现象;二是遥感影像分类过程中引起的模糊不确定性,具体表现为混合像元现象[23]。

表1 冬小麦分类结果混淆矩阵验证

(a)耕地地块矢量数据;(b)冬小麦分类结果;(c)冬小麦最大似然分类后验概率图1 中牟耕地地块、分类结果、最大似然分类后验概率示意图

(a)耕地地块矢量数据;(b)冬小麦分类结果;(c)冬小麦最大似然分类后验概率图2 汤阴耕地地块、分类结果、最大似然分类后验概率示意图

根据遥感分类的原理,以冬小麦为例,遥感影像中每个像元在进行分类后都被赋予一个冬小麦的入样概率p,而同时此像元的非冬小麦概率记为(1-p),将这2个概率看作事件的发生概率,则该像元的信息熵值为:

h(x)=-plog(p)-(1-p)log(1-p)

(1)

其中h代表信息熵值,p为该像元的冬小麦入样概率,log取以2为底(下同)。

同时,信息熵概念还定义了对于单一随机事件的自信息量,也即是当某一随机变量被确定为某种状态时自身需要消除的不确定性。仍以冬小麦为列,当某一冬小麦入样概率为p的像元被确定为冬小麦时,则该像元所需要消除的自信息量为:

li(x)=-log(p)

(2)

从以上两公式及定义可以看出,当某一像元的冬小麦入样概率越高,则相对应的信息熵值和自信息量值越趋近于0。因而本研究为便于度量以及和传统面积规模进行对比分析,引入信息熵变化量(以下简称信息熵)和相对自信息量(以下简称信息量)的概念。将某像元的冬小麦信息熵定义为:

Δh(x)=1+pilog(pi)+(1-pi)log(1-pi)

(3)

此时信息熵可以理解为某像元被分类为冬小麦的确定程度;同理,本研究定义某像元的冬小麦信息量为:

fi(x)=-log(1-pi)

(4)

此时像元的信息量可以理解为某像元自身所携带的冬小麦信息量。

本研究所使用的冬小麦入样概率pi是基于ENVI软件最大似然分类算法得到的冬小麦后验概率。根据ENVI软件最大似然分类的概率判别函数:

(5)

其中,gi(x)为第i类像元规则值,pi是像元归属为该类的概率,Si为类别i的协方差矩阵,Mi为类别i的均值向量。

(6)

其中,e为自然常数,gi(x)为像元对应第i类规则文件取值。

本研究定义的抽样单元为一定尺寸的规则正方形网格,网格内冬小麦像元集合的信息熵和信息量分别为:

(7)

(8)

其中,pi为最大似然分类识别为冬小麦的像元后验概率,为避免计算信息熵和冬小麦信息量出现的极值情况,本研究将冬小麦像元的后验概率减去0.000 1用以计算相关指标。

1.4 技术流程与方法

本研究的技术流程见图3。

1.4.1空间抽样方案设计根据以往研究,结合实际调查经验及影像分辨率因素,为验证在不同尺寸抽样单元下信息熵、信息量和面积规模指标的适用性,分别对中牟、汤阴两县选择80 m×80 m、112 m×112 m、160 m×160 m、192 m×192 m、240 m×240 m、320 m×320 m、400 m×400 m大小的规则格网建立抽样框。基于冬小麦识别分类结果,以格网内存在冬小麦像元为条件,去除不满足入框条件的格网。根据一般抽样设计方案的设置,将抽样总体分为6层,分层界限采用累计频率等值平方根的方法确定,为避免单次抽样结果的偶然性和随机性,分别在不同尺寸抽样框内以1%抽样比和固定300个总体样本重复1 000次试验。表2为基于不同尺寸抽样格网建立的抽样框内有效抽样单元个数。

图3 技术流程

表2 不同尺寸抽样框内有效抽样单元个数

抽选各层样本数采用规模成比例的方式进行样本量分配。在2种样本量的前提下,分析冬小麦信息熵和信息量在不同尺寸抽样单元下,对抽样估算结果的影响。

1.4.2面积推算与误差估计采用联合比估计的方式对研究区冬小麦面积进行推算,推断公式为:

(9)

选取外推总体相对误差δ和变异系数CV,用以定量评价信息熵、信息量以及面积规模指标作为分层标志,进行抽样反推的精度和重复1 000次试验所得反推结果的离散程度。

(10)

(11)

2 结果与分析

2.1 冬小麦种植面积推断及精度评价

按照抽样方案进行试验,得到不同尺寸抽样单元限定下的研究区冬小麦面积的抽样外推结果以及相应的相对误差、总体估计量变异系数CV等参数。结果见图4。

图4 3种指标推断结果相对误差和变异系数

采用固定1%抽样比,中牟在不同尺寸抽样单元下分别以信息熵、信息量和面积规模指标进行分层抽样反推总体的相对误差分别控制在1.56%~3.94%、1.58%~4.06%和2.30%~3.60%;相同情况下汤阴以上述3个指标的反推总体相对误差分别控制在0.92%~5.50%、1.17%~3.80%和2.52%~7.92%。

采用固定300个样本进行抽样反推,中牟上述3个指标相对误差分别在1.88%~2.47%、1.78%~2.68%和1.69%~3.70%;汤阴则分别控制在1.01%~5.46%、0.95%~3.76%和2.63%~7.86%。

汤阴采用信息熵和信息量作为分层标志,反推总体精度在不同尺寸抽样单元以及不同抽样比下均优于面积规模指标。特别是在汤阴80 m×80 m格网下,以信息量进行分层,采用1%抽样比进行抽样反推总体的精度比面积规模提高了5.53%;而在中牟采用信息熵和信息量指标在192 m×192 m格网以下,反推总体的精度优于面积规模指标。

总体变异系数CV值用于评价总体估算结果的稳定性,一般在5%以内则认为较稳定。在中牟试验中,无论以固定1%或固定300个样本进行抽样,各尺寸抽样单元的信息熵和信息量指标CV值与面积规模指标基本持平甚至略低。汤阴上述3个指标CV值差别不大,控制在0.5%以内,均保持同趋势的较高稳定性。

通过综合考虑上述3个指标的相对误差和CV值,信息熵和信息量指标用于分层抽样较传统面积规模指标具有一定的优势,能够在一定尺寸抽样单元下提高抽样反推估算的精度。

2.2 分层有效性分析

图5是以汤阴160 m×160 m格网为例,经过分层抽样后得到的在不同分层指标下的分层效果。选取存在混合像元以及分类不确定性区域对信息熵、信息量和面积规模指标的分层效果以及抽样单元内的像元级的微观表现进行比较分析。冬小麦真值分布(b)中黑色区域为冬小麦,与原始影像(a)对比,(a)中非冬小麦区域在原始影像(b)中表现为一定高亮度区域,而在冬小麦和非冬小麦区域之间存在一定的亮度中间区域,即表现为“混合像元”,存在分类的不确定性。遥感识别冬小麦分类结果(e)未能有效表达这种分类的不确定性。而信息熵(c)和信息量(d)图像效果均在一定程度上反映了“混合像元”的情况,从微观上验证了本研究提出的指标对分类不确定性的表达。从分层实际效果也可以看到,采用不同分层标志得到了不同的分层效果。

(a)汤阴高分原始影像;(b)汤阴冬小麦真值分布;(c)汤阴冬小麦信息熵值;(d)汤阴冬小麦信息量值;(e)汤阴冬小麦中分影像识别结果图5 汤阴分层效果及分类不确定性区域示意图

2.3 相关性分析

为分析利用信息熵、信息量及面积规模分层抽样的有效性,试验从相关性角度对指标进行分析。根据戴伦纽斯的观点,判断辅助变量作为分层标志的有效性在于辅助变量是否与目标变量存在较好的相关关系,其中当相关系数高于70%时为高度线性相关[24]。分别计算不同尺寸格网内的信息熵、信息量以及面积规模与格网内冬小麦分布真值的相关系数,结果见表3。

表3 3种指标与目标真值相关系数  %

由表3可知,无论中牟和汤阴,以上3个指标均与目标真值高度相关,说明无论使用哪个指标作为分层标志,均为有效的。分区域看,中牟信息熵和信息量指标相关系数高于面积规模指标,而汤阴则面积规模指标与目标真值相关系数稍高。

3 结论与讨论

以河南省中牟、汤阴两县冬小麦为研究对象,本研究提出并设计了抽样单元分层指标——信息熵和信息量,以分层抽样方式,与传统面积规模指标进行了比较分析,验证了本研究提出指标的有效性。

(1)信息熵和信息量指标能够较好地表达抽样单元内像元集合遥感分类结果的不确定性。无论是在汤阴还是中牟县,均与目标真值高度相关,特别是在种植结构复杂、地块较破碎的中牟县,选择信息熵和信息量指标进行分层,其与目标真值的相关系数在(80 m×80 m)~(400 m×400 m)规则格网的抽样单元下,均高于面积规模指标。

(2)从区域冬小麦面积估算精度而言,信息熵和信息量指标相较传统面积规模指标,在不同尺寸抽样单元下,能够有效提高抽样反推的估算精度。在种植结构单一、地块规整的汤阴县,信息熵和信息量指标在(80 m×80 m)~(400 m×400 m)规则格网抽样单元下,均能不同程度地提高反推结果的相对精度;在种植结构复杂、地块较破碎的中牟县,信息熵和信息量指标能够在192 m×192 m以下规则格网抽样单元下有效提高估算精度。

(3)从变异系数看,上述3个指标均保持在较稳定的区间。在中牟县,以信息熵和信息量指标进行分层抽样,其1 000次试验抽样反推结果的CV值均比面积规模指标有所降低。而在汤阴县,信息熵和信息量指标和面积规模指标相比稍有提高,但都保持同趋势的较高稳定性。

本研究显示,对于地块较破碎、种植结构较复杂的中牟县,当抽样单元选择在小于192 m×192 m时,信息熵和信息量指标作为分层标志效果要优于面积规模指标。在地块较规整、种植结构较为单一的汤阴县,当抽样单元选择在(80 m×80 m)~(400 m×400 m)时,对于优先考虑精度,则信息熵指标作为分层标志相较面积规模指标是更优的选择。

参考文献:

[1]Li Q,Wu B,Jia K,etal.Maize acreage estimation using ENVISAT MERIS and CBERS-02B CCD data in the North China Plain[J].Computers & Electronics in Agriculture,2011,78(2):208-214.

[2]Yadav I S,Srinivasa Rao N K,Reddy B M C,etal.Acreage and production estimation of mango orchards using Indian Remote Sensing (IRS) satellite data[J].Scientia Horticulturae,2002,93(2): 105-123.

[3]顾晓鹤,韩立建.中低分辨率小波融合的玉米种植面积遥感估算[J].农业工程学报,2012,28(3):203-209.

[4]王迪,周清波,刘佳.作物面积空间抽样研究进展[J].中国农业资源与规划,2012,33(2):9-14.

[5]许文波,张国平,范锦龙.利用MODIS遥感数据监测冬小麦种植面积[J].农业工程学报,2007,23(12):144-149.

[6]黄青,唐华俊,吴文斌.农作物分布格局动态变化的遥感监测——以东北三省为例[J].中国农业科学,2013,46(13):2668-2676.

[7]蒙继华,杜鑫,张淼.物候信息在大范围作物长势遥感监测中的应用[J].遥感技术与应用,2014,29(2):278-285.

[8]张锦水,潘耀忠,胡潭高.冬小麦种植面积空间抽样效率影响因子分析[J].农业工程学报,2009,25(8):169-173.

[9]张东霞,张继贤,常帆.遥感技术在主要粮食作物估产中的应用[J].测绘科学,2014,11(39):95-103.

[10]Stehman S V,Hansen M C,Broich M,etal.Adapting a global stratified random sample for regional estimation of forest cover change derived from satellite imagery[J].Remote Sensing of Environment,2011,115(2):650-658.

[11]朱爽,张锦水.面向省级农作物种植面积遥感估算的分层方法[J].农业工程学报,2013,29(2):184-191.

[12]王迪,周清波.空间抽样方法估算冬小麦播种面积[J].农业工程学报,2012,28(10):177-184.

[13]刘国栋,邬明权.基于GF-1卫星数据的农作物种植面积遥感抽样调查方法[J].农业工程学报, 2015,31 (5):160-166.

[14]Gallego F J,Stibig H J.Area estimation from a sample of satellite images: The impact of stratification on the clustering efficiency[J].International Journal of Applied Earth Observation and Geoinformation,2013,22: 139-146.

[15]权文婷,王钊.冬小麦种植面积遥感提取方法研究[J].国土资源遥感,2013,25(4):8-15.

[16]潘耀忠,李乐,张锦水.基于典型物候特征的MODIS-EVI时间序列数据农作物种植面积提取方法—小区域冬小麦实验研究[J].遥感学报,2011,15(3):578-594.

[17]Tsiligirides T A.Remote sensing as a tool for agricultural statistics:A case study of area frame sampling methodology in Hellas[J].Computers and Electronics in Agriculture,1998,20(1): 45-77.

[18]胡潭高,张锦水,潘耀忠.景观破碎度在冬小麦面积抽样设计中的应用研究[J].遥感学报,2010,14(6):1117-1138.

[19]Pradhan S.Crop area estimation using GIS,remote sensing and area frame sampling[J].International Journal of Applied Earth Observation,2001,3(1): 6-92.

[20]陈仲新,刘海启,周清波.全国冬小麦面积变化遥感监测抽样外推方法的研究[J].农业工程学报,2000,16(5):126-129.

[21]张锦水,申克建,潘耀忠.HJ-1号卫星数据与统计抽样相结合的冬小麦区域面积估算[J].中国农业科学,2010,43(16):3306-3315.

[22]谭建光,张锦水,高晨雪.基于结构规模的冬小麦种植面积遥感抽样估算[J].农业工程学报,2012,28(23):114-122.

[23]柏延臣,王劲峰.遥感数据专题分类不确定性评价研究:进展、问题与展望[J].地球科学进展,2005,20(11): 1218-1220.

[24]张尧庭,方开泰.多元统计分析引论[M].北京:科学出版杜,1997:306-317.

猜你喜欢

格网信息量信息熵
基于信息熵可信度的测试点选择方法研究
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
遥感数据即得即用(Ready To Use,RTU)地理格网产品规范
云南地区GPS面膨胀格网异常动态变化与M≥5.0地震关系分析
实时电离层格网数据精度评估
近似边界精度信息熵的属性约简
基于信息熵赋权法优化哮喘方醇提工艺
一种基于信息熵的雷达动态自适应选择跟踪方法
走出初中思想品德课的困扰探讨
让多媒体技术在语文课堂飞扬