APP下载

局部空间同位模式在作物种植适宜性调查中的应用

2017-04-12范协裕邢世和张黎明

关键词:长汀县邻域耕地

范协裕, 邢世和, 张黎明

(1.福建农林大学资源与环境学院,福建 福州 350002;2.福建省土壤环境健康与调控重点实验室,福建 福州 350002)

局部空间同位模式在作物种植适宜性调查中的应用

范协裕1,2, 邢世和1,2, 张黎明1,2

(1.福建农林大学资源与环境学院,福建 福州 350002;2.福建省土壤环境健康与调控重点实验室,福建 福州 350002)

空间同位模式的局部挖掘算法存在挖掘结果无统计显著性意义、缺少领域知识介入导致挖掘结果针对性不强等问题.通过引入领域专家知识选择候选模式,构建候选模式属性的兴趣度函数作为局部空间统计量,对空间候选模式的兴趣度值聚集区域进行挖掘,进而合并聚集区域的邻域确定模式的空间区域.经过分析及验证,利用该方法对长汀县烟草种植适宜性结果数据集进行处理,发现了主要养分高但不适合种植烟草的异常模式及区域.据此,专家有针对性地提出了加大灌溉基础设施建设、施用石灰和硼肥等改善烟草种植条件的建议.

局部空间同位模式; 空间统计量; 作物种植适宜性

遥感结合GIS技术在耕地质量调查中应用广泛,尤其在耕地质量和作物种植适宜性的划分和分级方面取得大量成果[1-2],但缺乏对此类数据隐含的空间预测、空间异常点、空间同位规则等进行挖掘研究[3-4].空间同位模式指因空间接近性而频繁聚集在一起的空间特征实例,是空间关联规则的重要类型之一[4].如主要土壤养分含量与作物种植适宜性的关联模式是典型的空间同位模式.空间同位模式挖掘不仅可找出空间关联关系正常的区域,也可识别异常的区域,进而对作物种植布局的优化工作提供宏观支持.

当前国内外空间同位模式挖掘通常采用关联规则算法,如Apriori算法.该类算法使用统一的全局参与度阈值,未考虑数据的空间分布[4-6].为解决该问题,统计检验方法和局部统计量被引入到空间同位模式的发掘中[7-10].同时,空间数据集中的关联知识具有区域性特征,但全局统计方法无法提供有效的信息[11].为找出兴趣区域的空间同位模式,前人[11-13]先采用聚类算法发现兴趣热点区域,再利用关联规则挖掘的Apriori算法进一步挖掘.Eick et al[14]通过定义同位模式的全局兴趣度函数,使用聚类算法寻找全局兴趣度值最大的聚类方案.已有同位模式挖掘的方法,在发现区域同位模式时,难以确定发掘的空间范围.因此,获取具有空间统计意义的区域同位模式,并确定区域范围,是区域空间同位模式挖掘算法亟需解决的一个问题.

本试验设计基于空间局部统计量的空间同位模式挖掘算法,在挖掘空间同位模式的同时确定模式影响范围,将其应用于作物种植适宜性评价数据中,为优化区域农作物种植提供决策支持.

1 算法介绍与推导

1.1 基于空间统计的局部同位模式发掘算法

因此,算法目标可描述为:在可实现的时间复杂度内,在空间数据集F中发现领域专家关心的候选模式B的子集及其作用区域,并做统计学解释,供领域专家对结果进行判读.对此本试验提出如下局部空间同位模式算法框架,如图1所示.

图1 局部空间同位模式挖掘算法框架

增加用户限制条件以提高挖掘的质量和效率已经被广泛应用于频繁项集的挖掘算法[15-16].将“专家领域知识”或者“关注目标”作为限制条件,替代传统的“数据为中心的知识发现”模式,极大提高了空间数据挖掘结果的质量和效率[17].算法流程如下:首先,引入专家领域知识,过滤候选的空间同位模式,对结果进行限定,避免过多无用的结果将感兴趣的模式淹没;其次,建立多元属性用于指示属性间同位关系的兴趣度函数,构建候选空间同位模式局部统计量.同时,定义空间邻域及邻域矩阵,对空间数据集的局部统计量进行聚类运算,寻找热点区域;最终,获取结果模式,结合专家知识对结果进行解译.

1.1.2 定义针对连续变量的空间同位模式统计量及空间聚集 针对以上算法框架,构建面向多元连续变量的空间同位模式兴趣度函数.局部空间自相关统计量可以用来识别不同空间位置上可能存在的空间关联模式及局部空间集聚或热点,为空间数据的分类和区划提出依据.常用的空间局部统计量有Getis et al[9-10]提出的Gi和Gi*统计量,局部Geary′s C等,这些都反映了空间对象取值与周围相似观测值在空间上的集聚程度.以Gi*统计量为例,该统计量广泛用于寻找具有显著统计意义的热点,即高值聚集的空间点.Gi*统计值越高,高值(热点)的聚类越紧密,反之Gi*统计值越低,低值(冷点)越紧密[9].

为了处理多元连续变量,Eick et al[14]采用如下函数作为空间同位模式的兴趣度函数:

(1)

(2)

(3)

(4)

式中:α为对应的空间属性A的取值,μ为A在F中的期望值,σ为标准差.z值用于衡量某个属性高出(公式2)或者低于(公式3)其标准值的程度,η是z值的阈值.模式的兴趣度函数值越大,模式偏离均值的程度越高.但是由于组成模式的属性数量不一,不同模式之间的兴趣度值难以互相比较.因此,本试验构建如下空间同位模式的兴趣度函数:

(5)

(6)

(7)

式中:Zmean表示模式z值的平均值,κρB为一致性因子,κ为调节系数,一致性因子用以调节模式中不同属性的z值偏差对模式兴趣值的影响.当模式中各组成属性的z值偏差越大,其兴趣度值越小,反之则越大.ρB为模式B的各属性在空间对象oi上z值的标准差.该兴趣度函数模型具有以下特性:(1)模式特征越明显,空间对象的兴趣度值越高;(2)如空间对象oi中存在属性Ak,与模式B的定义相违背,例如,z(A↑,oi)<0,且A↓∈B,则i(B,oi)=0;(3)不同长度的模式之间的兴趣度值具有可比较性.

1.1.3 邻域及权重矩阵的确定 针对空间点数据邻域需要预设定范围的问题,Delaunay三角测量里自然邻域能够保证空间对象点的每个象限都有邻域对象[18],因此本试验通过构建Voronoi多边形的邻域来确定空间观测点的邻域.

(8)

式中d值根据统计量不同而不同,如使用Gi*时,通常d取oi的相邻对象数加1,采用Gi时则取空间对象oi的相邻对象数[9-10].

(9)

1.2 算法复杂度及可用性评价与分析

1.2.1 时间复杂度分析 如图1算法框架所示,针对空间点数据,算法的时间复杂度如下:

T=k(T1+T2+T3)

(10)

式中:k为供领域专家选择的候选模式的数量,T1为生成兴趣度函数的时间复杂度,该部分可在O(n)时间内完成(n为空间数据集大小);T2为生成Voronoi邻域矩阵的时间复杂度,当前采用的平面扫描线法生成Voronoi的算法需要O(nlogn)时间复杂度和O(n)空间复杂度[19-20].T3为对模式的兴趣值函数进行聚集统计的时间复杂度.以Gi*统计量为例[10]:

(11)

假设空间不存在自相关,Gi*统计量的标准化形式为:

(12)

可知在邻域及邻域矩阵确定后,T3可在O(n)时间内完成.

1.2.2 可用性分析 算法将局部空间同位模式的挖掘转化为“寻找具有高兴趣度值的模式的空间对象聚集区域”.以Gi*统计量为例,该统计量可用来识别空间对象属性的高值和低值的聚集模式,统计量值为正表明高值聚集,而本文的兴趣度模型具有值越高,模式特征越明显.兴趣度函数的高值聚集区域即指示了该区域空间同位模式聚集.因此,通过将高值聚集的邻近空间对象合并,即可发现具有统计意义的局部空间同位模式及其作用区域.

2 在作物种植适宜性调查上的应用及结果

2.1 试验区概况

长汀县位于福建西部(25°18′40″—26°02′05″N, 116°00′45″—116°39′20″E),属于亚热带湿润季风气候.年均气温18.3 ℃,年均降水量1 700 mm,年均无霜期260 d.丘陵地形,全县土地总面积3 089 km2,辖濯田、三洲等18个乡镇.2008年全县耕地总面积29 159 hm2,主要分布于童坊、河田、南山和濯田等镇.2010年,全县烤烟种植面积4 646 hm2,收购烟叶7 700 000 kg.

2.2 数据来源

数据集源于2012年长汀县耕地地力调查样点数据、烟草种植适宜性调查及评价数据、槟榔芋种植适宜性调查数据,其中耕地地力评价样点共475条数据,适宜性评价数据共有2 250个耕地单元.

2.3 数据预处理方法

将地力调查样点数据与烟草适宜性评价数据进行包含关系空间连接,使得每个样点包含其所在评价耕地单元上的烟草适宜性评价得分(score)、pH值、有机质(organic)、碱解氮(N)、有效磷(P)及速效钾(K)等主要土壤养分成分含量等相关属性数据.

对槟榔芋种植适宜性评价数据,使用长汀县主要槟榔芋产区三洲镇的槟榔芋适宜性评价数据(2 250个耕地单元),选取适宜性评价得分及主要的土壤养分数据、海拔及坡度等数据进行挖掘.

2.4 可用性验证和异常模式试验

2.4.1 可用性验证 使用槟榔芋适宜性种植数据进行可用性试验,参数设置和结果如图2所示,槟榔芋种植适宜性偏低,并且主要养分含量都偏低的区域主要集中在三洲村和小潭村.实地调查报告显示,长汀县三洲乡全乡一般适宜种植槟榔芋的耕地主要分布于三洲、小潭和小溪头村,占全镇一般适宜种植烟草耕地总面积的79.22%,其土壤养分含量与全镇适宜槟榔芋种植的属性均值相差不大.但是,耕地中土壤有机质、有效磷和速效钾含量均值比全镇适宜槟榔芋种植耕地土壤属性均值低0.77g·kg-1、4.77 mg·kg-1、9.39 mg·kg-1和13.02 mg·kg-1.综上可见,试验挖掘与调查报告的结果一致,证明了算法挖掘结果的正确性.

图2 长汀县三洲乡耕地槟榔芋适宜性调查结果(η=0, α=0.05, ɡ=1.96, θ=2, κ=0)

2.4.2 作物种植适宜性调查异常模式的发现与应用分析 利用开发的局部空间同位模式挖掘程序,对长汀县耕地地力调查点养分数据及烟草适宜评价得分进行挖掘.专家选择了主要土壤养分高于均值(碱解氮高N_H,有效磷高P_H,速效钾高K_H)但是适宜性等级明显低于其周边的异常模式[Score_L,Organic_H,N_H,P_H,K_H](其中H表示高等级,L表示低等级),试验参数配置及结果如图3所示.

图3 长汀县烟草适应性评价异常空间同位模式(η=0, α=0.05, ɡ=1.96, θ=2, κ=0.2)

由试验可得,长汀县庵杰、红山、童坊等乡镇耕地主要养分高(N、P和K),但不适宜或者一般适宜烟草种植的耕地单元.通过查阅长汀县耕地地力报告发现异常模式区域所在长汀县庵杰和红山两乡的耕地概况如图4.该图仅列举了部分种植限制条件如干旱、有效硼、酸性等.实际上,庵杰、红山乡等乡镇在年积温、耕地坡度以及灌溉等耕种条件上都不优良.其中,烟草作为中等需硼作物,随着氮、磷、钾肥的合理施用,土壤有效硼供应不足已成为影响烤烟产量和质量的因素之一[21].同时硼肥在酸性砂质土中易淋失,庵杰、红山、童坊等乡镇的偏酸性土壤更是限制了烟草的种植条件.据此,专家建议从以下3个方面来提高庵杰、红山乡等地的烟草种植条件:(1)加大耕地的灌溉基础设施的建设投入,改善耕地的灌溉条件;(2)合理施用石灰等来改善土壤酸碱度;(3)适量增施硼肥,在我国主要是硼砂.

a:庵杰乡耕地概况;b:红山乡耕地概况.

3 讨论

本试验通过构建针对连续变量的空间同位模式兴趣度函数模型,设计基于局部统计量的局部空间同位模式发现方法,通过开发算法的应用程序,将其应用于长汀县耕地地力及烟草适宜性评价结果数据集.对耕地单元适宜性评价得分与主要养分含量的异常模式进行挖掘,发现其聚集区域,包括主要土壤养分含量高于均值而烟草适宜性得分偏低的庵杰、红山乡、童坊镇等.经过查阅实际调查报告,验证了异常模式所在区域存干旱、有效硼含量低、酸性等种植限制条件,验证了该方法的正确性.在此基础上,针对性地提出了该区域烟草种植条件的改善建议.

相较于传统人为查阅评价报告和评价专题图的方式,本试验高效地从海量数据集中发现兴趣的异常与正常模式并确定其影响区域.相对于其他全局模式的挖掘方法,本方法根据兴趣度函数模型的特性并采用的局部统计量挖掘方法,使得到的结果和影响区域具有统计学意义.

本试验采用的模式挖掘方法,适用于所有包含连续型属性变量的空间数据集的处理.但空间数据集的空间对象类型是点类型,对多边形空间数据集,需提前将其转化成点数据集再进行处理.而在数据处理过程、结果生成上仍有改进的空间,以期进一步提高其处理过程的自动化.

[1] 王鑫.遥感和GIS技术在耕地质量调查中的应用.ArcGIS在耕地质量补充调查项目中的应用[J].测绘与空间地理信息,2013,36(5):9293.

[2] 周望,周博,邓文胜.基于AHP和GIS技术的未利用地宜耕适宜性评价研究——以郧县为例[J].现代农业科技,2015(1):189-190.

[3] SAMSON G L, LU J, SHOWOLE A A. Mining complex spatial patterns: issues and techniques[J]. Journal of Information & Knowledge Management, 2014,13(2):1-20.

[4] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[M]. Advances in Spatial and Temporal Databases, Berlin Heidelberg: Springer, 2001,2 121:236-256.

[5] YOO J S, SHEKHAR S, SMITH J, et al. A partial join approach for mining co-location patterns[C]∥Proceedings of the 12th annual ACM international workshop on Geographic information systems ACM. New York: ACM, 2004:241-249.

[6] XIONG H, SHEKHAR S, HUANG Y, et al. A framework for discovering co-location patterns in data sets with extended spatial objects[C]∥Proceedings of the Fourth SIAM International Conference on Data Mining. Florida: SIAM, 2004:78-90.

[7] BARUA S, SANDER J. Mining statistically significant co-location and segregation patterns[J]. IEEE Transactions on Knowledge & Data Engineering, 2014,26(5):1 185-1 199.

[8] CELIK M, KANG J M, SHEKHAR S. Zonal co-location pattern discovery with dynamic parameters[C]∥Proceedings of the 2007 Seventh IEEE International Conference on Data Mining. Washington, DC:IEEE, 2007:433-438.

[9] GETIS A, ORD J K. Local spatial statistics: an overview[J]. Spatial Analysis Modeling in a GIS Environment Cambridge,1996:269-285.

[10] ORD J K, GETIS A. Local spatial autocorrelation statistics: distributional issues and an application[J]. Geographical Analysis, 1995,27(4):286-306.

[11] DING W, EICK C F, WANG J, et al. A framework for regional association rule mining in spatial datasets[C]∥The 6th IEEE International Conference on Data Mining. Washington, DC:IEEE, 2006:851-856.

[12] AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[M]∥Proceeding VLDB '94 Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann Publishers Inc, 1998:487-499.

[13] HAN J W, PEI J, YIN Y W, et al. Mining frequent patterns without candidate generation:a frequent-pattern tree approach[J]. Sigmod Record, 2000,29(2):1-12.

[14] EICK C F, PARMAR R, DING W, et al. Finding regional co-location patterns for sets of continuous variables in spatial datasets[C]∥Proceedings of the 16th ACM SIGSPATIAL international conference on Advances in geographic information systems. California:ACM, 2008:1-10.

[15] MCGARRY K. A survey of interestingness measures for knowledge discovery[J]. Knowledge Engineering Review, 2005,20(1):39-61.

[16] RAEDT L D, ZIMMERMANN A. Constraint-based pattern set mining[C]∥Proceedings of the Seventh SIAM International Conference on Data Mining. Minnesota:SIAM, 2007:237-248.

[17] FLOUVAT F, SELMAOUI-FOLCHER N, SOC J F N V, et al. Domain-driven co-location mining extraction, visualization and integration in a GIS[J]. Geoinformatica, 2015(19):147-183.

[18] 张祖勋,张剑清.数字摄影测量学[M].武汉:武汉测绘科技大学出版社,1996.

[19] MARK D B, MARCV K, MARK O S, et al. Computational geometry[M]. 2nd ed. Berlin Heidelberg:Springer-Verlag, 2000:151-160.

[20] DAVID A. Voronoi diagrams and a day at the beach[EB/OL], (April 13, 2015)[April 10, 2016]. http://www.ams.org/samplings/feature-column/fcarc-voronoi.

[21] 李志军,简毓峰.烤烟硼肥效应及经济合理施用量的确定[J].甘肃农业科技,1996(8):31-32.

(责任编辑:苏靖涵)

Application of regional co-location patterns on planting suitability surveying

FAN Xieyu1,2, XING Shihe1,2, ZHANG Liming1,2

(1.College of Resources and Environment, Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China; 2.Fujian Provincial Key Laboratory of Soil Environmental Health and Regulation, Fuzhou, Fujian 350002, China)

To solve problems of current mining algorithm for regional co-location pattern that lacks in statistical significance and pertinence, a new approach based on experts′ interestingness was proposed. Firstly, co-location pattern consisting of sets of continuous variables was screened and mined by the function of experts′ interestingness. Hotspot and target spacial region of interests was extracted and integrated from co-location pattern. Furthermore, the approach was validated by applying to tobacco suitability evaluation data sets of Changting County in Fujian Province. Abnormal region in Changting that had fertile soil but was unsuiTable for tobacco cultivation was identified. Suggestions including emphasizing irrigation infrastructure and application of lime and boron fertiliser were put forward.

regional spatial co-location pattern; spatial statistics; planting suitability

2016-04-12

2016-06-17

福建省科技重大专项(2012NZ0002).

范协裕(1985-),男,博士,讲师.研究方向:空间数据挖掘,网络地理信息系统.Email:fanxy@fafu.edu.cn.通讯作者邢世和(1962-),男,博士,教授,博士生导师.研究方向:土地(壤)资源持续利用与评价.Email:fafuxsh@126.com.

S126

A

1671-5470(2017)02-0192-07

10.13323/j.cnki.j.fafu(nat.sci.).2017.02.012

猜你喜欢

长汀县邻域耕地
自然资源部:加强黑土耕地保护
我国将加快制定耕地保护法
长汀县优质烟叶种植气候适宜性分析
新增200亿元列入耕地地力保护补贴支出
福建省长汀县鸟类资源多样性与区系分析
稀疏图平方图的染色数上界
耕地时节
基于邻域竞赛的多目标优化算法
关于-型邻域空间
长汀 龙岩市老促会深入长汀县调研革命基点村精准扶贫