APP下载

点源时间序列数据缺失值的估值方法比较——以小流域气象和水文数据为例*

2018-03-19周脚根沈健林吕殿青李裕元吴金水

中国农业气象 2018年3期
关键词:点源插值法降雨量

甘 蕾,周脚根,石 锦,李 希,沈健林,吕殿青,李裕元,吴金水



点源时间序列数据缺失值的估值方法比较——以小流域气象和水文数据为例*

甘 蕾1,2,周脚根2**,石 锦2,3,李 希2,沈健林2,吕殿青1,李裕元2,吴金水2

(1.湖南师范大学资源与环境科学学院,长沙 410081;2.中国科学院亚热带农业生态研究所亚热带农业生态过程重点实验室,长沙 410125;3.湖南农业大学工学院,长沙 410128)

对点源时间序列数据缺失值进行有效估值能提升其数据质量。为探究不同估值方法对点源时间序列数据缺失值的估值效果及其影响因素,以亚热带典型小流域长期定位观测的每日气象和水文数据(最高气温、最低气温、太阳辐射量、降雨量及地表径流量)为例,以均方根误差(RMSE)、绝对平均误差(MAE)和Pearson相关系数(r)为性能验证指标,比较了线性内插法(LIM)、K-最近邻插值法(KNNM)、样条插值法(SIM)、多项式插值法(PIM)和核密度估值法(KDEM)5种估值方法的估值性能差异及其主要影响因素。结果表明:(1)LIM、SIM和KDEM的估值性能总体上优于其它2种方法;(2)5种估值方法对气象数据(最高气温、最低气温和太阳辐射量)缺失值估值的RMSE为1.81~6.35,MAE为1.30~4.20,r为0.70~0.98(P<0.05),而对水文数据(降雨量和地表径流量)缺失值估值的RMSE为12.54~26.28,MAE为3.60~14.21,r为0.07~0.72。可见,各估值方法对气象数据的估值性能强于对水文数据;(3)上述数据集的变异系数(CV)与估值评估指标(RMSE、MAE及r)线性相关(P<0.05),是影响估值性能的重要因素。

缺失值;估值方法;变异系数;时间序列

时间序列数据是生态环境、水文及气象等研究领域必不可少的基础数据,这些领域的相关研究通常需要对环境参数进行长期定位监测采集,但是由于仪器设备故障、环境恶劣或人为操作失误等原因,采集到的观测数据难免出现数据缺失问题[1],从而影响观测数据的质量。有效估算时间序列数据的缺失值,可以完善时间序列数据的质量,提升数据使用效率,是空间分析与统计领域研究的热点之一[2]。时间序列的估值问题,目前的研究主要涉及两方面:(1)面源尺度上对未观测位点环境参数属性值的估算;(2)点源尺度上对观测参数缺失值的估算。

由于人力和物力的有限性,面源尺度上环境参数通常通过一定量代表性点源观测单元获取,再通过这些点源观测数据实现观测数据的面源拓展,是一个用一定量点源观测数据估算面源上未观测单元参数值的过程。当前,空间插值方法、GIS技术、估值预测模型等常用于解决该问题。毛洋洋等[3]利用不同日太阳总辐射预测模型对华北地区6个站点的逐日太阳总辐射数据进行估算,其估值效果皆可;郭兆夏等[4]利用GIS技术对陕西年降水量数据进行了较准确的分析与预测;Srebotnjak等[5]利用样条插值法有效完成了全球尺度上水质监测并实现了水质TN、TP、DO等数据的填充。其中,Kriging空间插值法应用较多,实现了黄土高原区多年降雨量[6-7]、西部地区降雨量[8-9]、黄河流域多年降雨量[10]的空间拓展与分析;最近邻法、反距离加权法等空间插值方法能很好地预测全国较大区域范围、湖南复杂地形区的日平均气温[11-12];基于模型的空间插值技术对江苏、安徽逐日气温[13]和结合线性回归分析等的空间插值方法对汉江上游多年平均气温[14]的预测效果显著。而上述方法面向的基本为气象数据的空间估值拓展,少有涉及对点源时间序列数据的估值。

点源尺度上时间序列缺失值的估值,主要是对一定观测时间段内缺失的观测数据进行有效插补。一些研究直接将缺失数据的样本剔除[15],或采用均值替换所有缺失值[16],虽然操作简单,但会导致潜在信息丢失,局限性大。鉴于点源时间序列实为二维数据集,实际研究中通常运用线性内插法、样条插值法等二维曲线拟合的数学方法对缺失数据进行插补。Ferrari等[17-18]证实了线性内插法可对降雨量和温度数据的缺失值进行有效估算;结合地形等因素,郑小波等[19]发现薄盘光滑样条函数法对西南地区温度和降水数据的插值效果最优。当前国内外对点源时间序列数据缺失值的估值问题关注较少,且常集中于某一种估值方法或技术对特定类型的数据集缺失值的估值分析,缺乏不同估值方法对一类或几类数据缺失值估值结果的性能差异比较,也少有分析估值方法对不同数据集的性能响应,大多不易推广和应用到其它类型数据。

为此,本研究选用LIM、KNNM、SIM、PIM和KDEM 5种估值方法,以湖南金井小流域每日气象数据(最高气温、最低气温、太阳辐射量)、水文数据(降雨量、地表径流量)为应用实例,研究上述5种方法对不同数据集的估值性能差异及其影响因素,以期为气象和水文等领域点源时间序列数据缺失值的估值方法提供选择,并为提高相关模型预测精度提供参考依据。

1 材料与方法

1.1 数据来源

数据来源于湖南省长沙县金井河流域,流域总面积134.4 km2,位于27°55N-28°40N、112°56E-113°30' E(图1),属亚热带湿润性季风气候,是典型的亚热带红壤丘陵地貌,年平均降水量为1200~1500mm[20]。

图1 金井流域水文和气象观测站分布图

所用水文数据为2010-2012年金井河小流域每日降雨量及2010-2014年流域内出水口的每日地表径流量数据,气象数据为2010-2013年流域内每日最高气温、最低气温数据和太阳辐射量数据。地表径流量数据采用Simpson's Parabolic Rule方法,用螺旋杯式流速仪实测而得,该系统每10min自动采集并记录流量数据,据此计算流域研究时段内的日地表径流量。各气象因子数据,则由小型气象站(Intelimet Advantage,Dynamax Inc.,美国产)观测获得。

所选取的数据集类型皆为流域水文和气象观测的基础类型,且各数据集间差异明显,整体上水文数据(包括降雨量、地表径流量)其CV为130.71%~162.57%,较气象数据(最高气温、最低气温和太阳辐射量)变异性大(CV为42.82%~67.51%)。

1.2 估值方法

1.2.1 线性内插法

线性内插法(LIM)[21]利用时间与观测值之间的等比关系近似求解时间序列的缺失值。给定时间序列集t,已知ti、tk时刻对应的观测值分别为Y(ti)、Y(tk),tj时刻数据样点值Y(tj)缺失,其中i

由式(1)可见,若数据缺失位点处于时间序列的两端点,即j=i或j=k,则LIM方法将无法实现预测。

1.2.2 K-最近邻插值法

K-最近邻插值法(KNNM)[22]的核心思想是,搜索与待估算点最邻近的k个观测点样本,用这些样本点观测值的加权和赋予待估值点。样点之间的邻近关系为

时间序列数据的计算则首先给定与tj邻近的k个邻近点集,然后估算Y(tj)

1.2.3 样条插值法和多项式插值法

样条插值法(SIM)是一种特殊的分段3次多项式插值法。相对普通多项式插值,通常样条插值方法对数据集的拟合更平滑,输出的插值误差更小。给定n+1个不同的观测时刻ti,并满足t0<t1<…<tn-1<tn以及 n+1个观测值Y(ti),样条插值实质上就是构建一个n阶样条函数Y(t)逼近观测数据集,即

多项式插值法(PIM)[23]是用多项式对一列数据进行线性拟合,再对给定待估值点进行估值的过程。给定时间序列数据集Y= {Y(t1),Y(t2),…, Y(tn)}和待估值点Y(tj),用多项式函数f(t)=β0+β1t+β2t2+…+βntn对时间序列数据集Y进行线性拟合,以求解最优的参数β=(β0,β1,β2,…,βn)。本研究用最小二乘法求解最优参数β。

1.2.4 核密度估值法

核密度估值法(KDEM)[24]是一种从数据样本本身出发研究数据分布特征的密度函数近似估值算法,不需要有关数据分布的先验知识。对给定缺失值Y(tj),核密度估值方法估算式为

式中,K(t)为核函数;h为核函数的带宽;n为参与估值的观测值数目。本研究中,核函数K(t)采用高斯核函数;该核函数是一个权函数,离缺失点tj越近的点对函数值的影响越大,其权值也越大;核函数带宽h统一为缺失点tj到其它观测点的距离集的中段值。

1.3 缺失值设置及模型校验

采用的日时间序列数据集(最高气温、最低气温、太阳辐射量、降雨量和地表径流量)皆为完整数据集(即无缺失值)。通常,时间序列数据集数据缺失位点以及数据缺失量是随机的。缺失量的多少在一定程度上会影响估值方法性能评价的客观性,目前主流研究以20%~30%缺失量作为研究对象用于筛选估值方法[25-26]。为有效评估LIM、KNNM、SIM、PIM和KDEM 5种方法对缺失值的估值性能的差异,本研究随机抽取每个实例数据集的25%数据样本点为模拟缺失量。

涉及的LIM、KNNM、SIM、PIM和KDEM的代码实现以及模型运行均在Matlab2011b软件平台完成。其中,LIM、KNNM、SIM和PIM直接调用Matlab2011b软件的内置包进行运行;KDEM则为自主编码实现。在运行模型对25%抽样样本进行预测前,用交叉校验方法测试75%的训练样本,分别为上述5种方法寻找较优的模型输入参数。多次试验证实,采用12~18的邻近样本数,LIM、KNNM、SIM、PIM及KDEM的估值性能较优。考虑后期需要多次进行抽样测试,故对25%测试样本的估值试验统一邻近样本参数定为15。为消除单次试验带来的随机误差,每次试验重复100次。将100次试验的均方根误差(RMSE)、绝对平均误差(MAE)和Pearson相关系数(r)3个指标的平均值作为验证指标用于评估各方法估值性能的优劣。

2 结果与分析

2.1 小流域水文和气象时间序列数据集的统计特征

金井河小流域水文和气象数据类型中25%缺失数据集和75%训练样本数据集数据点分布见图2。由图可见,所有数据从2010-07-01起始,水文数据(小流域出水口的地表径流量)至2013-10-20,样本数据共1206个,训练样本数据904个与缺失数据302个随机分布在取样时段内,数据点分布趋势吻合;气象要素集的降雨量数据共470个,截至2011-10-13;最高和最低气温数据共904个,截至2012-12-20;太阳辐射量数据总共632个,截至2012-03-23;缺失数据集均随机分布在取样时间段内,总体上与训练样本数据集的数据点分布趋势吻合。

各指标训练样本数据集的统计特征见表1。由表可见,所选指标的数据集差异明显,降雨量数据稳定性差,数值变化范围大,所选时段内最大降雨量为34.62mm,最小降雨量为0.01mm,变异系数CV最大为162.57%;地表径流量的主要来源是降雨,基流汇聚形成地表径流,最大径流量为41.93m3,数据集的变异系数CV也较大,仅次于降雨量数据,达130.71%;该两指标均属强变异水平[27]。最高气温、最低气温和太阳辐射量数据较稳定,最高气温数据集CV最小,为42.82%;最低气温和太阳辐射量数据集CV居中,分别为66.96%、67.51%,均属弱变异水平。

图2 各观测数据日值集中训练数据与缺失数据的分布

2.2 五种方法对时间序列数据集中缺失数据估值效果的比较

由表2可见,5种估值方法对不同数据集的估值性能具有较大差异。对于变异系数较小的气象数据(最高气温、最低气温及太阳辐射量),LIM、KNNM、SIM、PIM及KDEM 5种方法皆表现较佳,估算值与实测值相关性强(r为0.64~0.98,P<0.05);其中,LIM估值准确性最佳,估值结果误差最小,其RMSE、MAE分别为1.81~4.58、1.30~3.43,相关性最高,r为0.78~0.98(P<0.05);KDEM和SIM估值效果居中,KDEM对最高气温估值较好,其RMSE、MAE、r为2.91℃、2.12℃、0.95(P<0.05),SIM对最低气温的估值效果与LIM相同,同为最佳方法,且对太阳辐射量估值也较好;KNNM和PIM两种方法表现最差,误差大,相关性弱。

对于变异系数较大的降雨量数据,LIM、KNNM、SIM、PIM及KDEM 5种方法估值效果皆不佳,RMSE和MAE偏大,估算值与实测值相关性不显著(r为0.07~0.13),其中,KDEM相对较优,其RMSE、MAE、r分别为16.75mm、9.22mm、0.13。而受降雨影响的地表径流量数据,SIM的估值性能最优,其RMSE、MAE、r分别为12.54m3、3.40m3、0.72,误差小且相关系数较大;LIM和KDEM的性能居中,其RMSE、MAE、r分别为12.66m3、3.60m3、0.71和13.47m3、 3.86m3、0.69;KNNM和PIM的性能最差。

总体上,上述5种估值方法对日最高气温、日最低气温、日太阳辐射量以及日地表径流量数据的估值结果较为可靠,但对日降雨量的估值精度不高,这可能是因为日降雨量测试数据集的变异系数过大(CV=162.57%)。另外,LIM、SIM和KDEM 3种估值方法对这5种缺失数据的估值效果较好。

表2 五种方法对水文和气象数据集缺失值的估值效果比较

注:LIM为线性内插法、KNNM为K-最近邻插值法、SIM为样条插值法、PIM为多项式插值法、KDEM为核密度估值法;RMSE为均方根误差、MAE绝对值平均误差、r为估算值与实测值的Pearson相关系数。表中数据为每种方法重复100次估算结果的平均值±标准误差。

Note: LIM for linear interpolation method, KNNM for K-nearest neighbor interpolation method, SIM for spline interpolation method, PIM for polynomial interpolation method, KDEM for Kernel density estimation method, while RMSE for root mean square error, MAE for absolute mean error, r for Pearson product-moment correlation coefficient between estimated and measured values. The data in the table were mean±standard error values of estimations of repeated 100 times by each of the interpolation methods.

2.3 原数据集中变异系数对缺失值估算结果的影响

将最高气温、最低气温、太阳辐射量、降雨量以及地表径流量训练数据集的变异系数(CV)与交叉验证指标值(RMSE、MAE、r)进行线性拟合分析,结果见图3。由图3可见,CV与RMSE、MAE、r之间存在明显的线性相关关系。CV与RMSE呈显著正相关(P<0.05),线性拟合方程的决定系数R2达0.89;与MAE也呈线性正相关(P<0.05),R2达0.67;与r呈负线性相关(P<0.05),R2达0.79。说明变异系数是影响缺失值估值结果的重要因素,变异系数越大,均方根误差和绝对平均误差越大,相关性越小;反之,变异系数越小,误差越小,相关性越大。进一步分析不同估值方法的估值性能对5种水文气象数据集CV变化的响应相关性。图4表明,CV与RMSE和MAE呈线性正相关,决定系数R2分别为0.92~0.95和0.69~0.74;与相关系数r呈线性负相关,决定系数R2为0.78~0.80。这表明在上述应用实例中5种估值方法输出的估值误差,超过69%是与数据集固有的变异性有关。因此,在本研究中CV是影响估值方法LIM、KNNM、SIM、PIM及KDEM的估值性能的关键因素。数据集的变异系数越大,LIM、KNNM、SIM、PIM及KDEM 5种方法的估值误差越大,输出的预测值与实测值的拟合度越小,对估值结果的准确性影响越大[28]。

图3 各数据集变异系数与缺失值估值评估指标RMSE、MAE和r的相关性

图4 各观测数据集变异系数与五种估值方法输出的估值评估指标的相关性分析

3 结论与讨论

3.1 讨论

以日最高气温、日最低气温、日太阳辐射量、日降雨量及日地表径流量数据为应用实例,模拟和比较了25%样本缺失量条件下LIM、KNNM、SIM、PIM和KDEM 5种估值方法的性能差异及其主要影响因素。总体上,LIM、SIM和KDEM 3种方法对气象数据集缺失值的估算性能优于其它两种方法,对缺失值估算的误差小且估算值与实测值具有线性相关关系,尤其是对气温数据,其RMSE、MAE分别低至1.81℃、1.30℃,r高达0.98。

上述估值方法的性能差异与估值方法本身有一定的关系。LIM运算简单,适于所有水文气象数据。不论点源还是面源数据,KDEM仅从样本本身出发,可以估值任何形状的缺失值概率密度函数,且连续性好[29]。KNNM估算时难以确定的k值易导致估值变化大,稳定性不高[30]。PIM受数据量大小和运算次数的限制,误差较大,SIM较PIM更灵活稳定,运算结果精度高,不受数据量大小影响,运算简便[31]。文献研究也证实了LIM对点源时间序列数据的估值性能较优。例如,Noor等[32]在估算环境质量PM10数据集的缺失值时所表现的高精度和可靠性佐证了LIM的高性能;Saleem等[18]分析发现LIM对空气温度数据缺失值的估值精度最高,r高达0.99以上(P<0.01);唐云辉等[33]基于邻域特征对重庆市日最高、日最低气温数据进行缺失填补的拟合精度高,结果可靠。这可能是气温数据时间尺度上变化小,限制因素少,数据集相对稳定的原因。

本研究也发现,对变异系数最大的日降雨量数据缺失值的估值,5种方法均表现不佳,其相关性弱(r在0.02~0.11),预测误差大。但相对其它4种估值方法,线性插值方法对日降雨量数据的估值相对较好,其RMSE、MAE值分别为8.25mm、5.30mm,但是估值精度低于巴西巴拉那州气象站[17]和巴基斯坦[18]日降雨量缺失值的估算精度。这归因于不同研究区域日降雨量的地理差异。

本研究表明,数据集变异系数小,离散程度小,则5种估值方法对数据集缺失值的估值效果较优;反之,数据集变异系数大,离散程度大,5种估值方法的估值效果皆显著下降。不同估值方法处理后的估值验证指标对5种水文气象数据集CV变化的响应关系也表明:不同估值方法处理下数据集CV与RMSE和MAE线性正相关(P<0.05),与r线性负相关(P<0.05)。这充分证实了数据集的变异系数是影响估值方法的估值结果的重要因素,该结论与其它学者研究结果相吻合。例如,赵彦锋等[34]发现有机质数据变异系数小于10%时对数据集估值结果的准确性最高;Yozgatligil等[35]也证实土耳其降水、温度数据集CV值越小,对缺失值估值结果越可靠。

综合上述研究结果,数据集的变异系数显著影响估值方法的估值性能。依据数据集变异系数CV与估值验证指标(RMSE、MAE以及r)之间的线性关系,可推断出:数据集变异系数在不超过45%的情况下,LIM、SIM和KDEM对数据缺失值的估值结果更可靠。

3.2 结论

(1)LIM、KNNM、SIM、PIM和KDEM对点源时间序列数据缺失值的估值效果存在差异,其中LIM、SIM和KDEM的估值性能优于KNNM和PIM。

(2)5种估值方法对气象数据(最高气温、最低气温、太阳辐射量)缺失值的估值效果整体上优于水文数据(降雨量、地表径流量)。

(3)数据集的变异系数CV是影响估值性能的主要因素,且 CV与评估指标RMSE、MAE及r线性相关(P<0.05);当气象、水文点源时间序列数据集CV不超过45%时,推荐使用LIM、SIM和KDEM估算缺失值。

[1]Kantardzic M.Data mining:concepts,models,methods,and algorithms[M].John Wiley & Sons,2011.

[2]关宏强,蔡福,王阳,等.短时间序列气温要素空间插值方法精度的比较研究[J].气象与环境学报,2007,23(5): 13-16.

Guan H Q,Cai F,Wang Y,et al.Comparison of different spatial interpolation methods for air temperature data of short-time series[J].Journal of Meteorology and Environment,2007,23(5): 13-16.(in Chinese)

[3]毛洋洋,赵艳霞,张祎,等.五个常见日太阳总辐射模型在华北地区的有效性验证及分析[J].中国农业气象,2016,37(5): 520-530.

Mao Y Y,Zhao Y X,Zhang Y,et al.Validation and analysis of five general daily solar radiation estimation models used in Northern China[J].Chinese Journal of Agrometeorology,2016, 37(5):520-530.(in Chinese)

[4]郭兆夏,李星敏,朱琳,等.基于GIS的陕西省年降水量空间分布特征分析[J].中国农业气象,2010,31(S1): 121-123.

Guo Z X,Li X M,Zhu L,et al.Research on spatial distribution of annual precipitation in Shanxi Province based on GIS[J].Chinese Journal of Agrometeorology,2010,31(S1):121- 123.(in Chinese)

[5]Srebotnjak T,Carr G,de Sherbinin A,et al.A global water quality index and hot-deck imputation of missing data[J]. Ecological Indicators,2012,17:108-119.

[6]段建军,王小利,高照良,等.黄土高原地区50年降水时空动态与趋势分析[J].水土保持学报,2009,23(5):143-146.

Duan J J,Wang X L,Gao Z L,et al.Dynamics and trends analysis of annual precipitation in the Loess Plateau Region for 50 years[J].Journal of Soil and Water Conservation, 2009,23(5): 143-146.(in Chinese)

[7]马晶,陈锡云,刘晓燕.地理因素辅助的黄土高塬典型流域面雨量制图效果比较与评价[J].水土保持学报,2016,30(6): 174-180.

Ma J,Chen X Y,Liu X Y.Comparison and evaluation of areal precipitation mapping effectiveness with consideration of geographic factors in the Loess Plateau[J].Journal of Soil and Water Conservation,2016,30(6):174-180.(in Chinese)

[8]Zhu Q A,Zhang W C,Zhao D Z.Topography-based spatial daily precipitation interpolation by means of PRISM and thiessen polygon analysis[J].Scientia Geographica Sinica, 2005,25(2):233-238.

[9]Gu Z H, Shi P J,Chen J.Precipitation interpolation research over regions with sparse meteorological stations:a case study in Xilingole League[J].Journal of Beijing Normal University (Natural Science),2006,42(2):204-208.

[10]邵晓梅,严昌荣,魏红兵.基于Kriging插值的黄河流域降水时空分布格局[J].中国农业气象,2006,27(2):65-69.

Shao X M,Yan C R,Wei H B.Spatial and temporal structure of precipitation in the Yellow River Basin based on Kriging method[J].Chinese Journal of Agrometeorology,2006,27(2): 65-69.(in Chinese)

[11]Liu Y,Chen P Q,Zhang W.A spatial interpolation method for surface air temperature and its error analysis[J]. Chinese Journal of Atmospheric Sciences,2006,30(1):146-152.

[12]杜东升,廖玉芳,赵福华.湖南复杂地形下日平均气温空间插值方法探讨[J].中国农业气象,2011,32(4):607-614.

Du D S,Liao Y F,Zhao F H.Study on the spatial interpolation method for daily mean air temperature over complex terrain in Hunan province[J].Chinese Journal of Agrometeorology, 2011, 32(4):607-614.(in Chinese)

[13]郭建茂,王锦杰,吴越,等.基于卫星遥感与气象站数据的水稻高温热害监测和评估模型研究:以江苏、安徽为例[J].农业现代化研究,2017,38(2):298-306.

Guo J M,Wang J J,Wu Y,et al.Research on monitoring and modeling of rice heat injury based on satellite and meteorological station data:case study of Jiangsu and Anhui[J]. Research of Agricultural Modernization,2017,38 (2): 298- 306. (in Chinese)

[14]任利利,殷淑燕.汉江上游近50多年来气温变化特征与区域差异[J].农业现代化研究,2013,34(3):348-352.

Ren L L,Yin S Y.Air temperature variation of the upper reaches of Hanjiang River in recent 50 years and its regional differences[J].Research of Agricultural Modernization,2013, 34(3):348-352.(in Chinese)

[15]鲍晓蕾,高辉,胡良平.多种填补方法在纵向缺失数据中的比较研究[J].中国卫生统计,2016,33(1):45-48.

Bao X L,Gao H,Hu L P.Comparative study of various imputation methods in dealing with longitudinal missing data[J].Chinese Health Statistics,2016,33(1):45-48.(in Chinese)

[16]杨军,赵宇,丁文兴.抽样调查中缺失数据的插补方法[J].数理统计与管理,2008,27(5):821-832.

Yang J,Zhao Y,Ding W X.On imputation methods of missing data in survey sampling[J].Application of Statistics and Management,2008,27(5):821-832.(in Chinese)

[17]Ferrari G T,Ozaki V.Missing data imputation of climate datasets:implications to modeling extreme drought events[J]. Revista Brasileira de Meteorologia,2014,29(1):21-28.

[18]Saleem M U,Ahmed S R.Missing data imputations for upper air temperature at 24 standard pressure levels over pakistan collected from Aqua satellite[J].Journal of Data Analysis and Information Processing,2016,4(3):132.

[19]郑小波,罗宇翔,于飞,等.西南复杂山地农业气候要素空间插值方法比较[J].中国农业气象,2008,29(4):458-462.

Zheng X B,Luo Y X,Yu F,et al.Comparisons of spatial interpolation methods for agro-climate factors in complex mountain areas of southwest China[J].Chinese Journal of Agrometeorology,2008,29(4):458-462.(in Chinese)

[20]孟岑,李裕元,吴金水,等.亚热带典型小流域总氮最大日负荷(TMDL)及影响因子研究:以金井河流域为例[J].环境科学学报,2016,36(2):700-709.

Meng C,Li Y Y,Wu J S,et al.Study on total nitrogen TMDL and its contributing factors in typical subtropical watersheds: a case study of Jinjinghe watershed[J].Acta Scientiae Circumstantiae,2016,36(2):700-709.(in Chinese)

[21]李新,程国栋,卢玲.空间内插方法比较[J].地球科学进展,2000,15(3):260-265.

Li X,Cheng G D,Lu L.Comparison of spatial interpolation methods[J].Advance Earth Sciences,2000,15(3):260-265.(in Chinese)

[22]张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概率统计,2016,32(1):101-110.

Zhang X Q,Wang M.Imputation of missing values for compositional data based on principal component analysis[J]. Chinese Journal of Applied Probability and Statistics,2016,32(1): 101-110.(in Chinese)

[23]陈林.基于GIS的流域水文数据的时空分析:以格兰德河流域径流数据为例[D].青岛:山东科技大学,2010.

Chen L.GIS-based spatial-temporal analysis of watershed hydrological data[D].Qingdao:Shandong University of Science and Technology,2010.(in Chinese)

[24]王国荣,俞耀明,徐兆亮,等.数值分析(第三版)[M].北京:机械工业出版社,2005.

Wang G R,Yu Y M,Xu Z L,et al.Numerical analysis(Third Edition)[M].Beijing:Mechanical Industry Press,2005.(in Chinese)

[25]殷杰,石锐.SAS中处理数据集缺失值方法的对比研究[J].计算机应用,2007,27(b6):438-439.

Yin J,Shi R.A comparative study on the method of missing value of data set in SAS[J].Computer Applications,2007, 27(b6):438-439.(in Chinese)

[26]花琳琳,施念,杨永利,等.不同缺失值处理方法对随机缺失数据处理效果的比较[J].郑州大学学报(医学版), 2012,47(3):315-318.

Hua L L,Shi N,Yang Y L,et al.Comparison of different methods in dealing with missing values of missing at random[J].Journal of Zhengzhou University(Medical Sciences), 2012,47(3):315-318.(in Chinese)

[27]蔡浩.地质统计学在地层岩土参数分布规律研究中的应用[D].苏州:苏州科技学院,2015.

Cai H.Applications of geostatistics to research on the distribution of the geotechnical parameters[D].Suzhou: Suzhou University of Science and Technology,2015.(in Chinese)

[28]Hong T,Kim C J,Jeong J,et al.Framework for approaching the minimum CV(RMSE) using energy simulation and optimization tool[J].Energy Procedia,2016,88:265-270.

[29]张桂铭,朱阿兴,杨胜天,等.基于核密度估计的动物生境适宜度制图方法[J].生态学报,2013,33(23):7590-7600.

Zhang G M,Zhu A X,Yang S T,et al.Mapping wildlife habitat suitability using kernel density estimation[J].Acta Ecologica Sinica,2013,33(23):7590-7600.(in Chinese)

[30]于力超,金勇进,王俊.缺失数据插补方法探讨:基于最近邻插补法和关联规则法[J].统计与信息论坛,2015, 30(1): 35-40.

Yu L C,Jin Y J,Wang J.The research of missing data imputation method:based on nearest neighbor imputation and association rules[J].Statistic & Information Forum,2015, 30(1):35-40.(in Chinese)

[31]阎洪.薄板光顺样条插值与中国气候空间模拟[J].地理科学,2004,24(2):163-169.

Yan H.Modeling spatial distribution of climate in China using thin plate smoothing spline interpolation[J].Scientia Geographica Sinica,2004,24(2):163-169.

[32]Noor N M,Abdullah M M A B,Yahaya A S,et al.Comparison of linear interpolation method and mean method to replace the missing values in environmental data set[J]. Materials Science Forum,2015,(5):10.

[33]唐云辉,高阳华.基于邻域特征的温度缺失值的填补方法[J].中国农业气象,2008,29(4):454-457.

Tang Y H,Gao Y H.Imputation method of missing temperature data based on neighborhood features[J].Chinese Journal of Agrometeorology,2008,29(4):454-457.(in Chinese)

[34]赵彦锋,陈杰,齐力,等.不同采样尺度下土壤图和Kriging法的空间估值精度比较:以砂姜黑土典型地区的研究为例[J].土壤通报,2011,(4):872-878.

Zhao Y F,Chen J,Qi L,et al.The comparison of soil map and Kriging methods for spatially prediction precision of soil properties with different sample spacings:a case of Shajiang black soil area[J].Chinese Journal of Soil Science,2011,(4): 872-878.(in Chinese)

[35]Yozgatligil C,Aslan S,Iyigun C,et al.Comparison of missing value imputation methods in time series:the case of Turkish meteorological data[J].Theoretical and Applied Climatology, 2013,112(1-2):143-167.

Performance Comparison of Different Interpolation Methods on Missing Values for Time Series Data——A Case Study of Meteorological and Hydrological Data in Subtropical Small Watershed

GAN Lei1, 2, ZHOU Jiao-gen2, SHI Jin2, 3, LI Xi2, SHEN Jian-lin2, LV Dian-qing1, LI Yu-yuan2,WU Jin-shui2

(1. College of Resources and Environmental Sciences, Hunan Normal University, Changsha 410081, China; 2. Key Laboratory of Agro- ecological Processes in Subtropical Region, Institute of Subtropical Agriculture, Chinese Academy of Sciences, Changsha 410125; 3. College of Engineering, Hunan Agricultural University, Changsha 410128)

The effective estimation of the missing values of time series data at the scale of point process could improve its data quality. The meteorological and hydrological data sets (daily maximum air temperature, daily minimum air temperature, daily solar radiation, daily rainfall and daily stream flow) were collected through the long-term field experiments in a typically small subtropical watershed in subtropical zone. The performance differences within five interpolation methods of linear interpolation method(LIM), K-Nearest neighbor interpolation method(KNNM), spline interpolation method(SIM), polynomial interpolation method(PIM) and kernel density estimation method(KDEM) were analyzed on the above-mentioned five data sets. The root mean square error(RMSE), absolute mean error(MAE) and Pearson correlation coefficient(r) were selected to evaluate the advantages and disadvantages of the five methods. The results showed that: (1) The estimation performance of LIM, SIM and KDEM was generally superior to the other two methods. (2) The estimation of the missing values of meteorological data (maximum temperature, minimum temperature and solar radiation) produced the varying values of the three evaluation indices with RMSE values of 1.81-6.35, MAE values of 1.30-4.20 and r values of 0.70-0.98 (P<0.05), respectively. In contrast, the estimation of missing values of hydrological data (rainfall and stream flow) had relatively high values of RMSE and MAE which were 12.51-26.28 and 3.60-14.21, respectively, and low values of r (0.07-0.72). So the above-mentioned interpolation methods generally produced better estimation of missing values of meteorological data sets than those of hydrological data. (3) Additionally, the coefficient of variation (CV) of the above data sets linearly correlated with the evaluation indices (RMSE, MAE and r) (P<0.05), and played an important role in affecting the valuation performance of the above-mentioned interpolation methods.

Missing values;Interpolation methods;Coefficient of variance;Time series

10.3969/j.issn.1000-6362.2018.03.007

甘蕾,周脚根,石锦,等.点源时间序列数据缺失值的估值方法比较:以小流域气象和水文数据为例[J].中国农业气象,2018,39(3):195−204

收稿日期:2017-07-13

通讯作者。E-mail: zhoujg@isa.ac.cn

国家科技支撑计划项目(2014BAD14B02);水利部公益性行业科研专项经费项目(201501055);湖南省地理学重点学科建设项目(20110101)

甘蕾(1992-),女,硕士生,主要从事水文生态与环境研究。E-mail:805150477@qq.com

猜你喜欢

点源插值法降雨量
InSAR形变场最佳插值算法对比研究
基于反射点源阵列的光学遥感卫星在轨辐射定标方法
来安县水旱灾害分析与防灾措施探讨
德州市多年降雨特征分析
降雨量与面积的关系
小区域GNSS高程异常拟合方法研究
《计算方法》关于插值法的教学方法研讨
《计算方法》关于插值法的教学方法研讨
基于等效距离点源法的地震动模拟方法研究
静止轨道闪电探测性能实验室验证技术研究