APP下载

基于时间序列的全国棉花产量预测方法研究

2018-06-29梁后军冯宜强谢睿周万怀常郝刘从九徐守东李浩

中国纤检 2018年6期
关键词:差分棉花建模

文/梁后军 冯宜强 谢睿 周万怀 常郝 刘从九 徐守东 李浩

1 引言

长期以来,我国棉花的生产与需求呈现出巨大的波动性,供不应求与供过于求、卖棉难与买棉难的问题交替发生,使我国棉花生产陷入一种短缺与过剩的周期波动之中。只有及时、准确地提供有效的棉花生产与消费的监测预警信息,引导棉花生产、销售、贮存和加工等产业采取合适的对策,降低棉花产业波动,降低市场风险,保护棉花产业链上各方的利益,才能保证棉花产业的可持续发展。

随机时间序列分析方法中的差分自回归移动平均(Auto-Regressive Integrated Moving Average,ARIMA)模型是预测某对象未来走势的常用方法。该模型的基本原理是利用样本序列的自相关及偏自相关性,通过定阶、检验、优化等步骤,逐步提取样本序列的总体趋势信息、周期波动信息及随机游走信息等,预测样本的未来走势。该方法具有灵活简便及短期预测精确度高的特点,已被广泛应用于传染病的防控工作[1]、医学和公共卫生领域及农业的生产指导工作[2-3]。关于棉花产量预测方面,李鹏程、董合林[4]根据联合国模拟世界纤维市场的预测,对2020年世界棉花形势进行了说明,认为2020年世界棉花产量预计将增加到3200万吨,其中发展中国家(地区)将继续占世界棉花产量的大部分份额。张闻、韩金等[5]通过多项式拟合的方法,针对2016年新疆棉花产量进行了预测,并基于预测对棉花加工工作提出了建议。本研究以1978—2017年全国棉花产量为基础,基于时间序列建模方法逐步建立ARIMA模型,并外推预测2018、2019年的全国棉花产量,以期为棉花产业的生产、加工提供依据。

2 基于ARIMA模型的我国棉花产量预测

研究基于1978—2017年我国棉花总产量数据(数据来源:国家统计局网站),运用ARIMA模型预测2018、2019年全国棉花总产量。ARIMA模型是时间序列建模方法中经典模型之一,主要用于时间序列变量的短时预测分析,是经济、管理科学研究中比较常用的一种预测方法。只要待分析变量随着时间发展呈现出一定变化趋势,就可以尝试使用该方法进行建模,而无需考虑该变量的其他相关影响因素及状态;只要建模过程中每个步骤都符合模型的约束、检验准则,则可以认为模型合理、预测结果基本有效。我国棉花产量的历年统计值就是一种典型的时间序列变量,可以选择运用ARIMA模型进行建模并进行短期趋势预测分析。

运用ARIMA模型的预测步骤为:首先,检验1978—2017年我国棉花产量统计数据的时间序列平稳性,若原始序列平稳则可以尝试用ARMA模型,若通过d次差分将原始非平稳序列转化为平稳序列,则可进一步用ARIMA模型建模;其次,建立、检验、选择相应ARIMA模型拟合1978—2016年我国棉花产量,并将其与2017年的实际值比较,判断模型拟合效果;最后,运用ARIMA模型预测分析2018、2019年我国棉花产量。

2.1 ARIMA模型的形式

设棉花产量的时间序列cottont是d阶单整序列,即cottont~I(d),则

ωt为平稳序列,即 ωt~I(0) ,于是可以对ωt建立ARMA(p, q)模型

用滞后算子表示,则

式中

经过d阶差分变换后的ARMA(p,q)模型称为ARIMA(p,d,q)模型,公式(3)等价于下式

1978—2017年我国棉花产量变化趋势如图1所示。从图1看出,1978—2017年期间我国棉花产量在波动中总体保持增长态势,但从2008年开始,总体呈下降趋势,特别是2016年棉花产量创下了近12年以来新低,宏观层面可能是受到了2008年开始的经济危机的影响,微观层面生产成本提高、种棉花不赚钱,棉农种棉积极性降低,棉花种植面积不断下降,进一步凸显了棉花产量、质量、效益间的不均衡。

图1 1978—2017年我国棉花各年产量

2.2 我国棉花产量时间序列数据的平稳性分析

表1 棉花产量时间序列数据ADF单位根检验

在1%、5%、10%的置信水平下,t检验都没有通过,表明我国棉花产量时间序列数据不平稳。可考虑对原数据进行一阶或二阶差分,建立ARIMA模型。表2是对原始数据一阶差分后ADF单位根检验的结果。可以看到p值为0,<0.05(置信水平),表明一阶差分后的数据是平稳的,因此可以在一阶差分的基础上建立ARIMA模型。

表2 棉花产量时间序列数据一阶差分后ADF单位根检验

2.3 ARIMA(p,d,q)模型的建立

因为原始序列在一阶差分后平稳,如图2所示,所以这里d=1,我们着重讨论AR项和MA项的滞后阶数p和q。

图2 各年棉花产量一阶差分时序图

首先采用增广的Dicky-Fuller单位根法对原始序列进行单位根检验,1978—2017年我国棉花产量时间序列数据ADF单位根检验结果见表1所示。

通过自相关系数和偏自相关系数来识别模型的阶数,如图3所示,对自相关系数和偏自相关系数的拖尾、截尾形态进行观察,尝试用ARIMA(1,1,1)、ARIMA(1,1,2)、ARIMA(2,1,1)以及ARIMA(2,1,2)4种形式分别建模,最后发现ARIMA(1,1,1)的效果最好,AIC和SC的值都是最小的,模型结果见表3、表4所示。

图3 一阶差分自相关、偏相关系数及图形

2.4 系数的显著性检验

在0.95的置信水平下,AR(1)项和MA(1)项的t检验对应的Prob分别为0.0001和0,都小于0.05,因而系数的显著性检验通过;F检验是衡量回归方程整体显著性的假设检验,F值越大越显著,模型F统计量的P值[Prob(F-statistic)]为0.0224,小于0.05,表示模型整体显著;DW(Durbin-Watson stat)值是用来检验序列自相关性的,本模型中DW值是1.936554,很接近2,表明建立的模型已消除一阶自相关,模型的参数检验通过。

因此,构建的模型为

2.5 残差序列的白噪声检验

模型的残差序列应当是一个白噪声序列,因此接着对模型的残差序列进行白噪声检验,这里主要是构建Q统计量,在0.95的置信水平下,当Q统计量的p值<0.05时,可以认为以0.95的置信水平拒绝原假设,认为该序列是非白噪声的;否则,接受原假设,认为残差序列是纯随机的。检验结果见图4所示,Q统计量的p值都远远大于0.05,可以认为残差序列为白噪声序列,模型信息提取比较充分。AR项和MA项的系数t检验通过,模型的F检验也通过,因此可以认为整个模型比较精简,模型较优,公式(6)即为最终模型。

图4 残差序列的白噪声检验

2.6 预测

表3 我国棉花产量ARIMA模型回归结果(1)

表4 我国棉花产量ARIMA模型回归结果(2)

运用所建立的ARIMA(1,1,1)模型预测2018—2019年我国棉花产量,2018年度棉花产量预测值562.7934万吨,2019年度棉花产量预测值573.8093万吨。

表5 ARIMA(1,1,1)模型外推统计参数

可见未来两年,我国棉花总产量持续增长,与2017年全国棉花总产量548.6万吨相比,2018年比2017年增长14.1万吨,2019年比2018年增长11.1万吨。反映未来两年棉花行情可能会逐步回暖,相信在全国农业技术推广服务中心《2018年棉花前期生产技术指导意见》,以及国家实行的棉花生产新疆直补方案与内地定额补贴政策的指导下,农民种植棉花的积极性会有所提高,我国的棉花生产潜力仍有较大上升空间。

3 总结与讨论

近年来,时间序列分析因可用于预测未来走势而迅速活跃于医学和公共卫生领域及农业的生产指导工作。其中,ARIMA模型是最常用、最经典的随机时间序列预测和控制的方法,其建模基本思想是利用适当的差分运算实现序列平稳,然后拟合ARMA模型提取序列有效信息。该法无需考虑客观事物之间的关系及影响预测对象因素的多少,仅依据连续收集预测对象过去的统计数据,即可找到其随时间变化的规律,建立时序模型,对未来进行预测。同时可将各种影响预测对象的相关因素(包含未知因素)统一蕴含于模型之中,综合性提取序列的确定性信息(长期趋势 、季节变动 、循环变动等)和随机性信息,并能将其综合作用关系借助模型参数量化于具体的函数表达式中,弥补了传统回归分析法和传统时间序列分析法的不足。整个建模过程步骤清晰,操作简便,短期预测结果可靠。

本文利用1978—2017年全国棉花总产量资料进行时间序列分析,通过差分运算、模型定阶、参数估计与检验等过程建立ARIMA(1,1,1)模型,探讨未来两年棉花产量的预测值。结果确定了模型的表达式见公式(6),模型的系数显著性检验通过,残差序列不存在自相关关系,AIC和BC值较小,符合最小信息准则,模型简洁,且预测值与实际值的动态变化路径基本一致。一般认为,MAPE(Mean Abs. Percent Error)是评价模型精度评价中最常用的指标之一,当MAPE<10时,则模型预测精度处在较高水平,当MAPE<5时,则精度很高[6],本研究MAPE=10.54,处在精度较高水平。综上表明,ARIMA(1,1,1)模型可用于我国棉花产量的短期预测。诚然,ARIMA模型仅作为一种数学预测工具,所依据资料的样本含量有限,得到的也仅是理论值,难免会带有局限性,且随着预测时间的延长和未知信息的增多,估计的精度也会越低。因此,为达到有效预测的目的,在使用时应结合动态监测,不断更新数据对模型动态拟合,从而保持较高的预测精度,更加有效指导我国棉花种植与交易工作。

[1]马晓梅,徐学琴,闫国立,等. 基于ARIMA模型预测梅毒月发病率的价值[J].西安交通大学学报,2018,39(1):131-135.

[2]王志忠,刘秀菊,王树林,等. 黄河流域棉花品种产量性状时间序列的模型预测研究[J].棉花学报,2007,19(3):220-226.

[3]王志忠,王树林,祁虹,等. 中国棉花种植面积及皮棉产量时间序列的建模和预测研究[C].中国棉花学会,2011.

[4]李鹏程,董合林.2020年世界棉花形势预测[J].中国棉花,2017,44(05):44-45.

[5]张闻,韩金,单旭.2016年度新疆棉花产量预测分析[J].中国棉麻产业经济研究,2016(06):41-43.

[6]易丹辉.统计预测:方法与应用[M].第二版.北京:中国人民大学出版社,2014:177-216.

猜你喜欢

差分棉花建模
棉花是花吗?
数列与差分
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
棉花
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
心中的“棉花糖”
第三讲 棉花肥害诊断及其防治