APP下载

基于时间序列的亳州白芍产量预测分析

2016-01-25

呼伦贝尔学院学报 2016年3期
关键词:亳州白芍预测

马 健

(亳州职业技术学院信息工程系 安徽 亳州 236800)

1.引言

在人们生活中存在许多的时间序列,涉及到多个领域。从事科研考察、人文地理观测等科学研究;医生对病人的治疗过程中记录的病例、仪器检查等数据;人们比较关注的股票信息及股票日常交易量;企业对产品在市场中销售的记录及产品生产数据记录;农户对农产品种植的过程的数据记录以及对农产品种植产量的数据记录等都是时间序列数据[1]。时间序列则是将原始的数据利用各种时间序列模型建立预测线,并利用该模式建立的预测线来预测未来可能发生的情况。

空间序列规则是一种建立在时间序列的基础上,随着时间的变化,结合空间序列规则自身的特点,在空间数据库中对其某一数据找出其变化的规律。将空间数据的预测结合时间序列分析方法应用到亳州白芍产量上,可以对亳州白芍产品进行序列规则挖掘,能够有效地处理亳州白芍产量的数据,从而得到亳州白芍种植产量的预测,为今后亳州白芍的种植和销售起到了重要数据参考。

随着信息技术的飞速发展,通过将物联网技术与白芍种植进行结合,应用计算机技术对白芍的种植和产量进行跟踪,从而产生大量的时间序列数据,为今后的数据挖掘提供了有力的数据依据。

2.研究方法

传统的序列模型给决策者的信息非常有限,例如某产品被购买的先后顺序关系,并无法告知决策者这些被购买的事件相距的时间,因此大大降低决策者的决策能力。在时间序列型数据库中,提出周期性挖掘(segment-wise periodicity),将挖掘的过程限定在某个时间范围之内,反而会更有意义[2]。时间序列分析经过几十年的发展,已经在各个方面得到体验,可以对数据进行系统分析、预测。

2.1 基于ARMA模型的序列匹配方法。ARMA模型在产量预测过程中既要考虑种植的白芍每年的产量指标在时间序列的依存性,又要考虑受外界环境影响产生的波动的干扰性,是一种较为平稳的短期预测和准确率较高的方法,目前在股票预测、市场分析等方面得到广泛应用[3]。ARMA模型主要应用在平稳序列,在对非平稳序列进行预测,则需要对其处理,从而产生一个平稳的序列拟合模型,对产品进行预测,提取相关有用的信息。

2.2 基于离散傅里叶变换(DFT)对时间序列匹配方法。离散傅里叶变换主要是对数据进行变换处理,在固定的区域时间序列对数据分析尤为重要[4]。如果采用离散傅里叶变换对白芍产量进行预测,要考虑到序列的取值问题,序列之间相似包括两种情况,一种是整体序列匹配,一种是子序列匹配,在某种条件下,发现两种序列的取值相差较大,而趋势走势相差较小。这种情况离散傅里叶变换就要进行偏移和调整,然后再对时间序列的子序列和整体序列匹配进行分析,从而提高精确度。

2.3 基于人工神经网络方法。人工神经网络是一个由一些被称为神经元的处理单元所组成的网络,而神经元可以被用于确定一个复杂过程中的输入、输出关系[5]。它是一种非线性的统计数据的建模工具,现有很多应用采用了人工神经网络进行预测,但是在对时间序列预测方面还存在若干个缺点,不能对挖掘质量得到保障,预测的结果可能会出现偏差。

3.时间序列预测模型

时间序列是指按照时间顺序获得的一系列观测值,不仅可以从数量的角度来分析某一现象产生的规律,也可以从变化的角度在近年来,在股票预测价格、网络流量等方面研究取得了一些成果[6]。时间序列预测根据时间变化建立相应的预测模型,常用的几种模型有自回归模型和移动平均模型以及在此基础上进行改进的自回归移动平均模型和自回归求和移动平均模型等,依据这些模型对数据进行分析和预测。

3.1 自回归模型

根据上式可以得出结论,关于在AR(p)模型中,可以看出ACF的值是按照指数率来决定,随着时刻的变化,在运行过程中某时刻之后不能为零,而是慢慢衰减。

3.2 自回归移动平均模型(ARMA)

一般形式的ARMA(p,q)的描述如下:

3.3 自回归求和移动平均模型(ARIMA)

ARIMA模型预测的原理来源于数学模型,是由BOX和Jenkins在70年代提出的一种在时间序列过程中对某预测对象进行预测的方法。ARIMA主要是通过时间变化对某一对象进行监测,产生一系列的变化的数据,然后利用数学模型对其变化的数据进行分析和描述,通过模型的建立和数据的分析产生的序列的数据对将来依据该模型产生的数据进行预测。

(1)ARIMA方法预测的步骤。

首先对数据进行采集,对原始数据进行预处理,去除冗余部分数据,然后选择一个数据模型对数据进行识别,分析其数据随时间变化而产生的规律,通过估计模型中参数的设置来对序列进行检验,通过检验,直接输出结果,对未来的数据进行预测,如果输入参数不能通过检验,则需要返回到模型识别模块,对其重新识别,直到检测通过,可以对未来的数值进行预测,才能应用到实际工作中。建模流程如图1所示。

时间序列是指在某一种情况下,随着不同时间产生的一组数据。设为一个在等间隔时间采集得到的时间序列,t为第t个时间点,xt为xt时刻亳芍产量的时间序列值。

图1 建模流程图

(2)ARIMA(p,d,q)模型 ARIMA(p,d,q)模型的一般形式为

4.利用ARIMA对亳芍的预测

4.1 数据来源

实验数据来源于安徽亳州某种植基地提供的5年起的白芍产量数据。本文将1998~2013年亳州某种植基地种植的白芍产量数据作为初始数据,通过数据的预处理,再通过模型建立和模型灵敏度分析。将 2011~2013年的数据用于模型检验。实验数据如表1所示。

表1 1998-2013年白芍产量统计表

对原始数据做时间序列图,如图 2所示,从图2可以看出,白芍产量在过去的15年间虽然有一定的波动性,但在总体分为两个阶段,1998年到2004年期间是呈上升趋势,2005-2013年期间呈下降趋势,白芍的产量为非平稳时间序列。

图2 1998-2013年白芍产量

4.2 模型识别

模型识别是要根据需预测对象在某时间序列中产生的特点,来选择相应的类型,本文针对亳州白芍产量的数据进行分析,选取的时间序列自相关和偏相关等函数均是拖尾的。

为了解决白芍产量非平稳时间序列问题,消除其线性趋势,就要对其数据进行差分平稳化处理,结合亳州白芍产量的实际情况,本文采用序列为ARIMA(p,d,q)序列。经判别 p、d、q 适合的数值,选择一些特定的 ARIMA 模型,接着便可估计模型中自我回归及移动平均项的系数,这可使用最小平方法或最大概似估计法计算求得,目前皆可借用统计软件来处理,根据 Akaike于 1976年提出的 BIC准则来判定模型的最佳阶数,使得AIC或BIC值达到最小的模型是最优模型。经过两种模型的对比,得出在收敛标准的最大值为10、参数为0.001%的平方的情况下,设置参数(p,d,q)=(1,2,1)时,AIC值(270.121)和BIC值(272.792)达到最小,此模型相对最优。

4.3 适应性检验

建立一个能够对序列中数据进行有效提取的模型,是具有关键性作用,可以拟合残差序列不再蕴含任何相关信息,称之为白噪声序列。通过模型的建立和参数估计,利用SASS系统的x2检验和单样本K-S检验的方法,对本文建立的模型识别产生的序列进行适应性检验,

4.4 实际拟合与预测检验

4.4.1 实际拟合

通过图 3 1998-2013 预测与实际对比图可以看出,ARIMA(1,2,1)模型预测的白芍的产量与实际白芍产量的拟合效果较好,可以使用该模型预测未来亳州白芍的产量。

图3 1998-2013 预测与实际对比图

4.4.2 预测检验

运用ARIMA(1,2,1)模型预测2013-2015年的白芍产量,所得的值与实际值的比较结果如表2所示。

表2 2013-2015年的白芍产量对比值

4.5 预测结果

通过对1998-2003亳州白芍产量的实际拟合,利用ARIMA(1,2,1)模型预测对2013-2015年白芍产量进行预测,由表2可以看出,2013-2015三年的白芍产量的实际值与根据ARIMA(1,2,1)模型得到的预测值之间的误差很小,相对误差均控制在6%以内,达到了预测的目的。因此,可以使用该模型进一步对亳州白芍未来的产量进行预测。

5.结论

亳州是中国四大药都之首,种植中草药面积已有100万亩以上,亳州白芍种植占有主体地位。本文针对亳州白芍种植产量的情况,结合现有的数据挖掘技术,对亳州白芍产量进行预测。通过对时间序列分析和时间序列预测模型的建立及识别的研究,应用到白芍产量上进行预测。实验结果表明,采用时间序列数据挖掘方法对白芍产量进行趋势预测,预测的可信度较高,该方法具有可行性,可以对亳州白芍未来的产量进行预测,同时更好的监控市场上亳州白芍价格和库存等销售问题,为亳州中草药发展提供了科学依据。

猜你喜欢

亳州白芍预测
无可预测
亳州司尔特——助推当地经济快速发展
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
白芍多糖抑制酪氨酸酶活性成分的筛选
HPLC法同时测定白芍配方颗粒中5种成分
居· 文化
不必预测未来,只需把握现在
白芍花开
不同干燥方法对白芍中6种化学成分的影响与评价