APP下载

基于ARIMA的猪丹毒预测模型研究

2012-08-07肖建华栾培贤王洪斌

中国预防兽医学报 2012年1期
关键词:残差发病率检验

徐 强,肖建华,陈 欣,栾培贤,王洪斌

(东北农业大学动物医学学院,黑龙江哈尔滨150030)

猪丹毒(Swine erysipelas,SE)是由猪丹毒杆菌(Erysipelothrix rhusiopathiae)引起的急性、热性、人兽共患传染病,其主要特征为高热、急性败血症、皮肤疹块、慢性疣状心内膜炎及皮肤坏死与多发性非化脓性关节炎。该病流行于世界各地,对养猪业危害较大。

ARIMA模型属于时间序列预测模型[1]。疫病的发病率、死亡率等随时间变化,而且有着明显的时间先后顺序,这种以时间顺序排列起来的一系列观测值称为时间序列。时间序列模型是专门用于分析这种时间序列资料的统计模型,它考虑的不是变量间的因果关系,而是重点考察变量在时间方面的变化规律,并以此为基础建立数学模型。近年来,该模型已经应用于各领域的预测工作中,Allard采用时间序列模型预测传染病的发生;Abeku、Borsboom等采用简单季节调整法预测埃塞俄比亚地区疟疾的发病率[2-3]。本研究采用ARIMA模型,对该地区2005年1月~2009年6月的SE月发病率进行模型建立和拟合,并采用建立的模型对2009年7月~12月的发病数据进行预测,将实际值与预测结果进行比较分析,研究ARIMA模型预测SE发病率的可行性。

1 材料和方法

1.1 材料收集 通过官方网站查找SE在2005年1月~2009年12月该地区的发病数(农业部出版《兽医公报》),同期该地区年底猪存栏数查找自《中国农业统计年鉴》[4-5]。预测所使用的数据为SE的月发病率,计算公式如下:

注:(K为单位系数,月发病率的单位为1/100 000)

1.2 方法原理

1.2.1 ARIMA模型 ARIMA模型即求和自回归滑动平均模型又叫差分自回归滑动平均模型。ARIMA模型可以分为自回归模型[AR(p)]、滑动平均模型[MA(q)]、自回归滑动平均混合模型[ARMA(p,q)]3种,一般表达式为:

ARMA(p,q)模型为线性平稳统计模型,实际应用中的序列多为非平稳序列,需要采用非平稳序列的差分自回归移动平均模型ARIMA(p,d,q)模型,中心化后该模型可记为:

p为自回归项,Φp为模型的自回归系数(模型系数);q为移动平均项,θq为模型的滑动系数,at则为均值为零、方差为σa的白噪声序列,Zt为时间序列在t时刻的预测值,Zt-i为时间序列在t-i时刻的观测值,at-i为时间序列模型在t-i时期的误差或偏差,d为时间序列平稳时所做的差分阶数。

1.2.2 ARIMA模型建立的步骤及评价方法 本研究中ARIMA模型建模过程采用SPSS 13.0统计软件进行。非平稳的时间序列转化为平稳序列采用普通差分、自然对数转换、季节拆分等3种方法,并采用游程检验方法对平稳性进行验证;采用自相关分析、偏自相关分析方法确定备选模型,根据样本自相关、偏自相关图识别模型类别。

依据赤池信息准则(AIC)和Schwarz贝叶斯准则(BIC或SBC)确定模型阶数,改变模型的阶数,使AIC与SBC值最小的模型为最佳模型。最后对所建立ARIMA模型的残差序列at进行白噪声检验,若满足残差不相关原则,所选用的ARIMA模型合格,可以用于预测;反之,则返回第一阶段重新建模。本研究主要参考AIC与BIC准则的结果来确定模型的阶数,采用Box-Jebkins统计量方法验证残差序列是否为白噪声序列。最后采用均方误差(MSE)、平均绝对百分误差(MAPE)来评价模型的精确度。

2 结 果

2.1 SE发病的基本情况 2005年~2009年该地区SE月发病率的时序图显示其存在明显波动,从发病趋势来看大致呈现线性逐年递减的趋势。观察原始序列时序图并结合游程检验的方法,结果显示序列季节性趋势不明显,但存在明显的波动性,序列不平稳,因此要对数据进行平稳化处理。

2.2 预测模型的建立

2.2.1 序列平稳化 采用序列平稳化方法,通过游程检验配合时序图进行筛选,最终对原始序列普通一阶差分处理,并对处理后序列进行平稳性评估。对原始序列时序图分析显示,原始序列存在明显的离群值,为排除离群值对整个序列的影响,在检验新序列平稳性时,本实验选用中位数作为参考值进行检验,另外也选取常用的均值作为参考值检验(表1)。

表1 序列处理前与处理后的游程检验结果Table 1 Diagram of run test after sequence processing of sequence A and before sequence processing of sequence

对表1分析显示,采用中位数作参考值时,双渐近概率p大于0.05,│Z│=0.414<1.96,a=0.05水准,不拒绝H0,支持原假设,表明处理后的序列平稳;同理采用平均数作参考值时,验证结果也是平稳的,本实验中两种参考标准结果是一致的。综上处理后的序列是一个平稳序列,记为实验序列。

2.2.2 模型识别 根据平稳序列所作的自相关图和偏相关图(图1),平稳序列的偏自相关系数在8阶超出了范围,但是由于滞次过大,会导致模型过长从而造成误差较大,本实验将其摒弃。在模型拟合时,ARIMA(0,1,1)、ARIMA(1,1,0)、ARIMA(1,1,1)和 ARIMA(2,1,0)模型值得进一步分析,依次记为模型Ⅰ~Ⅳ。

2.2.3 参数估计与模型检验 对所有模型参数的无效假设是参数的系数为0,备选模型的参数值及检验结果见表2。

表2 序列的备选模型参数估计Table 2 The parameter estimation of unselected model of series

上表中4个备选模型参数显示:只有ARIMA(1,1,0)、ARIMA(2,1,0)两个模型参数估计的p值小于0.05,具有显著性差异,表明参数具有统计意义;同时利用标准误(S.E)、对数似然函数值(LL)、残差方差(RV)、AIC和BIC等方法检验两个备选模型拟合的优劣性(表3)。

表 3显示 ARIMA(2,1,0)模型的 AIC、BIC值分别为337.218、343.289,在备选模型中值最小,并且该模型的RV、S.E均为最小并且参数检验具有统计学意义,因此选用ARIMA(2,1,0)模型进行预测。

表3 备选模型拟合优度统计量Table 3 The statistics of goodness of fitness of unselected mode

2.2.4 模型诊断分析 对选定模型的拟合值进行残差白噪声检验,得出Box-Ljung统计量滞后16阶的p值均大于0.05,差异不显著,不能拒绝原假设,因此残差序列为白噪声序列,表明拟合比较成功,模型通过检验。

通过上述建模过程,确定的原始序列的预测模型为:

2.3 模型拟合与预测 采用ARIMA(2,1,0)模型对2005年1月~2009年6月该地区SE发病率进行回代预测(组内回代),对2009年7月~12月SE发病率进行预测(组外回代)。结果显示预测的动态趋势与实际情况基本一致,表明模型拟合效果较好(图2)。

采用建立的模型对2009年7月~12月的SE月发病率进行短期预测,预测结果如表4。

通过计算预测结果的MSE值为0.203×10-10,MAPE值为0.293,表明明该模型可用于SE发病率预测。

从上表可知2009年7月~12月总体上预测值与实际发病率相差不大,其中10月份预测值和实际值的误差绝对值为0.843×10-5,尽管该月预测值的相对误差较大,但是在畜牧业生产中猪存栏量每年均可达几千万头,相比而言预测误差仍然可以接受,发病率预测比较准确,因此从实际预测需求来讲这样的结果仍然可以满足预测要求。

表4 预测发病率与实际发病率的比较Table 4 Comparison of forecast and practical morbidity

3 讨 论

SE作为一种细菌性传染病,影响其发生、发展过程的因素错综复杂或有关影响因素数据资料无法获得,传统的因果回归分析法无法完成预测。时间序列分析法是假定预测对象的变化仅与时间有关,通过处理预测目标的历史数据,获得事物随时间演变的特性与规律,根据它的变化特征,以惯性原理推测其未来状态,该方法可以克服无法获取疫病影响因素的难题。ARIMA模型是通用的一种时间序列模型,已被广泛应用于疾病发病率的预测[6-7],它不需要对时间序列的发展模式作先验的假设,而且可以通过反复识别修改,直到获得较满意的模型[8]。本研究建立了SE的ARIMA模型,结果显示ARIMA(2,1,0)模型的拟合效果最佳,该模型表明SE当月的发病率与前1~3个月的发病率关系最紧密。

目前,ARIMA模型在动物疫病预测方面应用较少。许丹宁等通过3种模型对猪瘟预测结果进行比较,发现ARIMA模型预测的结果比较准确[9];Li等利用该模型预测新城疫的发病情况[10];本研究应用该模型预测SE的发生,结果比较理想。该模型可能对其他动物传染病的预测有一定的应用价值,值得进一步研究。另外,本研究所采用的数据来源于我国南方某省,因为该省近年来每月均有SE发生,数据连续性较强,而我国多数省份的SE发病数间断较多。本研究所建立的模型能否适合于其他省份,需要对其他省份数据重新拟合并建立模型,有待于进一步研究。

疫病的发生有很多的影响因素,随着防疫、管理等因素的变化,疫病的流行规律也在不断发生变化,因此在实际应用中,当研究对象的惯性趋势发生较大变化时,则需要利用新的数据对模型进行修正或重新拟合,尽可能收集足够多的时间序列数据,对已建立的模型采用新的实际值进行验证,以得到能够反映当前疫情的预测模型。

[1]徐静.ARMA模型及其应用[J].立信会计高等专科学校学报,2001,15(3):21-24.

[2]Allard R.Use of time-series analysis in infectious disease surveillance[J].Bull World Heal Org,1998,76(4):327-333.

[3]Abeku T A,de Vlas S J,Borsboom G,et al.Forecasting malaria incidence from historical morbidity patterns in epidemic-prone areas od Ethiopia:a simple seasonal adjustment method performs best[J].Trop Med Int Heath,2002,7(10):851-857.

[4]中华人民共和国国家统计局.中国统计年鉴[M/CD].http://www.stats.gov.cn/tjsj/ndsj/[2010-08-15].

[5]中华人民共和国农业部.兽医公报[ER/OL].http://www.moa.gov.cn/zwllm/tzgg/gb/sygb/[2010-08-15].

[6]漆莉,李革,李勤.ARIMA模型在流行性感冒预测中的应用[J].第三军医大学学报,2007,29(3):267-269.

[7]李永红,林玖,董柏青,等.ARIMA模型在细菌性痢疾预测中的应用[J].现代预防医学,2010,37(7):1203-1204,1210.

[8]Daniels M L,Dom inici F,Samet J M,et al.Estimating particulate matter-mortality dose-response curves and threshold levels:an analysis of daily time-series for the 20 largest US cities[J].Am J Epidemiol,2000,152(5):397-406.

[9]许丹宁,肖建华,王洪斌.3种模型预测猪瘟发病率的比较[J].中国兽医杂志,2009,45(6):3-5.

[10]Li Jing,Hu Chong-wei,Xu Dan-ning,et al.Application of time-series autoregressive integrated moving average model in prediction the epidemic situation of Newcastle disease[J].Comput Comput Technol Agric,2010,141-144.

猜你喜欢

残差发病率检验
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
多晒太阳或可降低结直肠癌发病率
基于残差学习的自适应无人机目标跟踪算法
ARIMA模型在肺癌发病率预测中的应用
基于递归残差网络的图像超分辨率重建
电梯检验中限速器检验的常见问题及解决对策探究
重庆每小时10人确诊癌症 癌症发病率持续上升
关于锅炉检验的探讨
小议离子的检验与共存