APP下载

利用时间序列模型分析预测辽宁手足口病疫情趋势*

2017-01-09辽宁省疾病预防控制中心110005姚文清

中国卫生统计 2016年5期
关键词:口病残差趋势

辽宁省疾病预防控制中心(110005) 王 伶 姚文清

利用时间序列模型分析预测辽宁手足口病疫情趋势*

辽宁省疾病预防控制中心(110005) 王 伶 姚文清△

目的探讨辽宁地区手足口病发病趋势特征,应用时间序列模型进行预测。方法收集辽宁省2008年1月-2013年12月的手足口病月发病数据建立时间序列,采用自回归移动平均季节乘积模型拟合发病情况,对2014年1月~12月的手足口病发病数进行预测,评价预测效果。结果建立SARIMA(0,1)×(1,1)模型,预测平均相对误差为21.58%,希尔不等系数为0.115236。结论辽宁地区手足口病疫情趋势平稳,呈现周期为12月的季节性波动,所建立的模型时防控工作具有指导意义。

时间序列分析 手足口病 预测

手足口病作为一种多发的儿童传染病,其发病率和死亡率均在法定丙类传染病中居高不下,近年来引起了社会的广泛关注。手足口病主要通过消化道、呼吸道和接触传播,感染途径易于实现,影响发病的因素多种多样。本文通过分析手足口病的逐月发病数据,探索疫情发展趋势特征,并尝试运用时间序列分析方法建立SARMA模型,以往期数据拟合数学模型,预测未来12个月发病情况,为预防控制手足口病提供科学的依据。

资料与方法

1.资料

数据来源于《中国疾病预防控制信息系统》,按“发病日期”下载2008年1月1日-2014年12月31日的手足口病病例资料,以“月”为单位建立手足口病发病数的时间序列。

2.方法

(1)HP(hodrick-prescott)滤波法:时间序列数据可以看作由趋势成分和波动成分两者组成,而通过设定一个损失函数使其最小化,寻找到可以描绘该序列变量发展方向的因素即趋势成分,通过HP滤波技术分解,一个时间序列可以分解为趋势成分和波动成分,前者代表长期变动方向,后者代表短期波动[1]。

(2)构建时间序列模型并进行预测:SARMA模型又称自回归移动平均乘积性季节模型,是时间序列分析中简单又实用的模型之一,且预测精度较高。主要分析步骤包括:①序列平稳性检验:建立模型的前提条件要求分析的时间序列为平稳序列,判断平稳性的检验方法中较为严格的检验方法为单位根检验。②模型的识别:SARIMA(p,q)×(P,Q)模型识别即是p,q,P,Q参数的确定,可以借助自相关函数ACF图和偏自相关函数PACF图进行初步的判断,进而选择几个模型进行下一步的分析。③模型的估计和诊断:对建立的模型利用非线性最小二乘法(NLS)进行估计,同时对模型建立的各项系数进行显著性检验,进一步决定某项是否纳入模型,从而优化模型。评价结果优化的指标包括:调整R2,AIC信息准则,SC信息准则等。对模型的残差序列自相关性进行检验,如果残差序列相关性显著拒绝原假设,即使其他指标较优也要拒绝使用该模型。④模型预测:经过多次修改拟合建立合适的ARIMA模型,并对2014年1月-12月的发病数进行预测,将预测值与实际值做比较,评价预测的精确度。

3.统计学处理

本文利用HP滤波法对2008年1月-2014年的月发病数据序列进行分解,以掌握该数列的时间特征。运用eviews8.0软件对2008年1月-2013年12月建立SARMA模型。

结 果

1.疫情趋势特征分析

绘制数据的时间序列图,并利用HP滤波法对序列数据进行趋势与循环要素的分解,结果如图1,可以观察到该时间序列的长期趋势几乎呈一条直线,具有明显的季节性周期波动特征,周期为12,每年7月为峰值。

图1 2008年1月-2014年12月手足口病逐月发病数据趋势分解图

2.建立模型

(1)数据平稳性检验

采用ADF单位根方法对数据的平稳性进行检验,原假设为:该序列存在单位根,即该序列为非平稳时间序列。结果表明,检验统计量为-2.91,检验统计量的5%临界值为-1.94,而MacKinnon检验的P值小于0.05,认为该时间序列为平稳序列。

(2)模型的识别

进一步分析该序列的自相关和偏自相关图(如图2所示),可以看到,该序列的自相关函数在滞后阶数为12、24处出现峰值,并呈余弦衰减,序列的偏自相关函数是拖尾的,仅在滞后阶数为1和2处取值较大,可考虑对该序列建立季节性乘积SARMA模型,p选1或者2,移动平均滞后阶数q选1,根据文献[2],一般季节性AR和MA的自回归算子阶数不超过1。

图2 序列的ACF图和PACF图

(3)模型的估计与建立

根据上文分析,利用2008年1月到2013年12月的发病数进行低阶拟合,分别建立SARIMA(1,1)×(1,1)12和SARIMA(2,1)×(1,1)12模型,其结果如表1所示。SARIMA(1,1)×(1,1)12模型的AIC和SC信息准则都比SARIMA(2,1)×(1,1)12模型要小,调整R2大于后者,因此选择SARIMA(1,1)×(1,1)12进行建模,其结果如表1所示。

表1 模型的比较

表2 SARIMA(1,1)×(1,1)12模型系数估计结果

模型的系数结果表明,一阶自相关系数及常数项没有通过显著性检验,其余均通过了显著性检验,对模型进行调整,尝试建立SARIMA(0,1)×(1,1)12模型,结果模型系数均高度显著,为了验证该模型是否很好的拟合了原始序列数据,对该模型的残差绘制出自相关和偏自相关图,结果如图3所示,残差的自相关和偏自相关系数基本上都在置信区间里面,同时Q-stat检验表明该残差为一个白噪声序列,说明上述模型已经很好的解释了原始变量的特征,拟合情况比较好,可以用于预测。

图3 残差的ACF图和PACF图

(4)模型的预测

用构建的模型预测2014年1月到12月的发病情况,其中Theil系数为0.115236,接近0,偏差率(BP)=0.222,方差率(VP)=0.031,斜变率(CP)=0.747,说明预测精度高,效果理想[3],平均相对误差为21.58%。其结果如表3所示。

讨 论

时间序列分析是通过研究历史数据内在的发展规律及相依关系,利用时序自身的变化规律来预测未来某时刻的取值,它最早由美国学者博克斯和英国学者詹金斯提出来,并广泛地应用于经济、金融等研究领域。近年来,由于该方法避免了回归分析中分析对象的影响因素复杂和数据资料不易获得的难题,分析过程简便、经济、易操作,因而在甲肝、流感、流行性腮腺炎等很多传染病的分析预测中得到了应用[4-5]。本文绘制的手足口病的时间序列趋势图,清楚地显示了本地区手足口病疫情发展具有明显的季节性特征,每年的6月、7月、8月为高发期,发病数虽然波动很大,但呈现总体趋势平稳状态。这为防控工作提供了重要依据和参考。通过对2008年-2013年72个月发病数据的拟合,建立的模型总体上很好地把握了疫情的发展趋势,尤其是对6-8月流行期的预测基本上达到了应有的效果。值得注意的是,影响手足口病发病水平的因素比较多,它与个体的体质、感染病原、卫生保健意识、生活习惯、居住环境等息息相关[6],在实际应用中,应借助数理模型的技术手段结合丰富的工作经验,合理建立模型以准确预测疫情发展趋势,为防控工作提供有力的科学依据。

表3 2014年辽宁手足口病各月发病数预测值

预测结果与实际值比较而言,虽然模型较好地拟合了往期的数据,但整体预测低估了实际发病水平,且自9月之后预测值与实际值的误差逐渐加大。分析原因:一方面,序列的趋势分解图提示我们发病疫情除了具有很强的季节性波动,在长期趋势上存在着2年的流行周期,这一点不容忽视。另一方面,时间序列分析是一种适合短期预测的技术,随着预测期的延长,会加大误差,降低预测的精度。因此,在今后的工作中,可以继续累积新数据,加入流行的周期因素修正模型,也可以探寻影响手足口病发病产生季节性波动的主要因素,构建多变量的时间序列分析,进而提高预测精度,能更准确地指导防控工作。

[1]薛永刚,张明丽.基于HP滤波和神经网络的疾病预测模型实证研究.数理医药学杂志,2013,26(2):130-132.

[2]博克斯,詹金斯等著,王成璋等译.时间序列分析预测与控制.机械工业出版社,2011,224-225.

[3]易丹辉主编.数据分析与EVIEWS应用.北京:中国人民大学出版社,2008:54-55.

[4]陆波,闵思韬,闵红星等.应用ARIMA模型预测麻疹发病率的可行性研究..中国卫生统计,2015,32(1):106-107.

[5]朱猛,祖荣强,霍翔等.时间序列在流感疫情预测预警中的应用.中华预防医学杂志,2011,45(12):1108-1111.

[6]袁国平,郭祖鹏,杨兴堂,等.手足口病发病影响因素病例对照研究.中国公共卫生,2011,27(11):1407-1409.

(责任编辑:邓 妍)

国家科技重大专项(2012ZX10004-209)

△通信作者:姚文清,E-mail:yaowenqing@lncdc.com

猜你喜欢

口病残差趋势
基于双向GRU与残差拟合的车辆跟驰建模
趋势
手足口病那些事
警惕手足口病
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
肠道病毒71型感染所致危重症手足口病的诊治分析
初秋唇妆趋势
SPINEXPO™2017春夏流行趋势
综合电离层残差和超宽巷探测和修复北斗周跳