APP下载

上海市流行性腮腺炎疫情时间序列模型建立的初探

2018-11-20吴琳琳孙晓冬胡家瑜李智杨建萍

上海预防医学 2018年7期
关键词:时间序列分析预测

吴琳琳 孙晓冬 胡家瑜 李智 杨建萍

摘要:【目的】探讨时间序列模型在流行性腮腺炎(流腮)预测中的应用,建立上海市流腮发病的预测模型,预测2017年上海市流腮发病趋势。

【方法】收集中国疾病监测信息报告系统中的上海市2005年1月—2016年12月流腮月报告发病资料,使用SPSS软件进行建模,考虑季节因素建立ARIMA (Autoregressive Integrated Moving Average)乘积季节预测模型,并用所建模型预测上海市2017年流腮发病趋势。

【结果】ARIMA(1,0,0)(1,1,0)12可较好地拟合流腮发病的时间序列趋势,对2005—2016年流腮发病数预测值与实际值吻合程度高,平均相对误差为879%,2017年流腮预测病例数为2656例。

【结论】ARIMA乘积季节模型可较好地拟合流腮发病的时间序列趋势;与2016年相比,预测2017年流腮报告发病数相对平稳。

关键词:时间序列分析;流行性腮腺炎;预测

中图分类号:R1818 文献标志码:ADOI:1019428/jcnkisjpm201818669

引用格式:吴琳琳,孙晓冬,胡家瑜,等.上海市流行性腮腺炎疫情时间序列模型建立的初探[J].上海预防医学,2018,30(7):557561.

流行性腮腺炎(简称“流腮”)是一种在全球范围内广泛流行的急性呼吸道传染病,其疾病谱从隐性感染至无菌性脑膜炎、睾丸炎、耳聋等,且疾病严重程度随年龄增长而增加[1]。多发于儿童和青少年,亦可见于成人, 且年长的青少年和成人的发病率有上升的趋势[24]。

时间序列预测是根据现在与过去的随机序列的样本取值,对未来某一时间段的随机变量记性估计[5]。ARIMA是时间序列分析方法中重要的预测模型之一,其综合考虑了长期趋势、周期变化和随机干扰因素,借助模型参数的变化对数据进行量化表达,可以达到较好的预测效果[67]。本研究旨在通过对流腮历史报告发病数的分析,采用时间序列分析中的ARIMA模型进行流腮报告发病数的拟合,建立流腮报告发病数的预测模型, 并对2017年上海市流腮发病趋势进行预测。

1材料与方法

11资料来源

流腮发病资料来源于中国疾病监测信息报告系统。[JP2]按发病日期收集2005年1月—2016年12月上海市流腮的分月报告发病数进行时间序列分析。[JP]

12方法

[JP2]采用SPSS 170统计软件的ARIMA分析方法,通过数据处理及模型识别、[JP3]模型检验和产生预测等步骤对上海市2005—2016年流腮月发病数进行时间序列分析,并对2017年流腮月发病数进行预测。[JP]

ARIMA模型是传统的时间序列模型,由Box和Jenkins于1970年提出,也称为BoxJenkins模型。季节乘积性ARIMA模型是将随机季节模型与ARIMA模型相结合,其结构为ARIMA(p,d,q)(P,D,Q)s,其中(p,d,q)和(P,D,Q)分别为非季节性和季节性自回归(AR)、差分(I)和移动平均(MA)的阶数,s代表季节周期。模型建立的主要步骤为[8]:① 序列平稳化检验和处理:通过对已有时间序列数据进行差分,使该序列满足零均值且方差不随时间变化,根据差分次数确定d或(和)D。② 模型识别:序列平稳后,通过观察序列的自相关系数(autocorrelation function,ACF)、偏自相关系数(partial autocorrelation function, PACF)和SPSS 拟合结果,确定备选模型。③ 参数估计和模型检验:利用非线性最小二乘法估计模型参数,ARIMA 模型筛选依据为贝叶斯信息准则(Bayesian information criterion BIC)、残差和模型检验分析。对模型的参数进行统计学检验和残差的白噪声检验。④ 模型预测:用所筛选的最优模型,对模型进行预测,得到原序列将来的趋势。根据预测值与实际值的平均预测相对误差来评价预测效果。

2结果

21流腮报告病例时间分布情况

2005年1月—2016年12月上海市流腮月报告发病数波动较大,每年均出现夏季的发病高峰月份,且发病高峰出现的时间比较一致,呈明显的周期性、季节性变化(图1)。

22建立模型

221序列的平稳化处理通过原始时间序列图发现,原始时间序列不满足平稳性的要求,且存在以12个月为一个周期的季节性波动,[JP2]同时游程检验结果显示,流腮游程数为28,检验统计量Z=-7229, P<001,表明其序列不满足序列平稳性要求,需进行平稳化处理。对原始序列进行1次季节性差分,消除季节的影响。差分后序列的均值在0上下波動(图2),认为此时序列已消除了季节影响,基本符合ARIMA模型的平稳性的要求。[JP]

222模型的建立与检验对差分后的数据序列进行ACF和PACF分析,ACF,PACF函数既不截尾也不拖尾,也不呈线性衰减趋势,判断数据序列适合于乘积季节模型(图3、图4)。根据差分情况以及序列特征,可初步判断该时间序列为符合季节模型ARIMA(p,0,q)(P,1,Q)指定“专家建模器”拟合ARIMA模型并自动检测加法离群值,自动识别模型参数为ARIMA(1,0,0)(1,1,0)12。通过拟合优度统计量比较多个模型间的拟合优劣性,BIC值较小的模型较好。分析发现最优模型为ARIMA(1,0,0)(1,1,0)12。BIC=-1913,残差LjungBox Q=16028,P=0451,差异无统计学意义,可认为残差序列为白噪声。

223预测用ARIMA(1,0,0)(1,1,0)12模型对2005—2016年流腮分月病例数进行回代拟合,结果显示,ARIMA拟合值与真实值之间基本吻合,均落入95%置信区间内,平均相对误差为879%。应用该模型预测2017年1—12月上海市流腮月发病数(表1),并绘制实际值与预测值序列图(图5),发现实际值与预测值基本吻合,进一步计算可得2017年拟合流腮病例数为2656例。

3讨论

时间序列分析是一种重要的现代统计分析方法,[JP2]其模型广泛地应用于自然领域、社会领域和科学研究。ARIMA模型是最常用的时间序列模型,其建模预测精度较高,可较好地用于疾病发病或死亡的预测预报,特别是针对有季节性变动的时间序列[9]。考虑到季节性和周期性等因素对平稳性的影响,本研究采用了ARIMA模型。此外,由于在总人口数没有太大波动时,发病人数本身也能反映疾病疫情的发展趋势。因此,本文直接用发病人数的预测来了解未来流腮的发病情况。[JP]

本研究用上海市2005—2016年共计168个月的流腮发病数据,建立了ARIMA预测模型,经过模型检验,表明ARIMA模型能较好地用于流腮发病的预测,模型预测精度较高。对组内资料的拟合结果显示,发病数拟合值曲线与实际值曲线基本一致,流腮发病数实际值均落入拟合值的95%CI内。2017年上海市流腮发病预测为2656例,较2016年的实际报告值2394例上升了1094%,较2016年预测值上升了107%,预测2017年流腮疫情应比2016年稍高,但变化不大。因此,要继续落实麻腮或麻腮风疫苗的常规免疫接种工作,不断监督和落实腮腺炎疫情预防控制措施,以便及时有效地控制疫情。

本研究运用ARIMA模型建立了上海市流腮发病的时间预测模型,并对其预测效果进行了评价,达到了较好的拟合和预测效果,但本研究所用的数据仅包含时间和月发病例数,并未包括其他造成发病变化的因素,如接种率情况、气候变化情况及疫苗纳入免疫规划情况等等。因此,虽然模型统计量Q值显示模型拟合较好,但模型解释仍需谨慎。在实际应用中,由于所建模型是以历史监测数据序列为依据而建立的,时间序列分析是一种适合短期预测的技术,随着预测期的延长,会加大误差,降低预测的精度。因此,在今后的工作中,可以继续累积新数据,加入流行的周期因素修正模型,进而提高预测精度,能更准确地指导防控工作。

参考文献

[1]GALAZKA A M,ROBERTSON S E,KRAIGHER A.Mumps and mumps vaccine:a global review[J].Bull World Health Organ,1999,77(1):314.

[2]程玲,黄富礼,钟利,等.流行性腮腺炎152例流行病學及临床特点调查分析[J].现代医药卫生,2014,30(6):839840,842.

[3]陆瑾,姜铭波,牟文,等.上海市黄浦区1990—2015年流行性腮腺炎流行趋势分析[J].上海预防医学,2017,29(5):358361.

[4]李未,常玥,靳妍.台州市2004—2012年流行性腮腺炎流行病学分析[J].上海预防医学,2013,25(8):437439.

[5]王春平,王志锋,单杰,等.随机时间序列分析法在传染病预测中的应用[J].中国医院统计,2006,13(3):229232.

[6]张爱红,周培,申铜倩,等.乘积季节ARIMA模型在食源性疾病预测中的应用[J].中国卫生统计,2014,31(1):6869,73.

[7]陈伟,陈正利,李少芬,等.ARIMA模型在河南省梅毒月发病率预测中的应用[J].中国卫生统计,2013,30(4):604606.

[8]时照华,苏虹,秦凤云,等.ARIMA模型在常见呼吸道传染病疫情预测中的应用[J].安徽医科大学学报,2013,48(7):793786.

[9]梁景星.GM(1,1)灰色模型和ARIMA模型在我院季度入院人数预测中的比较分析[J].中国卫生统计,2014,31(1):107109.

(收稿日期:20180205)

猜你喜欢

时间序列分析预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
选修2—2期中考试预测卷(A卷)答案与提示
选修2—2期中考试预测卷(B卷)答案与提示
基于R软件的金融时间序列的预测分析
淮北市生态足迹动态演变分析
微信公众号未来发展态势的实证预测
基于MATLAB的时间序列预测
中国石化产业产能过剩测度及预警
宏观审慎框架下中国上市银行系统性风险监测研究