APP下载

SARIMA模型在河南省急性出血性结膜炎发病预测中的应用

2021-06-08张世洁程锦泉1

郑州大学学报(医学版) 2021年3期
关键词:阶数差分季节

张世洁,温 莹,祝 方,程锦泉1,

1)郑州大学公共卫生学院流行病学教研室 郑州 450001 2)深圳市疾病预防控制中心 广东深圳 518073

急性出血性结膜炎(acute hemorrhagic conjunctivitis,AHC)俗称红眼病,是《中华人民共和国传染病防治法》中规定报告的一种丙类传染病。AHC是一种具有高度传染性的病毒性疾病,由肠道病毒70(EV70)、柯萨奇病毒A24变种(CA24v)或腺病毒引起[1-2]。该病潜伏期短,起病急,临床表现主要为双眼疼痛、眼睑肿胀、结膜充血、角膜炎、异物感和眼部分泌物增多[3],其传染性强,主要通过水或直接接触传播,人群普遍易感,较易出现暴发流行[4]。该病一年四季均可发生,具有周期性和季节性特点,夏秋季高温湿热的气候环境有利于病原体的繁殖与传播,多为发病的高峰期[5]。先前关于AHC的多数研究都集中在流行病学和病因学特征上,少有AHC的时间序列分析研究。本文利用Python软件建立季节性差分自回归求和滑动平均(seasonal auto-regressive integrated moving average,SARIMA)模型,对河南省AHC的发病进行分析和预测,以期了解AHC短期发病趋势和规律,为疾病防控提供参考。

1 资料与方法

1.1资料来源河南省AHC月发病资料来源于河南省卫生健康委员会(http://wsjkw.henan.gov.cn/zfxxgk/yqxx/)2013年1月至2020年12月的传染病数据,其中2015年1月和2015年12月数据缺失,利用拉格朗日插值法对数据进行补充[6]。2013年1月至2020年6月的数据用于建立模型,2020年7至12月的数据作为测试集用于验证模型的预测效果。

1.2建模方法SARIMA模型的一般表达式为SARIMA(p,d,q)(P,D,Q)s,其中p、P分别指非季节自回归阶数和季节自回归阶数,d、D分别指非季节差分阶数和季节差分阶数,q、Q分别指非季节偏自回归阶数和季节偏自回归阶数,s指季节的长度[7]。采用Python3.6.4进行建模和数据分析。具体的建模过程如下。①序列的预处理和平稳化:将2013年1月至2020年6月的数据按月份导入,并以月份定义时间序列。绘制并分解时间序列,观察时间序列的总体趋势、季节趋势和随机误差。此后对序列进行对数转换,并进行非季节差分和季节差分,达到序列平稳化的目的,同时给出d和D的值。利用迪基福勒检验(augmented Dickey-fuller test,ADF)判断该序列是否为平稳序列。②模型的识别:绘制出平稳序列的自相关系数(auto correlation function,ACF)图和偏自相关系数(partial auto correlation function,PACF)图,初步确定p、q和P、Q的值;由于P和Q一般不超过2[8],可通过凑试法取拟合效果最佳的模型;s根据疾病的背景知识获得。通过超参数优化输出平稳序列中所有可能的p、d、q和P、D、Q的值,选择AIC或BIC较小的模型作为备选模型。③模型的筛选与评价:首先利用Ljung-Box检验进行模型预测残差的白噪声检验;其次通过参数值和检验统计量,剔除参数没有统计学意义的模型,筛选出最优模型;最后对2020年7至12月的发病人数进行拟合,计算平均绝对误差和平均相对误差。④模型的预测:利用最优模型预测2021年1至12月河南省AHC发病人数。

1.3统计学处理采用Excel软件建立数据库,用Python3.6.4中“pandas”模块和“numpy”模块进行数据处理,“matplotlib”模块实现数据可视化,“statsmodels”模块建立时间序列模型。检验水准α=0.05。

2 结果

2.1发病人数利用拉格朗日插值法估计出2015年1月的发病人数为168,2015年12月的发病人数为184。2013年1月至2020年6月河南省AHC年均发病人数为2 556,月均发病人数为213,发病人数在2017年7月最多,为380。图1展示了AHC逐月发病人数时间和季节性趋势分解结果。长期趋势分析结果表明,2013到2020年,发病人数总体呈先上升后平稳的趋势。季节分解结果显示该病具有明显的季节性周期分布特点,每年的6至8月为发病的高峰期,随机误差保持在一定水平范围内。

图1 2013年1月至2020年6月河南省AHC发病人数的时间序列

2.2时间序列的平稳化随时间的增加时间序列Yt的波动性变化较大,表现出明显的异方差。对Yt进行对数变换,消除异方差,得到对数变换后的序列lnYt。对lnYt进行ADF检验,结果(表1)显示,数据为非平稳序列(P=0.400)。采用1阶12步差分法消除时间序列的趋势和季节影响后,ADF检验显示,该序列为平稳序列(P=0.027),符合SARIMA模型对于平稳性的要求。

表1 lnYt和差分后lnYt的ADF检验结果

2.3模型的识别根据差分结果,可确定s=12,d=D=1,模型表达式为SARIMA(p,1,q)(P,1,Q)12;观察差分后序列的ACF图和PACF图(图2),均显示1阶拖尾,确定P=1,q=1;P、Q分别取0、1、2逐个尝试,选择AIC和BIC最小的模型作为备选模型,SARIMA(1,1,1)(0,1,1)12模型符合要求,纳入为备选模型。此外,使用超参数优化输出p、q、P和Q取值不超过2的模型,除SARIMA(1,1,1)(0,1,1)12模型外,将AIC或BIC最小的模型纳入为备选模型,又选出2个备选模型SARIMA(0,1,1)(0,1,1)12和SARIMA(2,1,1)(0,1,1)12。

图2 差分后序列的ACF图和PACF图

2.4模型的筛选与评价对3个备选模型逐个拟合,结果见表2。3个模型残差的Ljung-Box检验结果显示P均大于0.05,说明均为白噪声序列。仅模型SARIMA(0,1,1)(0,1,1)12的所有参数均存在统计学意义。综合表2结果可知,模型SARIMA(0,1,1)(0,1,1)12的表达式为:ΔΔ12lnYt=(1-0.730L)(1-0.671L12)εt,其中L为后移算子,Δ为非季节差分算子,Δ=1-L,Δ12为12期季节差分算子,Δ12=1-L12,εt为白噪声序列。

利用模型SARIMA(0,1,1)(0,1,1)12拟合2020年7至12月河南省AHC发病人数,结果如表3所示,平均绝对误差为24.50,平均相对误差为10.28%,说明该模型拟合效果较好。该模型仅在 2020年12月的预测上存在较大的相对误差(23.00%),其余各月的相对误差不超过16.00%,提示该模型具有较佳的预测性能。

表3 2020年7至12月AHC逐月发病人数预测结果

2.5模型的短期预测结果利用模型SARIMA(0,1,1)(0,1,1)12对2021年1至12月河南省AHC发病人数进行预测,结果见表4及图3。预计2021年6月份发病人数达到高峰(281),2021年1月份发病人数最少(106),整体的发病趋势与2020年相比略有下降。

表4 2021年1至12月河南AHC发病人数预测结果

图3 2021年1至12月河南AHC发病人数预测

3 讨论

自2013年以来,河南省AHC的发病人数呈增长趋势,是不容忽视的公共卫生问题。AHC全年均可发生,每年的6至8月为发病高峰期,表现出明显的季节性和周期性特征,这与先前的一些研究[9]结果相符。目前尚无用于预防AHC的疫苗或治疗AHC的抗病毒药物,但AHC通常会自行消退,不需进一步治疗[10]。河南省夏季炎热且降雨频繁,是AHC流行的高峰期,公共卫生部门应加强对游泳池、浴池、理发室等公共场所的卫生管理与监督,加强健康教育和提高居民的健康素养是预防和控制AHC暴发的关键。

SARIMA模型作为经典的时间序列模型,在医疗资源、意外伤害、传染病发病预测等医疗卫生领域有着广泛应用[11-13]。SARIMA模型可以很好地获取序列的周期性变化规律,适用于季节性或非季节性数据,具有较好的短期预测效果。本研究先通过图示法合并凑试法确定1个SARIMA模型。由于图示法带有主观性,且输出模型的精度并非最高,故再通过超参数优化输出2个模型。经过参数检验、AIC、BIC和拟合效果的综合评价,最终选出最优模型SARIMA(0,1,1)(0,1,1)12。使用最优模型对2020年7至12月AHC发病人数进行拟合,平均相对误差为10.28%,其中2020年10月及11月的数据拟合效果很好,相对误差仅为1.09%和4.97%,反映出模型整体的预测效果较好;但2020年12月的预测值存在较大的相对误差(23.00%),反映出SARIMA模型不能有效提取时间序列中的随机信息。SARIMA(0,1,1)(0,1,1)12的预测结果提示未来一段时间内,AHC仍然是一个威胁当地人群健康的重要传染病。

本研究仍存在局限性。AHC病例数据的收集主要通过临床诊断。由于居民的就诊意识差、AHC自愈性强且预后良好,该病就诊人数相对较少;此外,部分医疗机构工作疏忽、乡镇医疗单位因诊治能力较差导致AHC漏诊漏报现象普遍存在;由于漏报的存在,预测值反映的是未来一段时间内AHC报告例数,而非实际发病人数。此外,本研究中2015年1月和12月数据缺失。由于在对医学时间序列数据进行建模预测时,序列的长度和完整性对拟合的可靠性有影响,医学时间序列的观测值具有不可重复的特点,缺失数据的插补或跳过,会使拟合结果难以很好地反映纵向数据的规律,制约了时间序列在医学领域的应用[14]。当缺值点不超过3个时,采用拉格朗日插值的效果较好[6],故本研究中采用拉格朗日插值法进行缺失值填补,但填补结果可能会存在一定的偏差,结果解释需要谨慎。本模型在对2020年7至12月AHC发病人数进行拟合时,各月的相对误差大多稳定在15%以内,拟合效果较好,提示漏报情况在各月份中均匀分布,填补结果偏差较小,对模型的预测效果影响较小,仍可进行AHC的发病趋势预测。

综上所述,本研究利用2013年1月至2020年6月河南省AHC发病数据(数据于刊发前更新)建立了SARIMA模型,探讨了该病的发病规律并预测了2021年1至12月发病人数,该模型对河南省AHC的监测有一定的应用价值。由于SARIMA模型不能有效地提取时间序列中的随机信息,难以从环境、生物、社会等因素探讨疾病发生、发展和传播特点,预测值可能会出现较大波动。可考虑在今后的工作中优化模型,如将SARIMA模型与支持向量机、随机森林等模型结合,以提高预测的精度。

猜你喜欢

阶数差分季节
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
数列与差分
用于能谱本底处理的阶数自适应型正交多项式模型法
确定有限级数解的阶数上界的一种n阶展开方法
15相感应电机槽配合研究
我喜欢的季节7
季节蠕变
季节的变换
复变函数中孤立奇点的判别