APP下载

小波神经网络在肾综合症出血热发病率预测中的应用*

2012-12-04四川大学华西公共卫生学院卫生统计学教研室610041张兴裕刘元元李晓松

中国卫生统计 2012年6期
关键词:阶数综合症小波

四川大学华西公共卫生学院卫生统计学教研室(610041) 张兴裕 张 韬 刘元元 李晓松

肾综合症出血热(hemorrhagic fever with renal syndrome,HFRS)是一种由汉坦病毒引起的自然疫源性疾病,我国是受肾综合症出血热危害最为严重的国家〔1〕。探讨建立有效的预测模型对于HFRS的预防和控制具有较强的实用价值。传统的HFRS预测方法主要有自回归移动平均模型(ARIMA)、马尔科夫链模型、多元回归等〔2-3〕。均为线性预测方法,当传染病发病变化较为复杂时,线性建模方法往往精确度不高。小波神经网络是一种具有较强的非线性映射能力的预测方法,目前被广泛应用于经济建模、系统辨识、故障诊断等多个领域。

小波分析和神经网络的结合主要有两种途径〔4〕:一种是松散型结合,即小波分析作为神经网络的前置处理手段,为神经网络提供输入向量,此种小波网络目前已经被引入传染病预测的研究〔5〕;另一种为紧致型结合,小波分析和神经网络直接融合,用小波函数或尺度函数直接作为神经元的激励函数。通常所谓的小波神经网络指的是指后一种形式,而小波与前馈性神经网络的结合是小波神经网络的主要研究方向。目前,国内尚未见有关运用紧致型小波神经网络预测传染病发病率的报道。

本文拟使用中国内地肾综合症出血热发病率数据作为训练样本,建立小波神经网络的训练模型,并将预测结果与传统的BP神经网络与SARIMA模型进行比较,从而探讨小波神经网络的预测效果。

资料与方法

1.数据来源

以我国内地法定报告的HFRS发病率为小波神经网络训练和预测的原始数据。疾病数据来源于传染病网络直报系统,人口资料来源于国家统计局。本研究采用2004年1月至2010年1月的数据分别作为小波神经网络、BP神经网络、SARIMA模型的训练或建模样本,以2010年2至10月的数据作为几种模型预测效果的外推验证。小波神经网络及BP神经网络使用matlab7.5实现,SARIMA模型使用SAS9.2实现。

2.预测方法

(1)小波神经网络

小波神经网络是一种以BP神经网络拓扑结构为基础,把小波基函数作为隐含层节点的传递函数,学习过程由信号的正向传播和反向传播两个过程组成〔5〕。正向传播时,输入样本从输入层传入,经隐含层处理后,传向输出层。若输出层的实际输出与期望输出不符,则转入误差的反向传播阶段,误差反传阶段是将输出误差以某种形式通过隐含层向输入层逐层反传,从而获得各层单元的误差信号作为修正各单元权值的依据。小波神经网络的拓扑结构如图1所示。图中X1、X2、…,Xk是小波神经网络的输入参数,Y1、Y2、…、Ym是小波神经网络的预测输出,ωij、ωjk为小波神经网络的神经网络权值。

输入信号序列为Xi(i=1,2,…,k)时,隐含层输出计算公式为:

图1 小波神经网络的拓扑结构

式中,h(j)为隐含层第j个节点输出值;ωij为输入层和隐含层的连接权值;bj为小波基函数hj的平移因子;aj为小波基函数hj的伸缩因子;hj为小波基函数。本研究中采用的小波基函数为国外使用较多的Morlet母小波函数〔6〕,Morlet小波是余弦调制的高斯波,时频同时分辨率较高,其数学公式为

在本研究当中,首先随机初始化产生网络权值以及小波函数参数,并设定权值函数学习率为0.1,小波基参数学习率为0.01,最大误差为0.001。然后,反复尝试选择使训练样本与训练值之间的MSE最小的网络。最终确定采用的小波神经网络结构为12-8-1,即输入层有12个节点,表示预测时间点前12个月的发病率,隐藏层有8个节点,输出层有1个节点。网络反复训练1000次。

(2)BP神经网络

BP神经网络是一种最为常见的前馈型神经网络,分为输入层、隐含层和输出层,其中隐含层可由一层或多层隐层节点组成〔7〕。其基本原理与上述小波神经网络原理类似,同样是基于误差反向传播的算法,但其激活函数通常为Sigmoid函数〔8〕。本研究根据训练样本的均方误差最小原则选取最优网络,经反复尝试,确定输入层节点数为12,隐含层节点数为8,即采用12-8-1的网络形式。隐含层神经元传递函数选择正切S型函数,输出层选择线性传递函数,学习函数选择Levenberg_Marquardt的BP算法训练函数,学习速率设为0.01,目标精度为0.001,网络反复训练1000次。

(3)SARIMA模型

SARIMA模型是ARIMA模型的推广,它是在假定季节相关与普通相关交互作用下建立的乘法模型,用符号表示记为:SARIMA(p,d,q)× (P,D,Q)S,其中,p代表简单模型的自回归阶数,P为季节模型的自回归阶数,d为简单模型的差分阶数,D为季节模型的差分阶数,q为简单模型的移动平均阶数,是Q季节模型的移动平均阶数,S代表周期,当随机事件的发展变化随时间表现出季节性时,若以月为单位,则S=12。SARIMA(p,d,q)×(P,D,Q)S模型结构的数学表达〔7-8〕:

式中,▽d=(1-B)d;Φ(B)=1-φ1B -…-φpBp,为平稳可逆ARMA(p,q)模型的自回归系数多项式;Θ(B)=1 -θ1B -…-θqBq,为平稳可逆 ARMA(p,q)模型的移动平滑系数多项式;▽DS=(1-B)SD;U(BS)=1-μ1BS-…-μPBPS;V(BS)=1-v1BS-…-vQBQS。

首先,对季节性数据进行一阶12步差分,差分数据通过白噪声检验及平稳性检验。然后,对数据拟合乘积季节模型:根据AIC与BIC最小的原则,最终得出 SARIMA(1,1,1) × (0,1,0)12 为相对最优模型。该模型最终通过残差白噪声检验和参数显著性检验,表明模型拟合良好。模型形式为:▽▽12xt=

模型结果的比较

本研究采用各个方法所得预测值的平均绝对误差、平均绝对误差百分比以及均方误差平方根三个指标〔4〕评价三种方法之间的拟合效果及预测效果,三种方法的比较结果如表1所示。小波神经网络的拟合值及其预测值的三个指标均最小,其次为BP神经网络,SARIMA的各指标值最大,表明小波神经网络的预测效果最优。将肾综合症出血热实际发病率与三种模型拟合及预测的结果联合作图(图2)。

表1 三种方法预测结果的比较

图2 三种方法对HFRS发病率趋势的拟合图

讨 论

肾综合症出血热发病流行广、病死率高,严重危害人民的生命和健康,属我国重点防治的传染病之一。因此,探索较为有效的传染病预测方法具有重大的现实意义。本次研究使用小波神经网络对肾综合症出血热发病率进行预测,并与BP神经网络及SARIMA模型预测结果进行比较。结果表明,小波神经网络在肾综合症出血热发病率的预测中具有较好的效果。

SARIMA等时间序列模型,是通过自回归分析寻找当前发病率与前期发病率之间的线性函数关系,建立线性自回归模型来进行预测。但是如果发病率变化较为复杂,则线性建模方法会比较复杂,从而影响预测效果。人工神经网络技术因其具有较强的非线性映射能力,更容易从复杂的传染病趋势进行建模分析〔9〕。

原则上以Sigmoid函数为激活函数的前馈型神经网络可以无限逼近非线性函数,但是由于Sigmoid函数自身的特性,导致这种神经网络只是一种次优网络。小波函数作为神经网络激励函数的优势明显〔10〕:第一,对于不同的逼近函数可以有更广泛的选择,可以根据逼近函数的特性选择不同的小波;第二,小波基可以是正交的,保证逼近函数的表达式的唯一性;第三,具有对突变函数逐步精细的描述特性,使得函数的逼近效果更好,这是径向基函数所不具备的。理论分析和许多实践均表明:小波神经网络具有逼近能力强,收敛速度快,有效避免局部最小值等优点。当然,小波神经网络的理论研究仍然处于初始阶段,目前仍有许多待解决的问题。

1.李立明.流行病学.人民卫生出版社,2007.

2.郭娜娜,李琦,张艳波,等.肾综合症出血热预测方法研究现状.现代预防医学,2006,33(6):927-929.

3.李秀君,康殿民,曹杰,等.时间序列模型在肾综合征出血热发病率预测中的应用.山东大学学报(医学版),2008,46(5):1-3.

4.张新红.小波网络理论及其在经济建模中的应用.东北财经大学出版社,2008.

5.孙艳梅.小波分析在四川省肺结核发病率预测中的应用.四川大学,2010.

6.〔美〕博格斯,〔美〕马科维奇.小波与傅里叶分析基础.芮国胜,康健译.电子工业出版社,2010.

7.王燕.应用时间序列分析.中国人民大学出版社,2008.

8.张韬,冯子健.杨维中,等.模糊时间序列分析在肾综合征出血热发病率预测的应用初探.中国卫生统计,2011(2).

9.孟维伟.基于神经网络额交通量预测技术的研究.南京:南京理工大学,2006.

10.张国彬.小波神经网络算法的改进与应用.福州:福州大学,2005.

猜你喜欢

阶数综合症小波
基于多小波变换和奇异值分解的声发射信号降噪方法
构造Daubechies小波的一些注记
鱼类越冬综合症的发病原因及防治方法
确定有限级数解的阶数上界的一种n阶展开方法
15相感应电机槽配合研究
基于MATLAB的小波降噪研究
复变函数中孤立奇点的判别
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
梦游综合症
闹闹的“吃什么”综合症