APP下载

基于多重插补神经网络模型的减压病人危险率变化估计

2022-01-13王纯杰任美慧肖男男

关键词:分段受试者区间

王纯杰,任美慧,肖男男,张 钺

(长春工业大学 数学与统计学院,吉林 长春 130012)

0 引言

在生物医学、社会科学、现代工业等领域,都需要对相关的生存资料进行研究.研究的重点主要在生存时间以及相关的影响因素,生存分析是解决此类问题主要方法.目前,生存分析主要涉及两个主要研究方向:(1)描述生存时间分布,通过观测研究对象的生存曲线,进一步明确某一疾病的人群生存规律;(2)危险函数估计以及相关影响因素分析,如在某一疾病的随访过程中,分析影响患者生存的影响因素,进一步预测患者的生存时间分布[1].

目前,学者对于生存数据的分析与预测已经取得了很大的进步,因此,能够通过绘制疾病随访过程中的疾病危险率变化曲线,可以更加直观地了解疾病的变化情况,并针对危险率变化峰值采取相应的治疗措施.D.Faraggi和R.Simon[2]首次将神经网络模型应用于Cox比例风险模型中,进一步分析了影响生存时间的相关因素;K.Liestol[3]提出应用神经网络来构建离散时间模型和分段指数模型两种估计危险率变化情况的非参数灵活模型;此后,M.Fornili[4-5]再次利用神经网络分段指数模型处理右删失数据,分别对乳腺癌以及肾细胞癌患者进行实例分析,对病人的危险变化情况进行预测估计;L.Zhao[6]将深度学习方法应用于生存数据的处理,同时估计出相应的生存函数;进而,C.Lee[7]将神网络方法应用到生存分析的竞争风险模型中,对危险函数进行了估计;另外,Y.X.Sun[8]采用分段指数模型来描述疾病潜伏过程,并将其用于处理带有空间距离和时变协变量的疾病数据.

本文将神经网络分段指数模型应用于区间删失数据,由于区间删失数据缺乏准确的观测时间点,因此采用多重插补法下,对已有缺失数据进行插补,如花琳琳等[9]在不同缺失值处理方法下,对随机缺失数据处理效果的比较;纪忠光等[10]针对缺失数据进行非参数插补;张琳琳等[11]基于数据增强算法,将多重插补方法应用于失效时间为区间删失型数据的加速失效时间模型的参数估计问题中,并将有限区间删失(但不是右删失)数据插补成确切失效时间数据.本文旨在应用多重插补法结合神经网络分段指数模型对美国宇航员减压病数据进行分析,关注后期可能出现的多峰值变化情况.

1 研究模型与方法

1.1 分段指数模型

考虑分段指数模型并将随访时间划分为J个不相邻的区间,即

Aj=(aj-1,aj],j=1,2,…,J,

其中a0=0,aJ=+∞.由此,可以假定风险函数在每个区间段内均为常数,即

h(ti,xi)=λj(xi),aj-1

在分段指数模型下,相应的生存函数可以改写为

为了简单起见,当满足t≤a1时,上述生存函数的第一项可以看作是1.

1.2 数据插补法

针对于不完全数据的分析,通常采用插补法进行分析(包括单次插补和多重插补两种方法).单次插补是对缺失数据依据某种规则进行一次填充,插补之后可以得到一个完整的数据集[12].多重插补则是对缺失值进行多次补充,插补次数一般为5~20次,因此可以得到相应个数的完整数据集.在此基础上,针对每个数据集进行分析,最终得出更为准确的分析结果.采用imputeCens包[13]对区间删失数据进行多重插补,具体操作步骤如下:

(1)通过ic_par()函数拟合区间删失数据的参数回归模型,参数dist采用指数分布,满足分段指数模型;

(2)输入Ⅱ型观测区间和左删失数据代入模型,进行数据处理;

(3)应用imputeCens()函数,对区间删失数据进行插补.

通过上述操作,可以将观测区间以及左删失数据转换成具体的观测时间点,与原数据构成右删失数据,对此进行相应的模型分析.

1.3 神经网络模型及估计方法

针对右删失数据,为了能够准确地估计肿瘤患者的预后风险,采用了一种基于似然函数优化的方法.假设有n名受试者(i=1,2,…,n),其中第i位受试者的生存时间设为ti,且xi=(xi1,xi2,…,xip)表示个体i的p维协变量,则n个独立个体的似然函数[14]为

对于上述似然函数,引入分段指数模型,则相应的似然函数改写为

其中:Ji表示个体i所落入的最后一个区间;

下面对危险函数h(t;x)进行建模,利用神经网络构建协变量与时间的函数关系,采用一种更灵活的模型解决了协变量之间的相依关系.采用以下前馈人工神经网络对危险函数进行建模,关系式为

其中

该网络分为三层:输入层是p维协变量和感兴趣时间t;隐藏层包括H个神经元;最后输出层为J个神经元(与分段指数模型的划分区间数相同).另外,输入层与隐藏层分别设定偏置单位“1”,相应地选取Sigmoid函数作为激活函数.

为优化神经网络模型参数,选取极大似然函数的负对数作为网络损失函数,通过最小化损失函数进一步得出最优化的网络参数为

采用梯度下降法来最小化损失函数,并选定合适的学习率,通过计算,M.Akaike等[15]提出的评价指标AIC值,来选择最优模型结构;M.Stone[16]已经证明AIC指标与交叉验证的结果是等价的(具有计算优势),即

AIC=D+2β,

其中D为似然函数的负对数值,β为待估参数的个数.

2 实例分析

本文主要研究高空飞行时减压病的危险率变化,数据NASAs Hypobaric Decompression Sickness(HDSD)来源于thregI包,该数据集记录了美国空军在低压脱氮情况下肺动脉内气栓(VGE IV)发病时间、年龄、性别、TR值(减压前组织氮分压与减压终压值的比值)、下肢运动等,以此来分析减压病(DCS)在观测时间内的发病危险率.数据集内包含238个样本,探测发生DCS患者自减压至终压的失效时间内DCS危险变化情况.

2.1 数据预处理

在HDSD中,每位受试者VGE发生时间在某一固定的检测时间段内,并未记录准确的观测时间,针对区间Ⅱ型删失数据,本文采取多重插补法,应用imputeCens包同时依据分段指数分布规律预测出可能的生存时间分布,进而将观测区间以及左删失数据转换成具体的观测时间点,与原数据构成右删失数据,将插补的准确观测时间以及相应协变量应用到神经网络分段指数模型中,进一步分析减压病的危险变化趋势.

2.2 分析结果

减压病是人体暴露在一定程度的低气压下而出现的一种特殊病症,由于处于低气压下,使得体内的氮气在减压时出现过饱和现象,进而生成气泡而导致的病症.根据受试者DCS发病的时间依从性信息(相关协变量)以及终检时间(暴露期间)是否发病等信息,研究受试者在低压暴露时间内的危险率变化情况.

根据所研究的数据集,为了选择更加合适的网络结构,以M.Stone所提出的AIC准则作为评价指标,分别考虑了6,8,12个隐层单元数和学习率0.1,0.01以及0.001,根据AIC准则的值,选择具有较好性能的模型,相应的结果如表1所示,因此选用6个隐层单元和学习率0.1来构建神经网络.

表1 AIC值分布Tab.1 AIC value distribution

在分析中,将随访时间0~6 h划分为12个区间段,主要考虑了以下协变量:年龄、性别、TR值(即氮气过饱和系数)、是否运动以及VGE IV级对减压病DCS危险率变化的影响,具有不同特征的受试者在低压情况下,一段随访时间内,各类人群的危险变化情况.

据美国潜水与高气压医学会组织研究的相关资料显示,发生减压病的时间一般在刚进入低气压环境时,尤其是进入低压环境1 h以内,危险率呈现递增趋势,随着时间的增长危险率会出现下降趋势,而后又会出现上升趋势,直至出现平稳状态.图1是通过神经网络分段指数模型拟合的238位受试者的生存曲线,可以发现本文所提出的模型拟合的曲线与K-M估计得出的生存曲线基本重合,由此可以说明该模型具有较好的评估性能.

图1 生存曲线拟合图Fig.1 Fitting diagram of survival curve

为进一步分析危险率变化情况,分别将受试者按照不同协变量划分为不同的组别,如:年龄(划分为三个区间段:20~30岁、30~40岁以及40~50岁)、性别、TR值(将比值划分为1.6以下、1.6~1.7以及1.7以上)、是否运动等连续变量和分类变量对危险率的影响.由图2结果发现,处于不同年龄段的受试者在低压情况下危险率变化情况基本一致,说明年龄对低压环境下减压病的危险率并不造成影响;另外,相较于男性而言,女性在低压环境中危险率系数更低,更具有耐受性.

图2 不同年龄段以及不同性别人群的危险率变化曲线Fig.2 Risk curves of different age groups and different genders

另一方面,还分析了TR值以及在低压环境中是否运动对危险率变化的影响,TR值是组织内氮分压与减压终压值的比值,有关资料表明,TR比值一般在1.53~1.63范围内波动,如果TR值过高,相应的发病危险率也会提高.由图3结果显示,当TR值处于1.6水平以下,受试者的危险率较低,但中间仍会出现危险率的波动变化;而当危险率处于1.6~1.7水平之间,受试者在最开始时刻就会面临着较大的危险率,直至5 h以后趋于平缓;如果TR值超过1.7以上,危险率会出现小高峰,相较于前者,具有更高的危险率.

图3 不同TR值含量下的危险率变化曲线Fig.3 Variation curve of risk rate under different TR values

在低压环境中,运动会增加减压病发生的概率,因此在低压情况下,活动的人会比不活动的人具有更高的危险率,因为运动是与氮含量相关的,运动越多会导致组织内的氮含量也越多,导致氮气过饱和系数并不断增加,进而具有更高的危险率,图4结果也说明了这一结论.

图4 低压情况下是、否为运动群体的危险率变化曲线Fig.4 Curves of risk changes in the active and inactive groups under low pressure

3 结语

本文通过多重插补法将区间Ⅱ型删失数据转换为右删失数据,并依托于神经网络分段指数模型对减压病的危险率变化进行估计,与传统的比例风险非线性模型相比,神经网络模型更具灵活性,解决了协变量之间的交互作用,进而可以直接得到随访时间内的个体危险率的变化情况.

猜你喜欢

分段受试者区间
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
你学会“区间测速”了吗
一类连续和不连续分段线性系统的周期解研究
涉及人的生物医学研究应遵循的伦理原则
全球经济将继续处于低速增长区间
涉及人的生物医学研究应遵循的伦理原则
分段计算时间
3米2分段大力士“大”在哪儿?
区间对象族的可镇定性分析