APP下载

基于EM算法及Cox回归模型下右删失数据的研究

2023-12-02赵翠

科技资讯 2023年21期
关键词:时刻变量函数

赵翠

(贵州财经大学 贵州 贵阳 550025)

右删失数据是删失数据中最常见的数据类型,通常出现在实验研究的各个邻域范围内,由于删失数据的出现,越来越多的研究者也加入了右删失数据的研究中。

右删失数据问题是实验数据中经常出现的、无法避免的,因此,学习和了解处理右删失数据的方法的思想和原理尤为重要。其中,EM 算法作为一种优化算法,被广泛应用于处理数据的缺失值,并且EM算法在处理数据缺失时有显著优势,比如:算法和原理简单、收敛稳定、适用性广等。另外,还介绍了Cox 回归方法,Cox比例回归模型是由英国统计学家D.R.Cox提出的一种半参数回归模型。该模型以生存结局和生存时间为因变量,分析多因素对生存期的影响[1],该模型自提出以来就被广泛应用于各领域,特别是在临床医学科研领域,该模型实现了巨大的价值,解决了生存数据中遇到的截尾数据问题。本文基于文献背景展开研究,旨在探讨解决右删失数据的两种实用方法并深入阐述其原理。

1 右删失数据与类型

若在对一个研究事件进行观察试验时,由于外部条件的原因与观测对象在开始或结束试验时产生不同的结果,导致试验中出现右删失数据。右删失在平时研究删失数据的研究中经常避免不了它的出现,然而通过对右删失进一步的研究发现,它可以分为3 种类型。具体叙述如下。

1.1 I型删失(Type I Censoring)

对任何个体的观察从同一个起始时间开始,在事先指定的同一个时间内结束,除了已经历过终点事件的个体,若其他个体的观察截止到某一个稳固的时间,这种删失就称为Ⅰ型删失。

1.2 II型删失(Type II Censoring)

所有研究对象的观察起点是统一的,一直随访观察到有足够数量的终点结局事件发生为止,这时研究停止,未发生终点事件的研究对象的生存时间未知,这种删失就称为Ⅱ型删失。

1.3 III型删失(Type III Censoring)

在研究过程中,研究周期固定在一个范围,研究对象开始和结束的时间不一样,使得生存时间无法确定,像这种情况就称为Ⅲ型删失,由于删失数据常常是随机发生的,因此III型删失又被称为随机删失。

2 数据删失产生的原因

在数学实验和统计数据分析中,经常会产生数据删失的情况。删失数据是数据研究中不可避免的问题,在平时研究中只要涉及获取数据的地方往往就避免不了数据的删失。然而,在研究不同的数据时,产生的删失数据也往往是不相同的。另外,在实验中通常获取数据的方式有调查获取数据和应用获取数据,调查获取数据是通过人为地获取数据,人们通过实时调查研究得到数据;应用获取数据则是在一些互联网平台,经他人获取的数据保留在一定平台上面供其他人获取,从而方便他人获取想要的数据。而在调查过程中形成数据删失是很普遍的情况[2]。现如今调查的方式多种多样,除了一些比较传统的调查之外,更流行于通过互联网、大数据、文献等方式获取数据,然而这些方式获取的数据更能导致数据的删失。

通过数据的收集,我们了解到产生数据删失的主要原因有以下几个方面。

2.1 技术上无法获取、技术不合理或错误

就是在技术设备上面由于机器的性能、运转等发生故障,精确度不足导致的删失,比如:车辆在运行过程中,实时速度,性能等数据无法获取,导致缺失。

2.2 有不可使用的信息

主要表现在未收集到的数据存在明显错误,例如:在调查过程中被调查者不认真回答问题,或者调查者工作不细心,导致数据填写错误、记录错误等造成数据删失。

2.3 调查中的无回答

在数据采集过程中,多余调查问题没有进行回答或者没有有效回答,例如:调查问卷中涉及的某产品的满意度不做出评价,这就造成了数据删失。

综上所述,第一种原因导致的缺失需要通过技术设备解决,或者转化为第三种原因方式的缺失来处理;第二种原因导致的删失需要完善调查过程中的管理模式;第三种原因导致的删失需要对被调查者进行筛选,使调查过程的数据更加准确[3]。

3 对右删失数据进行处理的方法

EM 算法、Cox 回归方法常用来处理右删失数据,并对右删失做统计分析。下面重点了解这两种处理右删失数据的方法与原理。

3.1 EM算法

期望最大化算法(Expectation Maximization,EM 算法),是由DEMPSTER A P、LAIRD N、RUBIN D 这3 人在1977 年提出的。EM 算法作为一种迭代算法,主要分为两个步骤,即E步和M步,分别是求密度函数的数学期望和极大值。EM 算法的提出解决了数据删失存在的问题,为删失数据的处理提供了便利。

下面对EM算法的基本思想简单阐述如下。

设观测数据X=(X1,X2,…,Xn1)T为独立同分布的样本,其密度函数为fX(x,θ),x=(x1,x2,…,xn1)T,未观测到的数据为Y=(Y1,Y2,…,Yn-n1)T~fY(y,θ),且X和Y相互独立。则完全似然函数为

E 步:假设有观测数据x=(x1,x2,…,xn1)T及第i 步估计值θ=θ(i),就得到对数似然函数的数学期望为

M 步:求Q(θ|x,θ(i))关于θ 的最大值点θ(i+1),即找θ(i+1),使其满足Q(θ(i+1)|x,θ(i)) =maxQ(θ|x,θ(i)),经过不断迭代到数据收敛,即得到θ的极大似然估计。

也就是说,为了能够很好地理解EM 算法这个概念,可以将EM 算法看成是一个不断重复求一个特定参数的算法,如果在一个模型的参数是未知的情况下,就把它假设为θ(i),这样进行下一步的计算,从而确定这组参数所对应的最可能状态和概率数,然后在确定的这组参数所对应的最可能状态下进行下一步修改,这样就可以确定另外一个参数,同样又在这个参数的情况下确定新的情况,对这个参数进行重复多次的估计,当求得模型的未知参数时就可停止迭代[4]。

3.2 Cox比例风险模型

Cox 比例回归模型是由英国统计学家D.R.Cox 于1972 年提出的一种半参数回归模型。它应用的主要范围是解决生存分析问题。该模型的目的是探索影响生存率的危险因素有哪些,并做出影响因素的预后分析。

为了便于理解Cox 回归模型,下面先了解几个与Cox模型相关的函数[5]。

(1)危险率函数。

当t时刻还在存活的研究对象死于t时刻后一瞬间的概率,用h(t)表示为

式(3)中:T为观察对象的生存时间;n(t)为t时刻的生存人数;n(t+Δt)为t+Δt时刻的生存人数。

(2)生存函数与危险率函数的关系。

(3)Cox回归模型的基本形式

式(5)中,h(t,X)表示在t时刻的风险函数、风险率或瞬间死亡率;h0(t)表示基准风险函数,即所有变量都取0 时t时刻的风险函数;X1,X2,…,Xm表示协变量、影响因素或者预后因素;β1,β2,…,βm为自变量的偏回归系数,它是须从样本数据做出估计的参数[6]。

3.2.1 Cox回归模型的参数估计

假设有n个患者,他们的生存时间从小排到大:t1≤t2≤…≤tn,对于任何生存时间ti来看,把不小于ti的所有病人看成是一个危险集合,记为R(ti)。在R(ti)内的病人,在ti以前是活着的,但由于生存时间的变化,R(ti)内的病人逐渐死亡,退出了观察,直到最后一个病人死亡时,R(ti)消失。j代表ti时刻时间以后R(ti)中对似然函数做贡献的个体[7]。

如果ti代表了真正的死亡,那么个体在时刻ti是死亡的条件概率为:

有截尾值时用δi来表示数据类型:δi=1,表示病人在ti时刻死亡;δi=0,表示病人在ti时刻截尾。得到偏似然函数为

两边取对数,得

求关于βk(k=1,2,…m)的一阶偏导数,并求其等于0,即得到βk的最大似然估计值。

3.2.2 Cox回归模型的假设检验

采用似然比检验剔除模型中原有不显著变量,引入明显的变量,并对变量个数不同的模型进行比较[8]。

检验新增加的协变量是否具有统计学意义的统计量为χ2=2[lnL(p+1) -lnL(p)],其服从自由度为1 的χ2分布,其中L(p)包含p个协变量的模型的似然函数值,L(p+1)包含p+1 个协变量的模型的似然函数值,假设检验步骤为:

步骤一:建立假设检验为H0:β1=β2=…=βm=0,H1:β1=β2=…=βm≠0。

步骤二:构造合适的统计量χ2= 2[lnL(p+ 1) -lnL(p)],服从于自由度为1 的χ2分布,确定拒绝域R,PH0{χ2∈R}=α。

步骤三:做出判断,根据样本观测值算出统计量χ2的值,若χ2∈R,则拒绝H0;否则接受H0。

4 结语

本研究的主要目的是了解统计分析中发生的右删失数据,并对存在的右删失数据进行处理。首先,介绍了右删失数据的相关概念及其右删失数据的类型,在统计研究中,发生数据的删失是很常见的一种情况,然而了解在统计分析中右删失数据发生的原因同样重要,我们知道了发生右删失数据的原因主要为技术上无法获取、技术不合理或错误,有不可使用的信息,调查中的无回答等。其次,研究了处理右删失数据的方法,分别是EM 算法和Cox 回归两种处理方法。EM 算法是一种优化算法,该算法原理简单,收敛稳定,适用性广,被广泛应用于处理数据的缺失值。Cox 回归方法以生存结局和生存时间为因变量,分析了多因素对生存期的影响,主要应用于临床医学科研邻域,解决了生存数据中遇到的截尾数据问题。在统计分析过程中,往往避免不了产生删失数据,研究中给出的两种处理办法需要必备完善的统计数据,收集充足的数据集,在数据完整之后进行分析处理删失数据。

猜你喜欢

时刻变量函数
冬“傲”时刻
二次函数
捕猎时刻
第3讲 “函数”复习精讲
抓住不变量解题
二次函数
函数备考精讲
也谈分离变量
SL(3,3n)和SU(3,3n)的第一Cartan不变量
分离变量法:常见的通性通法