K组间延迟/长期疗效比较的非参数统计推断方法*

2019-03-19吕晶晶侯雅文

中国卫生统计 2019年6期

吕晶晶侯雅文陈征△

在临床随访研究中，组间生存率差异的比较是重要的研究内容之一。其中，最常用的方法是对生存曲线整体间进行比较的log-rank检验法。然而，当数据中存在延迟疗效[1]或研究者所感兴趣的是某时刻点后的长期生存差异[2]时，简单的使用部分log-rank检验(partial log-rank test，PLR)，即截取该时刻点后的数据进行log-rank检验，往往会损失大量的患者生存信息，导致检验性能下降。当生存曲线存在交叉时，由于交叉点前后的生存率高低逆转，导致log-rank的检验效能显著降低[3-4]；即使得到显著性差异的结论，整体检验仍然无法准确得到哪组生存率更高的结论。除此之外，当生存曲线交叉时，除了整体差异，研究者还会关注某固定时刻或某部分时间区域上组间疗效的差异[5-6]，如交叉点后的疗效差异。但由于固定点检验仅是对某个固定时刻点上组间生存率差异的检验，较低效，而针对某时刻点(t0)后的时间区域(t0,tmax)进行组间疗效的长期差异是更好的方法。Logan[7]和陈金宝等[8]针对患者在某时刻点后的生存率差异，讨论了对应的长期检验法，但它们却无法直接比较多组(3组及以上)的情况[9-10]。因此，本文针对多组间长期生存率差异比较的检验方法及其多种构造形式进行研究。

方法介绍

选取截断时间点为t0，针对K组间(K≥3)长期(t0时间点后)生存率的差异进行检验，得到原假设

H0:{S1(t0)=S2(t0)=…=Sk(t0)=…=SK(t0)}∩{λ1(t)=λ2(t)=…=λk(t)=…=λK(t),t>t0}。其中，Sk(t0)为第k组t0时刻的累积生存率，λk(t)为第k组在t(t>t0)时刻的风险率。则原假设H0可记为H01:S1(t0)=S2(t0)=…=Sk(t0)=…=SK(t0)和H02:λ1(t)=λ2(t)=…=λk(t)=…=λK(t),t>t0两个子假设，进而得到备择假设H1:两个子假设H01和H02中至少有一个不成立。

1.基本统计量

2.长期检验统计量

在两组间长期疗效的比较中，Logan等[6]提出了一种线性组合的思想，即对子假设的基本统计量进行线性组合，进而构造得到最终的组合检验统计量。在两组间长期疗效的比较中，子假设H01和H02分别对应两个服从标准正态分布的统计量Z01(t0)和Z02(t0)，且令Z01(t0)=Y01(t0)/δ01(t0)，Z02(t0)=Y02(t0)/δ02(t0)。进而得到组合检验统计量Z(t0)为：

(1)

转换公式(2)[13]为

(2)

基于naive法结合转换公式(1)得到的线性组合检验统计量

基于naive法结合转换公式(2)得到的线性组合检验统计量

基于cloglog法结合转换公式(1)得到的线性组合检验统计量

基于cloglog法结合转换公式(2)得到的线性组合检验统计量

模拟研究

为了检验多组中长期检验法的性能，采用Monte-Carlo模拟研究各检验法的一类错误和检验效能，并与PLR对比。在一类错误方面，三组的生存时间均由参数为0.2的指数分布Exp(0.2)产生，删失时间C由服从于U(0,a)、U(0,b)和U(0,c)的均匀分布产生。在检验效能方面，三组的生存时间T和删失时间C均由不同参数的指数分布产生，记录时间为t= min(T,C)，δ=1[T≤C]，通过改变删失时间分布参数，可使得每组的平均删失率相同且约为0、20%、40%。为保证时间截点t0前后具有足够的事件数，选取t0=2，比较三组在时间点2后长期的生存情况。考虑样本均衡 (n1，n2，n3均为30、60、100和150) 和不均衡(n1=30，n2=n3=60；n1=n2=30，n3=100；n1=30，n2=60，n3=100；n1=30，n2=60，n3=200) 的情形，每一种参数组合下模拟10000次，显著水平α=0.05。

表1 长期检验法和部分log-rank检验法模拟结果

在检验效能方面，所有检验法的检验效能均随删失率的下降和样本量的增大而增大。在所有删失率和样本量的组合中，PLR的检验效能显著低于其余四种方法的检验效能，且其余四种方法间的检验效能均相差较小。

综合Ⅰ类错误和检验效能，转换公式(1)与转换公式(2)(即Zn1与Zn2；Zc1与Zc2)的结果相比，前者所得到的统计量结果更为稳健，且以Zc1最为稳健。

实例分析

一项关于探究不同种族对淋巴细胞白血病预后影响的研究。数据包含白人、黑人、美国印第安人、亚洲/太平洋岛民4个种族，共500名淋巴细胞白血病患者，其中每个种族125人。研究起点为初诊确认为淋巴细胞白血病，终点事件是患者发生死亡，其余为右删失。4类种族的平均生存时间分别约为6年、5年、7年和7年，删失率分别约为78.4%、66.4%、65.6%和71.2%。检验水准α=0.05。

由图1可见，三条曲线在前中期存在明显的重叠和交叉，而成比例假设检验也显示三组间不满足风险率成比例假设(χ2=7.6，P=0.006)。此时，log-rank检验结果显示不同种族的预后情况不具有统计学差异(χ2=6.6，P=0.085)的结果并不可靠。在长期检验中，均发现以5年和10年为截点后的患者的长期生存差异具有统计学意义，而在15年后的长期生存差异没有统计学意义。由图1可见，患者在15年后的生存数据虽仍然发散，但事件数极少、删失率很高，因此，在第15年后，未能发现组间存在差异(表2)。