APP下载

配对计数资料的统计检验方法

2015-10-27孙付胜任春征皇甫蓓蓓陈秀英

中国医药指南 2015年26期
关键词:流脑四格效能

孙付胜任春征皇甫蓓蓓陈秀英

(1 菏泽市疾病预防控制中心,山东 菏泽 274000;2 青岛市中心(肿瘤)医院,山东 青岛 266042)

配对计数资料的统计检验方法

孙付胜1任春征2皇甫蓓蓓1陈秀英1

(1 菏泽市疾病预防控制中心,山东 菏泽 274000;2 青岛市中心(肿瘤)医院,山东 青岛 266042)

配对计数资料;统计;检验

在临床试验以及医学科研中经常会用到2×2配对设计,比如用两种方法治疗同一批患者,以观察两种疗法疗效的差别;用两种培养基培养同一批标本,看其阳性结果情况等。针对这种设计人们普遍用到的检验方法是χ2检验中的Mcnemar检验,其公式为χ2=(b-c)2/(b+c)(b+c≥40),校正公式为(|b-c|-1)2/(b+c)(b+c<40),这个公式因其简单易用而受到人们的青睐,但它有一个明显的缺陷,即只是利用了检验结果不一致的对子数b和c,总的样本对子数N却不受任何约束,也就是说没有充分利用样本所提供的全部信息,因此有时就不能如实反映客观实际[1],以一个简单的例子来说明这个问题。

分别有50份、500份和5000份咽拭子样本,每份标本接种于甲乙两种流脑培养基上,观察流脑菌生长情况,结果见表1~表3,问两种培养基的效果何者为优?

表1 两种流脑培养基的效果

表2 两种流脑培养基的效果

表3 两种流脑培养基的效果

若对以上3个表格用Mcnemar公式进行检验,会得到同样的结果:χ2=4.90,但仔细观察表中的数据,我们会发现对3个表的结果是不能等量齐观的,而Mcnemar检验恰恰将它们同等对待,这就是其缺陷所在:只考虑b和c,而忽视了a和d所能提供的信息,对样本量的变化视若无睹。

这个问题已引起国内外诸多学者的注意,正是基于以上考虑,他们对这一问题进行了深入探讨并提出了相应的解决办法。现将这方面的研究状况综述如下。

1 国外研究状况

对于2×2配对试验设计,涉及到对多余参量(nuisance parameter)的分析[2],而这个参数的取值在无效假设中是没有被指定的,同时这个参数决定着任何一个检验变量的分布形式[3],消除参数的方法不外乎以下几种:

1.1条件推断:这种方法是对统计量进行有条件地讨论,是由多种方法发展演化而来,可分为“确切条件推断”和“渐近条件推断(asymptotic conditional test)”,前者是使用确切无效分布,后者是使用渐近无效分布。Mcnemar检验即属于条件推断的范畴[4]。2×2配对设计的渐近条件推断首先是由Cochran(1950)依据符号检验提出来的[5]。

1.2非条件推断:这种方法在非条件无效分布中对多余参量进行了估计,这是与条件推断不同的地方,因为它不是直接消除多余参量,这种方法又可分为“确切非条件推断(approximate unconditional)”和“渐近非条件推断(asymptotic unconditional)”,分别对应确切无效分布和渐近无效分布。渐近非条件推断首先是由McNemar在1947年给出的[6],它与渐近条件推断有相同的渐近分布,并且无论采用哪一种方法,最终都会得到相同的检验统计量,即“McNemar检验”。正是由于人们对McNemar检验的诸多怀疑,Liang和Zeger在1988年提出了一种渐近法来利用结果一致的对子数[7]。

但是国外更倾向于使用“确切非条件推断”来利用多余参量的所有信息[8],Frisen在1980年提出即使计算比较复杂也应该使用“非条件推断”[9]。Suissa和Shuster在1991年提出一种针对配对四格表资料的确切非条件推断方法,这种非条件推断以简单的z统计量为基础,所获得的样本含量一般来说要小于确切条件推断,而且检验效能更高。Miettinen在1968年用不同的方法获得了确切非条件检验方法的渐近非条件功效函数[10],后续的研究都与Miettinen的结果保持了一致,包括Bennett和Underwood在1970年对这种检验的确切分布和渐近分布进行的筛选比较[11],Schork和Williams在1980年运用确切非条件功效函数计算了这种检验方法在确切条件形式下的样本含量[12],以及Duffy在1984年获得的基于渐近无效分布的确切非条件功效函数[13]。由于此种方法在全面利用样本信息这方面的优势,在计算机已相当普及的今天,即使遇到运算上的困难,也应该在实践中推广应用这种方法。

1.3确切概率法:Wacholder和Weinberg曾建议将2×2配对设计转变成两样本设计[14],使原来的样本含量由n变为2n,用Fisher确切概率法进行检验,绘制了两种设计条件下的效能曲线并作了比较,但是这种转换是建立在随机匹配的基础上并且要求配对变量间没有相关关系,Wacholder和Weinberg通过对效能曲线的比较发现,如果配对变量间具有相关关系并且匹配合理,配对设计下的McNemar检验的效能还是要高于未配对条件下的Fisher确切概率法,所以这种方法具有一定的不足。

1.4各种方法的比较:无论是哪一种方法,都不可能十全十美,Miettinen在1968年获得了确切非条件检验方法的渐近非条件功效函数,后来Duffy对此功效函数的精确性进行了大样本模拟,小样本时进行了精确计算,发现在总体上这种函数还是不错的,但是如果样本量很小,这种功效函数的结果就会偏离真实值[13],同时这种方法还有高估检验效能或低估样本含量的嫌疑[15]。确切非条件检验与确切条件检验和渐近条件检验以及渐近非条件检验相比,确切非条件检验法利用z检验来获得显著水平,并且考虑了配对样本的总例数,其显著水平要低于条件推断;另外,如果在配对设计中使用确切条件法,与确切非条件法相比,要增加大约14%的样本含量[3],在检验效能上,确切非条件法也要优于确切条件法。

2 国内研究状况

国内也有人较早注意这一问题,新疆医学院的施济民在与薛仲三的私人通信中曾探讨过这个问题,并于20世纪80年代初期在《新疆医学院学报》上发表过两篇文章,对McNemar检验公式提出了疑问并提出了由自己推导出的公式:t=或 =(公式1)[16];第三军医大学的罗明奎在1999年发表文章注意到了McNemar检验的不足,运用极大似然估计和协方差阵的相容估计提出了自己的检验公式: =(公式2)[17];上海应用技术学院的殷小雯从边际分布的角度提出边际分布齐性检验公式: =(公式3)[18],对配对四格表资料进行检验。这三个公式大同小异,公式2和公式3其实完全一样,仅仅是作者将a、d和b、c对换了一下。也有人运用二项分布原理提出配对四格表资料检验的精确概率方法,并得出结论McNemar检验仅适于b+c>20的情形,当b+c≤20时宜用精确概率方法[19];对配对四格表差别检验,还有学者基于二项分布的原理提出了显著性界值法[20],可在0.05和0.01的概率水平下进行统计推断,但不如精确概率法方便、直观。另外,考虑到与χ2检验都是检验两个处理是否一致的统计方法,有人建议用Kappa统计量,因为其用到了四个格子的频数,因此获取的信息量要大于χ2检验[21-22]。此外,也有人在相关文章中偶尔提及这个问题,但仅仅是点到为止,没有进一步的研究。

3 国内外研究比较

相比较而言,国外的研究比国内要早一些,国内直到20世纪70年代末80年代初才有人涉足这一领域并有正式的文章发表,因此国外的研究方法显得更成熟,更有体系,他们多从数学原理上对每一个公式进行了严密的推导和论证,而国内的学者多是根据经验而来,在严谨性上相对欠缺,正是这一点,国外学者提出的公式比较繁琐、复杂,而国内的公式相对简单、直观,在应用上,国内的公式更方便。对于公式的验证,国外多从数学分布、样本含量和两类错误等方面入手,特别是样本含量和检验效能,他们会在不同情况下反复进行横向和纵向比较,以突出新方法的优越性;国内则是通过实例比较,看两种方法的结果与实际资料的趋同程度来判断孰优孰劣,还是经验性的东西比较多,在方法的灵敏度和特异度上没有作深入的探讨。

综上所述,国内外学者对配对四格表资料检验方法的研究已取得一定成果。我国的研究相对较少,在许多方面还落后于国外,因此,积极进行这方面的研究,提出一种严谨、合理、方便的检验方法,对于促进配对四格表检验方法的正确运用,促进临床科研的科学性和合理性具有重要的意义。

[1]施济民.一个值得商榷的公式:χ2= [J].新疆医学院学报,1981,4(2):67-68.

[2]Basu D.On the elimination of nuisance parameters[J].J Am Statistical Association,72(11):355-366.

[3]Samy S,Jonathan JS.The 2×2 matched-pairs trials:exact unconditional design and analysis[J].Biometrics,1991,47(2):361-372.

[4]Selicato G,Muller R,Keith E.Approximating power of the unconditional test for correlated binary pairs[J].Communications in Statistics,1998,27(2):553-564.

[5]Cochran WG.The comparisons of percentages in matched samples[J].Biometrika,1939,37(2):256-266.

[6]McNemar Q.Note on the sampling error of the differences between correlated proportions or percentages[J].Psychometrika,1947,12(2):153-157.

[7]Liang KY,Zeger SL.On the use of concordant pairs in matched case-control studies[J].Biometrics,1988,44(6):1145-1156.

[8]Suissa S,Shuster JJ.Exact unconditional sample sizes for the 2×2 binomial trial[J].J Roy Stat Soc,Series A,1985,148(2):317-327.

[9]Frisen M.Consequences of the use of conditional inference in the analysis of a correlated contingency table[J].Biometrika,1969,67(1): 23-30.

[10]Miettinen OS.The matched-pairs design in the case of all-ornone response[J].Biometrics,1968,24(2):339-352.

[11]Bennett BM,Underwood RE.On McNeamr’s test for the 2×2 table and its power function[J].Biometrics,1970,26(2):339-343.

[12]Schork MA,Williams GW.Number of observations required for the comparison of two correlated proportions[J]. Communications in Statistics,Series B,1996(9):349-357.

[13]Duffy SW.Asymptotic and exact power for the McNemar test and its analogue with R controls per case[J].Biometrics,1984,40(5):1005-1015.

[14]Wacholder S,Weinberg CR.Paired versus two-sample design for a clinical trial of treatments with dichotomous outcome:power considerations[J].Biometrics,1982,38(4):801-812.

[15]Connor RJ.Sample size for testing differences in proportions for the paired-sample design[J].Biometrics,1987,43(1):207-211.

[16]施济民.推荐一个公式:t= [J].新疆医学院学报,1981,4(4):252-257.

[17]罗明奎.介绍配对资料的一种统计处理方法[J].数理医药学杂志,1999,12(3):213-214.

[18]殷小雯.2×2表配对资料的边际分布齐性检验方法[J].上海应用技术学院学报,2001,1(2):144-148.

[19]刘玉秀,刘钧.配对四格表资料差别检验的精确概率方法[J].南京大学学报(自然科学),1998,34(5):627-630.

[20]张志军,王广义.配对离散变量的统计分析方法[J].中华预防医学杂志,1983,17(2):65.

[21]熊宗番,王纪亮,苏炳华.配对计数资料的统计分析方法[J].上海预防医学杂志,1993,5(4):46-49.

[22]熊宗番.配对计数资料的Kappa统计量[J].临床检验杂志,1992,10(2):101-102.

R195.1

A

1671-8194(2015)26-0046-02

猜你喜欢

流脑四格效能
迁移探究 发挥效能
流脑是什么病?
与流脑的战争
充分激发“以工代赈”的最大效能
爆笑四格
爆笑四格
爆笑四格
爆笑四格
实验室确诊B型流行性脑脊髓膜炎监测分析1例
流行性脑脊髓膜炎(流脑)