RPT对秩和检验的改进及Matlab实现

2012-03-11朱凯李悦

中国卫生统计 2012年4期

朱凯李悦

秩和检验作为一种方便、有效的非参数检验方法，在实际中有着广泛的应用，特别是在总体分布、参数均未知时，可以用来比较两样本的均值〔1〕。本文针对秩和检验对来自非正态总体两样本均值比较可能遇到准确性问题，介绍可以有效解决这一问题的方法——randomized permutation test(简称RPT)，并运用Matlab软件编写程序实现该方法。

RPT方法简介

在实际应用秩和检验对两样本均数进行比较时，采用的方法为:首先求出样本所有可能组合下的分布，根据现有样本计算某一样本的秩和，记为Robs，称Robs为秩和的临界值，然后根据该分布求出大于或等于Robs的频率，即为p值。该方法称为exact permutation test(简称EPT)。然而当样本量较大时往往由于组合数太多(当n1=n2=10时组合数为C1020=184756)难以获得秩和的确切分布，此时EPT方法难以实现。因此，在样本量较大时，秩和检验将检验统计量近似服从正态分布，利用矩法估计求出其参数(下称正态近似法)，这将产生一定的误差。此外，当样本存在相同秩次较多时，要求对检验统计量进行校正，这不仅增加计算难度且进一步增大误差〔1－2〕。EPT的一个替代方法是:利用软件产生随机数，通过基于样本的大量重复的随机组合，得到某一样本秩和的近似抽样分布，即对所有可能的组合进行随机抽样后计算抽样秩和大于临界秩和的频率，称之为RPT〔3〕，该方法的关键步骤如下:

1. 建立假设，确定检验水准，H0:μ1= μ2，H1:μ1＞μ2，α =0.05(单侧检验);

2.计算现有检验统计量Robs;

3.构造检验统计量R，在H0假设成立的条件下，利用软件从两样本构成的总体中抽取与样本容量相同的样本，并计算其秩和，反复进行该步骤得到检验统计量的经验抽样分布;

实例应用与Matlab实现

为研究两位化验员读得某种液体黏度读数的差异，现对同一液体进行重复读数，数据见表1，试判断两化验员读数是否有差异(α=0.05)〔1〕。

表1 A、B两位化验员读数结果

解:H0:μ1= μ2，H1:μ1＞ μ2，其中 μ1，μ2分别为两总体的均值。

由题中数据可知n1=10，n2=11，将第一组秩和定为检验统计量，Robs=121。用RPT模拟100000次，即从上述两组的21个数值中有放回地随机抽取10个数值，重复进行100000次，求这10个数的秩和RA大于Robs的频率。笔者编写了相应的Matlab程序实现该方法，程序及注释如下:

a=［82 73 91 84 77 98 81 79 87 85］;

b=［80 76 92 86 74 96 83 79 80 75 79］;%数据录入

n1=length(a);n2=length(b);n=n1+n2;%数据量统计

c=［a，b;ones(1，n)〕］;

［，，stats］=ranksum(a，b);%计算秩和

rank1=stats.ranksum;%计算Robs

m=100000;%模拟次数

t=0;rank0=zeros(1，m);%数据清零

for k=1:m

d=randperm(n);%生成1-21个随机排列的整数

for k0=1:n1

rank0(k)=rank0(k)+c(2，d(k0));% 随机抽取10个数并求其秩和

end

if rank0(k)＞rank1

t=t+1;%统计超过临界秩和的数目

end

p=t/m;%超过临界秩和的频率

通过运行该程序，得到p=P(R≥Robs)=0.21811，p值均大于0.05，故接受H0，认为两位化验员所测得的数据无显著差异。若使用EPT方法进行全排列，所有组合将达到C1021=352716种，且随着样本量的增加EPT方法运算次数还将呈几何数增长，故EPT方法在实践中是难以实现的。对上述程序进行适当修改后我们可以得出该问题的确切概率p'=P(R≥Robs)=0.2181239，RPT方法与之相比相对误差只有0.0063626%。若使用传统方法，求得的概率 p″=0.21891，此时相对误差达到了0.36%，是RPT方法的近60倍。当P值较小时，传统方法的相对误差还将进一步增大。由此我们可知RPT方法较传统方法减少了误差，较EPT方法减少了运算次数，且该方法可根据实际情况适当调整抽样次数，以达到增加精度或减少计算量的目的。

结论

在样本量较大、总体分布未知，没有其他合适方法进行两样本均值比较时，可以使用秩和检验来进行统计推断〔4－6〕。在应用RPT方法进行秩和检验时需注意如下几个问题:

1．秩和检验作为一种非参数检验，由于不依赖资料的分布类型，故适用范围广泛，尤其在等级资料的分析中有较高的功效。

2．编秩时相同值要取平均秩次，否则将使秩和的临界值发生错误，影响最终结果。

3．模拟误差来源于Monte Carlo模拟抽样。理论上，无限次的模拟将会完全消除模拟误差，但显然这是不可能也没有必要的。因此确定模拟误差足够小并且计算可行的RPT抽样次数是有效控制模拟误差的必要步骤〔3〕。

4．由于程序运行中要用到随机数，最终的结果有一定的误差，因此建议反复运行程序，待结果相对稳定时再下结论。

RPT作为EPT的一种近似方法，具有使用方便、误差小、执行效率高的优点，对出现较多相同秩次时处理能力较强，是一种有效提高秩和检验效率的好方法。

1．盛骤，谢式千，潘承毅．概率论与数理统计(第二版)．北京:高等教育出版社，1989:118-121．

2．颜杰，李彩霞，等．完全随机设计两组t检验与秩和检验的功效比较．中国卫生统计，2004，21(1):10-13．

3．丁元林，孔丹莉．多个样本及其两两比较的秩和检验SAS程序．中国卫生统计，2002，19(5):313-314．

4．荀鹏程，赵杨，柏建岭，等．Permutation Test在假设检验中的．数理统计与管理，2006，26(5):616．

5．Cai JW，Shen Y．Permutation tests for comparing marginal survival functions with clustered failure time data．Statist．Med，2000，19:2963-2973．6．王试会，徐勇勇．随机区组设计资料秩和检验的改进方法．中国卫生统计，2003，20(4):231-232．