临床试验随机化方法的优选

2019-05-24袁阳丹刘甜甜刘玉秀陆梦洁周憧憧刘雅琦

中国卫生统计 2019年2期

袁阳丹刘甜甜刘玉秀,3△ 陆梦洁周憧憧陈羽刘雅琦

1.南方医科大学公共卫生学院生物统计学系(510515) 2.中国人民解放军东部战区总医院医学统计学教研室 3.南京医科大学公共卫生学院生物统计学系

【提要】目的近十几年来涌现出一些新的随机化方法，能有效提升随机化的性能，但其在临床试验中真正应用的情形并不多见，仍然以传统的区组随机化设计占据主导，存在着严重的潜在选择性偏倚风险。本研究将通过探讨多种随机化方法的统计性能，为临床试验随机化方法的选择提供实用性指引。方法选择简单随机化设计(SR)方法，以及目前常见的五种限制性随机化方法，包括固定区组设计(PBD)、变化区组设计(VBD)、大棒设计(BSD)、带不平衡限制的偏币设计(BCDWIT)、区组瓮设计(BUD)，借助随机模拟方法，在不同的最大容许不平衡性(MTI)设定下，分别从随机性和均衡性两个方面对各方法的统计性能进行整体评价。本研究涉及的随机化方法优选仅在限制性随机化方法中进行，并将各方法的随机化性能指标作为评价优选的依据。结果 PBD和VBD方法的固定分配概率、猜对分配概率最高，相比之下，BSD、BUD 、BCDWIT方法具有更好的随机化性能。具体看， BUD有着最小的固定分配概率，BCDWIT其次；BSD有着最小的猜对分配概率，BUD其次。结论为了减少试验的选择性偏倚，区组随机化设计不应再作为开放性临床试验随机化的推荐方法，而应考虑在其他几种限制性随机化方法中进行选择。在随机化方法选定后，还可通过大量模拟筛选出最佳的随机分配序列。

近年来，因区组随机化设计(block design)较高的固定分配概率和猜对分配概率，而产生的较大选择性偏倚风险，备受学术界质疑和关注。Berger 多次强烈建议区组随机化不应该再被使用[1-4]。为了克服区组随机化的确定性特征，一些学者提出了多种其他方式的限制性随机化方法。例如，Soares和Wu提出了大棒法(big stick design，BSD)[5]；Chen提出了带不平衡限制的偏币设计(biased coin design with imbalance tolerance，BCDWIT)[6]；Zhao等人提出了区组的瓮式设计(block urn design，BUD)[7]。

本文将针对两处理组的情况对多种随机化方法进行多指标的比较，探讨多种随机化方法的统计性能差异，为临床试验随机化方法的选择提供实用性的建议和指引，以降低因随机化而导致的临床试验质量减损。

随机化方法性能评价指标

随机化方法的性能通常从均衡性和随机性两个方面来进行综合评价。然而，研究表明在大样本的情况下(例如大于200)，因不均衡所导致的把握度损失不大[8]，因此对于带有较强的均衡性限制条件，例如限定最大容许不平衡性(maximal tolerated imbalance，MTI)在一定范围的限制性随机化方法而言，并不会出现严重的不均衡，通常可以忽略对均衡性的考量，而将重点放在随机性指标的评价上。

1.均衡性评价指标

常用的均衡性指标有3个，分别是：分配过程中组间受试者例数差的最大值(the maximum absolute imbalance in the randomization sequence，MI)、组间例数分配相等的概率(the probability of achieving exact balance in the randomization sequence，EB)以及组间例数差的绝对值均数(the absolute mean of the difference in treatment group sizes，DN)。当试验为了避免因受试者入组时间不同而导致偏倚时，需要考虑MI指标。EB指标在实际应用中较为少见，在一些大样本的临床试验中更为少见。当组间例数的不均衡受样本量影响时，DN就显得较为重要。

2.随机性评价指标

常用的随机性指标有固定分配概率(deterministic assignment，DA)和猜对分配概率(correct guessing，CG)。其中，固定分配概率表示受试者被分配到某一组的概率为1或0的次数占总分配次数的比例，猜对分配概率指按照分配到例数少的组猜测并且猜对的比例。

指标CG由Blackwell和Hodges两位学者于1957年提出[9]，其公式如下：

(1)

其中：

(2)

Ti表示第i例受试者的分配结果，ni-1,1和ni-1,2分别表示第i-1例受试者完成随机分配以后组1和组2的分配例数。

这两个指标是将随机性进行量化的指标，其值越小表示随机性越高。

几种随机化方法的分配概率

1.简单随机化方法

简单随机化(simple randomization，SR)在分配过程中能保证受试者分配到任意一组的概率都为0.5，简单随机化的条件分配概率为：

(3)

2．区组随机化方法

固定区组随机化设计(permuted block design，PBD)在实际应用中使用较为普遍，设其区组长度为b，其条件分配概率为：

(4)

变化区组随机化设计(variable block design，VBD)，首先确定拟变化的区组个数及其长度，然后在其中随机选择，之后按照选定的区组再随机分配。

3．BSD方法

BSD方法是由Soares和Wu等人在1983年提出的一种仅限于两处理组平衡试验的随机化方法，其主要思想是通过设置MTI来控制处理组间的不均衡性。MTI指两组例数相差最大能允许的例数上限。其条件分配概率为：

(5)

其中di-1表示第i-1例受试者分配之后，两处理组例数之差，即ni-1,A-ni-1,B；后同。

4．BCDWIT方法

BCDWIT方法是由Chen在1999年提出的一种随机化方法，该方法是在Efron的偏币法的基础上加入了MTI限制，以保证处理组间具有足够的均衡性，该方法也可以认为是升级版的BSD方法，它在BSD的基础上添加了调整概率Pbc(在0.5至1之间取值)。BCDWIT方法的条件分配概率为：

(i=1,2,…,n)

(6)

BCDWIT的条件分配概率不仅与MTI有关，与调整概率Pbc也存在一定的关系。当调整概率为0.5时，该方法即BSD方法，随着Pbc增大，组间的均衡性改善。但是调整概率过大，容易根据以往的分配猜测出当前分配结果。有文献研究表明，偏币法的调整概率设为2/3，既能保证一定的组间均衡性，又能确保一定的随机分配结果的不可预测性[8]。

5．BUD方法

BUD方法是由Zhao和Weng两人在2011年提出的替代区组随机化的一种方法。该方法结合区组随机化和瓮模型来达到随机分配的目的，不仅适用于两组平衡试验，还可用于多组或不平衡试验。BUD方法简单易操作，其条件分配概率为：

(7)

几种随机化方法的统计性能模拟比较

1．模拟方法

针对前面提到的多种随机化方法，为了比较各方法的统计性能，我们首先对不同方法的随机性和均衡性进行评价，MTI设置为2，对SR、PBD、BSD、BCDWIT、BUD以及VBD(VBD方法选定区组长度为4和6两种区组)这6种方法，选定样本量50、100、300、500和800进行模拟。在同样的样本量设定下，我们又另外对PBD、BSD、BCDWIT、BUD这4种限制性随机化方法进行模拟比较，区组长度分别取2、4、6、8、10、12、14、16共8种情况，相对应的MTI值分别为1、2 、3、4、5、6、7、8。BCDWIT方法中的调整概率Pbc取0.667。通过10000次的模拟来评价各个方法的随机性指标(DA 、CG)和均衡性指标(MI、EB、DN)。本次模拟使用SAS 9.4系统编程实现，分别求出各随机化方法的评价指标，对各随机化方法进行多指标比较分析。

2．模拟结果

在上述的模拟情境下，模拟结果显示，不同样本量设定时各方法随机性能指标的统计行为特征类似，为节约篇幅，本文仅给出样本量为500时的模拟结果。

由表1、图1和图2可见，在MTI设置为2的条件下，固定分配概率DA由小到大依次是SR

表1 不同随机化方法各评价指标的模拟比较(MTI=2，VBD区组长度为4和6，样本量为500，模拟10000次)

由表2、图3和图4可见，不同MTI值的情况下，从随机性指标DA来看，4种方法的DA值都随着MTI增大而减小，其中BUD的DA值最小，其次是BCDWIT，DA由小到大依次是BUD

图1 6种随机化方法随机性能评价指标DA的模拟比较(MTI=2，VBD区组长度为4和6，样本量为500，模拟10000次)

图2 6种随机化方法随机性能评价指标CG的模拟比较(MTI=2，VBD区组长度为4和6，样本量为500，模拟10000次)

尽管均衡性评价对于这里比较的4种随机化方法并不重要，但为了获得较为全面的印象，我们还是给出了相应的模拟结果。可见，4种方法的均衡性和限制强度MTI密切相关，MTI越大，均衡性越差。这也提示我们在选择随机化方法时对MTI的设定不应太大。

最佳随机分配序列的遴选

为使随机化效果更进一步优化，在随机化方法选定后，还可以通过大量模拟筛选出最佳随机分配序列，可考虑选择CG+DA最小的随机分配序列作为临床试验遴选的目标序列。

以BSD方法为例，某临床试验随机分为等比例的两组，每组50例，设定MTI=2，模拟5000次，得到CG+DA的分布图见图5。

BSD方法5000次的模拟中，共挑选出5个最小的CG+DA=0.76的随机分配序列，以其中2个为例可得到图6～7。

表2 不同MTI设定下4种限制性随机化方法各评价指标的模拟比较(样本量为500，模拟10000次)

图3 不同MTI情况下4种随机化方法的DA指标变化情况比较(样本量为500，模拟10000次)

图4 不同MTI情况下4种随机化方法的CG指标变化情况比较(样本量为500，模拟10000次)

图5 BSD方法模拟5000次的CG+DA分布图(样本量N=100，MTI=2)

图6 BSD方法模拟5000次中CG+DA最小值的随机分配序列(CG+DA=0.76,N1=49,N2=51)

图7 BSD方法模拟5000次中CG+DA最小值的随机分配序列(CG+DA=0.76,N1=50,N2=50)

结论与讨论

在限制性随机化方法中，PBD和VBD方法均呈现较高的固定分配概率(DA)和猜对分配概率(CG)，使临床试验的选择性偏倚风险增高。为了减少试验的选择性偏倚，区组随机化设计不应再作为开放性临床试验随机化的推荐方法，而应考虑在其他的几种限制性随机化方法中进行选择。从DA看，BUD最小，BCDWIT其次。从CG看，BSD最小，BUD其次。我们认为从临床实际看 CG 的影响更大，更倾向于推荐

CG较小的随机化方法，例如BSD、BUD方法。本研究的结论仅针对开放性临床试验的随机化，对于双盲设计的临床试验，区组随机化方法并未受到排斥。

人们似乎已经认识到PBD的不足，进而采用VBD来加以改善，甚至将VBD奉为一种随机化的好方法。从直觉上， VBD的区组变化是随机的，理应增加预测受试者分组的难度。然而，临床研究人员预测下一个受试者的分组并不是依据区组大小来判断，而是猜测分配到受试者例数较少的一组，因此即便不公开PBD区组大小或者VBD随机变化区组长度，由于猜测的行为规律导致了区组随机化的性能较低。VBD方法选定区组长度为4和6两种区组，其随机性仅稍优于PBD方法，且不如其他3种限制性随机化方法。

在具体随机化实施中，为更进一步优化选出最佳随机分配序列，一旦选定随机化方法，还可通过大量模拟选出随机性能最佳(可考虑用CG+DA最小进行选择)的序列，该机制为提高随机化的质量提供了很好保证。选择合适的随机化方法固然重要，然而，更重要的是做到分配隐蔽，这则另当别论了[10-11]。

本文在以往研究的基础上，对多种限制性随机化方法的统计性能进行了探讨，完善了随机化方法学的研究，为临床试验随机化方法的选择提供了参考，对保证随机化质量具有重要意义。