BOP2试验设计方法的先验敏感性分析研究*

2022-05-28中国药科大学生物统计与计算药学研究中心210009

中国卫生统计 2022年2期

中国药科大学生物统计与计算药学研究中心(210009)

姜倩苏丽文言方荣△

【提要】目的 BOP2设计(贝叶斯最优II期设计)是在一个统一框架下可以处理复杂终点临床试验的设计方法，因其良好的统计性能、易于实践等优势，已在临床试验中得到广泛应用。和一般贝叶斯方法一样，模型未知参数的先验分布设置十分关键。本文旨在研究BOP2设计对先验选取的敏感性以及先验选择的一般规律。方法通过计算机模拟研究比较BOP2设计在不同无信息先验、乐观先验和保守先验下的统计表现。结果基于模拟结果，发现部分无信息先验以及保守先验，在不同场景下BOP2设计均有良好的统计性能，而乐观先验易引起一类错误率膨胀，仅当乐观先验与实际疗效相一致时，其统计性能良好。结论保守先验下BOP2设计的表现最稳健。若研究者对试验药物疗效持有相当积极乐观的态度，可以谨慎地选择乐观先验。

传统的II期临床试验通常只考虑单个二分类的终点，比如肿瘤反应。然而随着新型分子靶向制剂以及免疫疗法的迅速发展，有效终点变得更加复杂，这种终点可能是有序的或多分类的。Yuan[1]于2016年提出了一种灵活的贝叶斯最优II期(Bayesian optimal phase II，BOP2)试验设计，该设计能够在一个统一的框架下处理复杂终点类型的试验。因其具有良好的统计性能、易于实践等优点，已在临床试验中得到广泛应用。BOP2是一种基于贝叶斯理论的方法，采用狄利克雷-多项模型建模，每次期中分析时，通过评估治疗有效的后验概率，做出继续或终止试验的决定，每次期中分析的停止阈值将根据期中样本量做出适应性改变[1]。

研究表明与传统的临床试验设计相比，BOP2设计具有以下优点：(1)提供了一个灵活的可同时监测多个响应终点的框架；(2)允许停止规则随期中样本量而适应性改变，这提高了设计的检验效能，使治疗有效时错误终止试验的风险降低。在试验早期，倾向于采用更宽松的停止规则以避免数据量较小带来的提前终止有疗效试验的风险，随试验进展以及数据积累，则应采用更严格的停止规则来提前终止无疗效的试验；(3)停止规则可在试验开始前给出，从而临床研究者只需收集出现感兴趣事件的受试者数，根据表中对应数据，就可获得下一步决策的指导；(4)有效地控制一类错误率并具有较高的检验效能[1]。

BOP2设计作为一种贝叶斯设计方法，其先验分布的选取是在设计时需要考虑的，Yuan主要讨论了基于模糊先验的研究结果。本文将在此基础上，通过计算机模拟，研究BOP2设计在不同先验参数设置下的统计性能以及先验稳健性，以期总结出BOP2对先验指定的敏感性以及先验选择的一般规律，从而对BOP2的使用提供一些先验选择的参考建议。

研究方法

在肿瘤临床试验中，临床试验终点有如下四种类型，分别是：(1)二分类疗效/毒性终点，如客观缓解率(ORR)。如果ORR<20%则认为该设计无效，ORR>40%则认为该治疗有效；(2)嵌套型疗效终点，Cheson等人[2]将疗效分为四个等级：完全缓解(CR)、部分缓解(PR)、疾病状态稳定(SD)、疾病进展(PD)。如果CR或PR的概率大于30%，或者CR的概率大于15%，则认为该药物有效，否者无效。试验终点CR是CR/PR的一部分，故称之为嵌套型终点；(3)联合有效性终点，如客观缓解率和六个月内无事件生存率(EFS6)。若ORR≤10%以及EFS6≤20%则认为治疗无效，若EFS6>20%，或ORR>15%则认为该治疗有效；(4)有效性和毒性终点，如同时考虑有效性终点ORR和毒性终点DLT，如果ORR<45%或DLT>30%则认为该治疗无效[1]。

先验分布一般包括四种类型，分别是：(1)无信息先验，通常指概率密度函数扁平且发散不集中的先验分布。该先验分布推导出的后验分布完全由当前数据主导，例如Beta(1，1)；(2)乐观先验，由于研究者对新药的疗效持有积极乐观的态度，故该先验分布倾向于对疗效较好的区间赋予较大的概率，例如Beta(8，2)；(3)保守先验，与乐观先验相反，对新药的疗效持谨慎保守的观点，倾向于对疗效较差的区间赋予较大的概率，例如Beta(2，8)；(4)临床先验分布，该先验综合不同临床专家对新药的认识，通过平均的方法来消除潜在的主观因素的影响，因而它代表相对客观的先验。

Yuan[1]的团队已经证明了在先验样本量为1的模糊先验下，BOP2设计具有严格控制一类错误率以及保证较高检验效能的优良统计表现。本文主要研究BOP2在无信息先验、乐观先验和保守先验下的表现。

(1)无信息先验

(2)乐观先验及保守先验

乐观先验以及保守先验的设定可根据先验样本量n及各分类终点先验概率期望E(θk)获得，即

本文取零假设(治疗无效)作为保守先验分布的E(θ)，备择假设(治疗有效)作为乐观先验分布的E(θ)。如嵌套终点的案例中，零假设和备择假设分别为：H0：CR=0.15&(CR/PR)=0.30；H1：CR=0.25&(CR/PR)=0.50。因此，对于嵌套终点Y={CR，PR，SD，PD}，保守先验的E(θ)=(0.15，0.15，0.30，0.40)，乐观先验的E(θ)=(0.25，0.25，0.25，0.25)。此外，本文同时考虑了先验样本量n对BOP2统计性能的影响，分别模拟了先验样本量为1、3、5、7、10的保守和乐观先验的结果。

模拟试验

本文对各类终点下的BOP2设计分别进行了模拟研究，各终点得出的敏感性结论相似。由于篇幅限制，本文仅呈现其中具有代表性的嵌套型疗效终点的模拟研究，通过模拟研究比较BOP2设计在无信息先验，保守先验以及乐观先验下的统计性能。考虑嵌套终点Y={CR，PR，SD，PD}，其零假设以及备择假设为

H0：CR=0.15&(CR/PR)=0.30，

H1：CR=0.25&(CR/PR)=0.50。

本模拟设置了8个代表不同药物实际疗效的场景，从场景1至场景8参数的选择代表实际疗效逐渐增加且基本涵盖了CR以及(CR/PR)的可能范围。场景1为零假设场景，场景7为备择假设场景。最大样本量N=40，前10个受试者接受治疗后开展第一次期中分析，往后每有5个受试者接受治疗开展一次期中分析，直至达到最大样本量。期中分析停止准则及阈值均和BOP2设计原文一致。一类错误率控制为10%。每个场景分别用R 3.6.0软件模拟10000次。

BOP2设计的统计性能考察指标主要有以下三项：(1)拒绝零假设的概率(percentage of rejecting the null hypothesis，PRN)，定义为模拟试验中拒绝零假设的试验的比例，因此当零假设为真(假)，PRN为一类错误率(检验效能)；(2)早期停止试验的概率(percentage of early termination，PET)，因治疗无效而早期停止的试验的比例；(3)样本量：10000次模拟试验的平均样本量。

表1～3分别是嵌套终点的BOP2设计在不同无信息先验、保守和乐观先验下所得到的PRN、PET和样本量。

表1 嵌套终点BOP2设计在不同无信息先验下的PRN、PET和样本量

表1展示了BOP2设计在四种无信息先验下的模拟结果。场景1至场景8的参数设置分别模拟了由低到高的实际疗效。由表1可知，在场景1(治疗无效)下，除Bayes-Laplace先验的一类错误率(PRN)超出预设的10%外，其他三种无信息先验的一类错误率均为9.20%，小于预设的阈值10%。说明在以上无信息先验下的BOP2设计均有效地控制了一类错误率。在场景7以及场景8下，真实疗效满足备择假设(有效)时，检验效能(PRN)均高于87.10%，并在场景8达到了97.87%，这说明无信息先验下BOP2设计具有理想的检验效能。随着场景1到场景8真实疗效逐渐提升，无信息先验下试验因无效而早期停止的概率逐渐降低，并保证了有较高的概率在早期停止无疗效的试验以及有效避免在早期错误停止有疗效的试验。如场景1有76.20%的概率正确的在早期停止试验，场景8仅有1.57%的早期停止概率。总的来说，除Bayes-Laplace先验以外，其他三种无信息先验的模拟结果相似且在不同场景下都有较好的统计性能和稳健性。

表2展示了BOP2设计在不同先验样本量的保守先验下的模拟结果，基于对新药疗效的保守判断，取零假设(治疗无效)作为表2中保守先验分布的E(θ)，即E(θ)=(0.15，0.15，0.30，0.40)。由表2可知，不同先验样本量的保守先验的模拟结果相似。在场景1下，一类错误率(PRN)均小于预设的阈值10%，证明了保守先验下的BOP2设计能有效地控制一类错误率。在场景7以及场景8下，即真实疗效满足备择假设(有效)时，模型检验效能(PRN)均大于85.50%，并在场景8达到了96.00%，说明保守先验下BOP2设计具有与无信息相似的较高检验效能。随着场景1到场景8真实疗效逐渐提升，早期停止试验的概率从场景1的82.10%降至场景8的3.0%，说明了BOP2设计在保守先验下也具有较高的概率在早期停止无疗效的试验，并有效避免有疗效的试验在早期被停止。综上，保守先验在不同场景以及不同先验样本量下均有良好的统计性能和稳健性。

表2 保守先验的嵌套终点类型BOP2设计在不同先验样本量下的PRN、PET和样本量

表3展示了BOP2设计在不同先验样本量的乐观先验下的模拟结果，基于对新药疗效的乐观判断，取备择假设(治疗有效)作为表3中乐观先验分布的E(θ)，即E(θ)=(0.25，0.25，0.25，0.25)。由表3可知，在场景1下，先验样本量大于3的乐观先验的一类错误率(PRN)均超过预设的阈值10%，说明乐观先验与实际疗效不符合时，易引起一类错误率膨胀。在场景7以及场景8下，即乐观先验与真实疗效一致时，BOP2设计的检验效能(PRN)均高于87.12%，并在场景8达到99.15%；错误地早期停止有疗效的试验的概率均低于6.23%，且在场景8达到低于1%。说明若乐观先验与实际疗效一致，则能提升检验效能并降低在试验早期停止有疗效试验的概率。值得注意的是，不同先验样本量的乐观先验的统计表现不同。当先验与真实疗效一致时，先验样本量越大，BOP2设计的统计性能越好；反之，当先验与真实疗效相悖时，先验样本量越大对统计性能危害越大，这说明BOP2设计对乐观先验的先验样本量是敏感的。总的来说，乐观先验下BOP2设计的统计表现不够稳健，当乐观先验与真实疗效相悖时，将损失BOP2设计的统计性能，只有当乐观先验与真实疗效相一致时，才能提升BOP2设计的统计表现。

表3 乐观先验的嵌套终点类型BOP2设计在不同先验样本量下的PRN、PET和样本量

讨论

本文通过大量模拟研究比较了BOP2设计在常见的几种先验分布下的统计性能。结果表明，BOP2设计在保守先验和部分无信息先验下都有较为稳健的统计性能。当药物实际疗效较差时，BOP2设计可以严格地控制一类错误率；当药物实际疗效很好时，有理想的检验效能。无信息先验中的Bayes-Laplace先验易引起一类错误率的膨胀，因此应谨慎使用该先验。保守先验的先验样本量对结果无显著影响。BOP2设计在乐观先验下的表现较为敏感，当且仅当在药物实际疗效较好时，引入乐观先验才会获得良好的统计性能，而当药物实际疗效较差时，引入乐观先验则极易引起一类错误率的膨胀。总的来说，保守先验是所有试验先验中最稳健的一个选择，这也与BOP2网页应用程序的默认先验相符合。

综上所述，在使用BOP2时，BOP2网页APP的默认先验是最稳健的选择。若研究者对试验药物疗效持十分乐观态度，也可以谨慎地选择乐观先验以提高检验效能。笔者希望通过本文，为广大BOP2用户在选择先验分布上提供可靠、科学的建议，以期提升BOP2的应用效能。BOP2网页应用程序可见http：//www.trialdesign.cn。