真实世界研究中的因果推断及粗化精准匹配

2019-01-27朱迪刘宝

中国药物经济学 2019年10期

朱迪刘宝

21世纪以来，真实世界研究（real-world study）在我国发展迅速，已逐渐成为药物研发与监管、相关卫生政策制定的重要依据。我国在2002年提出要使用医保数据为药物处方与药物经济学评价提供支持；2010年，“真实世界证据”一词首次被应用于一项中药的研究中；2012年，中国医师协会开展了一项关于“如何在观察性研究中评估健康干预效果”研究；2018年，3项我国的真实世界研究支持了贝伐珠单抗在我国的适应证拓展；2019年，国家药审中心发布了《真实世界证据支持药物研发的基本考虑（征求意见稿）》，涵盖上市前临床研发和上市后再评价等环节[1-3]。

大量真实世界研究需要使用观察性数据进行因果推断，如政策效果评估中需要考察政策实施带来的结果与影响，药物经济学评价中需考察不同用药方案成本与健康结果的差异[4]。因果推断的具体方法包括匹配法、断点回归法、工具变量法、结构方程模型法等等，其中最为常用的方法之一是倾向性评分匹配法（propensity score matching, PSM）[5-6]。

PSM应用十分广泛，但同时也具有一定局限性。有学者论证了PSM的局限性，并提出“粗化精准匹配”（coarsened exact matching, CEM）；CEM在某些方面比常见匹配方法更加具有优势，且已有一定的实证性研究验证了其效果[7-8]。

本研究首先对因果推断及真实世界研究进行介绍，然后对真实世界研究中常用的“匹配（matching）”方法进行阐述；在此基础上进一步介绍CEM，并基于文献阐述其与 PSM 等匹配方法比较的优势，为CEM的推广与应用做铺垫。

1 因果推断与真实世界研究

1.1 因果推断的概念及原理

因果推断是寻找观测到的现象的成因的过程，通过模型与统计方法，对两者之间的因果关系进行判断[4]。

现在最常用于因果推断的模型是1970年提出的“反事实框架（counterfactual framework）”，也叫“潜在结果框架（potential outcomes framework）”。反事实框架基于这样一种逻辑：一个个体接受或未接受某种干预时，结果指标的差异即为干预产生的结果，因此便可以将干预与结果之间建立因果关系；但是一个个体不可能同时处于干预和不干预两种不同的状态，因此要通过多种方式（如选择相似的个体、同一个体先后观察两种干预状态和结果指标等）来模拟不能与被观测的状态同时存在的另一种状态，建立“虚拟的事实”，进行因果推断[9]。

1.2 基于观察性数据的真实世界研究的因果推断

在实际应用中，因果推断的重要作用是观察不同的健康干预措施后的健康产出，以测量健康干预措施的效果[9]。一般会通过内部效度（internal validity）和外部效度（external validity）来评估因果推断的有效性。内部效度用来衡量干预与结果之间关系的确实性程度，因果推断越准确，则内部效度越高，结论越可信；外部效度用来衡量研究结果的代表性与普遍性，样本人群对总体人群越有代表性、结论越能在更多人群中推广，则外部效度越高，研究与结论越具有现实意义。

随机对照试验（randomized-control trial, RCT）具有很好的内部效度，被视为因果推断的金标准；但由于其纳入排除标准严格，样本人群对总体人群的代表性较弱；为了更好地进行因果推断，RCT往往对干预措施有一定的限制，这种与实际情况的差异也会导致外部效度的下降。另外，RCT也面临难以操作、成本高昂等问题，有时也会因为伦理问题而难以实施[9-10]。

由于RCT具有上述局限性，研究者们开始寻找通过观察性数据进行因果推断的方法。国内外已有越来越多的学者开始使用观察性数据进行真实世界研究，国内也有学术组织对相关研究建立了方法学框架。真实世界研究体系主要包括建立研究型数据库、研究设计、政策转化 3大内容。研究者需要从电子病历、医保数据库等中获取信息并进行整合，“基于科研目的，形成统一、标准化、可用的研究型数据库形式”[11]。真实世界研究的设计思路与RCT略有不同：RCT需要首先明确研究目标并进行研究设计，以此为基础进行干预并收集数据，进行统计分析与政策建议；真实世界研究则在明确研究目的后，对已有的观察性数据进行探索与全面了解，以此为基础形成相应的研究设计，之后对数据进行整理与分析，并提出政策建议[5]。

与RCT等干预性研究比较，真实世界研究所需要的观察性数据相对容易获得，对总体人群更加具有代表性，外部效度较高；但基于观察性数据进行研究设计与因果推断时面临内部效度较低的问题，主要体现为各种偏倚与混杂影响结果的真实性、可靠性[12]。

2 匹配的目的、作用及局限性

2.1 匹配的目的

“匹配”是使用真实世界观察性数据进行因果推断时的重要方法，可以提高因果推断的内部效度[10]。匹配是为了根据研究目的从总体的观察性数据集中识别出这样一组子数据集：这个子数据集由RCT产生，根据是否接受健康干预措施可被分为干预组与对照组，使两组样本在除了健康干预之外的协变量情况尽可能一致。如果能够识别出这样的子数据集并去除其他样本，就相当于从观察性数据集中识别出了经过随机对照的研究设计得到的数据集，便能够使用观察性数据模拟随机对照试验，提升证据力度与内部效度[7]。

2.2 匹配有利于进行可信的因果推断

最理想的情况下，干预组中的每个样本都能匹配到对照组中的某个样本，且两个对应的样本在所有协变量上的情况完全一致。这种情况被称为精准匹配（exact matching）。在这种情况下，干预组与对照组在健康产出上的差异完全由干预带来。但在实际情况中往往无法做到精准匹配，只能为干预组中的部分样本匹配到“相似”的样本作为对照。此时，健康产出的差异不完全是由干预带来的，因此在匹配后还需要进一步借助统计模型进行推断。

想要得出可信的因果推断结论，需要降低模型依赖性和干预组与对照组之间的不平衡性。有效的的匹配可以实现这样的目的[8]。

2.2.1 匹配降低模型依赖性模型依赖性（model dependence）是指统计推断会受到统计模型选择的影响，导致不同的统计模型可能会给出不同的结果，影响结果的真实性、可靠性。

使用观察性数据进行统计推断时，需要基于数据情况、研究目的等多种因素进行研究设计并选择统计模型。现实情况中，面对大量的观察性数据，研究者难以很好地掌握所有的数据细节，因此并不知道何种统计模型最适合于当前的观察性数据。这时，研究者会基于经验和实际情况使用多种模型进行尝试，并得到多种研究结果；之后，研究者会根据经验与专业知识等，对模型与结果进行选择、报告与发表。在因果推断的过程中纳入研究者的经验与专业知识有利于得到更加可信的研究结果，但也可能导致研究者的偏好、利益相关等因素影响到模型与研究方法的选择，进而影响研究结果[7]。

上述情况的存在使模型依赖性成为衡量研究结果真实可靠与否的重要维度。有学者设计出了指标来测算模型依赖性大小，用于衡量统计推断结果对模型选择依赖程度。通俗地来讲，对于一个数据集，如果使用不同模型得出的统计推断结果差异较大，即模型的选择对统计推断有很大的影响，则被认为模型依赖性较大；如果使用不同的模型得出的统计推断结果几乎没有差异，即模型的选择基本不影响统计推断，则被认为模型依赖性较小。模型依赖性小的因果推断更加真实、可靠；有效的匹配可以降低模型依赖性[7-8]。

2.2.2 匹配降低不平衡性如前文所述，匹配的目标是通过对真实世界观察性数据的处理与删减，使最终筛选出的数据集近似从严格设计的随机对照实验中得到的数据集；最理想的情况是精准匹配[13]。因此，可以用匹配后得到的数据集与精准匹配时得到的数据集之间的差距来衡量匹配的效果，即越接近精准匹配，则匹配的效果越好；这种差距被称为“不平衡性（imbalance）”。

数据集的不平衡性降低时，其模型依赖性也会越降低；有效的匹配可以降低数据集的不平衡性，同时也会降低其模型依赖性；基于这样的数据集得出的因果推断更加真实可靠[7]。

2.3 常用匹配方法面临的困境

有效的匹配应该经历两大步骤：首先，需要将干预组与对照组中的“非一般经验支持样本（units outside the common empirical support）”从观察性数据集中去除，否则会对研究的外推性提出要求，而这是根据数据本身无法给出的；然后，在剩余的样本中，根据样本之间的相似程度，将干预组与对照组的样本进行匹配。只有识别出了哪些是可以进行有效匹配样本，才能够判断哪些是非一般经验支持样本；但是只有当匹配过程降低了数据集的不平衡性，才能够识别出能够有效匹配的样本；然而，要衡量数据集的不平衡性的变化，首先要将非一般经验支持样本去除。虽然研究者们提出了很多识别、去除非一般经验支持样本的方法，如核密度估计等，但是这种逻辑循环却无法避免；也因为其他种种困难，很多研究在实践中跳过了第一步骤，直接对整个观察性数据集进行匹配[8]。

现在最常用的匹配方法之一是 PSM。基于协变量计算每个样本的倾向性评分后，将干预组与对照组之间评分最接近的样本匹配在一起，可以使匹配后的数据集接近于通过完全随机对照试验产生的数据集。但是，和大量其他方法一样，PSM 方法也无法解决前文提到的逻辑循环等难题；且由于PSM基于倾向性评分进行匹配，并非直接基于协变量进行匹配，因此无法保证配对成功的样本的协变量取值相似；在实践中需要进行多次尝试，或者加入一些其他限制条件，直到匹配出干预组与对照组在协变量的不平衡性在可接受范围内的结果。这种匹配方法在不断地尝试的过程中去发现不平衡性较低的结果，随机性大，效率低下，在某些情况下效果较差。另外，由于PSM通过匹配来模拟完全随机对照试验，因此会产生“倾向性评分悖论（propensity score paradox）”：在数据集本身不平衡性较大的时候，可以一定程度上减少不平衡性；但是若数据集的不平衡性本身已经较低，希望通过匹配来使其进一步降低，此时PSM会增加其不平衡性[7,14-15]。

3 CEM的优势及其应用

3.1 CEM的概念及原理

King和Nielsen[7]、Iacus等[8]提出的CEM能够一定程度上克服上述困难。CEM的思想是先“粗化”，再精准匹配。“粗化”并非在这里首次出现，它是一种研究者常用的数据处理方法。比如，对于教育程度变量，研究者一般会将其分类为小学、高中、大学等，而较少更加细致地分为小学一年级、小学二年级等；又如，对于年龄变量，根据不同的研究类型，可以将其作为连续性变量纳入研究，也可将其分段并作为分类变量纳入研究，这种分段即为粗化思想的应用。虽然在匹配过程中进行粗化会不可避免地带来信息的损失，但是CEM后的统计分析仍然使用原数据集中的值，而不是在CEM中粗化后的值；因此，CEM的粗化对后续建模与统计分析带来的影响很小。

CEM的实施可大致分为4步：1)将所有要纳入匹配的协变量记为X= (X1,X2, . . . ,Xk)，X是一个用来表示每个样本在k个协变量上取值的k维向量；复制每个样本的X，并记为X*，用于进行后续粗化和匹配。2）根据研究目的、文献、国际标准、研究者的经验或专业知识等，对X*中的每个变量进行粗化。3）根据每个协变量的粗化情况建立层，并将所有X*放入相应的层内；例如，如果在第二步中每个变量都被粗化为了3类，那么在这一步就会建立3k个层。4）判断每个层中是否同时存在干预组和对照组，如果是，则保留这个层以及其中的样本，反之则删除；最后根据筛选后留下的X*在原数据集中找到对应的X，得到最终的匹配结果。

3.2 CEM的优势及特性

与PSM等常见匹配方法相比，CEM具有许多优势和特性[8,16-17]：1）匹配的有效与否由两组间的不平衡性判断，不平衡性降低则匹配有效；CEM 的原理决定了它不会使不平衡性上升，保证了匹配的有效性。在进行粗化时，不平衡性的上限就已被决定，后续的匹配过程不会使不平衡性上升。2）CEM在进行粗化和匹配时，对每个协变量的处理是独立的，对一个协变量的处理不会影响其他协变量的粗化与匹配。研究者可以对每个协变量进行单独处理，有利于降低两组间的不平衡性，同时也能够单独研究每个协变量对降低不平衡性的贡献。PSM 等方法需要使用所有协变量构建倾向性评分，并根据倾向性评分进行匹配，研究者难以对每个协变量进行单独的处理与研究。3）CEM 符合“一致性原则（congruence principle）”，有利于因果推断。常用的匹配方法不基于原始数据进行匹配，如PSM方法基于倾向性评分进行匹配，马氏距离法使用原始数据计算马氏距离进行匹配，这会导致因果推断力度变弱。CEM 基于原始数据进行匹配，在更加符合直觉的同时，有利于做出有力因果推断。4）CEM不需要提前去除非一般经验支持样本。如前文所述，匹配面临逻辑循环：有效的匹配需要首先去除非一般经验支持样本，而这需要基于有效的匹配。CEM 将去除样本和匹配两个步骤合二为一，在同一个层中不同时存在干预组和对照组的样本时，这个层中的样本便未被匹配并被去除。这样的操作简单、易理解，且由于不需要提前去除样本，更有利于比较匹配前后数据集的不平衡性，以衡量匹配的效果。5）对于质量较好的数据集，CEM能够保留大量的样本，且速度比其他匹配方法更快。有研究使用真实的数据集比较不同匹配方法的效果，发现CEM能够保留最多样本量，且计算机运算时间最短；也有一项实证研究对相同的数据库分别使用了 PSM和CEM，发现CEM保留了更多的样本[8,18-19]。大量的样本保证了数据集对目标人群的代表性，同时也能够增强因果推断的力度。6）CEM可以降低的模型依赖性。由于CEM不会使不平衡性上升，可以稳定地降低数据集的不平衡性。模型依赖性会随着不平衡性的下降而下降，因此CEM可以在较低的模型依赖性下做出更加可信的因果推断。另外，CEM可以纳入几乎所有类型的协变量；CEM可以将缺失作为单独的一种取值来进行匹配。CEM的效果受到粗化方式的影响，粗化得越合理、越细致，则匹配效果越好；不过有研究在同一数据集中尝试不同的粗化方式，发现更加合理的粗化方式确实能够使匹配后的不平衡性下降得更多，但没有明显的优势，即粗化方式的不同不会显著地影响匹配效果，研究者在粗化方式的选择上有较大的自由空间[8]。

3.3 CEM的应用

部分实证研究已采用了CEM。在Pubmed数据库中以“coarsened exact matching”为关键词进行检索，截止到2019年4月，共有131篇文献；其中66篇为公共卫生领域的实证性研究，43篇为关于临床操作项目的实证性研究，9篇为关于临床用药的实证性研究。

大多干预性研究通过对干预组及其对照组进行匹配，评估干预措施对医疗费用/健康产出的影响，进而评估干预措施/政策的实施效果，为监管与决策提供证据。

4 讨论

4.1 真实世界研究能够为药品监管与相关决策提供支持

美国与欧洲都已开始使用真实世界研究为药品监管提供证据。美国食品药品管理局（FDA）于2018年发布了《真实世界证据项目框架》，指出真实世界研究可提供健康产品的安全性、有效性证据，可以辅助决策，发挥加快审批流程等重要作用；欧洲药品管理局EMA于2018年发布文件阐述了真实世界研究在药品上市前后可以发挥的不同作用[20-21]。

已有一些真实世界研究为药品的监管提供了支持。一项2014年的真实世界研究为Invega Sustenna的适应证拓展提供了证据；一项2016年的真实世界研究作为一项单臂的Ⅱ期临床试验的对照，加快了Bavencio在欧洲和美国的上市；另有三项我国的回顾性真实世界研究为贝伐珠单抗在我国的适应证拓展提供了证据[22-23]。

随着我国医院电子病历数据库、医保数据库等的完善，真实世界研究能够在药品上市后的安全性与有效性评估、费用研究、药物经济学评价、预算影响分析等方面发挥重要作用，为药品监管与相关决策提供支持。

4.2 相较于常用的PSM等匹配方法，CEM有优势也有劣势

真实世界研究需要采用包括匹配在内的多种方法提升其真实性、可靠性，提升其证据力度。PSM是最常用的方法之一，它使用协变量构建倾向性评分，将具有多个维度的个体特征压缩至一维并以之为匹配的依据；CEM不对个体特征的维度数量进行压缩，而是对每个维度的取值进行粗化，并基于多维特征进行匹配。这种原理上的差异产生了匹配结果上的差异。

一些实证性研究显示PSM等匹配方法能够匹配出更多的样本，但是要纳入所有可能对结果有影响的协变量，否则会影响结果的真实性。CEM能够避免匹配过程中的逻辑循环，在匹配后大幅降低干预组与对照组之间的不平衡性并降低模型依赖性；但是一些实证性研究显示CEM获得的样本量较少，特别是在协变量中包含大量分类变量的情况下，CEM的结果可能会失去对原人群的代表性。样本量越大则能够对原人群有更好的代表性，两组间越均衡则更能得出真实可信的结论；PSM与CEM在这两方面各有优劣，研究者需要结合数据的实际情况与研究设计在样本量与均衡性两方面进行权衡，选择恰当的匹配方法[7,15,24-25]。

4.3 CEM可与其他匹配方法共同使用

除了可单独使用外，CEM也可与其他匹配方法共同使用，提高匹配效果。比如，可以在CEM将变量粗化、分层并匹配后，将同一层内的干预组与对照组样本使用其他匹配方法进行二次匹配；或者也可以在CEM之后，对得到的数据集整体直接使用其他的匹配方法再次匹配，此时是将CEM作为去除非一般经验支持样本的手段，提升匹配效果[8,14]。

CEM是一种优秀的匹配方法，但国内还鲜有实证性研究使用；PSM和CEM各有优劣，适用于不同类型的数据与研究设计。近几年，越来越多的研究开始使用真实世界数据，更加需要基于实际情况选择合适的匹配方法，以获得更加科学可信的研究结果。