ROBINS-I：评估非随机干预性研究偏倚风险的新工具

2018-08-18王浩唐晓宇王和平吴昊森周奇王子君肖淑君刘练王东珂杨楠王琪王小琴

中国循证心血管医学杂志 2018年7期

王浩，唐晓宇，王和平，吴昊森，周奇，王子君，肖淑君，刘练，王东珂，杨楠，王琪，王小琴

随机对照试验（RCT）被公认为评价医疗干预措施效果的金标准[1,2]。但在研究罕见病、慢性疾病及涉及伦理学或长期疗效观察等问题上，随机对照试验的可行性较低，而队列研究、病例对照研究等非随机对照研究（NRSI）更易达到研究目标，并且也是评估干预疗效的重要方法[3-6]。且一些学者在对RCT和观察性研究进行对比后，认为一个大样本的试验设计完善的非随机研究比一个小样本的设计不佳的RCT更加可取[7,8]。目前，许多评价观察性研究方法学质量的工具已被系统评价采用[9,10]，而Newcastle-Ottawa[11]和Downs-Black[12]工具是其中应用最广泛的两种。虽然两者都具有完善的方法学的条目清单，但是每一个条目同时涉及内部有效性和外部有效性，并且缺乏综合性的手册。

英国布里斯托尔大学（University of Bristol）社会医学部在推出评估系统评价偏倚风险—ROBIS工具后[13]，于2016年又制定了一种全新的非随机干预研究评价工具—ROBINS-I（Risk Of Bias In Non-randomised Studies-of Interventions）工具[14]，其针对偏倚风险的考虑参照随机对照试验的Cochrane偏倚风险工具[15]，诊断准确性研究的QUADAS-2工具[16]以及系统评价的ROBIS工具[17,18]，通过更加规范的手册评价多个偏倚领域以判断研究的总风险。而本文旨在介绍和解读ROBINS-I工具，帮助国内系统评价制作者理解和应用该工具，以更好地判断非随机对照研究偏倚风险。

1 ROBINS-I工具的制定过程

ROBINS-I工具的制定历经三年，分以下五个阶段。①收集信息：在项目启动会议上调查Cochrane评价小组，收集评价非随机对照干预研究偏倚风险方法的信息。②确定领域和问题：确定相关的偏倚领域及建立各偏倚领域的工作组。参照之前QUADAS-2工具形成的过程，通过回答标志性问题以帮助评价者判断各领域的偏倚，由各工作组具体考虑如何制定标志性问题及如何通过这些标志性问题的回答判断偏倚风险。③共识会议：所有制定者召开面对面会议，讨论并确定各领域偏倚的标志性问题，对工具的主要特征达成一致。④预试验：工具的初始版本在工作组内进行预试验，基于预试验的结果进行修订，形成ROBINS-I工具的1.0.0版[19]。⑤进一步完善：召开研讨会解释此工具，组建一个小组运用工具评价6篇非随机对照研究，基于此次会议及随后使用的反馈进行修改，最终形成新的2.0版本[20]。

2 ROBINS-I工具评价步骤和解读

针对单个研究使用该工具进行评价包括六个步骤，为使读者更好地理解和使用该工具，以中国循证儿科杂志期刊于2013年发表的《经胎盘转运地高辛治疗胎儿心力衰竭的非随机对照研究》（以下简称“地高辛研究”）[21]为例，采用 ROBINS-I工具对其偏倚风险进行评价。

2.1 指定目标随机试验假定一个采用随机方法的目标试验，受试者相同，不存在偏倚风险，无需考虑试验可行性和伦理因素。根据目标试验与所评价研究结果的系统性差异定位偏倚。目标试验见表1。选择评价结果的类型分两种：①意向性分析的结果：干预措施由分配确定，无论最终是否接受该组的治疗措施或依从性如何，在分析时仍作为该组分配干预的结果。②符合方案集分析的结果：只纳入完全按照方案完成试验全过程受试者的分析结果[22]。后者相比前者需要考虑干预的依从性和“干扰”（指除意向干预外的干预）引起的误差。地高辛研究将对照组转组的受试者的结果纳入实验干预组分析，退出和失访病例未行分析，因此研究结果属于符合方案分析的结果。

表1 假定的目标试验

2.2 指定待评价结果和结局指定需要评价偏倚风险的结局指标，选择可以标化的结果进行评价。地高辛研究以妊娠结局、患胎的心律转复情况、分娩情况、出生后心律及心功能和生长发育情况等作为结局指标，以心血管整体评分（CVPS）及心室作功指数胎龄、产时Apgar评分、超声心动图评价等作为标化结果。

2.3 初步考虑混杂因素和干扰通过评价人员的专业知识和初步的文献浏览，识别出重要混杂域和干扰（表2～3）。混杂域是指受试者接受何种干预的预测因素，干扰是指与接受的干预措施以及结果的预测因素均相关的额外干预，两者均可引起偏倚。经判断，地高辛研究[21]存在一项重要“混杂域”，即“心功能情况”，其可能影响孕妇选择是否服用地高辛治疗。地高辛研究除进行地高辛干预外，未采用其他干预，因此不存在重要“干扰”。

2.4 回答标志性问题ROBINS-I工具将偏倚分为7个领域：①混杂偏倚；②选择受试者偏倚；③干预分类偏倚；④意向干预偏离偏倚；⑤丢失数据偏倚；⑥结局测量偏倚；⑦选择性报告偏倚。以干预状态将7个偏倚领域划分成3部分。即：干预前、干预时和干预后。非随机对照干预研究主要在前3个偏倚风险评估中区别于随机对照试验，主要是随机化方面的差异。其他4个偏倚领域与随机试验的偏倚风险评估有许多重叠（表4）。

表2 重要混杂域（以“地高辛研究” [21] 为例）

表3 重要干扰（以“地高辛研究” [21]为例）

表4 ROBINS-I工具包含的偏倚领域

此阶段需要针对7个偏倚领域的33个标志性问题，按顺序作出：是（Y）、可能是（PY）、否（N）、可能否（PN）、无信息（NI）的回答，通过回答标志性问题，判断偏倚风险。具体标志性问题，问题选择以及地高辛研究针对问题的回答（表5）。

2.5 判断各领域偏倚风险根据7个偏倚领域的标志性问题的回答，判断偏倚风险。如果回答每个偏倚领域标志性问题后无任何潜在性的偏倚，该研究可评为低偏倚风险。一旦潜在性偏倚存在时，评价者必须依据表6判断偏倚风险的程度，判断结果分5个级别：低偏倚风险、中等偏倚风险、高偏倚风险、极高偏倚风险、无信息，每个级别含义见表6。并对存在的偏倚判断偏倚方向（利于实验组或对照组）。

通过对标志性问题的回答，判断出在“混杂偏倚”领域，地高辛研究因为存在“心功能状态”这一重要混杂域，部分对照组可能因心功能恶化，转为地高辛组，引起基线混杂和时变混杂，而作者未采用恰当分析方法处理，该领域存在极高偏倚风险。对转组的受试者作为地高辛组进行分析，治疗时间减少，此偏倚有利于对照组。“选择受试者偏倚”和“干预分类偏倚”领域为低风险。“意向干预偏离”领域，地高辛研究为符合方案集分析结果，干预实施良好，未出现偏离。“丢失数据偏倚”和“结果测量偏倚”领域偏倚风险较低。对于“选择性报告偏倚”领域，虽无选择性报告的指征，但缺乏预先的注册信息或数据分析计划等证据支持，因此为中等偏倚风险，此偏倚的方向的判断缺乏信息支持。

2.6 判断研究整体偏倚风险根据各偏倚领域的偏倚风险程度，确定研究的偏倚风险，分5个级别：低偏倚风险、中等偏倚风险、高偏倚风险、极高偏倚风险、无信息。地高辛研究各有一个领域为极高和中等偏倚风险，因此研究整体的偏倚风险为极高。判断依据和各级别代表含义（表7）。

3 讨论

本文选取的非随机对照试验，偏倚风险为极高，主要存在混杂因素的影响并且未合理分析，此外还未注册和计划书等信息。应注意的是，其存在的混杂偏倚有利于对照组，而研究结果有利于地高辛组，反而进一步提高了结果可信度，在用此工具评价系统评价纳入的NRSI，应结合具体研究问题分析。本文仅评估一篇非随机同期对照试验，需进一步探讨评估自身前后对照研究、历史对照研究等。

ROBINS-I工具的研发主要是解决系统评价中非随机干预研究偏倚风险的评估问题；更广泛潜在的用途是资助申请的评价和期刊稿件的同行评审；此外，当设计原始研究去评估一种干预效果时，可指导研究者如何去考虑该问题。它与以往评价非随机干预研究的工具所不同的特点：①该工具基于7个偏倚领域的风险程度判断总的风险，而每一个偏倚领域风险则是通过回答标志性问题判断的。工

具针对非随机干预研究的“偏倚风险”，将非随机干预研究设计、制作和结果解释中可能出现的偏倚以标志性问题一一提出，相较于以往“方法学质量”这一概念更为详细具体，并且最终的结果是以总偏倚风险相关性的“低”、“中等”、“高”、“极高”、“无信息”来表示，相比较工具以条目的答案数量或通过最终分值来表示的方法学质量更加明确。②该工具的形成约3年，收集、遴选和专家共识最能反映非随机干预研究中偏倚风险的标志性问题，于2014年9月Cochrane学术年会发布初始的1.0.0版，此后进行过多次的预试验及培训，基于预试验、培训和用户的反馈对该工具进行重大修订形成目前的2.0版本。③该工具相对于之前，适用范围更广。ROBINS-I工具不仅用于观察性的非随机干预研究，还用于实验性的非随机干预研究，如：非随机同期对照试验、自身前后对照研究、历史对照研究等。④评价非随机干预研究时先假设为随机对照试验，因而其低风险偏倚就和高质量的随机对照试验的偏倚风险对应起来，使非随机干预研究使用GRADE[23-25]证据分级时，不是因为随机化缺乏而降级[26,27]，而是因为随机化不好才降级。当非随机干预研究和随机对照试验有相似偏倚时，两种类型的研究可以合并，使得GRADE从只能对相同类型研究的证据体分级转向不同类型研究的证据体分级。

表5 判断各个领域偏倚需要回答的标志性问题

表6 ROBINS-I工具中偏倚领域的解读和总偏倚风险的判断

工具的局限性：①该工具注重具体的偏倚判断，并没有处理结果不准确性问题，如：统计分析位考虑到群集或参与者的匹配问题。②使用工具评价时，每个领域需回答3～7个标志性问题（表5），得出每个偏倚领域风险程度时还需对7个领域进行总体判断，使得工具操作过于复杂和耗时。③虽然该工具在1.0.0版本的基础上进行了重大修订，但其信度、效度和实用性及其推广情况仍有待时间的检验。