临床实践指南制定方法<br/>——证据分级与推荐强度

临床实践指南制定方法
——证据分级与推荐强度

2018-08-18黄笛黄瑞秀郭晨煜黄桥曾宪涛任学群靳英辉王行环

中国循证心血管医学杂志 2018年7期

黄笛，黄瑞秀,，郭晨煜，黄桥，曾宪涛，任学群，靳英辉，王行环

信息时代的来临，是机遇亦是挑战，在获取海量信息的同时，我们不得不面临如何处理这些海量信息的难题。对证据质量进行分级，并在此基础上结合患者价值观和意愿作出推荐是循证医学最显著的特点[1]。依据循证的理念，将信息按研究要求进行分类、分级并提出明确的推荐意见，可以为决策者进行临床决策提供有效参考。本文回顾了证据分级与推荐强度的发展演进过程，并对目前国际上三十余部指南制定手册所推荐的证据分级与推荐强度进行系统归纳、总结，以期为指南制定工作者提供方法学参考。

1 证据分级与推荐强度的演进

证据分级的概念由美国社会学家Campbell和Stanley于20世纪60年代提出，被用于评价教育领域部分原始研究的设计。1979年，加拿大定期体检特别工作组（Canadaian Task Force on the Periodic Health Examination, CTFPHE；现更名为Canadian Task Force on Preventive Health Care，CTFPHC）首次对医学领域的研究证据进行质量分级并给出了推荐意见[1]。此后，证据质量和推荐强度的分级进入了不断探索的快速发展阶段[1-5]（表1）。

全球许多组织和机构对证据质量和推荐强度的分级标准进行了规范，但标准不一，方法各异。我们对这些分级标准进行归纳总结，其发展大致有以下特点：

（1）证据分级标准经历了单纯重视研究设计类型——研究设计类型与证据质量兼顾——证据体三个阶段。早期的分级标准如CTFPHE等基于研究设计类型将RCT列为最高级别的证据，此后David Sackett对该分级标准进行完善，对RCT提出了质量标准，认为大样本RCT优于小样本RCT，USPSFT进一步结合研究质量对证据进行分级，而GRADE更是彻底打破了依据研究设计类型对证据定级的准则，提出综合考虑研究设计类型、方法学质量、结果一致性、直接性、精确性等因素来对证据进行分级。

表1 证据分级及推荐强度的演进

（2）最高级别的证据由单个RCT——多个RCT的Meta分析——多个RCT的Meta分析和高质量单个RCT并重转变。如CTFPHE、David Sackett均将单个RCT列为最高级别证据，而AHCPR、NHMRC将多个RCT的Meta分析列为最高级别证据，NEEBGDP、SIGN等认为高质量单个RCT可以和多个RCT的Meta分析共同作为最高级别证据。

（3）推荐强度与证据级别不再一一对应。早期的CTFPHE、David Sackett、AHCPR等将推荐强度与证据级别一一对应，高质量证据给予高级别的推荐，而后欧洲临床营养与代谢学会（EPSEN）、美国耳鼻喉及头颈外科学会（AAO-HNSF）、GRADE、澳大利亚Joanna Briggs循证卫生保健中心（Joanna Briggs Institute，JBI）等组织采用的标准在考虑证据质量的同时，结合证据的适用性、患者价值观与意愿等因素综合给出推荐意见，此分析理念下高级别的证据有可能弱推荐，低级别的证据也有可能强推荐。

（4）证据来源多样化。CTFPHE等许多标准将专家意见纳入证据范畴，纽约州立大学下州医学中心提出的证据金字塔也首次将动物研究和体外研究作为最低级别证据。

（5）从临床问题的单一方面延伸到多个方面。更多的标准主要关注干预性研究证据的分级，而OCEBM 2001年的标准则涉及了病因、诊断、预防、治疗、危害、预后、经济学分析等7个方面，其2011年发布的标准则包括了诊断、预后、干预、危害4个方面。

（6）所采用标准从分散趋向统一。由各机构或组织自定标准逐渐向采用统一的更加科学的标准转变，尽管目前存在较多的标准，但我们查阅34部指南制定手册[6]后发现，大多数指南制定手册推荐采用GRADE或根据GRADE改编的标准。

2 指南制定手册证据分级与推荐强度

2.1 GRADE证据质量与推荐强度分级方法英国国家卫生与服务优化研究所（NICE）、欧洲人类生殖与胚胎学会（ESHRE）、中华医学会等19部指南制定手册[7-25]推荐采用GRADE分级方法。其中，中华医学会[10]、NHMRC[24]及加拿大医学会（CMA）[25]不仅推荐采用GRADE分级方法，还可采用其他分级方法，如中华医学会还推荐可采用OCEBM标准，NHMRC可采用其自定分级标准，CMA可采用SIGN及USPSTF标准。

GRADE是由GRADE工作组于2004年推出的证据质量和推荐强度分级方法。“证据质量”在指南中被定义为在多大程度上确信效应估计值支持作出推荐，“推荐强度”为在多大程度上确信干预效果利大于弊或者弊大于利。在GRADE分级方法中，随机对照试验最初被定为高质量证据，其质量可因5个因素下降，观察性研究被定为低质量证据，其质量可因3个因素上升，最终证据质量被分为高、中、低、极低4级（表2）。在综合考量证据质量及其他影响因素，如利弊平衡、患者价值观和意愿、成本的基础上，GRADE系统将推荐意见分为强、弱两级（表3）。当明确显示干预措施利大于弊或弊大于利时，则视为强推荐或强不推荐，当利弊不确定或无论质量高低的证据均显示利弊相当时，则视为弱推荐或弱不推荐[1,4,26,27]。

一些指南制定机构尽管推荐采用GRADE，但在应用时对其进行了调整。NICE[7]不推荐通过高、中、低、极低、强、弱等标签来给证据质量及推荐强度分级，而建议通过对推荐意见进行描述来体现证据及推荐级别，如可用“建议”、“提供”等来反映强推荐，用“考虑”来反映弱推荐。同时，相当一部分指南制定机构，如ESHRE[8]、美国遗传咨询学会（NSGC）[11]、澳大利亚肾脏健康学会（KHA-CARI）[14]、世界卫生组织（WHO）[17]、美国感染协会（IDSA）[22]更倾向于用“条件性”或“酌情处理”来代替弱推荐。SIGN[28]虽然采用的是其自定的分级方法，但其于2013年对推荐意见的分级方法作了调整，停止使用原来A、B、C、D 的4级分法，改为根据GRADE对推荐强度进行强、弱分级，其同样建议用“条件性”取代弱推荐[29]。同时，相当多的指南制定手册给出了其建议使用的推荐意见描述方法，例如用“we recommend”、“we suggest”等来分别描述强推荐与弱推荐，推荐意见的描述方法将在下一篇系列文章中进行详细讲解。

2.2 其他证据分级与推荐强度标准34部指南制定手册中，除19部采用GRADE外，另有4部[30-33]采用根据GRADE改编的版本、12部[24,25,28,30,34-40]采用各自相应的标准（表4）。其中美国临床肿瘤学会（ASCO）[30]采用改编自AHRQ，USPSTF和GRADE的标准，但其文中未具体阐述；CMA[25]的分级标准除可采用GRADE外，其证据分级标准还可采用SIGN及USPSTF，其推荐强度标准亦可采用SIGN及SORT[41]；NHMRC[24]首要推荐采用GRADE，也可采用NHMRC分级标准。安大略肿瘤护理（CCO）[42]、国际卒中组织（WSO）[43]及国际糖尿病联盟（IDF）[44]未明确指定采用何种分级标准。

2.2.1 证据分级ACOEM、AAN、SVS[31-33]推荐使用其根据GRADE改编后的标准对证据进行分级。ACOEM[31]基于研究质量及数量将证据划分为A、B、C、I共4个等级，至少两个或以上高质量研究支持被定为A级证据，至少一个高质量和/或多个中等质量的研究支持为B级，至少一个中等质量研究支持为C级，高质量研究证据不足/证据相互矛盾/专家共识为Ⅰ级；针对随机对照试验和随机交叉试验，ACOEM通过11条标准（随机化、分配隐藏、基线可比、对患者/研究者/评价者施盲、干扰控制、依从性、脱落率、评价时机等价、意向性分析）及偏倚情况对研究质量进行评价，每个条目分别给予0、0.5、1的评分，总分介于0～11分，≤3.5分为低质量，4～7.5分为中等质量，8～11为高质量。AAN[32]将证据质量划分为高、中、低、极低4级，将两个Ⅰ级研究支持定为高级别证据，一个Ⅰ级研究/两个Ⅱ级研究支持为中级证据，一个Ⅱ级研究/两个Ⅲ级研究支持为低级别证据，少于两个Ⅲ级研究支持为极低级别证据；针对干预性研究，AAN用Ⅰ、Ⅱ、Ⅲ、Ⅳ对研究质量进行划分，在目标人群中进行的RCT、客观的结果评价、基线可比或进行了差异校正、分配隐藏、结局指标明确、纳入排除标准明确等条件满足时方可被定为Ⅰ级研究，队列研究同时满足分配隐藏、结局指标/纳入排除标准明确等条件时定为Ⅱ级研究，病例对照研究且详细描述了影响结果的混杂、客观地进行了结果评价等时定为Ⅲ级研究，未纳入所关注疾病或接受某干预措施的目标人群/未明确定义干预措施或结局测量指标/未描述效应量及统计精确的研究为Ⅳ级研究。SVS[33]借鉴了原美国胸科医师协会CHEST[18]的方法对GRADE进行改编，将证据分为高、中、低3级，将原GRADE中的“低”与“极低”合并为“低”级以提高使用的便捷性，但其文中也指出改编后的实施效果尚不明确。而我们在查阅了CHEST的证据分级方法后发现，CHEST已于2014年申明停止使用改编版GRADE，改回使用标准版GRADE，同时采用GRADE的4级证据分级方法。

表2 GRADE证据质量分级

表3 GRADE推荐强度

表4 各指南制定手册的证据分级与推荐强度标准

表4 各指南制定手册的证据分级与推荐强度标准（续表）

SIGN、EPSEN、CMA[25,28,34]均推荐采用SIGN证据分级方法，将证据分为1++、 1+、1-、2++、2+、2-、3、4，将RCTs高质量的Meta分析、系统评价、偏倚风险非常小的RCTs共同作为1++级证据。其中EPSEN[34]采用的是SIGN分级系统1999-2012[45]，而SIGN在2013年对其分级系统进行了修改，但仅根据GRADE对其推荐意见分级方法进行了修改，而证据分级仍延用其原来的方法[29]。国际卒中组织（WSO）[43]指出更多的中风方面的指南使用的是SIGN分级方法，但WSO在文中并未指定采用何种分级方法。新西兰临床实践指南组（NZGG）[35]在评价证据体质量到形成推荐意见的过程中采用了根据SIGN改编的判断表（Considered Judgement Form），其根据研究的设计类型及质量（plus/minus/neutral，详细评价标准查见NZGG指南制定手册）对证据进行陈述总结来反映证据体的质量级别（good/fair/expert opinion/insufficient）。

USPSTF、CMA[25,39]建议采用USPSTF证据分级方法，依据研究质量、样本量、结果一致性、适用性及间接性等将证据分为高、中、低3级。

AAO-HNSF[40]借鉴OCEBM的分级方法重新自定了证据分级方法，将证据分为A、B、C、D、X共5个等级，指代高、中等、低、极低、特殊情况级别的证据，分别对应OCEBM中的1、2、3-4、5、NA，其中随机试验的系统评价被定义为A级，即高质量证据，而明显利大于弊却无法提供证据支持的特殊情况就被定义为X级。

NHMRC[24]除推荐采用GRADE外，也可采用NHMRC证据分级方法，将证据分为Ⅰ、Ⅱ、Ⅲ-1、Ⅲ-2、Ⅲ-3、Ⅳ，但NHMRC也申明未来将不会对NHMRC证据分级与推荐强度标准进行更新[46]。

2.2.2 推荐强度ACOEM、AAN[31,32]均根据GRADE给出其自定的推荐强度标准。如ACOEM[31]根据证据质量给出强推荐（A）、中度推荐（B）及弱推荐（C）或强不推荐（A）、中度不推荐（B）及弱不推荐（C），当证据不足时，可给出基于共识推荐（I）、基于共识无推荐（I）及基于共识不推荐（I）。AAN[32]则将推荐强度分为A、B、C三级，A级指强推荐，基于高质量证据，且明显获益大而风险小，B级为中级推荐，基于一般证据，利弊相当，C级为最低级别推荐，效果不明确。

EACTS、ESC、ACCF/AHA[36-38]按干预效果明显利大于弊、利弊相当或不确定、弊大于利将推荐强度分为Ⅰ、Ⅱ、Ⅲ三级，其中Ⅱ又细分为两级，更多证据支持有利的推荐定为Ⅱa，较少证据支持有利的定为Ⅱb。

USPSTF[39]综合考虑证据质量、干预效果的利弊及患者意愿等因素后将推荐强度划分为A、B、C、D、I共5级，如高质量的证据显示利大于弊时会给出推荐使用某干预措施的意见，对应的便是A级推荐。

EPSEN[34]采用SIGN1999-2012分级系统[45]，但仅采用了其证据分级方法，对其推荐意见的分级作了调整。EPSEN将推荐意见根据研究设计类型、研究数量、适用性、一致性、外推性等因素分为A、B、O、P级，其中A的推荐级别最高，P则对应的是专家意见或基于指南制定小组经验给出的最佳实践。

AAO-HNSF[40]基于美国儿科学会（American Academy of Pediatrics，AAP）的分级标准，根据证据质量和利弊平衡将推荐意见分为强推荐、弱推荐、有条件推荐，如高质量证据（级别A/B）显示利明显大于弊或弊明显大于利时会给出强推荐或强不推荐。需要注意的是，由于某些特殊情况而无法开展研究获取高质量证据，而既往经验和预期结果显示利明显大于弊时，仍可作出强推荐；当证据质量不确定或证据显示获益较少时可结合其他影响因素酌情给出推荐意见。

NHMRC[24]推荐GRADE或其自定的NHMRC分级标准给出推荐意见级别。如可采用GRADE的强、弱分级，亦可根据证据级别、应用性等将推荐意见分为A、B、C、D级，当证据级别较高可用于指导实践时，则给出A级推荐。

科学合理的证据分级及推荐强度标准能够为决策者进行快速决策提供有效参考。明确的推荐意见比证据级别对决策者的影响更为直接，可以帮助决策者在尽可能短的时间内了解采用某干预措施可能带来的利弊后果，从而增强决策者的信心。同时，证据质量是给出推荐意见的一个重要考量因素，对证据质量缺乏审慎评价易产生误导性的推荐意见，最终给患者造成伤害。因此，对指南的证据分级及推荐强度标准进行规范、采用科学透明且实用性强的证据质量及推荐强度分级标准是指南科学发展的必然要求。本文归纳、总结了目前全球三十余部指南制定手册推荐的证据质量与推荐强度分级标准，对其分级情况、具体内涵、更新状态进行了展示与描述，发现目前大多数的指南制定手册建议采用GRADE或对其进行改编后进行证据质量和推荐强度分级，另有一部分，特别是早期的指南制定手册也推荐了各自相应的分级标准，这些分级标准在可读性、适用性、操作性等方面各有利弊。指南制定者还需根据各自指南制定的特点有针对性的选择或调整证据分级标准。