临床研究规范设计PICO原则

2022-03-05王瑞平

上海医药 2022年3期

王瑞平

摘要规范的临床研究设计应遵循循证医学PICO原则。PICO原则为研究对象（participants）、干预措施（interventions）、对照（comparisons）和结果/结局（outcomes）英语单词的首字母缩写，其中心思想与临床流行病学研究核心内容“临床科研设计、衡量和评价”（design， measurement and evaluation in clinical research， DME）一致。PICO原则是指导临床医学研究设计，保障其研究内容和研究过程规范性和科学性的重要方案。本文将从PICO原则的四个部分，逐一阐述临床研究设计和实施过程中，研究对象的选择、干预措施的制定和实施、对照的选择及结果指标的确定等问题，帮助临床医务人员进行规范的临床研究设计。

关键词临床研究规范设计 PICO原则循证医学

中图分类号：R19； R951 文献标志码：C 文章编号：1006-1533（2022）03-0067-06

PICO model for the design of clinical research practice

WANG Ruiping

（Clinical Research & Innovation Center， Shanghai Skin Disease Hospital， Shanghai 200443， China）

ABSTRACT Standardized clinical research designs should follow the PICO model of evidence-based medicine. PICO is an acronym for participants， interventions， comparisons and outcomes， and its central idea is consistent with the core of the clinical epidemiology study， design， measurement and evaluation in clinical （DME）. The PICO model is a vital scheme to guide clinical research design and ensure the normative and scientific nature of its research contents and processes. Four parts of the PICO model containing the selection of the participants， the formulation and implementation of the interventions， the selection of the comparison types and the determination of outcome indexes were expounded to help clinical researchers carry out standardized clinical research designs.

KEy wORDS clinical research； standardized design； PICO model； evidence-based medicine

PICO原则是指导临床医学研究设计，保障临床研究内容和过程规范性和科学性的重要准则[1]。PICO从研究对象、干预措施、对照和结果/结局四个维度对临床研究进行规范性限定，其中心思想与临床流行病学研究核心内容“临床科研设计、衡量和评价”（design， measurement and evaluation in clinical research， DME）一致。本文从PICO原则的四个部分，逐一阐述临床研究设计和实施过程中，研究对象的选择、干预措施的制定和实施、对照的选择及结果指标的确定等问题，以期为临床医务人员开展规范临床研究设计提供参考。

1.1 研究人群确定的四个阶段

研究人群是临床研究选题PICO原則中的P（population），是研究者开展临床研究时首先需要关心的问题。从初步设想到实际完成研究的过程中，一般由四个阶段来逐步明确研究人群。如图1所示，P1是临床研究的目标人群（target population），是研究者从临床问题出发而确定的人群，也是预期未来研究结果将会影响到或可以外推的人群。P2是临床研究中可获得人群（accessible population），是由于受时间、地理、伦理等条件限制，临床研究团队实际开展研究可获得有效数据的人群。临床研究的时间限制与研究的性质有关，如前瞻性临床研究往往需要较长的随访时间，而回顾性临床研究通常可以利用历史数据信息节约大量时间。P3为预期样本（intended samples）人群，是研究团队基于研究目的、统计学要求、伦理法规、可行性等综合考虑，根据研究方案定义预期可纳入的研究人群。P4为实际样本（actual samples）人群，是临床研究完成时实际纳入的样本。由于患者拒绝参与、脱落，数据缺失或不合格，研究提前终止等原因，实际样本与预期样本往往会产生偏差，导致P4与P3不完全一致。 1.2 研究人群的定义

研究人员通常在临床研究方案中制定明确的研究对象纳入、排除和退出标准，设定研究现场和招募场景，估算研究的样本量等方式来定义研究人群。

一般情况下，纳入与排除标准规定了研究对象所应当符合的条件，研究对象应当符合所有纳入标准，同时不符合任意一条排除标准。研究对象的纳入标准通常从疾病诊断、分型分期、年龄、性别等维度进行制定。而排除标准则是根据纳入标准初筛后，研究对象具备某些影响研究的特征（如妊娠、精神疾患等）、存在伦理安全风险、依从性不好等应当排除的一些情形。例如，一项关于“体育锻炼对妊娠期糖尿病患者血糖影响的临床研究”中[2]，研究者制定的纳入标准：①妊娠前无糖尿病史，初次被诊断为妊娠期糖尿病者；②年龄18～45岁；③妊娠前体质量指数≥28.0 kg/m2的孕妇；④居住稳定，近期无异地外出计划者。⑤知情同意，自愿参加本研究。排除标准：①心脏、肝脏、肾脏及肺等重要器官具有严重疾患者；②长期服用影响糖代谢药物者；③患有慢性结缔组织病及影响内分泌性疾病者；④身体残疾，不能进行体育锻炼者。

招募场景是招募研究对象的场所或招募的方式，常见的场景有社区基层医院、三甲综合性医院，临床研究机构，以及从医院的电子数据记录中收集。招募场景是定义研究人群的重要因素，因为在不同场景使用相同的纳入和排除标准，招募到的研究人群分布往往存在很大差别，比如在三甲医院和社区医院就诊的患者可能存在疾病严重程度，患者经济情况等方面的差异。

样本量是对研究人群数量上的限制，通常会综合考量研究目的、统计效能、伦理合规、研究可行性等方面予以确定，但并非所有类型的临床研究都会有明确的样本量限制。当P2数量远远超过实际需求时，研究者可采用连续入组、随机或非随机抽样或匹配来达到样本量要求。对于样本量的计算，我们后续会在临床研究设计规范中进行详细讲解。

2.1 干预措施的定义

非干预性临床研究中，“intervention”可解读为“暴露因素”；干预性临床研究中，“intervention”可解读为“干预因素”。开展临床研究前，研究者需根据研究目的确定合适的研究设计类型，然后针对性地确定该临床研究中具体的暴露/干预因素内容，规范实施或评价后，对目标暴露结局或干预效果进行分析，评估“暴露-结局”之间的关联强度或探讨“干预-效果”之间的干预效果和安全性。

非干预性临床研究包括描述性临床研究（如横断面调查、病例报告等）和分析性临床研究（病例对照研究和队列研究）。其中，暴露因素是指研究对象接触过的某种待研究的物质，具备某种待研究的特征或行为。暴露因素在不同的临床研究中有不同的含义，可以是有害的，也可以是有益的。研究者应根据具体的研究目标来设定具体的暴露因素。例如，一项“母亲孕期烟草暴露对3～6岁儿童运动发育协调功能障碍影响的横断面研究”中[3]，母亲孕期一手烟和二手烟的暴露即是一种有害因素。

干预性临床研究中，干预因素是研究者根據研究目的，主动对研究对象施加的诊断、治疗和行为指导等措施。临床医学研究中，干预因素应遵循《世界医学大会赫尔辛基宣言》的伦理原则，确保其对实施对象的公平性、安全性、自愿性、可获益性。

2.2 干预措施的选择原则

干预措施的选择是临床研究中的核心环节，是探讨“暴露-结局”病因联系和评估“干预效果”的关键。为保障临床研究中暴露因素和干预因素的规范性、科学性、可比性及可操作性，应遵循以下原则：

①暴露/干预因素要有明确的定义。研究者应对暴露/干预因素进行明确的限定，保证其科学性和规范性，以便研究结果与领域内同类研究的可比性，提高研究成果的可接受度。例如，“吸烟”作为一个常见的疾病危险因素，不同背景的人对“吸烟”的理解存在明显差异。重度吸烟者可能认为“每天抽1支烟”并不算是真正的“吸烟”，而对于既往从未吸烟者，“只要抽过烟，即使是尝试过1～2支烟”也可能被认为是“吸烟”。因此，为统一认识，开展临床研究时，须对“吸烟”这个暴露因素进行明确定义，可参考《世界卫生组织烟草控制框架公约（WHO-FCTC）》将“吸烟”定义为“每天至少1支烟，持续6月及以上”。又如，在“针刺治疗女性压力性尿失禁临床研究”中[4]，研究者对针灸针具的品牌、型号、粗细、针刺穴位、针刺手法、留针时长、针刺治疗频次和针刺疗程等干预因素都进行了明确规定，保证了干预措施的规范性和可重复性。

②暴露/干预因素要具有可测量性。临床研究中，在选择暴露/干预因素时还应考虑它的可测量性。选择的测量方法须有详细明确的使用说明，测量过程可重复，同时能被其他研究者理解。例如，在一项“孕期添加鱼肝油对妊娠结局影响的临床研究”中[5]，干预因素“鱼肝油”就具有良好的可测量性，研究者明确了孕妇妊娠期具体的服用剂量（如每天几粒/片/丸），在后续干预效果评估中，可以对干预因素详细准确地分析。在测量暴露/干预因素时，还应注意测量尺度的选择。常用的数据测量尺度包括名义尺度（如性别：男/女；血型：A/B/ AB/O）、顺序尺度（如给药频次：1次/周、2～3次/周等）、区间尺度（如研究对象年龄、针刺持续时间等）和比例尺度（如医生/护士比、教师/学生比等）。通过选择合适的测量尺度，才能开展满足临床研究目的的测量，降低其误差，获得最真实的数据。

③暴露/干预因素的选择应注重“经典”和“新颖性”相结合。临床医学研究应是建立在“经典”研究基础上的传承创新。既往的临床研究积累是开展新临床研究项目的基础，同时在新临床研究中加入“新颖性”元素是促进其创新性、先进性和独特性的重要保障。例如，在评估针刺治疗骨关节病的疗效时，干预因素“超声引导针刺治疗”的选择便具有经典和新颖性相结合的特征，传统针刺治疗以针灸医生在施针操作过程中与患者沟通，获“得气”感即为针刺成功，这是主观感受和经验体会，不便于测量与标准化；但研究中纳入超声引导的概念，使得“得气”图像化、具体化，便于测量和观察，也利于针刺治疗的标准化，提高其推广性，具有创新性，是一个良好的干预措施指标。

2.3 干预措施实施的注意事项

干预性临床研究中，研究者确定研究干预措施和实施计划后，应根据项目进度安排，规范实施制定的干预措施，确保研究项目规范稳步地推进。而在干预措施实施过程中，应注意以下要点和注意事项。①统一培训临床研究项目组成员。在项目正式开始前，应根据事先制定的干预措施和实施计划对课题组成员进行统一培训。培训会议可采取幻灯片汇报，详细讲解干预措施的内容，包括其定义、实施原则、内容规范、实施频次、总干预周期和注意事项等内容，并确保培训内容通俗易懂。培训后建议组织交流讨论环节，发现问题则及时修改，保证在研究开展过程中干预措施的顺利实施。须强调的是，培训对象应该包括参与项目的所有人员，不单是干预措施的实施者，调查员、评估人员和数据统计分析人员也应参加培训。②建立考核上岗机制及干预质控小组。除在临床研究项目开始前开展统一规范培训外，为保障干预措施实施的一致性和规范性，应建立干预措施实施人员考核上岗制度，保证干预人员持证上岗。同时，成立干预质控小组，其成员可由市级医院临床研究中心项目质控专员、院内外临床专家、流行病学家和统计学家等组成，由项目组召集并聘任，主要负责临床研究项目干预措施实施的质控工作，质控工作建议至少每3个月1次。③干预药物、营养物质和仪器设备等统一化管理。临床研究中，为保证干预措施测量的一致性和准确性，需要对涉及到的药物、营养物质和仪器设备等进行统一化管理。

对照的设置是临床研究的一个重要环节，是临床试验研究实现“可比性”的重要方法和手段，但很多研究者会忽略其重要性。设置对照组的目的在于将待测试的干预所引起的患者结果（如症状、体征或其他发病率的变化）与其他因素（如疾病的自然发展、观察者或患者的期望或其他治疗）引起的结果进行区分。

3.1 对照的类型

①阳性对照（active control）：将一种研究性药物（或其他干预方式）与已知的活性药物（或标准干预方式）进行比较的试验，称作阳性对照试验。可采用优效性设计，也可采用等效性或非劣效性设计，通常采用双盲设计。

②剂量对照（dose-response control）：在剂量对照研究中，受试者被随机分配到两个或多个剂量组（其中可以有或没有安慰剂组），从而确定剂量和疗效或不良反应之间的关系。比如一项三臂药物临床试验，一组人群接受高剂量的药物，一组人群接受低剂量的药物，剩下一组人群则接受零剂量的安慰剂。

③安慰剂对照（placebo control）：在安慰剂对照试验中，受试者被随机分配到试验治疗组或安慰剂组中。安慰剂在外观、重量、味道和气味等物理特征方面与试验药物尽可能相同，但不含试验药物。例如，某种试验药物以输液的形式给药，安慰剂则可以为生理盐水。

④空白对照（no-treatment control）：空白对照在概念上与安慰剂对照类似，一般用在安慰剂对照由于特定原因无法实施的情况下，且往往无法使用盲法。比如，研究对象是某种手术方式，但对照组使用“假”手术作为安慰剂对照往往是违背伦理的。

⑤外部对照（external control）：是指对照组的患者并非属于受试组所在的同一随机试验，即不存在平行随机对照组。因此，对照组与接受治疗者并不完全来自同一人群。通常，对照组是先前（历史对照）所观察的且有完善记录的患者群体，可以是在另一研究机构同期观察的一组人群，或是在研究之外同一个机构的人群。设置外部对照的临床试验一般被称为“类试验”或“半试验”研究。

3.2 临床研究不同对照的优缺点

如前所述，临床研究中，研究者可参考不同对照类型的优缺点，同时结合研究内容、特点和实际情况，选择合适的对照类型（表1）。

临床研究中，研究者通常会在研究方案中设定一个主要目的，通过试验来回答一个科学问题，例如药物是否可以控制疾病的复发、药物是否延长肿瘤患者的生存时间等。这就需要相应的指标来回答临床试验提出的科学问题，而这种与临床研究目的相关的指标称为终点指标（endpoint），也就是PICO原则中的“O”结局指标（outcome）。终点指标的选择应基于临床实际和研究目的确切反映药物有效性或安全性。对于结局指标选择的主要原则为把握其真实性和可靠性，即指标的信度和效度。真實性指标中，应重视指标的灵敏度和特异度。灵敏度高，易检出研究结局，与研究的关联性强；特异度高，易排除非研究结局，增加指标判断研究结果的特异性。研究指标的可靠性即可重复性，重复性好的观察指标，可增加研究的可靠性、可比性和应用性。

4.1 结局指标的分类

①主要终点（primary endpoint）：是指与临床试验的主要目的直接相关的，能够就试验的主要目的提供与临床最有关且可信证据的变量。主要终点指标往往包括两方面：疗效指标和其发生的时间点。主要终点的选择应考虑相关研究领域已有的公认准则和标准，或在以往研究中报道过的、已积累有试验经验的、可靠且有效的变量，通常情况下选择客观指标，如定义主观指标，则应详细说明主观指标的测量方法。一般情况下，一个临床研究仅设一个主要终点指标。如需多个，则应根据假设检验的要求，制订恰当的总Ⅰ类错误率的控制策略，并在样本量估计时给予充分考虑。

②次要终点（secondary endpoint）：是与次要或主要研究目的相关且对主要研究目的起支持作用的指标。比如研究某一药物对死亡的影响，次要终点可以是观察是否对生活质量有提高。设计方案时也应对次要变量进行事先定义，并对其在解释试验结果时的作用及相对重要性加以说明。次要指标数目也应是有限的、能回答与试验目的相关的问题。当主要指标未显示出统计学意义时，则对次要指标进行分析，但其结果只能被认为是支持性或探索性结果。

③有效性终点（effectiveness endpoint）：有效性指标又称疗效指标，是反映受试药物用于患者所表现出临床获益的主要观测和评价工具，疗效指标的选择、测量和比较是评价药物有效性的关键因素。疗效指标主要包括：疗效观测指标和以此为基础，比较与评价药物效应大小的方法和标准，即疗效评价指标。反映疾病变化的疗效指标可以是疾病临床终点；可以是评价社会参与能力、生活能力、临床症状或体征、心理状态等内容的相关量表或其他形式的定量、半定量或定性的指标；也可以是通过某些仪器和实验室检查等手段获得的客观数据或检查结果，如病理生化等指标。

④安全性终点（safety endpoint）：安全性评价是药物或医疗器械上市前临床研究的核心问题之一，也是药物或医疗器械上市后被广泛安全应用的最重要的保障，主要是从暴露情况（强度、时间）、临床不良事件（疾病、体征、症状）、实验室检查数据（包括生化学和血液学指标等）、生命体征等四个方面对与产品安全性相关的信息进行描述与评价。不良事件、不良反应和严重不良事件评价是安全性评价的主要内容。不良事件是指治疗过程中出现的不良临床事件，不一定与治疗有因果关系。而只有与药物应用有因果关系的反应才是不良反应。即是说，不良事件是指因果关系尚未确定的反应，而不良反应是指因果关系已确定的反应，在药品说明书中经常出现。严重不良事件指临床试验过程中发生需住院治疗、延长住院时间、伤残、影响工作能力、危及生命或死亡、导致先天畸形等事件。研究中发生严重不良事件时需在一定时间（24 h）内报告申办者与主要研究者，并立即报告当地药品监督部门和伦理委员会。

⑤临床终点（clinical endpoint）：是指能够反映患者感觉、功能变化的特征性指标、与生存状态相关的疾病临床终点（如死亡、残疾）或某些重要的临床事件（如脑卒中、骨折发生）等指标。临床终点能直接评价药物的真实效应，如症状缓解率、疾病病死率、严重临床事件发生率等，但疾病临床终点指标的评价往往因需要的时间长、样本量大、研究成本高，有时还存在伦理学风险，导致指标观测存在困难或不合理，所以临床试验常以易于观察和测量的指标来替代临床终点。

⑥替代终点（surrogate endpoint）：是指直接终点不可能得到或短期內不能直接评价临床获益时，用于间接反映临床获益的观察指标。替代指标一般易于测量，常为单纯生物学指标或实验室理化检测，如血脂、血糖、血压、血清胆固醇含量、实体肿瘤体积的缩小等。替代终点应用的前提是替代指标的改善也将会相应改善疾病的终点结局，即研究者必须有足够证据支持其与临床终点的关系，并可预测疾病结局。替代指标选择不当可能会导致错误估计干预措施对临床最终结局的作用。

⑦复合终点（combined endpoint）：如果根据主要研究目的，在多个指标中很难选出其中一个作为主要变量，则可用预先确定的算法来整合或组合多个值，构成一个复合变量作为主要终点。复合终点一般有两种类型：一种为临床上经常采用的量表，如汉密尔顿量表（包括抑郁量表和焦虑量表）就是由若干项目组成的复合终点；另一种则是将几种事件合并定义为一个复合终点，这种情况在心血管药物的临床试验中最为常见。须注意的是将多种测量结果综合成复合变量，其计算方法应在试验方案中指定，并解释其临床意义。复合终点的确定有以下两个“一致”原则：1）研究者认为干预措施对组成复合终点的各终点指标的影响（发生率和效应量）一致；2）各组成终点对患者的重要性一致。当复合终点被用作主要终点时，研究者不仅要对主要终点进行汇报，也要对组成复合终点的各组成终点作为次要研究终点进行单独汇报。

⑧全局性终点（overall endpoint）：是指把客观指标和研究者对患者治疗后的临床结局状态或其改善程度总体印象结合起来制定的一种疗效评价指标，用于评估某项治疗的总安全性、优效性和实用性。它通常是等级指标，其判断等级的依据和理由应在临床试验方案中明确。全局评价指标可以评价某个治疗的总体有效性或安全性，带有一定的主观成份，因此它一般不作为或不单独作为药物临床试验中的主要疗效指标。如果使用全局评价指标作为主要疗效指标，则应增加医生主观判断外的其他较为客观指标作为共同的主要疗效指标，或至少是重要的次要疗效指标。全局评价指标在神经病学和精神病学治疗领域用得比较好，如精神疾病治疗的临床疗效总评量表。

4.2 结局指标选择时的注意事项

首先，结局指标的选择须保证其真实性高、可靠性强。因此，应选择国际、国内诊疗规范制定的指标，或权威文献提出的指标。这些指标得到过广泛的考核或讨论，灵敏度、特异度和可重复性均较好。其次，在注意结局指标制定的先进性、科学性的同时，还应重视可行性。指标不宜太多，应与所能提供的人力、物力和财力相匹配；检测方法的技术难度不宜过大，应与申请单位条件匹配。最后，临床研究的结局指标不应局限于生物学标志，在经费和人力条件满足的情况下，还应当纳入行为学、社会学、生存质量、卫生经济学等指标。

参考文献

[1] 李幼平. 循证医学[M]. 北京：人民卫生出版社. 2018.

[2] Wang RP， Yang Q， Sun T， et al. Physical exercise is associated with glycemic control among women with gestational diabetes mellitus： findings from a prospective cohort in Shanghai， China [J]. Diabetes Metab Syndr Obes， 2021， 14： 1949-1961.

[3] Yang Q， Pan LQ， Shen CL， et al. Mothers’ prenatal tobacco smoke exposure is positively associated with the occurrence of developmental coordination disorder among children aged 3-6 years： a cross-sectional study in a rural area of Shanghai， China [J]. Tob Induc Dis， 2020， 18（25）： 1-10.

[4] Liu ZS， Liu Y， Xu HF， et al. Effect of electroacupuncture on urinary leakage among women with stress urinary incontinence： a randomized clinical trial [J]. JAMA， 2017， 317（24）： 2493-2501.

[5] Opiyo RO， Nyasulu PS， Koigi RK， et al. Effect of fish oil omega-3 fatty acids on reduction of depressive symptoms among HIV-seropositive pregnant women： a randomized， double-blind controlled trial [J]. Ann Gen Psychiatry， 2018， 17（49）： 1-16.