APP下载

影像诊断研究的研究设计与统计学考虑

2017-12-01

中国中西医结合影像学杂志 2017年6期
关键词:界值影像学阶段

宫 晓

(广东药科大学公共卫生学院流行病与卫生统计学系,广东 广州 510310)

继续教育园地

影像诊断研究的研究设计与统计学考虑

宫 晓

(广东药科大学公共卫生学院流行病与卫生统计学系,广东 广州 510310)

随着医学成像技术的发展,影像学指标在医学诊疗实践中占据越来越重要地位,被用于很多疾病的筛查和诊断。基于影像学指标的疾病诊断研究,也成为目前医学研究中的热点,成为医学诊断的主要发展方向之一。本文旨在通过对影像诊断研究中的研究设计和统计问题进行探讨,希望有助于后续研究中研究策略的选择。

影像学;诊断研究;研究设计;统计学

影像诊断是指通过影像学指标对患者是否患有特定疾病进行诊断,对疾病的严重程度和预后进行评价的策略。随着医学成像技术的发展,影像学指标在医学诊疗实践中占据越来越重要地位,被用于很多疾病的筛查和诊断。基于影像学指标的疾病诊断研究,也成为目前医学研究中的热点,成为医学诊断研究的主要发展方向之一。目前很多研究者未采取系统的研究方法开展研究,未能将临床发现转化为高质量的研究证据。本文旨在通过对影像诊断研究中的统计问题进行探讨,希望有助于后续研究中统计策略的选择。

1 影像诊断的研究框架

从将某个疑似指标纳入评价体系,到确认诊断价值,到一个成熟诊断方案的提出,往往是多个研究假设依次证实的过程。通常我们将这系列假设分为4个阶段[1]:阶段1,某疾病患者与健康者相比,诊断试验结果指标的分布是否存在差异。阶段2,诊断试验阳性的患者比试验阴性者更有可能患某种疾病。阶段3,在疑似患者或筛查人群中,试验结果是否有助于区分患者和健康者。阶段4,采用此诊断方案的群体与未采用此诊断方案的群体相比,其临床结局是否有改善。

上述4个阶段,可分为3部分:阶段1与阶段2,主要研究目的为指标初筛,初步确定一个指标的诊断价值;阶段3,主要研究目的为指标确认,确认该诊断策略可用于诊断某种疾病,并确定恰当的诊断界值;阶段4,则是从临床结局的角度,去考虑某项诊断的成本效益,对诊断模型在真实世界中的应用效果进行评价。目前较多的研究都属于前3个阶段,阶段4常需较大的样本量,并进行长期的追踪研究。

2 各研究阶段的研究设计与统计策略

2.1 阶段1 阶段1中初步筛选变量,因此,主要研究策略为横断面和回顾性研究,较多使用来自科室临床实践或医院信息系统中收集的方便样本。主要研究对象为已明确诊断患有某种疾病的患者和不患某种疾病的健康者,本阶段常同时对多个指标进行研究,对可能产生差异的指标进行初步筛选。因此,本阶段主要的统计分析方法为组间比较,常用t检验或卡方检验等统计方法,探索患者组和健康组2组间某一指标或多个指标的统计分布是否存在差异。

一个指标可成功用于诊断,必须要求患者与健康者2组人群在该指标的分布上存在差异,即差异性假设检验的P值小于假设检验水准α(通常为0.05)。然而P值大小仅可表明是否存在统计学差异,存在差异并不代表该指标可用于诊断,只有差异足够大,才可成功区分2组人群而成为一个高效的诊断指标。如图1所示,A指标在患者和健康者中存在差异,但差异较小,以任何值作为诊断界值,都难以同时取得较好的敏感度和特异度,因此难以成为一个诊断指标;B指标差异较大,但误判率仍较高,可考虑合并其他指标同时使用;C指标则可以较好地区分患者与健康者。

第1阶段的研究只需较少的投入便可很快获得产出,但这一阶段只是对诊断指标的初步考量,不能够直接转换为临床实践。本阶段的阴性结果可帮助尽早避免高投入、耗时长的后续阶段。

2.2 阶段2 与阶段1类似,阶段2主要设计方法也为横断面和回顾性研究,使用的数据样本常为方便样本,但其研究角度存在差异。阶段1从患者与健康者2组人群出发,将患者组和正常组进行比较,结局指标为组内某一指标或多个指标的统计分布;阶段2则从诊断结果出发,将指标结果阳性组与阴性组进行比较,结局指标为根据金标准获得的组内真实的阳性率或阴性率。阶段2主要的统计分析方法也为组间比较,常用卡方检验、95%置信区间等统计方法。

对诊断结果进行评价,最常用的指标是敏感度和特异度(表1)。敏感度为a/(a+c),即患者中诊断试验取得阳性结果的比例;特异度为d/(b+d),即健康者中,诊断试验取得阴性结果的比例。另外,阳性似然比、阴性似然比、阳性预测值、阴性预测值、正确百分比(一致率)等也为常用的诊断结果评价指标。

表1 诊断试验结果与金标准的对比

诊断界值的初步确定,也常在这一阶段完成。恰当诊断界值(Cut-off Value)的选择直接影响到诊断的敏感度和特异度。ROC曲线是最常用的诊断评价方法,可评价诊断指标的总体效果,并确定恰当的诊断界值。评价指标总体的预测价值,主要根据ROC曲线的曲线下面积指标。如图2所示,C指标的曲线下面积远大于A指标和B指标,即可推断,C指标的诊断价值大于A与B。诊断界值的确定,则通常基于约登指数进行计算,即“敏感度+特异度-1”取得最大值时所处的界值。图2中,C指标最左上的点即为根据约登指数确定的诊断界值。除了ROC曲线之外,近年来有学者[2]提出决策曲线分析等方法,也越来越多地用于诊断模型的比较和诊断界值的确定。

图1 健康者与患者在A、B、C 3项指标上的分布差异

图2 A、B、C 3项指标的ROC曲线及C指标的诊断界值

阶段2的结论往往也不可以直接转化为临床实践。临床实践的转化,通常需阶段3和阶段4中大规模试验研究和综述研究提供的更高级别的证据。

2.3 阶段3 阶段3,即对阶段1和阶段2发现的“有前途”的指标进行评价。因为这一阶段主要是对诊断指标进行确认,并确定诊断界值,因此常采用试验研究的方法以提供更高级别的证据,即开展独立的、设盲的、与金标准比较的试验研究。“独立”,意味着所有的研究对象都同时接受金标准和新方法的检测,金标准和新方法独立进行,互不影响。“设盲”,意味着评价诊断结果时,两者互不干扰。

这一阶段,常以疑似患者作为研究对象,即最接近诊断指标应用场景的人群,包括不同级别医疗机构的门诊患者,或拟进行疾病筛检的社区人群。本阶段在同一研究对象上同时应用新的诊断策略和金标准的方法,对两者进行比较。统计方法方面,常采用配对卡方检验、敏感度、特异度的95%置信区间等方法,对新的诊断策略进行评价。ROC曲线同样适用于这一阶段的研究。阶段3的研究中,通常也可进一步调整诊断界值,但新的界值通常仍需额外的试验予以确认。一个诊断指标被应用于临床,常需多个诊断试验或Meta分析予以证实,且针对不同级别的医疗机构或不同的应用场景确定对应的诊断界值。

2.4 阶段4 阶段4,通常为前瞻性研究,包括队列研究或试验研究,也常以真实世界注册研究的形式开展,或者使用数学模型、综述研究等方法进行评价。这一阶段研究对象通常为真实世界人群,或最接近真实世界的样本,对采用某诊断方案的群体与未采用此诊断方案的群体进行比较。诊断只是复杂医学过程中的一个环节,可为疾病的诊断和治疗提供信息,因此长期的健康结局更值得予以关注。第4阶段的研究,即对长期的健康结局指标进行评价,如预后指标、受检者的长期受益情况、成本效果等。当一种诊断措施普遍用于临床实践或大规模应用于人群筛检时,其结果的敏感度和特异度,往往会对患者的健康、家庭和社会产生极大影响。特别对于尚无“金标准”的诊断研究,或是早期诊断、筛检,更需结合患者的预后和长期受益来确定诊断的界值,如对乳腺癌筛查的长期效果评价[3],即为此类研究。

3 影像诊断研究的结局变量

本文主要以是否患病为因变量进行阐释,但临床实践中,影像诊断的结局变量往往有更广的范畴。影像诊断,可帮助确定或排除疾病、监测疾病进展、评价预后、监测疾病进展、健康管理等。疾病的诊断只是诊疗行为的一个中间环节,确诊后治疗措施的正确选择、更好的预后、更高的生存质量及更高的成本效益等同样值得关注。将此类结局与影像指标进行关联,将有助于采取更好的医疗实践。近年来,较多研究采用成本效果、成本效益分析等方法评价影像诊断后的长期效果。以乳腺癌筛查项目为例,基于影像学的乳腺癌筛查项目已被多个国家采用,但近期研究[3]发现,由于较高的假阳性和乳腺癌自身病程等原因,这一项目可能并未产生很好的成本效益。

4 影像诊断研究的自变量

高敏感度、高特异度诊断模型的建立,应当拓展测量维度,而不是局限于传统的影像学指标。拓展测量维度,一方面应拓展影像学指标的获取方式;另一方面应结合其他维度的指标以辅助建立诊断模型。无论是直接由计算机生成的影像数据,或将影像数据导入计算机,均可由程序软件直接对影像图像的位置、数量、形状、面积、亮度/灰度等特征进行识别,形成更为精确、客观、多维的影像指标体系。影像资料的纵向积累,即整合动态数据或整合随访数据,也可为影像诊断提供更全面的信息。

随着精准医学概念的提出,结合生命历程资料和组学信息开展诊断实践逐渐成为一个流行的趋势。将影像学指标与其他类型数据维度进行结合,可提高影像诊断的精准程度,促进个体化医学的发展和应用。维度信息至少包括但不限于以下几个方面[4]:性别、年龄、婚姻状况、受教育程度等人口学特征;体格检查资料;实验室检查,尤其是基因组学、蛋白组学等组学资料;便携检测技术和可穿戴设备产生的持续监测资料;生命历程、生活方式等行为特征资料。

5 影像诊断研究中的高级统计建模

大数量、多维度指标的产生,为诊断模型的统计建模带来了机会和挑战。虽然t检验、卡方检验/配对卡方检验、回归分析等传统统计方法仍在影像诊断研究中占有主流地位,但新兴的建模方法正被越来越多的采用。如使用主成分等方法对数据进行降维;使用惩罚回归对多维指标进行筛选;使用广义线性模型、广义相加模型等探索变量间的非线性关系等。另外,数据挖掘算法和机器学习算法中的贝叶斯方法、决策树、支持向量机、神经网络、Bagging和Boosting等建模方法和交叉验证等模型评价策略,也逐渐被用于诊断研究的统计建模。

6 影像诊断策略的推广与报告

一个成功的诊断模型,要求测量指标有较小的测量变异,即对检测仪器及检测方法的稳定性有较高要求。此外,还有众多因素决定了在某一场景下提出的诊断策略是否可成功地推广到其他场景[5]。①对疾病的定义。不同人群、种族,不同的卫生系统,常对某些疾病,如心力衰竭、糖尿病等有不同的定义方式。②检查的实施方式。不同的器械制造商,不同的监测流程和技术等,都会对诊断结果产生影响。③诊断界值。诊断界值的不同,无论是诊断界值设定的差异,或是影像医师对界值的感知差异,都会直接影响诊断结果的敏感度和特异度。④不同场景中正常人群与患者的指标分布,以及正常人群与患者的比例。不同级别医院患者中,疾病的检出率存在显著差异。即,由于入院偏倚的存在,不同场景中获取的诊断策略不应直接采用。⑤具体的临床问题、其他诊断措施的采用等。

基于上述原因,不同人群、机构的诊断模型往往需调整后方可应用于其他人群和机构。因此,诊断研究的报告,应当遵循相应的报告指南[6-7],以促进研究的推广应用。

综上所述,诊断模型的价值不仅在于诊断是否患有疾病,其最终价值是为通过正确的诊断、预后的判断,以及诊断后治疗方式的选择去获得更高的健康产出。诊断模型的建立、应用,以及持续的改进和维护,需要整个卫生体系共同的努力。大规模临床数据的积累、数据挖掘算法和机器学习技术的发展,为基于影像学指标的诊断和预测提供了新的发展契机;正确、灵活运用先进的统计建模方法,将为临床实践提供高质量的证据,促进医学诊疗技术的发展和进步。

[1]Sackett DL,Haynes RB.The architecture of diagnostic research[J].BMJ,2002,324:539-541.

[2]Kerr KF,Brown MD,Zhu K,et al.Assessing the clinical impact of risk prediction models with decision curves:guidance for correct interpretation and appropriate use[J].J Clin Oncol,2016,34:2534-2540.

[3]Loberg M,Lousdal ML,Bretthauer M,et al.Benefits and harms of mammography screening[J].Breast Cancer Rse,2015,17:63.

[4]Schork NJ.Personalized medicine:time for one-person trials[J].Nature,2015,520:609-611.

[5]Irwig L,Bossuyt P,Glasziou P,et al.Designing studies to ensure that estimates of test accuracy are transferable[J].BMJ,2002,324:669-671.

[6]Moons KG,Altman DG,Reitsman JB,et al.Transparent reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD):explanation and elaboration[J].Ann Int Med,2015,162:W1-W73.

[7]Cohen JF,Korevaar DA,Altman DG,et al.STARD 2015 guidelines for reporting diagnostic accuracy studies:explanation and elaboration[J].BMJOpen,2016,6:e012799.

10.3969/j.issn.1672-0512.2017.06.049

广州市教育局广州高校创新创业教育项目(201709T 22)。

宫晓(1985-),男,山东威海人,医学博士,讲师。主要研究方向为临床研究与临床试验方法学,机器学习与数据挖掘方法研究。 E-mail:x.gong@foxmail.com。

2017-09-15)

猜你喜欢

界值影像学阶段
GM1神经节苷脂贮积症影像学表现及随访研究
关于基础教育阶段实验教学的几点看法
加速度计在测量青少年身体活动中的使用
64排CT在脑梗死早期诊断中的应用及影像学特征分析
特殊部位结核影像学表现
不稳定性冠心病病人血浆NT-proBNP水平与冠状动脉病变严重程度的关系探讨
在学前教育阶段,提前抢跑,只能跑得快一时,却跑不快一生。
颅内原发性Rosai-Dorfman病1例影像学诊断
初中数学中绝对值性质的应用
部分国家和地区司机血液酒精浓度界值及相关处罚规定