临床预测模型：模型的建立

2019-01-04谷鸿秋王俊峰章仲恒周支瑞

中国循证心血管医学杂志 2019年1期

谷鸿秋，王俊峰，章仲恒，周支瑞

随着精准医学时代的到来，临床预测模型在医疗诊断治疗决策、患者预后管理及公共卫生资源配置等方面的应用越来越多，其价值也愈发重要。建立临床预测模型是一项复杂的系统工程，涉及研究问题、数据集、变量、模型以及结果报告诸多环节，尽管有众多文献讨论过其中的方法学问题[1-5]，《个体预后与诊断的多变量预测模型透明报告》（TRIPOD）研究组也给出了报告规范[6]，但仍有很多临床预测模型在方法学上存在缺陷。在本系列文章开篇文章的基础上[7]，本文将临床预测模型建立的全过程归纳总结为8个步骤，并将其中的重要概念及原则做一系统介绍。

1 确立研究问题

从统计技术的角度来说，临床预测模型是临床研究中比较高级的研究类型，但并非所有的问题都适合用临床预模型来回答。例如，干预/暴露措施的效应估计与比较则适合用t检验/方差分析，卡方检验，Log-rank检验等传统的统计学假设检验或者校正模型来回答。临床预测模型则适合回答疾病的诊断或预后相关问题，特别是预测因子的组合如何准确的估计患病或事件发生的概率。

2 选择数据来源

不同的临床预测模型问题适合用不同的研究设计数据来回答。对于诊断类问题，其预测因子与结局均在同一时点或很短的时间内，适合采用横断面研究数据构建诊断模型；对于预后类问题，其预测因子与结局有纵向的时间逻辑，适合采用队列研究数据拟合预后模型。随机对照临床试验可视为入选更为严格前瞻性队列，因此也可用于建立预后模型，但在外推性受限。回顾性的队列研究因其预测因子与结局的数据并非系统性的收集，导致信息偏倚，不推荐用其建立预后模型。传统的病例对照研究不适合建立预测模型，不过剿式病例对照或者病例队列研究在罕见结局或者预测因子测量昂贵的研究中是经济、可行的方案。此外，随着计算机信息技术的快速发展，疾病注册数据库和电子病历资料也成为构建预测模型的重要数据来源[8]。

3 筛选预测变量

临床预测模型中变量的筛选有三种策略：①基于文献报道；②基于统计方法；③基于医学认识。这三种策略并非孤立，通常在筛选模型变量时会同时结合这三种策略，或者在不同的筛选阶段应用不同的策略。建立预测模型前，研究者应该系统检索文献，收集整理已报道的预测因子作为备选预测因子。而后，利用统计方法，并结合医学认识和专家经验，从备选因子中选出最终纳入模型的预测因子。目前并无广泛认可的最优统计方法筛选预测因子，常见的预测因子筛选策略有两种：全模型策略或者筛选模型策略。全模型策略是将所有的潜在因子纳入统计模型，且不进行筛选。全模型策略可以避免模型过度拟合以及预测因子的筛选偏倚[9]，但在实践操作中，全模型不好定义，研究者的认识、变量测量的质量及数据集的样本量等都会影响到最终预测因子变量清单的确定，且纳入所有潜在的预测因子也不切实际。筛选模型策略是借助统计模型评估预测因子与结局的关系，并基于一定的准则，比如P值，AIC或BIC值等来筛选变量。P＜0.05是通常的标准，P＜0.1或者更高的界值有可能引入并不重要的变量。AIC或BIC是模拟拟合指标，值越低说明模型拟合越好[10]。筛选模型策略在具体操作时有不同的方法，常见的方法包括向后法、向前法以及逐步法[11]。向后法是从全模型开始逐步剔除冗余的变量，一旦剔除则不再纳入；向前法则是从零开始将变量逐个纳入模型中，一旦纳入则不再剔除；逐步法则是向前法与向后法的综合，每次新变量纳入统计模型时，还需评估已纳入的变量。实践中向后法使用更为普遍，因其首先评估了全模型效应。此外，一些新的回归技术，如LASSO回归越来越受到研究者的重视[12]。由于预测模型的终极目标是预测，因此，也可直接将模型的预测表现作为变量筛选的准则。

筛选预测模型的预测因子虽然有各种统计方法[13]，但任何预测模型的变量筛选，都不能完全依赖于统计方法，应该结合专业知识以及专业领域的经验。此外，在确定预测模型的预测因子时，一些实际的因素，如指标测量的难易度、测量成本、以及应用的难易度等也应考虑在内。

4 处理预测变量

预测模型中处理变量时首先可能遇到的问题就是缺失值。虽说处理缺失值最好的方法是防止出现缺失值，但缺失值是任何研究都无法回避的问题。当缺失的样本例数大时，直接剔除不仅可能引入选择偏倚，而且导致信息丢失，样本量减少，把握度下降[4]，因此，缺失值插补，特别是多重插补是一个重要的弥补方法[14]。缺失值插补可利用患者未缺失的所有变量信息去估计其缺失变量最有可能的值。考虑到模型建立后的实际应用，不建议用“缺失”分类来代替缺失值。此外，不同的变量类型在纳入模型时，也需做不同的处理。分类变量的某些类的频数或者比例过低时，应考虑将相近的类合并；连续变量需首先考察变量分布，对于严重左偏或右偏的数据，可以考虑进行相应的变量转换使变量更接近正态分布；连续变量通常假定为线性关系纳入模型，但研究者应该借助限制性立方样条（Restricted Cubic Splines，RCS）函数或者多项式（Fractional Polynomials，FPs）考察非线性拟合是否更为合适，如J型或U型曲线[15-17]。也有研究者将连续变量切割后纳入模型中，如果切割后模型的效能丢失少，应用的方便性提高，这在后期将预测模型推向大众应用时是可取的，但在模型建立初期不推荐采用此策略[1,3]。此外，连续变量变化的尺度通常为1个单位（如1岁），但考虑到实际效应，研究者也可尝试其它尺度，比如1个标准差或者10个单位（如10岁）。

5 拟合预测模型

在模型拟合阶段，研究者需要考虑以下问题：①数据集的划分；②模型形式的选择；③系数估计的算法。使用全部的数据拟合模型，建立预测模型，可以最大程度的利用样本，但这样的模型不稳定，“迁移”能力差，当场景稍有变动，模型的预测能力就有可能发生变化。因此，拟合预测模型前，研究者通常将数据集划分为训练集和验证集, 以训练集数据拟合预测模型，以验证集数据评估模型[17]。划分训练与验证数据集时，常见的策略包括随机拆分样本、交叉验证（Cross-validation）[19]及Bootstrap重抽样[20]。选择预测模型时，研究者需考虑结局变量类型及数据来源。二分类变量结局多适于诊断模型或短期的预后模型，常用Logistic回归拟合；事件-时间变量多见于长期的预后模型，常用Cox回归拟合。此外，若结局为事件的发生次数（如一年内哮喘发作次数、心衰患者的住院次数等），可用泊松回归拟合，若结局为于连续变量，可用线性回归拟合。系数估计时，线性回归中常用最小二乘估计法，Logistic和Cox回归常用最大似然（ML）估计法。一些新的估计技术，如shrinkage技术[21]和惩罚最大似然估计[22]的运用也日渐普遍。除了传统的统计方法，一些基于机器学习的算法，如决策树、随机森林、神经网络等也在模型拟合中得到广泛的应用。

6 评估预测模型

在预测模型建立后，还需要对模型的表现进行评估，以考察其可重复性及外推性，因此，严格的预测模型评估过程包括了内部以及外部数据的验证。当使用和训练集同源的数据集时，称之为内部验证。常用的内部验证方法包括随机拆分验证、交叉验证以及Bootstrap重抽样, 其中Boostrap重抽样是目前业界最为推崇的内部验证方法[20]。当使用和训练集不同源的数据集时，称为外部验证。外部验证可采用不同时间、不同地域、不同时间及地域的数据集[23]。

无论是内部验证还是外部验证，均需要采用的一定的指标评估模型的表现。区分度（Discrimination）和校准度（Calibration）是两个最常见的模型评价指标[24]。区分度是指模型区分是否患有待诊断的疾病（诊断模型）或是否发生预期的事件（预后模型）的能力，也就是将患者按照风险的大小进行排序的能力。最常见的区分度刻画指标如AUC，或者C统计量。校准度则是评估预测的概率与实际观察到的概率的一致性，常见的统计指标如Brier得分，其假设检验采用Hosmer-Lemeshow拟合优度检验，最常见的展现方式是校准度图，即按预测的概率的10等份分人群，以每等份预测概率的均值为X轴，实际事件的比例为Y轴。理想的状况下，校准度图是一条截距为0，斜率为1的一条直线。此外，也有学者建议用校准截距（Calibration-in-the-large）、校准斜率以及决策曲线分析（Decision-curve analysis）来评价预测模型[1]。有时候，研究者想要比较新开发的模型对现有模型的改进，或者关注单个预测因子的预测效能增加值（Incremental value），此时用AUC值评价并不灵敏，推荐的指标是综合区分改善度（IDI）和净重分类改善度（NRI）[25]。关于模型的验证，我们将在下一篇文章详细讨论，此处仅做简要概念介绍。

7 呈现预测模型

为更好的应用临床预测模型，研究者还需考虑模型的呈现方式。临床预测模型本质上是预测因子的数学公式组合，为方便临床应用，研究者常将不同的预测因子的取值赋予不同的评分，最终的累计得分对应一定的事件概率，此即评分-概率对照表, 或依据得分高低划分高危低危人群，以便临床干预治疗。此外，列线图（Nomogram）也是一种常见的呈现方式[26]。若预测模型比较复杂，则可以EXCEL工具、网页工具或者手机APP等电子方式进行展示和应用。如预测10年ASVCD发生概率的工具（http://tools.acc.org/ASCVD-Risk-Estimator）。

8 报告研究结果

临床预测模型最有效的分享和推广方式便是在学术期刊上报告其结果。但此前很多临床预测模型的报告质量堪忧，为此，《个体预后与诊断的多变量预测模型透明报告》（TRIPOD）从标题和摘要、介绍、方法、结果、讨论以及其它七个方面，提出了22条检查条目，以规范报告内容，提高研究质量[6]。研究者在撰写研究报告时，可从http://www.tripod-statement.org/获取更详细的参考信息。

本文系统梳理了临床预测模型建立的全过程，相关概念以及重要原则，以期为临床研究者提供概念性的认知，指导临床预测模型类研究。临床预测模型涉及的统计方法和操作流程较多，我们将在后续的文章中做具体介绍。