老年髋部骨折患者术后死亡风险预测模型的研究进展

2022-11-28邓凯歌王立芳葛宇峰吕艳伟段芳芳

骨科临床与研究杂志 2022年1期

邓凯歌王立芳葛宇峰吕艳伟段芳芳

作者单位： 100035 北京积水潭医院创伤骨科(邓凯歌、葛宇峰);临床流行病学研究室(王立芳、吕艳伟、段芳芳)

中国65岁以上老年人口在2018年占比达到11.93%，并预计在2025年达到14%[1]。老年髋部骨折由于其高致死率[2]、致残率、高经济负担成为当今一大严重的公共卫生问题。2016年中国55岁及以上髋部骨折的发病率为136.65/10万，近些年发病率保持稳定，但随着人口老龄化的进展，发病人数仍在迅速上升[3]。对患者手术风险，尤其是死亡风险的评估对于临床实践有重要意义。相较于独立的危险因素，基于多因素的评分模型具有更佳的客观性、准确性和在地区、国家层面的可普及性[4]。术后风险预测模型的功能主要集中于两点：一是进行危险分层，即通过评分和截断值，筛选出高危人群；二是进行病死率的预测，即提供测算公式对每个患者进行个体化的评估。大多数模型往往兼有两种功能。通过危险分层功能，往往可以经由简单便捷的术前因素评分，快速筛选出需要进行术前内科学、麻醉学调整的患者群体，并指导护理措施、围术期管理，以使患者能够耐受手术，改善预后。而通过预测死亡风险可以指导知情同意和治疗决策。结合实际病死率的统计观察，还可以指导临床研究，包括对治疗效果进行评价、便于医院、团队、不同治疗技术之间的比较。以下对几种常见的、具备以上所述功能的患者中有较多验证性研究的模型进行概述[5]。

一、模型的效能评价

主要评价的模型包括生理-手术评分和术前评分，其中生理-手术评分包括：骨科手术的死亡和并发症的生理和手术严重度评分(orthopaedic physiological and operative severity score for the enumeration of mortality and morbidity，O-POSSUM)和生理能力与手术应激度评分(estimation of physiologic ability and surgical stress，E-PASS)；术前评分包括：Charlson合并症指数(Charlson comorbidity index，CCI)、诺丁汉髋部骨折评分(Nottingham hip fracture score，NHFS)和Sernbo评分，其中最后两种是专门为老年髋部骨折患者设计的模型。对于模型预测效能的评价主要采取以下几种方式：(1)预测值/实际值比例(observed/expected，O/E)：可以评价模型整体上以及在某个风险区间内的预测准确度；(2)Hosmer-Lemeshow检验(H-L检验)：检验模型在整个工作区间内的拟合优度，即预测死亡率精确度；(3)Kaplan-Meier生存曲线的时序检验：评价模型通过不同截断值进行危险分层的能力；(4)受试者工作特征曲线下面积(area under receiver operating characteristic curve，AUROC)：评价模型对于死亡风险的区分能力。值得说明的是，在不同队列研究的结局之间，院内/30 d死亡风险的预测，对于需要短期内接受手术的髋部骨折而言有更大的指导意义。

二、不同模型的特点

1.O-POSSUM：O-POSSUM最初由英国的Copeland等[6]提出，旨在对所有外科手术患者预测围术期病死率/并发症率以评估治疗质量。由于包括14个术前变量(年龄、心功能、肺功能、胸片心影、胸片肺野、收缩压、脉搏、昏迷评分、血尿素、血钠、血钾、血红素、白细胞计数、心电图)和6个术中参数(手术严重度、30 d内多次手术、失血量、污染、组织学恶性发现、手术时机)，其完整评估必须在手术后才能完成，所以不能指导手术策略。该模型在全球不同地区应用广泛，对于其效能的研究很多。Mohamed等[7]通过修正POSSUM手术评分部分而发展出用于骨科手术的O-POSSUM评分，预测30 d病死率的指数方程为：LogeR/ (1-R) =-7.04+(0.13×生理评分)+(0.16×手术评分)，30 d观测病死率和预计病死率的相关性良好(O/E=0.96)，并且对于死亡风险有良好的区分能力(AUROC>0.85)。

但这一模型在老年髋部骨折患者中的应用价值尚存在争议。就预测病死率的精确度而言，Wright等[8]在230例股骨颈骨折患者中得到了O/E=1.19的良好符合度；而Ramanathan等[9]的结果显示O-POSSUM对于30 d病死率预测的拟合优度不佳(H-L检验P=0.00015)，该模型高估了病死率(O/E=0.66)。高估病死率的问题在国内研究中也有报道。Wang等[10]发现在O-POSSUM预测风险<10%的低风险患者中明显高估死亡风险(O/E=0/11=0)。刘等[11]报道O/E=0.27，H-L检验P<0.05。这种误差部分源于该模型本身的特点为，当评分取最低时，仍然会得出1.1%的死亡风险[12]。就危险分层作用来说，Ramanathan等[9]报道其预测个体死亡风险的能力不佳，AUROC=0.62。近期的文献报道也表明，O-POSSUM危险分层价值不高，AUROC<0.70[13-14]。

不同研究之间结果的不同有几点原因：医疗系统因素、种族、经济等因素造成混杂；模型的应用方式和数学计算存在差异。但总体来说，该模型对于老年髋部骨折患者评估存在较大的局限性，主要在于：(1)模型的项目和评分范围决定了其异质性，而这一患者群体具备相当的同质性，手术评分接近、术前评分大多集中于较高风险区域，导致对该患者群体的危险分层效能不足以及对于病死率的高估；(2)该模型中的危险因素和权重对于老年髋部骨折患者并不都合适，导致了病死率预测不够准确；(3)该模型需要在即将手术前进行生理评分，而不是入院时评估，导致模型分流患者、指导手术决策的价值有限；(4)项目多、收集信息耗费时间成本高。

2.E-PASS：E-PASS最早由日本的Haga等[15]在择期胃肠道手术患者时为了评估生理代偿能力与预计手术应激之间的平衡，从而预测术后风险、指导治疗。模型包括6个术前变量(年龄、严重心脏疾病、严重肺部疾病、糖尿病、功能状态评分、ASA评分)和3个手术变量(失血量/体重、手术时长、切口大小)。Hirose等[16]首次将其应用于评估老年髋部骨折患者，结果表明术前风险评分(preoperative risk score，PRS)和综合风险评分(comprehensive risk score，CRS)与院内病死率正相关(P<0.001)，CRS达到0.5分以上，病死率>20%;但手术应激评分(surgical stress score，SSS)则对病死率没有显著影响。后续的多中心研究也重复了这一结果[17-18]，并得到院内病死率=13.362(PRS)2-11.277PRS+1.969的预测公式；验证得到其预测精度O/E=0.71。Karres等[14]的对比性研究肯定了E-PASS的危险分层价值(AUROC=0.702)和预测30 d内死亡风险的拟合优度(H-L检验P=0.102)。国内的多项研究也验证了该模型的应用价值，骆等[19]得到院内预计死亡数和实际死亡数差异无统计学意义(O/E=0.67，P>0.05)。而王等[20]得到30 d内预计死亡数和实际死亡数高度符合(O/E=1.04，P=0.5)。

以上研究结果表明，E-PASS模型具备较好的危险分层和死亡预测能力；尤其是验证了在老年髋部骨折患者中，仅采取术前风险评分即可以预测术后院内死亡风险。术前参数仅有6项，且通过常规检查进行评估、计算机自动化处理进行运算，可行性较好[17]。然而，目前E-PASS也存在一定的局限性：(1)原本是为胃肠道手术患者设计的.一些老年髋部骨折患者的特征性预后因素如神经精神系统疾病、骨密度等并没有被纳入[19]。(2)手术评分在老年髋部骨折患者中差异极小，尤其是切口大小在该群体中并没有实际意义。这提示该模型还有修正的空间[16]。(3)该评分对于长期预后的预测意义还需要更多验证。

3.CCI：CCI最早由美国的Charlson等[21]提出，是世界范围内最广泛应用的评估工具之一。CCI共包含19条合并症项目(心肌梗死、充血性心衰、外周血管疾病、脑血管疾病、痴呆、慢性肺疾病、结缔组织病、溃疡病、轻度肝疾病、糖尿病、偏瘫、中重度肾疾病、糖尿病器官损害、任何肿瘤、白血病、淋巴瘤、中重度肝疾病、转移性实体瘤、艾滋病)，反映术前合并症带来的整体负担。在得分≥5时，并发症造成的死亡风险尤其高(1年病死率85%)，Charlson等[21]通过10年生存曲线验证得到指数升高时生存率随之显著下降(时序检验P<0.0001)。CCI本身不包括年龄因素，而对于老年髋部骨折患者，年龄往往是重要的危险因素[21-22]，年龄>40岁时每增长10岁带来的相对风险近似于CCI升高1分[23-25]。这种结合年龄的CCI评分即ACCI的有效性亦得到了证实。

该模型用于老年髋部骨折患者的效果得到了不同地区文献的支持。Tang等[26]的结果显示预测院内死亡风险的AUROC为0.653。Neuhaus等[25]得出的AUROC=0.67。Kirkland等[22]证明， CCI≥6是预测30 d病死率的独立危险因素[OR=2.603(95%CI： 1.2～5.646)]。使用6分作为最佳截断值划分(中)高危患者也得到了Lau等[23]的验证。他们还报道了ACCI预测30 d病死率的AUROC=0.72。还有报道AUROC=0.71[14]、0.773[27]，均说明其具备可接受的风险分层能力。Souza等[28]报道CCI≥3分即会显著升高90 d死亡风险(OR=6.53，95%CI：2.27～18.77)。此外，CCI和ACCI在预测半年(AUROC=0.749)[27]、1年(AUROC=0.75～0.791)和5年(生存曲线的时序检验，P<0.05)的有效性也有报道[23-27]。以上这些结果证明可以使用CCI进行高危患者的区分。就预测病死率的精度而言，Nelson等[27]进行了H-L检验，得到在预测30 d、6个月和1年病死率时的均P>0.05。Karres等[14]则得到其预测30 d病死率的拟合优度良好(H-L检验P=0.291)。

总而言之，CCI在老年髋部骨折患者中具有应用价值，其拟合优度良好，也具有可接受的危险分层能力。CCI在使用时主要依靠病历中的第二诊断[28]，而且不需要进行MMTS(mini mental test score简易精神状态检查得分)的评估，提高了其可操作性[23]。该模型的局限性主要在于对于病历质量要求较高。此外，加入一些针对髋部骨折患者死亡预后的独立危险因素进行修正可以提高模型的预测能力[25]，这些进一步的修正则需要更多的验证。

4.NHFS：NHFS是由英国的Maxwell等[29]专为预测老年髋部骨折患者术后死亡风险而建立的模型。模型包括7项(性别、年龄、血色素、MMTS、活动能力、合并症数目、恶性肿瘤)，提出预测30 d病死率的公式为：R=100/[1+e(4.718-(NHFS/2))]，并在一个独立的股骨颈骨折患者队列中，验证得到良好的拟合优度和危险分层能力，H-L检验P=0.79，AUROC=0.719。

该模型在不同国家的队列中已经得到了广泛的验证。该模型用于预测30 d病死率的研究较多。Moppett等[30]和Marufu等[31]通过H-L检验均得到P>0.10。Wiles等[32]以≥5分划分高危组，通过生存曲线的时序检验得到P<0.001。Marufu等[31]报道AUROC为0.71。Tilkiridis等[33]得到了O/E=1.0的良好符合度，良好的拟合优度(H-L检验P=0.31)以及风险预测能力(AUROC=0.83)。前瞻性队列研究验证了其在亚洲人群中具有良好的危险分层能力，AUROC=0.80[34]。国内的研究表明NHFS评分与术后并发症发病率相关[35-36]。该模型用于预测其他结局的研究则较少。Kau等[34]得出其预测3个月和1年病死率的AUROC仅分别为0.60和0.607。而Wiles等[32]则得出结论，使用NHFS≤4和≥5可以很好地区分1年死亡风险的高低危人群；低危组生存率84.1%；高危组生存率54.5%；生存曲线的时序检验得到P<0.001。比较NHFS与早前开发的模型如O-POSSUM，CCI、E-PASS等的对比性研究表明，NHFS危险分层能力更强[14]，拟合程度优良，而且由于项目简单、成本低廉而具有优势[14,27]。

该模型也并非没有局限性，由于提出的时间相对较短，该模型在不同类型的髋部骨折患者中的验证还不充分。de Jong等[37]发现其在半髋置换术患者中显著低估了病死率(χ2=20.83，P=0.022)；且其对长期预后的价值没有得到充分验证。但在该模型的应用过程中，根据当时当地病死率的情况进行公式修正，根据生活习惯特点进行变量的替换被证实可以提高其风险评估的效能[30，33]。这使得该模型在其他地区的应用富有前景。

5.Sernbo评分：Sernbo评分最早是由瑞典的Rogmark等[38]在治疗股骨颈骨折患者时提出的一种工具，包含了年龄、活动能力、自理能力和精神状态4个指标。最初的目的是指导手术决策，评分≥15分的患者适合选择全髋置换术；评分<15分则宜选择半髋置换术。该评分不计算预测病死率的数值；但一些研究证明了该评分具有良好的术后死亡风险分层能力。该模型的评分范围并不是连续的，可以得出8、11、14、17、20分。Dawe等[39]采用了原始报道中的截断值15划分高低危组，研究了其对于30 d、1年和1.5年死亡风险的分层能力。其的结果提示15分是最佳的截断值，该模型预测30 d死亡风险时的AUROC为0.71；预测1年死亡风险时的AUROC为0.68。此外，在3个时间点高低危组的病死率差异均有统计学意义，分别为30 d时的11%和1%，1年时的35%和8%，1.5年时的41%和8%；两组的生存曲线时序检验得到P<0.0001。Mellner等[40-41]也证明该模型具有可接受的危险分层能力，预测30 d病死率的AUROC为0.68，预测1年病死率的AUROC为0.69～0.79；高危组(得分>15分)的相对风险为15。目前国内还未见研究验证该模型。

Sernbo评分设计的主要功能在于危险分层和临床决策，而非对于治疗的评价。近期的大样本研究发现其拟合优度不佳[41]。这提示该评分在预测病死率方面的应用较为局限。该评分最突出的特点在于极大的简便性，可以由非骨科专业人员在入院时迅速评估；而NHFS、CCI、POSSUM都需要评估具体的合并症情况或包含一些专业的量表；而这些在老年髋部骨折患者首次来到急诊难以及时评估[40]。已有的研究验证了其对于短期和长期(1年)死亡风险都有分层效能，未来的应用前景广阔。

6.近年来发展的其他模型：人工神经网络(artificial neural network，ANN)相较于产生诸多经典模型的logistic回归具有预测准确率更高、处理混杂因素和缺失数据的能力更强、容错性更高、可推广性更强等优势。Lin等[42]为老年髋部骨折患者开发的ANN模型具有95.51%的符合率[(真阳性数+真阴性数)/总受试人数]，AUROC=0.949，显著优于logistic回归模型。Shi等[43]和Debaun等[44]建立的ANN模型也重复了上述的结论。但ANN算法无法提供每个单独变量的信息而确定独立危险因素,也不能确定常规数据收集的标准以指导临床应用。所以ANN算法的应用意义受到局限。除ANN算法以外，也有少数利用贝叶斯网络(Bayesian belief network)、随机森林等算法来建立风险预测模型的报道。这些模型也具有优良的危险分层能力(AUROC>0.80)。利用贝叶斯网络、随机森林算法可以在处理庞大数据的同时对变量的预测效力进行分级，更加直观形象，便于临床使用[45-46]。

这些新开发的基于机器学习的预测模型目前研究有限，由于不同数据库之间数据收集质量、变量编码不尽相同，导致其在不同医疗系统之间的广泛应用受到局限。

综上所述，评估术后死亡风险对于老年髋部骨折患者的治疗决策、护理措施、知情同意都具有重要意义。理想化的预测模型需要满足使用简单、预测准确、可重复性好的要求。这需要模型有较少的项目、最好可以在入院时迅速完成评估、采用客观性指标，同时兼具危险分层能力和死亡风险预测的准确性。以上对几种常用的风险预测模型进行了以临床应用为导向的效能评价：(1)评估模型的危险分层能力：CCI评分采取6分划分高危人群、NHFS采取5分划分高危人群以及Sernbo评分采取15分划分高危人群，有较好的灵敏度和特异度，可以进行患者分类。高危组的患者可以收入专门的单元进行水电解质紊乱的纠正、镇痛、纠正心律失常等。(2)评估模型的预测精确性：具有良好拟合优度的模型可以根据不同地区、不同时期的情况进行校准[30]，从而为医生、患者和家属的决策提供参考。

通过模型间的对比可以发现，传统的术中评分项目对于老年髋部骨折患者的死亡风险没有显著的影响；而术前的生理能力、合并症水平评估具有更重要的意义。这与该群体总体年龄大、合并症负担重、手术异质性小的特征有关。所以，专为该群体设计的模型NHFS、Sernbo评分和反映合并症负担的CCI体现出较好的预测效能。CCI和NHFS的危险分层能力和预测准确度都经过了较多的验证，且都可以在术前完成评估；其中NHFS更加便于应用。Sernbo评分以极其简便为特征，作为危险分层工具有较大的应用价值。

目前的风险预测模型在应用中仍存在一些不足。首先，不同地区之间的医疗制度、生活习惯不同可能会提高信息收集的成本，改变一些预测因素的相对风险和权重。所以，因地制宜地调整评分量表中的某些项目，可以提高模型的效能[33]。其次，利用新的机器学习手段开发模型，虽然体现出更高的预测准确度，但现有数据库的信息质量有限、数据编码不通用导致无法实际应用[44]。因此，需要建立更大的数据库并提高数据录入的质量，为开发下一代模型创造条件。