基于统计学习方法的肿瘤标志物联合诊断研究*

2022-01-19夏一帆陈阳育施焕中梁宝生

中国卫生统计 2021年6期

夏一帆陈阳育施焕中李莹梁宝生

【提要】目的基于统计学习方法探讨癌胚抗原(carcinoembryonic antigen，CEA)、糖链抗原(carbohydrate antigen，CA)125、CA15-3和CA19-9四种肿瘤标志物的不同联合对鉴别良恶性胸腔积液的诊断价值。方法收集北京和武汉两家医院共319例患者的胸腔积液标本及配对血清标本，应用化学发光法检测CEA、CA125、CA15-3及CA19-9在血清及胸腔积液中的浓度，采集患者的性别、年龄等协变量信息，分别应用logistic回归、随机森林和支持向量机三种方法建立联合诊断模型，通过受试者工作特征(receiver operating characteristics，ROC)曲线分析比较其诊断价值。结果使用支持向量机方法，获得胸腔积液中CEA+CA19-9的联合诊断对应的ROC曲线下面积(areas under the curve，AUC)值最大(0.92，P<0.001)，灵敏度最高(0.82)，特异度为0.96，AUC值比单一肿瘤标志物诊断最优值提高了1.6%，灵敏度提高了3.8%；使用logistic回归方法，获得胸腔积液中CEA+CA15-3+CA19-9联合诊断对应的AUC值达到0.91(P<0.001)，比单一肿瘤标志物最优模型AUC值提高了5.7%，灵敏度提高13.2%，特异度提高4.3%；3.使用随机森林方法，最优灵敏度达到0.82，最高AUC值为0.89(P<0.001)，比单一肿瘤标志物最优模型AUC值提高了5.1%，灵敏度提高6.5%，特异度提高3.3%。结论相比单一肿瘤标志物诊断，联合多肿瘤标志物的诊断能够提高诊断精度，但是提高幅度不大。基于支持向量机方法，使用胸腔积液中单一肿瘤标志物CEA即可达到较好的良、恶性胸腔积液诊断效果。综合考虑患者就医的经济负担和就医体验等因素，本研究不推荐使用多肿瘤标志物的联合诊断。

肿瘤标志物常用于判断恶性疾病可能性，CEA、CA125、CA15-3及CA19-9均为临床常见的肿瘤标志物[4-9]。研究证实这些肿瘤标志物对于鉴别胸腔积液的良、恶性有提示作用，单一的肿瘤标志物灵敏度和特异度有限，可能存在漏诊、误诊等[1-2]。已有文献发现联合使用两种或多种肿瘤标志物可能会提高诊断价值，但临床上尚无定论[3]，且并非所有肿瘤标志物的实验室检测都有助于提高联合诊断的效果。因而，研究如何在提高多种标志物联合诊断效果的同时，尽可能选取数量少的标志物类型组合做诊断，具有十分重要的临床意义。本研究通过检测血清和胸腔积液中的四种肿瘤标志物CEA、CA125、CA15-3及CA19-9的浓度，应用logistic回归、随机森林和支持向量机三种统计学习方法，探讨不同的联合诊断方法在鉴别良、恶性胸腔积液方面的诊断效果。

数据与方法

1.数据来源

选取2015年1月至2017年6月收入首都医科大学附属北京朝阳医院呼吸与危重症医学科的所有伴有胸腔积液的成人患者174例，以及武汉某医院的胸腔积液患者145例，共计319例。根据Light标准区分渗出性胸腔积液或漏出性胸腔积液。根据病因进行分类，其中恶性胸腔积液患者111例(年龄21～86岁)，男性59例，女性52例；良性胸腔积液患者208例(年龄16～88岁)，男性148例，女性60例。

2.分析方法

采用R软件完成分析及绘图，计量资料以均值±标准差表示。选择logistic回归、随机森林和支持向量机三种统计学习分类方法[5-6]建立诊断模型。除将CEA、CA125、CA15-3及CA19-9浓度纳入诊断模型，同时考虑患者的性别、年龄和就诊城市信息。为避免统计学习方法参数训练出现过拟合的情形，将数据随机五等分，四份作训练集，一份作测试集。构建logistic回归模型时，针对胸腔积液和血清两组数据，采用Lasso方法进行变量筛选[11]，通过交叉验证的方法，确定最优的惩罚因子和模型；在构建随机森林模型时，通过调整算法中的特征变量选择个数和树的个数实现模型调优，选取100棵树来构建诊断模型。根据Gini系数值的下降幅度进行变量的重要性计算，选取四种标志物和年龄变量作为重要变量。在构建支持向量机模型时，选择线性核函数作为支持向量机的核函数，通过交叉验证选取支持向量机最优的惩罚因子。对每种方法，获得预测数据集上的ROC曲线和AUC值，计算最优的cut-off值[12]，及对应诊断灵敏度和特异度。用以比较三种统计学习方法对应不同标志物联合诊断模型的诊断效能，并与单一标志物诊断结果对比。P<0.05被认为具有统计学意义。

结果

1.使用logistic回归模型、随机森林和支持向量机诊断模型分别在胸腔积液和血清组进行联合诊断的结果见表1，诊断结果对应的ROC曲线见图1。

图1 在胸腔积液和血清中logistic回归(第1列)、随机森林(第2列)和支持向量机的不同诊断模型下的ROC曲线

表1 使用logistic回归、随机森林和支持向量机方法在胸腔积液和血清中肿瘤标志物的不同联合诊断效果

logistic回归中各模型联合诊断AUC值均大于0.81(P<0.001)。胸腔积液中CEA+CA15-3+CA19-9的联合诊断模型(M5)在ROC曲线中AUC最大为0.91，cut-off值为0.38，灵敏度为0.77，特异度为0.96。

随机森林各联合诊断模型AUC值均大于0.70(P<0.001)。胸腔积液中使用重要变量模型(M12)的联合诊断AUC值最高为0.89。支持向量机诊断方法在胸腔积液中使用CEA+CA19-9模型(M1)的联合诊断ROC曲线对应AUC值最高为0.92，cut-off为0.24，灵敏度为0.82，特异度为0.96。

2.利用三种统计学习分类方法对不同肿瘤标志物浓度的单一诊断模型诊断结果见表2。其中，胸腔积液中，基于单一肿瘤标志物CEA的支持向量机最优诊断模型AUC值最高为0.90，cut-off为0.26，灵敏度为0.79，特异度为0.93。基于单一肿瘤标志物CA15-3的logistic回归最优诊断模型AUC值为0.85，cut-off为0.36，灵敏度和特异度分别为0.68和0.92。随机森林方法对应的单一肿瘤标志物CEA的诊断模型最优(AUC=0.84)。

表2 胸腔积液和血清组使用单一指标的诊断结果

3.不同联合诊断模型效果比较的假设检验结果见表3。检验结果显示，胸腔积液组中基于logistic回归和随机森林方法的联合诊断最优模型与单一肿瘤标志物诊断模型的AUC值差异比较的假设检验P值均显著(P<0.007)。基于支持向量机的联合诊断模型最优模型与单一肿瘤标志物最优诊断模型的AUC值差异比较的假设检验均不显著。另外，胸腔积液组中三种分类方法对应联合诊断的最优模型AUC值与次优模型的AUC值差异比较均不显著(P>0.155)。

表3 胸腔积液组中不同方法对应联合诊断模型AUC差异的比较

讨论

本文通过前瞻性试验研究，使用logistic回归、随机森林和支持向量机三种分类方法，建立以CEA、CA125、CA15-3和CA19-9四种肿瘤标志物浓度为基础的不同联合诊断模型，通过统计学习方法进一步提升了联合诊断的准确率，对于判别良、恶性胸腔积液有着十分重要的价值。

通过对比多肿瘤标志物与单一肿瘤标志物的诊断模型的AUC可知，基于支持向量机方法的多肿瘤标志物联合诊断模型比单一肿瘤标志物的诊断最优模型的AUC值提高了1.55%；基于随机森林的多肿瘤标志物联合诊断模型比单一肿瘤标志物最优模型的AUC值提高了5.1%；使用logistic回归方法的多肿瘤标志物联合诊断模型比单一肿瘤标志物的最优诊断模型AUC值提高5.76%。由此可知，多肿瘤标志物的联合诊断模型对于提高诊断的AUC有一定的帮助，这与当前研究的结论一致[7-10]，但本研究的样本量更大，且诊断模型方法更先进。本研究尚存在一些不足：本研究测定了临床常见的四种肿瘤标志物，但其他与肺癌相关的肿瘤标志物如CYFRA21-1、NSE、ADA等亦有诊断价值[8-9]，有待进一步研究；使用统计学习方法时，由于随机森林和支持向量机方法自身的特点，虽然诊断的精度较好但是可解释性不够理想。

尽管多肿瘤标志物的联合诊断能提高诊断精度，但是相比单一标记物诊断提高幅度有限(<6%)。在胸腔积液中，支持向量机方法使用单一标志物CEA诊断即可达到较高的诊断精度(AUC=0.9)。而支持向量机最佳联合诊断(AUC=0.92)和logistic回归模型最佳联合诊断(AUC=0.91)法的优势不大，但却需要检测三种肿瘤标志物浓度，这既增加了医院的医疗资源消耗，又增加了患者的经济负担及疼痛不适感。综合考虑患者就医的经济负担和就医体验等因素，在临床实践中，从效费比角度讲本研究不推荐应用多肿瘤标志物联合诊断法鉴别良恶性胸腔积液。