APP下载

基于影像组学的机器学习模型鉴别孤立性纤维性肿瘤与血管瘤型脑膜瘤

2023-10-10毕玉珍白洁白培瑞李向荣付圣莉王键任延德

磁共振成像 2023年9期
关键词:组学机器效能

毕玉珍,白洁,白培瑞,李向荣,付圣莉,王键,任延德*

0 前言

孤立性纤维性肿瘤(solitary fibrous tumor,SFT)是一种罕见的间叶性非脑膜上皮源性肿瘤[1]。血管瘤型脑膜瘤(angiomatous meningioma, AM)是脑膜瘤的一种组织学亚型。两者具有十分相似的临床表现与影像学特征[2-3],但在生物学行为和治疗等方面存在显著差异。SFT 具有明显的侵袭性、较高的局部复发率和颅外转移[4],根治性全切术后辅以放射治疗可有效提高患者生存率[5-6]。AM具有良性脑膜瘤的特点,单纯手术切除即可获得良好的预后[7-8]。因此,术前准确鉴别SFT 与AM 对制订治疗方案、改善患者预后具有重要意义。

研究证明常规MRI的影像学特征有助于术前鉴别SFT 与AM,如肿瘤大小、信号强度以及与硬脑膜关系等[9-11],但这些定性特征易受到观察偏差的影响,临床误诊率较高[12-13]。基于常规MRI 图像的纹理分析研究表明,表观扩散系数(apparent diffusion coefficient,ADC)图、T2 加权成像(T2-weighted imaging, T2WI)及T1加权成像(T1-weighted imaging, T1WI)增强图像的定量成像特征可以作为鉴别 SFT与AM的有效标记物[14-17],但迄今为止,此类研究多缺乏有效验证,且模型仅体现了简单的相关性,因此临床应用价值有限。

影像组学从医学图像中高通量地提取定量特征,通过量化分析进行诊断和预测,具有客观、非侵入、可挖掘的特点,已被应用于鉴别SFT 与AM[18]。机器学习可以辅助医师深度挖掘脑肿瘤MRI 影像数据中的规律,在脑肿瘤术前分割和辅助诊断、术中位置分析以及术后预测中具有重要应用价值[19]。

既往研究表明基于不同机器学习算法、不同MRI序列建立的模型的预测性能不同[20-21]。已有学者使用基于影像组学的机器学习模型鉴别SFT与AM,但均采用单一机器学习算法或单一常规MRI 序列构建模型[22-23],尚未对不同算法和序列的分类效能进行比较,且研究数据来自单中心。Logistic 回归(logistic regression, LR)是一种成熟的二元分类模型,具有较强的可解释性和实用性[24]。随机森林(random forest, RF)是基于决策树的集成学习算法,泛化能力强,分类效能好[25]。支持向量机(support vector machine, SVM)是一种二分类模型,可以处理线性或非线性数据[25]。因此,我们收集了两个中心的数据,使用LR、RF、SVM 结合常规MRI 图像构建预测模型,旨在探究不同机器学习算法及MRI 序列在鉴别SFT 与AM中的价值。

1 材料与方法

1.1 研究对象

回顾性分析青岛大学附属医院、广西医科大学第一附属医院2015 年6 月至2020 年9 月收治的SFT与AM 患者病例共127 例,其中SFT 患者73 例,AM 患者54 例。纳入标准:(1)病理诊断为SFT 或AM;(2)术前行常规MRI 检查;(3)首次接受手术治疗且术前未接受任何治疗。排除标准:(1)图像质量较差;(2)既往有颅脑手术或活检史;(3)既往有其他颅内疾病史。2 例SFT 患者和4 例AM 患者因图像质量较差被排除,3 例SFT 患者和3 例AM 患者因既往行颅脑手术被排除,6 例AM 患者因脑梗死、蛛网膜下腔出血被排除。最终109 例患者(68 例SFT,41 例AM)被纳入本次研究。本研究遵守《赫尔辛基宣言》,经青岛大学附属医院伦理委员会(批准文号:QYFY WZLL 27236)、广西医科大学第一附属医院伦理委员会[批准文号:2021(KY-E-201)]批准,免除受试者知情同意。

1.2 MR图像采集

使用美国GE Signa HDX 3.0 T 及德国Siemens SKYRA 3.0 T 扫描仪采集图像。美国GE Signa HDX 3.0 T 扫描参数:T1WI 序列,TR 1800 ms,TE 24 ms;液体衰减反转恢复(fluid-attenuated inversion recovery, FLAIR)序 列,TR 8000 ms,TE 165 ms;T1WI增强序列,TR 2250 ms,TE 24 ms;层厚5 mm,层间 距1 mm,FOV 230 mm×230 mm。德 国Siemens SKYRA 3.0 T 扫描参数:T1WI 序列,TR 1800 ms,TE 8.5 ms;FLAIR 序列,TR 9000 ms,TE 85 ms;T1WI 增强序列,TR 1800 ms,TE 8.5 ms;层厚5 mm,层间距1 mm,FOV 230 mm×230 mm。经肘静脉团注0.2 mL/kg德国拜耳先灵的钆喷酸葡胺后行增强扫描,流率为2~3 mL/s。MR图像通过影像存档与通信系统以医学数字成像和通信(digital imaging and communications in medicine, DICOM)格式导出,并抹除患者隐私。

1.3 感兴趣区的勾画与特征提取

由两名年资7 年以上的神经影像医师在双盲的情 况 下 使 用3D Slicer(Version:4.8.1,http://www.slicer.org/)软件协商勾画感兴趣区(region of interest, ROI),分别于T1WI 增强、T1WI 及FLAIR图像上沿肿瘤边界逐层勾画,勾画区域包括肿瘤全部成分,即肿瘤实质及内部出血、坏死、囊变区,不包含周围水肿区。

为降低扫描仪及采集参数差异造成的影响,在提取特征前对MRI 图像进行预处理,包括重采样、降噪及小波变换,重采样到1 mm×1 mm×1 mm 的体素大小,并进行高斯滤波,sigma 值分别为0.5、1.0、1.5[26]。使用3D Slicer软件提取影像组学特征,共提取1166 个定量参数,其中形态特征14 个、一阶特征222 个、灰度共生矩阵(gray level co-occurrence matrix, GLCM)特 征294 个、灰 度 相 关 矩 阵(gray level dependence matrix, GLDM)特征174 个、灰度行程长度矩 阵(gray level run length matrix,GLRLM)特征198 个、灰度区域大小矩阵(gray level size zone matrix, GLSZM)特征198 个和邻域灰度差矩阵(neighboring gray tone difference matrix,NGTDM)特征66个。

1.4 影像组学特征的选择和降维

将影像组学特征导入Python(版本3.8.13)软件包进行标准化处理;然后通过t检验剔除差异无统计学意义的参数;最后选取最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)对数据进行降维,在十折交叉验证中,采用lambda.min 的标准选择惩罚系数lambda。联合T1WI、FLAIR及T1WI增强选择多参数MRI序列的最佳影像组学特征。

1.5 机器学习模型的构建与验证

将降维后的特征导入Pycaret 软件,基于T1WI、FLAIR、T1WI 增强以及多参数MRI 序列建立LR、RF、SVM 模型。按照7∶3 的比例将患者随机分为训练集(76 例)与测试集(33 例),利用十折交叉验证进行训练,在测试集中进行验证,并绘制受试者操作特征(receiver operating characteristic, ROC)曲线,计算ROC 曲线下面积(area under the curve, AUC)、准确度、敏感度及特异度。

1.6 统计学方法

应 用R 软 件(Version:3.5.1,https://www.Rproject.org)和IBM SPSS Statistics 22.0 进行统计分析。正态分布的计量资料以(±s)表示,组间比较采用独立样本t检验。计数资料以频数表示,组间比较采用Fisher 确切概率法。P<0.05 为差异有统计学意义。

本研究SFT 与AM 的发病年龄采用两独立样本t检验,性别采用Fisher确切概率法。LASSO回归模型及LR、RF、SVM 分类器均通过“sklearn”程序包运行。AUC<0.7 时模型效能较低,0.7≤AUC≤0.9 时模型效能中等,AUC>0.9 时模型效能较高。使用DeLong检验比较不同模型的AUC差异。

2 结果

2.1 SFT和AM患者临床资料比较

AM组患者平均年龄明显高于SFT组,差异具有统计学意义(P<0.001),两组性别组成差异无统计学意义(P=1.000)(表1)。

表1 SFT和AM患者临床资料比较Tab.1 Comparison of clinical data of patients with SFT and AM

2.2 最佳影像组学特征的筛选

经特征选择后(图1、2),T1WI 筛选出22 个最佳影像组学特征,其中一阶特征6 个,形态特征2 个,GLCM 特征3 个,GLDM 特征3 个,GLRLM 特征4 个,GLSZM特征3 个,NGTDM 特征1 个;FLAIR 获得12 个特征,其中一阶特征4个,形态特征1个,GLCM特征3个,GLRLM特征2 个,GLSZM 特征2 个;T1WI 增强获得12 个特征,其中一阶特征3 个,形态特征1 个,GLCM 特征6 个,GLSZM特征2个;多参数MRI序列获得65个特征,其中一阶特征11 个,形态特征3 个,GLCM 特征16 个,GLDM特征9 个,GLRLM 特征4 个,GLSZM 特征16 个,NGTDM 特征6个。

图1 二项式偏差随参数λ变化曲线图(多参数MRI序列)。使用LASSO回归模型筛选最佳影像组学特征,利用十折交叉验证选择最优参数λ。图2 65个特征的LASSO 系数曲线(多参数MRI序列)。随着log(λ)的增大,多数特征的系数被压缩为0。LASSO:最小绝对收缩和选择算子。Fig.1 The curve of binomial deviance changing with parameter λ(Multi-parameter MRI).LASSO regression model was used to screen the optimal radiomics features, and the optimal parameter λ was selected by 10-fold cross validation.Fig.2 The LASSO coefficient curve of the 65 radiomics features(Multi-parameter MRI).As the log(λ) increases, the coefficients of most features are compressed to 0.LASSO: least absolute shrinkage and selection operator.

2.3 机器学习模型的诊断效能

2.3.1 基于单一MRI序列机器学习模型的诊断效能

基于T1WI 的LR、RF、SVM 模型的训练集AUC 分别为0.99、1.00、0.99,测试集AUC 分别为0.93、0.94、0.91(表2,图3A),均大于0.9,诊断效能较高。

图3 基于MRI图像三种机器学习模型鉴别诊断SFT 与AM 的测试集ROC 曲线。3A:基于T1WI三种机器学习模型的测试集ROC 曲线;3B:基于液体衰减反转恢复序列三种机器学习模型的测试集ROC 曲线;3C:基于T1WI增强三种机器学习模型的测试集ROC 曲线;3D:基于多参数MRI序列三种机器学习模型的测试集ROC曲线。SFT:孤立性纤维性肿瘤;AM:血管瘤型脑膜瘤;ROC:受试者工作特征;AUC:受试者工作特征曲线下面积。Fig.3 The ROC curves of three machine learning models based on MRI in differentiating SFT from AM in the test group.3A: The ROC curves of three machine learning models based on T1WI in the test group; 3B: The ROC curves of three machine learning models based on fluid-attenuated inversion recovery sequence in the test group; 3C: The ROC curves of three machine learning models based on contrast-enhanced T1WI in the test group; 3D: The ROC curves of three machine learning models based on multi-parameter MRI in the test group.SFT: solitary fibrous tumor; AM: angiomatous meningioma; ROC: receiver operating characteristic; AUC: area under the curve.

表2 12种机器学习模型鉴别SFT和AM的效能Tab.2 The effectiveness of 12 machine learning models in differentiating SFT from AM

基于FLAIR 的LR、SVM 模型的训练集与测试集AUC 均大于0.9,诊断效能较高。RF 模型的测试集AUC为0.85(表2,图3B),诊断效能中等。

基于T1WI 增强的三种模型中,LR 模型的诊断效能最高,测试集AUC、准确度、敏感度、特异度分别为0.92、84%、88%、59%,SVM 模型效能最低,训练集及测试集AUC分别为0.97、0.69(表2,图3C)。

T1WI、FLAIR 模型的AUC 均大于相应的T1WI 增强模型的AUC(表2)。T1WI 结合RF 模型的AUC 大于FLAIR 结合RF 模型的AUC,经DeLong 检验,LR、SVM 模型的AUC无显著差别(P均>0.05)。

2.3.2 多参数MRI序列机器学习模型诊断效能

多参数MRI序列模型诊断效能优于单序列模型,其中SVM 模型效能最高,其测试集AUC、准确度、敏感度、特异度分别为0.99、97%、96%、100%(表2,图3D)。

3 讨论

在本研究中,我们建立并验证了基于MRI影像组学特征的机器学习模型,以期术前鉴别SFT与AM。结果发现不同MRI序列及分类器的诊断效能不同,多参数MRI序列模型的效能较好,LR分类器具有较高的效能及稳定性。这些发现表明,基于MRI影像组学的机器学习模型可有效鉴别SFT 与AM,为临床决策提供参考。

3.1 术前鉴别SFT与AM的研究现状

SFT 与AM 影像学表现相似,生物学行为显著不同。与AM 相比,SFT 侵袭性更高,复发和远处转移的倾向更大[27]。因此,术前鉴别SFT与AM对制订治疗方案与评估预后具有重要价值。MRI是术前鉴别SFT与AM 的首选方法,我们之前的研究[28]发现SFT 与AM 在MRI 征象上存在显著差异,SFT 病灶较AM 体积大,形态不规整,血管流空效应明显,并可见骨质破坏,但传统MRI特征因缺乏客观性和定量性分析,易受医师经验影响。FAN 等[23]基于年龄及MRI 征象,采用多因素logistic回归分析构建了鉴别SFT与AM的临床模型,测试集AUC 为0.79,预测效能显著低于融合影像组学模型。MRI 纹理分析通过量化图像的微观差异来客观评估肿瘤的异质性,提高了对SFT 与AM 的鉴别诊断效能[3,29-30],但此类研究多缺乏有效验证,且模型仅体现了简单的相关性,因此临床应用价值有限。

影像组学是一种定量描述肿瘤特征的方法,我们先前研究[31]结果表明多参数MRI 影像组学特征模型能较好地鉴别SFT与AM,与传统影像学方法相比更具客观性。机器学习可辅助医师深度挖掘多维影像学信息,实现精准诊断及预测。基于影像组学的机器学习模型可以为临床决策支持提供有价值的信息[32]。目前已有国内外学者应用影像组学结合机器学习的方法对SFT 与AM 进行了研究。FAN 等[23]基于T1WI 增 强、T2WI 及T1WI 增 强-T2WI 结 合 序 列,运 用SVM 构建模型鉴别SFT 与AM,其中T1WI 增强-T2WI 结合模型预测效能最高,AUC达0.90。KONG等[22]基于多参数MRI 序列,比较了线性判别分析(linear discriminant analysis, LDA)、神经网络(neural network, NN)、SVM 及LR 在鉴别SFT 与AM 中的效能,结果表明不同的算法对模型性能的提高是有限的。以上研究仅采用单一机器学习算法或单一常规MRI序列构建模型,且数据来自单中心,还需多中心数据来验证模型的泛化性。为进一步探究不同算法及MRI 序列在鉴别SFT 与AM 中的价值,我们纳入了两个中心的数据,使用LR、RF、SVM 结合常规MRI 序列构建预测模型并进行性能比较。

3.2 主要研究结果分析

研究结果显示LR模型的AUC均大于0.9,表明LR模型在鉴别SFT 和AM 中具有较高的效能及稳定性,这与刘红枝等[33]研究结果一致。LR 是一种广义线性回归模型,主要用于解决分类问题,其结果可解释性强,在疾病诊断中具有重要价值。然而,基于T1WI增强的SVM 模型的训练集及测试集AUC 分别为0.97、0.69,二者差距较大,可能存在过拟合现象[33],表明该模型在应用中稳定性较差。

对于同一机器学习算法,结合不同单一序列建立的模型的诊断效能不同。T1WI 和FLAIR 模型的AUC 大于相应的T1WI 增强模型的AUC,这与HAN 等[34]的研究结果一致,可能是由于对比剂增强会干扰肿瘤原始图像的真实灰度、对比度、均匀度、纹理深度及粗细度,导致其不能很好地反映体素单元之间真实的属性,而平扫MRI 序列可以更真实地反映病理变化。

基于多参数MRI 序列的SVM 模型的诊断效能最好,测试集AUC 高达0.99,可能由于SVM 算法是建立在支持向量和结构化最优的统计学意义之上,通过构建最优超平面,使得学习机的风险及泛化误差减小[35],其数学理论完备,使得该方法对于小样本量数据具有很好的处理能力。刘哲等[36]在鉴别高级别胶质瘤和脑单发转移瘤的研究中发现,SVM 模型的诊断效能最好,与本研究结果一致。多参数MRI序列结合了不同序列的特点,具有更高的鉴别诊断效能[37-38],因此多参数MRI 序列模型的诊断效能均较高。但由于本研究未使用外部验证,模型的可靠性和泛用性尚不明确,结果有待进一步验证。

本研究中,基于多参数MRI序列筛选出的特征大多和单序列特征重叠,其中GLCM 的权重及特征数目明显高于其他特征。GLCM 通过描述两个相邻像素强度之间的关系,来反映病变的异质性,从而对人眼不能分辨的图像内部特征进行定量描述[39],因此GLCM对于鉴别SFT 和AM 较敏感。张烁等[40]通过纹理分析鉴别SFT 与AM 时发现,GLCM 中的熵在鉴别两种肿瘤中具有良好的诊断效能,AUC达0.765。

3.3 本研究的局限性

本研究仍存在一些局限性:(1)本研究为回顾性研究,可能存在选择偏倚;(2)由于 SFT 及AM 为相对罕见肿瘤,病例收集难度较大,本研究没有外部验证集,模型的泛化能力仍有待验证,后续需收集多中心数据进行外部验证;(3)在后续研究中,我们将纳入临床及影像学特征进行模型构建,探究该模型与机器学习模型在鉴别SFT与AM中的效能差异。

4 结论

综上所述,基于MRI图像影像组学特征的机器学习模型可以在术前鉴别SFT 与AM,不同MRI 序列及分类器的效能不同,其中多参数MRI序列模型的效能较好,LR模型具有较高的效能及稳定性。

作者利益冲突声明:全体作者均声明无利益冲突。

作者贡献声明:任延德设计本研究的方案,对稿件重要内容进行了修改,获得了青岛市医药卫生科研计划项目和青岛市市南区科技计划项目的基金资助;毕玉珍起草和撰写稿件,获取、分析或解释本研究的数据;白洁、白培瑞、李向荣、付圣莉、王键获取、分析或解释本研究的数据,对稿件重要内容进行了修改;全体作者都同意发表最后的修改稿,同意对本研究的所有方面负责,确保本研究的准确性和诚信。

猜你喜欢

组学机器效能
机器狗
迁移探究 发挥效能
机器狗
同时多层扩散成像对胰腺病变的诊断效能
充分激发“以工代赈”的最大效能
口腔代谢组学研究
未来机器城
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
代谢组学在多囊卵巢综合征中的应用
唐代前后期交通运输效能对比分析