对比增强液体衰减反转恢复序列MRI影像组学评估成人弥漫性低级别胶质瘤1p/19q状态

2022-10-24刘书涵李锦龙

中国医学影像技术 2022年10期

刘书涵，李锦龙，周青

(武汉大学人民医院超声影像科，湖北武汉 430060)

2021年WHO中枢神经系统肿瘤分类将成人弥漫性低级别胶质瘤(diffuse lower grade glioma， DLGG)分为星形细胞瘤[异柠檬酸脱氢酶-1(isocitratedehydrogenase， IDH)突变型]和少突胶质细胞瘤(IDH突变伴1p/19q共缺失)[1]。目前病理学检查仍为临床鉴定1p/19q共缺失的金标准，存在诸多潜在风险和并发症[2]。作为无创预测肿瘤分子分型的新手段，影像组学现已广泛用于临床研究；但1p/19q共缺失在胶质瘤中属于相对少见的基因丢失事件[3]，导致相关影像组学研究相对较少。本研究以对比增强液体衰减反转恢复(contrast enhancement-fluid attenuated inversion recovery， CE-FLAIR)序列MRI构建影像组学模型，观察其判断成人DLGG 1p/19q状态的价值。

1 资料与方法

1.1 研究对象回顾性分析2017年6月—2021年12月135例于武汉大学人民医院经术后病理诊断的DLGG患者，男69例，女66例，年龄19～84岁，平均(42.3±13.6)岁；其中少突胶质细胞瘤81例(共缺失组)，男37例，女44例，平均年龄(43.3±13.0)岁，WHO分级2级51例、3级30例；星形细胞瘤54例(非共缺失组)，男32例，女22例，平均年龄(39.9±14.4)岁，WHO分级2级37例、3级17例。经分层抽样，按7∶3比例将患者分为训练集和验证集。训练集(n=95)包括共缺失组57例、非共缺失组38例；验证集(n=40)包括共缺失组24例及非共缺失组16例。纳入标准：①年龄≥18岁；②术前4周内接受MR检查，含完整CE-FLAIR序列成像，且图像质量较好；③肿瘤均为单发，MR检查前均未接受任何干预；④术后均以荧光原位杂交法检测1p/19q状态。

1.2 仪器与方法采用Siemens Verio 3.0T MR扫描仪，8通道头部线圈。嘱患者仰卧，完成常规序列扫描后，采用高压注射器以3.0 ml/s流率经肘静脉团注钆喷酸葡胺注射液(Bayer公司，剂量0.1 mmol/kg体质量)，采集颅脑轴位CE-FLAIR序列图像，参数：TR 7 500 ms，TE 94 ms，层厚5.0 mm，层间距1.0 mm，FOV 220 mm×186 mm，FA 150°，矩阵408×512，NEX 2。

1.3 图像分割及特征筛选由2名具有12年以上工作经验的放射科主治医师，采用3D-Slicer 4.11软件，以盲法避开瘤周水肿区手动分割训练集轴位CE-FLAIR序列图像中的肿瘤ROI，无明显强化时勾画肿瘤呈高信号最大范围(图1)；如其勾画的肿瘤范围差异≥5%，则由第3名具有20年以上工作经验的神经放射学专家评估并进行调整而完成分割。

图1 手动勾画CE-FLAIR序列MRI中的肿瘤ROI示意图 A、B.患者女，29岁，右侧额顶叶少突胶质细胞瘤(WHO 2级，1p/19q共缺失)，轴位CE-FLAIR图像示肿瘤无明显强化(A)，故勾画高信号最大范围(B)； C、D.患者男，61岁，左侧额叶星形细胞瘤(WHO 3级，1p/19q非共缺失)，轴位CE-FLAIR图示肿瘤明显强化(C)，利于勾画(D) (绿色为肿瘤ROI)

采用“Radiomics”插件提取肿瘤特征，将分割后的图像(nii.gz)导入特征提取界面，依次勾选一阶统计量(firstorder)、灰度共生矩阵(gray-level co-occurrence matrix， GLCM)、灰度相关矩阵(gray-level dependence matrix， GLDM)、灰度游程长度矩阵(gray-level run-length matrix， GLRLM)、灰度尺寸区域矩阵(gray-level size zone matrix， GLSZM)、邻域灰度差矩阵(neighbouring gray tone difference matrix， NGTDM)、形状(shape)、2D形状(shape 2D)及基于小波的特征(wavelet-based features)；以Mann-WhitneyU检验筛选具有差异的特征，再以5折交叉验证最小绝对收缩和选择算子(least absolute shrinkage and selection operator， LASSO)算法去除对1p/19q状态影响不显著者。

1.4 影像组学模型构建采用Python 3.9.7软件分析处理定量特征，并分别以NumPy 1.20.3、Pandas 1.3.4、SciPy 1.7.1、Scikit-Learn 1.0.2、极限梯度提升(extreme gradient boosting， XGBoost)1.5.2及轻量梯度提升机(light gradient boosting machine， LightGBM)3.3.2构建机器学习模型。针对所选影像组学特征构建5种常用且效能评价较好的机器学习模型，包括支持向量机(support vector machine， SVM)、随机森林(random forest， RF)、XGBoost、LightGBM及逻辑回归(logistic regreesion， LR)模型。

1.5 统计学分析采用SPSS 26.0统计分析软件。以独立样本t检验比较符合正态分布且方差齐的计量资料；采用χ2检验比较组间计数资料差异。绘制受试者工作特征(receiver operating characteristic， ROC)曲线，计算曲线下面积(area under the curve， AUC)，评价各影像组学模型判断训练集及验证集DLGG 1p/19q状态的价值，并以DeLong检验进行比较。P<0.05为差异有统计学意义。

2 结果

2.1 一般资料 2组患者性别(χ2=2.391，P=0.122)、年龄(t=1.458，P=0.148)差异均无统计学意义。

2.2 影像组学特征筛选针对每个ROI提取851个影像组学特征，分别标记为F_1～F_851。经Mann-WhitneyU检验共选出74个组间差异有统计学意义的特征；以5折交叉验证的LASSO算法(图2)引入惩罚因子(λ)；于λ=0.029时筛选 12个与1p/19q状态显著相关的影像组学特征(表1)，其间的关系热图见图3。

图2 LASSO算法筛选DLGG 1p/19q状态的影像组学特征 A.于筛选特征中引入惩罚因子λ进行计算，λ取虚线对应数值； B.筛选特征对应的LASSO系数(即纵坐标)随λ值变化情况

表1 与DLGG 1p/19q状态显著相关的影像组学特征

图3 LASSO选出的影像组学特征之间的关系热图 (色带为Pearson相关系数)

2.3 影像组学模型效能评价基于以上特征建立的SVM、RF、XGBoost、LightGBM及LR模型评价训练集DLGG 1p/19q状态的AUC分别为0.89、0.97、0.97、0.96及0.85，验证集的AUC分别为0.86、0.92、0.93、0.92及0.78。验证集中，LR模型AUC低于SVM、RF、XGBoost、LightGBM(Z=2.981、3.136、3.014、2.827，P均<0.05)；而SVM、RF、XGBoost及LightGBM间AUC差异均无统计学意义(P均>0.05)，见图4。其他参考评价指标包括敏感度、特异度、阳性预测值、阴性预测值及准确率，其中RF准确率最高达88.24%，见表2。

表2 5种机器学习模型评价DLGG 1p/19q状态的效能比较

图4 5种机器学习模型评价DLGG 1p/19q状态的ROC曲线 A.训练集； B.验证集

3 讨论

本研究通过提取CE-FLAIR的影像组学特征，分别构建SVM、RF、XGBoost、LightGBM及LR机器学习模型，最终经降维筛选后纳入12个与1p/19q状态显著相关的特征，包括6个主要反映所测体素对称性、均匀性及局部强度分布变化的一阶特征(first order)和6个主要反映图像体素灰度之间的空间排列关系的高阶纹理特征(2个GLCM，2个GLDM，1个GLSZM，1个NGTDM)。肿瘤偏度(skewness)越大，代表其内部体素分布越不对称。1p/19q共缺失胶质瘤更易出现钙化、囊变和水肿，即肿瘤内部信号跨度大，可能与偏度差异增大有关[4]。本研究共筛选出4个不同类型偏度特征，包括original(原始特征)及wavelet-LHL/LHH/HLL。产生钙化可间接增加一阶特征中的平均值(mean，ROI内平均灰度级强度)和峰度(kurtosis，平均值标准化数据的四次方)。本研究共缺失组较非共缺失组更易发生钙化，且发生率高于囊变及水肿，或与纳入了平均值和峰度特征有关。

高阶纹理特征中，繁忙度(busyness)表示像素与其邻域之间的强度变化，可能与肿瘤内部信号不均匀密切相关；CS是衡量GLCM偏度和均匀度的指标，CS越高，代表平均值的不对称性越大，进一步佐证了偏度特征的可靠性。SDLGLE、IMC1、DV及GLNU则均具空间抽象性，可能与成人DLGG的异质性有关。

樊建坤等[5]于来自98例DLGG患者的107个FLAIR序列影像组学特征中筛选出8个特征，用于建立SVM模型，其判断验证集1p/19q状态的AUC为0.82。KONG等[6]提取WHO 2～3级弥漫性胶质瘤三维增强T1WI和T2WI特征用于构建RF模型，其预测训练集和验证集1p/19q状态的AUC分别为0.94和0.89，准确率分别为0.89和0.83。KOCAK等[7]采用与上述相同的MR序列构建的5种机器学习模型(神经网络、朴素贝叶斯、SVM、RF及随机梯度下降)预测1p/19q状态的AUC为0.77～0.87，尤以神经网络表现最佳，但与其他模型比较无显著差异。本研究所建立的SVM、RF、XGBoost、LightGBM及LR模型评价训练集DLGG 1p/19q状态的AUC分别为0.89、0.97、0.97、0.96及0.85，其在验证集的AUC分别为0.86、0.92、0.93、0.92及0.78，具有较高诊断效能，与前述研究结果相似或更优；分析原因，可能在于对比增强序列更具优势，显示信息更为准确，CE-FLAIR作为常规增强的补充手段有利于反映软脑膜受累、评价血脑屏障破坏程度，以半剂量钆剂即可达到与CE-T1WI媲美的增强效果[8-10]。

一项最新研究表明[11]，通过深度学习图像标签(deep learning imaging signature， DLIS)构建模型，可有效预测LGG患者1p/19q状态，其于用于训练集和验证集的AUC高达0.99、0.98，F1分数为0.99、0.94，明显高于本研究结果；如能针对CE-FLAIR序列提取特征构建DLIS模型，可能会更为优异的表现。

综上所述，基于CE-FLAIR影像组学模型可有效预测成人DLGG 1p/19q状态；SVM、RF、XGBoost及LightGBM模型效能均较高，RF模型准确率最高。但本研究样本量小，且为单中心研究，仅针对单一CE-FLAIR序列MRI进行研究，存在一定局限性，有待后续进一步完善。