APP下载

基于CT影像组学的结直肠癌肝转移与原发性肝癌病灶分类研究

2021-12-18王雪虎郭海峰殷小平王云

北京生物医学工程 2021年6期
关键词:特征选择组学分类器

王雪虎 郭海峰 殷小平 王云

0 引言

结直肠癌(colorectal cancer,CRC)是世界上第三大最常见的恶性肿瘤,预计到2030年,全球会增加到220万新发病例和110万死亡病例[1]。临床上,结直肠癌患者首次确诊时已有 15%~25%发生肝脏转移[2],并且肝脏是结直肠癌最常见的转移部位[3]。目前,结直肠癌肝转移(colorectal liver metastases,CRLM)仍是结直肠癌治疗的重点和难点之一[4]。早期判断出肝脏病变部位是转移性病灶还是原发性病灶,这对于及时给出治疗方案非常重要[5-7]。目前临床上医生只能通过病灶图像的形状、大小、边缘清晰度等特征进行初步的主观判断,很难做出非常明确的诊断是否存在结直肠癌肝转移[8-9]。因此,肝转移病灶的精准识别直接关系到治疗方案的制定和患者的预后。临床上还缺乏一种能够准确识别出转移性病灶和原发性病灶的无创方法,而影像组学 (radiomics)为临床医师提供了新的诊断思路。以非侵入性的方式实现对病变的诊断、疗效评估、术前预测[10-11],有望成为精准影像医学的重要基石[12]。

越来越多的影像组学被用来研究病理的分级和良恶性肿瘤的识别。Mao等[13]通过影像组学特征结合机器学习算法对肝细胞癌的病理分级进行了研究,结果表明影像组学可以无创探索肝细胞病理分级之间的潜在联系。Ma等[14]找出了区分良性和恶性胸腺肿瘤的影像组学特征,建立预测模型对识别胸腺瘤良恶性有良好的诊断效果。

本文尝试从结直肠癌肝转移患者与原发性肝癌患者的肝脏病变部位提取影像组学特征,应用机器学习分类器算法建立模型,以提高对肝转移疾病的识别效率。

1 材料与方法

1.1 一般临床资料

这项回顾性研究,经内部机构批准收集了2017 年 1 月—2020 年 9月在河北大学附属医院进行术前 CT 增强影像数据102例,且经病理证实分别为原发性肝癌患者50例,男性 42 例,女性 8 例,年龄(60±10.20)岁;结直肠癌肝转移患者52例,男性 38例,女性 14例,平均年龄 (64±7.10)岁。

1.2 病灶勾画

分割感兴趣区域(region of interest,ROI)是特征提取和建立预测模型的关键步骤。由一位具有多年工作经验的影像医师在CT图像上沿病灶区域仔细绘制轮廓线,保持距离病灶边缘约2~3 mm的距离,为了确保准确性由另一位高年资影像医师检查勾画结果。ROI勾画示例如图1所示,生成的对应病灶掩膜图像如图2所示。

图1 ROI勾画示例Figure 1 ROI sketch example

图2 生成的相应掩膜图像Figure 2 Generated corresponding mask image

1.3 影像组学特征提取

本文采用基于Python的Pyradiomics包从肝脏病灶中提取影像组学特征,包括一阶统计特征、形状特征、二阶纹理特征以及经滤波处理后的特征。本文尝试加入小波(wavelet)、拉普拉斯变换高斯(LoG)、指数、对数、梯度、平方、平方根等多种滤波器,获取滤波特征。以上获取的大量影像组学特征计算方法可参考图像生物标志物标准化倡议(imaging biomarker standardisation initiative,IBSI)[15]。

1.4 特征预处理与选择

特征选择之前需要对特征提取的原始数据归一化处理。

(1)

式中:X′代表经归一化处理后的数据;X为原始数据;max(x)为原始数据中的最大值;min(x)为原始数据中的最小值。

特征选择分为两部分,首先选用了10倍交叉验证最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)方法来选择一些特征,然后通过递归消除法(recursive feature elimination,RFE)进一步对特征进行选择。通过这两种特征选择方法相结合可以有效避免模型过度拟合现象的发生。

1.5 建立预测模型

首先,把经过特征选择后的数据以7∶3的比例分为训练组和测试组。然后,把训练集的9个特征作为分类器的输入,本研究通过病理标签,即肝转移病灶用”1”表示,原发性肝癌病灶用”0”表示,训练模型。最后,在测试集上进行验证如图3所示。为了选择能够更好识别出肝转移数据的分类器模型,本文选用了4种主流的机器学习分类器算法,即支持向量机(support vector machine,SVM)、K-近邻(k-nearest neighbor,KNN)、逻辑回归(logistic regression,LR)和随机森林(random forest,RF)训练模型,本文最终训练了4种机器学习模型。

图3 影像组学特征输入分类器流程图Figure 3 Flowchart of radiomics feature input classifier

1.6 评价指标

本文采用计算4种模型的准确率(accuracy,ACC)、灵敏度(sensitivity)、特异度(specificity)、受试者工作特征曲线(receiver operating characteristic curve,ROC)下面积(area under curve,AUC)作为评价指标,本文各种评价指标的计算公式:

(2)

(3)

(4)

式(2)~式(4)中:TP是病理报告上标记的肝转移的数量,并且这些病灶被机器学习模型正确地预测为肝转移病灶;FP是病理报告上标注的原发性肝癌的数目,但这些病灶被机器学习模型错误地预测为肝转移病灶;TN是病理报告上标记的原发性肝癌的数量,并且这些病灶被机器学习模型正确地预测为原发性肝癌;FN是病理报告上标注的肝转移病灶的数量,但这些病灶被机器学习模型错误地预测为原发性肝癌病灶。

2 实验与结果

2.1 影像组学特征提取

本文通过利用CT图像以及相对应ROI的掩膜图像提取了共计 2 078个影像组学特征,其中从原始图像中提取出形状特征14个,一阶统计特征18个,二阶纹理特征68个,通过选用滤波器处理后提取的特征包括拉普拉斯高斯滤波特征344个,小波滤波器特征688个,平方滤波器特征86个,平方根滤波器特征86个,指数滤波器特征86个,对数滤波器特征86个,梯度滤波器特征86个。其中小波特征和拉普拉斯高斯滤波特征占了绝大多数。

2.2 特征选择

本文选用两种特征选择方法对提取的影像组学特征进行特征选择。首先,采用LASSO算法从2 078个影像组学特征中选择出43个特征,使用十倍交叉验证方法,找到最佳Lambda以实现模型的均方误差最小如图4所示,纵坐标为均方误差(mean-squared error),横坐标为Lambda的取值范围,黑色虚线为最佳Lambda的取值;然后,采用RFE算法进一步选择出9个影像组学特征。其中包含纹理特征1个,拉普拉斯高斯滤波特征3个和小波滤波特征5个,如表1统计了所添加的滤波器及所选9个特征的名称。图5为9个特征绘制的相关性热图,颜色由浅到深表明特征之间相关性渐高,从图中影像组学特征的相关系数矩阵热图可以看出,特征之间大多为负相关且冗余度较低,有效防止了过拟合的发生,比较适合用来训练模型。

图4 LASSO特征选择的参数图Figure 4 Parameter map of LASSO feature selection

图5 9个特征的相关性热力图Figure 5 Correlation heat map of 9 features

表1 递归消除算法选择的9个特征Table 1 Nine features selected by recursive feature elimination

2.3 模型训练的结果与分析

本研究总共训练了4种分类模型,表2、表3分别统计了训练集和测试集4种模型的性能指标。在训练集中RF分类器的准确率最高但在验证集中没有SVM分类器的准确率高。图6、图7分别绘制了验证集和测试集分类器模型的ROC曲线,图中4种不同的颜色分别代表4种不同的分类器模型,在训练集中4种分类器模型AUC值都比较高,但在验证集中RF和KNN分类器模型AUC值较低。综合各项指标分析,本文所选用的 SVM 分类器的性能明显优于其他3种分类器,更适合用来作为影像组学特征数据的模型分析。结果显示SVM分类器验证集的准确率为93%,灵敏度为100%,特异度为88%,AUC为0.94。

表2 4种模型训练集性能指标Table 2 Training set performance indicators of the four models

表3 4种模型验证集评价指标Table 3 Four evaluation indicators of model validation set

图6 4种模型训练集ROC 曲线图Figure 6 ROC curves of four model training sets

图7 4种模型验证集ROC曲线图Figure 7 ROC curves of four model validation sets

3 讨论

影像组学是通过计算机技术深入挖掘病灶内相关影像信息,建立分析模型的一种方法。在以往肝脏病灶的研究中影像组学技术已经逐步应用,Zhang 等[16]应用CT影像组学提取特征,建立模型,鉴别原发性肝癌的病理类型,其结果显示模型的训练组AUC为0.942,验证组 AUC为0.942。徐露露等[17]探讨影像组学特征诊断肝细胞肝癌的病理分级价值,通过提取图像纹理特征,建立Logistic回归模型,结果表明影像组学方法可以一定程度上区分肝细胞癌病理分化。与相关研究相比,本文提取了包括原始特征以及大量的滤波特征,充分挖掘了病灶内部信息,分析了转移性病灶和原发性病灶之间的影像组学特征差异,并应用机器学习方法建立模型。

本文提取了2 078个影像组学特征通过LASSO和RFE两种特征选择方法选择出9个最佳特征集合。其中小波特征占了绝大部分,它可以反映肉眼无法识别的不同尺度的多频信息,以量化病灶的异质性。所有选择的特征大多是灰度区域大小矩阵(gray-level size zone matrix,GLSZM)相关的特征,这些特征可以考虑相邻像素之间的相互作用,并且非常适合于测量病灶内纹理异质性的不同方面。

在训练模型方面,本实验应用SVM分类器算法训练的模型识别结直肠癌肝转移效果较好。特别是SVM分类器在验证集中获得了 100% 的灵敏度,这意味着所有结直肠癌肝转移病灶对比于原发性肝癌病灶都能够准确地被识别出来。虽然 KNN 也获得了同样的灵敏度,但其特异度低于 SVM,即若采用 KNN 分类器算法训练的模型,较多的原发性肝癌患者将被判断为结直肠癌肝转移患者,进而增加手术风险。

在下一步研究中将会收集更多的数据进行本文的模型验证,并尝试应用深度学习技术挖掘更深层次的影像特征。

4 结论

本文假设在诊断肝转移病灶时,利用CT影像组学特征找到肝转移病灶和原发性肝癌病灶的差异,并进行了实验来验证假设成立。研究发现肝转移患者与原发性肝癌患者的影像学特征有明显的差异。经过特征选择最终确定的影像组学特征有希望成为肝转移患者的预测因子,可用于在更大的数据集中开发多变量模型。这项研究证明了定量图像分析在发现转移之前识别和预测有肝转移风险的患者具有应用价值。

猜你喜欢

特征选择组学分类器
学贯中西(6):阐述ML分类器的工作流程
影像组学在肾上腺肿瘤中的研究进展
基于影像组学的直肠癌术前T分期预测
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
基于朴素Bayes组合的简易集成分类器①
一种自适应子融合集成多分类器方法
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究