基于随机森林的肺部肿瘤PET/CT图像计算机辅助诊断方法研究*
2020-07-20刘敬霞
刘敬霞
(1. 衡水市第四人民医院,河北 衡水 053000;2.河北医科大学,河北 石家庄 050000)
1 引 言
据统计数据显示,目前我国的肺癌发病率以每年26.9%的速度増长。然而肺癌并非完全无法治愈,若在患者形成肺部肿瘤阶段诊断出来,则有可能降低肺癌发病率。但由于肿瘤组织初期时,其特征很难通过PET/CT图像显示出来。当前常用的PET/CT计算机辅助诊断方法有基于神经网络[1]、基于聚类分析和基于支持向量机[2]三种方法,这三种方法虽然可以一定程度上改善诊断性能,但与精确诊断的预期目标还存在一定差距,为此,本研究提出基于随机森林的肺部肿瘤PET/CT计算机辅助诊断新方法。该方法首先对肺部肿瘤PET/CT影像进行预处理,提取PET/CT图像中肺部肿瘤的病理特征,如纹理、形状等,然后利用随机森林算法判断肺部肿瘤的良恶性,当肿瘤为恶性时,判断其具体类别。通过仿真实验测试该方法的有效性,在相同的实验条件下,通过四种不同PET/CT计算机辅助诊断方法的诊断结果,对比其诊断性能。
2 基于随机森林的计算机辅助诊断方法
PET/CT是一种将PET技术和CT集成为一体的新型影像设备,可最大限度满足临床各种疾病诊疗需求[3]。然而,现有的PET/CT设备也仅将诊断精度由30%提高到35%左右。因此,为提高PET/CT图像的诊断准确性,本研究设计了一种计算机辅助诊断方法。
2.1 PET/CT图像预处理
原始的PET/CT图像中肺部肿瘤的病变组织特征成像不是很清晰,因此,需要对原始PET/CT图像的灰度化、平滑和分割三项内容[4]进行预处理。
2.1.1图像灰度化 图像灰度化是将彩色图像转换成像素值在0~255之间的图像,即将其转换成不同灰度程度的图像,从而降低色彩对目标肿瘤最终成像的干扰。目前图像灰度化方法主要有四种:
分量法:
Gray=B;Gray=G;Gray=R
(1)
其中,Gray为转换后的灰度图像的灰度值。R、G、B为彩色图的三个分量。
最大值法:
Gray=max(B+G+R)
(2)
平均值法:
Gray=(B+G+R)/3
(3)
加权平均法:
Gray= 0.11B+ 0.59G+ 0.3R
(4)
2.1.2图像平滑 图像平滑是去除图像中的噪点,提高清晰度。本研究选择小波去噪的方法进行图像平滑处理,首先对图像信号进行小波分解,然后对分解结果进行阈值量化,最后利用二维小波再次重新构建图像信号,得到去噪后的图像[5]。
2.1.3图像分割 肺部肿瘤图像分割是将图像划分为若干个小区域,从而得到精确的肿瘤轮廓图,这是图像特征提取前最关键的一步。目前,对图像分割有基于EM算法、基于阈值以及基于边缘检测的图像分割等[6]。本研究针对PET/CT图像的特点,采用基于平均密度投影和平移高斯模型的肺部肿瘤图像分割新算法,算法基本流程见图1。
图1 PET/CT图像分割基本流程Fig.1 Basic flow of PET/CT image segmentation
2.2 PET/CT图像特征提取
PET/CT图像特征提取是肺部肿瘤诊断的关键,直接影响肺部肿瘤图像分类器的分类性能。需要提取的PET/CT图像特征包括灰度、形态特征和纹理等,具体过程见图2。
图2 PET/CT图像特征Fig. 2 PET/CT images features
图2中,各参数从不同角度描述了PET/CT图像的特征,但这些参数的量纲并不一致,因此,要进行特征归一化处理将特征参数的取值范围映射到预先设定的范围内。本研究使用高斯归一化方法将特征参数的取值范围映射到[-1,1]区间内[7]。
2.3 基于随机森林算法的肺部肿瘤识别
随机森林建立后,向其中输入新的样本,将该样本特征与随机森林中每棵决策树所代表的类别特征进行对比,判断新样本的类别,被选择最多的类别即为该样本的类别[8]。
建立决策树在行采样时,采用有放回的方式,以避免出现过拟合现象。即采集的训练样本中一部分是重复的,而列采样需从M个特征中选择前m个(m 图3 随机森林算法运行流程Fig. 3 Random forests operation process 利用随机森林算法进行肺部肿瘤识别诊断,分为训练与应用分类[10-11]两个阶段。训练过程如下: 输入:样本数为n,类别为M的肺部肿瘤PET/CT图像训练集。 输出:分类模型。 将肺部肿瘤PET/CT图像训练样本分为两类:多数类Z1和少数类Z2。 For每个基分类器j=1:S。 Step1:从多数类Z1中抽出与Z2相同数量的样本,并与Z2混合,形成新的样本集; Step2:训练随机森林; Step3:计算分类置信度; Step4:当基分类器对任意样本Zi正确分类时,Pij=1;当基分类器对任意样本Zi错误分类时,Pij=-1。 end 根据分类器损失函数,优化求解,求出分类器权重w。 应用分类过程如下: 输入:待分类肺部肿瘤PET/CT图像样本。 输出:肺部肿瘤PET/CT图像样本类别。 For每个待分类样本。 Step1:利用训练好的S个分类器进行种类识别[12],得到类别概率值; Step2:对得到的各个类别概率值进行加权求和,选择最大概率值所对应的类作为待测样本的所属类别。 end 利用上述过程判断肺部肿瘤良恶性。当肿瘤为恶性时判读属于哪一类别,实现基于随机森林的肺部肿瘤PET/CT计算机辅助诊断方法的设计。 从某医院选出2014~2018年的68 956例肺部肿瘤患者,其中男性42 010例,女性26 946例。良性肺部肿瘤15 868例,其中男性占42.4%,女性占57.6%,有结构瘤、纤维瘤等。恶性肿瘤53 000例,其中男性占65.2%,女性占34.8%,有鳞癌、腺癌、原位腺癌、大细胞癌、大细胞神经内分泌肿瘤、小细胞肺癌等。其余肺部疾病88例,包括肺结核40例、肺部感染48例。 除影像数据外,本研究使用软件Matlab2012b搭建自编码网络模型。在前期准备工作中,先对PET/CT图像进行灰度化、去除噪声、图像分割等预处理。 3.2.1灰度化图像 以某肺部肿瘤PET/CT图像为例,灰度化结果见图4。 图4 肺部肿瘤PET/CT图像灰度化Fig. 4 Graying the lung tumor PET/CT image 3.2.2图像去噪 将上述肺部肿瘤PET/CT进行去噪处理,去噪结果见图5。 图5 肺部肿瘤PET/CT图像去噪Fig. 5 Denoising the lung tumor PET/CT image 3.2.3图像分割 将上述肺部肿瘤PET/CT图像进行图像病变组织放大分割,结果见图6。 图6 肺部肿瘤PET/CT图像分割Fig. 6 Segmentation of lung tumor PET/CT image 部分肺部肿瘤PET/CT图像特征提取数据见表1。 表1 部分肺部肿瘤PET/CT图像特征提取数据Table 1 Feature extraction data of partial lung tumor PET/CT image 3.4.1评价指标 ROC是描述真正率(TPR)和假正率(FPR)关系的曲线,ROC曲线越接近左上角的1点,诊断准确率越高,若越接近右下角的1点,诊断准确率越低;此外,与坐标图形边界围成的面积,即曲线下面积(AUC)越大,说明该方法的准确性越高。 3.4.2诊断结果 ROC诊断结果见图7。 图7 ROCFig. 7 ROC 由图7可知,代表本研究方法的A点最接近左上角的1点,且其所占用的AUC为0.854,数值最大。其次为代表基于神经网络的辅助诊断方法的B点,然后是代表基于支持向量机的辅助诊断的D点,最后是代表基于聚类分析的辅助诊断方法的C点,说明本研究方法的诊断结果更为精确。 肺部肿瘤的早期诊断可以提高其治愈率,但目前在早期诊断出肺部肿瘤的概率只有30%左右。针对该问题,本研究提出一种基于随机森林的肺部肿瘤PET/CT图像计算机辅助诊断方法,该方法经ROC测试AUC达0.854,有效提高了诊断准确性,达到了预期目标。3 仿真实验分析
3.1 实验数据
3.2 图像处理
3.3 图像特征提取
3.4 评价指标与诊断结果分析
4 结束语