一种改进三维卷积模型的假阳性肺部结节筛除方法

2022-04-13杨友良孟文龙张建舒

现代电子技术 2022年7期

杨友良，孟文龙，张建舒，陈波

（华北理工大学电气工程学院，河北唐山 063210）

0 引言

近年来，社会发展不断进步，地球的生态环境却不断恶化。吸烟、由于职业的原因经常接触致癌因子以及空气污染等原因都会使肺癌发生的危险性增加。根据世界卫生组织发布的《全球癌症报告》与中华医学会关于肿瘤学的年会报告给出的有关数据来看，肺癌的发病人数在全球的恶性肿瘤患者中约占19%，居于首位；全球每年新增肺癌患者大约为180万人，其中大约160万人因治疗无效而死亡，死亡率高达88%。我国每年肺癌患者的新增人数约占世界肺癌患者新增人数的30%。根据临床医学的经验，如果在早期就能诊断出肺癌并且获得及早的治疗，患者的生存几率将会得到大幅度的提高。由于在肺癌早期患者的症状不明显，因此很难被察觉到。癌细胞发生扩散转移之后，患者才会感觉到明显的症状，此时患者已经是肺癌晚期阶段，错过了治疗的最佳时间点，所以早发现早治疗对肺癌患者具有重大意义。

对肺结节的检测分为两个步骤，即检测候选结节及在候选结节中去除假阳性结节。候选结节检测是在不考虑假阳性的情况下尽可能地将肺部CT图像中的疑似结节全部提取出来。假阳性肺结节的筛除直接影响了肺结节检测算法的准确度。通过第一步检测所产生的肺结节候选区域中会存在着大量的非结节，称之为假阳性结节。筛除假阳性结节主要分为两个关键步骤：首先是对真阳性肺结节进行特征提取；然后再对提取出来的特征进行分类。特征提取的方法分为基于传统机器学习的特征提取和基于深度卷积神经网络提取两种方法。

将深度学习引入到对图像的特征提取中，可以更准确地对图像特征进行提取。卷积神经网络（Convolutional Neural Network，CNN）是深度学习中最普遍也是最关键的一个训练网络，自从卷积神经网络的概念被提出以后，国内外学者将卷积神经网络应用到图像特征提取中的热情日益高涨。卷积神经网络对肺结节特征的提取过程是：将肺结节的图片直接传送到卷积神经网络模型中，通过网络隐含层的自主学习将肺结节主要特征提取出来。文献[3]基于OverFeat算法对疑似肺结节的轴向面图像、二维矢状面图像和冠状面图像进行训练，提取到了4 096个维度特征作为支持向量机的输入对其进行分类。文献[4]提出一种基于多视角二维卷积网络实现假阳性结节的减少，该方法通过多角度切割二维切片从而获取到更丰富的结节特征。文献[5]采用一种三维卷积神经网络对肺结节进行扫描以降低假阳性的新方法，该网络的训练样本采用三维图像可以提取到更多的数据结构，提出了一种较为简单且有效的多层次背景信息编码策略。实验结果证明，对于小尺度肺结节，采用这种多层次背景信息整合到三维卷积神经网络中的检测方法更为有效。

1 基础理论

1.1 三维卷积神经网络

目前，卷积神经网络的应用范围越来越广阔，特别是在图像处理领域。因为卷积运算为二维运算，只能针对静态图像进行分类识别，因此，科研人员通过设计改进，基于三维卷积核构建出了三维卷积神经网络，其优势在于三维卷积核和三维池化层可以将包含时间在内的特征信息提取出来。

3D CNN与2D CNN都由输入层、卷积层、池化层、全连接层和输出层组成；池化层和卷积层交替设置；全连接层设置在输出层之前，在结构上较为相似。只不过3D CNN除了可以利用平面上的纹理、像素以及形状等特征，还可以利用三维图像中的时间信息、空间信息和上下文关联信息等多重特征，并且卷积层和池化层的输入、输出都是三维的特征体。两种卷积操作如图1所示。

图1 三维卷积与二维卷积操作对比

1.2 三维卷积层

三维卷积常用于医学图像领域，三维卷积与二维卷积的运算大致相同，只不过三维卷积操作中增加了时间维度，提取到了视域的信息。三维卷积操作的输入数据是多个连续帧构成的立方体，和二维卷积相同的是，每一个三维卷积核只可以在输入数据中提取到一种特征，如果想得到多种不同的特征图必须使用多个不同的卷积核。三维卷积核的卷积为：

式中：为激活函数；为可加性偏置；，，代表三维卷积核三个维度的大小；为上一层第个特征图和特征图上空间坐标为(,,)位置上的权值；代表特征图上对应的输出。

1.3 三维池化层

三维卷积层对三维模型进行卷积操作之后网络中的数据量会剧增，因此研究人员将池化区域从二维空间扩展到三维空间，池化范围从二维平面扩展到三维立体。这样做的目的是为了减少模型中的网络参数。三维池化也同样包括平均池化和最大池化，最大池化的计算公式为：

式中：为输入的三维向量；代表经过最大池化操作后的输出；，，分别代表三个方向上的采样步长。通过三维池化对三维卷积后的数据进行降维，节省了计算时间，还提升了整个模型的鲁棒性。

1.4 空洞卷积

在进行图像分割时有时会出现扩大感受野而造成特征信息丢失的现象发生，为了解决此问题，提出了空洞卷积的概念。常见的图像分割算法通常使用池化层和卷积层来增加感受野，但是在增大感受野的同时也缩小了特征图尺寸，然后再利用上采样还原图像尺寸，特征图缩小再放大的过程造成了精度上的损失，因此需要一种操作可以在增加感受野的同时保持特征图的尺寸不变，从而代替下采样和上采样操作。

不同于正常的卷积，空洞卷积引入了一个称为“扩张率（Dilation Rate）”的超参数（Hyper-parameter），该参数定义了卷积核处理数据时各值的间距。扩张率也称为空洞数（Hole Size）。如图2a）为普通卷积，图2b）是扩张率为2的空洞卷积，空洞卷积相比普通卷积并无太大区别，二者学习的参数数量是一致的，但是因为引入了扩张率，空洞卷积中加入了空洞间隔，因此空洞卷积能获得更大的感受野并且特征图的分辨率不会随着感受野的增大而减小。

图2 普通3×3卷积与3×3的空洞卷积

2 基于3D CNN假阳性肺结节筛除

本节提出一种基于3D CNN网络的假阳性筛选方法，使用三维网络模型避免了对三维数据进行特征提取时出现空间信息损失的现象；由于网络输入数据的尺寸较小，通过池化操作在增大感受野的同时伴随着分辨率的降低特征图的尺寸也随之减小。肺结节作为正样本，本身形态尺寸较小，特征较为稀少，因此引入空洞卷积代替池化操作，不仅可以扩大神经元的感受野，并且可以保留内部数据的空间结构，尽可能多地获取到肺结节的相关特征。

本节建立了一个基于3D CNN的肺结节假阳性剔除网络模型，该网络模型的主要任务是对输入的三维候选肺结节进行一个二分类，在网络模型的下采样阶段提取数据特征进行学习，从而实现分类任务，通过引入空洞卷积操作代替池化操作来保证在特征图尺寸不至于过小的情况下增大网络模型的感受野。网络结构如图3所示，其中C为卷积层，DC为空洞卷积层，P为池化层，FC为全连接层。

2002年以来，政府对石门桂花村进行了规划和开发，在保持乡村特色的基础上，突出生态休闲。2003年9月底重点建成“古桂观赏”、“休闲娱乐”、“餐饮服务”三大区块。2005 年，结合“全面小康建设示范村”创建和当地良好的生态环境，建设生态度假村，创建“农家乐”。二期投入200万元，景区面积扩大一倍。2011年石门桂花村第三期建设，投入资金500多万元，建成占地51.3亩的生态桂花园。同年规模较大的为桂花酒家（石门桂花村农家乐餐饮企业目前有7家），投资150多万元在原桂缘草堂的基础上进行改造，进一步完善了服务设施，增加了乡村文化元素，确保了石门桂花村特有的乡村气息。

图3 3D CNN网络模型

针对本文所提出的基于3D CNN模型肺结节检测网络，实现步骤为：

1）本文将3D CNN卷积神经网络模型的原始输入像素尺寸16×112×112×3改变为36×36×36×1，这样使得3D CNN卷积神经网络模型在整体的图片上进行窗口滑动识别的同时进行定位，将一个复杂的定位问题转化为识别和定位同步进行的问题。同时，使用小像素尺寸的图片作为输入也极大地提高了定位的准确性和模型的运算效率。

2）将输入的图像依次进行两次卷积操作，对应的卷积核尺寸为3×3×3，且通道数为32，然后在后续的3D卷积过程中，考虑到在进行特征提取时会丢失相应的信息，因此将部分池化层由空洞卷积和普通卷积替换，其中空洞卷积的扩张率为2，二者卷积核大小均为2×2×2，通道数为32，再接入dropout层防止过拟合。最终经过池化层和全连接层输出二分类结果。

3 实验

3.1 实验环境与实验数据

本文实验环境：操作系统为Ubuntu 16.04，处理器为IntelXeonSilver 4114 CPU，32 GB内存，NVIDIA GeForce GTX 1080Ti显卡，11 GB显存。深度学习框架为TensorFlow，所使用的编译语言为Python。

本文使用公开的LUNA16数据集作为实验数据。LUNA16数据集将LIDC-IDRI数据集中切片厚度大于2.5 mm的CT图像以及切片像素不一致或不完整的CT图像去掉，形成了包含888例胸部CT薄层平扫图像的数据集，且分为10个子集。

3.2 评价指标

在肺结节检测任务中，如果CT图像中存在肺结节则认为是阳性（Positive），反之为阴性（Negative）。在实验中对CT检测结果为肺结节且同时在数据集中也被标记为结节则称为真阳性（TP）；若在数据集中未标记为结节则称为假阳性（FP）；在实验结果检测为非结节且实际也为非结节则表示为真阴性（TN）；实验结果表示为非结节实际真结节则称为假阴性（FN）。

假阳性率（False Positive Rate，FPR）又称为误诊率，是指在实验检测结果显示为肺结节实际不是结节的数量占数据集中标注为非结节数量的比例。

真阴性率（True Negative Rate，TNR）也被称为特异性，表示在实验检测结果中显示为非结节并且在数据集中也被标注为非结节的数量占数据集中所有标注为非结节数量的比例。

假阴性率（False Negative Rate，FNR）即漏诊率，表示在实验检测结果显示为非结节在数据集中被标记为结节的数量占数据集中标记为结节数量的比例。

ROC曲线即接受者操作特征曲线，用来展示二分类器的诊断能力随着鉴别阈值的变化而变化。ROC曲线是通过绘制真阳性率和不同阈值设置下的假阳性率的关系而得到的，AUC是ROC曲线与坐标横轴围成的面积，归一化单位后，AUC面积可以表示分类器正确分类正样本多于正确分类负样本的概率，AUC值越大说明算法能够更好地分类正样本。

4 结论

利用3D CNN进行假阳性结节筛除，3D CNN模型预测结果如表1，图4所示。

图4 ROC曲线图

表1 预测结果

综上可知：ROC曲线非常靠近左上角，说明模型能较好地判断结节类型，减少漏诊和误诊。而AUC表示预测的正例置信度大于负例置信度的概率，AUC越大分类效果越好，0.967的AUC值说明模型对正例和负例的分类能力较好。特异性值（TNR）很大，说明对假阳性的过滤能力强，能够有效地避免误检，0.88的敏感度值（TPR）说明模型漏检的可能性也很小。实验表明提出的三维卷积神经网络适用于降低肺结节检测中的假阳性率。

注：本文通讯作者为孟文龙。