基于改进型V-net卷积神经网络的胃壁分割方法

2021-11-04赵呈陆方志军高永彬王海玲卫子然蔡清萍

中国医学物理学杂志 2021年10期

赵呈陆，方志军，高永彬，王海玲，卫子然，蔡清萍

1.上海工程技术大学电子电气工程学院，上海201620；2.上海长征医院普外二科，上海200003

前言

胃癌是我国第二大癌症，一直是困扰中国医学界的重大疾病之一［1］。胃癌TNM（Tumor Node Metastasis）分期是现阶段分析肿瘤侵犯程度的重要手段［2-3］。而TNM 分期中的T（Tumor）分期是TNM分期的关键标准，T 分期的结果将直接影响医生对患者手术的可行性评估与手术的方案制定，更决定着患者术后的存活率。通常情况下，医院评估患者的胃癌情况要依照专家组对患者的医学影像结果分析评估，综合胃镜影像［4］、增强造影CT［5］等信息进行科学评估，最终给出一个初步的分期结果，并根据分期结果制定手术方案。术后重新对患者的残留组织进行解剖并给出最终分期结果。而这些流程过于繁琐，人工智能领域的快速发展为快速准确地给出辅助诊断结果提供了新思路。T 分期的依据是肿瘤侵犯胃壁的深度，通过CT 影像分割出胃壁与肿瘤是利用人工智能技术实现T分期的关键一步，本文对上腹部CT影像中的胃壁分割展开研究。

上腹部CT 图像实现胃壁分割面临以下问题：（1）医学影像的数据比较少，尤其是CT 图像，可以获取到的有效数据更是有限，如果网络的结构模型过于复杂、参数过多，就会导致训练的模型过拟合，从而造成结果偏差。而传统的数据增强是在图像的基础上做旋转、平移等操作，CT图像中器官的相对位置是固定的，增强之后的数据已经不在CT 图像的范畴之内了。（2）CT 图像中语义信息比较简单，图像结构单一，各器官的位置相对固定，器官位置会随着CT层次的变化而发生相对位置偏移，但根据层次信息仍然有规律可循。（3）图像对比度低，器官与器官之间的CT 值被平均化，因此需要更好的网络框架对数据的特征进行提取。

针对上述问题本文主要贡献如下：（1）针对数据量较少的问题，本文采用在训练集中加入噪声的方法对训练集进行扩充，扩充后的数据不改变原始的胃壁相对位置。（2）现阶段CT 图像分割方法均采用将CT 图像转化为普通灰度图像的方法进行训练，使得图像特征信息丢失严重。尤其是转化为二维图像后，丢失掉了CT 图像各层次间的信息。本文使用可视化分割和注册工具包（The Insight Segmentation and Registration Toolkit, ITK）［6］保留了原始CT 图像的CT值，将CT值做成256×256×32的矩阵块，极大保留了数据的原始特征。（3）提出正则化水平集损失函数，并在改进的V-net 网络框架上，首次实现上腹部CT影像的胃壁区域分割，将原始V-net在胃壁的分割精度提高了6%。

1 相关工作

分割是人工智能理解CT图像信息的基础环节，也是计算机辅助诊断技术的重要任务。分割根据图像中的像素信息以及分割目标中的像素划分为前景和背景。而对于CT图像而言，每张CT图像包含了人体各器官因为对X光的反射密度不同而产生的影像，并将其转化为-1 000～1 000的CT值。使得本文通过利用CT值的信息来实现器官的分割任务成为可能。

相对于传统图像而言CT 图像的处理具有一定的难度，一方面要保留原始数据的数据量不丢失，另一方面还要统一与RGB 图像之间的位数关系（例如CT 值转8 位的像素值）方便神经网络处理。现阶段医学图像分割领域有很多成熟的网络，如V-net 采用全卷积网络的形式，不添加任何连接层即可实现图像的分割［7］。Shen 等［8］利用V-net 在CT 影像上实现心脏动脉分割并达到了90%的分割精度，Hu 等［9］的U-net肿瘤分割均采用神经网络的方法取得了较好的分割效果。而为了进一步提高分割的准确度和泛用性，CE-net［10］、CLCI-net［11］为了解决MRI图像分割中下采样过程图像梯度消失的问题，分别将残差模块和深度连接层的思想融入到全卷积神经网络中去。与CE-net、CLCI-net采用的MRI数据不同的是，CT图像具有更低的对比度，多器官在扫描成像时产生容积效应而引起器官边缘模糊。尤其是胃壁区域，边缘特征与总体特征均不明显，加之胃壁厚度在整个图像中的比例很小，这无疑对单纯改变网络结构来实现胃壁分割造成了较大的挑战。

2 本文提出方法

本文的方法首先通过数据增强的方法扩充训练集，然后送入搭建好的卷积神经网络中训练，保留训练的模型参数。测试时，将模型参数导入原始神经网络框架，将测试集输入神经网络获取预测结果，最后通过Dice参数和交并比（Intersection Over Union,IOU）评估测试的结果。

2.1 数据增强

本文选用的学习框架基于3D V-net 全卷积神经网络，由于CT 图像是有序的图像序列，普通的二维卷积网络只是从单张图像中提取特征信息。而3D网络可以同时将有序的CT 图像进行多层卷积，可以捕捉到各层次胃壁结构之间的相关特征信息。本网络的输入为经过人工筛选后选取的52位胃癌患者的含有胃壁特征信息的CT 图像，共包含1 664 张有效数据。通过特殊处理，每组数据做成一个256×256×32的图像块。由于数据量相对较少，为了能够提高训练效率，抑制过拟合，本文采用数据增强的方法来扩充一部分数据。

普通RGB 图像的处理方法往往采用数据增强的方式来扩充数据，例如旋转、裁剪、放射变换等。但是这些方法并不适用于本研究领域，主要原因是胃壁一般在上腹部的上方位置，胃壁的规则不一。CT图像往往是逐层扫描获得的，在扫描的过程中获取到的图像层次间具有一定的规律性，一般前几层的胃壁总是出现在下方（贲门的位置），随着扫描的进行，胃壁会由右下方逐渐变换到右上方（幽门和胃底的位置）。而数据增强的方法产生的图像已经不属于胃部CT 的图像特征领域。本文采用加入随机噪声的方法产生新的图像，能更好地模拟原始的CT 图像，在扩充数据的同时能更好地抑制过拟合。为了不破坏图像的原始结构，本文采用插入线性随机扰动的方法，使得像素值在一定范围内变化，插值公式如下：

其中，Pi'为插入的像素值，Pi为当前像素值。γ1、γ2为随机生成的0～1之间的浮点数，加入噪声后生成的图像如图1所示。

图1 数据加入噪声前后对比Fig.1 Comparison of data before and after adding noise

从图1可以看出，图像在增加噪声后，没有破坏原始图像的结构与特征。本文通过上述方法对原始数据进行翻倍扩充，最终获得74组训练数据，每组数据含有32 张CT 图像；15 组测试数据，每组有32 张CT图像。

2.2 改进型V-net网络框架

本文采用上腹部CT 图像，从食管开始扫描，向下每隔5 mm 进行一次图像采集。因此CT 图像序列可以看作是一个离散的三维图像。每一层图像之间具有一定的空间关系，目前的图像分割网络在形式上均是编码-解码的方式，也称为下采样编码再上采样解码，但是传统的二维卷积网络在编码时会丢失大量的空间域信息，因此本文选用的是3D V-net 全卷积神经网络，3D 卷积神经网络能够同时对32 层的CT图像进行卷积，在学习图像特征的同时，能够学习胃壁在各层次之间的位置变化信息。

3D卷积神经网络是一个含有庞大参数体系的网络模型，为了使模型更好地发挥其性能，本文方法的整体流程如图2所示。

图2 改进V-net模型训练原理图Fig.2 Schematic diagram of improved V-net model training

下采样过程中，高层特征图包含语义类别信息，低层特征图保留图像细节信息。卷积神经网络在下采样的过程中，会丢掉重要的类别信息。随着下采样过程的进行，图像梯度逐渐消失，为了解决该问题，并且保留高层图像的语义信息，本文将高层的卷积结果通过连接层送入到上采样过程，但是完全送入上采样过程无疑增加了训练难度，本文通过全局平均权重模块将下采样过程中的特征图通过乘以一定的权重值连接到上采样过程中，具体做法是首先将下采样过程中前4层输出的特征图进行平均池化，然后通过Softmax 函数计算出对应的权重值。计算权重的公式如下：

其中，Fi表示第i层的卷积输出结果。采用全局平均池化（Global Average Pooling,GAP）的目的是为了消除下采样过程中因尺度不同对权重值产生的影响，采用全局平均权重模块（Global Average Weight,GAW）有效利用多尺度的特征信息提高了深度学习的学习效率。权重获取过程如图3所示。

图3 全局平均权重（GAW）模块Fig.3 Global average weight module

2.3 损失函数

传统的医学图像分割网络一般采用交叉熵［12］（Cross Entropy, CE）或者Dice coefficient 损失函数（Dice loss）。这些损失函数应用于很多领域，如Shen 等［8］在CT 冠脉分割领域利用Dice loss 取得了较好的结果。但CE或者Dice loss在本研究的胃壁分割中效果均不理想。原因是上述损失函数在尚未获得准确的胃壁边缘时就已经陷入了局部最优。

水平集损失函数（LS loss）是Kim 等［13］在2019年提出的一种基于水平集方法的损失函数［14］，第一次将水平集方法应用在深度学习网络的损失函数中。LS loss定义为：

其中，μ≥0,v≥0,λ1,λ2> 0 为定值参数，Ω 是整个图像区域，φ是水平集函数，c1、c2 是φ= 0 曲线内、外各自像素平均值。Length(φ)和Area(φ)分别表示曲线长度和面积正则化项，μ0(x,y)为图像中(x,y)处的像素值。H为可微分的阶跃函数，其中α为超参数，用于提高函数的梯度，实验中设置为2.5。

LS loss 的思想是首先利用阶跃函数将预测结果和Ground truth 的外壁边缘以内全部置1，边缘外部置0，在计算损失时，与预测结果和Ground Truth相乘然后累加求和计算损失，取反后再执行同样的操作。这样做的目的是给边缘加足够的权重，这种损失函数适用于单外边缘物体的分割，不适用于胃壁这种内外双边缘物体的分割。本文在水平集的基础上，提出了一种正则化水平集损失函数（LSR loss），可以通过LS loss 优化边缘的同时，通过正则化来约束胃壁的内部细节特征，较好地发挥了水平集方法和深度学习方法各自的优点。LSR loss定义为：

其中，Ω 表示整个图像区域，GI(x,y)表示Ground Truth 中的像素值，φ(x,y)表示网络预测出的图像的像素值。其中：

当神经网络的预测值φ(x,y)与胃壁的对应位置越精确时，cl1、cl2的值会越接近1，那么Ground Truth与其做差就会相当于取反，再与预测值φ(x,y)对应相乘就会接近于0。但是当胃壁边界有误差时，该损失值会非常的大，因此本文添加λ1、λ2来约束该损失函数的大小，使其归一化。实验时，由于胃壁边缘权重大，H(φ(x,y))会将预测结果中接近0的像素点置1，导致内部非胃壁区域误判为1，因此本文在损失函数最后添加了L2正则化项，来约束内部的预测损失，并用参数λ3来约束正则项的大小。

本文提出的损失函数继承了传统水平集函数良好的边缘优化特性，又很好的抑制了过拟合现象。这一方法很好的解决了胃壁外边缘损失的问题，同时也更好的降低了多器官的容积效应对分割结果的影响。后面的实验中也证实了使用该损失函数的方法要优于单独使用水平集损失函数方法。

2.4 评估指标

本文采用的评估指标是Dice 系数和IOU。其中Dice 系数通过计算预测图像与Ground Truth 之间的匹配度来比较不同分割方法的精确度。IOU 则比较预测图像与Ground Truth 之间的交集和并集的比值。Dice 系数和IOU 值的范围都在0～1 之间，数值越高，证明分割的精度越高，计算公式分别如下：

其中，YG代表Ground Truth，Yp代表神经网络输出的预测值。

3 实验

3.1 实验平台与数据集

实验环境：ubuntu16.04 操作系统，英特尔Xeon（至强）E5-2678 v3 处理器，32 GB 内存，Nvidia GeForce GTX 1080 Ti显卡，实验网络使用的Adam优化，初始学习率为0.000 01。训练2 000个epoch。

数据来自长征医院医学影像组，包含52位胃癌患者的医学诊断图像，共计1 664张包含胃壁信息的CT数据。扩充后，74组训练数据作为训练集，15组作为测试集。每组数据由32张连续大小为256×256像素的CT图像组成。

本实验获取的上腹部CT 图像有4 个扫描周期：门静脉期、动脉期、平衡期、延迟期。动脉期主动脉由于静脉注射的高密度造影剂通过心脏左心室流入动脉，使得动脉密度很高，在CT 上、相对于其他区域显现出较高亮度。脾脏呈花斑样，肝动脉有明显边界，肝脏一般没有强化。各器官在动脉期由于造影剂尚未完全到达各器官内血管，胃周动脉会有不均匀强化现象［15］。动脉晚期门静脉期可以有密度稍高，下腔静脉及肝静脉没有显示密度升高，肾脏显示皮质强化明显，髓质没有强化。门静脉期是门静脉血管充盈显影期，此时肝脏由于主要由门静脉供血，而造成肝脏增强，这个时期看门静脉比较清晰。平衡期是一定时间后血管都已充盈显影，这个时期的整体腹部血管系统增强显影。延迟期是影像增强后，随着时间推移，血管内造影剂持续通过肾脏过滤回流膀胱导致造影剂明显减少的时期。但如果有肿瘤等富血管组织，由于肿瘤内血管混杂，其内的造影剂衰退比较慢，延迟期肿瘤区域部分造影剂残留，形成相对高密度区域。充分考虑各时期的特点，本实验选取了动脉期作为胃壁分割的重要时期。主要考虑到动脉期胃周动脉不均匀强化，使得胃壁和肿瘤与其他组织区域亮度不一致，利用上述方法从动脉期胃部图像分割出胃壁，可以获得更好的效果。

3.2 实验结果

本实验在本文的数据集之上，分别在不同的网络上实验并分析，实验结果如图4所示。本文的方法较好的保留了肿瘤区域和胃壁褶皱区域，相对于其他方法也有一定的优势。其中V-net分割方法误将水识别为胃壁区域，导致分割效果较差，外边缘的效果相对于Ground Truth 以及本文的方法也相对差一些。CE-net 的边缘效果较好，但是个别位置胃壁有缺损，效果相对于本文的方法也略差。本文的方法比较接近Ground Truth，但是肿瘤区域相对于Ground Truth略厚，还是没有达到很高的精度，有一定的提升空间。而本文的方法，外边缘由于损失函数计算边缘的权重较大，相对于其他方法有一定的优势，整体分割结果也相对较好。

图4 本文方法胃壁分割的效果展示Fig.4 Results of gastric wall segmentation

评估指标的结果如表1所示。从表1中可以看出，本文网络结构平均Dice相对于采用LS loss的V-net分割结果提升了6%，相对于最新的CE-net 和Dense U-net 也都有一定的优势，其中相对于CE-net 提升了2.7%，相对于Dense U-net提升了3.1%。

表1 不同网络结构分割结果对比Tab.1 Comparison of segmentation results obtained by different network structures

3.3 消融实验

为了验证各模型的功能及作用，本文采用消融研究的方法去验证各个模型在框架中起到的作用，本文的消融研究方法在基础框架之上，按图5的顺序逐步添加各个模块，实验结果如图5所示。

其中，图5a是原始的CT影像；图5b是普通的V-net网络加交叉熵损失函数（CE loss）的方法；图5c是V-net网络加LS loss 的分割方法；图5d 是数据扩充后加入LSR loss 的结果；图5e 为在前面的基础之上加入GAW 模块的实验结果；图5f 为Ground Truth。从图5b 可以看出，原始的分割方法很难学到胃壁的边缘信息，从而使得分割效果不佳，在图5c 加入LS loss后，边缘信息比较完整，但是内壁边缘有较严重的过拟合现象，图5d 在扩充数据的同时，加入LSR loss 再加入L2正则化后，胃壁内边缘开始有所增强，补全了单独使用LS loss 学习导致的胃壁缺失部分，但是在优化的同时，胃壁出现了缺损。最后图5e 在加入GAW 模块后，缺失有所改善。通过对比，可以发现，本文提出的方法很好的实现了胃壁分割。而水平集损失函数对外边缘的区域优化明显。

图5 消融实验结果对比Fig.5 Comparison of ablation results with ground truth

消融分析的具体实验数据见表2。从表2可以看出，各模块对效果都有一定的提升，尤其是数据扩充后加入LSR loss，相对于只加入LS loss平均Dice提高了4%。最后加入GAW模块也有1.9%的提升。

表2 消融分析Tab.2 Ablation analysis

4 结束语

通过上述实验数据对比，本文提出的方法在胃壁分割领域取得了较高的分割精度，可完整的保留胃壁边缘与肿瘤信息，并且能够在一定程度上识别胃壁褶皱区域。本文提出的方法较好的保留了原始CT图像的信息，很好的解决了数据量较少的问题，引用GAW 模块很好的解决了下采样过程的类别信息损失问题，采用正则化损失函数更好的保留了胃壁的边缘信息并很好的抑制了过拟合。本文的方法为胃癌肿瘤分期研究奠定了良好的基础。但是本文的方法中参数和运算复杂度略高于其它方法，主要是因为本文采用3D 卷积以及更复杂的损失函数，因此本文的方法还有进一步的优化空间。因此，我们还会在此基础上深入研究，找到更好的方法，并下一步计划实现胃癌T 分期，为中国医疗事业贡献出绵薄之力。