基于深度学习的多任务结直肠癌分析方法研究

2023-03-11琚春华张双竹

计算机仿真 2023年1期

琚春华，张双竹

(1. 浙江工商大学电子商务与商务大数据技术工程实验室，浙江杭州 310018；2. 浙江工商大学工商管理学院，浙江杭州 310018)

1 引言

直肠癌是全世界常见的恶性肿瘤，在2020年之前成为癌症死亡率的第二大诱因[1]。此外，全世界每年至少诊断出3000000例直肠癌病例[2]。去年中国有480，000例新病例且死亡率超过30%，这间接增加了肺癌的发病率和死亡率[3]。

传统上，早期的临床检测和诊断方法(如隐血检查、结肠镜检查和医学成像)，可以为直肠癌的早期诊断提供理想的途径，同时可在疾病建立后有效地提高患者的生存率，但是血液和结肠镜检查不能为癌的形态提供直接途径。计算机断层扫描(CT)是进行直肠癌诊断的有效方法之一，CT提供了一种准确而安全的肿瘤区域检查方法，而且患者仅需口服摄入碘化粪便标记剂即可增强成像所需的液体，并且不需要严格的结肠物理清洗。基于神经网络的深度学习方法以其高精度和可扩展性而备受关注，特别是在医学成像、配准和重建领域的应用[4]。深度卷积神经元网络(DCNN)在图像分割、目标检测和其它跟踪任务方面均达到了最先进的性能，在癌症区域检测和分割方面也效果显著[5]。

本文主要基于深度学习的直肠癌的肿瘤区域图像提取方法，并提出了一种结合目标检测和图像分割的新的大肠空间掩膜模型区域(ROI)提取方案。在该模型中，作者引入了一种新的空间注意力引导掩膜(SAG-Mask)分支，该分支以与Mask R-CNN相同的方式插入到一级目标检测器中[6-7]，通过使用SAG-Mask分支根据FCOS的输出预测每个ROI的最终分割结果。通过SAG-Mask的使用，可以将焦点集中在肿瘤区域像素上，并抑制肿瘤边缘的信息不足和照明不均。

2 相关研究基础

结肠和直肠是人体消化系统的关键部分，不仅可以吸收矿物质、水和养分，还可以从消化系统的上部释放消化废物。在这些衰变过程中，可以从磁共振成像(MRI)图像序列中提出肿瘤检测和分割方法且具备良好的性能。本文总结了人工智能和医学成像处理在该领域的最新发展。

2.1 目标检测与分割

深度神经网络(DNN)具有更深的架构，可以学习诸如SIFT，GLOG和HOG等更复杂的深度特征。例如R-CNN，Fast-R CNN，Faster-R-CNN等均是标准的两阶段目标检测方法，通过使用额外的子网来生成合适的区域[8]，YOLO通过使用固定网格回归，阶段性检测方法中最具代表性的工作来完成相同的任务。以上方法均实现了比R-CNN更高的性能，并使实时检测相对容易实现[10]。

在过去的几十年中，目标检测和分割方法得到了极大的改进，源自目标检测方法的Mask R-CNN是其中最具代表性的一种[5]。此后，研究人员提出了许多改进Mask R-CNN的方法，并获得了比前者更好的效果，但很少有人同时考虑实例分割速度[11-15]。针对这种情况，Bolya的小组提出了YOLACT，采用了并行结构和轻量级组装过程，基于一级检测框架实现实时实例分割，这种方法弥补了速度和准确性之间的差距[8]。

然而，前述方法中的大多数检测器严重依赖于预定义并且受到超参数调节(例如，宽高比，输入大小，比例等)的影响。针对这一问题，研究人员提出了许多基于无锚、拐角或中心点的新方法，与前者相比具有更好的目标检测性能[14，24]。

2.2 MRI图像序列的自动分割

目前，磁共振成像(MRI)成为直肠癌的主要诊断途径，作为辅助治疗的决策方法，病理学家通常手动提取肿瘤区域，这种划分既费时又费力，通常会导致不同人群之间的差异。因此，对于结直肠肿瘤区域的形状和区域特征，分割和检测成为非常具有挑战性的任务。随着深度学习和图像处理的发展，已经提出了许多新的建议。Trebeschi的小组提出了一种基于深度学习的多模块特征融合方法，用于联合检测和分割肿瘤区域[16，18]。但这些方法中的大多数都没有将实时处理纳入考虑范围。

本文作者提出一种用于结直肠癌肿瘤区域检测和分割的新型框架，通过利用无锚的分割方法，实现了肿瘤区域的检测与分割，同时引入了基于空间注意力机制的掩膜分支，用于FCOS中的组装及预测，最后借助VoVNet结构提高了分割最终的准确性。

通过使用的管道，它可以作为实时肿瘤区域分割的基准，本文贡献如下：

1)介绍了一种简单的无锚关节分割方法，实现了肿瘤区域的检测和分割；

2)插入了空间注意力引起的掩膜分支，用于FCOS中的装箱预测以及分段掩膜k；

3)将VoVNet骨干网用于接收领域，以有效捕获信号且提高质量，并进一步提高最终的准确性和速度。

3 结直肠空间掩膜网络

作者首先介绍了Colos Mask-Net网络的基础-免锚全卷积一级目标检测器(FCOS)；其次，将SAG掩膜合并到FCOS中，作为收缩检测器的分支[14]；最后，选择VoVNetV作为CSM网络的骨干，以提高速度和准确性[17]。

3.1 数据收集

本文收集245例结直肠癌肿瘤MRI图像数据集，并聘请4位医生分别用掩膜和手动标记图像切片作为基准，然后将数据集分为用于网络和预测的训练、测试和验证集。

3.2 卷积一级目标检测(FCOS)

在异物检测任务中，Faster R-CNN，YOLO和其它一级或二级检测器通常使用定义的锚框进行参数调整。作者选择无锚物体检测器FCOS，它可以直接预测特征图的每个级别上标记的4D矢量，通过使用相对简单的训练方案，显着减少了参数数量，并结合了启发式调整协议以达到良好的性能，加快了模型训练阶段的训练和测试速度。由于FCOS的出色性能和良好的效率，本文选择FCOS 作为目标检测器，并在模型中插入空间注意力引导蒙版(SAG-Mask)分支，以构建更快的对象探测器。

3.3 网络架构

图1显示了作者提出的结直肠空间掩膜网络的总体架构。它由三部分组成：①VoVNet和FPN代表特征提取主干；②FCOS框代表可以生成绑定框的对象检测部分；③基于FCOS框生成SAG掩膜。整个网络体系结构由目标和像素级掩码生成部分组成，可以实现肿瘤区域检测和分割的多任务应用。

利用骨干网的功能，FCOS 可以预测边界框。SAM块可以帮助将注意力集中在内容丰富的像素上，但也可以抑制噪声。

3.4 自适应ROI生成

按照第2.3节的规定，以与Mask R-CNN相同的方式从FCOS预测的绑定框生成肿瘤区域掩模，本文选择特征金字塔网络(FPN)模型来预测不同的实体级别特征，通过这种方式，分配了多尺度特征图以对齐每个ROI尺度并获得肿瘤区域的最终ROI，将较大比例分配给高级功能，其它级别相同。最后，使用式(1)来确定MaskR-CNN的FPN中分配的特征图(Pk)。

图1 Colos Mask-Net的体系结构

(1)

其中k0是4和α，h是检测到的ROI的宽度和高度。对于一阶段目标检测任务的情况，对于同一目标，在两阶段方法中，接收场和特征图的方差导致略有变化，此处将特征图分配方法更改为以下等式(2)

k=[kmax-log2Ainput/AROIs]

(2)

其中kmax是FPN骨干中特征图的最后一个等级(本文中的等级7)，Ainput和AROIs是输入图像和ROI区域。在此等式中，根据ROI的比例自适应选择ROI合并的比例输入/ ROI区域。如果k低于最小级别，则将其设置为最小级别，如果ROI大于输入图像的一半，则将其设置为最高特征级别。

3.5 空间注意力引导遮罩

该方法已经应用于许多计算机视觉和自然语言处理任务，因为这种方法可以抑制不必要的深层特征，并帮助网络输出一些导入特征[20-23]。此外，通道关注的注意力旨在跨通道选择一些固定的特征图，而空间关注主要收集信息区域[21，23]。在本文中，采用空间注意力机制来抑制非信息性特征，以便从掩膜中提取有意义的像素。

如图2所示，在这一部分中，采用了空间注意力引导掩膜从ROI生成信息丰富的像素。计算过程总结如下

Asag(Xi)=σ(F3×3(Pmax∘Pavg))

(3)

Xsag=Asag(Xi)⊗Xi

(4)

其中，在等式(3)中，Asag(Xi)∈<1×W×H是空间注意图Xi∈

F1×1，F3×3分别表示1×1和3×3转换层，Favg是全局平均池，WC是全连接层，AeSE是通道注意图，⊗表示逐元素相乘，∘表示逐元素相乘加成。

图2 OSA模块的架构

3.6 骨干网架构

选择源自VoVNet的VoVNetV2作为网络的骨干，通过在“挤压和激发”注意力模型之前添加残差连接来实现。VoVNet可以有选择地抓取各种接受领域，并加快网络主干网的速度，本文选择了VoVNetV2，它能够为VoVNet添加了残余连接和有效挤压激励部分。

残余连接：基于ResNet，VoVNetV2集成了堆叠OSA模块，使得梯度难以向后传播，如图2所示，这种方式可以在培训和测试阶段将每个OSA模块引向端对端的方式，以提高网络性能。

有效挤压激励(eSE)：eSE部分是基本骨干网的一个基本模块—另一个推动力，它是CNN架构已采用的一种代表性方法，可以对特征图建模以增强表示。在此模块中可以学习特定于通道的描述符，通过重塑特征图，使用两个完全连接的层和一个S型函数来突出显示有用的通道。

输入特征图和通道注意图的计算如下

Ach(Xi)=σ(WC(δ(WC/r(Fgap(Xi)))))

(5)

其中，Xi∈

AeSE(Xdiv)=σ(WC(Fgap(Xdiv)))

(6)

Xrefine=AeSE(Xdiv)⊗Xdiv

(7)

其中，Xdiv∈

3.7 网络架构实现细节

本文的Colos Mask-Net基于FCOS对象检测器，将正得分阈值刷新为0.05，以便在训练阶段生成正ROI样本。考虑到Mask R-CNN，本文将FPN从256级通道的3级设置为7级，如2.3节所示。

Colos Mask-Net-Lite：为了加快整个模型的速度，尝试通过减小以下三个部分的大小来设置参数集：骨干、FCOS和掩膜部分。在这三个部分中，选择128个FPN通道，可以减少FPN，FCOS和掩膜头中的3×3转换输出。在骨干部分，VoVNetV2-39简化为VoVNetV2-19，每个阶段具有4个OSA模块。在FCOS中，作者为每个分类任务选择四个具有256个通道的3×3转换层，此外，将盒分支设置为检测任务的中心分支，转换层减少为128个通道以提高性能。最后，还减少了特征提取通道和转换层，最终的掩膜评分部分设置为(2，128)。

训练阶段：在这一部分中，将FCOS中的检测盒数设置为100，然后在训练模板分支中，将得分最高的盒输入到SAG-mask中。在掩膜生成部分中，通过ROI与真实掩膜之间的交集使用标准的Mask R-CNN设置。在训练阶段，按照等式(8)定义每个ROI的损失函数

L=Lcls+Lcenter+Lbox+Lmask

(8)

其中，Lcls是分类损失，Lcenter是中心度损失，Lbox是框回归损失，Lmask是平均二元交叉熵损失，与文献[14]中的一样。本文将输入图像的大小调整为小于800×1333像素的高度，使用随机梯度下降(SGD)对90000次迭代进行Colos Mask-Net训练，每个小批量16幅图像，学习率可变，最终的动量为0.9 ImageNet预先训练的权重在骨干中使用0.0001权重衰减。

推断：在测试阶段，Colos Mask-Net的对象检测器生成50个高得分的结合盒，并送入其掩膜分支，以在每个ROI上生成肿瘤区域。为了提高效率，在本部分中为较短的像素选择600像素的单个比例。

4 结果与讨论

对于网络影响，本文选择了Inter Core i9、32Gb RAM和2080Ti GPU的Ubuntu 14.04环境，该网络基于PyTorch平台、CUDA v10.0和cuDNN v8.0。使用AP掩码作为掩码平均精度AP(在IoU阈值上平均)。并且AP、APM和APL代表不同规模的AP。Colos Mask-Net的一些定性结果如下所示。

实验结果：如图3所示，所提出的Colos mask-Net能够高效，准确地检测出肿瘤区域，将检测结果和分割结果一并列出，结果是每行3例，每例4例切片的肿瘤视图。本文提出的Colos Mask-Net可以使用FCOS来检测肿瘤区域的结合盒，并在黄色结合盒中列出并使用基于绑定框的细分范式生成。

在图4中，详细列出了肿瘤区域，并表明本文Colos Mask-Net可以单独完成多任务肿瘤检测和分割，从该图开始，第三列是FCOS检测结合盒，绿色的掩码是细分结果来自网络的输出。

图3 Colos Mask-Net检测结果

在4个切片中选择一名患者以展示检测和分割结果，第1列是原始图像切片，第2列是手动标签的基本内容，第3列是由FCOS块生成的装订盒，最后一列是使用本文的Colos Mask-Net细分结果。

图4 肿瘤区域检测结果

基础网络选择和比较：提出具有一些传统网络骨干的框架。从带MobileNet的智能计算仪器到大型网络ResNeXt-101，本文选择4级比较。在级别1中，使用VoVNetV2-19和MobileNet V2；在级别2中，选择ResNet-50，VoVNetV1-39和VoVNetV2-39的流行体系结构；在级别3中，使用了更大的网络层，与ResNet-101和VoVNetV1-57相比，本文主干网VoVNetV2-57仍然获得最佳结果。在最后一级中，仍在扩展体系结构的规模，但是该情况下骨干网结果一般。结果列于表1，本文VoVNetV2骨干网在除大型网络(如ResNeXt-101，VoVNetV1-99和VoVNetV2-99)之外的每个级别中均获得最佳结果。与以前的版本VoVNetV1相比，本文骨干网所花费的时间更少，甚至在某些级别上，V2版本也可以得到最好的。

与其它最新方法的比较：为了进一步验证提出的Colos Mask-Net，将本文框架与一些最新的图像分割方法进行了比较[9]。对于大多数方法，使用相同的输入图像大小[640，800]，训练Colos Mask-Net为48epoch。为了公平地进行比较，作者在相同的GPU和计算平台上执行这些模型。

表1 Colos Mask-Net与本文的直肠癌数据集上的其它主干所有模型都以相同的方式训练。推理时间是在相同的NVIDIA GTX 1080Ti GPU上报告的。

表1 基础网络替换比较结果1

表2在结肠直肠癌数据集上使用其它先进技术的Colos Mask-Net，所有模型均以相同的方式进行训练。推理时间是在相同的NVIDIA GTX 1080Ti GPU上报告的。R，M，V2分别代表ResNet，MobileNet和VoVNetV2。

表2 基础网络替换比较结果2

相同的网络骨干网下，本文Colos Mask-Net准确性方面的性能优于AP掩码和APbox，其它结果在表2中显示。由于GPU的限制，作者仅测试了网络的精简版，在表2中，R-101-FPN主干仅用作参考文献中，其它精简版网络主干可以反映Colos Mask-Net的最终性能。

从比较结果可以看出，本文框架的局限性主要由网络规模和数据质量所决定，当面对较小的肿瘤区域时，其精度要比较大区域的精度低。作者还通过使用比中心掩膜(P3)大的功能图(P2)来推测mask R-CNN框架，以便获得更好的特征图。对于未来的研究，还有很大的空间可以改善性能。

5 结论

在本文中，作者提出了一种基于无锚点的单阶段检测和分割框架，通过将空间注意力导向的掩膜分支添加到框架中，实现了直肠癌肿瘤区域的实时检测和分割。同时，作者还采用了新的VoVNetV2主干，以减轻模型的总规模，通过该方式本研究在速度之间取得了很好的平衡并提高了准确性。在未来的工作中，将主要关注基础网络结构的构建，同时也可以将本文研究框架在自然图像数据集中进行应用。