APP下载

基于改进Attention U-Net的胆囊自动分割模型研究

2021-08-18尹梓名孙大运任泰周雷李永盛王广义王传磊曹宏刘颖斌束翌俊

北京生物医学工程 2021年4期
关键词:残差胆囊注意力

尹梓名 孙大运 任泰 周雷 李永盛 王广义王传磊 曹宏 刘颖斌,5 束翌俊

基金项目:国家自然科学基金(31701108、81701749)、上海市2020年度“科技创新行动计划”医学创新研究专项(XHEC-STCSM-2020-040)、上海市人工智能创新发展专项(2019-RGZN-01096)资助

作者单位:1 上海理工大学医疗器械与食品学院(上海 200093) 2 上海交通大学医学院附属新华医院普外科(上海 200092) 3 上海交通大学医学院附属仁济医院胆胰外科(上海 200127) 4 上海市胆道疾病研究重点实验室(上海 200092) 5 癌基因及相关基因国家重点实验室(上海 200127)

6 吉林大学白求恩第一医院肝胆胰外一科(长春 130021)

7 吉林大学中日联谊医院普外科(长春 130033)

通信作者:刘颖斌,E-mail: laoniulyb@163.com;束翌俊,E-mail: shuyijun19881125@163.com

0 引言

胆囊是人体消化系统的重要器官,其长10~15 cm,宽3~5 cm,容量为40~60 mL,呈梨形囊状,可储存和浓缩胆汁。临床中常见的胆囊疾病包括胆囊结石、胆囊炎、胆囊恶性肿瘤等。根据我国不同地区的流行病学调查数据显示,胆囊疾病的患病率从15.87%到24.80%不等[1-3]。胆囊虽小,却是人体的重要器官,一旦发生病变,会严重影响患者之后的生活质量和寿命,如未能及时诊断与治疗,很容易危及生命[4]。

胆囊疾病的诊断需要参考超声、计算机断层扫描(computer tomography,CT)、磁共振(magnetic resonance image,MRI)等医学影像。在阅片过程中,临床医生需要先对胆囊部位进行识别,然后才能对胆囊疾病进行准确的判断。但是由于胆囊这种腔体器官的特殊性——其体积较小且内部包含胆汁、易受到其他脏器挤压而产生形变,使得胆囊病变的识别对于欠缺临床经验的低资质医生来说比较困难,极易发生错漏诊。

近年来,随着人工智能技术的发展,尤其是深度学习技术的不断进步,基于深度学习的医学影像分割技术已在很多医院和科室得到应用,如脑肿瘤的分割[5]、心室分割[6]、肝脏分割[7]等,但对于胆囊部位的分割技术研究还较少。华中科技大学团队[8-9]研究了基于区域增长的胆囊交互式分割方法,该方法基于传统医学影像分割技术,需要使用者手动提取图像特征(如区域增长中种子点的选取),增加了方法的难度。Huang等[10]基于人体解剖学的先验知识,首先通过水平集分割找到人体最大脏器肝脏;其次,根据胆囊被肝脏包裹的解剖学知识,利用肝表面的限定球体和与胆囊最相似的球体为胆囊的位置;最后,以球体为初始函数,采用水平集方法对胆囊进行分割。Lian 等[11]使用全局形态学滤波算法等对胆囊超声图像进行分割。

传统图像分割方法受限于模型自身的建模能力,对图像噪声、图像模糊等干扰因素的鲁棒性有限,难以满足临床实践对分割速度和准确性的要求。随着深度学习方法的兴起,基于深度学习的图像分割方法已经成为业界主流。相对于传统图像分割方法,深度学习可以实现特征的自动提取,降低了人为的干预,可得到更好的分割结果。目前最典型的医学图像深度学习分割网络是2015年提出的一种U型网络结构(U-Net),为后续很多研究提供了思路,在医学图像不同目标的分割任务中均取得了较为理想的结果[12-13]。但是,将U-Net直接用于胆囊的分割提取并未充分利用图像中的多层次细节信息,因此,本文拟在U-Net深度学习图像分割方法的基础上,提出一种基于多尺度融合注意力机制的胆囊CT影像自动分割算法,并与相关方法进行对比分析,从而证实所提出多尺度融合的注意力机制的有效性,进而为胆囊结石疾病的辅助诊断提供帮助。

1 基于多尺度融合注意力机制的Attention U-Net

1.1 U-Net和Attention U-Net

在医学图像的分割任务中,U-Net网络模型[14]因其独特的U型结构和跳跃连接,同时结合了图像中低分辨率和高分辨率的信息,使其在医学影像这种一般具有固定结构和丰富语义的数据中,可以同时提取到图像的浅层和深层信息。另外,由于高质量标注的医学图像的稀缺性,很难获取到大量可供模型训练的数据,但U-Net可以仅使用较少的训练样本,获得较为满意的分割结果,以上特性使得U-Net成为解决医学图像分割任务时的首选模型。

人类大脑在对某一事物做出判断的时候,存在注意力机制(attention mechanism),这使得大脑做出判断的依据不是来源于事物表达的所有信息,而是重点注意某些局部信息。注意力机制的存在使大脑对信息处理的效率得到极大的提升。受人类大脑中注意力机制的启发,在很多基于深度学习的应用场景中也使用了注意力机制,并取得了很好的效果,如:自然语言处理、计算机视觉、机器翻译等领域。有学者尝试将注意力机制应用到图像分割领域,与U-Net进行结合,如Alom等[13]提出Attention U-Net,在U-Net中引入了注意力机制,希望可以使训练的模型更加关注医学影像中的局部位置,其在传统U-Net的基础上,通过在跳跃连接上增加注意力机制,使原本上采样的特征与经过注意力模块处理的编码信号连接,而使得模型可以很好地关注局部信息,从而提高整体的分割性能。

1.2 改进的多尺度融合注意力机制的Attention U-Net

在上述Attention U-Net中,在网络中每一个跳跃连接的时候加上注意力模块,通过模型的训练自动学习参数,使得模型更多地关注数据的局部特征。在本文针对胆囊的分割任务中,由于胆囊本身是腔体,内部包含胆汁,其形态随着人体差异、病变等因素会发生变化,如正常胆囊形态较小,病变胆囊则可能变大、变形。所以,胆囊的分割模型必须综合考虑胆囊的特征在影像上的表现。在原始U结构的编码器部分,深层网络可以提取原始数据的高分辨率、抽象的特征。而在做医学影像研究时,往往要关注影像的低分辨率、浅层信息。这需要关注胆囊本身及其周边环境的语义信息。因此,本文提出一种基于多尺度融合的注意力机制模块,在模型跳跃连接的时候,一个注意力模块将多个不同的浅层和深层网络特征级联,并对不同的网络层赋予不同的权重,通过模型训练自动学习注意力模块中的参数,使得注意力模块可以同时关注多个编码部分特征信息,来使模型更好地关注胆囊的局部特征。改进的基于多尺度融合的注意力模块如图1所示。在注意力模块的输入时,将来自多个编码部分的特征层Fx作为级联输入,与底层特征层经过上采样得到的Fg结合,再经过Relu激活函数、1×1卷积和Sigmoid激活函数的处理,得到注意力权重,最后将得到的注意力权重与当前对应的特征层F1相乘即得到注意力模块的输出。

图1 改进的注意力模块Figure 1 Improved attention module

在整个U型结构中,本研究选用ResNet[15]作为模型的编码器部分。相比于常规的卷积神经网络,残差网络因其使用的残差模块,使得网络的层数加深,可以在提取图像更深层次特征的同时,解决梯度消失的问题。编码器的残差模块总体结构如图2(a)所示。编码器中共包括两种残差模块,如图2(b)和图2(c)所示。图2(b)中残差卷积模块(convolution block,Conv block)在残差跳跃连接的时候加了卷积层,这样输入输出的维度不同,整个残差模块维度下降;而图2(c)中残差标识模块(identity block,ID block)在短连接上没有卷积层,整个残差模块不改变输入的维度。其通过跳跃连接的形式,使得模型只需要学习目标值和输出之间的残差,减小了模型学习的复杂度,有利于模型的学习。

图2 改进的编码器 Figure 2 Improved encoder

图3为改进的Attention U-Net模型结构。在每一个跳跃连接的末端都有一个注意力模块,其输入包括底层上采样的特征映射、对应当前层以及前几层的特征映射。输出经过注意力处理之后的特征映射与底层上采样的特征映射进行通道维度上的级联。之后为了将通道维度的信息整合,又经过了一层卷积的处理才输入到下一层。最终经过解码器一系列上采样之后,特征图恢复到原图大小,即输出分割结果。

图3 改进的Attention U-Net 网络结构Figure 3 The network structure of improved Attention U-Net

本文所提出改进的Attention U-Net分割模型,采用基于多尺度融合的注意力模块对Attention U-Net进行改进,可以使其更全面地考虑不同层的特征映射,使注意力模块充分考虑浅层和深层特征,来提高模型在胆囊分割任务中的表现。

2 实验设计及评估方法

2.1 实验平台

本文实验均在Linux Ubuntu16.04系统环境下进行。深度学习框架采用PyTorch,编程语言为Python 3.7版。模型训练GPU使用NVIDIA TITAN RTX,显存64 G,内存为32 G。CUDA的版本为10.1,cuDNN版本为7.64。

2.2 实验数据准备

本研究选取上海交通大学医学院附属新华医院普外科、吉林大学白求恩第一医院肝胆胰外一科和吉林大学中日联谊医院普外科2017-2019年收治的88例胆囊癌患者、28例慢性胆囊炎胆囊结石患者和29例健康对照共145人,术前常规行腹部双源增强CT(采用Siemens Dedinition Flash双源炫速CT机,先行双源CT腹部平扫,A球管电压140 kV,有效电流126 mAs,B球管电压100 kV,有效电流155 mAs;以双筒高压注射器于右肘前静脉以4 mL/s速率注射欧乃派克1.5 mL/kg体质量,后以相同速率注射生理盐水20 mL;延迟25~30 s行动脉期双能量扫描,65~70 s行静脉期双能量扫描),男90例,女55例,年龄44~90岁,平均年龄67.76岁±10.94

岁。88例胆囊癌患者行单纯胆囊切除术17例,胆囊癌根治术56例,胆囊癌扩大根治术10例,胆囊癌姑息性切除术5例。所有病例全部经术后病理诊断,其中高分化腺癌15例(17.05%),中分化腺癌22例(25%),低分化腺癌51例(57.95%)。结合术前双源CT和术后病理诊断,有淋巴结转移者61例(69.32%),无淋巴结转移者27例(30.68%)。根据第八版AJCC癌症分期手册TNM分期:0-I期患者17例(19.32%),II-IV期患者71例(80.68%)。28例慢性胆囊炎胆囊结石患者均行腹腔镜下胆囊切除术,术后病理证实。收集8 268张腹部CT影像(含动脉期、门脉期和延迟期所有图像,扫描范围从隔顶到胆囊消失层面,每张层厚、层间距均为5 mm)。数据集的格式为医学影像常见的DICOM(Digital Imaging and Communications in Medicine)格式。

将CT图像的数据集由5名经验丰富的放射科医生对其中胆囊区域边缘进行勾画,作为数据集的金标准,原始数据和标注数据如图4所示,并按照比例7∶2∶1随机划分训练集6 171张切片、 验证集1 238张切片和测试集859张切片。数据集中所有图像均包含胆囊,以保证本文方法对胆囊部位的自动分割。

图4 数据集示例Figure 4 Samples of datasets

2.3 实验评估设计

为了验证本文提出的改进Attention U-Net的性能,本文将其与经典U-Net和Attention U-Net进行对比分析,从而证明改进的Attention U-Net的有效性。整体实验流程如图5所示。

图5 实验流程Figure 5 Experimental process

(1) 调整窗宽窗位。在CT图像中,窗宽是图像上显示的CT值范围,窗位是显示CT值范围的中心。通过对窗宽窗位的调节,可以得到良好的CT图像显示效果。胆囊的CT值在(-10,50)之间,本文取窗宽300、窗位30,可得到胆囊的最好显示效果。

(2) 图像脱敏。DICOM文件中存储的信息包括患者的个人信息,为了保护患者隐私,在数据集的实际应用中,通常要先对数据进行脱敏,去除DICOM图像上患者信息。

(3) 图像剪切。因为胆囊区域在CT影像中具有相对固定的位置,为了减小其他脏器或者噪点的影像,对原始DICOM图像进行剪切,只保留左上角256×256大小包含胆囊的部分。

(4) 图像归一化。最后对DICOM图像进行归一化,即整体像素除以255,处理后图像见图6。

图6 图像预处理过程Figure 6 Image preprocessing

在对比实验中,为了在同一标准下对比3种方法的整体性能,本文对3种图像分析方法进行了统一的超参数设置,其关键参数见表1。

表1 超参数设置Table 1 Hyperparameter setting

2.4 评价指标和损失函数

评价分割结果的好坏,一般通过计算预测结果和金标准的重叠度,即交并比(intersection over union,IoU)。

(1)

(2)

(3)

(4)

式中:A和B分别代表预测和真实的区域;FP(false positive)代表检测错误的负样本的个数;TN(true negative)代表检测正确的负样本的个数;FN(false negative)代表检测错误的负样本的个数。

在采用IoU分数作为评价指标的同时,选用IoU Loss作为损失函数计算。

(5)

式中:X为预测值;Y为真实值。

3 结果

3.1 损失函数变化

在实验中,模型总的训练轮数为50,由图7可见,在训练40轮后,3种方法在验证集上的损失函数都已经收敛,本文提出的改进Attention U-Net模型在验证集上的损失最低为0.18,训练集上的损失为0.07;U-Net在验证集上的最低损失为0.2,对应训练轮数下的训练集损失为0.02;Attention U-Net在验证集上的最低损失为0.19,对应训练轮数下的训练集损失为0.03。由模型在训练集和验证集中的损失曲线来看,本文提出的改进方法在验证集上的损失更低,与训练集损失值之间差距更小,证明本文提出改进的Attention U-Net可以有效减小模型过拟合现象。

图7 损失函数曲线Figure 7 The curve of loss function

3.2 评价指标结果

由图8可知,改进的Attention U-Net在验证集上的IoU指标达到最大为0.72,而Attention U-Net为0.68,U-Net为0.67。综上所述,本文提出改进的Attention U-Net性能优于Attention U-Net和U-Net,改进的注意力机制模块可有效提高Attention U-Net模型的性能。图9为模型预测结果。表2为关键评价指标的比较结果。

图8 交并比分数曲线Figure 8 The curve of IoU score

图9 预测结果Figure 9 Results of prediction

表2 评价指标结果Table 2 The results of evaluation indicators

4 讨论

基于注意力机制的Attention U-Net,通过在U-Net跳跃连接的时候引入注意力模块,而使U-Net可以更加关注输入图像的局部信息,可以提高U-Net的分割效果。本文针对于Attention U-Net中注意力模块的输入只有单一的编码器特征层,接收到的特征信息有限,而将其进行改进,希望注意力模块可以对局部信息的敏感度更高。改进的Attention U-Net使用ResNet作为编码器,在注意力模块的输入中,级联输入对应层上的编码特征层和其上层的特征层,最终通过在注意力模块中和上采样特征层加权作为输出。由以上结果可以看出,本文提出改进的Attention U-Net性能优于U-Net和Attention U-Net,相对于两个原始网络,改进的Attention U-Net还可以有效地改善模型过拟合问题,且同时不影响模型的性能。同时本文的局限性如下:对有胆囊异常病变的困难样本进行分割,准确率不高。正常的胆囊在人体腹部CT影像中的表现是形状正常、边界明显的,但在有些病变情况下,胆囊的表现就会异常,胆囊形变后,伴随着其他病变,此时模型对胆囊的分割效果较差[16]。还有如腹腔侵犯、肝脏侵犯等情况如图10所示。胆囊异常病变使得对于胆囊的标注以及模型的检测性能都是一种挑战。所以,如何改善模型在这一部分数据样本上的性能,是下一步研究的重点。

图10 困难样本示例Figure 10 Examples of difficult samples

5 结论

本文提出一种基于多尺度融合的注意力机制,对Attention U-Net模型进行改进,在胆囊的分割任务中,模型在评价指标上的表现相较于U-Net和Attention U-Net更好,IoU分数达到0.72、Dice为0.84、精度为0.92、召回率0.79。同时证明了本文提出的方法的有效性,可以在临床实践中为医生的临床诊断提供依据。

猜你喜欢

残差胆囊注意力
基于残差-注意力和LSTM的心律失常心拍分类方法研究
让注意力“飞”回来
儿童双胆囊畸形伴胆结石一例
融合上下文的残差门卷积实体抽取
胆囊壁毛糙是患了胆囊炎吗?
胆囊壁增厚怎么办?
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
哪些胆囊“要不得”
A Beautiful Way Of Looking At Things