APP下载

卷积神经网络在医学图像分割中的研究进展

2019-01-05徐航随力张靖雯赵彦富李月如

中国医学物理学杂志 2019年11期
关键词:编码器残差卷积

徐航,随力,张靖雯,赵彦富,李月如

1.上海理工大学医疗器械与食品学院,上海200093;2.上海交通大学医学院附属仁济医院放射科,上海200127

前言

近年来,卷积神经网络(Convolutional Neural Network,CNN)已经在计算机视觉和模式识别领域中证实了它的应用价值[1]。自从2012年AlexNet的诞生以来,计算机视觉各类任务的准确率有了质的飞跃,有的甚至可以超过接受训练的人类[2]。CNN在医学影像领域的应用则从2015年开始有显著的增长,医学图像计算和计算机辅助干预国际会议(Medical Image Computing and Computer Assisted Intervention,MICCAI)上关于CNN和深度学习的论文数量也逐年增多,可以说深度学习技术,尤其是CNN已经逐渐渗透了整个医学图像分析领域[3]。CNN拥有强大的空间识别能力,可以从原始输入中提取出高层特征信息,这些特征就好比构成原始图像的“笔画”,通过对这些特征进行分析和识别就可以轻松地完成对原始图像的分割操作。CNN的另一大特征就是可以通过共用卷积核和上下采样来大幅降低整个网络的参数量。有研究证明神经网络的深度是影响网络性能的关键。然而随着网络层数的增加,参数量的爆炸式增长为实际运算带来了难以承受的负担,使得神经网络训练需要大量的资源和时间。CNN的每一个卷积层只使用一个远小于图像尺寸的卷积核(可能存在多个通道),让这个卷积核在滑过图像的同时更新其参数。这样就既能充分利用图像全体的空间信息,又能有效限制参数量。全卷积网络更是完全放弃了参数量庞大的全连接层,全部采用卷积层,减少参数量的同时在图像分割任务上也有着出色的表现[4]。CNN的强大性能和巨大潜力激发了大量研究者们对其的钻研,新的方法和技巧层出不穷。本研究针对CNN在医学图像分割领域的研究进展进行综述。

1 CNN在图像分割中的应用

1.1 有监督学习与全卷积网络

常规的滑窗式CNN可以通过在指定像素的周围多次提取一小块图像进行运算,逐个像素进行判别,从而完成图像分割任务[4]。实际操作上就像是用一个卷积核滑过整幅图像,符合我们对卷积的一般认识,然而这其实是一种效率很低的做法,因为卷积核滑动的步幅绝大多数情况都小于卷积核的尺寸,这就导致了相邻步幅之间重复的内容很多,带来冗余的计算。同时,由于一次仅对相当于卷积核尺寸的一小块图像进行运算,网络很难把握图像整体的空间特征。另外也有研究表示池化层会导致输出的分辨率远低于输入[5]。U-Net由 Ronneberger等[6]于2015年提出,这个全卷积网络最早是被应用在医学图像的分割上的,由于其强大的性能,很快又被其他领域借鉴使用。成功训练一个深度网络需要大量的人为标注的数据集,ImageNet大赛使用的训练数据集中图片的数量往往都以万为单位。医学图像由于设备之间差异和人员的精力时间所限,难以获取规格相近的数据。U-Net近乎是一个对称的网络,由收缩路径和扩张路径组成,其中,收缩路径与典型的CNN相似,用于获取空间信息;扩张路径则由上采样和2×2的卷积层组成,用于精确定位。两条路径上分别具有数量相同的上采样层和下采样层,相对应的层之间由跳过连接结合,把收缩路径和扩张路径上获取的特征联系在了一起。从训练的角度来看,U-Net可以一次性获取整幅图像的空间信息,同时有效避免滑窗式CNN相邻步幅之间输入内容的大面积重叠。这样的网络结构大幅提升了分割的准确性,同时训练的速度极快且不需要大量的标记数据集。在2014年和2015年ISBI细胞示踪挑战中,该网络于仅有35幅训练图像的数据集“PhC-U373”上取得92%的IOU(Intersection Over Union,用于表示预测和真实情况之间的相关度,该值越高,相关度越高),于仅有20幅训练图像的数据集“DIC-HeLa”上取得77.5%的 IOU[7]。V-Net可以理解为 U-Net的一个改良版。Milletari等[1]在 U-Net的基础上引入残差单元,并用Dice损失层替换交叉熵损失函数,有效解决在训练过程中模型陷入局部最小值而停止,不再寻求全局最小值的问题,提升了分割的精度。同时,V-Net可以在3D的磁共振(Magnetic Resonance,MR)图像上进行工作,可以说不论是在精度还是维度上都对UNet进行了明显的改良。V-Net在PROMISE 2012(一系列前列腺的MR图像)数据集上取得了82.39的高分,与当年的最佳成绩Imorphics的84.36相差甚微[8]。同等硬件条件下,完成一幅图像的训练Imorphics需要8 min,V-Net仅需要1 s。

残差网络由He等[9]于2015年提出,可以说是深度学习网络结构上最新的重大发明。残差网络允许原始输入信息直接传递到后面的层中,此时网络学习的内容就不再是完整的输出了,而是输出与输入的差,即残差。残差结构有利于保护输入信息的完整性,同时简化学习目标和难度,一经发表就被大量的研究者应用在他们的网络结构中,U-Net中使用的跳过连接就是一种残差结构。Yu等[10]使用了一个全卷积残差网络(Fully Convolutional Residual Network,FCRN)进行皮肤黑素瘤损伤的精确分割,荣获ISBI 2016年该项分割任务的第二名。该研究将38、50、101层的FCRN和未采用残差结构的VGG-16及GoogleNet(22层)进行对比,结果表明FCRN的表现全面优于未采用残差结构的这两个网络,且50层FCRN的表现最为出色。Chen等[11]将残差网络推广到3D的MR影像中,实现脑部体积图像的分割。实际上在这项任务中他们使用了两个残差网络:(1)VexResNet用于对T1权重图像进行初步分割;(2)Auto-context VexResNet则对T1-IR、T2-FLAIR等多模图像和初步分割好的T1权重图像执行自动上下文算法,取得更为精确的分割结果。值得一提的是,VexResNet使用了多重分支结构[11],在不同的分支上采取不同的卷积策略,这样的结构也普遍为残差网络所使用。

1.2 无监督学习与自编码器

在CNN的应用过程中无监督学习越来越受到重视,研究者们都希望能创造一种能真正意义上替代具有专业知识的人类完成医学图像分割的工具。无监督学习下,网络不需要医师标注好的分类结果作为训练材料,只需要对输入图像进行多层卷积等操作便可以得到其高层空间特征,从而将感兴趣区域和图像背景区分开来。自编码器[12]是一个经典的无监督学习模型,通过一个编码器和一个解码器来重构输入。最初的自编码器中,编码器和解码器都只有一层。随着深度学习思想的渗透,编码器和解码器的层数逐渐增多,层层堆叠,所以这样的自编码器也被称作栈式自编码器(StackedAuto-Encoder,SAE)[13]或深度自编码器。同时,卷积层和池化层也被应用在自编码器中,以增强对图像输入的处理能力,通过反复的卷积和池化操作,便能在整个自编码器正中间的隐含层中得到一个维度远小于原始输入的特征向量。这个特征向量可以通过配套的解码器来近似还原成原始输入,所以自编码器在图像分割中常常用于提取图像的高阶特征。从MR图像中分割出视觉传导通路具有相当的难度,该组织狭长且结构多变,同时与周围组织的解剖特征区别不明显,要想实现病理意义上的划分(例如分割出胶质瘤)就更具挑战了。Mansoor等[13]利用SAE在MR图像中推断出视觉传导通路的特征,实现了左视神经、右视神经及视交叉的全自动分段模型划分,实验中的Dice相关系数高达0.779,为当时的最佳成绩,同时相比于常规方法拥有相同的鲁棒性。研究表示SAE在低对比度区域的效果尤其突出,同时使用SAE提取高阶特征也使得他们的方法可同时应用于健康和病态的组织上。Guo等[14]发现以往用于从脑部MR图像中划分成人海马体的方法并不适用于1岁以下的婴儿,并推测这是因为海马体和周围的脑组织之间缺乏具有足够判别力的特征表示,他们提出使用SAE实现无监督学习,同时从T1和T2权重图像中提取互补特征的方法来解决这个问题,并在2周至9个月大的婴儿的脑部图像上证明了该方法的有效性。Moriya等[15]将Yang等[16]的无监督学习图像聚类法推广到3D的医学图像上。他们首先训练一个包含了3个卷积层、1个池化层和2个全连接层的CNN来提取图像中每一小块的特征表示;然后,再用K均值法进行聚类,将这些特征表示分为K类并给每一类赋予标签;最后给每一小块最中心的几个体素赋予和该一小块所属类相同的标签,即将聚类的结果投影到原图上,完成图像的分割。K的数值可以根据实际需要进行调整,且无需再提取特征,标签的赋予也仅用作区分,不需要专业的医学知识。Moriya等[15]将K设置为3,将肺部的CT图像划分为3部分:侵袭性癌变、非侵袭性癌变和正常组织,相比直接应用K均值法和多阈值大津法,该方法取得了更为优秀的结果。Bao等[17]使用了一种相当新颖的方式来提升脑部MR图像分割的质量。他们使用了一个多重规格结构的CNN,其每一层有尺寸不同的多个卷积核,分别进行运算后在最后几层进行汇总。多重规格结构的CNN被用于对图像进行特征提取并赋予每一小块可能的标签;再使用随机游走法强制实现标签的连续性,即相邻的小块应尽可能拥有同样的标签,使得分割的结果更加平滑[18]。此法在IBSR数据集上取得了平均0.822的准确度,在LPBA40数据集上取得了平均0.850的准确度,相较于之前的PBL法[19](其上述两项准确度分别为0.760、0.843),不论是在精度还是速度上都有显著提升。

1.3 半监督学习与预训练

预训练就是在正式训练前,利用某些初始化方式为网络内参数赋予初值,然后再开始训练。此时训练中参数更新的幅度较小,也有锁定前几层网络参数,仅让训练对最后几层做出调整的方法,这种手法也被称为微调[20]。较为早期的网络参数初始化主要还是采取统计学手段,例如数据标准化,但本质上还是一个随机取值的过程。近年来,各领域的研究普遍表明,一些特殊的预训练方法可以明显提升网络的学习效率和精度,其中,有些方法本身就应用了CNN,故值得单独讨论,如上文提到的自编码器就经常应用于CNN的预训练。Kallenberg等[21]将他们使用稀疏自编码器进行无监督预训练的网络CSAE(Convolutional Sparse Auto-Encoder)应用在乳腺密度分割上。这种无监督预训练和有监督微调的组合也被称作半监督学习。而Sun等[22]在他们关于乳腺癌症状区域的分割筛选上则采用了另外一种半监督学习方式。该研究面临的情况是在3 158个样本的训练集中,仅有100例有标注,其余为无标注数据。他们先通过21个图像数据指标同时对标注数据和无标注数据进行特征提取及分类;然后,通过同类的标注数据为无标注数据赋予标签,从而转化为标注数据,反复迭代这一过程,直至所有数据都得到标注;最后,通过CNN进行划分。该研究赋予标签的准确率在80%左右,最终结果的准确率为82.43%。值得关注的是,在3 158个样本全都正确标记的情况下,同样的卷积网络可以取得85.52%的准确率,可见半监督学习可以在不损失太多正确率的情况下,大幅减少人为标注数据的工作量,或是在只有少量样本被标注的情况下依然能较好地完成分割任务。该研究通过主成分分析的方法实现特征提取,通过CNN进行更高层的特征提取,有望进一步提升赋予标签的准确率。

类似的方法也被应用在3D以及动态医学图像上。Brosch等[23]使用含卷积的受限玻尔兹曼机对他们的3D卷积编码器进行预训练,然后将这个类自编码器的网络应用在多发性硬化的损伤分割上,在MICCAI 2008和ISBI 2015两个数据集上取得了顶尖的成绩。Yu等[24]将微调应用到了动态医学图像上,在超声心动图里左心室的分割任务中大量使用预训练和微调。开始分割前,使用一批有标记的数据对CNN进行预训练,开始分割任务后,CNN会动态地使用第一帧和剩余帧不断地进行微调。尽管他们的网络结构相当简单,但创新性的动态微调帮助他们在51组超声心动图的分割任务中取得与人为分割相接近的结果,并且明显优于现有的其他手段。另外也有不少工作是基于迁移学习完成的,即使用在类似领域训练好的网络进行参数初始化后再进行微调,可以一定程度解决目标任务训练数据不足的问题。Chen等[25]对一个在PASCAL VOC数据集[26]上训练好的模型在他们的超声图像集上进行微调,并使用它完成了5个不同视角的超声图像下左心室的分割,结果与人为分割结果相比也毫不逊色。

2 挑战与展望

深度CNN作为近几年来计算机视觉的新宠,已逐渐渗透医学影像整个领域,在解剖结构及症状区域的识别、分割以及医学图像的增强、配准及融合等方面都取得了令人眼前一亮的成果。CNN应用于医学图像分割具有得天独厚的优势,可以通过多层卷积提取输入图像的高层空间特征并以此为依据执行分割,在人眼难以识别并区分的区域,效果尤其显著。CNN在医学图像分割领域的应用意义重大,一方面提高了分割算法的效率和精度,另一方面解放了人力资源,减轻医师的负担。随着不断研究与发展,相信不久的将来无监督学习将会在各种任务中扮演更为重要的角色,甚至可以在某些任务中真正意义上替代人类,完成没有先验知识条件下的图像分割。然而,CNN的进一步推广也面临着若干挑战:(1)现有的硬件水平普遍难以负担CNN带来的海量运算。本文提及的实验绝大多数都将图像缩小或裁剪后再提供给CNN,分辨率等级仅限于各维度几百像素,这对于精确定位和诊断来说还是远远不够的。理想情况下我们希望有足够强大的硬件设备能一次性读入整张高分辨率的图片,同时在网络结构中不需要下采样降低分辨率以减轻运算负担。(2)大部分任务中CNN的精度比起人为分割仍有一定差距,所以目前几乎所有的医学图像分割CNN都仅处于实验阶段,并未投入实际使用。但随着各种网络结构和训练技巧的推陈出新,CNN精度超过一般从业人员的势头已经很明显,并有望在未来的几年内达到专家水平。(3)医学图像数据因为设备间差异和技师操作习惯等原因,难以取得大量同规格的标记数据作为训练资料。这个问题在医疗联网逐渐普及的如今有望在短期内得到解决,另外一方面也可以寄希望于无监督学习的发展,直接对现有数据进行特征挖掘,而不依赖于人为的标记。总而言之,CNN的应用使医学图像分割向着自动化迈出了确实的一步。

猜你喜欢

编码器残差卷积
融合CNN和Transformer编码器的变声语音鉴别与还原
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
设定多圈绝对值编码器当前圈数的方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
转炉系统常用编码器选型及调试
基于残差学习的自适应无人机目标跟踪算法
舞台机械技术与设备系列谈(二)
——编码器
卷积神经网络的分析与设计
基于深度卷积的残差三生网络研究与应用