APP下载

基于深度学习的医学图像配准研究进展

2021-11-01王远军

上海理工大学学报 2021年5期
关键词:相似性深度图像

周 勤,王远军

(上海理工大学 医疗器械与食品学院,上海 200093)

图像配准是基于图像相似性度量标准,寻求将一幅或多幅图像映射到目标图像上的空间变换,使得参考图像和目标图像达到空间上的对应关系。通常情况下,需要映射变换的图像称为浮动图像,在配准过程中保持不变的图像称为固定图像或者参考图像。当从不同时间、不同角度或使用不同传感器分析获得的图像时,需要进行配准[1]。医学图像配准在临床上有很多应用,如图像引导、图像融合、肿瘤生长监测等。

在深度学习技术兴起之前,已经有很多传统的配准方法,但深度学习的出现极大地影响图像配准研究的热点[2]。自从AlexNet在2012年ImageNet挑战赛[3]中获得成功以来,深度学习使许多计算机视觉任务的最新性能得以实现,例如:目标检测、特征提取、分割、图像分类、图像去噪和图像重建。最初,深度学习技术主要用于增强迭代、基于强度的医学图像配准,但配准速度较慢,对快速配准算法的需求推动基于端到端深度学习的监督配准方法的发展。由于监督学习获取真实形变场比较困难,促使许多学者开发用于端到端的无监督配准框架。目前,无监督配准框架中的最大挑战是图像相似性量化,近来基于信息论的相似性度量、弱监督框架和生成对抗性网络(generative adversarial networks,GAN)框架等的研究都是用来解决图像相似性量化的策略[4]。

本文根据使用的深度学习技术进行分类,总结常用的医学图像配准框架及评价指标、常用的数据集和开源工具,分析深度学习技术在医学图像领域中存在的问题,并进行展望。

1 配准方法的分类

通过调研分析,近几年的相关文献主要分为2种[5]:a. 使用深度学习网络来估计两幅图像的相似性度量,以驱动迭代优化;b. 使用深度学习网络直接估计变换参数。前者深度学习技术主要用于增强迭代,配准速度慢且耗时长;后者利用深度学习的端到端网络进行配准,速度快。因此,对后者的调研分析比较多,根据所选用的深度学习框架,将配准方法分为监督学习、弱监督学习和无监督学习3大类。

1.1 监督学习的配准方法

监督学习的配准方式是要事先得到金标准,即形变场。这个形变场可以是刚性配准的3个参数,也可以是变形配准的位移场。然后神经网络训练出一个模型,输入待配准的两张图像,输出这个形变场。在神经网络训练的过程中,目标函数反向传播,从而更新各层的参数。训练时的损失函数常常是金标准和模型输出的形变场的均方误差(mean squared error,MSE)。在测试阶段,对配准图像对进行采样并输入网络,利用预测的形变场对移动图像进行插值,即得配准图像。人工生成形变场有3种方式:a.利用传统的经典配准方法进行配准,得到的形变场作为标签;b.对原始图像进行模拟变形,将原始图像作为固定图像,变形图像作为移动图像,模拟形变场作为标签;c.基于模型变换,图像变换是图像配准的前提,根据变换性质可分为刚体变换和非刚体变换。下面从刚性配准和非刚性配准两方面介绍近几年出现的一些成果。

1.1.1 刚性配准

Miao等[6]是第一个使用卷积神经网络(convolutional neural networks,CNN)来估计刚性变换参数的团队。他们用CNN估计3D CT与2D X线脊柱图像刚性配准的变换矩阵,提出将6个变换参数分为3组的层次回归方法。实验结果表明,该方法的性能优于互相关、互信息和基于梯度相关的迭代配准方法。Chee等[7]使用CNN估计用于3D脑磁共振(magnetic resonance,MR)图像的变换参数,该方法用仿射配准网络估计值和标准仿射变换之间的MSE来训练网络。在单模和多模情况下,它们都能优于基于迭代MI的配准。与前面两种使用随机生成的形变场不同的是,Zheng等[8]提出将成对区域适应模块集成到预先训练的CNN中,该自适应模块可以使用少量成对的真实数据和合成数据进行训练,将训练后的模块接入网络,将真实的特征转移到网络中,使其接近于合成的特征。由于网络是在合成数据上训练的,所以网络在合成数据上表现良好。Sloan等[9]用CNN回归刚性变换参数,对T1和T2加权脑MR图像进行配准,研究了单模和多模配准。

1.1.2 非刚性配准

Yang等[10]首先提出直接基于图像外观的变形模型逐块预测来实现脑MR图像的快速配准。该方法用深度编解码网络将图像像素的初始动量值作为网络输入,对这些值进行演化来获得估计的形变场。实验结果表明,该方法能够对基于数值优化的配准结果进行准确且快速的预测。此外,Yang等[11]利用变换参数的变分高斯分布的低秩Hessian近似量化3D T1和T2加权脑MR图像变形配准相关的不确定性。该方法在真实数据和合成数据上都得到了验证。Sokooti等[12]提出用多尺度CNN来估计形变场的方法,实验表明,该方法性能优于基于B样条的配准。与使用随机变化或手工构建来生成形变场的方法不同,Ito等[13]提出使用CNN学习形变场生成的合理变形,通过在ADNI数据集上进行实验得出,结果优于基于迭代MI的方法。

1.2 弱监督学习的配准方法

监督配准方法需要真实的形变场作为金标准,而真实形变场的获取比较困难。弱监督方法的提出,减轻了对金标准的依赖性。弱监督利用相应解剖结构的分段重叠来设计损失函数,即采用标签的相似性度量作为目标函数,反向迭代更新网络的权重。弱监督学习的配准成果,相对前两种方法成果比较少,多使用基于相似性测度的配准和非刚性配准。Hu等[14]没有使用人工生成的形变场,而是使用标签相似性来训练网络,进行3D MRI和超声图像配准。同样地,Hering等[15]结合分割标签和图像相似性的互补信息训练网络。实验结果表明,该方法Dice分数高于仅使用图像相似性损失和分割标签损失。不同于以上方法,Liu等[16]使用表示学习来学习具有置信水平概率图的特征描述符,并使用监督合成变换和无监督描述符结合的图像相似性损失来训练网络。

无约束的形变场估计会导致浮动图像的扭曲,从而产生不真实的器官外观,一种常用的方法是将估计形变场的L2范数加入损失函数。另一个有价值的贡献是将GANs用于弱监督估计变换。Lei等[17]使用鉴别器来判断扭曲的图像对于原始图像是否足够逼真。Fu等[18]使用了类似的想法,并表明,在3D-CT肺DIR中包括对抗损失可以提高配准精度。上述基于GAN的方法试图从图像或变换外观的角度引入正则化。不同的是,Hu等[19]使用GAN框架来产生逼真的变形。Hu团队主要想法是通过引入判别器对局部形变场进行约束,代替形变场的正则项。总体框架是通过生成器生成仿射变换的形变场和局部形变场,通过传统的方法生成一个真实的局部形变,然后判别器判别预测的局部形变场和仿真生成的形变场。Fan等[20]研究使用GAN网络区分对齐和未对齐的图像对。但是,GANs本身存在着难以训练的缺点,因为训练GANs需要达到纳什均衡,目前还没有很好达到纳什均衡的技术。此外,GANs在配准上的应用方法不一样,各个方法也有自己的缺点,如训练不稳定、梯度消失和模式崩溃等问题。

1.3 无监督学习的配准方法

尽管监督和弱监督学习的图像配准取得很大成果,但标签的获取很难,没有标签,又很难定义适当的损失函数,这促使许多学者开始探索无监督学习的方法。2015年,Jaderberg等[21]提出一种空间变压器网络(spatial transformer networks,STN),它可以对网络内的数据进行空间操作。因为STN可以在训练过程中计算图像的相似性损失,使无监督学习的图像配准技术成为可能。一种典型的变形无监督变换估计网络具体做法是以图像对作为输入,直接输出预测的随机位移矢量场(displacement vector field,DVF)。STN利用该网络对运动图像进行扭曲,生成扭曲图像;然后计算扭曲图像与固定图像的相似性损失,DVF平滑度约束通常用于对预测的DVF进行正则化。以下分类介绍这方面出现的文献。通过调研发现,无监督学习的配准方法多用于非刚性配准。基于图像相似性的无监督图像配准方法不需要标签,然而在多模配准应用中,图像相似度的量化仍然是一个挑战。因此,基于图像相似性的无监督学习的配准多用于单模配准。鉴于许多临床应用中经常需要多模配准,研究者们开始研究无监督学习来学习特征表示以确定最佳空间对齐方式[4],并取得一些成果。下面分类介绍这两方面的文献。

1.3.1 基于灰度相似性度量的配准

配准的关键是选择合适的相似性度量[22],常见的做法是估计给定图像对之间的相似性度量,将其作为代价函数进行反向更新迭代。Balakrishnan等[23]提出一种基于CNN的无监督配准方法,他们使用了一种类似于U-Net的架构,并将其命名为VoxelMorph。后来,他们扩展了该方法来利用训练数据中的辅助分段。结果表明,分割损失有助于提高Dice分数,性能可与ANT和NifTYG相比,但比ANT快150倍,比NifTYG快40倍。类似地,Qin等[24]也使用心脏MRI分割信息作为心脏MRI配准的补充信息。他们发现通过配准CNN学习的特征也可以用于分割。预测的DVF用于运动图像的掩模变形以生成固定图像的掩模。他们训练了一个联合分割和配准模型,并证明了在分割和配准任务中,联合模式可以比单独的模型产生更好的结果。Zhang等[25]提出了一种基于CNN端到端的配准模型。他们研究了变换的微分同胚映射,并提出使用逆一致正则化项来约束来自相应逆映射的两个变换之间的差异。损失函数由图像相似性损失、变换平滑性损失、逆一致损失和反折叠损失组成。在Dice、灵敏度和平均表面距离方面,他们的方法优于Demons和Syn。不同于上述2种方法,Jiang等[26]提出了一种基于CNN的多尺度配准框架。他们级联3个CNN模型,使用图像块来训练网络,以优化图像相似性损失和DVF平滑度损失。他们的工作表明,在标准人工神经网络数据集上训练的网络可以推广到不同的人工神经网络数据集。

1.3.2 基于特征的配准

基于特征的配准利用CNN学习图像特征表示,并用学习到的特征表示来训练网络以确定最优变换。Yoo等[27]使用卷积自动编码器提取单模结构特征,并将其输入到STN中进行最终的可变形配准,他们发现这种基于特征的相似性度量优于基于灰度的相似性度量[28]。Liu等[29]提出了一种基于张量的方法,该方法使用主成分分析网络[30]进行单模和多模配准,在吸气-呼气两对胸部CT容积和多模脑MR图像的实验上得到验证。与前面两种方法不同,Kori等[31]使用预先训练的网络,对二维T1和T2加权脑MR图像进行特征提取和仿射变换参数回归,对图像进行二值化,然后把运动图像和固定图像之间的Dice得分作为代价函数。

1.4 存在的问题

在监督学习配准中,真实的形变场在网络训练中发挥重要作用,但使用人工生成的形变场也存在一些问题,包括:生成的变换可能无法反映真实的生理运动;生成的变换可能无法捕捉实际图像配准场景的大范围变化。为解决这些问题,常使用各种转换生成模型[13]和进行适当的数据扩充[12]。弱监督配准技术可以对多模态配准进行相似性量化,而且弱监督变换估计方法减轻对手工标注的依赖性,但仍需要手动标注数据(如金标准或分段)。同监督变换估计相比,无监督的方法有效地缓解了数据集不足的问题。然而在无监督变换估计的情况下对多模图像配准比单模图像配准要困难得多,因为使用手工标注的相似性度量来量化两个图像之间的相似性是很困难的。近年来,利用无监督学习来学习特征表示以确定最佳转换,引起了研究界的极大兴趣。

1.5 常用基于深度学习的配准框架及评价指标

深度学习是用多层的神经网络来学习数据的表示[27],属于机器学习中的一类。近年来,深度学习被广泛用于图像处理。通过分析近几年深度学习对图像配准上的应用,总结4种常用的基于深度学习的配准框架,具体如下:

a. CNN是一种前馈神经网络,具有局部连接、权重共享以及空间或时间上的次采样特性。这些特性使得卷积神经网络具有一定程度上的平移、缩放和扭曲不变性[32]。在网络的每一层中,许多卷积滤波器在前一层的特征映射上“滑动”,输出是另一组特征映射。由这些卷积得到的特征映射被叠加并输入到网络的下一层,并允许对图像进行分层特征提取。此外,这些操作可以逐块执行,对许多图像配准任务有用[33]。

b. RNN用于处理和预测序列,适合处理时间信号。利用RNN的内部状态来模拟和记忆先前处理过的信息,因此RNN的输出即依赖它的即时输入,又依赖它以前的输入历史。长短期记忆(LSTM)是一种用于图像处理任务的RNN。

c. 堆叠自动编码器(staked auto-encoders,SAE)是网络隐藏层学习输入数据的隐含特征并重构为输出。在医学图像配准的文献中,该网络仅用于提供图像中最重要的、最有鉴别能力的特征,以作为替代配准方法的补充,而不是使用手工制作的特征[10]。

d. GANs由生成器和判别器两个相互竞争的神经网络组成。生成器将数据从一个域映射到另一个域。判别器的任务是区分来自所述域的真实数据和由生成器生成的数据。训练GANs的目标是收敛到一个可微的纳什均衡[34],此时生成的数据和实际数据是不可区分的。在医学图像配准中,GANs通常用于正则化或将多模态配准转换为单模态配准。方法是用判别器来代替传统的相似性度量,多用于多模态配准。需要指出的是,对于单模态而言,还是手工设计的相似性测度更好,深度学习学到的只是一种补充。

一直以来图像配准的评价指标没有金标准,由于不同类型图像差别很大,而且研究的重点也各有不同,所以配准效果很难用一个评价指标界定,通常需要多个评价指标来评定。通过调研发现,Dice和靶点定位误差(target registration error,TRE)是最常用的评价指标,公式见表1。

表1 常用的评价指标Tab.1 Common evaluation indicators

1.6 常用的开源数据和开源工具

医学图像配准任务是复杂的,配准的部位不同选用的数据集也不同。通过查阅文献,发现近年来,基于深度学习的医学图像配准多用来实现脑部和肺部的配准,对用于图像配准和评估研究的常用脑部和肺部数据集进行归纳总结,结果见表2。其中,DIRLAB是4D CT胸部图像配准研究中引用最多的公共数据集之一,该数据集经常用于4D CT肺部配准的基准测试。与肺部图像配准相比,脑图像配准在数据库中有更广泛的选择,LPBA40和IBSR18是较为常用的两个。

表2 常用的数据集Tab.2 Common data sets

随着计算机技术的发展,已经有很多开源工具可用于构建图像配准的网络,如:ITK、ANTs、Elastix、SimpleElastix和3D slicer等。近年来,已有不少学者将自己基于深度学习的医学图像配准研究成果公开分享到GitHub上,这些工作加快了医学图像配准的发展。目前GitHub已经有许多公共的存储库可用于构建本文中描述的网络,如Voxelmorph[23],RegNet3D[12],Weakly-supervised CNN[14]等。

2 挑战与对策

通过对医学图像配准中应用深度学习方法的研究,研究者们碰到了一些常见的挑战,其中一些常见的挑战和解决方案如下所述。

2.1 缺少已知转化的训练数据集

将监督学习技术应用到图像配准之中,经常会因为缺少已知转化的训练数据集而导致图像配准效果不好。在深度学习中,常用以下4种方法解决这类问题:

a. 数据扩充技术。简单的数据扩充技术即图像的几何变换可直接应用于图像领域,如图像的旋转、翻转、尺度变换、随机抠取、噪声扰动和颜色变换。根据近些年学者在样本增强技术方面的探索,Chen等[35]总结了6种复杂的样本增强技术,具体如下:(a)在弱监督环境下,利用大量未标记数据的信息学习标记样本[36];(b)从已有的训练模型中自适应地学习样本[37];(c)借用相关类别的实例或语义词汇扩充样本的量[38];(d)通过扭曲现有的训练实例来合成新的标记训练数据[39];(e)使用GANs在原有数据集的基础上生成新的数据[40];(f)根据期望值或强度,利用属性引导增强(attribute-guided augmentation)技术合成样本[41]。

b. 迁移学习。在少量数据集上训练较复杂的网络容易过拟合,可通过迁移学习的策略解决,通常做法[42]为:对应样本量较少,可以先用Imagenet等数据集预训练CNN,将预训练的CNN参数作为网络的初始值,然后用自己的数据集对CNN中可学习的参数根据任务调优。在数据量较少的情况下,可以从框架的开源数据库中下载相关的预训练模型。Cao等[43]使用CNN直接回归单模可变形的配准参数,他们团队通过迁移学习的方法增加样本量,该项研究表明,迁移学习能减少因数据缺少而带来的影响。

c. 正则化。数据量较小会导致模型过拟合,在损失函数后面加上正则项,可以抑制过拟合问题的产生。Srivastava等[44]提出dropout技术,通过在训练过程中随机地从每一层中剔除一些输入,以减少过度拟合的影响。

d. 无监督预训练。用Auto-Encoder和受限玻尔兹曼机(restricted Boltzmann machine)的卷积形式实现无监督预训练,最后加上分类层作监督的微调。在这种情况下,预训练是一种正则化机制,有助于在泛化性能方面找到更好的训练误差。无监督的预训练在后来的监督训练中起着主要的规范化作用。Wang等[37]在无监督预训练的工作表明,预先训练的网络是独一无二的,因为无监督的部分纯粹用于初始化,而且当进行监督的训练时,它的有益效果似乎不会减弱。

2.2 多模医学图像配准

将深度学习技术用于多模图像配准大致可分为两类:基于图像强度相似性度量的方法和基于特征的方法。前者利用增强学习对图像的灰度空间进行多模态图像配准,最大化像素强度之间的相似度来确定两幅图像之间的对齐程度;后者提取图像的显著不变特征,并利用这些特征之间的相关性来确定最佳对齐方式。基于深度学习的医学图像配准主要困难在于图像在不同的物理原理和环境下具有很大的差异,缺乏鲁棒的相似性测度且特征提取较难。针对图像相似性的量化和特征提取问题,已有许多学者在这方面作了探索,如Hu等[14]提出了使用标签相似性来训练他们的网络,进行多模态医学影像配准,主要是用标签的相似性测度来代替图像之间的相似性测度,因为多模态图像之间的相似性测度不好设计,但是标签之间的相似性测度就好设计一些;Wu等[45]将CNN与独立子空间分析相结合,利用学习到的图像特征来代替HAMMER配准模型中的手工特征;Kori等[31]使用CNN网络对图像进行特征提取来实现多模图像配准。Liu等[46]使用10层的CNN进行图像合成,不使用GAN将多模配准转换为单模配准。然后,他们使用基于SSD相似性度量来配准大脑模型和IXI数据集。实验结果表明,他们的算法性能优于基于MI的图像配准。但是,在多模配准应用中,图像相似度的测度和特征提取仍然是一个挑战。

3 结 论

总结了一种根据深度学习方法,把医学图像配准方法分3类:监督医学图像配准、弱监督医学图像配准、无监督医学图像配准。每一类方法都有优缺点。因为监督预测变换和无监督预测变换各有利弊,未来更多的研究将集中在监督和无监督相结合的基础上。除此之外,弱监督和无监督的方法对人工标注的样本依赖性较小,这方面的研究具有现实意义。由于GANs不仅可以引入额外的正则化,还可以进行图像域转换,实现多模态到单模态的图像配准,因此基于GANs的方法逐渐成为学者研究的热点。

猜你喜欢

相似性深度图像
四增四减 深度推进
深度思考之不等式
基于生成对抗网络的CT图像生成
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
简约教学 深度学习
基于元数据的流程模型相似性度量方法
12个毫无违和感的奇妙动物组合
基于隐喻相似性研究[血]的惯用句
趣味数独等4则