APP下载

基于双域多阶段联合降噪的低剂量CT图像重建

2022-03-21王艳飞王梦南张振庆

太原理工大学学报 2022年2期
关键词:低剂量投影损失

王艳飞,强 彦,王梦南,张振庆

(太原理工大学 信息与计算机学院,山西 晋中 030600)

计算机断层成像技术(computed tomography,CT)是一种被普遍使用的成像方式,是现代临床影像诊断的常用手段之一[1-2]。成像的清晰度会直接影响诊断的结果,高质量的断层成像需要增加辐射剂量,然而高辐射剂量会导致癌症诱发、机体损伤等一系列潜在问题。如何在不产生强噪声的前提下降低辐射剂量,引起了大量关注。对于低剂量CT成像技术人们进行了大量的研究,研究表明,这些方法一般可分为三类:投影域去噪算法、迭代重建算法(iterative reconstruction,IR)和图像域降噪[3-5]。

投影域去噪是以原始的投影数据作为优化变量,寻找投影数据的固有特点,再应用传统的滤波反投影(filtered-back projection,FBP)算法得到重建图像[6]。典型方法有结构自适滤波、双边滤波[7]。这类算法重建速度快,但由于这类方法主要依据正弦特性,在反投影成像过程容易出现数据不一致。而迭代重建算法以优化重建后的图像为目标,利用断层成像的物理学模型,多次迭代后通过贝叶斯决策理论对结果进行修正。这种方法能够有效改善重建质量,但存在迭代时间长、耗时大的问题。图像域去噪方法不依赖原始数据,仅仅是对已重建后还存在噪声或伪影的图像进行再次去噪。这种方法不考虑预测数据的统计特性,因此运算速度快,有较强的实用性。但有时图像的微小细节易丢失,图像纹理结构模糊,给临床诊断带来困难[8]。

由于深度学习发展迅速,神经网络在图像处理中应用也越来越普遍[9-10]。HU et al[11]提出了一种带有残差结构的编解码器卷积网络(RED-CNN),该网络训练结果在视觉效果和客观评价指标上都有了明显的提高。HU et al[12]提出了一种基于CNN的去噪方法,该方法比全变差(TV)和基于补丁的三维块匹配(BM3D)具有更好的性能。ZHANG et al[13]提出结合感知损失和均方误差(MSE)的深度残差网络来提高图像质量。

尽管上述研究方法都已取得了可观的重建效果,但仅仅使用一种数据进行CT重建则易丢失图像的某一特性,从而对结果造成一定的干扰。因此,考虑到投影数据和图像数据对高质量的CT成像都尤为关键,本文利用两种不同数据域图像对CT图像进行多阶段生成对抗模型构建。第一阶段残差U-net模块能充分捕捉数据的统计特性,而第二阶段的多尺度卷积块可以增强对图像的特征提取,进而对低剂量CT图像深层降噪。

1 相关工作

1.1 降噪模型

断层扫描中辐射剂量的减少会使信噪比降低,引入强噪声和伪影。随之正弦域的量子噪声也会转化为图像域的复杂噪声和伪影,使得现有的去噪方法力不胜任。基于深度学习的方法则不受这个问题的影响,因为它们依赖于训练样本,而不是噪声类型。假设x∈Rm×n是一个低剂量扫描CT图像,y∈Rm×n是与之对应的常规剂量扫描CT图像,则两者之间的关系可以表示为:

x=σ(y).

(1)

在这里σ:Rm×n→Rm×n表示对常规剂量CT图像引入量子噪声污染的过程。那么降噪问题就可以转化为寻找σ的近似逆函数f的问题,可表示为:

(2)

然而从LDCT到NDCT之间的对应关系并不能单纯用数学公式简单地表示,那么从具有量子噪声的LDCT图像恢复到对应的正常剂量CT图像也就比较困难,因此难以求出噪声模型的逆过程f.然而,基于深度学习的方法可通过忽略噪声模型来解决图像处理中的不适定逆问题。

1.2 生成对抗网络

生成对抗网络(generative adversarial networks,GAN)自2014年被Goodfellow提出后就得到了许多领域的广泛应用,由两个对抗训练的网络:生成器G和判别器D构成,通过使用一个min-max优化策略学习从输入数据到目标值的映射关系。G试图从随机噪声中合成真实图像的假样本,而判别器D努力鉴别生成的图像和真实的图像,最终生成器在得到充分的训练后,判别器将无法得知输入的图像是真实样本还是由生成器伪造的假样本。

近年来,生成对抗网络GAN及其变体在计算机视觉和模式识别领域已经取得了极大的进步,GAN也被频繁地应用在医学图像处理中。SHAN et al[14]利用相邻切片的3D空间信息,在生成对抗网络框架中引入带有收缩路径的卷积编码器-解码器(CPCE)网络,为更准确、更可靠地提取病理信息提供了新的思路。GHANI et al[15]将条件对抗网络应用于对数据特性的校正,这种方式更有效地解决了因迭代层析反演而引起的时间消耗太多问题。YANG et al[16]将生成对抗去噪网络与Wasserstein距离和感知相似性相结合,网络更多地保留了用于医学诊断的关键信息。

2 方法

本文提出双域多阶段生成对抗模型DuDoGAN(Dual-domain,GAN),对投影数据与图像数据进行联合降噪。生成器网络包含两个阶段,基于投影数据去噪和基于重建CT图像降噪。判别器网络以生成器输出的CT图像和全剂量CT重建图像共同作为输入,对真实图像数据和假样本图像进行判定。

2.1 DuDoGAN网络模型架构

鉴于特定结构特征对医学诊断的重要性,本文结合数据统计特性和结构纹理特征对低剂量CT图像进行增强重构。DuDoGAN网络模型架构如图1所示。由于投影图像具有非局部结构,生成器网络在第一阶段使用U-Net网络的变体架构对全投影图像进行降噪[17],它包括编码与解码两个部分,编码器和解码器各使用9个4×4的卷积块,每个块都包括批量标准化(batch normalization,BN)、带泄露修正线性单元(Leaky ReLU,LReLU)。为了避免下采样时的特征模糊,网络中没有使用池化。BN被添加在每一个卷积层与LReLU之间,可通过减小训练样本之间的统计差异提高网络训练效率,并且利用LReLU激活函数保持卷积核的稀疏性。为了将CT图像的底层信息更好地传递给网络更高层,本文在编解码层之间增加了跳跃连接,由于网络在训练过程中可能出现退化问题,因此在网络中不再是直接获取降噪图像,而是通过添加残差结构进而转变映射方式,这种结构也更有利于网络的训练。编解码过程中的所有卷积层步长都为2,在编码器中前3层卷积的滤波器个数依次为64,128,256,4~9层滤波器个数是512,在经过9层的卷积操作后我们可以提取到深层特征,再使用9层反卷积对特征图进行恢复。而解码器前6层卷积的滤波器个数是512,第7到第9层反卷积滤波器个数分别为256,128,64,最终残差U-net模块输出的图像大小与输入尺寸相同。然后对降噪后正弦图使用FBP滤波反投影进行空间域的转变,得到重建图像。

图1 DuDoGAN网络模型架构Fig.1 DuDoGAN network model architecture

由于FBP容易造成图像边缘锐化和星形伪影,本文在生成器第二阶段中设计了一种多尺度特征提取模块,其中三尺度卷积核大小分别为1×1、3×3、5×5.在这里,1×1卷积核是为了保留前一层的特征,从而在与其他尺度的特征合并时能够使网络包含与浅层特征相关的信息。3×3的卷积padding、步长都为1,5×5的卷积层padding为2,步长为1,最终在经过一个多尺度卷积层后输出尺寸不变。另外在每个多尺度卷积块后添加了一个1×1非线性层,它能够提高模块的非线性映射能力。

判别器网络以生成器输出的假样本CT图像和真实全剂量重建图像共同作为输入。本文判别器网络包括5个卷积层,滤波器个数分别为64,128,256,512,1,卷积核大小为4×4,前4层卷积后做批处理BN,再使用LReLU激活,前3层的步长为2,第4、5层步长为1.由于生成对抗网络偏向于将数据分布从低剂量CT映射为正常剂量CT图像,从而易忽略体素强度,本文基于重建结果计算体素(pixel-wise)损失。另外在LDCT投影数据噪声较大的情况下,使用FBP重建的图像会受到条纹伪影和噪声的影响,本文引入VGG网络来保持高视觉敏感度,提高网络的特征表达能力。

2.2 目标损失函数

2.2.1生成对抗损失

为了保证生成的图像不丢失数据连续性和视觉感知真实性,本文以对抗的方式训练一个生成器G,以原始的低剂量sinogram数据作为输入,首先对sinogram进行降噪修正得到低噪声正弦图,使用FBP进行重建实现正弦图到影像图的转变,再对图像数据再次降噪,与判别器共同训练。GAN可以学习一个映射G:{x,z},它表示由于低剂量扫描而产生的带有随机噪声的投影数据z在经过对抗网络训练后生成CT重建图像样本x.数学上,GAN的目标函数可以表示为:

(3)

其中Pr是对全剂量图像进行采样的真实数据分布,Pg是由生成器伪造的CT图像模型分布。

2.2.2重建损失

由于正弦图在图像重建时一些小误差容易被大幅度放大,因此在反向投影操作之前,本文使用R-L滤波器来平滑投影。为了尽可能地保持生成图像与对应的全剂量图像间的像素关系,进而能够更加有效地去除噪声,本文在网络中增加一个体素最小化重建损失来约束图像间的像素误差,通过比较生成器输出的伪样本和真实CT图像得到重建损失,可以限制生成过多的高频内容,得到具有较高PSNR的重建结果。而均值回归策略的存在,即数据的波动趋势最终会趋向中值附近,使得均方误差(mean square error,MSE)经常被用于图像去噪性能的评估。维持像素间数据的一致性可以更好地抑制背景噪声,因此重建损失可以定义为:

(4)

式中:x为生成器输出的CT重建图像,即滤波反投影后经多尺度卷积再次降噪的CT图像;y为全剂量CT图像;w,h表示图像的宽和高;i、j表示像素点坐标。

2.2.3感知损失

为了提高图像质量,本文结合感知特性使用VGG预训练网络提取生成图像与真实图像在人类感知空间上的差异。VGG网络主要依据高级特征空间来评估图像质量,而不是根据体素空间上的差异,因此这种基于特征的感知损失,通过比较重建图像和原始图像的特征值,以确定重建结果是否符合医学图像的分布,既能够保持较高的视觉敏感性,又可以捕捉细微结构特征,将重建过程中的高频细节更好地恢复。然而由于VGG网络是在自然图像的数据集上训练的,而不是在CT图像上训练,所以它可能会导致处理后的CT图像的失真。为了解决这些问题,通过使用不同损失项来控制网络训练。感知损失的定义为:

(5)

式中:G(x)是网络输出图像,y是目标图像,φ是VGG网络中第k层的卷积层获得的特征图。

综上所述,我们结合三部分损失最终得到的目标函数可以表示为:

losstotal=lossGAN+λ1lossrecons+λ2lossVGG.

(6)

式中:λ1,λ2是构成复合损失函数的超参数,对抗损失的权重为1.在网络的最后一步,比较输出量和目标量之间的差异,将误差反向传播以优化最小化目标函数。

3 实验与分析

3.1 数据集

为了增强实验的有效性,本文使用了两种数据集。第一种数据是由梅奥医学中心(Mayo clinic)于2016年NIH-AAPM-Mayo低剂量CT大赛发布,该数据集已托管在癌症影像档案馆(the cancer imaging archive,TCIA),这种真实的临床数据集能够极大地提高临床表现。Mayo数据集包含10例患者病例,常规剂量扫描使用120 kV管电流,有效剂量为200 mA.对于每位患者,都提供了3种类型的数据:DICOM-CT-PD投影数据,Dicom图像数据和Excel临床数据报告,如表1所示。另一种数据为LIDC-IDRI,它包含1 018个病例,每个受试者都包括来自临床胸部CT扫描的图像和相关的XML文件,在这里我们选择了170个病例,通过在正弦图上加入泊松噪声得到模拟LDCT.这两种数据集图像大小均为512×512.

表1 Mayo数据集中每位病例数据组成Table 1 Data composition of each case in Mayo dataset

为了提高网络泛化性能,避免过拟合,本文采用10倍交叉验证,以大小相等的子集把数据集划分成10份,然后依次选择单个子集作为验证集,而其余数据用于训练。

3.2 评价指标

在图像重建领域中,峰值信噪比(peak signal noise ratio,PSNR,公式中用RPSN表示)是一种全参考图像质量评价指标,根据对应像素间的误差衡量经过处理后的图像质量,PSNR值越大,表明去噪后图像的有用信息在原图像中所占比重越大,那么去噪后的LDCT图像质量也就越好,数学定义为:

(7)

(8)

(9)

其中,EMS表示全剂量扫描重建图像与生成网络输出的假样本重建图像之间的均方误差。maxi代表在每个像素位可以取0/1时图像可表示的颜色最大数值。另外均方根误差RMSE也是图像测量的一把标尺,它可以根据样本的离散程度,比较特定数据集下不同模型的预测误差。

由于人眼对事物的感知性受附近像素位置影响,而结构相似性(structural similarity,SSIM)综合了局部图案的亮度、结构和对比度。因此对图像结构失真的精确测量是寻求图像最佳感知质量的重要途径,该数值更加能反映人眼视觉的主观感受。通常,结构相似性取值在0~1之间,SSIM值越大,表明LDCT图像的结构与NDCT图像的结构越相似。定义为:

(10)

3.3 网络训练参数设置

本文首先在ImageNet上对VGG网络进行了预训练,取VGG16的conv4的特征图输出。网络训练过程使用亚当优化算法,设置初始学习率η=0.02,β1=0.9,β2=0.99,ε=1×10-8,LReLU激活函数的斜率α=0.2,batchsize设置为64,λ1=0.03,λ2=0.6.本文实验环境是基于Windows10操作系统,硬件环境CPU为2.30 GHz Intel(R)Core(TM)i5-4200U(12G内存),GPU为NVIDIA GTX Titan XP(16G显存),编程开发环境为JetBrains PyCharm 2019.1.1×64,编程语言使用3.6版本的Python,使用TensorFlow搭建深度学习框架,综合考虑在像素、视觉感知和噪声分布等方面的差异来优化网络。

3.4 实验结果及分析

为了验证本文方法的重建性能,在本节中,定量分析了不同重建方法在两种数据集上的去噪性能,其中包括WGAN、BM3D、RED-CNN、CNN-MSE、WGAN-VGG.在这些现有的去噪方法中,CNN是一种不依靠图像先验信息的去噪方法。BM3D是一种经典的图像空间域去噪方法,RED-CNN是一个基于二维像素优化的网络,而WGAN-VGG则是一个基于二维感知损失的网络。我们计算了去噪后图像的PSNR、SSIM、RMSE,通过这三个评价指标实现对结果的度量。如表2、表3所示,在表中每项指标的最大值加粗标记。可以发现在所有方法中,本文方法PSNR、SSIM在两种数据集下取值都是最大,并且RMSE最小。CNN-MSE在PSNR方面比BM3D、WGAN-VGG表现好,而WGAN的峰值信噪比最差,这是因为PSNR相当于每像素的损失,而CNN-MSE是以最小化MSE损失为目标,所以CNN-MSE的PSNR优于损失函数以最小化基于其他损失项的网络。另外可以发现除了本文提出的方法,基于均值去噪的RED-CNN三个评价指标性能都是最优的。这是因为在基于均方误差的优化算法中,存在着回归均值问题,这也使得基于卷积网络的RED-CNN算法的PSNR值较高,但可能会平滑过度或纹理信息丢失。对比BM3D和WGAN-VGG的实验结果,虽然BM3D有更高的PSNR,但其结构相似性指标更低,这是因为WGAN中引入VGG后提高了感知特性,对细节和纹理信息保存的更完整。实验结果表明,本文方法在降低均方根误差的同时提高了峰值信噪比和结构相似性。

表2 不同重建方法在Mayo数据集上的定量实验结果对比Table 2 Comparison of the quantitative results of different approaches in Mayo

表3 不同重建方法在LIDC-IDRI数据集上的定量实验结果对比Table 3 Comparison of the quantitative results of different approaches in LIDC-IDRI

为了展示所选网络的去噪效果,选取了一个有代表性的切片,如图2所示。为了更好地评估不同模型的图像质量,使用红色矩形标记了感兴趣区域(ROI),图3是ROI区域的放大图,蓝色箭头指向一处病灶区域,黄色箭头指向一处纹理结构。由图3可以观察到,原始的LDCT图像退化最严重,视觉效果最差,而其它方法都表现出一定的去噪能力。根据图2、图3可以发现,单独使用WGAN模糊程度最严重,因为它只是将数据分布从低剂量映射到NDCT,不能保证图像内容的对应关系。CNN-MSE模糊了图像,这在放大图中很容易观察到,这是因为虽然体素损失具有好的降噪性能,但在体素优化过程中也在一定程度上模糊了内容,导致结构细节丢失,WGAN-VGG虽然改善了CNN-MSE的过度平滑,但仍然可以发现较小的条纹伪影。而BM3D提供了较好的PSNR,然而它受到图像模糊的影响。RED-CNN方法与预期的一样具有更平滑的外观,在图3(d)中可以看到,即黄色箭头所示的ROI区域有伪影没有被很好地去除,存在一些结构被平滑。而本文方法在改善LDCT图像方面表现最好,具有清晰的特征边缘和视觉外观。

图2 不同重建方法的定性实验结果对比Fig.2 Comparison of qualitative experimental results of different reconstruction methods

图3 红色矩形标记的ROI区域放大图Fig.3 A zoomed-in ROI area with the red rectangle

3.5 消融实验结果对比

在本节中,为了进一步证明网络每一部分损失的有效性和可行性,我们通过验证不同模块,包括纹理变换、对抗性损失和迁移感知损失,评估了不同损失函数对LDCT降噪的影响,本文通过控制联合损失函数的超参数λ对低剂量CT图像进行实验并比较伪影的抑制效果。为了将PSNR与SSIM能够放在同一坐标系中,将SSIM放大了50倍,如图4所示。可以发现,单独使用生成对抗网络是可以去除噪声,相比于低剂量CT图像来说相应的PSNR和SSIM略有增加,而MSE的PSNR增长最多;GAN+MSE、GAN+VGG的PSNR较之都略有下降,这是因为MSE的损失以pixel-wise训练,而对抗网络是基于生成模型,虽然可以生成看起来自然的图像,但却忽略了医学诊断中的一些纹理结构特征,在所有研究的方法中,本文提出的方法SSIM值增长幅度最大,并且也取得了最高的PSNR.

图4 消融实验结果对比Fig.4 Comparison of ablation experiment results

4 结语

有效减轻断层扫描辐射对人体造成的损害之一,就是在不干扰临床诊断的前提下尽可能地减少使用的辐射剂量。针对低剂量CT成像会影响医生诊断结果,提出了一种基于低剂量CT投影数据与图像数据多阶段联合降噪网络,捕获结构信息和抑制图像噪声。在全投影数据上利用残差U-Net网络对正弦图降噪,不同局部接收域以跳跃连接集成互补纹理信息,层级多尺度卷积促进CT图像伪影去除,感知特性的使用提高视觉敏感度。总体而言,相比单一使用一种数据域的网络,本文方法将数据统计特性与临床诊断的视觉感知特性更好地结合在一起,经过网络训练后,噪声抑制和组织对比度得到提升,更多保留了用于临床诊断的结构纹理特征,取得良好的视觉效果。

猜你喜欢

低剂量投影损失
320排CT低剂量容积体部灌注成像强化峰值时间对孤立性周围肺病变诊断价值
全息? 全息投影? 傻傻分不清楚
肺部疾病应用螺旋CT低剂量扫描技术检查的分析
胖胖损失了多少元
基于最大相关熵的簇稀疏仿射投影算法
两败俱伤
找投影
找投影
自适应加权全变分的低剂量CT统计迭代算法
大孔径3T低剂量下肢动脉MRA的临床研究