基于生成对抗网络改善前列腺DWI图像质量的初步研究

2022-03-21左斌朱灵梅王海燕杨香琴黄艳李亮

放射学实践 2022年3期

左斌，朱灵梅，王海燕，杨香琴，黄艳，李亮

多参数磁共振成像(multiparametric magnetic resonance imaging，mp-MRI)是目前临床进行前列腺癌诊断和分期以及评估预后的重要影像学方法[1]。扩散加权成像(diffusion weighted imaging，DWI)是前列腺mp-MRI检查的重要组成部分。为了降低对运动的敏感性，临床采集前列腺DWI通常采用单次激发平面回波成像方法(single-shot echo-planar imaging approach，ss-EPI)[2]。但是，这项技术会导致DWI图像信噪比(signal-to-noise ratio，SNR)降低，前列腺形变加重，伪影增加，而且随着b值的增加，上述现象愈发明显。低图像质量DWI不仅会导致组织成像结构的偏差，而且会影响ADC值的计算的准确度以及可重复性[3-4]。虽然通过重复多次图像采集，前列腺DWI图像质量可以得到有效地提升，但是，激励次数过多会延长扫描时间，不仅降低了患者的舒适性，而且增加了患者不自主运动导致图像质量差的可能性[5]。如何在缩短扫描时间的同时获得高质量的DWI图像一直是一个技术难题。

近年来，人工智能算法的兴起给解决传统医学图像难题提供了新的解决思路。特别是生成对抗网络(generative adversarial networks，GANs)在医学图像的分割、识别、合成方面表现出了巨大的潜力[6]。GANs是一类包含了生成器和鉴别器的生成模型。生成器可以通过分析输入图像与参考图像之间的映射，进行学习模仿，生成类似于目标图像的合成图像，而鉴别器则可以区分生成器生成图像和真实图像[7]。通过生成器与鉴别器的不断博弈，生成器最终可以生成令鉴别器和肉眼都无法鉴别真伪的合成图像[8]。既往研究利用GANs探索低质量图像与高质量图像之间的特征关联，并构建映射，成功实现了不同质量图像的转换。该技术在去除伪影[9]、降噪[10-12]、提高分辨率[13]等方面获得了成功。受此启发，笔者设想利用GANs在扫描时间短、图像质量差DWI图像和扫描时间长、图像质量好的DWI图像之间构建映射，通过前者生成后者，最终获得扫描时间短但图像质量好的前列腺DWI图像。

本研究旨在构建一种基于GANs的能够有效缩短前列腺DWI扫描时间，提升前列腺DWI图像质量的无监督生成模型网络框架，并评估生成的DWI和ADC图像质量。

材料与方法

1.研究对象

本研究获得了重庆市渝北区人民医院伦理审查委员会的批准(2020A2)。所有受试者均已签署知情同意书。本研究共招募178名2019年1月-2020年10月因临床怀疑前列腺癌于本院进行多参数MRI前列腺检查和超声介入穿刺活检的患者。其纳入标准包括：①具有完整的临床信息和病理结果。②DWI和ADC图像上包含至少一个直径大于0.5 cm的，具有明确病理结果的结节。受试者排除标准包括：①未完成所有MRI检查。②在行前列腺MRI检查之前进行了激素疗法、手术、放化疗等相关治。③MRI检查与病理穿刺间隔时间大于2周以上。

28人因不符合纳入与排除标准被剔除研究队列(8人未完成全部检查，12人未进行病例穿刺，4人在MRI检查前进行了手术治疗，4人检查与病理穿刺间隔时间大于2周以上)，本研究最终纳入受试者150名，并被按照2比1随机分为训练集(100人)和验证集(50人)。

2.检查方法

所有患者图像采集均采用GE Signa Architect Discovery MR750w 3T MR扫描仪及8通道体部相控阵接收线圈。采集序列包括矢状面T1WI，横轴面T1WI、T2WI，以及一组横轴面SS-EPI低b值DWI，两组标准b值DWI。具体扫描序列参数设置见表1。

表1 MRI扫描序列参数

3.模型建立与算法

本研究采用生成对抗网络进行模型训练[14](图1)，其中生成器(G)采用UNet结构，鉴别器(D)采用多层下采样卷积结构。在训练模型前先对已获取的数据进行预处理，对原始a-DWI和b-DWI数据从图像中心裁剪出相关前列腺区域并缩放到统一大小，之后进行对齐，考虑到硬件的限制，只使用分辨率为224×224的二维横轴面图像进行训练和测试。

图1 网络框架图。

训练模型时，输入训练集中的a-DWI，以b-DWI为参考图像，生成器输出合成s-DWI。使用s-DWI和真实的b-DWI对鉴别器进行训练，使鉴别器能够区分两者，即将s-DWI认定为假，将真实的b-DWI认定为真。相对地，生成器逐渐优化的目的是使其合成的s-DWI无法被鉴别器区分出来。通过生成器与鉴别器的对抗训练，二者效果相互逐渐提高，生成器最终能够利用a-DWI生成类似于DWI(b=1000 s/mm2，NEX=8)的高质量标准b值DWI。该模型的鉴别器损失函数为：

LD=EY～PY[(D(Y)-1)2]+ES～PS[(D(S))2]

其中S表示生成器合成的s-DWI，Y表示真实的b-DWI。该模型的生成器损失函数为：

LG=ES～PS[(D(S)-1)2]

其中S表示生成器合成的s-DWI。

为验证模型效能，笔者将验证集中50人的a-DWI输入模型，生成s-DWI，并采用峰值信噪比(peak signal to noise ratio，PSNR)、结构相似性(structural similarity，SSIM)、特征相似度(feature similarity，FSIM)以及均方误差(mean square error，MSE)定量评估s-DWI的图像质量。PSNR可以评估生成图像的信噪比。SSIM和FSIM分别评价生成图像s-DWI与参考图像b-DWI的结构和特征的相似度。MSE则反应s-DWI与b-DWI的总体差异。

两位分别具有4年和8年腹部影像诊断经验的放射科医师生在三个时间点(每次时间间隔两周)以随机顺序评估三组DWI(a-DWI、b-DWI、s-DWI)的图像质量。两位医师并不知晓本实验具体实验设计及各位患者的相关临床资料。每个时间点，每位阅片者独立阅读一个DWI序列，并采用Likert scale评分法对DWI总体图像质量，前列腺边缘清晰程度，噪声抑制打分(1分图像质量最差，5分代表图像质量最好)。

为评估不同DWI序列生成ADC的不同受试者间与受试者的一致性和鉴别肿瘤的能力，本研究采用两点法(b=50 s/mm2和b=1000 s/mm2)分别计算出基于a-DWI、b-DWI、s-DWI的ADC图(a-ADC、b-ADC、s-ADC)。首先，有由一位具有20年以上腹部影像诊断经验的医师作为协调者，参照病理结果，影像报告以及其他MRI序列图像，在ADC图上明确结节位置，并且选出最具代表性ADC层面(结节面积最大)。随后由两位具有2年腹部影像诊断经验的医师在不知晓任何患者信息的情况下根据协调者的标注，从结节中央勾画直径约0.5 cm圆形兴趣区(ROI)。每个病灶勾画三次，其平均值即该病灶为ADC值。1个月后，对所有ADC图像打乱顺序，两位负责勾画ROI的医师再次重复上述操作。

4.统计学分析

采用R软件(version 3.5.1：www.R-project.org)进行统计学分析。符合正态分布的连续变量资料差异性比较采取独立样本t检验。不符合正态分布的连续变量资料差异性比较采取Mann-WhitneyU检验。DWI质量评分比较采用Wilcoxon signed-rank检验。DWI质量评分和ADC值的可重复性检验采用组内相关系数(intraclass correlation coefficient，ICC)。

以P<0.05为差异具有统计学意义。

结果

受试者的基本临床信息见表2。本研究纳入病理证实的前列腺癌患者80名以及70名良性结节患者。前列腺癌患者与非前列腺癌患者的平均年龄差异无统计学意义(P>0.05)。前列腺癌患者的血清PSA水平显著高于良性结节患者(P<0.01)。

表2 患者基本临床信息

模型生成的s-DWI的PSNR、SSIM、FSIM、MSE分别为46.47、0.855、0.932、0.002。这提示s-DWI在噪声分布、结构以及纹理特征与b-DWI高度相似。

s-DWI图像质量与b-DWI图像质量相仿，二者在前列腺腺体轮廓，背景噪声，病灶对比度显示方面均优于a-DWI(图2)。此外，基于s-DWI计算所得的ADC图在前列腺病灶显示方面也明显优于a-DWI。

图2 66岁的中央区前列腺癌患者。a)基于a-DWI计算的ADC图；b)基于b-DWI计算的ADC图；c)基于s-DWI计算的ADC图；d)a-DWI；e)b-DWI；f)s-DWI；g)T2WI。

两位阅片者对三组DWI图像(a-DWI，b-DWI，s-DWI)的主观图像质量评分见表3。b-DWI和s-DWI在前列腺边缘清晰度、噪声抑制、总体图像质量得分方面均高于a-DWI，差异具有统计学意义(P<0.01)。而b-DWI和s-DWI在前列腺边缘清晰度、噪声抑制、总体图像质量得分方面差异无统计学意义(P>0.05)。

表3 不同DWI序列的图像质量评分

s-ADC和b-ADC不同方法间测量结果具有高度一致性(测量者1：ICC=0.96；测量者2：ICC=0.95)。ADC测量不同受试者间一致性检验结果见表4，s-ADC和b-ADC的ADC值不同受试者间一致性均高于a-ADC [ICC分别为a-ADC 0.52～0.66、b-ADC 0.87～0.96、s-ADC 0.88～0.95]。ADC测量相同受试者内一致性检验结果见表5，s-ADC和b-ADC的ADC值相同受试者内一致性均高于a-ADC(阅片者1的s-ADC和b-ADC不同方法间测量结果具有高度一致性(测量者1：ICC=0.96；测量者2：ICC=0.95)。ADC测量不同受试者间一致性检验结果见表4，s-ADC和b-ADC的ADC值不同受试者间一致性均高于a-ADC [ICC分别为a-ADC 0.52～0.66、b-ADC 0.87～0.96、s-ADC 0.88～0.95]。ADC测量相同受试者内一致性检验结果见表5，s-ADC和b-ADC的ADC值相同受试者内一致性均高于a-ADC(阅片者1的ICC分别为a-ADC 0.61～0.65、b-ADC 0.86～0.88、s-ADC 0.85～0.96，阅片者2的ICC分别为 a-ADC 0.67～0.78、b-ADC 0.87～0.88；s-ADC 0.81～0.92)。

表4 不同ADC图所测量的各部位ADC值受试者间的组内相关系数值(95%可信区间)

表5 不同ADC图所测量的各部位ADC值受试者内的ICC值(95%可信区间)

讨论

本研究主要创新点在于利用基于生成对抗网络的深度学习算法，有效提高了低激励次数的DWI图像质量，并且通过计算机视觉和临床价值两方面评估了该方法的可靠性。DWI是一项有着广泛的临床需求的MRI技术，在对前列腺癌诊断、分期和监测治疗方面具有重要作用。DWI图像质量与其临床评估效能以及生成的ADC值的准确度密切相关。在确保DWI图像质量的前提下，有效缩短扫描时间，一方面可以为医院节约时间成本，另一方面，减少了患者因为扫描时间长不自主运动概率，提高受试者图像质量，进而提高前列腺DWI和ADC的诊断效能。

由于强大的模拟数据分布以及图像转换的能力，诸多学者尝试利用GAN和其扩展算法在不同图像之间构建联系，进而实现不同图像之间的相互转换以解决临床遇见的诸多难题。为解决MR扫描速度较慢的问题，Nie等[15]通过基于GAN的神经网络成功将颅脑CT图像转换为颅脑MR图像。而Wolterink等[16]则与之相反，利用颅脑MR图像生成了CT图像，希望利用此方法有效减少患者扫描辐射。除了图像之间相互转换，GANs还被用于提高图像分辨率，减少噪声，去除伪影等方面。Jelmer等[12]利用GAN在常规剂量CT和低剂量CT之间构建映射，有效地提高了低剂量CT的信噪比。Wang等[17]成功利用GAN去除了内耳高分辨CT的金属伪影。虽然GAN在解决诸多传统医学图像问题上展现出巨大的潜力，但是，目前该技术尚未得到临床的广泛认可。一方面，通过GAN改善图像质量的实质是利用不同图像之间的映射进行图像生成，而生成的图像不同于真实扫描的图像，没有具体的临床意义。另一方面，既往研究主要通过传统计算机视觉评估方法对生成图像进行评估。因此，由GAN生成的图像虽然到达专业影像诊断医师肉眼难以分辨真假的程度，不少临床医生对其使用价值仍保有怀疑态度[6]。为此，本研究不仅采用传统的视觉评估指标评价了s-DWI与目标图像的噪声分布、特征相似度、结构相似度，还采用临床评估方法分别评估了s-DWI的图像质量以及其ADC值的价值。

本研究中，s-DWI图像和b-DWI在前列腺以及前列腺周围组织结构高度相似。通过定量评估，s-DWI和b-DWI在噪声分布方面相一致，其结构特征和纹理特征与b-DWI亦高度相似。通过基于GAN的深度学习网络，可以有效缩短DWI序列扫描时间而不损失其图像质量。不同阅片者对DWI数据集的图像质量评分结果显示，s-DWI与b-DWI在总体图像质量、前列腺边缘清晰程度、噪声抑制方面得分相似，且均高于a-DWI。这表明，多次重复采集信号确实可以弥补EPI-DWI低图像质量的缺点，明显改善图像质量。但是，由于EPI-DWI扫描时间取决于重复时间、扩散方向以及激励次数的乘积[3]，增强激励次数无疑延长了扫描时间，而长时间的扫描也增加了患者不舒适度以及不自主运动的概率。本研究通过低激励次数DWI直接生成的s-DWI在总体图像质量、信噪比以及前列腺外形轮廓方面与高质量多激励次数DWI均无明显差异。因此，在确保DWI图像质量的前提下，基于GAN的深度学习网络可以有效缩短扫描时间。

本研究最后验证了基于s-DWI和b-DWI生成的ADC的可重复性，其结果显示，s-DWI和b-DWI均表现为非常出色的受试者间一致性以及同一受试者的可重复性，而a-DWI不同受试者和同一受试者一致性明显低于s-DWI和b-DWI。此外，s-DWI和b-DWI计算的ADC值之间表现出非常高的不同方法间的一致性。ADC是评估前列腺癌分级、分期以及评估预后的另一重要指标，而ADC值的测量可重复性与DWI图像质量密切相关，低信噪比、图像变形等均会导致ADC值测量的不稳定性。为了提高ADC值测量的可重复性，临床采用了多次激励的平面回波序列[18]、Hybrid扫描法[19]、小FOV技术[20]、Near-silent distortion less DWI[21]等诸多方法改良DWI图像质量，进而提高ADC值可重复性。增加激励次数无疑会扫描时间明显增加。Hybrid扫描法虽然可以有效提高了图像质量，其扫描时间并没有明显减少。近些年兴起的小FOV虽然在去除伪影，提高分辨率，缩短扫描时间方面均有较大的进步，但由于其FOV缩小，无法评估盆腔淋巴结转移情况，临床价值收到限制。此外，小FOV技术和Near-silent distortion less DWI技术对于软件及设备平台具有较高要求。因此其临床应用受到限制[22]。本研究使用的模型，不需要过多依赖硬件和软件，为改善中低端磁共振机型的扫描图像，提供可靠ADC图像提供了新的途径。

本研究存在一定局限性：首先，考虑到标准b值DWI对于生成ADC和计算高b值DWI具有重要意义，本研究构建了b=1000 mm2/s的DWI的生成模型，该模型是否适用于更多b值DWI仍然需要进一步论证。其次，由于DWI和ADC值因不同梯度、不同厂家设备、不同人群均存在差异[23-24]，本模型的泛化性仍然需要多中心大样本实验进一步论证。

综上所述，基于GAN的深度学习算法可以有效地缩短前列腺DWI扫描时间，提升图像质量，有望应用于临床帮助减轻放射科医生的工作负担，并降低其漏诊误诊率，为辅助临床决策提供依据。