基于多模型融合的肺部CT新冠肺炎病灶区域自动分割

2023-03-06史天意郑传胜许永超

自动化学报 2023年2期

史天意程枫李震郑传胜许永超白翔

2019 年12 月以来,新型冠状病毒 (Coronavirus disease 2019,Covid-19)已经成为全球人类健康的严重威胁[1-2].截止至2021 年5 月7 日,根据约翰霍普金斯大学系统科学与工程中心[3]的全球病例统计,已报告156 176 138 例Covid-19 确诊病例,其中死亡3 258 680 例,影响192 个国家/地区.因此,新冠肺炎这一全球流行的传染病对全世界都是重大挑战[4].

目前,新冠肺炎的快速诊断治疗依然是保护人民健康的重中之重,尤其对重症、危重症患者病情的综合救治与分析[5].为了更好地应对Covid-19,准确筛查病人和快速控制病毒传播是当务之急.虽然反转录聚合酶链式反应(Reverse transcription polymerase chain reaction,RTP-CR)方法被认为是筛查Covid-19 的金标准,但是其检测灵敏度仅为60%～ 71%[6-7].为了弥补RT-PCR 技术检测能力的不足,引入计算机断层扫描(Computer tomography,CT)影像辅助分析是非常重要的.CT 影像分析具有较高敏感性,有助提高Covid-19 的诊断准确率,帮助进行早期筛查[8-9]阻止病毒传播.

据报道[10],通过CT 影像可以观察到典型的肺炎病灶表征,如毛玻璃样阴影.这些特征为Covid-19 病情的定量评估提供了有效信息,成为对抗Covid-19 的重要手段.然而,手工标注肺部病灶区域是一项极其耗时且繁琐的工作,难以大规模应用于临床诊断.同时,放射科医生对病灶的标注常常也会受到个体偏见和临床经验的影响.特别地,Covid-19 是一种新型突发的病毒,造成了经验丰富医生的严重短缺.所以,十分有必要对Covid-19 肺炎病灶的自动分割算法进行研究.

目前,已有许多学者研究基于深度学习的Covid-19 肺炎病灶的分析方法,这些工作主要集中在肺炎诊断分类[11-18]和病灶影像分割[19-38]两个方面.与肺炎诊断分类相比,CT 影像分割能提供更多的定量数据和病灶区域的直观表征.然而,由于Covid-19的传播范围广,很难有效收集到不同国家以及医院的分割数据.而且Covid-19 病灶分割算法也常常难以在不同医疗中心上获得同样良好的分割性能.因此,提升Covid-19 病灶分割算法在多中心数据上的泛化性能是非常重要的.

针对上述问题,本文提出了一种融合3D 和2D模型的图像分割算法,提高Covid-19 肺炎病灶CT影像分割性能,尤其是其泛化性能.如图1,发现3D 和2D 的分割结果具有不同特点.通过比较2D和3D 模型在多中心数据集上的结果,发现3D 模型[39]的结果更倾向在整个CT 扫描层上出现破碎.但同时,也有些病灶被3D 模型正确分割,而2D 模型[40]却没有得到正确完整的分割结果.为此,结合了多模型彼此的优点,在多中心数据集测试上得到更准确的结果,获得更好的泛化性能.也在2DUnet 的基础上引入了方向场(Direction field,DF)进行监督,有助于2D 模型利用方向场获得更精确的结果.由图1 可以看出,本文方法提升了2D 模型的检测精度,同时消除了3DUnet 部分破碎的错误结果,具有更好的分割性能.本文主要有以下贡献:

图1 2DUnet[34]、3DUnet[35]以及本文方法在交叉数据上的测试结果Fig.1 An example of segmentation result on cross-datasets test by 2DUnet[34],3DUnet[35] and our method

1)根据3D 和2D 模型的各自特点,提出了一种多模型融合的框架,结合不同模型优点,提高Covid-19 肺炎病灶分割泛化性能.

2)将方向场应用于2DUnet 进行监督,结合更多信息,优化了2DUnet 的结果.将方向场信息应用在Covid-19 肺炎病灶分割,也是对方向场方法应用的延伸.

3)提出了一种融合方法来融合Covid-19 肺炎病灶2D 和3D 模型的分割结果.以2D 分割结果作为种子,结合3D 分割结果进行融合,利用不同模型结果的特点与联系,取得了更好的多中心分割结果.

1 相关工作

本节将主要介绍与本文工作最为相近的三个方面工作: Covid-19 肺炎病灶图像分割、方向场应用和多模型融合方法.

1.1 Covid-19 肺炎病灶CT 图像分割

目前,Covid-19 肺炎病灶CT 影像分割可以提供定量特征[41],进行大规模筛查[18]和肺部感染量化分析[42],准确评估疾病严重程度.但是,目前对于提高Covid-19 肺炎病灶分割泛化性能的研究却较少.

最近,很多学者提出了基于传统方法的新冠肺炎病灶分割算法[36,42-43].例如,Shen 等[43]基于阈值和区域增长进行病灶分割.Oulefki 等[36]提出了一种图像对比度增强算法和多级图像阈值方法进行肺炎病灶分割.同时,有大量基于深度学习的方法进行研究.Cao 等[31]和Huang 等[32]利用Unet 分割肺炎病灶区域进行量化分析.Shan 等[29]应用VB-net进行分割.Chaganti 等[28]训练两个网络分别获得肺部区域和病灶,使用肺部区域过滤得到病灶,实现自动分割和量化.Yan 等[35]提出一个基于CNN 的分割网络进行病灶分割.Fan 等[19]提出Inf-Net 使用边缘信息增强模型特征,同时为了缓解数据不充足的问题,提出半监督框架.Wu 等[21]结合分类和分割模型,建立一个可解释的Covid-19 诊断分割系统.Zhao 等[22]提出利用残差[23]和注意力机制[24]进行Covid-19 病灶分割学习鲁棒的特征.为了使用更少的数据训练,解决数据不充足的问题,有学者构建了一个更轻量级网络MinSeg[25].Jiang 等[27]提出使用生成对抗网络(Generative adversarial networks,GAN)去生成数据进行训练,补充数据不充足问题.

虽然目前这些新冠肺炎分割方法都取得了很好的效果,但大多通过修改现有模型或直接利用现有方法来提高Covid-19 肺炎病灶分割的准确性.而很少有人关注如何提高算法对不同中心数据的泛化性能,以适应实际应用环境.因此,本文将更为专注地提高新冠肺炎病灶分割算法泛化性能.

1.2 方向场的应用

基于方向场的分割方法已经在文字检测[44]、骨架检测、物体一般自然场景分割[45]和心脏影像分割[46]上得到了许多应用.但目前,对于Covid-19 肺炎病灶分割,尚无相关工作使用方向场提高分割精度.本文利用方向场提升2D 模型结果,对方向场方法进行应用领域的扩展.

1.3 多模型融合方法

常用的多模型融合方法有Voting[47]、Bagging[48]和Boosting[49].主要是对多个模型的结果进行加权,得到融合结果.诸如AdaBoost[50]等方法通过不断继续学习并对前一个分类器的错误再进行分类.也有学者对于眼底血管的多模型融合方法[51]进行研究,尝试对不同区域采用不同模型进行直接融合,再对最后的融合结果通过区域生长优化.但是多模型融合方法没有利用不同模型结果之间的联系进行融合,而是直接分成不同的感兴趣区域直接融合不同模型结果.

虽然这些方法在各自的应用中都取得了很好的效果,但是对于不同模型Covid-19 肺炎病灶分割结果的融合,还没有合适的方法,尤其是对于新冠肺炎病灶分割任务既需要考虑全局信息,又需要考虑层间信息,并且联系不同模型之间结果这一特点.通过观察不同模型的分割结果,本文提出了一种新冠肺炎病灶计算机断层扫描的多模型融合方法(Fuse multi-models,FMM),以得到更为理想的分割结果.

2 新冠肺炎CT 影像多模型融合分割方法

2.1 简述

目前,新冠肺炎病灶CT 影像往往来自不同医院和国家,造成图像质量出现差异,而这些差异会使算法难以准确分割病灶.这个问题在Covid-19 全球范围流行的情况下尤为突出.因此,需要提出一种具有更好泛化性能的新冠肺炎病灶分割算法.

为此,本文提出了一种多模型融合方法,以获得更完整、更精确的分割结果.本文算法如图2 所示,利用区域增长的方式融合2D 和3D 模型的分割结果,与单独一种模型相比取得了更好的效果.本文首先分别训练3D 和2D 模型,具体网络结构和损失函数将在网络结构一节中介绍;该算法利用多模型的不同优点,将2D 分割结果作为种子融合3D 模型结果,最后得到融合后的分割结果.此外,该融合方法能有效地利用多模型的优势,得到更好的分割结果,具体多模型融合方法将在多模型融合方法一节中介绍.

图2 新冠肺炎CT 影像多模型融合自动分割整体流程Fig.2 Pipeline of fusion multi-models for automatic Covid-19 pneumonia lesion segmentation from CT images

2.2 网络结构与损失函数

2.2.1 网络结构

本文的网络结构由3DUnet[23]和2DUnet[40]结合方向场(2DUnetDF)[51]组成.由于Covid-19 肺炎病灶在相邻切片中存在一定相关性.因此,本文将利用3DUnet 在切片之间获取这些信息.3DUnet 的训练使用随机提取尺寸为 1 28×128×128 像素的块.由于没有完整切片信息,在3DUnet 分割中会出现错误和碎片的分割结果.这也是本文的方法使用2D 模型2DUnetDF 的原因.本文使用2D 数据完整的全局切片信息来训练2DUnetDF.本文使用Cheng 等[46]的方法,利用方向场作为2DUnet 的监督,修正和优化2D 模型结果.如图3 所示,引入方向场作为一种新的监督.这部分模型主要基于2DUnet,通过方向场模块来进行辅助监督.首先建立方向场,对于每个点,可以通过找到距离它最近边界点的一个二维的方向向量建立方向场,b为内部点,p为边界点,计算公式如下:

图3 2DUnet 利用额外的方向场作为监督优化分割结果Fig.3 2DUnet utilizes additional orientation fields as supervision to optimize segmentation results

接着,利用特征校正和融合(Feature rectification and fusion,FRF)模块通过预测方向场来优化初始分割.具体地,结合网络学习的原始特征和方向场,通过一步一步地矫正逐渐得到增强的特征.F0为原始特征,FN为N步增强特征,px和py表示像素点的x与y坐标,每个点的特征通过双线性插值得到,N是超参数,1≤k ≤N:

因为方向场大致指向目标中心位置,N步之后边界点的特征被靠近中心点的特征取代,以此得到更好的分割结果.最后,对两个模型的结果进行融合,利用各自的优势,融合得到更好的分割结果.

2.2.2 损失函数

对于3DUnet 部分,采用Dice 损失函数[52]对网络参数进行了优化.2DUnetDF 部分的损失函数由初始分割、最终分割和方向场[46]损失三部分组成.来代替交叉熵损失为此,使用Dice 损失函数分别表示对于初始分割结果和最终分割结果的损失.方向场损失用表示:

2.2.3 多模型融合模块

3 D 和2D 模型的分割结果具有互补性,其中3D 模型包含切片层间的信息,而2D 模型保留了单张切片的全局信息.所以,本文提出了一种基于多模型结果的融合方法来提升分割效果.

如图4 和算法1 所示,本文使用2D 分割结果作为种子,同时3D 结果作为相邻元素.检查种子点的8 个相邻像素是否应该放入融合结果.本文将2D 分割预测结果中肺炎病灶的每个像素放入种子像素集SSP,并将3D 分割预测为肺炎病灶的每个像素放入邻近像素集SNP,以检查是否需添加新的像素到融合分割结果Sf.使用2D 分割结果作为融合分割结果Sf的初始值.从SSP中弹出pSP作为种子.检查与pSP相邻的每个像素位置pNP.如果在SNP中存在pNP与对应pSP相邻,而又不在Sf中,则将pNP添加到Sf,并将其加入SSP.然后,Sf按上述规则增长,直到SSP为空.最后,Sf为最终的融合分割结果.最终分割结果相当于以2D 分割结果为基础并连接相邻的3D 分割区域.

图4 2D 和3D 分割结果融合方法Fig.4 Illustration of 2D and 3D fusion method

综上所述,本文的融合方法利用2D 分割结果使用单个完整切片作为输入包含更多全局信息,使得融合的分割结果更准确,解决了原本3D 模型对整体空间信息不足的问题.同时3D 模型考虑了切片之间的更多层间信息,而单个2D 模型不能直接使用这些信息.通过这种2D 和3D 分割模型结果的融合,本文方法可以相互利用不同模型的优势,有效地提高性能.

3 新冠肺炎CT 多模型融合分割实验验证

3.1 数据集和评估方法

3.1.1 数据集

在本文实验中,使用武汉协和医院和同济医院的190 例和185 例新冠肺炎病例的CT 图像.这批新冠肺炎CT 图像数据尺寸为512×512 像素,每个病人的CT 层数为20～ 300 不等.在两个不同医院的新冠肺炎患者数据集XH 和TJ 数据集上验证提出的方法.XH 数据集共有190 例肺炎病例,其中150 例(XH150)用于训练,40 例(XH40)用于测试;TJ 数据集共有185 例,其中145 例(TJ145)用于训练,40 例(TJ40)用于测试.

3.1.2 评估方法

使用Dice 作为评估分割质量的指标.此外,还使用Hausdorff95[53]来评价分割边界的准确性.因为它有利于分析病灶形状,进而从不同角度更全面地评价结果.

3.2 实现细节

对于3DUnet 模型部分,随机选取尺寸为128×128×128 像素块进行训练,同时设置批大小为1,训练网络350 个周期.同时,采用Adam[54]作为优化器,初始学习率设置为0.001,分别在[100,200,300]周期时将学习率衰减0.5 倍.

对于2DUnetDF 部分,同样采用Adam[54]进行优化,并用32 的批大小训练网络50 个周期.初始学习率设置为0.001,学习率在[2,5,8,15]次周期时衰减0.5 倍.

3.3 实验结果

3.3.1 同数据集评估结果

分别比较了多模型融合方法FMM、3DUnet 和2DUnet 方法在XH 与TJ 两个数据集上的测试结果.如图5(a)～ 5(c)所示,FMM 可以分割出更精确的病灶形状,能够减少大部分3D 模型结果出现破损错误的区域.本文方法减少了破碎区域,同时得到更精确的分割结果.

图5 在同中心数据集与多中心数据集上,分析比较2DUnet、3DUnet 和本文方法的分割结果Fig.5 Visual comparison of the Covid-19 pneumonia lesions segmentation results by 2DUnet,3DUnet and our method on in-dataset and cross-dataset

对于定量结果,在XH40 数据上训练并测试的结果如表1 (左栏)所示,3D+2DUnet (FMM)表示3DUnet 与2DUnet 模型结果的融合结果,3D +2DUnetDF (FMM) 表示3DUnet 与2DUnet 结合方向场模型结果的融合结果.由表1 可以看出,与其他方法相比,FMM 具有更好的精度.在XH40 上测试,FMM 实现了87.93%的Dice,与3DUnet 相比提高了7%.TJ40 数据上训练测试的结果如表2(右栏)所示,本文FMM 方法也表现出了很强的竞争力.具体地,本文方法在TJ 上测试比3DUnet方法高出7.81%,而且对于2DUnet 结果也有着一定提升.对于Hausdorff 距离,如表3 所示,FMM方法获得了与其他方法相当的结果.

表1 XH150 训练在XH40 和TJ40 测试的Dice 结果Table 1 Dice comparison of methods trained on XH150 and test on XH40 and TJ40 datasets

表2 TJ145 训练在XH40 和TJ40 测试的Dice 结果Table 2 Dice comparison of methods trained on TJ145 and test on XH40 and TJ40 datasets

表3 不同方法在同数据集测试的Hausdorff95 结果Table 3 In-dataset evaluation of different methods for Hausdorff95

3.3.2 多中心数据集评估结果

为了验证本文FMM 模型的泛化能力,还评估了在一个数据集上训练另一个数据集上测试的交叉数据测试结果.特别关注这种情况下分割性能,因为它与实际诊断情形更为相似,更具实际应用意义.

如图5(b)和图5(d)可以看出,FMM 能够减少由3DUnet 预测结果的破碎区域,并且与2DUnet 相比病灶分割结果更为精确.

在TJ40 数据上的定量结果如表1 (右栏) 所示,与其他方法相比,本文提出的方法在Dice 指标上有着显著提升.FMM 实现了82.90%的Dice.与3DUnet 和2DUnet 相比,分别提高了4.95% 和8.26%.XH40 数据上的定量交叉数据测试结果如表2 (左栏)所示,FMM 算法也实现了82.43%的Dice,明显优于其他方法.具体地说,FMM 与3DUnet 和2DUnet 相比,分别提高了12.26%和4.18%.

由表1 和表2 可以看出,本文的FMM 还使XH40 和TJ40 在交叉数据结果上测试性能下降变得更小.这也可以进一步证明,FMM 有助于提高泛化性能.

为了更全面地评价本文方法的性能,将Hausdorff95 距离用于跨数据集评价.如图6,与其他方法相比,本文提出的FMM 能够更为准确地分割出新冠肺炎病灶边界.由表3 和表4 可以看出,FMM显著地减少了Hausdorff95,得到了更精确的结果.

表4 不同方法在交叉数据集测试的Hausdorff95 结果Table 4 Cross-dataset evaluation of different methods for Hausdorff95

图6 FMM 能够更为准确地分割出新冠肺炎病灶边界Fig.6 FMM obtains better lesion boundary

由以上结果可以看出,FFM 方法对交叉数据集评估有着更明显的改善.该方法充分利用了2D和3D 模型分割结果的互补性,提高了模型的泛化能力.这对于Covid-19 肺炎病灶分割更为实用,因为实际使用时,算法将同样面对来自各个不同医院与国家的数据.这些交叉数据集的实验结果表明,FMM 对于不同中心的数据具有很强的泛化能力,这对于实际的诊断和治疗是至关重要的.

3.3.3 多模型融合方法对比实验

为了更好地比较FMM 融合方法与常用多模型融合算法的效果,对比了多模型投票的融合方法(Voting).对比3DUnet-Voting、2DUnet-Voting 和Multi3D2DUnet-Voting,它们分别是用了3个3D 模型、3 个2D 模型以及3 个3D 模型和3 个2D 模型的结果进行Voting 融合.同时,为了更公平的比较,利用FMM 方法融合了3DUnet-Voting和2DUnet-Voting 的结果Multi3D2DUnet-Voting (FMM).如表5 和表6 所示,本文提出的FMM融合方法在即便分别只利用单个3D 模型和2D 模型的条件下3D+2DUnet (FMM),同使用更多模型结果融合的Voting 方法相比,可以得到更好或是近似的结果.而在用相同数量模型结果时,FMM明显优于Voting 方法,更好地提升了Covid-19 的分割能力与泛化性能.

表5 XH150 训练,不同融合方法在XH40 和TJ40 测试Dice 的对比结果Table 5 Dice comparison of methods trained on XH150 test on XH40 and TJ40 datasets with different fusion methods

表6 TJ145 训练,不同融合方法在XH40 和TJ40 测试Dice 的对比结果Table 6 Dice comparison of methods trained on TJ145 test on XH40 and TJ40 datasets with different fusion methods

虽然Voting 的融合方法对Covid-19 分割能力的提升有一定帮助,但是由于Voting 多模型融合方法没有考虑2D 和3D 模型结果的相关位置信息,而是直接进行投票融合,导致融合结果并没有优于FMM.而FMM 融合方式对于2D 和3D 模型结果,更好地结合了全局信息和层间信息,因此更有效地提升了Covid-19 的分割能力和泛化性能.

3.3.4 消融实验

本节通过消融实验,验证方法中方向场以及多模型融合模块的作用.

1)方向场.首先分析方向场为整体模型带来的贡献.如表7 和表8 所示,2DUnet 加入方向场后一定程度上提高了对同一数据集分割性能,同时显著提高了在多中心数据集测试的性能.定性的结果如图7所示,通过观察2DUnet 和2DUnetDF 的结果,当不使用方向场时,结果会更倾向不完整和破碎,特别是在多中心数据集测试,结果更接近实际应用的情况.因此,方向场有助于提高新冠肺炎病灶分割的泛化性能.

表7 XH150 训练在XH40 和TJ40 上测试的消融实验结果Table 7 Ablation studies for Dice trained on XH150 test on XH40 and TJ40 datasets

2)多模型融合.如表7 和表8 所示,多模型融合模块对同一数据集的分割性能有一定改善,而对交叉数据集测试有明显提升.如图7 所示,根据3DUnet+2DUnet (FMM)和3DUnet+2DUnetDF(FMM)的结果,多模型融合方法可以帮助2D 和3D 模型获得更好的分割结果,并且在交叉数据集上提升更为明显,证明了多模型融合方法对肺炎病灶分割泛化性能有着显著提升.

图7 消融实验可视化定性比较方向场以及融合模块对于整体方法的贡献Fig.7 Visualization of the ablation result by different methods to analyze contribution of the direction field and fusion method

表8 TJ145 训练在XH40 和TJ40 上测试的消融实验结果Table 8 Ablation studies for Dice trained on TJ145 test on XH40 and TJ40 datasets

4 存在不足

在大多数情况FMM 都能够很好地分割肺炎病灶,但是对于一些单独细小的病灶分割存在困难.这是因为FMM 的预测结果是基于2D 模型种子.如果这些小区域无法成为种子,那么最终结果将出现漏分割.这些分割有误的例子如图8 所示,FMM对于很小的病灶分割能力有一定局限.一些小面积病灶区域没有被正确分割,而小物体的分割也一直是许多分割方法的难题,还需要进一步解决.

图8 困难样本结果可视化Fig.8 The visualization of hard samples

5 结束语

本文旨在提高Covid-19 肺炎病灶的分割能力,尤其是泛化性能.为此,利用2DUnet 结合方向场模型与3DUnet 模型进行融合,形成融合多模型结果的新冠肺炎病灶分割方法(FMM).既保留了2D模型整体位置准确的特点,又充分利用了3D 模型可以学习到层间信息的特点.实验结果表明,方法能够有效地提高模型对不同中心来源数据的分割性能.因此,FMM 能有效地提高Covid-19 的分割能力和泛化性能,有助于在实际应用中的推广.