APP下载

基于辅助监督信号的肺结节良恶性分类

2021-08-06易乐张蕾

现代计算机 2021年16期
关键词:异质性恶性结节

易乐,张蕾

(四川大学计算机学院,成都610065)

0 引言

肺癌是我国乃至全球癌症相关死亡的主要原因,在2018年全球就有210万新增肺癌的确诊病例和180万新增肺癌的死亡病例[1]。早期发现恶性肺结节是至关重要的,它能够显著提升肺癌患者的五年生存率[2]。肺癌在多个层面中都具有极大的时间和空间异质性,包括基因、蛋白质、细胞、微环境、组织、器官等层面[3]。计算机断层扫描(CT)图像能够以非侵入的方式捕获肿瘤的异质性,因此,已经成为临床实践中筛查肺癌的常规手段。计算机辅助诊断(CAD)系统利用胸部CT图像,自动地检测出恶性的肺结节,极大减轻了临床医生的工作负担并加快了肺癌早期筛查流程。

近几年,肺癌的CAD系统取得了极大的发展[4-12],其取得的突破与深度卷积神经网络(DCNN)在医学图像分析任务上的应用息息相关。然而,小样本问题始终阻碍着DCNN在肺结节的良恶性分类任务上的性能。这个问题的出现主要是因为带有标注的数据获取存在很大的壁垒。

很多工作都致力于推进肺结节良恶性分类的任务[4-6,8,11,12]。如何从只有少量样本的肺结节数据集中,有效提取肿瘤异质性的表达,是这些研究的共同课题。这些方法包括了多视图[5,6,10]/尺度[7,8]、半监督学习[6]、迁移学习[5,12]等。然而,很少有研究涉及肺结节在影像中呈现出的形态学特征。临床上,这些特征在一定程度上反映了肺结节的异质性,能够辅助肺结节的性质的判断[13,14]。例如,恶性肺结节通常具有毛刺征、分叶征的形态学表现。

为了解决此任务中的小样本问题,我们提出多任务的肺结节分类残差网络(MTLNC-Net)。其将肺结节影响特征作为DCNN训练的辅助监督信号,使得即使在少量训练数据的情况下,网络依然能够很好地提取肺结节异质性表达,最终提升良恶性分类的性能。具体地,我们采用三维残差网络(3D-ResNet)[15]和带权交叉熵损失函数(W-CEL)[16]。更重要的是,应用了多任务学习中参数共享的模式,从而为特征提取网络引入辅助监督信号的正则化影响。

我们采用了LIDC-IDRI数据集[17]来验证我们提出的方法。实验结果表明,MTLC-Net有效解决了肺结节良恶性分类任务中的小样本问题。并且,对比于目前仅用一个骨干网络的肺结节良恶性分类工作,本方法取得了目前最好的结果。

1 方法

1.1 LIDC-IDRI数据集

LIDC-IDRI数据集[17]包含了1018个胸部CT扫描,其中包含2667个肺结节病灶。每个放射科医生独立地勾画出这些肺结节的感兴趣区域,并为它们的九个影像特征分配一个5-6个数值的程度评级。这些特征包括:难分辨度(subtlety)、内部结构(internal structure)、钙化(calcification)、球度(sphericity)、边缘(margin)、毛刺(spiculation)、分叶(lobulation)、质地(texture)、和恶性(malignancy),本文分别用Sub、Int、Cal、Sph、Mar、Spi、Lob、Tex、Mal表示以上的特征。由于这些肺结节有至少一个至多四个放射科医生标注,因此需要合并同一个肺结节有多个标注的情况。我们用了一个Python包,即pylidc(1)https://github.com/pylidc/pylidc,来查询并合并肺结节。最终,我们获得了2651个肺结节。另外,我们用多个标注结果的中位数来作为金标准。

表1给出了LIDC-IDRI数据集中每个评级的结节数量,其中,特征Int只有16个结节的评级不为1,因此,我们在本研究中排除了Int特征。另外,根据此前的研究[5,6,8,10,18],将Mal评级的3作为不确定,评级1-2作为良性,评级4-5作为。最终,一共纳入1393个肺结节。此外,我们将Cal特征的1-5的评级作为肺结节具有钙化特征(Cal=1,其他特征类似),将Spi和Lob的3-5的评级作为具有毛刺或者分叶征,将Tex和Sph的1-3的评级分别表示具有磨玻璃成分和肺结节呈现为线形或椭圆形,将Mar和Sub的1-2的评级作为肺结节呈现边缘不清晰和难分辨的特征。表2给了良性肺结节和恶性肺结节在每个特征上分别的数量。

表1 LIDC-IDRI数据集特征标签以及合并后每个评级的结节个数(N/A:无)

表2 不同性质肺结节的数量以及每种肺结节影像特征为正样本的数量

本研究中,我们将所有肺结节裁剪为32×48×48大小的图片。另外,我们在训练阶段使用了数据增广的方法,降低模型过拟合风险[4,8-10]。

1.2 MTLNC-Net

图1给出了MTLNC-Net的整体的架构:包含一个3D-ResNet[15]骨干网络和W-CEL[16]函数。采用3D-ResNet的原因有以下两个方面。第一,ResNet能够灵活改变网络的深度,从而方便选择此数据集上最优的网络大小;第二,不同于扩展2D-DCNN来提取肺结节的空间特征[5,6,10],三维的网络可以最大保留肺结节的空间异质性。

图1 MTLNC-Net的结构框架

表3给出了3D-ResNet的具体结构,其中每个AL(Assembled Layer)层是由残差块堆积而成了,在每个AL层的开始都会增加特征图的通道数量并对特征图进行降采样。AL层的每个残差块都设计了一个快捷连接,它使得这个块能够学到输入输出之间的残差,从而逼近一个恒等映射。通过残差块的堆积,ResNet能够灵活改变网络大小,并且也不会使得网络的正确率随着深度增加而出现显著的下降。本研究中,我们在3D-ResNet的输出层设置了8个神经元,其代表一个良恶性分类主任务和七个影像特征分类辅助任务。

表3 残差网络结构(Conv:卷积层,MP:最大池化,AL:残差块堆积层,GAP:全局平均池化,FC:全连接层)

另外,我们采用带权交叉熵损失函数[16]作为损失函数。它广泛应用于多标签分类,来缓解类别不平衡问题。假设p=F(x)(p∈(0,1)8,x∈RD)为输出的肺结节具有某种特征的概率,y∈{0,1}8为标签,其中y的每一位yl表示肺结节具有或者不具有此特征。W-CEL定义如下:

(1)

(2)

(3)

其中,|Pl|和|Nl|分别表示在一批数据中,第l个标签的正样本和负样本的数量。另外,ε用来防止没有正样本的情况,我们默认设置它为0.1。

不同于以往的肺结节良恶性分类的研究,我们关注利用肺结节的影像特征作为良恶性分类网络的辅助监督信号,从而解决此任务上的小样本问题。具体地,3D-ResNet同时输出良恶性的概率和每个特征的概率,输入到W-CEL中计算总体损失,再反向传播到网络中。由于肺结节的每个任务都共享同一个特征表达,并在训练过程中根据所有任务进行优化。相较于只输出良恶性的分类网络来说,多任务网络提取到的异质性表达更具一般性、具有特定噪声模式更少的,每个特征都能够在这组特征表达的特征空间中以某种方式区分。最终,网络能够提取更具泛化性的表达,即使仅有少量训练数据,DCNN对肺结节异质性特征提取依然有很好表现,从而很好地应对此任务上的小样本问题。

2 结果和讨论

2.1 评价指标

为了评估模型在肺结节良恶性分类任务上的性能,本文采用了正确率(Accuracy)、敏感性(Recall)、精确度(Precision)、特异性(Specificity)、F1值,以及受试者曲线下面积(AUC)。由于此数据集正负样本存在着不平衡的问题,因此,我们主要将AUC作为对比不同方法的主要参考指标。

2.2 实验设置

我们在一台有四块Tesla K40(12GB)显卡的服务器上进行了实验,其系统版本为Ubuntu(16.04),CUDA版本号为9。所有模型和实验代码都使用PyTorch 1.0和Python 3.6实现。所有实验都在LIDC-IDRI数据集上进行五次独立的十折交叉验证。我们使用已经在Kinetics数据集上收敛的3D-ResNet模型的参数进行初始化,并在LIDC-IDRI数据集上微调160个周期。验证集上取得最好的良恶性分类AUC结果被保存下来。优化器采用SGD,其初始学习率为0.001,并且会在每40个周期后减小10倍,每个批量的大小为32。另外,我们用0.5作为分类的阈值。所有结果都乘以了100,并用均值和标准差来呈现。

2.3 实验结果

在本节中,我们将只进行良恶性分类(SingleTask,ST)和使用辅助监督信号进行良恶性分类(MultiTask,MT)的情况进行对比,以验证提出方法的有效性。另外,我们改变3D-ResNet的深度,以探索深度变化对于ST和MT性能的影响。实验结果如表4所示。

表4 不同网络深度和不同训练损失函数情况下肺结节良恶性分类的性能(ST:单任务,只进行肺结节良恶性分类的任务;ML:多任务,肺结节良恶性分类与肺结节影像特征分类)

首先,在3D-ResNet-18的情况下,ST-WCEL整体表现更优,即,除了Recall以外,其他指标都取得最好的结果;在3D-ResNet-34的情况下,两种方法整体表现接近。但是,MT-WCEL的F1和AUC更优,在不平衡数据集的条件下,这两个指标能够更好得衡量模型的性能;而在3D-ResNet-50和3D-ResNet-101的情况下,MT-WCEL在所有指标上都能超过ST-WCEL。另外,从深度变化的角度来看,ST-WCEL和MT-WCEL的性能首先会提升,一定程度后性能会降低,两者最优的结果大致都在3D-ResNet-50取得,但过于深的模型表现也总体优于较浅的模型,如3D-ResNet-101优于3D-ResNet-18与3D-ResNet-34。第三,在同样的分类阈值条件下,MT-WCEL相较于ST-WCEL的结果标准差更小,这表明MT-WCEL方法效果更加稳定。

总的来说,在此小数据集上,通过在肺结节良恶性分类网络中引入影像特征分类的监督信号,良恶性分类任务能够取得较大提升。同时,这种方法也能充分利用3D-ResNet-50与3D-ResNet-101这样非常深的网络的强大的特征表达能力,提取的肺结节异质性表达更具一般性,并且网络学习更加稳定,大模型在单任务、小数据集上的过拟合风险显著降低。

2.4 多任务方法解决小样本问题的实验分析

在本节中,我们探索在训练样本数量不断减少时,ST-WCEL和MT-WCEL两种方法效果的变化。具体地,我们使用3D-ResNet-50作为骨干网络,固定使用20%的数据作为测试集,然后每次减少整体10%的数据来训练网络。每个实验独立重复5次。结果如图2所示。

图2 训练数据集数量改变对网络的分类性能的影响。左图为F1的变化,右图为AUC的变化。其中竖线表示标准差。

随着训练数据量的变化,MT-WCEL整体性能都优于ST-WCEL。另外,根据AUC的变化,MT-WCEL的效果从采样为8/8训练数据到采样3/8训练数据时下降相对于ST-WCEL更缓慢,这表明辅助监督信号有助于网络对主要分类任务的判别,此方法能够有效地弥补训练数据量不足的缺陷。另外,在训练数据量减少到一定量时,MT-WCEL性能会急剧下降,其原因可能是训练数据中肺结节具有影像特征的正样本数量减少,致使W-CEL损失函数对于某种特征的权重过大,从而影响网络整体的分类效果。

2.5 与目前单模型的方法对比

在本节中,我与目前研究报告的单模型得到的结果[5,8,11,18]对比。只对比单模型的结果的原因是,我们提出的方法也可以采用模型集成方法来提升整体分类结果。因此,在将来的工作中,我们也会进一步利用本研究中的方法,结合模型集成,在肺结节良恶性分类任务上取得更好的效果。表5给出了从这些研究中找到的单模型结果,并给出了良恶性肺结节数量。

表5 与目前研究中单DCNN模型结果的对比(N/A:结果未给出)

本研究提出的方法可以在单模型的情况下,在F1和AUC两个指标上可以大幅超过其他研究里的结果。但是分类的准确率较低,在此后的研究中也会关注提升整体的分类准确率。另外,我们使用的结节数量也少于最近结果较好的两个研究[5,8],因此,我们之后会重新处理数据集,以取得数量接近的数据集。

3 结语

本文提出基于深度卷积神经网络的辅助监督信号的肺结节良恶性行分类方法。具体地,我们使用了三维的残差网络作为特征提取的骨干网络,它能够使得我们更好地选择网络的大小。更重要的是,我们将肺结节的在CT影像中的形态学特征作为辅助分类任务,与良恶性分类的主要任务一起训练。这种多任务的监督学习方式,使得仅有少量的训练数据时,肺结节良恶性分类任务依然也能取得更好结果,从而有效地解决该任务上的小样本问题。

我们将结果与目前研究中报告的单模型取得的结果进行对比,提出的多任务方法在此条件下是最优的。将来,我们会结合本研究中的方法,探索多个骨干网络集成的方式,更好地提取肺结节的异质性表达,从而在此任务上超过目前研究报告的最好结果。

猜你喜欢

异质性恶性结节
城市规模与主观幸福感——基于认知主体异质性的视角
管理者能力与企业技术创新:异质性、机制识别与市场价值效应
异质性突发事件对金融市场冲击分析
基于收入类型异质性视角的农户绿色农药施用行为研究
体检发现的结节,离癌症有多远?
查出肺结节,先别慌
探讨促甲状腺激素与甲状腺球蛋白联合检测在甲状腺良恶性结节诊断中的效果
探讨超声检查在甲状腺肿块良恶性鉴别中的诊断价值
了解这些,自己读懂甲状腺B超报告
甲状腺结节能 自己消失吗?