APP下载

多模态医疗图像分类

2022-03-12马伟镇何良华

电脑知识与技术 2022年3期
关键词:深度学习神经网络

马伟镇 何良华

摘要:在疾病诊断过程当中通常会生成各种各样的医疗图像,利用计算机综合考虑来自不同模态的医疗图像来辅助诊断成了一个热门的研究方向。本方法利用深度神经网络获取不同模态的医疗图像的特征,通过设计损失函数的正则化项,使得这些特征在共同语义空间上保持结构上的相似性,来让网络学习到更加鲁棒的特征。本方法在CPM-RadPath2020和CheXpert这两个数据集上取得比一般方法更高的准确率,表明了其在多模态医疗图像分类问题上的有效性。

关键词:多模态融合;医疗图像;神经网络;深度学习

中图分类号:TP311     文献标识码:A

文章编号:1009-3044(2022)03-0075-02

开放科学(资源服务)标识码(OSID):

1 概述

多模态机器学习的模型有很多种,比如利用贝叶斯理论来构建的概率模型、利用模糊概念构建的模型[1]、利用玻尔兹曼机(BM)[2]来学习共享特征的模型。近年来深度神经网络获得了很大的发展,因此利用深度神经网络处理多模态问题成了一个热门的研究方向。我们主要利用深度神经网络来进行多模态融合的研究。

在疾病诊断过程中,医生会使用来自不同模态(CT,MRI等)医疗图像来对疾病进行综合判断。直觉上来说,这些来自不同模态的医疗图像包含存在于它们之间的共享信息,以及各个模态所独有的信息。共享信息本身能够用于疾病的诊断,而且共享信息在不同模态之间出现也能够加深信息的可信程度。独特信息可能和诊断相关,也可能与诊断无关,但有些时候这些独特信息也会对诊断起到关键的作用。因此,设计合适的多模态融合方法来综合考虑来自不同模态的信息,是提升医疗图像分类准确率的重要途径之一。

根据多模态融合时机的不同可将融合方法分为输入层级、中间层级和决策层级。输入层级融合方法比较直观,通常是将来自不同模态的数据融合成一个多通道的模态,中间层级的融合方式多种多样,比如MMTM[3]设计的双路网络,每一层都可以将来自一个网络的信息融合到另一个网络当中。决策层级的融合会利用来自不同模型输出的特征或策略来进行综合判断。比如很多人利用不同网络输出的特征拼接成新的特征作为分类的依据,或利用majority voting的方式进行决策。

2 相关工作

笔者使用预训练的ResNet和DenseNet作为图像的特征提取器。对于CPM-RadPath2020[5]脑肿瘤分类任务,需要对训练过程做一些特殊处理。CPM使用病理切片和核磁共振成像(MRI)作为输入模态,但单个病理图片和MRI的大小太大,直接使用它们作为网络的输入对于目前计算机来说还是个挑战,通过对两个模态进行降采样,以及使用多示例学习的方法来缓解这个问题。采用文献[4]的滑动窗口的方法对病理图片采样出较小的子图片。对于MRI来说,我们对垂直轴方向进行降采样,随机选取适当数量的切片作为新的样本。因此,每个模态都包含多张2D图像,分别使用各自的特征提取器对它们进行特征的提取,然后求平均值作为各个模态的特征。这样简单的多示例学习策略在实验当中也能取得很好的效果。

在网络学习的过程能够有效利用多个模态中存在的共享信息。因此在语义空间当中,类型相同的样本的特征是相似的,类型不同的样本的特征是不相似的,这样的方法类似于对比学习当中的思想。这样使得不同模态的特征分布具有相似的结构,这样的相似性可以看作不同模态之间的共享信息。利用不同模态之间的共享特征和各自模态的独特特征,模型可以做出更准确的判断。

对于不同模态,我们假设[hi∈H,i∈{1, 2, …, M}]为特征提取模型,其中[H]为假设空间。设[ai, i∈{1, 2, …, M}]为第i个模态的特征。

[ai=hi (Xi ), i∈{1, 2, …, M}]

在语义空间当中,当[ai]来自同一个类型标签的输入[Xi]时,它們在语义空间上相似,当[ai]来自不同类型标签的输入时,它们在语义空间上不相似,如图1所示,图中不同颜色代表不同类别,不同形状代表来自不同模态。根据这个限制,我们可以构造相应的损失函数,使用余弦相似度来衡量特征之间的相似性,使得来自同一样本的不同模态的特征相似度高于来自不同样本的模态的特征的相似度。对于存在两个模态的情况,损失函数的形式为:

[lossst=i,j,k max0,m+dai1,aj2-dai1,ak2+λi,j,kmax0,m+dai2,aj1-dai2,ak1]

其中上标[i,j,k]代表特征来自不同的样本,[i,j]代表正样本对,即它们的类别标签相同。而[i,k]代表负样本对,它们的类别标签不相同。我们使用负余弦相似度来衡量两个特征的距离:

[da1,a2=-a1∙a2a1a2]

图 2为模型的结构,各个模态使用预训练的ResNet作为特征提取器。对于来自不同模态的特征,为了提高特征的丰富性,我们希望模型不仅学习到输入的一阶特征,还希望能够学习到[n∈{2,3,…}]阶特征。因此,使用多个MLP(多层感知机)来输出不同阶的特征,然后使用[a1=a11+a212+a313+…]来获得模态的最终特征,最后通过拼接的方式来得到最终用于分类的特征,该特征可直接用于分类任务,我们使用MLP作为分类器来得到最终分类结果。

模型的损失函数不仅要保持各个模态的特征的分布结构的相似,同时还要使得最终的分类尽可能的正确,因此还需要增加额外的损失函数:

[Losscls=-1Nic=1Myiclog (pic)]

其中N为batch的大小,M为分类类别的数量,[yic∈{0,1}]为第i个样本的标签,[pic∈[0,1]]为模型输出的概率,该损失函数为交叉熵损失函数。总体的损失函数为:

[lossall=lossst+losscls]

3 实验和结果分析

3.1 数据集

笔者在CPM-RadPath2020[5]和CheXpert[6]两个数据集上进行实验。

CPM-RadPath2020是一个脑部肿瘤分类任务的数据集,该数据集包含病理图片和脑部核磁图像这两个模态,这些样本可分类为三个类别,分别为较低级星形细胞瘤、少突胶质细胞瘤与胶质母细胞瘤和弥漫性星形胶质细胞胶质瘤。由于该任务以公开比赛的形式提供实验数据,其测试集未公开。使用其公开训练集并划分为子训练集和测试集。

CheXpert数据集是一个大规模胸部X光片数据集,我们在其多标签分类任务上进行实验,每个样本包含5个标签。由于该数据集包含人体正面和侧面两个不同方向的胸部X光片数据,但对于同一个人来说,不是每一个样本都同时存在正面和侧面两个方向的数据。因此,只使用数据集当中同时存在正面和侧面的X光片的样本作为训练集和测试集,在这个数据集上,可以将正面和侧面当作两个不同的模态。

3.2 CPM-RadPath2020

在这个数据集上,我们在一张1080Ti显卡上进行实验。由于显存的限制,考虑在病理图片上使用ResNet101作为特征提取器,输入的每个病理图片patch都缩放至[224×244]的大小,并使用归一化,随机翻转,以及随机切割这些数据增强方法。在核磁图像上使用DenseNet121作为特征提取器,并使用2D的方式来提取特征,相对于3D DenseNet来说,2D网络使用的显存要更少。同样地,核磁图像输入也进行和病理图片相同的数据增强过程。

使用的batch大小为3,每个样本的病理图片和核磁图像各采样10张和20张,然后使用多示例学习的方式对模型进行训练。一共训练50轮,初始学习率为[5×10-5],使用Adam优化器作为学习优化器,并使用StepLR来使模型的学习率每50轮降低 10倍,模型输出128维的向量作为最终的特征。

使用了几个基本模型作为对比,分别为单独病理图片模型(Path)、单独核磁图像模型(Radio)、投票模型(Majority Voting)、拼接模型(Concatenate)和MMTM作为对比。由于我们只使用了两个模态,投票模型以各个模态输出的类别概率相加作为投票的结果。而拼接模型则直接将各个模型输出的特征拼接成一个更长的特征作为分类特征。实验结果如表1所示:

实验结果显示,病理图片模态对分类的贡献明显要比核磁模态对分类的贡献要高,这个现象是符合现实情况的。笔者的模型在F1和cohen kappa这两个指标上的结果要比其他模型高。

3.3 ChexPert

在这个数据集上,使用正面和侧面的X光片作为两个模态,并输入模型进行训练。两个模态都使用ResNet101作为特征提取器。在实验设置上使用的batch为30,其他设置与CPM数据集一致。在该数据集上模型收敛较快,所以只需要2轮训练就能得到比较稳定的结果。

同样,笔者使用了几个基本模型作为对比。分别为单独模态模型(Single)、混合模型(Blend)、拼接模型作为对比。其中单独模态只使用正面的X光片作为模型输入,混合模型则同时使用正面和侧面的X光片作为模型输入。实验结果如表2所示:

4 结论

在多模态医疗图像分类问题中,使用对比损失作为模型损失函数的一部分 ,使得各个模态同一标签的特征在语义空间上更相似,不同标签的特征在语义空间上更不相似。这样的正则化项使模型更容易学习到不同模态之间的鲁棒的共享信息,同时使用拼接的方式来利用不同模态之间的独有信息。实验结果表明该模型能够利用来自不同模态的信息提高分类的准确率。

参考文献:

[1] Balasubramaniam P,Ananthi V P.Image fusion using intuitionistic fuzzy sets[J].Information Fusion,2014,20:21-30.

[2] SRIVASTAVA N, SALAKHUTDINOV R. Multimodal Learning with Deep Boltzmann Machines[C]//NIPS. 2012,1:2.

[3] Vaezi Joze H R,Shaban A,Iuzzolino M L,et al.MMTM:multimodal transfer module for CNN fusion[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020.

[4] Lerousseau M,Deutsh E,Paragios N.Multimodal brain tumor classification[EB/OL].2020.

[5] KEYVAN FARAHANI,TAHSIN KURC,et al.Computational Precision Medicine Radiology-Pathology challenge on Brain Tumor Classification 2020.MICCAI.

[6] Irvin J,Rajpurkar P,Ko M,et al.CheXpert:a large chest radiograph dataset with uncertainty labels and expert comparison[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:590-597.

【通聯编辑:梁书】

猜你喜欢

深度学习神经网络
神经网络抑制无线通信干扰探究
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源
基于GA-BP神经网络的光伏阵列MPPT研究