APP下载

基于EMobileNet的肝硬化图像分类网络研究

2023-04-29王珊珊朱威周萍萍李开艳

陕西科技大学学报 2023年4期
关键词:肝硬化

王珊珊 朱威 周萍萍 李开艳

摘 要:为了解决肝硬化病理图像分类准确率低的问题,基于复合卷积神经网络提出了一种更准确的对肝硬化病理图像分类的深度学习模型EMobileNet.EMobileNet是在EfficientNetV2网络的基础上,插入可分离自注意力模块MobileViTv2,并引入四阶龙格-库塔残差块调整MBViTconv模块间的连接方式.肝硬化病理图像数据集由华中科技大学同济医学院附属同济医院提供,实验采用十折交叉验证法对线阵和凸阵图像分别进行训练并分类.对所提出模型进行消融实验并与多种经典网络效果进行对比,结果显示EMobileNet模型在三分类任务上达到了97.89%的总体准确率,显著提高了检测性能,可以取得较高精度的肝硬化病理图像分类效果.

关键词:肝硬化;EMobileNet;可分离自注意力;MobileViTv2;四阶龙格-库塔残差块

中图分类号:TP391.4

文献标志码: A

文章编号:2096-398X(2023)04-0173-07

Abstract:To solve the problem of low classification accuracy of cirrhotic pathological images,this paper proposes a more accurate deep learning model EMobileNet for the classification of cirrhotic pathological images based on a composite convolutional neural network.EMobileNet refers to EfficientNetV2 network with the insertion of the separable self-attention module MobileViTv2,and the introduction of fourth-order Runge-Kutta residual block to adjust the connectivity between MBViTConv modules.The liver cirrhosis pathology image dataset was provided by Tongji Medical College,Huazhong University of Science and Technology,and the experiments were conducted using the ten-fold cross-validation method to train and classify the convex and line array images respectively.The proposed model was subjected to ablation experiments and compared with the effects of various classical networks,and the results showed that EMobileNet achieved an overall accuracy of 97.89% on the triple classification task,significantly improving the detection performance and enabling a higher accuracy in the classification of cirrhotic pathology images.

Key words:cirrhosis; EMobileNet; separable self-attention; MobileViTv2; fourth-order Runge-Kutta residual block

0 引言

肝臟是以代谢功能为主的重要器官之一,担负着极其重要的功能,如有机营养物质的代谢合成,代谢毒素的无毒转化,间接参与造血等等.全世界每年约有200万人死于肝病,100万人死于肝硬化并发症,100万人死于病毒性肝炎和肝细胞癌[1].近年来,全球肝硬化患者数量不断增加,仅中国就有超过700万肝硬化患者.肝硬化一旦恶化,就应尽早重视,否则会导致身体多方面的并发症[2].

对肝硬化病理图像的准确分类,对辅助医师诊断有重大意义.利用机器学习相关算法对医学病理图像的识别,主要有浅层次结构模型[3]和深度学习模型[4]两类研究方法.

在浅层次结构模型方面,Xiong等[5]使用Lloyd算法、LBP算子和灰度共生矩阵纹理特征来处理肝硬化图像,并通过支持向量机对肝硬化磁共振图像进行分类.在肝硬化ROI区域达到了97.83%的分类准确率,对肝硬化图像的分类准确率高达99.5%.Akash等[6]使用改进的区域生长分割技术、逻辑回归和支持向量机对肝硬化图像和肝细胞癌图像进行分类,对肝硬化和肝细胞癌的预测准确率分别达到86.9%和80%.Raghesh等[7]采用多级分形特征和多域小波纹理特征对肝脏超声图像进行特征提取,利用粒子群优化提取最佳特征、选择最合适的分类器及参数实现分类,多级分形特征集减少了50%,总体准确率为91%.

在肝脏病理图像研究领域,基于深度学习的识别方法也得到了一定的应用.Huang等[8]介绍了一种基于PCANet和DenseNet的轻量级混合神经网络,用于肝硬化图像分类,最终效果达到89.7%.Chowdhury等[9]采用EfficientNet网络检测COVID-19,结合硬集成和软集成策略提高分类性能,总体准确率达到96.07%.但是由于医学病理图像的特殊性,部分卷积神经网络读取图像特征信息的能力受限,且随神经网络深度的增加,分类精度提升并不明显.

为了进一步提升肝硬化病理图像分类精度,本文提出了一种基于复合卷积神经网络的深度学习模型EMobileNet.它利用EfficientNetV2系列网络模型,在引入MobileViTv2模块的基础上,通过四阶龙格-库塔残差块调整连接方式,提升网络提取肝硬化病理图像特征信息的能力,进一步提高网络分类精度.实验采用线阵和凸阵数据集进行训练.实验结果表明,本文所提出的EMobileNet模型能有效提高检测精度,达到了较好的分类效果.

1 相关工作

1.1 EfficientNetV2

EfficientNetV2由移动翻转瓶颈卷积结构(MBConv)和融合移动翻转瓶颈卷积结构(Fused-MBConv)模块组成.MBConv由两个1×1标准卷积块、SE注意力机制模块、深度可分离卷积块组成.其中,深度可分离卷积块大大减小了模型的参数量.Fused-MBConv采用3×3的标准卷积块替换了MBConv中的3×3深度可分离卷积块和1×1标准卷积块.相较于MBConv,Fused-MBConv虽然参数量更多,但是具有更强的特征提取能力和图形推理速度.通过神经架构搜索方法(NAS)得到了Fused-MBConv和MBConv的最佳组合,从而充分发挥两种模块的优势,实现精度、模型参数量以及推理速度的平衡.Fused-MBConv和MBConv组合下的EfficientNetV2结构参数如表1所示.Conv表示卷积层;Fused-MBConv和MBConv的尾部数字1、4和6均为倍率因子,即输入特征层通道数扩充的倍数;k为卷积核大小;SE为通道注意力机制模块;Pooling为池化层;FC为全连接层.

影响深度学习分类算法精度的主要因素有网络的宽度、深度和图像分辨率等[10].只调整主要因素中的某个参数,增益很快会达到瓶颈,导致网络性能很难有明显提升.为了解决这个问题,EfficientNetV2网络使用了一种简单高效的复合缩放方法[11],该方法通过复合系数统一调整网络的宽度、深度和图像分辨率,调整原则如下:

式(1)~(5)中:d为网络深度;w为网络宽度;r为图像分辨率;α、β、γ为网格搜索得到常数;为人为指定的复合系数,用来分配可用于模型复合缩放的资源.通常取复合系数为1,α=1.2,β=1.1,γ=1.15.

相较于现有的许多分类网络,EfficientNetV2网络不仅具有更小的模型参数量,并且在多项分类任务中表现出更加优异的准确率和效率,因此本文以EfficientNetV2作为主体网络.

1.2 MobileViTv2

MobileViT是采用CNN(Convolutional Neural Network)和Transformer的混合架构模型,在一定程度上缓解了Transformer模型参数过大的问题.MobileViTv2结合了可分离自注意力(Separable Self-attention)和MobileViT的優势,能以更高效的网络结构充分提取图像的全局信息[12].通过引入可分离自注意力机制,运用独立的线性计算和逐元素乘积运算编码全局信息,缓解占用资源多的问题.它的参数与许多轻量化神经网络相比也较少,性能更稳定.

可分离自注意力机制的主要思想是计算与潜在标记有关的全局特征分数.特征分数被用来对另外输入的标记进行重新加权计算,并产生一个新的全局向量,该向量对全局信息进行编码.由于可分离自注意力机制相对于潜在标记进行的是线性运算,因此可以有效降低复杂度.

在可分离自注意力模块内,对于输入的特征 (m*n),使用三个分支进行处理,处理过程如图1所示.

在图1中,分支1使用权重为W1的线性层将输入特征 (m*n)中的每个n维向量上的特征一一映射,再经过Sigmoid函数激活后生成m维的全局特征分数CS;分支2使用权重为W2的线性层将输入特征X(m*n)线性映射到n维空间,然后与分支1生成的m维向量进行逐元素乘积运算,加权计算后得到全局向量CV;分支3使用权重为W3的线性层将输入特征X(m*n)线性映射到n维空间,然后使用ReLU函数进行激活,跟CV再进行逐元素乘积运算,得到的特征向量再经过一个线性层,最终生成新的(m′*n′)输出特征,即为可分离自注意力特征图.

图2为图1中分支1和分支2的交互计算示意图.由图1可知,全局特征分数CS用于计算全局向量CV.由图2可知,分支1通过内积计算潜在特征信息L和输入特征X之间的距离,得到一个m维向量,这个m维向量进行softmax操作后得出全局特征分数CS.分支2上经过权重为W2∈Rn*n的线性层,再通过与CS逐元素乘积运算并求和得到全局变量CV.CV的计算公式如下:

式(6)中:CS(i)表示分支1上经过了Softmax层的全局特征分数,CS∈Rm.X2(i)表示分支2上经过了权重为W2∈Rn*n线性层的特征向量,X2∈Rm*n.全局向量CV∈Rn.

全局向量CV对输入特征中所有信息进行编码.CV编码的全局信息可以与输入特征中的信息共享.在CV的基础上,再将分支3中输入特征X线性映射在n维空间的特征信息,经过ReLU激活函数得到X3∈Rm*n.通过CV中的全局信息与X3逐元素乘积运算得到Xo.然后,将所得输出传递至权重为Wo的线性层,产生最终输出Y∈Rm′*n′.可分离自注意力整体公式可定义为:

式(7)中:σ表示Sigmoid函数,X表示输入特征,W1、W2和W3表示三个线性层对应的权重,*表示逐元素乘积运算,ReLU表示修正线性单元激活函数,Wo表示最终输出前线性层对应的权重.

图3为加入了可分离自注意力的MobileViTv2模块示意图,MobileViTv2模块主要由深度卷积层(DWConv),逐点卷积层(PWConv)和可分离自注意力模块等组成.本文所提到的MobileViTv2模块,B值均取1.

1.3 四阶龙格-库塔方案

与神经网络子模块的设计一样,子模块间的堆叠策略对提升神经网络整体性能同样重要[13].在资源成本和网络参数相同的情况下,采用不同的堆叠策略,卷积神经网络可以有更好的表现[14].基于此,本文为EfficientNetV2提出了一种四阶龙格-库塔残差连接方案.低阶残差连接方案如图4(a)所示,低阶残差块仅仅将每个权重块与权重块分隔开,输入在经过多个权重层后,浅层信息占比不足,提取图像浅层特征信息效率低.如图4(b)所示,四阶龙格-库塔残差块将图像特征的映射分为两部分,一部分映射来自前一个权重块内部的特征信息传递,另一部分是原始输入特征x直接映射到对应权重块得到的特征信息.用高阶残差块将输入特征直接映射到其他权重块,有效保证了图像原始特征的传递,使浅层网络上特征信息得到更好地提取,缓解网络层数太深导致的过拟合现象.

四阶龙格-库塔残差块由四个权重模块组成,每个权重模块及整体的输出表示如下:

(8)式(8)中:k1,k2,k3,k4代表四个权重模块的输出,Nin为四阶龙格-库塔残差块的输入,F为权重层函数.

单个四阶龙格-库塔由八层权重层构成,在经过八层权重层后,输出如下表示:

式(9)中:Nout为四阶龙格-库塔残差块的输出.

2 改进后的EMobileNet

用可分离自注意力MobileViTv2模块替换MBConv中的SE注意力机制模块,命名为MBViTConv模块.Fused-MBConv模块和改进后的MBViTConv如图5所示.同时将各个MBViTConv层中的每第一个、第二个和第三个MBViTConv模块用四阶龙格-库塔残差块连接,每四个MBViTConv模块连接成一个四阶MBViTConv模块,分别为RK4=1、RK4=2和RK4=3.将EfficienNetV2中引入四阶龙格-庫塔残差块的模型命名为EMobileNet,其中EMobileNet-2为引入了RK4=2的模型.改进后EMobileNet-2整体网络结构图如图6所示.

EMobileNet-2整体网络由Fused-MBConv模块、MBViTConv模块、卷积层、池化层和全连接层构成.图6虚线框内的MBViTConv(RK4=2)可用左侧模块连接结构代替.与EfficientNetV2相比,EMobileNet-2整体网络将引入了可分离自注意力机制的MobileViTv2模块替换掉了SE模块,SE模块更多关注图像通道上的特征信息,而医学图像作为灰度图像中常见的单通道图像,在通道上的特征信息只是一部分.由于可分离自注意力机制能更有效把握图像的全局信息,降低了过多关注图像通道上的特征信息可能导致分类准确率低的风险,使得医学图像的全局特征信息能得到更全面的提取.通过四阶龙格-库塔残差块改变MBViTConv层中的堆叠方式,使得网络可以充分利用图像的浅层特征与深层特征,从而缓解层数深的神经网络在训练过程中精度很快饱和的问题,提升EMobileNet网络的拟合能力.

3 实验结果与分析

3.1 数据集以及数据处理

肝硬化图像分为早期、中期和晚期肝硬化(0型、1型和2型).在采集肝硬化超声图像时,对同一批患者用线阵探头和凸阵探头采集两组肝硬化图像数据.超声机的型号是GE LOGIQ E9,两组肝硬化图像数据集如图7所示.实验采集的肝硬化数据集包含61名患者的B超图像,线阵数据集中有0型147张,1型108张,2型68张;凸阵数据集中有0型124张,1型110张,2型80张.图像中的ROI区域(图中绿色框内的部分)由华中科技大学同济医学院经验丰富的医生圈出,并给出了病理检查结果的分类.将线阵和凸阵图像的ROI区域再随机裁剪成64*64的小图,使用模型训练时,总共有图片7 110张,其中0型2 390张,1型2 430张,2型2 290张.

3.2 评价指标

本文实验使用准确率(Acc),精确率(Pre),召回率(Rec)和F1-Score作为模型性能指标量化神经网络分类性能.各指标可用公式表示如下:

式(10)中:TP表示预测正确的正类样本数量,TN表示预测正确的负类样本数量,FP表示预测错误的正类样本数量,FN表示预测错误的负类样本数量.

式(11)、(12)中:i和j的取值为0,1,2.Prei表示第i类的准确率,Reci表示第i类的召回率,TPi表示预测正确的第i类样本数量,Eij和Eji表示真实标签为第i类但被错误预测为第j类的样本数量.

3.3 实验结果

本文所有实验均采用PyTorch开源库作为深度学习框架,CPU为Intel(R) Core(TM) i7-11800H,GPU使用的是NVIDIA GeForce GTX 3060 6GB.

将肝硬化线阵和凸阵超声图像数据集按照8∶1∶1的比例随机划分成训练集、验证集和测试集.实验重复300次,批大小设置为8,初始学习率设置为0.01,每经过十个epoch,学习率乘以0.9.为避免图像尺寸对模型效率的影响,实验采用渐进学习策略,在早期训练过程中使用较小的图像尺寸,使得网络快速学习图像浅层特征信息,在后续的训练过程中逐渐增大图像尺寸,保证网络学习图像较为复杂的特征信息.在训练过程中对数据集进行十折交叉验证,各网络分类对比实验结果如表2所示.在表2中,AlexNet[15]、VGG11[16]、GoogLeNet[17]、ResNet50[18]和EfficientNet[19]、EfficientNetV2经典网络作为对比实验的参照.VGG-ResNet是VGG11和ResNet50融合后的深度学习模型.

EMobileNet表示插入可分離自注意力机制MobileViTv2同时引入四阶龙格-库塔残差块的模型.其中,EMobileNet-1、EMobileNet-2和EMobileNet-3分别表示引入了RK4=1、RK4=2和RK4=3的深度学习模型.EMobileNet-1、EMobileNet-2和EMobileNet-3这三种模型作为消融实验的参照如表3所示.

从表2可以看出,本文提出的EMobileNet模型,对于肝硬化病理图像三分类,达到最高96.78%的分类准确率,与其他几种经典的深度卷积神经网络如AlexNet、VGG11、GoogLeNet和ResNet50相比达到较高水平,说明EMobileNet模型整体分类性能较好.从表3可以看出,引入了四阶龙格-库塔残差块的效果较初始EMobileNet仍有一定提高,其中EMobileNet-2分类准确率最高达到97.75%,精确率达到97.78%,召回率达到97.75%,F1-Score达到了0.977 5.EMobileNet-2在肝硬化病理图像测试集进行分类,实验结果如表4所示,三分类混淆矩阵如图8所示.

从测试集结果和三分类混淆矩阵可以看出,组合了MobileViTv2后的EMobileNet具有更好的稳定性和泛化能力.同时,四阶龙格-库塔残差块与低阶残差块相比也具有一定的优势,它可以弥补低阶网络模型的过拟合问题,能有效提升分类精度.

本文提出的EMobileNet-2在线阵和凸阵肝硬化病理图像数据集上测试时,取得了较好的分类效果.其中,0型、1型和2型肝硬化病理图像分类的F1-Score值都达到了0.97以上,检测2型肝硬化时精确度最高,为99.56%,检测1型肝硬化时召回率最高,达到了98.73%.各项指标均达到较高水平,表明所提出模型在肝硬化病理图像上有较大应用潜力.

4 结论

本文提出了一种基于复合卷积神经网络的EMobileNet模型,它可以有效地检测肝硬化病理图像病变程度.在EfficientNetV2网络的基础上,首先引入可分离自注意力MobileViTv2模块,保证了网络的图像特征提取能力;其次利用四阶龙格-库塔调整残差连接方式,提高了模型的特征信息获取能力;最后对肝硬化线阵和凸阵数据集分别应用本文模型训练,结合二者结果后得到最终的分类结果.实验结果表明,所提出的EMobileNet模型达到了很好的分类效果,为肝硬化智能诊断分类提供了新思路,在相关医学图像的影像学分析领域内有较高的参考价值.

参考文献

[1] Cao W,Chen H D,Yu Y W,et al.Changing profiles of cancer burden worldwide and in China:A secondary analysis of the global cancer statistics 2020[J].Chinese Medical Journal,2021,134(7):783-791

[2] Cao G Y,Jing W Z,Liu J,et al.Countdown on hepatitis B elimination by 2030:The global burden of liver disease related to hepatitis B and association with socioeconomic status.[J].Hepatology International,2022,16(6):1 282-1 296.

[3] Obermeyer Z,Emanuel E J.Predicting the future-big data,machine learning,and clinical medicine[J].The New England Journal of Medicine,2016,375(13):1 216-1 219.

[4] Robert S,Bettina K B,Ambrus T,et al.Diagnosis of focal liver lesions with deep learning-based multi-channel analysis of hepatocyte-specific contrast-enhanced magnetic resonance imaging[J].World Journal of Gastroenterology,2021,27(35):5 978-5 988.

[5] Xiong C M,Han M,Zhao Y,et al.Diagnostic method of liver cirrhosis based on MR image texture feature extraction and classification algorithm[J].Journal of Medical Systems,2020,44:1-8.

[6] Akash N,Esha B K,Manish A,et al.Computer-aided diagnosis of cirrhosis and hepatocellular carcinoma using multi-phase abdomen CT[J].International Journal of Computer Assisted Radiology and Surgery,2019,14(8):1 341-1 352.

[7] Raghesh K K,Sudhakar R,Mohaideen A K K.Particle swarm optimization-based liver disorder ultrasound image classification using multi-level and multi-domain features[J].International Journal of Imaging Systems and Technology,2021,31(3):1 366-1 385.

[8] Huang Z W,Zhu X X,Ding M Y,et al.Medical image classification using a light-weighted hybrid neural network based on PCANet and DenseNet[J].IEEE Access,2020,8:24 697-24 712.

[9] Chowdhury N K,Kabir M A,Rahman M M,et al.ECOVNet:A highly effective ensemble based deep learning model for detecting COVID-19[J].PeerJ Computer Science,2021,7:e511.

[10] 劉金香,班 伟,陈 宇,等.融合多维度CNN的高光谱遥感图像分类算法[J].中国激光,2021,48(16):159-169.

[11] Tan M X,Le Q V.Efficientnetv2:Smaller models and faster training[C]//Proceedings of the International Conference on Machine Learning.Online:ACM,2021:10 096-10 106.

[12] Quan Y,Li Z X,Zhang C L,et al.Object detection model based on scene-level region proposal self-attention[C]//International Conference on Pattern Recognition.Online:IEEE Computer Society,2021:954-961.

[13] 汪 豪,吉邦宁,何 刚,等.一种提高直肠癌诊断精度的基于U型网络和残差块的电子计算机断层扫描图像分割算法[J].生物医学工程学杂志,2022,39(1):166-174,184.

[14] Luo Z B,Sun Z T,Zhou W L,et al.Rethinking ResNets:Improved stacking strategies with high-order schemes for image classification[J].Complex & Intelligent Systems,2022,8(4): 3 395-3 407.

[15] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.

[16] Zhang X,Zou J,He K,et al.Accelerating very deep convolutional networks for classification and detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,38(10):1 943-1 955.

[17] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE Computer Society,2015:1-9.

[18] He K M,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE Computer Society,2016:770-778.

[19] Tan M,Le Q V.Efficientnet:Rethinking model scaling for convolutional neural networks[C]//Proceedings of the International Conference on Machine Learning.Long Beach:ACM,2019:6 105-6 114.

【责任编辑:陈 佳】

基金项目:国家重点研发计划项目(2018YFC0116100);湖北省重点研发计划项目(2020BAB114);湖北省教育厅科学研究计划重点项目(D20211402)

作者简介:王珊珊(1982—),女,湖北钟祥人,副教授,研究方向:图像处理、深度学习

猜你喜欢

肝硬化
施卫兵治疗肝硬化的经验
肝硬化病人日常生活中的自我管理
防治肝硬化中医有方
胱抑素C及其eGFR方程在诊断肝硬化患者肾损害中的应用
藏医对肝硬化的认识及治疗研究
肝硬化并发症的诊治
活血化瘀药在肝硬化病的临床应用
恩替卡韦联合安络化纤丸治疗慢性乙肝早期肝硬化
肝硬化并发消化道出血临床治疗效果
中西医结合治疗肝硬化腹水30例