APP下载

基于增强特征融合YOLOV5的视网膜病变检测

2022-03-25韩璐毕晓君

应用科技 2022年1期
关键词:黄斑特征提取视网膜

韩璐,毕晓君

1.哈尔滨工程大学 信息与通信工程学院, 黑龙江 哈尔滨 150001

2.中央民族大学 信息工程学院, 北京 100081

视网膜黄斑病变是老年人致盲的主要疾病之一[1],该疾病通常在确诊3个月后迅速恶化[2],错过视网膜黄斑病变的最佳诊疗时间会对患者的黄斑区域造成不可逆转的损害,大大增加患者失明的风险[3]。因此对视网膜黄斑病变进行早期诊断和及时治疗至关重要。

光学相干断层扫描技术 (optical coherence tomography,OCT) 是用于眼部疾病诊断最为先进的成像方式[4]。在临床诊断中,专业医生利用OCT技术捕获三维眼底结构图从而对病变区域进行分类和定位。但是,利用OCT技术进行眼部疾病的人工诊断存在着误诊率高和医生严重缺乏两大问题。人工诊断主要依靠医生对病变的主观判断,随着视网膜疾病患者的增加,超负荷诊疗的压力会导致误诊、漏诊现象的发生。而培养一名专业的眼科医生周期长达10年,我国眼部疾病患者与日俱增的诊疗需求量与专业医生增长率之间存在巨大的缺口,这导致部分地区患者因就诊困难造成疾病恶化。

近年来,深度学习技术迅速发展[5],该技术得益于强大的特征提取能力被广泛应用于图像处理领域,在医疗影像分析中也获得了重要应用[6]。利用深度学习技术进行视网膜疾病的诊断具有检测快速、成本低和准确率高三大特点,有效缓解了人工诊断中存在的误诊率高和医生缺乏问题[7]。2017年,Kermany等[8]设计了一种基于迁移学习思想的视网膜黄斑病变多分类模型,分类精度达96%。2018年,王翀等[9]提出了一种联合决策的卷积神经网络实现OCT图像的自动分类,在包含3 231张视网膜OCT图像的Duke数据集上进行验证,平均分类准确率达94.5%。2020年,Bajwa等[10]建立了青光眼检测数据集并提出了基于改进Mask R-CNN的青光眼检测模型,检测精度达到96.5%。

以上研究对视网膜黄斑病变诊断做出了较大贡献,但是由于视网膜黄斑病变检测数据集的缺失,现有研究仅能实现视网膜黄斑病变的分类,不能对病变区域进行进一步的精确定位。同时,视网膜黄斑病变包含多种并发症,典型的并发症有玻璃疣(drusen)、脉络膜新生血管(choroidal neovascularization,CNV)、糖尿病性黄斑水肿(diabetic macular edema,DME)等,因此视网膜黄斑病变检测是多目标病变检测任务,而不同类别的疾病存在病变区域小、病变区域不规则等特点,这使得视网膜黄斑病变检测较其他眼部疾病检测具有更大的难度。

针对上述问题,本文主要做了以下3方面工作:1)在专业医生的指导下,建立了共4 500张视网膜黄斑病变多目标检测数据集,该数据集包含玻璃疣、脉络膜新生血管、糖尿病性黄斑水肿3类OCT图像各1 500张;2)提出了一种基于改进YOLOV5的视网膜黄斑病变多目标检测模型,在特征提取网络末端加入改进的注意力机制模块,增强网络的特征提取能力,提升网络对多目标病变检测的效果;3)在加强特征提取网络中利用加权融合的思想融合特征提取网络中的浅层特征,获取浅层特征中的位置信息,增强网络对视网膜病变的定位能力。

1 相关理论

1.1 YOLOV5 目标检测算法

YOLOV5是目前具有较高检测速度和检测精度的单阶段目标检测模型。YOLOV5网络结构如图1所示,其整体结构由特征提取网络、加强特征融合网络和检测层3部分构成。YOLOV5的特征提取网络借鉴CSPDarknet的思想,在网络中堆叠CBL模块和BottleneckCSP模块。其中,CBL模块由卷积层、批量归一化层和激活函数构成;BottleneckCSP模块由残差结构组成。在此基础之上,YOLOV5在网络中加入Focus结构实现切片操作,同时设计了2种残差结构分别应用于特征提取网络和加强特征融合网络。

图1 YOLOV5 网络结构

YOLOV5的加强特征融合网络采用PANet结构[11],在FPN网络自下至上传递强语义信息的单路径基础上,增加自顶向下的特征金字塔结构,传递浅层特征中的定位信息。该结构由残差模块、普通卷积操作和拼接操作构成,该路径较特征提取网络短,通过缩短信息传递路径减少浅层特征中位置信息的丢失,网络能够更加有效地聚合强定位特征和强语义特征。YOLOV5的检测层提取到3个有效特征层,大小分别为19×19、38×38、76×76,分别对应大、中、小目标的检测。

1.2 CBAM 注意力机制

2018年,Woo等[12]提出了CBAM(convolutional block attention module)注意力机制,它由级联的通道注意力机制和空间注意力机制构成。输入特征首先经过通道注意力模块获得通道维度的注意力图谱,与输入特征相乘获得在通道维度加权的特征,并将该特征作为空间注意力模块的输入,经过空间注意力模块获得空间维度的注意力图谱,再利用空间注意力图谱与该模块的输入特征相乘得到最终在通道和空间2个维度进行注意力加权的特征图。CBAM注意力机制的结构如图2所示。

图2 CBAM 网络结构

1.3 ECA 注意力机制

ECA(effificient channel attention)注意力机制是一种在 SE(squeeze-and-excitation networks)注意力模块基础上做出轻量化改进的通道注意力机制[13]。经典的通道注意力机制首先在空间维度进行池化操作,然后经过2层全连接层捕获通道间的依赖关系。这种经典的通道注意力机制在卷积神经网络中取得了良好的效果,但与此同时也给网络带来了一定的计算复杂度。虽然在全连接层的设计中通过降维减少了网络的参数量,但这种降维操作会对网络预测通道注意力产生一定的副作用。ECA模块通过快速一维卷积代替全连接层捕获跨通道的非线性信息,在减少计算量的同时让网络更有效地学习通道注意力[14]。ECA模块的结构如图3所示。

图3 ECA 网络结构

图3中一维卷积的卷积核大小为k,代表跨通道信息的覆盖率,即当前通道和相邻的k个通道共同参与预测通道注意力。k与总通道维数C之间存在一种映射关系,给定总通道维数C,一维卷积核k可通过自适应计算获得。最简单的映射关系为线性映射,即

但是其线性映射关系过于简单,而卷积网络中的通道数设置通常为2的幂,因此借鉴这一思想将线性函数扩展为非线性函数:

这样,给定通道数C,可以表示为

式中: |x|odd为距离x最近的奇数,b=1,a=2。

2 增强特征融合 YOLOV5 模型

视网膜黄斑病变检测是多目标检测任务,不同类别病变区域大小不一,病变区域模糊不规则,且病变位置均占据OCT图像中较小的区域。根据以上特点,实现视网膜黄斑病变检测需要网络具有更强的特征提取能力。因此,本文设计了一种基于增强特征融合YOLOV5的视网膜病变检测模型,具体改进如下:

1)针对视网膜OCT图像冗余性大的特点,在特征提取网络末端加入改进的注意力机制模块,让网络重点关注病变区域,提升病变检测效果。

2)对加强特征融合网络进行改进,在原有特征融合网络基础上,直接融合特征提取网络中的浅层特征,获取定位信息,增强网络对病变区域的定位能力。

2.1 改进的注意力机制模块

注意力机制的思想来源于人类的视觉系统,当视觉系统接收到图像信息时,通常会先选择性地关注目标区域,再由点至面的感受全局信息。结合视网膜OCT图像冗余性大、病变区域较小的特点,引入注意力机制模块可以让网络重点关注病变区域,忽略大量背景信息,增强网络对病变的检测效果。本文结合ECA注意力机制和CBAM注意力机制的思想,设计了一种轻量化的CSA(channel and spacial networks)注意力机制。CSA注意力模块由串联的空间注意力机制和改进的通道注意力机制构成。空间注意力模块结构如图4所示。

图4 空间注意力模块结构

输入特征首先分别经过2个池化操作获得维度为n×n×1的特征图,再经过拼接、降维和sigmoid函数生成空间注意力图谱,该注意力图与输入特征相乘实现空间维度加权,加权后的特征作为改进通道注意力机制的输入特征。

改进的通道注意力机制模块借鉴了ECA模块的思想,利用一维快速卷积代替全连接层,减少网络的参数量,同时避免降维对网络预测通道注意力权值带来的副作用。改进的通道注意力模块结构如图5所示。本文将CSA注意力模块串联在YOLOV5特征提取网络的末端。

图5 改进的通道注意力模块结构

2.2 改进的加强特征融合网络

YOLOV5加强特征融合网络采用了PANet结构,如图6所示。PANet的双向路径在有效特征中融合了包含强语义信息的高层特征和包含定位信息的浅层特征。通过设计较短的自上而下的信息传递路径避免浅层特征中定位信息的丢失。

图6 PANet结构

PANet在特征融合时,采用直接拼接不同层级特征的方式,未考虑来自不同路径的特征对网络的重要程度。本文借鉴BiFPN加强特征融合网络的思想对PANet进行改进[15],改进后的网络如图7所示。

图7 改进的 PANet网络结构

在PANet的基础上,删除单输入节点F1和F4,中间层级的有效特征P2、P3直接融合骨干特征提取网络中的同级别特征C2、C3。以有效特征P3为例,P3沿通道维度以拼接的方式融合了自上而下路径中P2下采样得到的特征、自下而上路径中的特征F2以及骨干特征提取网络中的特征C2,以上3种路径中的特征对有效特征的贡献并不相同,因此赋予3种特征权重,通过反向传播更新不同层级特征对应的权值,让网络学习不同路径中特征对网络的重要程度。这里采用快速归一化加权融合的方式:

式中:Wi≥0, ε =0.0001(避免数值不稳定),Ii为加权融合的来自不同层级的第i个特征。通过融合特征提取网络中的浅层特征,有效利用包含病变区域定位信息,进一步增强了网络对视网膜黄斑病变的定位能力。

3 实验结果及分析

本节从有效性和先进性2个角度对所提方法进行验证:

1)进行消融实验,将引入改进注意力机制的模型和引入改进加强融合网络的模型分别与基线模型进行对比,验证本文方法的有效性;

2)与现阶段具有代表性的单阶段目标检测模型进行对比,验证本文方法的先进性。

3.1 视网膜黄斑病变检测数据集建立

医疗数据因具有高敏感性通常难以获取,且数据标注需要专业医生的指导和大量的人力。目前未发现公开发布的视网膜黄斑病变检测数据集。本文在专业医生的指导下,建立了包含3种视网膜黄斑病变并发症共4 500张图像的病变检测数据集,该数据集包含玻璃疣、脉络膜新生血管、糖尿病性黄斑水肿3种疾病。数据集中使用的数据来源于kaggle平台于2017年发布的视网膜OCT图像分类数据集。针对上述3类疾病,本文从该数据集中分别选取1 500张OCT图像,在专业眼科医生的指导下,对病变区域进行标注。使用LableImg软件将3种疾病的病理区域用矩形框标出,并标注疾病的类别,随后获得1个包含病变区域位置信息以及类别信息的XML文件。在训练过程中,通过提取数据的XML文件并转化为yolo.txt格式,生成数据的真实标签。本文以8∶1∶1的比例将数据集换分为训练集、测试集和验证集。

3.2 实验环境

本文使用的实验环境如表1所示。训练采用SGD(stochastic gradient descent)优化算法,共迭代300个 epoch,batchsize大小为 32,动量因子为0.9,初始学习率为0.01,学习率衰减采用余弦退火衰减。

表1 实验环境配置

3.3 评价指标

本文采用平均精度(average precision,AP)和平均精度均值(mean average precision,mAP)作为评价指标:

式中AP是以查全率(Recall)为横轴、查准率(Precision)为纵轴构成的Precision-Recall曲线下的面积,Recall、Precision的计算公式为

式中TP、FP、FN的具体含义如表2。

表2 评价指标公式说明

在目标检测任务的测试阶段,通常设定交并比(intersection over union,IOU)阈值,在本任务中,将IOU阈值设置为0.5,其中预测框与真实框的IOU大于阈值的为正样本,小于阈值的为负样本。

3.4 算法有效性验证

为了验证本文方法的有效性,本节将引入改进注意力模块和加强特征融合网络的模型(YOLOV5+CSA+BiFPN)与只引入改进注意力机制的模型(YOLOV5+CSA)以及基线YOLOV5模型的检测效果进行对比。 3种模型对应的检测结果如表3。

表3 算法有效性验证实验

从表3中可以看出,基线模型YOLOV5的检测精度为93.9%,其中CNV的检测精度明显高于Drusen和DME,这是由于CNV的病变区域较大且该类别病变的病例特征更加清晰、规则,检测难度较Drusen和DME小。在特征提取网络末端引入改进的注意力机制后,Drusen和DME的检测精度明显提高,这2个类别的AP值分别提升了1.1%和3.8%,CNV的检测效果与基线模型持平,平均精度均值mAP较YOLOV5提高了1.6%。该实验结果表明,通过引入注意力机制,网络重点关注病变区域信息,增强了网络的特征提取能力,从而提升了模型对病变的检测精度,验证了本文改进算法的有效性。

进一步对网络的加强特征融合部分改进后,网络的检测精度较基线模型提升了3.4%,玻璃疣、脉络膜新生血管、糖尿病性黄斑水肿3种类别的AP值分别较基线模型提高了4.1%、0.7%和5.6%,该实验结果说明通过在有效特征中加权融合骨干特征提取网络中的浅层特征,充分利用了浅层特征中的细节信息和位置信息,增强了模型对病变分类和定位的能力,进一步提升了模型对病变的检测效果,增强了模型对多目标病变检测的通用性。

图8为上述3种模型针对每个类别中同一张病变图像的可视化检测结果,从左至右每一列分别是基线模型(YOLOV5)、加入改进注意力机制后模型(YOLOV5+CSA)以及加入本文全部改进后模型(YOLOV5+CSA+BiFPN)的检测结果,最后一列为专业医生指导下人工标注的标签。从图8中可以看出,YOLOV5模型的检测精度最低,且DME类别出现了错检现象。在加入改进的注意力机制模块后,检测精度有所提升,在加入本文的全部改进后,各类别检测精度最高,且模型对病变区域的定位最为准确,充分验证了本文算法的有效性。

图8 可视化检测结果对比

3.5 算法先进性验证

为了验证本文方法的先进性,将本文提出的方法与现阶段最具代表性的4种单阶段检测模型的检测效果进行对比,这4种模型分别为RetinaNet[16]、YOLOV3[17]、YOLOV4[18]以及YOLOV5,检测结果如表4所示。

表4 算法先进性验证

从表4中可以看出本文方法对3种病变的检测效果最佳、mAP值最高,分别较上述4种模型提高了9.4%、17%、6.6%和3.5%,充分验证了本文方法的先进性。且本文提出方法各类别的AP值达到了平均水平,检测难度更大的Drusen和DME类别的检测效果与CNV持平,说明本文提出视网膜黄斑病变检测模型针对多种并发症的检测具有一定的通用性。

4 结论

本文建立了包含3种视网膜黄斑病变并发症,共4 500张OCT图像的病变检测数据集。设计了一种基于改进YOLOV5网络的视网膜黄斑病变检测模型。针对视网膜病变区域小、OCT图像冗余性大的特点,在特征提取网络末端加入了改进的注意力机制模块,提升网络的特征提取能力从而更好地检测不同类别病变。同时,本文对YOLOV5模型的加强特征融合网络进行了改进,加权融合特征提取网络中的浅层特征,增强网络对病变区域的定位能力。针对视网膜黄斑病变患者就诊需求量大,现有医疗资源难以满足就诊需求这一现状,利用深度学习技术实现视网膜黄斑病变检测从而辅助医生进行诊断具有重要的研究意义。利用深度学习技术具有强大特征提取能力的优势,将其与医疗影像分析领域相结合,可以有效提升诊疗效率和质量。进一步深入研究本课题,可以加速智能辅助诊断技术在临床应用中的落地,全面实现智慧医疗的普及。

猜你喜欢

黄斑特征提取视网膜
深度学习在糖尿病视网膜病变诊疗中的应用
莫让“黄斑病”迷了你的眼
家族性渗出性玻璃体视网膜病变合并孔源性视网膜脱离1例
高度近视视网膜微循环改变研究进展
球结膜下注射庆大霉素致视网膜损伤1例
ELM及IS/OS完整性对年龄相关性黄斑变性预后视力的影响
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
裂孔在黄斑