APP下载

融合ResNet 结构的U-Net 眼底视盘分割方法

2021-02-04

软件导刊 2021年1期
关键词:视盘残差像素

(上海理工大学光电信息与计算机工程学院,上海 200093)

0 引言

近年来青光眼和糖尿病的患者人数不断攀升[1]。糖尿病的常见并发症是糖尿病性视网膜病变,如果得不到及时诊断和治疗容易造成视力损失甚至失明。青光眼严重时也会造成视力下降或失明。这两种疾病的诊断通常需要对视盘进行准确定位和分析。

眼科医生在诊断时通常需耗费大量的时间和精力来估计视盘的位置和大小,这种诊断方法具有较强的主观性,个人经验的不同会影响诊断结果。计算机辅助诊断技术是快速准确分析青光眼和糖尿病视网膜病变的重要方法,其核心步骤是定位和分割彩色眼底图像中的视盘。

视网膜眼底图像中视盘是一块亮白色类圆形区域。传统的视盘分割方法分为基于边缘、形状和区域3 类[2]。Xu 等[3]利用全局椭圆参数与局部变形模型相结合的方法分割视盘边界。初始曲线位置的确定对分割结果影响较大,在对比度较低的眼底图像中收敛效果较差;Morales等[4]用圆或椭圆拟合视盘边界,但因视盘的形状特征不规则,会造成分割偏差;Reza 等[5]利用加入标记的分水岭变换算法将眼底图像分割成不同区域并进行标记修改,但分割结果受亮病灶干扰严重。传统视盘分割方法提取特征类型较为单一,对视盘的亮度特征及形状特征有较大的依赖性,泛化性能较弱[6]。

基于深度学习的方法在进行视盘分割任务时表现较为优异。神经网络能够使分割过程自动执行,自主学习眼底图像中的特征表达,有效提取视盘的特征信息,分辨能力强,提高了视盘分割效率[7]。牛笛[8]提出利用显著图和卷积网络结合定位视盘,去除血管后再进行视盘分割的方法;Maninis 等[9]提出卷积神经网络与迁移学习技术相结合的视盘分割方法;Cheng 等[10]利用全卷积网络(FCNs)学习视网膜图像和相应的分割图之间的映射,实现视盘分割;Sevastopolsky 等[11]提出对视网膜图像进行裁剪,通过选取感兴趣的视盘区域减少病灶的干扰,再使用U-Net 网络对感兴趣区域进行视盘分割;Fu 等[12]提出多尺度输入输出和多标签损失函数组成的深度网络M-Net 模型分割视盘。该方法将提取的感兴趣区域转换为极坐标,提高了分割精度;Baidaa 等[13]使用融合密集模块的全卷积神经网络实现视盘分割。

眼底图像数据量较少,图像语义结构固定,在视盘分割过程中高级语义信息与底层结构特征采集都非常重要。对带病灶眼底图像的视盘进行分割时常常会受到渗出液等亮病灶干扰。基于U-Net 网络的分割方法其U 型结构及跳跃连接能有效传递高层与底层信息,但网络层数较少,无法提取高层次特征信息[14]。利用U-Net 分割出的视盘定位准确,但受血管和亮病灶影响较大,分割效果欠佳。

本文提出融合残差网络(Residual Network)结构[15]和U-Net 网络结构的视盘分割方法。残差模块的跳跃连接能将浅层特征传递给更深一层网络,实现浅层特征的重复使用,增强图像细节学习,在网络训练过程中能够实现同时学习图像细节特征和全局结构特征,更好地区分视盘与亮病灶。

1 预处理

采集彩色眼底图像时存在诸多外部因素干扰,比如成像机器位置偏差、角度偏差以及光照不均匀等。为消除光照不均及背景噪声对视盘分割的影响,需对彩色眼底图像进行预处理,预处理步骤如图1 所示。

Fig.1 Pretreatment steps图1 预处理步骤

首先对图像进行裁剪去除多余背景部分,裁剪后图像大小为500×500。利用文献[16]中提出的IRHSF(Iterative Robust Homomorphic surface Fitting)去光照方法,根据视盘结构及病灶的反射性质,通过滤波、拟合等方式估计各区域的反射分量并进行区分与排除[17]。用设定值将检测到的视盘、黄斑和血管屏蔽,建立曲面模型对剩下的结构进行光照分量建模。处理后的眼底图像中较暗的部分显示清晰,且整张图像对比饱和度均匀,去光照后的眼底图像如图2(b)(彩图扫OSID 码可见,下同)所示。

接下来将去光照后的眼底图像进行灰度标准化,将三通道图像转换成单通道图像处理。提取彩色眼底图像的3个通道进行观察,发现视盘的主要特征集中在红色通道和绿色通道中,尤以绿色通道为多。本文选取25% 的红色通道分量与75% 的绿色通道分量叠加进行灰度化,尽可能保留最多的视盘特征,其公式定义如下:

I表示转换后的单通道图像,Ig和Ir是绿色通道及红色通道分量。将彩色图像转换成灰度图像再进行后续分割处理也是减少数据计算量的有效方式。

增强图像对比度能突出视盘的亮度特征,更有利于分割视盘。本文选用限制对比度的自适应直方图均衡化方法,通过计算图像局部区域的直方图重新分配图像的灰度值,有效提高图像局部对比度,同时增强图像的边缘信息,抑制噪声增强。

最后,利用gamma 校正技术对图像进行亮度偏差较正,使图像中明亮部分得到增强,灰暗部分得到削弱。预处理后的灰度图像如图2(c)所示,图像整体对比度饱和度均匀,光照较暗区域图像还原度高,灰度图像中细节信息完整,视盘亮度特征明显,病灶特征细节被模糊,处理结果有利于视盘分割。

Fig.2 Comparison before and after pretreatment图2 预处理前后对比

2 视盘分割模型

基于U-Net 网络的分割方法能够提取图像的浅层特征,但因网络层数较少而无法提取高层次特征信息,图像细节学习不够,在视盘分割时常常受到血管及亮病灶等干扰。一般情况是网络层数增加提取特征能力增强,但He等[15]发现当网络深度增加时,网络准确率并没有随之升高。这是因为网络训练输出层附近的隐藏层参数达到最优时,输入层附近的隐藏层参数较输入时参数变化不明显,导致网络训练效果欠佳,如出现反向梯度传播时极可能产生梯度无穷小情况。

2.1 ResNet 结构

残差网络(ResNet)可有效解决网络的梯度消失或退化问题,使网络更容易在某些层学习到恒等变换(Identity Mapping)。恒等变换是一种构造性解决方法,将网络设计为H(x)=F(x) +x,使恒等映射为网络的一部分。然而,当F(x)=0 时,恒等映射H(x)=x构造难度较大。构建残差函数F(x)=H(x) -x,将恒等映射问题转化为拟合残差,不增加额外参数和计算复杂度。使用有参网络层学习输入与输出之间的残差,其结构如图3 所示。

Fig.3 Residual network structure图3 残差网络结构

拟合残差映射方式能减小网络退化问题,加强浅层网络与深层网络之间特征信息的传播,实现跨通道信息整合,将浅层网络的原始输入信息直接传递到深层网络,同时减少网络参数生成数量,减少计算量,加快网络运行速度。

2.2 融合ResNet 结构的U-Net 分割模型

融合ResNet 结构的U-Net 网络结构框架延续U-Net网络的框架对称结构,由编码路径和解码路径组成。原始U-Net 结构能够同时结合浅层特征信息与高层特征信息,利用较少的样本数据进行端到端的学习训练。本文在原始U-Net 网络结构上采样和下采样中分别加入ResNet 结构,ResNet 结构的跳跃连接将提取的特征信息重复学习,消除亮病灶等噪声干扰,进而增强图像分割的准确性。融合ResNet 结构的U-Net 分割模型如图4 所示。

加入ResNet 结构的U-Net 网络编码路径结构每一层级由卷积核为3×3 的卷积层、核为2×2 大小的最大池化层以及残差网络模块组成,选取ReLU 函数作为激活函数。ResNetBlock 是在卷积层基础上建立的跳跃连接,将上层获取的特征信息跨层传递给下一层级网络,实现浅层特征的重复使用。下采样主要用来获取上下文信息,提取输入图像特征。解码路径每一层级则采用2×2 大小的卷积核进行上采样操作,同时将下采样过程中提取的浅层特征信息通过跳跃连接,与相应上采样过程中的深层特征信息进行融合。卷积层使用3×3 大小的卷积核进行操作,并加入ResNetBlock,将上一层采集的特征信息输入进上采样恢复的卷积层中。最后一层采用1×1 大小的卷积核进行卷积运算,将特征向量映射到期望数量的分类,实现网络端对端输出,保证输出图像与输入图像大小相同。

Fig.4 U-Net segmentation model fused with ResNet structure图4 融合ResNet 结构的U-Net 分割模型

融合残差网络的U-Net 分割模型不仅增加了网络深度,而且重复利用提取的浅层特征信息,增强图像细节学习,能够使深层的网络模型性能不低于浅层网络模型。前向传播时将提供的特征重复使用,反向传播时缓解梯度信号消失,使网络模型得到优化,学习能力更强,收敛更快。

3 实验结果与分析

3.1 实验准备

本网络模型训练与测试实验均在PyCharm 平台上进行,主要使用Keras 和TensorFlow 框架。计算机配置为16G 内存的Intel®Core™i7-7700 CPU 处理器,8GB 显存的NVIDIA GeForce GTX 2080Ti 显卡。

通过Messidor 和Kaggle 彩色眼底图像数据集进行视盘分割实验及验证。将Messidor 数据集中600 张预处理后的图片作为训练样本,100 张预处理后的图片作为测试样本。Kaggle 数据集中存在较多的糖尿病视网膜病变眼底图像,选取129 张正常及带病灶图像作为测试样本,用于测试模型的泛化能力。

深度学习数据扩充方法较为丰富,本文主要采用几何变换后分块的方法。将输入的训练数据进行随机角度的翻转、旋转处理后进行图像随机切割分块。视盘分块大小设置为128×128,约为视盘的两倍,目的是保证训练数据中视盘类圆的形状特征和位置特征。每张图像中视盘占据位置较小,图像分块后存在正负样本不均匀等情况,需对分块后的图像进行欠采样处理,并保证欠采样前后数据分布一致,以实现图像数据扩充。

3.2 性能评价指标

利用融合ResNet 结构的U-Net 分割模型对输入图像数据进行网络模型训练和优化后,对Messidor 数据集中的100 张图片和Kaggle 数据集中129 张图片进行测试,生成的测试结果为视盘分割概率图。二分类问题是通过设定阈值得到的分割结果,利用一般的评价指标对测试结果进行评价会造成较大误差。因此,本文根据视盘分割结果概率图与Groundtruth 绘制ROC 曲线和PR 曲线,分别计算AUC 和MAP 值作为评价指标。

ROC 曲线用来衡量网络分割模型整体性能,是判断视盘与非视盘区域的重要手段。在视盘分割过程中预测结果可能出现的情况如表1 所示。正确预测的视盘像素个数标记为TP,被错误预测的视盘像素个数标记为FN,正确预测的背景像素个数标记为TN,错误预测的背景像素个数标记为FP。

Table 1 Forecast result matrix表1 预测结果矩阵

ROC 曲线以假阳性概率(False Positive Rate,FPR)为横轴,假阳性概率数学表达式如式(2)所示,即预测为视盘的像素为背景像素个数占实际背景像素个数的比值,比值越接近0 准确率越高。以真阳性概率(True Positive Rate,TPR)为纵轴,其数学表达式如式(3)所示,即预测为视盘像素且实际为视盘像素的个数占所有实际为视盘像素个数的比值,比值越接近1 准确率越高。

AUC(Area Under Curve)为ROC 曲线与坐标轴围成的面积,面积越接近于1 说明网络分割模型准确性越高。

在正负样本不均衡的情况下,PR 曲线更能评估分割结果的优异。查全率与查准率是与正例有关的两个指标,能更好地判断多个分割模型结果的预测情况。曲线横坐标为查全率(Recall),其与ROC 曲线中的真阳性率含义相同。曲线的纵坐标为查准率(Precision),数学表达式如式(4)所示,表示视盘像素被正确预测的个数占被预测为视盘像素总个数的比例。

PR 曲线越接近点(1,1),网络模型的预测结果越精确。MAP 是PR 曲线与坐标轴围成的面积,MAP 越接近于1 网络模型越完美。

3.3 实验结果及分析

在对网络模型进行改进和优化后,将训练样本分别输入U-Net 网络、加入Attention 的U-Net 网络以及加入ResNet 的U-Net 网络进行训练。经过迭代训练后,分别得到良好的参数模型,将Messidor 数据集与Kaggle 数据集的测试样本进行测试,测试结果如图5 和图6 所示。

通过观察可以发现,仅利用U-Net 网络模型进行视盘分割结果如图6 第3 列所示,在Messidor 数据集和Kaggle数据集上的测试分割结果存在较多噪声干扰,分割的视盘边界受血管影响较大,出现缺损现象,鲁棒性欠佳。视盘处于主血管突出位置,融入Attention 的U-Net 网络分割结果受血管影响较大,屏蔽血管能力不强,但其分割结果中噪声较少,视盘定位较为准确。融合ResNet 结构的U-Net网络模型用于分割视盘时表现最佳,分割结果如图6 第5列所示。其视盘边界清晰,未受到亮病灶及血管的影响。视盘位置学习准确,受背景因素干扰小,屏蔽血管效果极佳。Kaggle 数据集上测试结果的ROC 曲线与PR 曲线如图7 和图8 所示。根据曲线计算出的AUC 值与MAP 值可以看出,加入ResNet 的U-Net 网络模型生成的AUC 面积更大,验证算法和模型准确性更高,MAP 值更接近1,网络分割模型效果更好。由此可见,加入ResNet 的U-Net 网络模型AUC 值与MAP 值较其它模型更大,即模型性能更佳,验证算法的准确性更高。

Fig.5 Test results of different network models on the Messidor dataset图5 Messidor 数据集上不同网络模型测试结果

Fig.6 Test results of different network models on the Kaggle dataset图6 Kaggle 数据集上不同网络模型测试结果

Fig.7 Kaggle data set test ROC curve图7 Kaggle 数据集测试ROC曲线

Fig.8 Kaggle data set test PR curve图8 Kaggle 数据集测试PR 曲线

本文选用的两个公开数据集中大多数眼底图像均带有病灶,对于一般病灶U-Net 加ResNet 网络模型表现最佳。但当眼底图像背景区域出现与视盘亮度特征极其相似的情况时,视盘分割干扰较大,准确率降低。视盘分割欠佳情况如图9 所示。

Fig.9 Poor disc segmentation图9 视盘分割欠佳情况

4 结语

本文基于U-Net 网络的3 种不同网络结构进行对比研究。在原始U-Net 网络基础上有一定改进,网络性能得到改善。加入注意力机制与残差网络的网络模型能够对视盘分割任务产生积极作用,其中在U-Net 网络中融入残差网络的模型鲁棒性较强,实验证明其网络模型泛化能力较强,分割性能得到明显改善。对于眼底病灶较为复杂的眼底图像存在大面积与视盘特征相似的连通区域,在执行分割任务时屏蔽此类病灶使网络模型,学习更高层次的特征是后续研究方向。

猜你喜欢

视盘残差像素
赵运哲作品
视盘倾斜在高度近视中的研究进展
像素前线之“幻影”2000
基于双向GRU与残差拟合的车辆跟驰建模
伴视盘出血的埋藏性视盘玻璃疣患者的临床特点和眼底影像特征陈秀丽
基于残差学习的自适应无人机目标跟踪算法
“像素”仙人掌
基于递归残差网络的图像超分辨率重建
视盘内出血伴视盘旁视网膜下出血1例
平稳自相关过程的残差累积和控制图