APP下载

基于卷积神经网络的胶囊内镜息肉与溃疡辅助诊断

2020-05-25张大斌刘杰民

科学技术与工程 2020年10期
关键词:均衡化直方图息肉

王 孟, 张大斌*, 刘杰民, 张 晖

(1.贵州大学机械工程学院,贵阳 550001;2.贵州省人民医院,贵阳 550001;3.贵州银行博士后流动站,贵阳 550001)

胃癌是癌症致死率最高之一,亚洲胃癌发病率远高于欧洲和北美[1-2]。研究表明早期诊断出常见消化道疾病能够有效减少胃癌的发病率[3-4],其中包括消化道炎症、溃疡、息肉和早期胃癌等等。胶囊内窥镜(wireless capsule endoscopy,WCE)技术是将电源、摄像、传输等功能高度集成的无线视频拍摄胶囊。与传统内窥镜技术相比,能拍摄整个消化道实时图像,并且整个过程没有任何不适感,患者整个消化道可呈现在显示器上,因此在临床上得以广泛应用[5]。

常用胶囊内镜不具备磁控功能,在消化道中完全随肠胃蠕动而被动式运动,从胶囊内镜进入口腔至排出体外时长可达8 h以上[6],以2帧/s图像为例,则一次检测可产生50 000张以上图片。设备拍摄角度完全被动,有很大随机性,拍摄过程可能被积液、消化物等肠道内容物遮挡,也可能拍摄到黑暗的胃肠通道,或者摄像头贴近肠道而无法拍摄等。为了帮助医生诊断,近年来出现了一些基于WCE的计算机辅助决策系统。主要分为两种目的,第一种是为了提升WCE审阅速度而进行WCE视频缩减。彭同胜[7]提出了一种改进的局部二元模式算子LBP_max来提取图像局部纹理,从而缩减视频。第二种目的就是针对具体疾病进行图像检测。陈淑芬[8]提出一个两阶段显著特征提取算法,进行混合建模提取二维二值信息,进而检测消化道出血。检测手段中,Hassan等[9]采用基于图像幅度谱的归一化灰度共生矩阵。Hussam等[10]采用基于Gabor小波的纹理描述符来处理图像,并用遗传算法来选择描述子集。杨晗[11]采用水平集方法分割内镜图像并用椭圆拟合肿瘤区实现肿瘤检测。

目前对WCE视频辅助诊断的方法均是基于经典图像表示方法,需要针对每一种病灶设计独有的识别方法,算法间的兼容性差,只能识别某一种病灶。因此,针对消化道系统颜色相近这一特质,提取最佳输入特征,设计卷积神经网络进行胶囊内疚辅助诊断。

1 图像RGB通道分析

分析人体皮肤组织、内脏表皮组织、肠道组织等的颜色信息,发现R通道的颜色变化强于G和B通道。人体不同皮肤组织之间的颜色差异也主要由R通道表现,R通道包含了更加丰富的颜色信息。因此,舍弃三通道中颜色特征最不明显的一个通道,选择剩余两个通道作为网络的输入。

颜色直方图是用来统计每个颜色通道中每个颜色值对应的像素数量,其最大优点在于能够快速对任意图像区域进行颜色直方图统计而且该特征具有旋转不变性。由此,利用颜色直方图分析R、G、B通道,从而选出包含信息最丰富的两通道。分析如下。

(1)掩膜处理:息肉与溃疡在胶囊内镜中显示的尺寸较小,通常在30×30以内,因此截取50×50大小的掩膜(图1)进行小范围内颜色分析。

(2)分析区域:胶囊内镜图像存在明暗不均的问题,因此对高曝光区、正常曝光区和低曝光区进行分析,如图2所示。

(3)图像类别:分为健康图像、息肉图像和溃疡图像,如图3所示。

(4)颜色直方图分析:根据直方图中每个颜色值与相邻颜色值间像素数量的差异,求出每个通道的标准差与均值(表1),通过标准差和均值来剖析直方图。

图1 WCE中截取的50×50掩膜

通过Python语言及其组件来完成图像直方图的建立,如图4所示。

由图4(a)~图4(c)可以直观地看出胶囊内镜图像在各种曝光条件下主要差异存在于G、R通道。高曝光区,G通道颜色值集中在100~140,R通道颜色值越高则包含像素量越多;低曝光区,G通道颜色值集中在50~100,R通道颜色值则集中在40~130,且像素量在颜色值为50附近处最多。

由图4(d)~图4(f)可以直观看出,正常图像和患息肉疾病的图像相比,R、G、B三通道的颜色值之间存在差异,同时局部颜色值之间的像素数量存在显著差异。正常图像和溃疡图像之间差异主要由像素量之间的急剧波动。上述为直方图直观分析,下面进行量化分析。

图4 胶囊内镜直方图

统计实际WCE视频中连续的500幅图像,正常曝光、高曝光和欠曝光图像比例约为0.85∶0.05∶0.1。因此,将普通曝光、高曝光和欠曝光直方图所有分类的均值分别乘以权重0.85、0.05和0.1再进行相加,标准差同样处理,结果见表2。

表2中,G和R通道像素颜色值的标准差和均值高出B通道10%以上,反映出G和R通道细节特征更丰富,因而取G和R通道为网络输入,减少冗余信息量。

表1 9种组合下直方图的标准差与均值

表2 RGB三通道评价

2 图像对比度增强方法分析

胶囊内镜工作于食管、胃、小肠、大肠等,各部位的颜色信息、肠道直径、运动状态各不相同,导致内镜拍摄时对焦不准确,画面存在一定程度的模糊。此外,病灶物理特征也不明显,如小肠与息肉均呈粉红色,即使经验丰富的医生也未必能够完全判断病变。因此有必要对图像进行增强,考虑胶囊内镜灰度图像对比度的增强,对比全局直方图均衡化、伽玛变换、拉普拉斯变换三种算法。三种算法均在OpenCV中实现。

2.1 全局直方图均衡化

从人体感官来看待一幅图像,如果该图像直方图分布均匀,则总体感觉较为协调,且感官信息比较丰富,利于人眼判断。全局直方图均衡化通过调整直方图灰度值集中区域,来增强对比度。设I(x,y)为输入图像(x,y)处灰度值,对应直方图均衡化后的输出为O(x,y)。I(x,y)与O(x,y)间的映射关系为

(1)

式(1)中:Fk为灰度变换函数,k=0,1,…,255;N为总像素量;Ni为灰度i所包含的像素数量;P(ri)为图像灰度值概率密度函数。

从映射函数可知,直方图均衡化增加灰度动态范围,调整原图像灰度分布,提升对比度,突出细节信息,使人眼能够更直观读取图像信息,效果如图5。图5(a)、图5(b)可看出息肉通过直方图均衡化之后,息肉的表面亮度增加,边缘亮度降低,对比度得到了增强,与周围健康组织形成了鲜明界限。但是从图5(c)、图5(d)可知,由于灰度值较低部分和灰度值较高部分的像素量扩散,产生了噪声,使画面细节信息丢失。

图5 息肉直方图均衡化效果图

2.2 伽玛变换

人眼对于外界光源的感光值随亮度增加或减少,人眼分辨亮度信息的能力逐渐减弱。胶囊内镜图像曝光不足或过曝,会导致部分灰度保存为相似值而丢失信息。伽玛变换对于修正异常灰度值有良好效果,可保留或去掉异常灰度信息,增强图像对比度。伽玛变换表达式为

O=CIγ

(2)

式(2)中:C和γ为常数;I为归一化到[0,1]后的输入灰度;O为输出灰度。γ<1,能增强了图像的低灰度值区域;γ>1,增强了高灰度值区域。分析500幅胶囊内镜图像可知,其所拍摄的图片中欠曝光多于过曝光,加之图像通常处于中低灰度值范围,因此采用γ=0.1,0.2,…,0.9进行测试,最好结果γ=0.8如图6所示。

图6 伽玛变换前后图像

从图6看出,胶囊内镜本身颜色阈较单一,使得息肉图像各区域灰度变化不够明显,伽玛变换图像对比图提升也就不够。

2.3 拉普拉斯变换

胶囊内镜拍摄的图像,尤其对于息肉来说,息肉组织与周围正常组织之间的区分不那么明显,此时可以用到拉普拉斯变换。它可加强灰度梯度大的区域,提升细节表现能力,提高对比度,同时对于其他区域的灰度值变化很小,利于病变组织的识别。变换效果如图7所示。

图7 拉普拉斯变换前后图像

图7可以看出,由于胶囊内镜图像自身灰度梯度较小,包含的图像信息较少,经过拉普拉斯变换处理后,人眼已经看不出锐化后的息肉,对比度提升同样不够明显。

通过上述比较,可知三种增强方法对于胶囊内镜图像对比度的提升效果最好的是全局直方图均衡化。因此直方图均衡化后的灰度图像作为神经网络的输入,更有利于特征的提取。

3 卷积神经网络结构

3.1 网络输入

神经网络的三通道输入分别为R通道、G通道、直方图均衡化灰度通道。

神经网络深度为10,图像数据量约2.2万幅,不足以保证模型的有效训练。因此需要对数据进行增广,主要采用了两种方法:①利用OpenCV中进行图像水平和竖直的翻转;②对原图进行抠取,在每张大小为256×240的原图上随机抠取3张224×224大小的区域。通过两种数据增广,达到了网络的数据量要求。

3.2 网络结构

目前广泛使用的网络训练方法存在两个缺陷:①经典卷积神经网络(AlexNet、VGGNet、ResNet等)训练要求大量已标注的数据,而医疗图像的标注成本极高,数据量远远不够;②网络预训练迁移方法存在图像与预训练图像差异巨大的问题,准确率不高。为此,借鉴VGG小卷积核实现大感受野、小卷积核实现深层网络的特点,设计适用于胶囊内镜图像的卷积神经网络[12]。

该网络共10层,包含了7个卷积层与3个全连接层。可视化类是目标较小的病灶而非一般的场景描述,因此采用多个3×3卷积核实现高维特征提取,2×2池化层实现特征筛选。结合实际的训练数据量,全连接层没用采用大量神经元,而是采用256个神经元,更加符合2万幅图像的训练。网络架构参数如表3所示。

表3 网络架构参数

4 实验与结果

4.1 实验数据

采用的数据为贵州省人民医院2012—2016年保存的胶囊内镜图像,所涉及的患病个体为100,图像总量超过了500万张。数据的标注工作分为三步:①医生根据之前记录的病例,首先确定病人所患的疾病,如息肉、溃疡等,再从胶囊内镜视频中筛选出患该病的图像;②患病图像由专业医生进行逐个标注。标注分类为息肉、溃疡、正常和未知,未知分类当中包含了其余的患病情况。最终得到的标注样本有息肉、溃疡、正常和未知各4 569、2 655、11 919和2 912幅图像,从中各随机抽取1/5作为测试集,剩下的作为训练集。

该实验在Intel i7-7700HQ处理器,INVIDIA GTX1070显卡以及16 G内存的计算机中完成。为了解本算法的检测效果,将其进行两种对比试验,与前述提出的几种预处理之间对比,与经典图像表示和支持向量机联合的对比。

4.2 几种预处理比较

试验评估了R、G、B三个通道与直方图均衡化、伽玛变换以及拉普拉斯变换组合为网络输出的预测效果,该试验基于同样的神经网络。九种组合的识别准确率见表4,其中直方图均衡化、伽玛变换、拉普拉斯变换分别用HIS、GAMA、LAP表示。

表4 九种组合的预测准确率

九种预测结果中,RG+HIS组合的准确率在各种目标下都是最高的,符合之前的预期,平均准确率可达96.8%。可以观察到,R通道组合在相同条件下对于息肉的预测准确率都比G和B通道高,因为息肉病灶与正常组织之间的颜色差异主要是R分量上的细微差异。溃疡与正常组织间存在明显的颜色差异,因此预测准确率都比息肉高。直方图均衡化、伽玛变换和拉普拉斯变换的效果图在前文已看到,三种方法对于对比度的提升最大的是直方图均衡化,从表4得以验证。相同条件下,直方图均衡化方法的预测准确率均高于伽玛变换和拉普拉斯变换,其中直方图均衡化方法和伽玛变换方法的效果比较接近。

4.3 与经典机器视觉方法比较试验

机器视觉中经典的特征提取有SURF、FAST等,特征提取之后与支持向量机进行结合以实现良好的分类。SURF算法对旋转、尺度、亮度、噪声、视角等的变化具有一定鲁棒性[13],采用快速Hessian方法来检测关键点,速度比SIFT快几倍。FAST算法是通过比较检测点与周围16个像素之间信息差来判断其是否为角点的算法,速度较快。本文系统与上述两种算法的预测结果如表5所示。

从表5看出,经典机器视觉特征检测方法能够实现的准确率不超过81%,而基于多层卷积神经网络的特征检测准确率超过95%。从单个检测目标来看,RG+HIS也具有绝对优势,SURF和FAST方法本身具备了一定的特征检测能力,结合SVM之后检测能力提升还不够显著。

表5 RG+HIS与经典机器视觉方法对比

5 结论

(1)提出了一种用于检测胶囊内镜图像中息肉、溃疡、正常及其他病灶的算法,平均准确率达到了96.8%。与同一个神经网络下调整其他不同输入方法相比,准确率至少高出2%;与经典的机器视觉方法相比,平均准确率至少高出16.73%。检测速度达到了68.6图/s,能够15 min内检测出一个病人完整的内镜图像。本文提出的算法在特征检测与预测方面胜于经典机器视觉方法;不同输入对于数据量较小时的网络训练效果有很大影响。

(2)本文算法首先需要标注约2万胶囊内镜图像,然后通过数据增强方式将数据扩充至10万以上,也可以直接标注10万张不同的内镜图像,鉴于时间紧迫,采用了前者。其次,提取图像R和G通道,采用全局直方图均衡化手段处理灰度图以提高其对比度,将三者作为网络输入。网络结构是将VGG网络结合自身数据限制进行相应修改。试验结果证实了这种神经网络训练前先行增强图像方法的优越性,可以推广应用到其他消化道内镜图像的识别中。

下一步工作主要从两个方面考虑,一是尝试其他图像增强手段,改变图像输入以得到胶囊内镜最佳的神经网络输入数据;二是获取更多的数据量,评估相同神经网络架构下,不同数据量和不同输入对于神经网络预测准确率的影响。

猜你喜欢

均衡化直方图息肉
符合差分隐私的流数据统计直方图发布
宫颈长息肉了怎么办
肠息肉防治莫入误区
胃息肉会发展成胃癌吗?
基于FPGA的直方图均衡图像增强算法设计及实现
你真的了解子宫内膜息肉吗
用直方图控制画面影调
中考频数分布直方图题型展示
基础教育均衡化的实施对于现阶段教育发展的重要性
EDIUS 5.1音量均衡化