APP下载

基于Debseg-Net的岩屑图像语义分割

2022-11-16覃本学沈疆海马丙鹏宋文广

科学技术与工程 2022年29期
关键词:岩屑语义准确率

覃本学, 沈疆海*, 马丙鹏, 宋文广

(1. 长江大学计算机科学学院, 荆州 434023; 2. 中国科学院大学计算机科学与技术学院, 北京 100190)

在石油天然气领域,岩屑录井(rock debris logging)是识别地层岩性和油气显示的重要手段,是油气勘探中必不可少的录井方法。勘探时对钻取上来的岩屑计算迟到时间以判断岩屑所在地层,对岩屑岩性进行识别即可得到该岩屑地层的岩性,由此可判断地层含油、气情况。传统识别岩性的方式是人工鉴别,鉴别人员通过观察、触摸、嗅、敲击来识别,有时需借助傅里叶红外光谱仪、X射线衍射仪、拉曼光谱仪、扫描电镜等仪器,如南泽宇等[1]对致密含钙砂砾岩地层钻井数据进行分级分类得到多级交会图,识别结果与岩心薄片吻合良好,准确率高,但传统方式过程复杂、低效,且鉴别人员需要具备专业的石油地质类知识,这也使得岩屑岩性识别的门槛很高。

随着机器学习的发展,图像分类的任务早在2014年就已经超过了人眼,在通用事物上达到了92%的正确率,于是石油地质类研究也开始将机器学习应用到岩性识别工作当中,文献[2-5]构建岩性识别神经网络,实现了岩石图像、岩心薄片的自动分类,准确率达到80%;为达到更高准确率,Zeng等[6]和Gu等[7]分别提出了基于栅极循环单元(gated recurrent neural network,GRU)神经网络的注意机制模型和结合平均值影响(mean impact value,MIV)与粒子群优化(particle swarm optimization,PSO)的概率神经网络(probabilistic neural network,PNN)模型,对测井环境中的岩性识别达到了较好的效果。

对于岩屑岩性识别,情况则更为复杂,很多时候一张图像并不只有单纯的一类岩屑,可能有背景、杂质或者其他不同类型的岩屑。语义分割(semantic segmentation)模型[8]因为可对图像进行逐像素级分类,对一张图像上不同类别进行分割,非常适合应用在岩屑图像的图像分割上。2015年,全卷积网络(fully convolutional networks,FCN)[9]成为语义分割使用广泛的网络,由此产生的FCN-32s、FCN-16s、FCN-8s在通用事物上的分割效果越来越好。同年产生的U-Net[10]分割网络,相比于FCN得到的分割图像边缘信息更加精细,因此被非常多地应用在医学图像的分割之上。此外,语义分割网络还被应用于各种其他领域当中且都取得了不错的效果。如廖娟等[11]以U-Net网络作为主干网络,基于侧边深度监督机制构建的模型可对作物苗期植株进行准确的分割;代具亭等[12]提出的基于RGB-D(彩色-深度)图像的场景语义分割网络,通过融合多级RGB网络特征图和深度网络特征图实现了对现实的场景分割;姜枫等[13]针对砂岩薄片图像构建的分割网络RockNet,结合模糊聚类技术,实现了对多角度砂岩图像中砂岩和矿物颗粒的分割。

鉴于岩屑录井工作中难点和岩屑图像的特征,现选择将语义分割网络应用到岩屑岩性识别当中,并研究主流语义分割网络在此工作中的适用性,由此设计一种更适合岩屑录井工作中复杂情况和满足效率、精度要求的语义分割网络。

1 岩屑图像

训练样本数据来自某油田的十口探井的岩屑数据,其中包括精选岩屑的高分辨率图像和专业人员对岩屑的岩性定性描述,该描述是标记数据集的根据。岩屑图像是对专业人员分拣的岩屑所拍摄的高分辨率放大图像,分为大面积粗选岩屑图像(图1)和精选岩屑图像,前者采用固定高度镜头拍摄,图像分辨率极高,水平、垂直分辨率可达2 000 dpi,因此可实现多倍放大供鉴别人员观察;后者经过精细挑选,岩屑成分较为单一、标记较为容易、尺寸也相对较小,适合用来作为训练和测试网络性能的数据集。为体现本文方法对于外观相近的岩屑的识别能力,选择5类岩屑图像比较接近的沉积岩进行实验,这5类分别是白云岩(dolomite)、石灰岩(limestone)、泥岩(mudstone)、砂岩(sandstone)和页岩(shale),如图2所示。

图1 粗选岩屑图像

图2 5类精选岩屑图像

2 岩屑分割模型

对多种通用语义分割网络在同一数据集上进行训练,同时搭建网络和上述网络进行对比并不断改进,得到了一种在岩屑数据集上表现良好且更为高效的语义分割网络,取名为Debseg-Net(debris segmentation network)。其网络结构如图3所示。网络采用编解码(encoder-decoder)结构,引入深度可分离卷积(depth separable convolution),编码部分将输入图像进行卷积和最大值池化(max pooling)使图像尺寸不断变小,通道数不断变多。解码部分采用转置卷积(transposed convolution)操作使特征图尺寸再次放大通道数变少,同时结合跳级连接(concat)将编码部分保存的信息与解码部分的信息结合,再使用卷积进一步抽象特征达到像素级分类的目的,同时,Debseg-Net在卷积层中穿插批标准化(batch normalization)层。除最后一层使用Softmax激活函数外,每一层得到的输出函数使用ReLu函数进行激活。Debseg-Net共有65层。

2.1 编解码结构

目前的主流语义分割网络都采用编解码结构,如U-Net、Seg-Net[14]和DeconvNet[15]。该结构将网络分为两部分:编码器负责图片的特征提取,解码器负责尺寸还原以及像素级分类的任务,解码部分采用逐次上采样(up-sampling)的方式,相比于FCN,该结构可以解决因简单上采样导致的像素位置信息丢失、忽略全局上下文、缺乏空间一致性的问题。

Debseg-Net采用该编解码结构,不过与U-Net、Seg-Net和DeconvNet相比,放弃了编码与解码器的对称设计。由于编码部分负责特征提取的部分,所以可替换成对特征更加敏感的深度神经网络,以VGG-16[16]网络为例,将U-Net的编码部分替换为VGG-16网络得到的VGG-Unet,在岩屑数据集上也能获得很好的分割效果。Debseg-Net网络相比于VGG-Unet,它拥有更深的编码器网络,达到37层,是编码和解码层数不相同的不对称结构。

2.2 深度可分离卷积模块

传统卷积操作的卷积核拥有和输入图像相同的通道数,如图4所示。

图4 普通卷积示意图

该做法的优点是充分考虑图像通道间的空间信息,但是带来的是参数量的爆炸式增长,这就限制了卷积神经网络在层数深度上的增加。后来的研究发现卷积操作可在通道卷积上进行完全的解耦,但同时丢失了通道间的空间信息,这个问题可以通过增加跨通道的1×1卷积核来弥补[17],该卷积核拥有与输入特征图相同的通道数,卷积时仅收集跨通道的信息,长宽方向的信息不再扩张,即将三维信息的乘法解耦为二维的乘法再加上一维的信息,如图5所示。

图5 深度可分离卷积示意图

深度可分离卷积与传统卷积的参数量之比可用式(1)表示,由式(1)可以发现,使用深度可分离卷积代替普通卷积后参数量可减少大约CO倍。

(1)

式(1)中:SK为卷积核的尺寸;CI为输入特征的通道数量;CO为输出特征的通道数量。

采用深度可分离卷积的Debseg-Net在拥有65层网络的情况下,参数仅为9 966 278个。

2.3 跳级连接与批标准化

当语义分割网络编码器部分在进行特征提取的时候,随着卷积操作的进行,特征图(feature map)越来越小,提取到的特征从一开始的丰富逐渐变得抽象和高级,伴随着的图像信息丢失也越来越明显[18],以至于解码器部分在转置卷积或者上采样的时候,不能很好地还原图像信息,无法进行准确的像素级分类。于是在FCN中,特征在卷积之后会接上一个池化层,用来保存该层提取到的特征,在上采样时,将保存的池化层提取信息与上采样信息连接,来还原图像信息;在U-Net中,伴随着每一次最大池化,图像尺寸都会变为原来的1/2,而上采样会使图像变为上一层的2倍,于是将池化前的图像信息和上采样后的信息结合以还原图像信息。Debseg-Net同样采用这一思想,不过是在编码器部分的每一次卷积之后,加上一个批标准化层,用来规范和保存该卷积层处理后的信息。

在解码器部分,每次都使转置卷积之后图像尺寸变为原来的2倍,对应编码部分的最大值池化操作,如式(2)所示,卷积核k的大小和步长d同取值为2,由于图像尺寸在网络中迭代时尺寸最大值为256,最小值为16,卷积核大小为2×2,所以无需边缘填充(padding),p取值为0。则尺寸为16×16的特征图经转置卷积操作后尺寸变为32×32,由此代替了上采样操作,实现了图像尺寸的放大。

So=d(Si-1)-2p+k

(2)

式(2)中:k为卷积核的大小;d为卷积核的步长;Si为输入特征图的尺寸;So为输出特征图的尺寸;p为边缘填充像素数量。

每个转置卷积之后会再跟一个批标准化层,用来规范转置卷积操作后的数据,而后将编码与解码器的批标准化层进行concat,完成编码与解码部分信息的合并,如式(3)所示。

(3)

相比于池化操作,对批标准化层进行concat能最大程度保留原始特征,因为池化操作无论是平均池化还是最大值池化,仅仅是在单张图像的像素间进行取样并保存,选择范围小则会带来普适性差、不能反映整体特征的问题,而使用批标准化会在同批次多张图像间进行标准化操作,如式(4)所示。

(4)

式(4)中:n为同批次图像数量;xi为输入特征值;μB为将输入特征值进行求和取得的平均值。

(5)

(6)

式(6)中:ε为为了增加训练稳定性而加入的小的常量数据。

不仅如此,批标准化操作还会根据两个参数γ和β进行反批标准化实现自主学习,让神经网络自己学习以改变这两个参数从而得到新的特征值,如式(7)所示。

(7)

如果前面的批标准化并没有起到优化的作用,就会使用这两个参数抵消批标准化的操作,避免批标准化使用导致更坏的情况。使用批标准化以后可以使神经网络中每一层的输入都大致在该层的激活函数敏感范围内,从而减少收敛时间,提高训练效率,而且防止梯度消失的发生。正因如此,Debseg-Net网络层与层之间广泛使用批标准化操作。

2.4 训练损失

语义分割需要实现对5种不同岩屑及背景的语义分割,输出是对应不同岩屑及背景的6个值的图像,所以是一个像素级的六分类问题,于是最后一层采用Softmax函数进行激活,采用多分类问题中效果最好的交叉熵作为损失函数,以完成网络参数的优化,交叉熵计算如式(8)所示。

(8)

2.5 岩屑图像自标记模块

Debseg-Net是一种采用监督学习的语义分割网络,训练模型需要大量像素级标记数据。这些数据大都采用人工描边标出岩屑部分来实现,不同的岩屑需要标记为不同的颜色,而且人工标记的数据集存在着很大误差,达不到像素级分类的要求。如数据集Ⅰ,是使用Labelme数据集标记插件进行标记,在对边缘进行描点时无法保证落点正好位于岩屑与背景的交界处,使得将不少像素标注为了错误的类别。

所用岩屑图像为精选岩屑的近景拍摄图像,背景单一,与前景岩屑形成较为明显的对比。FCN-8s、U-Net、VGG-Unet、Debseg-Net在数据集Ⅰ上的训练结果都拥有如下特点:①不同岩屑间分类准确率欠佳;②前景背景区分明显、准确率高。于是利用语义分割网络对岩屑图像进行前景背景的分割,分割完成后,程序会按照路径不同以区分类别并进行上色,实现类别的区分。以此可得到精分割数据集Ⅱ。

此方法省去了耗时耗力的人工描点方法。原始方法标记一张图像耗时在6 min左右;采用自标记方法,只需要将不同类别的岩屑图像事先区分好存储在不同文件夹,利用语义分割网络按读取图像的文件夹的不同给前景附上不同的值,标记640张图像仅需20 s,效率提高10 000多倍,而且标记精度也得到极大提升,如图6所示。传统标记在边缘部分原图与标记图有缝隙,而本文标记方法却能几乎重合,而且能将周围的碎屑部分也进行标记。

图6 两种标记方法效果对比

3 实验与结果分析

3.1 实验环境与参数

训练在Kaggle进行,GPU显存为16 GB,RAM为13 GB;以Python 3.7.10作为编程语言,以Tensorflow作为学习框架,Tensorflow版本为2.6.0。

由于数据集Ⅱ的标记更为精准可信,所以实验以数据集Ⅱ作为数据集,数据集Ⅱ包含1 280张长宽在500~1 200像素的图像,分为640张5类岩屑图像以及对应的640张5类岩屑精分割图像。在进行训练之前,进行数据增强、像素值归一化、图像尺寸统一的操作,数据增强包括图像的随机裁剪、翻转、亮度与对比度变化等,像素值归一化到(0, 1),尺寸统一为256×256。采用分批次训练方法,批次大小为16,所有训练图像在模型中完成一次计算即为一次迭代(epoch)。在体现所有网络的最佳性能前提下设计消融实验,即保持所有网络迭代次数、所用优化器、损失函数一致,分别为80次迭代、Adam优化器、交叉熵损失函数。初始学习率选择各网络的最优值,FCN-8s、U-Net、VGG-Unet、Debseg-Net分别为0.000 05、0.000 01、0.000 01和0.000 03。

3.2 评价指标

采用像素准确率(pixel accuracy,PA)、类别平均像素准确率(mean pixel accuracy,MPA)、平均交并比(mean intersection over union,MIoU)作为评价指标。

PA为预测类别正确的像素数量与总像素的比例,如式(9)所示。

(9)

式(9)中:c为类别总数减1,其中0表示背景;pij为本属i类却预测为j类的像素点总数,具体的,pii为真正例(true postives, TP),pij为假正例(false positives, FP),pji为假反例(false negatives, FN),pjj为真反例(true negatives, TN)。

MPA为每个类别被正确分类像素数的比例平均值,由类别像素准确率(class pixel accuracy,CPA)除以类别数得到,如式(10)所示。

(10)

MIoU表示模型对每一类预测的结果和真实值的交集与并集的比值求和取平均的结果,计算方式如式(11)所示。MIoU在语义分割任务中常被作为标准度量来使用,能体现模型在全局的表现。

(11)

3.3 模型收敛性实验

4种网络的训练过程如图7和图8所示,分别表示4种网络在80次迭代中的损失值变化情况和准确率变化情况。

图7 4种网络训练损失值变化图

图8 4种网络训练准确率变化图

3.4 准确率及分割效果对比实验

模型训练结束后使用模型对测试集进行预测,得到(128, 256, 256)类型的预测数据,对原始标签进行unbatch操作得到同类型数据,将两批数据进行一维化操作可得到两个包含8 388 608像素点信息的数组,由这两个数组绘制混淆矩阵,代入式(9)~式(11),得出各网络的PA、MPA、MIoU评价指标,如表1所示。

表1 4种网络性能比较

同样使用训练后的模型对测试集进行预测,将得到的数据分为128个(256, 256)类型的数据,即128张256×256大小的图像,如图9所示,由于预测图中不同的值代表不同的类别,即可用热力图的形式将其绘制出来,与原图、标签图进行比较,预测图中共有5种不同的颜色代表5种不同的岩性。

图9 不同网络分割效果

3.5 网络深度消融实验

由于准确率与参数量的大小有关,故设计实验探究网络层数、网络总参数以及准确率的关系。语义分割网络具有不同层组成的模块堆叠的特点,于是考虑增加、减少重复的网络模块,在相同数据集上进行训练得到4种网络的层数、参数量及其准确率表,由准确率除以参数量,可得到各网络单个参数对于准确率的贡献值,如表2所示。

表2 参数量与准确率关系

以参数量为横坐标,准确率为纵坐标绘制散点图如图10所示,其中网络名后的1、2、3表示网络参数由小到大,且散点越大、越靠右表示网络参数量越多,散点越靠上表示网络准确率越高,则越靠近左上角的网络性能越好。

图10 参数量与准确率关系

3.6 实验结果分析

由图7和图8可知,4种网络最终都能比较好地收敛,且收敛于模型的预测准确率,该结果同式(9)得到的结果一致,4种网络都有不同程度的震荡,这与数据集的大小有关,可通过更大批量的图像来解决。可知4种网络中Debseg-Net的损失值在最低处收敛,准确率在最高处收敛,且较为稳定,可见该网络在岩屑数据集上的性能最好。

由表1可知,在PA度量方式中Debseg-Net相比于FCN-8s、U-Net、VGG-Unet分别提高0.070 4、0.039 1、0.047 4;在MPA上,较FCN-8s、U-Net、VGG-Unet分别提高0.057 6、0.040 0、0.038 4;在MIoU上,较FCN-8s、U-Net、VGG-Unet分别提高0.040 9、0.025 9、0.041 8。

由图9可知,4种网络在对岩屑图像前景和背景的分割上都有很好的性能,但FCN-8s、U-Net、VGG-Unet在对不同类别岩屑的区分上出现了问题,将一种岩屑或该岩屑的部分预测为其他岩屑的情况较为普遍,在图中表现为颜色与标签图不符、存在异色斑点。而Debseg-Net预测图与标签图对比十分接近,可见不管是前景背景的区分还是不同岩屑间的分割都表现得更为优异。

由表2可知,随着参数量的增大,网络的分割准确率会得到提升,但是单位参数的贡献值反而会下降,可见参数不能无限制地增多,否则不但不会提高网络的性能,还会增加网络训练的负担,有时还会出现过拟合的现象,如U-Net与VGG-Unet,随着层数从52增加到64和从53增加到64,参数量有很大程度的增加,但准确率并没有得到增长,反而有下降的趋势。由单位贡献值来看,参数量少的网络单个参数的贡献值更高,但是准确率很差,不同网络准确率存在一个饱和值,参数量增多使得准确率达到该值以后,再增加参数量准确率也不会明显上升。因此合适的网络层数十分必要,才能保证准确率的同时争取效率最大化。

由图10可知,Debseg-Net 2、Debseg-Net 1、VGG-Unet 1、U-Net 1的参数量最少,Debseg-Net 2和Debseg-Net 3的准确率最高,综合来看Debseg-Net 2表现最好,效率最高。

4 结论

提出的针对岩屑图像的语义分割模型Debseg-Net,在拥有较少参数量的同时,保证了分割的准确性。经多轮实验,在与传统分割网络对比中表现了其在岩屑图像上的高准确率与平均交并比,具有良好的岩屑分割效果与泛化能力,并实验探究了不同网络参数量与性能的关系,有助于后期网络的优化和剪枝,在实现数字化岩屑录井进程中具有较大意义。同时,利用此网络可对岩屑图像进行标记,省去了人工标记的烦琐,大大提高了岩屑录井工作的效率。在后续的研究中将针对网络对于混杂岩屑的识别性能以及模型的轻量化做进一步研究,在保证分割精度的基础上进一步提高其效率和不同岩屑的普适性。

猜你喜欢

岩屑语义准确率
地质录井过程中现场管理研究
复杂工况下大位移井岩屑运移与参数优化研究*
真实场景水下语义分割方法及数据集
南海大位移水平井中新型岩屑床破坏器的应用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
泡沫钻井条件下岩屑取样方法研究
“吃+NP”的语义生成机制研究