APP下载

基于2 种机器学习方法的页岩TOC 含量评价
——以川南五峰组—龙马溪组为例

2022-01-31杨占伟姜振学梁志凯王军霞宫厚健李维邦苏展飞郝绵柱

岩性油气藏 2022年1期
关键词:测井神经网络误差

杨占伟,姜振学,梁志凯,吴 伟,王军霞,宫厚健,李维邦,苏展飞,郝绵柱

(1.中国石油大学(北京)油气资源与探测国家重点实验室,北京 102249;2.中国石油大学(北京)非常规油气科学技术研究院,北京 102249;3.中国石油西南油气田公司页岩气研究院,成都 610051;4.中国石油大学(北京)理学院,北京 102249)

0 引言

近年来,随着非常规油气领域探索的不断深入,页岩油气勘探开发已然成为全球油气资源勘探的热点方向。有机质碳含量(TOC)作为评价烃源岩生烃潜力及预测储层油气“甜点区”的关键性指标,对于页岩气勘探开发以及资源评价具有指导意义,但其值准确性受到地质条件复杂程度及测定方法差异等一系列因素的影响。目前,尽管地球化学方法被认为是测量TOC 含量最受欢迎的方法,但有些缺陷可能会影响结果的可靠性,例如,不能覆盖大范围的深度,成本高且耗时。此外,由于样品长时间暴露在空气中,测量往往不准确,这增加了游离有机物被氧化和逸出的机会。利用测井资料预测TOC 含量也是常用手段,其常规方法有多元回归法和ΔlogR法,但这2 种方法都存在一定缺陷[1-3]。多元回归法将TOC 含量与一系列测井参数之间建立多元回归关系,但因TOC含量往往受多种地质因素的影响,且与各因素间存在着复杂的非线性关系,常规的回归方法难以表达其内在联系,预测效果难以达到要求[4-7]。ΔlogR法通过将对数坐标的电阻率曲线与算术坐标的声波时差曲线叠加,以非烃源岩段调准基线计算幅度差Δ logR[8-9],该方法需要设定有机碳背景值(泥岩普遍含有一定量的有机碳)、成熟度参数及人为对准多个非烃源岩基线,操作复杂、误差较大,对于异常点处理并没有系统的标准,人为主观性较强[10-11]。如今随着人工智能领域与各个学科相互交叉融合,机器学习方法在地质领域得到了一系列的应用,通过引用不同的人工智能算法实现对烃源岩TOC 含量的准确预测[12-14]。常用的机器学习方法主要包括神经网络、支持向量机、极限学习等[15-17]。为了进一步提高预测精度,国内外学者通过结合具体研究区特点,不断优化算法,降低预测误差[18]。王贵文等[19]使用BP 神经网络模型对塔里木盆地台盆区寒武系—奥陶系烃源岩进行了TOC 含量预测,取得了较好的效果;蒋德鑫等[20]对珠江口盆地陆丰凹陷文昌组烃源岩与TOC 含量建立多元回归模型、人工神经网络模型和曲线叠合模型,并分析了3 种模型的预测效果及适用条件。Johnson 等[21]使用改进的神经网络模型对澳大利亚坎宁盆地烃源岩TOC 含量进行了预测并达到了基本精度要求。上述方法虽取得了一定效果,但预测精度还有待提高,且在不同地区适用性不同,针对四川盆地尚未提出有效预测方法。

以川南五峰组—龙马溪组为例,首先采集该地区多口井的测井曲线及实测TOC 含量数据进行建模,然后利用主成分分析法对收集的测井资料进行预处理,建立并训练基于BP 神经网络模型和基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的预测模型,并将这2种模型应用于生产井的TOC 含量预测中验证其准确性,以期为该区TOC含量预测提供新思路,为后续勘探开发提供依据。

1 地质概况

四川盆地位于上扬子台地西北部,在龙门山—大巴山台缘坳陷和滇黔川鄂台褶带中间,是经历多期复杂构造运动后形成的叠合深层盆地。在奥陶纪晚期,受到南部黔中隆起、西部川中隆起以及东部雪峰古隆起的相互作用,四川盆地逐渐由早中奥陶世广阔海域逐渐转变为被东南西三面隆起包围的半局限性海域,沉积主体也演变为半局限浅海相和深水—半深水陆棚亚相[22-23]。

根据川南长宁、泸州等地区页岩气勘探开发资料显示,该地区下古生界海相黑色富有机质页岩广泛发育,4 500 m 以浅的五峰龙马溪组成为黑色泥页岩具有分布范围广、有机质(TOC)含量高、成熟度高等一系列优点,已经成为了我国南方海相页岩气主力开发层系,2020 年产量已达200 亿m3,该层位页岩气资源量达到3.7 万亿m3,可采资源量达200 亿m3,具有极高的勘探开发价值。本次研究所涉及的区域主要为长宁和泸州地区,所涉及的地层主要为五峰组—龙马溪组页岩层系。

2 TOC 含量预测模型

本次研究中井径和地层电阻率等一系列测井数据、实测TOC 含量数据均来源于中国石油西南油气田公司页岩气研究院,测试仪器为碳硫分析仪KLT-005,测试温度为16~18 ℃。为改进常规地球化学方法测定TOC 含量时样品长时间暴露在空气中导致测量不准确的弊端,本次样品密闭取心,封闭保存,并通过调研前人对于研究区TOC 含量的测定结果,与实测值进行比对,确保了测试的准确性。为了减弱个别参数不准确对模型精度的影响,采用主成分分析法对收集到的各项测井数据进行优选,得到新的输入变量,并分别代入BP 和GBDT预测模型中进行训练,调整各项参数使模型均方根误差达到最小,利用建立的预测模型对不同页岩气井进行TOC 含量的预测。

2.1 主成分分析

主成分分析法的主要原理是利用降维的方法,以丢失较少的信息为前提,把多个相互关联的参数转化为几个综合性参数的一种多元统计方法。利用此方法转化、生成的综合性参数称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,利用此方法得到的主成分相比初始变量数据具有更为简洁准确的性能[24-27]。

进行主成分分析,首先需要将原始数据进行标准化处理,以此来消除量纲所带来的影响。假设进行主成分分析的指标有m个:x1,x2,x3,…,xm,评价对象共有n个,其中第1 个评价对象的第j个指标的取值为x1j,通过此方法可将原始数据排列为矩阵

将各个指标值xij转换为标准指标:

其中

其次建立变量之间的相关系数矩阵R,其中

式中:rij=1,rij=rji,rij是第i 个指标与第j个指标的相关系数。

计算相关系数矩阵R的特征值λ1≥λ2…≥λm≥0,及对应的特征向量u1,u2,um,其中

由特征向量组成m个新的指标变量。式中y1是第1 主成分,y2是第2 主成分,…ym是第m主成分。

最后确定主成分个数:

式中:αk为各个主成分的贡献率;αP为主成分y1,y2,…,yp的累计贡献率。

当累计贡献率αP大于或等于80%~85% 时,选择其相对应的前p个指标变量作为主成分分析得到的主成分,用这p个主成分替代m个初始变量指标,更加简便准确。

收集川南长宁、泸州等地区多口井的测井曲线及龙马溪组17 口井627 组实测TOC 含量数据,分别将一系列不同测井参数和其对应的TOC 含量进行相关性分析,优选出相关性较高的7 个测井参数:声波时差(AC)、井径(CAL)、补偿中子(CNL)、补偿密度(DEN)、自然伽马(GR)、无铀伽马(KTH)和地层深电阻率(RLLD),作为评价分析TOC 含量的影响因子[28]。

在创建预测模型时,仅使用任何单一测井参数均无法准确预测TOC 含量,为了达到准确得到TOC含量与各个测井曲线间的非线性映射关系的目的,对以上7 组测井参数进行主成分分析,计算相关系数矩阵,其中相关性系数越靠近1,则表明测井参数间的相关性越好,反之则相关性越差,结果如图1所示。

图1 输入特征变量关联度分析表Fig.1 Correlation analysis of input characteristic variables

分析计算得到各成分对于7 个测井参数信息的贡献率和累计贡献率(表1)。

表1 主成分特征值及贡献率Table 1 Eigenvalues and contribution rate of the principal components

将贡献率从高至低排列,前4 个主成分的累计贡献率达到了86.505%,依据累计贡献率大于85%的原则,选取前4 个主成分作为新的输入变量,应用于建立TOC 含量计算模型中。表2 为主成分的因子载荷矩阵,反映各指标对主成分载荷的相对大小和作用方向。

表2 主成分的因子载荷矩阵Table 2 Factor loading matrix of the principal components

利用表2 和4 个主成分初始特征值,计算得到新的输入变量y1,y2,y3,y4公式:

经过主成分分析得到了新的4 个综合变量y1,y2,y3,y4,各个综合变量之间相互独立,每个综合变量都包含前述7 个测井参数信息,但各有侧重。根据各个系数大小可以看出,y1主要反映了AC和CAL的信息;y2主要反映了DEN和GR的信息;y3主要反映了KTH的信息;y4主要反映了CNL和RLLD的信息。

2.2 BP 神经网络模型

BP 神经网络是一种按照反向误差进行传播的多层前馈网络,利用学习信号正向传播和误差逆向传播双重作用机制来对数据进行训练。BP 算法是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值[29-30]。通过正向传播,隐含层可通过内部计算获取输入向量的输出值,输出层则会在隐含层的基础上进行计算,进而得到输出值。当进行反向传播时,首先需要计算出输出层所得到的输出值,若获得的输出值达不到预期效果,则会重新将数据导入输入层,再通过不断修改输入层与隐含层,隐含层与输出层的连接强度和阈值,直到使误差控制住预期范围内,训练则会停止[31]。经过此方法训练好的神经网络则具有很强的非线性映射能力和柔性的网络结构。

本文建立的BP 神经网络主要包含输入层、隐含层和输出层三部分结构。模型借助Matlab软件编写模型程序,并使用工具箱中newff 函数创建神经网络,再利用经过主成分分析法降维后得到的4 个新的综合性参数y1,y2,y3,y4作为模型的输入变量,将实测得到的TOC 含量作为模型的输出变量,隐含层的传递函数选择tansig 函数,输出层传递函数则选择pureline 线性函数,隐函数节点数计算公式如下:

式中:k为样本数,个;M为隐含层神经元的数量,个;n为输入层神经元的个数;i为取值0~n的正整数,当i>M=0。

样本数为627,选取隐含层神经元个数M=15,最终确立的网络结构为4×15×1 的3 层BP 神经网络模型,为使算法达到较快的收敛速度和较高的训练精度,网络训练采用rainlm 函数,神经网络模型具体相关参数如表3 所列。利用学习后的神经网络模型对测试集进行识别,通过计算误差率,分析训练模型准确率,具体拓扑图如图2 所示。

表3 BP 神经网络模型相关参数Table 3 Relevant parameters of BP neural network model

图2 BP 神经网络模型拓扑图Fig.2 Topological diagram of BP neural network model

2.3 梯度提升决策树(GBDT 模型)

GBDT 是一种具有出色预测能力的机器学习模型。通过回归树将计算值与目标值之间的残差进行快速归类分析,并利用逐步提升算法不断减小残差,使得计算值逐渐逼近目标值[32-34]。这种方法不仅能灵活处理各种类型的数据,还能在极短的调参时间下,达到较高的预测精度。由于回归树会对不同的残差值进行不同处理,即使样本中有错误样点,训练结果也不会受到太大影响。此外,模型还可通过调整参数和使用更多回归树来挖掘出数据之间的对应关系,使其具备较好的泛化能力。GBDT算法的核心是在多次基础模型中,利用损失函数的负梯度值作为该轮基础模型损失值的近似值,并通过这一近似值来构建下一轮的基础模型,能使目标函数的求解更为简便。GBDT 算法的实现步骤如图3 所示。

此模型利用Python 语言编写模型程序,并借助机器学习库内Sklearn 模块来进行建模分析。模型主要调节参数为Boosting 框架参数和弱学习器参数[35]。其中Boosting 框架的重要参数主要包括:最大迭代次数、权重缩减系数、损失函数等;弱学习器的主要参数包括:最大特征数、决策树最大深度、叶子节点最少样本数等。为了使得预测模型取得较好的效果,在建立模型前,需对模型参数进行调整。选择参数时,迭代次数过小,容易出现欠拟合的情况;学习速率过小,则需要更为复杂的迭代过程和更大的计算量;过大的叶子节点深度会出现模型过拟合现象。因此,采用交叉验证的方法来确定合理的参数体系,参数选取原则主要是利用准确率判断模型拟合的好坏,通过不断调整合适的参数以达到较高的准确率,模型具体参数如表4 所列。

表4 GBDT 模型相关参数Table 4 Relevant parameters of GBDT model

具体建模操作流程如下:

(1)输入。

训练数据集:

损失函数:

式中:Y为实测TOC 质量分数,%。

(2)初始化弱分类器。

对损失函数进行求导,令其导数为零,得到使损失函数达到极小值的常数c。因此初始化时,c值可取训练样本标签值的均值,即

计算损失函数的负梯度值,即:

式中:i为样本数,个,i=1,2,…,627;m为迭代次数,即生成的基础模型的个数,m=1,2,…,M。

利用上式得到的数据集(yi,rmi)来拟合下一轮的基础模型,训练得到模型的回归树ft(y),计算每个叶子节点Rmj,j表示叶子节点数,j=1,2,…,J,并计算每个叶子节点Rmj的最佳拟合值rmj,使得其损失函数达到最小。

结合前m-1 轮基础模型,可得到最终模型:

3 预测效果分析

对川南五峰组—龙马溪组17 口井627 组实测数据分别按照训练样本70%、验证样本15%、测试样本15%的比例进行划分,即439 组数据作为训练样本,94 组数据作为验证验本、94 组数据作为测试样本。BP 神经网络模型与GBDT 模型对于TOC含量的预测结果如图4 所示,2 种模型对于TOC 含量的预测效果均较好,GBDT 模型的综合效果要好于BP 神经网络,其预测值整体偏离TOC 含量实测值程度较小,相关性更高,达0.90 以上。

图4 2 种模型训练及预测结果Fig.4 Training and prediction results of two models

分别计算两者对于627组数据预测与真实TOC含量之间的误差(图5),GBDT模型整体误差更小,绝大部分误差值均在0.5 范围内,由此认为GBDT模型在预测TOC含量方面更具优越性。

图5 2 种模型预测误差结果Fig.5 Prediction errors of two models

4 实际应用

根据上述的2 种TOC 含量预测模型,利用川南长宁CNX202 井五峰组—龙马溪组131组测井数据对页岩气TOC 含量进行预测。将经过主成分分析的数据输入训练好的模型中,如图6 所示,BP 模型测试样本的预测值与实测值相关性为0.761,GBDT模型测试样本的预测值与实测值相关性为0.970。

图6 2 种模型预测预测结果Fig.6 Prediction results of two models

以长宁CNX202 井为例,综合对比上述2 种预测模型与传统ΔlogR法对于TOC 含量的预测效果(图7)可知,2 种预测模型的预测精度均高于传统ΔlogR方法。

图7 川南长宁地区CNX202 井五峰组—龙马溪组TOC含量综合对比图Fig.7 Comparison between predicted and measured TOC content of Wufeng-Longmaxi Formation of well CNX202 in Changning area,southern Sichuan Basin

为了更加准确地评价3 种预测方法的优劣,采用平均误差、平均误差率、均方根误差等3 种误差指标进行对比(表5)。根据对比结果显示,BP 神经网络和GBDT 预测模型各误差指标参数均小于传统ΔlogR法,GBDT 预测模型表现出更高的准确度。

表5 3 种模型误差指标对比Table 5 Comparison of error indexes of three models

5 结论

(1)优选出相关性较高的声波时差(AC)、井径(CAL)、补偿中子(CNL)、补偿密度(DEN)、自然伽马(GR)、无铀伽马(KTH)和地层深电阻率(RLLD)等7个测井参数作为评价TOC 含量的重要影响因子,利用主成分分析方法,将这7 个测井参数转化为4个综合指标,增加了计算精度和计算效率,减少计算冗余。

(2)在川南长宁地区五峰组—龙马溪组采用BP 神经网络模型和GBDT 模型预测TOC 含量,训练样本与测试样本的预测值与实测值相关性均超过0.80,拟合效果均良好,GBDT 模型预测精度更高,其预测值与真实TOC 含量值的相关性达0.90以上,预测误差更小,627 组样本数据中绝大多数的误差值在0.5 以内,表现出更稳定的优势。

(3)BP 神经网络模型和GBDT 模型均能较好的预测川南长宁地区五峰组—龙马溪组TOC 含量,预测效果均好于常规ΔlogR方法,其中GBDT模型预测结果与实际测试值偏差更小,该方法在泸州、长宁等地区有广阔的应用前景。

猜你喜欢

测井神经网络误差
本期广告索引
高强度高温高压直推存储式测井系统在超深井的应用
基于递归模糊神经网络的风电平滑控制策略
延长油田测井现状与发展前景
Beidou, le système de navigation par satellite compatible et interopérable
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
精确与误差