选择性集成学习模型在岩性-孔隙度预测中的应用

2020-04-08段友祥王言飞孙歧峰

科学技术与工程 2020年3期

段友祥, 王言飞, 孙歧峰

(中国石油大学(华东)计算机与通信工程学院，青岛 266580)

当今，随着油气勘探不断地向深层和储集条件复杂的区域开发，油气勘探活动越来越复杂，储层勘探的难度也越来越大[1]，运用新技术来研究储层的识别和预测变得越来越重要。孔隙度作为一种重要的储层参数，是解释地层和降低油气勘探项目风险的基础和关键[2]，因此，准确地预测孔隙度至关重要。孔隙度的测定可以分为直接测定法(岩心分析、井壁取心、岩屑分析)和间接解释法(地震、测井)[3]，其中，测井数据是目前所能获得的分辨率最高、连续性最好的地质数据，在取心较少以及地震资料分辨率达不到要求的情况下，利用测井数据进行孔隙度等储层属性参数的预测非常必要和重要，一直是学者研究的重要课题。

在使用测井数据进行孔隙度预测方面，常规方法主要有反演法、经验公式法或多元回归等线性方法，这些方法虽然原理简单、易于操作，但误差较大，解释结果并不理想。而人工神经网络、支持向量机(support vector machine，SVM)、决策树等机器学习方法不但能够解决复杂的非线性映射问题，而且比常规方法的学习能力、自适应能力及信息处理能力更强，解释的结果精度更高，因此被广泛运用在预测方面。项云飞等[4]提出将线性回归与径向基(radial basis function，RBF)神经网络相结合的复合方法进行储层的孔隙度预测，该方法预测的精度明显高于单独使用线性回归或RBF神经网络方法预测的精度；邓社根等[5]提出考虑岩性信息的改进支持向量机方法进行孔隙度预测，该方法明显提高了孔隙度的预测精度；陈晓琳等[6]提出使用基于局部加权的决策树算法对孔隙度进行预测，并取得了良好的效果；魏佳明等[7]将随机森林方法引入到孔隙度预测中，与多元回归相比，有效提高了孔隙度预测的精度；An等[8]提出使用深度学习技术进行孔隙度预测，并达到了预期的效果；Baneshi等[9]采用优化的RBF神经网络通过井数据来预测储层的孔隙度模型，并取得了较高的预测精度；Saljooghi等[10]提出将小波理论与多层感知机相结合的孔隙度预测方法，提高了人工神经网络的收敛速度和泛化能力。然而单一机器学习方法在地质储层参数预测问题上存在普适性不强、稳定性不高等缺点[11]。而集成学习，特别是选择性集成学习的出现，为解决单一的学习器所不能解决的问题提供了新思路。选择性集成学习是由Zhou等[12-13]提出的，即在执行分类或回归时，当训练出多个个体学习器之后,从中选择一部分彼此差异大且泛化能力强的个体学习器进行集成,可以得到比使用所有个体学习器进行集成更好的结果[14]。

基于此，考虑岩性对孔隙度的影响，研究并提出了融合岩性分类进行选择性集成学习建立预测模型的方法，该方法首先使用支持向量机进行岩性分类，并将岩性分类结果作为孔隙度选择性集成预测模型的输入。然后在研究分析典型机器学习方法的基础上，通过主成分方法分析法从支持向量回归、RBF神经网络、随机森林、岭回归和K近邻回归等经典模型中选择出一组表现优异的个体学习模型组成集成学习模型，个体在集成模型中的权重由主成分权重平均法获得，最终采用加权平均法得到集成学习模型的输出。通过该方法对储层孔隙度进行预测，以期得到更准确的预测结果。

1 模型与方法

1.1 基本模型

提出的模型框架如图1所示。其基本思想是先进行岩性分类，再根据岩性建立预测模型。即首先将输入数据预处理，利用SVM、逻辑回归、随机森林和决策树四种机器学习方法进行岩性分类，选择一种分类准确率最高的方法建立岩性分类模型。对不同岩性的测井数据，按一定的策略选择训练表现优异的多个个体学习模型组成集成学习模型，再采用组合方法得到集成模型的输出。其中，选择性集成学习模型采用的个体学习模型方法有SVM、RBF神经网络、随机森林、岭回归和K近邻回归。模型中涉及的经典机器学习方法主要有7种，其基本原理及优缺点比较如表1所示。

图1 岩性-孔隙度预测模型框架

1.2 具体方法

1.2.1 岩性分类模型的建立

分别采用支持向量机、逻辑回归、随机森林和决策树方法进行训练，选择分类准确率最高的方法建立岩性分类模型。其结构如图2所示。

图2 岩性分类模型结构

1.2.2 孔隙度预测模型的建立

通过研究和分析，采用SVM、RBF神经网络、随机森林、岭回归和K近邻回归等经典模型作为个体学习模型。分别应用5种机器学习方法对训练数据进行训练学习，得到5个个体学习器，对个体学习器采用主成分方法分析法进行选择性集成学习，选择出一部分训练效果好的个体学习器组成集成学习器，并对集成学习器采用主成分权重平均法产生最终的输出结果。该模型简称PCA-SEN模型。其结构如图3所示，其中选择和组合是模型的核心。

表1 经典机器学习方法原理及优缺点

图3 PCA-SEN模型结构

选择采用主成分方法分析法，即将训练数据采用5种机器学习方法进行训练学习，并对训练数据进行一次预测分析。对每条训练数据采用不同机器学习方法得到的预测值与真实值进行比较，选择预测值最优所对应的机器学习方法作为该条数据所采用的方法，统计每种机器学习方法所通过的样本数，以及在总的训练样本中所占的比例。最后，根据比例选择出几种最优的机器学习方法。假设对于给定的训练样本集{(xi,yi),i=1,2,…n}，其中xi∈Rm，yi∈R，其服从y=f(x)，分别使用SVM、RBF、随机森林、岭回归和K近邻回归方法进行建模，得到回归方程式分别为g=f1(x)、g=f2(x)、g=f3(x)、g=f4(x)和g=f5(x)，对于任意一条训练数据(xk,yk)，采用这五个模型进行预测，得到五个不同的输出值f1(xk)、f2(xk)、f3(xk)、f4(xk)和f5(xk)，采用式(1)方法，分别将每种方法的输出值和真实值对比，选择输出值与真实值误差最小所对应的机器学习方法作为该条数据所采用的方法。

min{|yk-fi(xk)|}，i=1,2,…，5

(1)

对所有的训练数据，重复上述步骤，得到每种机器学习方法所通过的样本数，分别记为p1、p2、p3、p4、p5，且满足p1+p2+p3+p4+p5=n，根据式(2)、式(3)，选择符合条件的机器学习方法，组成集成学习的个体学习器。

(2)

(3)

组合和决策方式的不同，对模型预测精度的影响至关重要。常用的组合和决策方法有简单平均法和权重平均法。简单平均法是把单一机器学习方法的输出的平均值作为最终输出。权重平均法是从单一机器学习方法估计的结果乘以其在总体预测中的贡献的权重因子，权重因子通常通过遗传算法或单层感知器获得。采用主成分权重平均法确定个体学习器的权重因子。即对于给定的训练样本集{(xi,yi),i=1,2,…，n}，其中xi∈Rm，yi∈R，假设经过“主成分方法分析”法后，选择了方法1、方法2、方法5三种机器学习方法，得到的回归方程分别是f1(x)、f2(x)和f5(x)，对于任意一条训练数据(xk,yk)，得到三个不同的输出值f1(xk)、f2(xk)和f5(xk)，采用式(4)方法，分别将每种方法的输出值和真实值对比，选择输出值与真实值误差最小所对应的机器学习方法作为该条数据所采用的方法。

min{|yk-f1(xk)|,|yk-f2(xk)|,|yk-f5(xk)|}

(4)

对所有的训练数据，重复上述步骤，得到每种机器学习方法所通过的样本数，分别记为t1、t2、t3，且满足t1+t2+t3=n，根据式(5)，计算每种模型的权重因子。

(5)

2 实验结果及分析

实验使用了某区块的3口油井(井1、井2、井3)的测井数据，3口油井的详细数据如表2所示。其中，井1数据集样例如表3所示。实验选择Python3.6.5平台，以Python3.6.5中的Scikit-learn工具包为基础，Scikit-learn是建立在NumPy、SciPy和Matplotlib模块之上的一个开源机器学习模块，提供了各种机器学习算法的接口，在调用具体机器学习方法时，只需要设置相应的参数即可建立需要的各种模型。

2.1 岩性分类模型的确定

岩性数据一般包含泥岩、泥质砂岩、砂岩等，实验中使用的岩性数据分为两种，分别是泥岩数据和砂岩数据。设置泥岩类型的标签为数值0，砂岩类型的标签为数值1，实验的输入测井属性有随钻衰减电阻(A40H)、井径(CAL)、中子(CNCF)、自然伽马(GR)、随钻相移电阻(P40H)、声波时差(DT)、密度(ZDEN)，通过特征选择，优选了四种岩性响应特征明显的测井属性，即GR、CNCF、ZDEN、DT。将这四种测井属性作为输入，将泥砂数据的标签值作为输出，分别采用支持向量机、逻辑回归、随机森林和决策树建立模型，其在测试集上的识别率如表4所示。

表2 3口油井的数据描述

表3 井1数据集样例

表4 识别率分析结果

由表4可知，选择支持向量机方法的分类识别率最高，此时，核函数选择RBF核函数，惩罚系数设置为1 000，核函数参数设置为0.01。

2.2 孔隙度预测模型的确定

根据2.1节得到的岩性分类模型，将井3的测井数据分为泥岩数据和砂岩数据，分别对泥岩的测井数据进行训练，建立泥岩的孔隙度预测模型；对砂岩的测井数据进行训练，建立砂岩的孔隙度预测模型。

2.2.1 泥岩的孔隙度预测模型的确定

将井1、井2的真实泥岩数据中的GR、CNCF、ZDEN、DT作为输入，孔隙度作为输出。根据“主成分方法分析”法，分别采用SVM、RBF神经网络、随机森林、岭回归和K近邻回归方法建模，并对训练数据集进行一次预测分析，由式(1)可得每种机器学习模型在训练集上通过的样本数，再由式(2)、式(3)计算每种机器学习模型在训练集上的贡献比例，如表5所示。由表5可知，SVM、RBF和K近邻回归三种方法贡献的权重最大，且总和超过0.8。因此，选择SVM、RBF和K近邻回归组成集成学习的个体学习器。

表5 主成分方法分析法计算的每种模型所占的比重

根据主成分权重平均法，对优选出来的SVM、RBF、K近邻回归方法得到的个体学习器在训练数据集上进行一次预测分析，由式(4)可得每个个体学习器在训练集上通过的样本数，再由式(5)计算每个个体学习器在训练集上的贡献比例，即为每个个体学习器的权重因子。结果如表6所示。

确定泥岩的孔隙度预测模型后，利用该模型可以对预测井泥岩层的孔隙度进行预测。

表6 主成分权重平均法计算的每种模型的权重

2.2.2 砂岩的孔隙度预测模型的确定

同样可以确定砂岩孔隙度预测模型。根据主成分方法分析法，由式(1)可得每种机器学习模型在训练集上通过的样本数，再由式(2)、式(3)计算每种机器学习模型在训练集上的贡献比例。如表7所示。由表7可知，SVM和RBF两种方法贡献的权重最大，且总和超过0.8。因此，选择SVM和RBF组成集成学习的个体学习器。

表7 主成分方法分析法计算的每种模型所占的比重

根据主成分权重平均法，对优选出来的SVM、RBF方法得到的个体学习器在训练数据集上进行一次预测分析，由式(4)可得每个个体学习器在训练集上通过的样本数，再由式(5)计算每个个体学习器在训练集上的贡献比例，即为每个个体学习器的权重因子。结果如表8所示。

表8 主成分权重平均法计算的每种模型的权重

确定砂岩的孔隙度预测模型后，利用该模型可以对预测井砂岩层的孔隙度进行预测。

2.3 孔隙度预测与结果分析

分别采用经典SVM、K近邻回归、RBF等学习器模型以及2.2节得到的PCA-SEN预测模型对预测井3的孔隙度进行了预测。结果如表9、图4所示。其中，图4(a)是真实孔隙度值，图4 (b) ～图4(e)分别是SVM、K近邻回归、RBF、PCA-SEN的预测孔隙度值。均方差(MSE)和相关系数(R)对比如表10所示。

表9 井3数据集样例与预测数据样例

图4 井3孔隙度曲线对比

表10 单一预测模型与PCA-SEN预测模型的均方差和相关系数分析结果

由图4、表10可知，与经典SVM、K近邻回归、RBF模型相比，PCA-SEN模型预测的孔隙度与真实孔隙度的均方差更小，且相关系数更大，说明论文提出的PCA-SEN预测模型的预测精度更高。

同时，也将融合了岩性分类的PCA-SEN模型与未融合岩性分类的PCA-SEN模型进行了井3的孔隙度预测实验，结果如表9、图5所示。其中图5 (a)为真实孔隙度值，图5 (b)为未融合岩性分类的PCA-SEN模型的预测孔隙度值，图5 (c)为融合岩性分类的PCA-SEN的预测孔隙度值。均方差(MSE)和相关系数(R)对比如表11所示。