基于机器学习方法的油井日产油量预测

2020-06-16刘巍刘威谷建伟

石油钻采工艺 2020年1期

刘巍刘威谷建伟

中国石油大学(华东)石油工程学院

油井产量动态预测对认识油藏、改善油井工作制度、编制科学合理的开发调整方案具有重要指导意义。油藏数值模拟是油田产量预测最常用方法，但其准确性依赖于高质量的历史拟合和准确的地质建模。历史拟合耗时长，工作量大，同时前期建模过程需要大量地质资料、流体物性资料和动态开发资料。为克服数值模拟计算这一缺陷，利用机器学习方法［1-2］建立了油井产量预测模型，依托现场易获得的开发动态参数实现产量的快速准确预测［3-4］。

利用机器学习算法建立产量预测模型简便实用，许多学者通过BP神经网络［5-8］和支持向量机(SVM)［9］等机器学习方法来实现油井产量的动态预测。其应用结果表明，该类基于数据挖掘思想的油田产量预测方法具有很好的应用价值。但这些传统的机器学习方法构造的是一种点对点的映射，忽略了产量随时间的变化趋势和数据间的前后关联性［10］。长短期记忆神经网络(LSTM)是一种改进的循环神经网络(RNN)［11］，具有自循环结构，上一时刻的输入会影响当前时刻的输出，同时通过 “门”结构，选择性遗忘对当前时刻不重要的“经验”，记忆重要时刻的“经验”知识，从而具备较长时间范围内的记忆功能［11］。基于该方法预测产量能准确反映其变化趋势，更适合产量时序预测。

基于广泛应用于时序数据学习和预测的长短期记忆神经网络(LSTM)来预测油井产量，能保留先前的产量信息并传递到后续时间节点的产量预测，充分考虑生产动态数据的变化趋势和前后关联性，更深层次挖掘数据间的潜在规律，预测结果更为准确可靠，符合实际产量变化情况。

1 原理与方法

1.1 MDI 特征选择

准确选取影响油井产量的主要特征参数，对于提高模型的泛化能力和预测精度具有重要意义。基于决策树模型的特征选择准则——平均不纯度减少(MDI)，计算每个特征对树模型预测误差的平均减少程度，并将该值作为特征重要性的度量依据。在决策树生成策略中，分类树和回归树的生成都是选择某个特征，并计算该特征对决策树的不纯度的减少程度来选择特征作为决策树的节点。因而，在决策树的训练过程中可以保存每个特征平均减少了多少不纯度，用来衡量这个特征的重要程度。对于分类问题，通常采用基尼不纯度或者信息增益，对于回归问题，可以采用方差或者其他合理的不纯度衡量方法。采用特征对于决策树模型预测误差的变化大小来度量特征参数的重要性，计算过程如下。

假设存在m个特征(x1,x2,···,xm)，利用这m个特征和观测值yo所构成的数据集训练随机森林(RF)模型。训练前RF 模型初始预测误差es为

在RF模型的生成过程中，依次给模型增加特征节点。当选定并添加特征节点xi时，得到RF 模型的预测误差ei。因而特征xi对于响应变量y的重要性可用MDI值(MDIi)定义为

依次添加剩余特征，直至遍历完所有特征时，停止决策树的生长，同时得到其余特征参数的MDI值。一般而言，与油井产量无关的特征参数，其MDI值较小。但是，当特征间存在协同作用时(如：同时选定特征a、b时模型的预测精度比单独选定特征a或b时的高)，会导致其中一个特征的重要性偏低。因而，首先依据各个特征参数的MDI值，以从大到小顺序对特征进行排序。进而剔除MDI值较小的特征，观察该特征对模型预测精度的影响。若预测精度保持不变，则可认定该参数为冗余的无效特征；若模型的预测精度变化较大，则说明该特征与候选特征中的特征存在协同作用，保留该特征。根据MDI 值从小到大顺序继续剔除特征，重复上述过程直至无候选特征为止，从而可剔除特征集中的无效特征参数。此时，保留的特征参数即为与油井产量最相关的有效特征参数。基于上述方法筛选出来的有效特征参数结合油井产量数据构成标准数据集，用于LSTM 模型的训练和测试。

1.2 LSTM 神经网络原理

传统BP神经网络输入和输出相互独立，无法考虑先前时刻的输入对当前时刻输出的影响，因此不能有效处理时序数据问题。RNN 具有自循环结构，可将先前时刻处理的信息传递给下一时刻计算输出，从而给网络赋予了“记忆能力”，使RNN 的输出不仅受到当前输入影响，还受过去所有步骤输入影响［12］。RNN的这一优势使其成为解决序列问题时最自然的神经网络结构，计算过程如下

其中，ht为t时刻隐藏层状态；U为输入层权重系数矩阵；xt为t时刻输入；W为隐层神经元之间权重系数矩阵；ot表示t时刻输出；V为输出层权重系数矩阵；f和g分别表示输入层和输出层的激活函数。

参数矩阵W在每次计算中被共享，所以在状态传递过程中相当于乘以Wt。当训练的序列较长时(即t较大)，Wt可能趋向于0或无穷大，即梯度消失或爆炸。对于1个时间序列，先前时刻信息的记忆都会以指数级的速度被遗忘，最终导致长距离的信息很难在网络中传递。LSTM是一种改进的循环神经网络，可以很好地解决长时依赖问题，更适合油井产量的时序预测。

LSTM和普通的RNN 相比，增加了遗忘门、输入门、输出门和记忆单元，网络结构如图1所示。

图1 LSTM 网络结构Fig.1 Structure of LSTM network

遗忘门可控制上一时刻隐藏层状态的遗忘程度，ft取值为0时表示无信息通过，取值为1表示信息完全通过，保留这一时刻的记忆。数学表达式为

输入门首先通过sigmoid 层决定哪些值用来更新，然后通过一个tanh 层生成新记忆候选值并决定新记忆写入长期记忆的程度。数学表达式为

将记忆单元保留的旧记忆状态Ct−1与新的候选值结合，并由遗忘门输出值ft和输出门的计算结果it分别决定旧记忆状态和新信息被遗忘和保留的程度，更新记忆单元状态，数学表达式为

输出层通过sigmoid 层得到一个初始输出，并结合tanh 层决定模型最终的输出值。表达式为

上述式(6)~(10)中， σ表示sigmoid 层激活函数；ft表示t时刻遗忘门的输出；Wf、bf分别表示遗忘门权重和偏置项；it表示t时刻输出层的输出；Wi、bi分别表示输入门权重和偏置项；WC、bC分别表示tanh 层的权重和偏置项；Wo、bo分别表示输出层的权重和偏置项；Ct表示记忆单元在t时刻的状态；ot意义与式（4）相同；表示t时刻tanh 层的输出；tanh 表示激活函数。

LSTM通过门控制器和新的记忆单元，在RNN原有短期记忆上保留了长期记忆，对长序列的理解分析能力大幅度提高，能更好地适应具有长时依赖特征的时序预测问题。油井产量变化具有较强的前后关联性，利用LSTM神经网络能更有效学习和挖掘产量数据变化规律，实现产量的准确预测［13-14］。因此，采用LSTM 建立产量预测模型更合适。

1.3 模型评价指标

在测试集上评价预测模型的泛化能力，即模型的产量预测效果。采用的预测效果评价指标主要包括：决定系数R2、平均相对误差 δr、均方误差 δa。

决定系数R2计算公式为

平均相对误差也作为模型训练的代价函数，其公式为

均方误差计算公式为

式中，yi为第i个样本或第i时刻实测产量，t/d；N为样本个数为LSTM模型在i时刻或第i个样本处产量预测值，为实测产量平均值，t/d。

1.4 基于MDI特征选择的LSTM 产量预测模型

基于MDI特征选择的LSTM 油井日产油量预测模型主要包括以下步骤：① 对构建的数据集划分为训练集、验证集和测试集，分别用于模型的训练、超参数调优和模型预测效果评价；② 对输入特征基于MDI 方法分析各个变量的重要性，筛选出油井日产油量的影响因素，剔除掉无关特征；③为了消除特征之间量纲差异给模型带来的误差，并加快模型训练速度，对各个输入特征进行归一化处理，建立标准的机器学习数据集；④在训练集上对LSTM 模型进行训练，并在验证集上，通过网格搜索确定LSTM的最优超参数，得到最终的预测模型；⑤在测试集上对比模型预测结果与实际值的差距，测试LSTM模型的预测效果。基于MDI特征选择的LSTM油井日产油量预测方法的流程图如图2所示。

图2基于MDI 特征选择的LSTM 日产油量预测方法的流程图Fig.2 Flow chart of LSTM daily oil production prediction method selected on the basis of MDI characteristic

2 实例应用

2.1 样本选取

选取某油田25FLW 井区为研究对象，其位于东营渤中凹陷，油藏埋深1 395~1 455 m，油气成藏条件优越，石油地质储量为517×104t。该油藏从1999 年投入开发，至今已有25口油井和15口注水井，选取其中1个井区作为产量预测的研究对象。该井区包含5口生产井(25FLW-1，25FLW-2，25FLW-3,25FLW-4，25FLW-5)和4口注水井(25FLW-11，25FLW-12，25FLW-13,25FLW-14)。根据油藏工程师经验，影响油井产量的因素主要包括4类：第1类是当前油井的井口压力，原始含水饱和度，泵排量，生产时间，含水率；第2类是周围油井的产液量；第3类是周围注水井的井口压力和注水量；第4类是油藏剩余可采储量。收集和整理这5口生产井从投入开发至2018年11月的上述4 类特征参数和日产油量数据，并分别以6∶2∶2的比例将各生产井的数据集划分为训练集、验证集、测试集。

2.2 数据预处理

对统计和整理好的油田现场数据进行清洗和处理。数据的清洗工作主要包括清除数据中的异常点，补全缺失数据，保证整个生产时段内数据的完整性和有效性。同时，为加快模型训练速度和提高预测精度，对收集的数据进行归一化处理，其公式如下

式中，x表示待归一化的参数，xmin、xmax分别表示参数的最大值和最小值。

2.3 特征选择

基于MDI 特征选择方法，分析各个静态特征参数和动态特征参数对于油井产量的重要性，以油井25FLW-1 为例，各个特征重要性计算结果如图3所示。

图3坐标纵轴表示各特征参数，横轴表示特征参数对产量的重要性程度。井区剩余可采储量和25FLW-1井的井口压力对该井产量影响较大，而产量与该井原始含水饱和度、泵排量无关。由于这些参数在25FLW-1 井生产过程中几乎一直保持为定值，对产量的变化没有任何贡献，因而在建立该井产量预测模型过程中可剔除该类特征。同时，根据特征的MDI值从小到大顺序，逐次排除特征参数，剔除掉对模型预测精度没有影响的冗余特征，则此时剩下的特征参数为影响油井产量有效特征。最终基于MDI 特征分析结果和特征筛选过程，剔除掉了25FLW-11井的原始含水饱和度、泵排量、井口压力和25FLW-13井注水量这4个变量，确定有效特征参数共14个，作为LSTM模型输入变量。

2.4 模型训练和超参数调优

根据确定的有效特征参数与油井日产油量构成的训练集，基于Adam 学习算法，对LSTM神经网络进行训练，优化神经网络的各个权重系数；在验证集上通过网格搜索，确定模型最优网络结构参数：

epochs=750；batch_size=35；time_step=10； hidden_nodes=30。训练过程中模型损失函数随训练次数的变化过程如图4。可以看出，模型的损失函数随训练次数增加而逐渐减小并趋于稳定，且训练集与验证集的损失函数非常接近，说明LSTM预测模型没有出现过拟合或欠拟合的现象，模型具有较好的泛化能力，可用于25FLW-1井的日产油量预测。

图4训练集和测试集损失函数随训练次数的变化过程Fig.4 Variation of the loss function of training set and testing set with the training times

2.5 产量预测与分析

以25FLW-1井为例，利用训练好的LSTM产量预测模型，预测25FLW-1油井在2018年6月21日—11月1日的日产油量，与实际监测数据对比，部分结果如表1，平均相对误差为4%，满足工程计算要求。整个测试集上的产量预测值与实际值对比结果如图5，LSTM 模型预测的油井日产量与实测产量高度一致，模型预测效果评价指标有：决定系数R2=0.78，平均相对误差δr=0.04，均方误差δa=1.07。结果均表明基于LSTM的产量测模型准确掌握了产量变化趋势和前后关联性，能准确预测油井未来日产量变化。因此，LSTM 日产油量预测模型可用于矿场应用，且该模型可用于该井区和油田其他生产井的日产油量预测，根据给定的数据集进行机器学习，深度挖掘数据中隐藏的控制机制，得到适用于每口生产井的LSTM 日产油量预测模型。

表1 25FLW-1井产量预测值与实际值对比Table 1 Comparison between the predicted production of Well 25FLW-1 and the actual value

基于训练好的模型，可进行注采方案快速评估。当改变注水井注入量时，根据LSTM预测模型，可快速预测相应控制条件下的产量，实现注采方案合理性的快速判断和调整。以25FLW-1井为例，保持其他生产参数不变，改变注水井25FLW-11的注水量，根据训练好的LSTM 模型预测油井25FLW-1的日产油量变化，如图6所示。从结果可看出，增大25FLW-11井的注水量能有效提高25FLW-1井的产油量，这一结果可用于快速判断注采方案的合理性，调整和优化注采方案。或用于诊断油井是否出现故障，即当产量没达到预期值时，可考虑检查采油设备等仪器是否出现故障。