APP下载

油气生产大数据挖掘系统的研究及应用

2016-10-13檀朝东张恒汝马永忠杨兵王辉萍

数码设计 2016年1期
关键词:数据挖掘油气生产

檀朝东,张恒汝,马永忠,杨兵,王辉萍



油气生产大数据挖掘系统的研究及应用

檀朝东1*,张恒汝2,马永忠3,杨兵3,王辉萍1

(1.中国石油大学(北京)石油工程学院,北京昌平,102249;2. 西南石油大学计算机科学学院,成都610500;3.中石油华北油田采油五厂,河北辛集,052360)

随着智能油田建设的不断推进,油气生产数据呈爆炸式增长。由于其数据结构复杂,形式多样,以及数据深度分析需求的增长,为挖掘工作带来了机遇与挑战。本文采用数据融合技术,搭建复杂油气生产过程的大数据挖掘平台,根据特定的挖掘目标,建立专题数据库,快速定制相应数据挖掘算法和石油工程业务模型,形成适应用户需求的数据挖掘应用系统,实现油气生产智能化诊断、预测、优化及辅助决策。

智能油田;大数据;灰色关联;聚类分析;时序预测

引言

随着数字油田的快速发展,油田生产过程的自动化和信息化程度不断提高,产生了采油与地面工程的生产、作业等多个类型的海量数据。其年增长速度从MB级迅速发展到TB、PB、EB、ZB级,形成“数据量的急剧膨胀”和“数据深度分析需求的增长”这两大趋势。油气生产是一个复杂的过程,包括了采油、采气、注水及油气集输等诸多环节。油气生产中积累的数据具有如下特点[1]:(1)数据量巨大、高维且有较强的耦合性。油气生产中数据采集频繁、采集密度大,且存在重复冗余数据,系统众多参数间相互影响,共同作用其行为状态;(2)油气生产系统具有不稳定性,且采集数据因工业噪声易受污染;(3)动态性与数据类型的多样性。油气生产中油气井产量、注水量、油压,温度、设备状态等参数都随时间不断变化,并包括逻辑型、数值型等多类型数据;(4)多时标性与不完整性。不同参数采集频率不同,数据粒度不同,且数据记录的不同步可能出现数据丢失;(5)多模态性,油气生产系统中存在正常工作状态,也存在故障的工况。这些特性使得传统的数据库系统架构难以支撑挖掘任务,传统的模型和算法,比如联机事务处理(OLAP)无法充分、有效地挖掘数据中隐藏的有价值信息。因此,有必要研究面向大数据的油气生产数据挖掘系统,实现油气生产智能化诊断、预测和优化,提高决策能力,降低油气生产成本。海量数据。

1 油气生产大数据挖掘系统的技术研究

传统的数据挖掘技术及其体系架构在应对海量数据时已经出现了不少问题,特别是挖掘效率的问题。基于小数据的挖掘算法或基于数据库、数据仓库的挖掘技术及并行挖掘已经很难高效地完成海量数据的分析处理。传统的体系架构基本是在以单个算法为整体模块,用户只能使用已有的算法或重新编写算法完成本专业独特的业务。“大数据”出现后,需求将不再完全由业务部门明确提出,更多将由技术、模型、经验等综合驱动[2]。同时,从基础设施架构到分析应用,“大数据”的处理方式和技术发生改变,需要对所有与数据生成、传递、处理有关的系统进行重新规划和布局,需要对原有的数据架构、数据标准、接口规范等重新设计和统一,需要对企业内外部数据环境进行全面分析,经整体综合考虑后,制定数据模型、架构和解决方案,最终形成“以数据驱动决策”的全新信息化顶层架构。

1.1 基本思路

以油气生产物联网系统中的PLC/DCS/FCS/CIPS采集积累的动态数据、油井的基础数据、化验、试验、人工记录日志、解释成果数据为数据源[3-4],进行数据预处理,以解决数据的不完整性、噪声及重复、冗余问题等提高数据质量;之后通过集成的数据挖掘系统运用各种数据挖掘新算法进行知识、规则提取,状态辨识及模式的建立;并以油气生产领域的管理、操作、监督人员熟悉的方式可视化,对所获取的知识、规则及模式进行评估检验,确定其可信度;应用发掘的有用知识、规则及模式对油气生产系统实施监控、诊断、优化或丰富知识库。数据挖掘的过程并非一次就能成功或结束,而是一个不断的、反复的过程,从而逐渐获得有用的新知识[4]。

1.2 油气生产挖掘系统的平台架构

为进行复杂工业过程中的数据挖掘,在遵循数据挖掘一般方法的基础上,详细分析了油气生产大数据特点,并结合工艺上的要求进行算法的设计与实现。油气生产涉及采油、注水、集输等多个工艺流程,虽然这些工艺的数据形式,分析所用的关键指标都存在一定的差异,但数据挖掘的思路基本采用经典的几种方案。

分析某个工艺过程的工作状态时,从油田的勘探、钻井、录井、试采、试气、井下作业、油气集输等多个数据源中抽取所需数据,对数据进行预处理工作,建立相应的专题数据库,根据特定的挖掘目标,配置相应数据挖掘算法和石油工程业务模型,快速定制成油气生产领域不同目标下的数据挖掘应用系统,如图1所示。

图1 油气生产大数据挖掘平台架构

通过不断的迭代,以及专家的参与,最终获得符合需求的新知识。

1.3 高效的数据管理

由于油气生产的数据来源多样,数据管理支持多种数据类型管理(oracle数据库、Sql Server数据库、excel文件等),实现数据自动抽取、自动计算、自动过滤等。其次,各数据源间可能出现数据冗余、重复,相同数据定义不一致、数据错误等情况,因此将所需数据从多个数据源中抽取出来,并进行数据预处理,集中到数据挖掘库中。

数据的预处理工作主要包括数据清洗、数据集成、数据转换及数据归约等操作。通过数据清洗,如缺失值处理、消除数据噪声、数据不一致处理,保证了数据的完整性、连贯性和正确性。通过数据集成,合并多数据源的数据库、数据立方体或一般文件,存放到一个一致的数据存储中。数据转换则用于将数据变换或统一成适合于挖掘的形式。当处理大型数据集时,还需要对数据进行约简[5],以节约存储空间,提高挖掘效率和挖掘质量。

1.4 统计分析与数据可视化

利用统计学和概率论的原理对关系中各属性进行分析,找出参数之间的关系。将油气生产系统中的多维多元数据以泡状图、饼状图、散点图、立体图、网格图、仪表盘等多种形式展示出来,分析参数之间的定性关系。

在此基础上,运用统计分析方法对生产数据进行定量分析。趋中分析法能够发现生产系统中参数的一般水平和总体趋势;离中分析法能够反映所选数据体的离散程度,反映数据选取的代表性;回归分析通过具体的函数表达式反映参数之间的相互关系。

1.5 工程算法

工程算法库实现了对整个油气生产流程中普遍涉及的重要参数的整理和计算,库中包括流体物性计算、多相流计算、摩阻计算、热效率计算、能量守恒、系统节点分析等方法。工程算法库的建立为不同油气生产领域中关键指标参数提供了计算、分析的方法[6-9]。

多相流的计算有助于了解多相流体在油井及管道中的流型、温度及压力变化,对集输管线、井筒的摩阻进行计算。能够了解并分析各管段的能量损失,发现某些摩阻值异常大的管段的位置并及时采取应对措施。系统节点分析按油气生产的工艺流程分为一定数量的子系统,对某一节点分别进行上下子系统的分析,再将两端结合在一起求解节点,保证油气生产的协调性和高效性。

1.6 油气生产系统的诊断与预警模型

针对油气生产的整个过程,运用多种挖掘算法如灰色关联[10]、聚类分析[11]、因素分析[12]、主成分分析、时序分析[13]、BP神经网络[14]等进行分析,找寻蕴藏在数据背后的生产规律,发现生产中容易忽视的问题,为后期生产措施的调整提供指导。

灰色关联分析法能够分析系统内部参数之间的联系,聚类分析能够对油气生产的大量数据记录进行分组,分析各组数据内部的相似性和每组数据总体的相异性。运用以上方法对生产过程,设备状态的当前数据进行在线挖掘分析,发现系统的异常工况。时间序列分析方法能够针对油气生产的关键指标,基于其大量的历史数据,预测该指标的未来走势,当指标值超出预设值时触发报警机制,确保工作人员及时发现生产中的故障并进行抢修,保证生产安全。

1.7 构建油气生产参数优化模型

利用挖掘算法对油气生产参数进行优化,在满足必要的约束条件下,改变生产过程的工艺参数,建立与经济效益有关的目标函数,并使其达到极值。在生产优化实施中,对大量生产数据进行挖掘找到目标与工艺参数的模型关系。利用BP神经网络、粒子遗传挖掘,找到系统效率、能耗与工艺参数的模型关系。分析诸多变量作用下的能耗变化规律,帮助工艺人员弄清影响的主次因素,提出相应的对策,进一步调整工艺参数,进行运行和安全控制,为实现生产过程操作最优化提供指导。

1.8 基于知识库的智能控制

油气生产过程对象已变为一个十分复杂的系统,产生了更为困难的过程控制问题以及对高性能控制器的要求。例如,抽油机井的柔性变速驱动系统,通过建立油层渗流、抽油机变速运行的运动学及动力学模型和机-杆运动动力学耦合模型,考虑惯性载荷对抽油机的运行动力特性影响,及悬点载荷中的振动载荷和惯性载荷的变化规律,获得油井供排协调的冲次和悬点最优速度分布曲线,并优化计算得到曲柄最优速度运行曲线,从而建立机采装置柔性优化运行控制策略,实现柔性控制[15]。该系统结构复杂,计算量大,应用经典的控制方法难以胜任,通常必须有知识库作为支持,而知识的获取是关键。数据挖掘技术可以将提取的潜在模式、规则评估检验后归入知识库,使得高等控制充分发挥作用,提高油气生产过程的控制水平。

2 油气生产大数据挖掘系统应用

油气生产大数据挖掘系统在采油、注水、集输等专业子系统中进行了应用[6-9]。

2.1 以“百米吨液耗电量”为目标的采油工程挖掘

在应用[9]中,以“百米吨液耗电量”为分析目标,利用灰色关联分析方法,将参与分析的因素对分析目标的影响程度进行排序,得到主要影响因素,从而采取针对性措施。采用因素评价方法,对泵效、地面效率、井下效率、抽油机平衡率等指标进行评价,可以帮助用户了解评价指标的好坏,根据评价结果,对相关工艺采取措施。利用聚类分析方法,以百米吨液耗电量、系统效率、动液面等为分析参数进行聚类分析,根据聚类分析的结果,以百米吨液耗电量低的一组油井的动液面和系统效率为参考指标,对相关参数进行调节,达到降低百米吨液耗电量的目的。利用时序分析方法,预测关键指标未来一段时间内的变化情况,通过设置指标上下限,可对其进行预警,从而辅助油田现场生产管理。利用BP神经网络方法,对冲次、平衡指数、泵效、操作参数等进行优化,得到百米吨液耗电量最小的运行参数。

通过对岔105井的百米吨液耗电影响因素进行灰色关联分析,结果表明:冲次与百米吨液耗电关系最密切,其次是平均有功功率,冲程的影响比较低。如表1所示。

表1 百米吨液耗电灰色关联分析结果

影响因素冲次有效功率地面效率功率因数最小载荷最大载荷关联度泵效冲程 关联度0.720.550.520.480.480.440.420.410.34

2.2 以降低“注水单耗”作为目标的注水系统挖掘

在应用中,以“注水单耗”为分析目标,绘制注水井配注完成率与井口压力宏观控制图,可对当前注水井的生产工况进行监测及分析。利用灰色关联分析方法,将参与分析的因素对分析目标的影响因程度进行排序,得到主要影响因素,从而对降低注水单耗采取针对性措施。利用因素评价方法,对注水泵效率、注水系统效率、管网效率、注水单耗等指标进行评价,根据评价结果,对相关环节采取措施。利用聚类分析方法,以油压、渗透率、注水量为分析参数进行分析,对参数异常的井进行措施作业及重点关注,例如赵一联注水站水井自动聚类成3类,见表2所示,其中,油压高、渗透率低、注水量一般的井需要进行措施作业,降低注入压力;油压一般、渗透率一般、注水量大的井需要进行重点关注,查看是否发生水窜。应用基于粒子群算法(PSO)和遗传算法(GA)的神经网络方法,对注水泵机组参数、管网高低压、单井注水参数、注水系统技术经济指标等进行参数优化,获得合理的运行参数。

表2 赵一联注水站水井聚类分析结果

3 结语

基于复杂的油气生产工艺流程及采集的数据的特点,研究了油气生产系统大数据挖掘平台的架构体系,快速定制针对不同挖掘目标的油气生产大数据挖掘系统。该系统可以油气生产海量的多维、多源数据为基础,建立特定挖掘应用的专题数据仓库,采用了灰色关联分析、聚类分析与神经网络等方法形成挖掘模型,对油气生产系统进行诊断、分析和优化,可以实现:1)发现油气生产过程各个指标的异常情况;2)油气田各个生产要素之间的关联关系;3)预测油气水井生产指标变化趋势和增产增注措施效果;4)预测工艺流程的安全性和工况效率指标;5)生产设备寿命预测和维修预警;6)科学地对油气生产活动和成本控制提出预警和优化等。系统可以满足不同的用户需求实现专题挖掘个性化定制。

[1] 罗印升,李人厚等. 复杂工业过程中数据挖掘模型研究[J].信息与控制.2003, 32(1):35-31.

[2] 檀朝东,陈见成,刘志海等,大数据挖掘技术在石油工程的应用前景展望[J].中国石油和化工,2015,1:49-51

[3] TAN C D, WANG H Y, REN G S,et al. The technology research of intelligent production engineering system for oil gas, ICRSM–SEPTEMBER 2013:152-156

[4] 关成尧,檀朝东,田春华等. 基于物联网的抽油机井系统效率实时计算技术研究.石油地质与工程[J]. 2013, 1, 27(1): 134-136.

[5] MIN F, HE H P, QIAN Y Y, et al, Test-cost-sensitive attribute reduction, Information Sciences, 2011, 181(22), 4928-4942.

[6] TAN C D, Patrick Bangert, Bailiang Liu,et al. Increase of oil production yield in shallow-water offshore oil wells in the dagang oilfield via machine learning. World Oil,November 2010, 37-40.

[7] 刘萍,檀朝东, 刘畅.基于灰色关联分析法的SAGD新井组注采参数的优选.中国石油与化工[J]. 2014, 12, 52~55.

[8] 檀朝东,曾霞光等.利用最小二乘法对抽油机井示功图自动分类及故障诊断.数据采集与处理[J].2010,12,第25卷.

[9] 李鑫,耿玉广等. 以吨液百米举升耗电量为目标的大数据分析应用. 石油钻采工艺[J].2015,4: 48-52.

[10] 刘思峰,蔡华,杨英杰,曹颖.灰色关联分析模型研究进展[J].系统工程理论与实践. 2013(08).

[11] GUO G D, CHEN S and CHEN L F. Soft subspace clustering with an improved feature weight self-adjustment mechanism. International Journal of Machine Learning and Cybernetics, 2012, 3(1): 39-49.

[12] 李洪兴.因素空间与模糊决策[J]. 北京师范大学学报(自然科学版). 1994(01).

[13] Adrian Letchford, Junbin Gao and ZHENG L H. Filtering financial time series by least squares. International Journal of Machine Learning and Cybernetics, 2013, 4(2): 149-154.

[14] GAN Q T. Synchronization of competitive neural networks with different time scales and time-varying delay based on delay partitioning approach. International Journal of Machine Learning and Cybernetics, 2013, 4(4): 327-337.

[15] 姜民政, 王慧等. 变速驱动抽油机井运行参数变化规律研究[J].石油矿场机械.2010, 39( 10) : 4- 7.

Research and Application of Big Data MiningSystem for Oil-gas Production

TAN Chaodong1, ZHANG Hengru2, MA Yongzhong3, YANG Bin3, WANG Huiping1

(1.College of Petroleum Engineering, China University of Petroleum, Beijing 102249, China; 2. School of Computer Science, Southwest Petroleum University, Chengdu 610500, China 3.NO.5 Oil Production Company of Huabei Oilfield, PetroChina, Xinji 052360, China )

With the development of the intelligent oil field (IOF), the data volume increases dramatically. These data have complex structures and diverse forms. Urgent requirement of data analysis in this field has introduced more opportunities and challenges of the data mining task. In this paper, we discuss a data mining platform for petroleum and gas big data through data fusion. According to user specified objectives, thematic databases are constructed, data mining algorithms are designed, and petroleum engineering models are built. In this way, a data mining application is implemented for the intelligent diagnosis, prediction, optimization and computer aided decision for the oil and gas field.

intelligent oil field; big data; grey relation; clustering; time-series analysis

1672-9129(2016)01-0053-04

TE3

A

2016-04-27;

2016-06-29。

檀朝东(1968-),男,安徽望江,副研究员,博士,主要研究方向:石油工程、物联网教学及科研;张恒汝(1975-),男,四川广安,副教授,硕士,主要研究方向:机器学习、代价敏感粗糙集、推荐系统;马永忠,男,高级工程师,主要研究方向:采油工程技术研究及应用;杨兵,男,高级工程师,主要研究方向:油气田开发信息化系统开发及应用;王辉萍,女,江苏东台,硕士研究生在读,主要研究方向:油气开采技术。

(*通信作者电子邮箱 tantcd@126.com)

猜你喜欢

数据挖掘油气生产
平凉,油气双破2万吨
“峰中”提前 油气转舵
《非常规油气》第二届青年编委征集通知
探讨人工智能与数据挖掘发展趋势
用旧的生产新的!
“三夏”生产 如火如荼
代工生产或将“松绑”
S-76D在华首架机实现生产交付
油气体制改革迷局
基于并行计算的大数据挖掘在电网中的应用