油气生产实时数据处理方案研究

2021-12-30胡修涛

科技信息·学术版 2021年5期

关键词：大数据

胡修涛

摘要：按照“一切系统皆上云”的工作要求，依托油田智云，采取应用集中、数据分散的方式优化生产指挥系统部署模式，开展实时大数据汇聚体系研究，解决分散数据源寻址及数据高效处理的难题，支撑生产指挥系统的云化部署，助力油田降本增效。

关键词：云化部署、大数据、流式计算、消息队列

一、绪论

1、数据部署架构现状及趋势

目前常见的数据部署方式有集中式和分布式两种。由于历史原因，集中式架构多用于传统银行、电信等行业。主机资源集中在大型主机或小型机上。近年来，随着边缘计算、区块链技术的发展，分布式架构在 Google、阿里巴巴、腾讯等互联网公司广泛应用基础上、也越来越多的被其他行业关注和应用。

在集中式架构下为了应对更高的性能，更大的数据量，往往只能向上升级到更高配置的机器，如升级更强的 CPU，升级多核，升级内存，升级存储等，但单机的性能永远都有瓶颈，随着业务量的增长，只能横向扩展出同样架构的服务器。在集中式架构下，由于单个服务器的造价昂贵，无法做到按需扩展。而分布式架构的解决方案是基于廉价的 PC Server 来做 Scale Out，借助高速网络组建的 PC 集群在整体上提供的计算能力已大幅高于传统主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。随着数据量越来越大，用户对数据的计算效率、实时性需求越来越强，分布式架构在经济性、安全自主、灵活性和可伸缩性方面的优势，注定了分布式架构应用的广泛性。

2、数据处理现状及趋势

大数据计算主要有批量计算和流式计算两种形态，目前，关于大数据批量计算系统的研究和讨论相对充分，而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少。

①批量计算

批量计算首先进行数据的存储，然后再对存储的静态数据进行集中计算。Hadoop是典型的大数据批量计算架构，由HDFS分布式文件系统负责静态数据的存储，并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现。

②流式计算

流式计算中，通过将流动的数据到来后在直接在内存中进行数据的实时计算。如Twitter的Storm、Yahoo的S4就是典型的流式数据计算架构，数据在任务拓扑中被计算，并输出有价值的信息。

流式计算和批量计算分别适用于不同的大数据应用场景：对于先存储后计算，实时性要求不高，同时，数据的准确性、全面性更为重要的应用场景，批量计算模式更合适;对于无需先存储，可以直接进行数据计算，实时性要求很严格，但数据的精确度要求稍微宽松的应用场景，流式计算具有明显优势。流式计算能够依赖kafka的消息系统，实现数据的高吞吐流转，基于内存的计算框架能够实现基于海量数据的数据分析计算功能，在数据的高速处理方面具备明显的优势。

二、技术研究内容

基于实时数据的处理需求，调研常用的数据处理方案，主要包括传统数据处理架构、大数据Strom流式计算、Spark Stream处理架构三种。

（1）传统数据处理架构

传统oracle触发器+存储过程的实时数据处理方案，能充分发挥企业级数据库处理优势，快速解决实际业务需要。随着PCS云化对数据集中共享要求，实时数据量增大，oracle单机处理能力支撑不足，需要进行数据处理架构升级。

（2）大数据Strom流式处理方案

在不改变原有系统架构的基础上，借助消息队列对数据削峰，使用大数据storm流式计算方式实现实时数据的三级同步及实时预处理，该架构在离线计算及交互式查询能力支撑不足。

（3）大數据Spark 流式处理方案

补充storm流式计算交互式查询能力支撑不足的情况，采用大数据Spark Streaming的流式计算和离线计算环境，进行实时大数据处理。

（4）实时大数据汇聚及处理方案对比

考虑集群配置优化、运维开发成本、业务交互性查询因素，最终确定采用大数据Spark Stream的处理环境，提升实时数据处理能力，保障数据处理环境的稳定运行。

实时大数据汇聚体系，针对实时数据，数据服务引擎采用实时计算框架、离线计算框架实现数据的实时加载和离线计算。按照不同的数据需求，应用高速缓存技术，实现阶段数据、结果数据的快速取用。

数据高速接入技术：采用消息队列的方法，对实时数据进行削峰处理，平衡高频实时数据接入拥塞的问题，通过搭建多个通道，提高数据接入效率。