基于多源异构数据融合分析的长输管道泄漏预测

2022-03-21周汉权张纪波陈金忠马义来

化工机械 2022年1期

周汉权张纪波陈金忠马义来

（1.中国特种设备检测研究院；2.中国石油大学（北京）机械与储运工程学院）

近年来，随着我国经济的飞速发展，对油气等能源的需求也在不断增加，新建的管道数量和里程迅速增长，形成了多渠道或跨区域的全国性油气管网。长输油气管道分布范围广，新旧管线并存，管道周边环境复杂多样［1，2］。为保证长输管道长期平稳输送, 油品输送管道的泄漏检测至关重要。目前，由于长输管道经过路径的大部分是偏僻的山区或人员稀少的地方，在巡检人员不足的情况下，早预防、早发现成为首要目标，这样既能减少经济损失，又能减少环境污染［3］。

长输管道数据的来源途径多种多样，数据类别、组织架构和存储方式亦不同。如管道基本信息、基础地理数据、内检测数据、内检测分析成果数据、外检测数据及管道周围环境数据等分散在不同的检测业务系统中，共同构成长输管道的多源异构数据网络，这些海量杂乱的数据严重影响数据清洗阶段的进程和数据质量，对后期数据对齐与融合更会产生较大障碍［4］，因此，首先需开展多源异构数据对齐实现多源异构数据的标准化，建立不同数据间通信的规范接口，奠定数据融合工作的基础。

目前，国内外不同内检测服务商对漏磁检测数据的采集、传输及存储方式等差异较大，不同设备检出的数据无法直接进行比对，在缺乏内检测数据标准情况下，实现不同设备检出的多批次内检测数据进行管理和数据挖掘存在巨大困难，主要表现在不同检测商对数据的处理方式不同，如漏磁当量对缺陷深度的量化模型中，两轮以上漏磁检测数据对齐受限，从而发现“活”缺陷的难度较大，不利于分析缺陷的演化过程，缺陷致因分析困难［5］。为此，笔者以管道内检测数据为例，针对内检测数据采集内容与数据特征，建立包含漏磁场信号、里程信号、钟点方位信号、内外壁信号、采集时间、温度、压力、阴保及坐标等一体化的标准数据格式，形成内检测数据总体规范，降低因硬件和数据处理方式不同而导致检测数据对比分析的差异性。

1 检测数据标准化

原始内检测数据标准化格式规范总体准则如下：

a. 原始数据采用二进制格式进行存储，并将其划分为文件头和主数据文件。文件头包含检测数据内容、格式及长度等信息，便于快速检索和定位主数据文件；主数据文件包含不同内检测设备采集的检测数据，主要包含轴向、径向、周向漏磁信号、内外壁识别信号、超声信号、变形信号、阴保信号、里程轮、陀螺仪姿态及码盘等数据，并按照时序进行顺序存储，每个文件存储最大帧数不超过十万帧，实现文件的分割，便于计算机对数据的处理。

b. 设备性能参数和检测器运行参数须通过文本文件记录，作为配置文件，方便动态修改可变参数——管道规格、管材、输送介质、设备采集数据类型（等时采集、等距采集）、各里程轮规格及坐标系等。

c. 其他数据，包含时间、定位点及其坐标等也应记录完整。

1.1 多源异构数据对齐

经过标准化后的多源异构数据具备统一的格式，有利于数据的进一步处理，结合多个数据源的互补信息来提高数据分类的准确性，发现数据源之间的关联关系，挖掘管道数据潜在价值，数据对齐是对多源异构数据融合最直接的数据处理手段，笔者以地理空间数据对齐和多批次内检测数据对齐为例，分别阐述实现数据对齐的主要流程。

1.1.1 内外检测空间数据对齐

长输油气管道有着跨越长、铺设环境复杂等特点，获取管道走向和特征坐标（含高程）是准确定位管道的重要数据。

目前，国内管道特征坐标主要采集方式有通过直接开挖测绘和通过漏磁内检测搭载惯性导航单元进行管道基线测量两种，再通过后期数据匹配加惯导姿态解析算法获得管道中各个特征点坐标。在不具备搭载惯性导航系统和无法开挖所有特征点直接进行测绘的情况下，直接获得内检测分析的特征坐标存在瓶颈，笔者采用一种折中的管道特征坐标求解方法来获取管道特征的地理信息，在实际工程实践中具有良好的表现。其算法的主要思路是依托管道内检测分析成果数据，结合高精度地面动态测量技术方式RTK（Real-Time Kinematic，实时动态）获取管道基线坐标，采取合适的算法来解算管道各个特征点的地理坐标（图1）。

图1 管道特征坐标采集解算流程

本算法需要准备管道特征点里程数据和管中心坐标数据（该数据可根据埋深数据加地面高精度测绘求解得到）。

对内检测结果数据表单按照里程由小至大依次排列，对管道RTK 坐标按照管道路由进行排序，构成RTK 坐标集合，并建立关键特征点，在RTK 坐标点集合中存在坐标映射表，从特征表中选取任一特征点，通过映射表和特征的里程数据查找位于RTK 点集中所处的里程位置关系，即特征点上下游所对应最近的RTK 坐标点，该特征点位于这两点构建的线段上，那么已知两个RTK 点的坐标和该特征点距离其中一个RTK 点的距离，通过定比分点公式便可求解出该特征点的具体坐标。结合RTK 地面测绘提取内检测特征点坐标软件界面如图2 所示。

图2 管道特征点坐标解算界面

基于对齐的内外检测空间地理坐标，将外检测数据距离参考点的距离、方位、特征类型及特征尺寸等信息经合适的比对方法，完成与内外检测数据和空间数据的数据对齐。

1.1.2 多批次内检测特征数据对齐

由于多批次内检测数据间存在信息孤岛，制约着后期不同内检测数据的比对与共享，无法充分利用和挖掘内检测数据，因此不能为决策者提供多维度数据参考依据和更多有效信息。

笔者提出多批次内检测数据对齐的总体思路，对齐的总体准则应遵循“由大到小”、“整体到局部”和“空间到点位”，将对齐管道按照明显特征点进行分段，形成数据对齐单元，由对齐单元匹配进一步划分为更小的对齐单元，最后匹配管道特征。在数据对齐前对整个特征数据按照里程由小到大排列，形成有序的里程特征表单；选取易于识别的参考点作为对齐基准点［6］，建立基础特征对齐映射表，进而实现特征对齐，包含里程、特征点（三通、弯头及阀门等）、长短管节数量与长度和环焊缝数量与其他资料的对齐，再结合缺陷钟点方位和距离前后参考点位置信息，进一步实现对缺陷数据的对齐功能，最终实现多批次内检测数据的综合对齐［7］。

在完成数据对齐的基础上，根据特征点坐标生成管道特征高程图，基于已对齐的内检测数据判断管道区域缺陷参数的具体原因和位置，完成对管道的致因分析，根据管道缺陷壁厚等数据的发展趋势，识别出活性缺陷，充分发挥内检测成果的价值，为后期数据评价的及时性和准确性奠定基础，也能为管道运营单位提供决策参考，对保障管道安全运行、提高管道安全管理和完整性管理水平具有重要意义［6］。

打通多批次和多维度内检测数据间的信息通道，实现内检测数据的全面共享和联动，通过对齐的多批次内检测数据，可及时发现管道新增缺陷、缺陷腐蚀程度和活性缺陷，为管道安全管理、运营维护和剩余寿命预测提供了可能性，也使内检测数据分析管理和对齐平台从基础数据分析层面提升到管理决策层面［8］。

1.2 多源异构数据融合

多源异构数据融合主要有3 个步骤：数据预处理、数据融合和数据呈现［9］。

1.2.1 数据预处理

管道检测数据存在以下问题：

a. 由于数据采集与传输过程中可能存在传感器失效、传输系统故障等意外，管道检测数据不可避免地存在数据缺失、重复及错误等问题；

b. 受到数据采集设备精度的制约与环境条件的影响，管道检测时存在的噪声会直接影响数据的准确性；

c. 不同数据采集传感器所采集的数据间具有复杂的非线性关系，数据特征间具有高度相关性，存在信息冗余，需要降维处理［9］。

因此，对管道进行数据预处理时，应该从数据完整性、数据质量、数据冗余度及环境噪声等方面进行处理，一般处理方法有数据清洗和数据特征筛选。数据清洗方法包括两个方面：通过均值据类等方法对数据明显异常的数据进行删减；通过统计方法、数据转换方法等手段，修正、剔除或替换检测到的数据异常。其中，管道的生产数据以时间序列为主，潜在的数据异常主要表现为由于传感器故障、传输异常等原因导致的数据缺失、重复或错误［10］。另外，数据特征筛选根据特征类型进行分类处理，种类繁多，在此不再赘述。

1.2.2 数据融合

管道数据的类型和来源具有多样化的特点，包含了管道内检测、外检测、动态监测、维保及空间地理信息等数据，这些数据间无法直接进行通信和交互操作，融合就能解决数据间无法交叉使用的问题，充分利用传感器资源，合理支配与使用传感器和人工观测的信息，互补与冗余各种传感器在空间和时间上的信息，依据不同优化准则或算法组合来对管道状态进行更加准确的解释和描述，再对信息进行优化组合后导出更多的有效信息。

管道多源异构数据融合包含3 个层面的数据融合：数据层融合、特征层融合和决策层融合［11］，具体分述如下：

a. 数据层融合。在采集的管道原始数据层上进行融合，对各种传感器的原始数据在未经预处理之前就进行数据综合与分析。这样，前述的管道原始检测数据标准化就为数据层的融合奠定了基础。

b. 特征层融合。特征层融合属于中间层次的融合，如内检测数据分析得到管道的焊缝、弯头、阀门、缺陷及凹陷等特征，还有外检测破损处的检测、阴保、开挖及空间地理等数据，将对这些特征数据进行综合分析和处理。特征层融合的优点在于实现了信息压缩，有利于实时处理，并且由于所提取的特征直接与决策分析有关，因而融合结果能最大限度地给出决策分析所需要的特征信息。

c. 决策层融合。通过不同数据独立的分析结论，初步得出对管道评价的初步结论，然后关联处理进行决策层融合判决，获得管道较为全面的联合推断结果。

1.2.3 数据呈现

管道数据呈现是在计算机系统中，将管道检测、监测、统计及决策等数据转化成图形化和表格化的形式，直观可见地呈现出来。在管道系统中，一般基于GIS（地理信息系统）平台，建立管道全生命周期数据与位置坐标的关联，通过一定的数据处理和展现方式实现管道数据的可视化呈现。

多次内检测数据的累积形成海量空间点类型矢量数据，在GIS 系统中面临海量管道特征点数据的显示问题,若要显示全部特征点,采用传统的方法速度缓慢且压盖严重。近来出现的聚合显示技术,较好地解决了显示速度和可读性的问题,但该技术具有不能很好地按分布的密度进行聚合点的显示、在更海量的数据应用中效率不高等缺陷。因此，在实现特征显示时采用基于网格密度的海量空间点聚合显示算法, 能较好地解决数据分布问题,提升了算法效率，达到多源异构数据在GIS 系统的可视化展现的目的。

1.2.4 多源异构数据融合应用案例

某油气管道内/外检测数据综合融合应用界面如图3 所示，基于管道内检测里程数据和管道地理空间坐标信息，实现管道内、外壁腐蚀数据与阴保数据的对齐，进一步完成其他多源异构管道数据的融合。针对所开发的内外检测融合系统，通过近6 轮的系统测试和在5 个项目中的“实战演练”，数据融合系统运行良好，融合数据的综合可视化呈现为决策直观的把控管道现有状态，为全面分析决策系统提供底层数据和依据，同时奠定了管道大数据分析中心数据基础和系统驱动。

图3 多源异构数据融合可视化展示界面

1.2.5 数据融合展望

基于两轮内检测数据以及两轮内检测周期内产生的外检测、高后果区识别、风险评价、阴保系统运行和环焊缝隐患排查治理数据，结合历史监测、修复及评价等其他数据，针对目标管道开展内检测信号校核、内外检测数据质量评价、数据对齐、新增缺陷判别、腐蚀生长分析、缺陷成因分析、阴极保护有效性评价和高后果区适用性专项评价，同时依据特种设备管理要求，完成管道使用评价。

1.3 数据模式及安全

长输管道数据融合过程会涉及管道大量的隐私与机密，如管道的坐标信息，一旦泄露会使管道数据安全及其企业隐私受到威胁，因此需要注重管道数据融合过程的安全性，提高大数据的安全应用效率。采用逻辑代数进行安全控制，结合基于语义安全策略，通过本体映射与合并，实现对管道数据融合的安全保护，在数据融合过程中通过数据模型的转换，可以形成融合访问策略。该策略可以对融合的数据进行安全处理，对于无法满足安全策略的数据进行删除以弥补数理逻辑中的不确定性。另外，在对地理坐标的处理上一般采用对坐标偏移加密，并在网络传输层进一步通过报文加密传输来保证坐标信息的安全性。

2 基于多源异构数据的泄漏预测方法

传统的管道泄漏预测是基于物理模型实现的，这种方式主要是通过分析管道泄漏相关的因果关系，经大量的实验和理论研究来建立影响管道泄漏相关因素的物理模型，在之前的数据获取存在局限性时，这是一种有效的管道泄漏预测方法，但存在自身的局限性：模型中影响因子的涵盖不全面；模型参数受实验和研究成果的直接影响，导致整个模型预测结果与真实结果和管道实际泄漏预测均存在较大的差异。大数据时代，将拥有更多获取数据的途径和更加全面的海量管道数据，这些数据逐渐累积形成管道大数据，即“样本=总数据”，则数据的处理方向也应该由传统探索管道因果关系向挖掘管道数据关联的思维方式转变。因此，基于多源异构数据的管道泄漏预测方法，是一种基于大数据思维的全新数据处理方式，通过挖掘融合的管道数据间的关联关系，通过合适的预测方式能够更加有效地完成对管道的泄漏预测。

2.1 支持向量机理论（SVM）

SVM 算法主要以统计学的基本原理为基础，并在VC 维理论和结构风险最小化原理的基础上所建立，这种算法可以在小样本的复杂性与学习之间找到一种折中的学习预测方法，在多源异构的管道数据处理上，SVM 算法较其他算法的应用优势主要表现在3 个方面［12］：

a. SVM 算法可应用于小样本问题，在有限样本数量下找到最佳规律；

b. 对于非线性问题来说，SVM 算法具有很强的学习预测能力，再加入核函数后，可以将样本从低纬度空间映射到高纬度空间中，然后在高纬度空间中建立一个超平面，进而将非线性问题转化为一个线性问题，在多源异构的多维管道内外检测数据面前，支持向量机算法的无视维度无疑是管道数据分类的最佳算法；

c. SVM 算法在对数据进行求解中属于一个凸优化过程，可以避免使用贝叶斯分类等算法容易产生的局部优化问题［13］。

2.2 BP 神经网络

神经网络是在现代神经生物学研究成果的基础上发展起来的一种模仿人脑信息处理机制的网络系统［14］。对于处理管道漏磁信号的判别中，BP 神经网络特有的优势是自适应性强，具有非线性处理能力和并行处理能力。将神经网络技术应用于漏磁缺陷识别是一种智能识别结构损伤的方法，可以有效提高缺陷判别的精确性和准确度。为此，在漏磁信号判别中，BP 神经网络是应用较多的神经网络技术。

BP 神经网络判别漏磁信号的过程如下：

a. 针对漏磁信号的峰谷值、峰谷间距和峰谷值/峰谷间距的比值3 个波形特征，在BP 神经网络的输入层中选择3 个神经元，分别对应漏磁信号的波形特征；

b. 在BP 神经网络的输出层选择2 个神经元，分别与裂纹缺陷和孔洞缺陷相对应；

c. 选好神经元后，确定目标的输出向量；

d. 将漏磁信号输入BP 神经网络，观察网络输出向量即可判定缺陷的类型［15］。

2.3 D-S 证据理论

D-S 证据理论的思想是对根据事件发生的后果，探求事件发生的原因［16］。

D-S 证据理论具有主观不确定性诊断问题的独特优势，本质是能将相互交叉的不确定数据信息和不同目标模式类别按照一定规则进行分配，从而增加模式类别的准确性，提高了模式识别的准确率。由于分类模型相互影响，使得各工况模式数据具有不同程度的交叉，如果仅用单一传感器提供的信息进行泄漏检测，就会产生误报和漏报的现象。为此，在对具有不确定性和两种模式之间存在交叉影响数据的模式识别中，D-S 具有比较大的优势［17］。

管道泄漏预测工作的流程如图4 所示。该流程的详细步骤为：对管道进行漏磁检测和超声检测，获得管道缺陷检测信号并对原始信号进行预处理和特征提取；利用支持向量机多类分类方法，用管道缺陷信号特征作为输入参数，输出层分别表示6 种不同的金属缺陷类型，可以实现缺陷的定性分析；在对管道缺陷进行定量分析时，为每个缺陷类型分别建立BP 神经网络, 此时的输入量仍然是管道缺陷检测信号的特征量，输出则为缺陷尺寸的特征，这样就能实现每个网络只完成一种缺陷类型的定量识别，提高识别的准确性；用D-S 证据理论将通过漏磁检测和超声检测所得到的缺陷尺寸特征进行融合，就能让不同的检测方法互为补充，提高缺陷定量识别的精度，最终达到有效预测管道泄漏的目的。

图4 管道泄漏预测流程

3 结束语

笔者对长输管道多源异构数据实现管道泄漏预测全寿命周期数据的部分标准化方法进行研究，在空间地理坐标对齐的基础上进一步实现管道内外检测数据的综合对齐，对多源异构数据融合总体流程进行总结，并以管道大数据为基础，分析管道泄漏预测时所常用的支持向量机理论、BP 神经网络算法和D-S 证据理论泄漏预测算法，最后整理提出针对长输管道数据处理由检验/检测数据到管道泄漏预测的整体流程，为管道从业人员提供一套系统化的数据处理方法，对比常用的依据标准采用定量或半定量的分析失效可能性的方法，基于多源异构数据的泄漏预测的总流程和方法来处理数据，可大幅减少传统管道处理数据方式的工作量，提高数据处理的效率和精准度，同时建立起管道腐蚀泄漏事故早期预测模型。

由于很难收集到大量的管道泄漏样本数据，因此基于大数据实现管道泄漏预测还主要依赖于非监督学习和物理模型相结合的方式开展，在下一步工作中需要不断提升非监督学习模型的量化参数，加强管道泄漏相关性数据的收集，完善和丰富预测模型的预测参数。