APP下载

引入重叠度指标的FPPC油气管道管段划分方法

2018-09-17骆正山王文辉王小完张新生

天然气工业 2018年8期
关键词:管段类别投影

骆正山 王文辉 王小完 张新生

西安建筑科技大学管理学院

0 引言

由于油气管道所经地区地域辽阔,环境复杂,会引起管道的自身属性发生改变,进而造成管道沿线风险不断发生变化。因此,要准确评估油气管道各点风险值的大小[1-4],需掌握管道沿线风险所具有的特征和规律,再构建合适的模型对管道进行合理划分。

油气管道完整性评价的研究成果颇多。孙宝财等[5]利用改进的BP算法对长输油气腐蚀管道失效压力进行预测,Senouci等[6]分别采用回归算法和人工神经网络,基于历史数据预测油气管道的多种失效类型,但以上模型对样本容量要求较高,预测结果精度较差。李大全等[7]采用模糊聚类对油气管道进行划分,张杰等[8]建立基于主成分—聚类分析法的油气管道风险评价模型,然而模糊聚类法并不能针对具有特殊数据特征的管道样本集进行精确划分,推广性不强。舒畅等[9]引入投影寻踪聚类(Projection Pursuit Clustering,PPC)算法评估油气管道的失效可能性,但该算法易受到指标维数的影响,当样本指标维数过高,该算法在执行时会出现不稳定甚至失效的问题。综上,现有方法均存在不同程度的局限性且对油气管道的管段划分缺乏系统理论依据,其划分结果不理想、与实际吻合度不高。

模糊投影寻踪聚类(Fuzzy Projection Pursuit Cluster,FPPC)算法是一种应用于水质评价、环境监测、洪灾评估等领域能够处理非线性、非正态高维数据的新算法[10-12]。管道沿线地理环境的复杂性导致管道失效往往具有突发性,即管道风险在空间上稀疏分布而在时间上密集分布,因此FPPC算法理论上适用于管段划分。但传统FPPC算法的投影指标函数只考虑到数据集的类间稀疏度和类内紧密度,实际应用中,管道样本的数据类大小分布并不均匀,仅用所有样本点到聚类中心的距离之和来刻画管段样本集中类的紧密度,难以识别数据集中的小类或低密度类,得出的最佳聚类数往往出现错误。

综上所述,笔者构建了一种改进的FPPC算法管段划分模型,建立管道划分评价指标体系,引入考虑样本重叠度的FPPC算法对管段进行动态聚类,通过聚类有效性评价指标评判聚类效果,得出最佳的管道聚类数,并根据类别离散值所确定的管道风险等级进行管段划分,识别管道数据集中的小类。最后为了评价所提算法的性能,同时与PPC算法和传统的FPPC算法进行了对比分析。

1 改进的FPPC算法及原理

1.1 模糊聚类迭代算法

将样本集对于全体类别加权广义欧式权距离的平方和最小作为目标,目标函数F表示如下[13]:

式中n表示样本集的数目;ωi表示第i维指标所占权重;m表示指标维数;c表示类别数;sih表示指标i在类别h中的聚类中心;rij表示样本j的第i个指标的归一化值;μhj表示样本j归属于类别h的相对隶属度。

模糊聚类迭代(Fuzzy Clustering Iterative,FCI)算法的隶属度μhj和模糊聚类中心sih表示如下:

式中sik表示指标i在类别k中的聚类中心,该算法的求解步骤可参见本文参考文献[13]。

1.2 投影寻踪聚类算法

投影寻踪的基本思想就是将高维数据投影到低维空间,通过分析低维空间的投影特性来研究高维数据特征,是处理多因素复杂问题的统计方法[14]。投影指标函数一般定义为Q(a)=Sz*Dz,其中a表示单位长度矢量,Sz和Dz分别表示样本投影值的标准差和局部密度,其计算公式及该算法的求解过程可参照本文参考文献[12]。

1.3 引入重叠度指标的FPPC算法

本文参考文献[15]中提出的投影指标函数考虑到类间的离散程度和类内的紧密程度,但现有研究表明,没有一个投影指标函数能够处理任何类型数据集且性能总能达到最优。因此,FPPC投影指标函数的设计要视样本集的分布规律和属性特征而定。考虑到油气管道数据集中不同类样本之间可能存在重叠的情况,笔者引入重叠度指标,将样本点在两个类之间的重叠度定义为超出给定阈值范围外该样本点属于这两个类的隶属度差异,两个类间的所有样本重叠度之和定义为这两个类的重叠度,这样在保证了最小类间距离尽可能大和所有类都尽可能分离的同时,能够发现管道样本集中的小类或低密度类[16]。因此提出的投影指标函数能够有效处理包含大小和密度差异较大数据类的管段划分样本集。

1.3.1 重叠度概念

重叠度度量因子(O)[17]定义公式如下:

样本xi在第h1类和第h2类之间的重叠度定义为:

式中μh1i、μh2i分别表示样本xi属于第h1类、h2类的隶属度;μ00表示重叠度阈值。

重叠度度量因子O构建的本质是:若样本集中的某个样本点对某两个类的相对隶属度都大于预定义的重叠度阈值μ00,则表明该样本点距该两类的距离都较远,那么可认定该样本对象是该两类的重叠样本。该样本点到两个类的隶属度差的绝对值越小,则该样本所在位置越趋向于这两类的分界线处,即该样本点对这两个类贡献的重叠度就越大[18]。

1.3.2 DOS投影指标函数的构建

综合考虑投影点团间分布的稀疏度、重叠度和团内紧密度的DOS投影指标函数(QF)定义如下:

其中

式中αj表示样本的第j维投影方向值;ri表示样本i的相对隶属度;sh表示类别h的聚类中心;Dz表示类内样本的紧密度;z(i)表示第i个样本投影值;E(z)表示样本投影值的均值;Sz表示类间距离,即投影点团间分布的稀疏度,该投影指标函数避免了密度窗宽参数的选取。

一个好的DOS投影指标函数应该使得类内紧密度和类间稀疏度都尽可能大,同时还需要满足不同类间的重叠度尽可能小。因此,Dz和O越小,Sz越大,则DOS投影指标函数越小,即相应的模糊聚类划分结果越优。以最小化DOS投影指标函数值为目标来计算最优投影方向向量。

1.3.3 改进的FPPC算法基本原理

改进的FPPC算法基本原理如下[19]:

1)首先运用投影寻踪原理将高维样本投影至低维空间,降低FCI的迭代运算量,避免多维指标出现聚类中心的交叉现象。

2)再利用FCI对样本投影点进行模糊聚类,并将得到的最小欧式距离平方和来表征类内密度Dz,设定阈值,引入样本重叠度指标O来表征类间的重叠度,构建DOS投影指标函数。

3)以DOS投影指标函数最小化为目标,对其寻优,找出最优的投影方向,进行投影寻踪聚类。

通过以上措施,实现了类内密度Dz最小化的模糊聚类以及DOS投影指标函数最小化的投影寻踪双重迭代聚类,并通过DOS投影指标函数的构建来统一两个模型的聚类目标。

2 改进的FPPC算法管段划分模型

采用改进FPPC算法构建油气管道管段划分模型的基本架构如图1所示。

2.1 管段划分模型详细流程

2.1.1 样本集标准化

假设油气管道风险指标的样本集为{xij|i=1, 2,…,n,j=1, 2, …,m},其中xij表示样本i的第j个指标值,n、m分别表示待评价管段数和油气管道评价指标维数。按照下式采用越小越优的指标来标准化样本集。

式中rij表示归一化后的指标特征值;max(xj)和min(xj)分别表示第j个指标的最大值和最小值。

2.1.2 线性投影

笔者采用随机函数初始化投影方向向量,用下式将油气管道样本集的多维空间投影到一维空间,计算出样本投影值,随机生成投影聚类中心向量。

图1 油气管道管段划分模型架构图

2.1.3 改进的FPPC算法迭代聚类

利用投影寻踪技术将高维样本集投影到一维样本集后,权重向量降至一维,因此,ω的值为1,且sjh、sjk和rij分别变为sh、sk和ri,隶属度μhi和聚类中心sh变为:

式中sk表示类别k的聚类中心,根据式(13)、(14)对投影点进行模糊聚类迭代运算,以式(8)中DOS投影指标函数最小化为目标寻找最优投影方向向量。采用基于实数编码的加速遗传算法(RAGA)来求解该优化问题[20]。

2.1.4 类别特征值的计算

参照本文参考文献[21]提出对洪灾大小进行排序的类别特征值法,可以求出管段各样本的类别特征值C(i)。

式中h=(1, 2, …,c)表示类别值; 表示最优隶属度。

对类别特征值进行四舍五入可得管段样本所属类别离散值,类别离散值对应油气管段的相对风险等级,从而直观得出聚类结果。类别离散值越大,则其所对应的管段相对风险等级越高,同时可根据类别特征值的大小对管段样本的相对风险大小进行排序。

2.2 指标验证

为了对模糊聚类效果进行评判,采用以下3种常用的聚类有效性指标函数[13]:

3 实例分析

3.1 油气管道管段划分指标体系的构建

国际管道研究协会(Pipeline Research Council International,PRCI)将管道失效事件分为22类,每一类都代表对管道完整性的一种威胁[22]。根据对油气管道造成风险的对象不同,可将管道失效风险进一步归类为自然因素、社会因素和管道自身因素3种。为此,笔者遵循客观性、科学性和合理性的原则,结合我国的实际情况,参考美国《管道风险管理指南》[23]和本文参考文献[24],构建油气管道风险指标的两级层次结构(图2)。

图2 油气管道管段划分风险指标体系图

3.2 数据准备

以我国西部某长输气管道为例,所评估的16段管道均为同一管道运营系统,输送介质为天然气,管道设计输送能力为4.0×105m3/d,但各管段所处地理位置不同,管道沿线区域的自然、经济和社会环境差异较大。根据图2构建的油气管道管段划分风险指标体系,以及采集的现场数据,确定各指标的对应值,管道指标数据随着距离的变化而改变,其部分数据如表1所示。

3.3 数据标定

由表1可知,管道风险指标值既有定性数据,也有定量数据,考虑到处理数据的方便性,可依据管道风险评价技术中风险等级划分原则和参照表2的对应关系,量化底层指标,再结合实际情况,将表1中每个管道的属性特征值都转化为该指标对管道造成失效风险的定值(表3)。

3.4 验证模型及结果分析

笔者分别采用传统的FPPC算法和改进的FPPC算法对管道进行聚类划分,并将两种方法进行对比,利用本文2.2节中的聚类有效性指标来分析最佳的管段聚类数,并验证算法的聚类有效性。FPPC算法的部分参数设定如下:样本数为16,指标维数为11,适应度精度设为10-4,阈值设定为0.2。由管段划分的实际意义,将聚类数分别设置为2、3、4、5和6,通过编写目标函数和聚类有效性函数,结合加速遗传算法搜索工具求解。不同的聚类数对应的聚类有效性指标值如表4所示。

分析表4结果可知,传统的FPPC算法在聚类数设定为3时,各项指标值最小(即管段划分达到最优),而改进的FPPC算法在聚类数为4时,各项指标值达到最小,且均小于传统FPPC算法的各项指标值。因此,改进的FPPC算法对管段划分更加准确。

表1 管道实际属性值表

表2 指标对管道造成的风险等级表

当管段聚类数为4时,根据式(15),可求出管段相对风险等级。将管段相对风险等级定义为高风险(第4类)、较高风险(第3类)、一般风险(第2类)和低风险(第1类)。经改进的FPPC聚类,得到最佳投影方向为{0.254 1, 0.176 1, 0.325 2, 0.283 6,0.373 1, 0.351 8, 0.219 2, 0.547 6, 0.236 8, 0.127 9,0.186 7},DOS投影指标函数最小值为0.075 3,各指标投影方向值的大小表明了该指标对管道风险的影响程度。投影值最优聚类中心为{1.786 0, 1.475 9,1.134 8, 0.723 4},样本投影值为{0.837 6, 1.114 7,1.524 3, 0.761 2, 0.774 1, 1.837 3, 1.662 5, 0.694 1,0.937 6, 0.858 3, 1.387 5, 1.616 4, 1.083 6, 0.792 3,0.714 3, 1.509 1},最优隶属度矩阵值如表5所示。

表3 指标的风险评分值表

表4 管段聚类数和聚类有效性指标值比较表

为了能直观看出改进FPPC算法能否识别出管道样本中的小类,将传统的FPPC算法最优聚类数为3时的管段划分结果与改进的FPPC算法的计算结果进行对比。依据表5的FPPC类别连续值(限于篇幅,省略传统FPPC算法的最优隶属度矩阵),作出管段相对风险直方图(图3)。

由表5和图3可知,传统的FPPC算法将管道聚为3类,显然是把管段6和管段7归为第3类,但由图3可知,管段6和管段7的类别连续值明显偏离第3类,这会造成第3类聚类中心的极大偏移,从而导致聚类有效性指标值偏大,聚类结果具有较大误差。而改进的FPPC算法将管段6和管段7归为高风险类管段(第4类),有效识别出管段样本中的小类。因此改进的FPPC算法的管段划分结果更加合理准确。

对应用于管段划分的聚类算法来说,虽然聚类的准确性是评价管段聚类效果的重要指标,但仅将聚类结果的准确性作为管段划分效果的评价指标未免太过单一,其聚类的迭代次数及收敛速度也是评价管段划分聚类效果的重要依据。为了比较引入重叠度指标对FPPC算法收敛性和迭代次数的影响,将改进的FPPC算法与PPC算法和传统的FPPC算法进行30次的聚类迭代比较(图4),PPC算法的密度窗宽选为常用的0.1Sz。

由图4可知,3种算法的投影指标函数最小值虽然非常接近,但改进的FPPC算法的收敛速度明显快于PPC算法和传统的FPPC算法,且迭代次数更少,更快的接近于投影指标函数最小值。由此可知,改进的FPPC算法在收敛性和稳定性方面要优于PPC算法和传统的FPPC算法。

表5 最优隶属度矩阵值表

图3 管段相对风险直方图

4 结论

1)构造一种全新的DOS投影指标函数,针对管道失效风险的时空分布不均匀性,引入重叠度因子,该指标函数同时考虑到了投影点团内紧密度、团间稀疏度和重叠度的情况,可识别出管道样本集中的小类或低密度类,保证了聚类结果的准确性和科学性。

2)改进的FPPC模型客观地根据管道样本集内在特性进行管道风险评价,在有无管道相应风险等级标准时均可对样本集进行精确聚类并得到样本类别连续值,聚类效果提高明显,管段划分结果更加客观。

3)将改进的FPPC算法与PPC算法和传统的FPPC算法进行对比,可知改进的FPPC算法具有更快的收敛速度和更少的迭代次数。因此,改进后的FPPC算法收敛性更好,稳定性更强。

图4 3种算法的收敛性比较图

同时很多聚类算法受到多种参数的影响,如何更加合理地确定这些参数,比如阈值的选取,也是下一步研究工作的重点。

猜你喜欢

管段类别投影
高温气冷堆核电站蒸汽发生器可拆管段拆装系统研究
全息? 全息投影? 傻傻分不清楚
管段沿线流量简化前后水头和流行时间差异性分析
一起去图书馆吧
基于最大相关熵的簇稀疏仿射投影算法
找投影
找投影
名称:铝塑袋装材料的分离系统及方法
环状给水管网自动生成树的研究
多类别复合资源的空间匹配