APP下载

基于聚类分析法对我国高速铁路网供电系统缺陷进行空间分布研究

2020-06-21王明辉

现代商贸工业 2020年19期
关键词:缺陷接触网数据挖掘

王明辉

摘 要:高速铁路网的主要供电设备接触网,是沿钢轨上空呈“之”字形架设的特殊输电系统。对高速电气化铁路接触网,缺陷的检测显得是十分重要,随着检测设备的不断更新,缺陷检测准确度逐渐提高,数据量越来越大,研究缺陷检测数据显得尤为重要。本文主要利用数据挖掘技术中的聚类分析法,将缺陷数据按照线路分布的密集程度进行聚类,然后将聚类结果进行可视化,并且通过分析聚类结果数据,给出合理可行的缺陷预警方案和线路检修建议。为了验证方案的可行性,选取沈阳铁路局的部分缺陷检测数据作为本次方案的测试样本。经过数据预处理和方案测试发现:吊弦类缺陷聚类高发区域占比约为78%,一二级燃弧类缺陷聚类高发区域占比约为71%,高发时段为4-9月。实验结果表明不同类型的缺陷热点区域分布的时段与区域不同。

关键词:接触网;缺陷;数据挖掘;聚类分析法

中图分类号:BT

文献标识码:Adoi:10.19311/j.cnki.1672-3198.2020.19.093

0 引言

作为铁路运输牵引供电系统的重要组成部分的接触网,其动态设备质量情况直接影响到牵引供电的质量,对接触网运行状态的实时监测是保证铁路安全运输的重要手段。如今,接触网动态监测设备(6C系统)能够完成接触网的各项数据检测,所有基础数据和报警数据均被收集入库长期存放,随着时间的推移,数据库中的检测基础数据和缺陷数据越来越多,但对数据资源的利用率不是很高。目前,国内主流方向都是关于如何提高线路设备缺陷识别或者机车运行异常检测准确度作研究和测试,设计出了针对不同零部件的缺陷识别方法,效果显著。随着大数据时代的到来,为了让现有的检测数据的作用不再局限于传统的数据统计层面,本文利用数据挖掘技术对燃弧、吊弦缺陷进行了深入研究。

数据挖掘作为当今智能系统理论技术的重要组成部分,它包括了人工智能、神经网络、模式识别、数理统计等先进技术,从大量数据中通过相关算法搜索隐藏于其中的有价值和隐秘信息的过程。本文就是通过数据挖掘技术从大量接触网的检测数据中寻找数据间的特性,全方位分析检测的数据,做出归纳性的推理,从中挖掘出潜在的模式,争取为铁路局的检修计划提供切实可行的建议。首先,本文对检测的原始数据进行预处理,为数据挖掘过程做好前提准备;然后,利用聚类算法模型把预处理后的数据进行分析计算;最后,将聚类结果进行可视化,并给出预警方案。

1 高速铁路网供电系统缺陷检测现状

随着我国国民经济的日益发展,我国在新的历史背景下提出了新时代交通强国战略,国家提出2020-2035基本建成交通强国,2035-2050全面建成交通强国,高速铁路作为公共交通中的重要组成部分,也面临着新的规划建设任务;我国规划在2030年,高铁线网由原来的四横四纵形成八横八纵,整个高铁路网达到4.5万公里。

但随着高铁线网的高速度高密度运行的同时,接触网的安全可靠运行是整个电气化铁路安全可靠运行的关键。当前国内接触网的检修模式采取周期修与状态修相结合的方式组织作业,其作业主体仍以车间及工班为最小作业单元。该种作业模式安全风险点多、作业效率低、占用人力物力资源大、个人素质要求高、作业效果差强人意,已经不能满足铁路快速发展的需要。

目前,接触网检测监测数据主要是通过对各个检测参数的阈值判断,发现相关接触网等设备的局部缺陷,通过相关平台反馈给用户进行后续工作,所以,对于检测数据的利用率还是很低。如何利用并发挥好已有设备检测数据的价值,成为整个铁路行业的主题。

且随着高速铁路施工质量的逐步提高,众多高速铁路接触网只能检测出少量或局部的有效缺陷。在铁路维修作业中过度依赖人工操作,如果对维护区域没有主次之分,那么对于整个线路检修计划来说,必定会耗费很多人力物力等资源。因此,如何利用好现有的海量缺陷检测数据,实现接触网热点缺陷区域预测,从而节约检修成本是本次的研究重点。2012年,田国保利用数据挖掘技术及回归分析找到了接触网动态参数间的关系,通过实践找了设备运行的规律。

2 基于聚类分析的算法实现原理

数据挖掘又称为数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的且具有潜在价值的信息的过程。而时空聚类算法分析主要是从具有时间和位置信息的数据库中发现具有相似特征的时空实体(即时空簇),也是基于传统的聚类分析从空间域到时空域的进一步扩展。目前,时空聚类在全球气候变化、公共卫生安全、地震检测分析以及犯罪热点分析等领域具有重要应用价值,有助于更好地发现和分析地理现象发展变化的趋势、规律与本质特征。现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。

本文主要采用ST-DBSCAN时空聚类算法实现高速铁路网供电系统热点缺陷区域信息挖掘。ST-DBSCAN算法中有三个参数:minPts、eps、delta_t。其中minPts表示形成簇的最小点个数,eps表示形成簇的时空点距离,delta_t表示形成簇的最大时间。ST-DBSCAN算法的基本思想是:通过循环判断时空核心对象c以eps为半径,delta_t时间差内点的个数是否大于等于minPts,如果大于则形成簇,反之则对下一个时空对象进行聚类,直到所有的时空对象都归在某个簇中,或被标记为时空孤立点,则聚类结束。

利用ST-DBSCAN算法模型進行线路缺陷高危爆发区域信息挖掘的过程中,涉及三个重要的阈值参数,即空间距离阈值sptial_threshold、时间距离阈值temporal_threshold和时空对象量阈值minPts,这三个参数主要根据实际业务需求进行筛选设置。

2.1 模型阈值设定规则

该模型将线路上“已确认”的缺陷作为时空对象,然后通过绘制距离频数柱状图来查找时间与空间阈值,方便设定尽可能满足需求的阈值,具体步骤如下:

步骤1:计算缺陷时空对象事务集中两两时空对象在时间维度(或空间维度)下的时间(或空间)距离大小值。

步骤2:计算上步所得的各个距离大小值出现的频数。

步骤3:将上步所得的频数值对应纵坐标,距离大小值对应横坐标,绘制出时空对象距离频数柱状图,找出柱状图中最大距离频数值所对应的点,该点的时间(或空间)距离大小值便可作为该维度下的阈值,即时间阈值temporal_threshold(或空间阈值sptial_threshold)。

步骤4:计算时空对象量阈值minPts,计算公式如下:

2.2 算法实现过程

具体实现步骤如下:

步骤1:从基础数据库中获取目标数据,数据必须含有参数经度x,纬度y,时间t,由此构成满足条件的时空对象数据,每条完整的基础数据记为一个时空对象点Ci={idi,xi,yi,ti},i(1in)表示时空对象序号,从而组成对象集合DC。

步骤2:选取任意对象点Ci,(Ci∈DC),判读其是否属于现有簇中,如果该点已有归属簇,则选取下一个对象点Ci+1,否则进行下一步操作。

步骤3:判断对象点Ci是否为时空核心对象,是核心对象则进行下一步操作,否则就返回步骤2,重新选择新的对象点。

步骤4:搜索时空核心对象点Ci的所有时空相邻对象点Ei,如果Ei不属于任何已经存在的簇,那么就将Ei放入新簇中,反之Ei已有归属簇则不进行操作。

步骤5:判断步骤4中放入的对象点Ei是否为新簇中的时空核心对象,如果不是核心对象,则将其标记为边缘时空对象不再进行下步操作,如果是核心对象则重复步骤4。

步骤6:重复上述步骤2到步骤5的操作,直到DC中所有对象都属于某个簇,或为时空孤立点截止。

步骤7:将上述得到的所有簇标签存放到新建数据的对应字段中,方便后续的结果分析。

3 基于聚类分析的热点缺陷区域研究

目前,铁路供电系统中的各种检测监测设备对接触网的运行状态实现了全线路实时监测、精确定位、缺陷报警监控、数据集中的存储、信息共享等功能,而相关配套的智能分析系统可以通过综合各种数据,比如(车型、导高值、拉出值、线路、区站、行别、经纬度、时间、缺陷类型、缺陷级别等),实现供电设备缺陷的智能识别和预警。随着设备不断采集数据和系统结果计算,使得现在积累了大量有关接触网缺陷相关的线路基础数据,亟待深入挖掘有用信息,让基础数据变得更有价值。

线路上缺陷的发生,在时间和位置上存在一定的规律性,为了挖掘缺陷在时空上的特性,本文利用时空聚类方法设计出的高速铁路网供电系统发生缺陷的热点区域分析的时空模型,该模型可以展现线路整体时间段内(年、月)缺陷热点爆发趋势,根据趋势提出预警方案,对第二年的工作铁路的检修计划有一定的指导意义。此次挖掘主要实现方案如图1。

(1)数据清洗。由于基础数据库中的数据存在字段为空,存储内容格式不统一、经纬度不准等问题,需要将这些数据进行清洗,保证目标数据的完整性。

(2)数据处理。对清洗后的数据进行处理,调准经纬度,对时间项进行格式转化,筛选出模型计算需要的有用字段,组成新的数据集。

(3)分析计算。首先,计算出模型的空间阈值(以米为单位)、时间阈值(以天为单位),以及调整minPts的值。然后,调用ST-DBSCAN算法模型进行数据挖掘计算。最后,聚类结果中cluster值为“-1”表示离散点,非“-1”表示缺陷热点。

(4)结果可视化。将所有聚类结果,根据类别利用三维图像可视化展示。

(5)根据该线路热点区域聚类分布情况,给出缺陷的预警方案。

4 运行检测实验结果

要满足时空聚类条件,需要选取缺陷较为密集的位置进行挖掘,稀疏类的缺陷无法进行时空分析。本次实验样本主要选取2019年以前沈阳铁路局管理区域内的燃弧类、吊弦类一二类缺陷数据。

4.1 燃弧类缺陷结果分析

本次实验测试选取了2019年沈阳铁路局-秦沈线-锦州供电段内6000条列车上行一二类燃弧缺陷数据作为模型演示样本,经过数据清洗剩余5102条有限缺陷数据,由于不同区站上燃弧缺陷聚类结果显著,分布范围较广(见表1),为了表示不同区站上缺陷热点分布情况,因此本次将用不同颜色的点进行可视化,演示结果如图2所示。

图2中黑色点表示缺陷热点分散点,其它颜色点的集群表示缺陷的热点簇。从时间维度分析,燃弧类缺陷高发段主要出现在4-9月份(详情见表2)。

以盘锦北站-锦州南站区站上的分布情况为例,进行聚类结果分析:

图中X坐标轴为地理纬度,Y为经度,Z为时间轴(分为12个月)。盘锦北站-锦州南站区站燃弧缺陷热点聚集区为:图2中黄-A区域(1-2月份)、黄-B区域(4-9月份)、黄-C区域(10-12月份)、黄-D区域(10月份)。

该区段上燃弧缺陷较少发生区域为:3月份。

4.2 吊弦类缺陷结果分析

为了测试不同线路热点区域缺陷分布情况,实验选取了2019年以前沈阳铁路局2000条吊弦数据作为模型演示样本,经过数据清洗剩余1958条有效缺陷数据,为了区分不同线路缺陷高发区,用不同颜色的点表示不同线路缺陷的热点高发区(见表3),演示結果如图4所示。

图4中黑色点表示缺陷热点分散点,红色集群表示丹大快速线上的缺陷热点簇,橘色集群表示秦沈线上的缺陷热点簇,粉色集群表示长珲城际上的缺陷热点簇,绿色点集群表示沈丹客专线上的缺陷热点簇,灰色表示其他线上的热点簇。

以长珲城际的分布情况为例,进行聚类结果分析:

长珲城际线上吊弦缺陷热点聚集区为:图5中黄-A区域(1-3月份)、黄-B区域(2-5月份)、黄-C区域(5-8月份)、黄-D区域(11-12月份)。

该线路上吊弦缺陷较少发生区域为:墨绿-A区域(2-5月份)、墨绿-B区域(10-12月份)。

4.3 缺陷预警方案

此次缺陷热点预警方案主要针对样本数据,对来年发生相关缺陷的时间-地理位置预警:首先,将设备缺陷预警分为三级:一级预警为缺陷较密集状态,即热点趋势;二级预警为缺陷密度平均状态;三级预警为缺陷较稀疏状态。然后,根据不同的时间段,给用户推送针对不同区域的预警信息及方案,情况如下:

(1)一级预警:在热点时间段内提示用户,对各热点区域增加日常检修频数,预防设备损坏。

(2)二级预警:在缺陷平均时间、区域内提示用户,进行正常的日常检修。

(3)三级预警:在缺陷较少时间、区域内提示用户,减少日常检修频数,降低人工成本,提高检修效率。

5 结论

為了提高现有缺陷检测数据的利用率,提高线路检测数据的利用率,本文提出了一种基于聚类算法分析的高速铁路供电系统接触网缺陷热点区域分布的挖掘模型方案,这种方案将利用时间、空间、线路发生的缺陷三种参数作为聚类的核心参数进行分析计算,得出线路的缺陷热点区域分布图,然后结合聚类结果分析给出比较合理的预警方案。所得预警方案在实际检修中有较强的指导意义。

参考文献

[1]王璟,张于峰.高速铁路牵引供电系统健康管理及故障预警体系[J].中国高新科技,2019,(14):81-83.

[2]史冬雪.6C系统保障高铁供电设备安全[J].世界轨道交通,2012,(9):22-23.

[3]陈海波.高速铁路接触网检测技术分析[J].建材与装饰,2018,(4):278-279.

[4]王达,崔蕊.数据平滑技术综述[J].电脑知识与技术,2009,5(17):4507-4509.

[5]邵峰晶.数据挖掘原理与算法[M].北京:水利水电出版社,2003.

[6]韦胜,高湛.中国高铁网络空间分布格局及其发展变化研究[C].2018年中国城市交通规划年会论文集,2018:579-591.

[7]王艺铮.谈中国高铁的发展[J].智富时代,2019,(3):40-40.

[8]程学庆,李月,杨涛,等.高速铁路供电系统安全风险研究[J].铁道科学与工程学报,2016,13(2):233-237.

[9]田国保.基于数据挖掘的接触网检测数据处理方法研究[J].科技创新与应用,2012,(13):81-82.

[10]唐建波,邓敏,刘启亮.时空事件聚类分析方法研究[J].地理信息世界,2013,20(1):38-45.

[11]Thakur, Sidharth, et al. SUMMARY VISUALIZATIONS FOR COASTAL SPATIAL-TEMPORAL DYNAMICS[J]. International Journal for Uncertainty Quantification,2013,3(3):241-253.

[12]Birant D, Kut A. ST-DBSCAN: An algorithm for clustering spatial–temporal data[J]. Data & Knowledge Engineering,2007,60(1):208-221.

猜你喜欢

缺陷接触网数据挖掘
为开通打下基础!这条国际铁路完成接触网平推验收
接触网设备“运、检、修”分离改革的探讨
基于并行计算的大数据挖掘在电网中的应用
高速铁路接触网研究进展
接触网避雷器接地系统分析
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
印度电商为两大“缺陷”苦恼