基于数据挖掘的城轨系统电能消耗模式分析

2020-11-17孙玉霖

北京交通大学学报 2020年5期

荀径，赵娇，孙玉霖，吴颖

(北京交通大学轨道交通控制与安全国家重点实验室，北京 100044)

近年来，我国城市轨道交通发展迅猛，中国城市交通协会的统计数据显示[1]，截至2019年底，中国内地共计开通城轨线路210条，运营里程达到5 948 km.全年累计完成客运量超过210亿人次.作为一种绿色环保的交通方式，城轨系统单位运输能耗低，但运输总量激增导致城轨系统能源消耗体量大，引人关注.此外，整体能耗增加也使运营单位承受巨大的成本压力.据统计，在城市轨道交通的运营费用中，电耗费用[2]为第二大成本，目前我国城市轨道交通系统能耗支出占运输总支出的比例高达35%.因此,如何准确分析城轨系统能耗，合理制定能耗指标和查找能耗波动原因成为城市轨道交通系统研究的重点之一.

为方便统计和分析能耗相关数据，各地地铁公司建立了能耗管理监控平台.北京市地铁运营有限公司[3]提出能效管理平台，为地铁提供电能综合管理和电能质量分析.上海城市轨道交通已建立了由站、线、网三级架构组成的能耗监测管理系统，各级系统之间通过专用通信网络进行数据传输[4].针对牵引用电部分，上海地铁2015年在上海轨道交通1号线01A02车开展了城市轨道交通车辆能耗计量相关试验[5].广州地铁6号线的电能质量管理系统具备了海量数据分析以及智能化数据展示与预警功能，但面向牵引用电的数据分析，局限于牵引变电所[6].除此之外，成都、深圳、南京等地铁公司也已建立了地铁能源管理系统[7-9].这些系统为监控地铁线网能耗总量情况及趋势、监控地铁线网运营能耗数据、分析各条线路的能耗时空分布的变化特征提供了便利条件.

目前国内多个地区为城市轨道交通系统的能耗管理和评价指标制定了相关标准.文献[10]规定了线路能源管理系统的架构和功能，同时包含关于表计配置原则、能耗数据监测、统计和分析等多项要求，用于规范北京市轨道交通合理用能.文献[11]包含对城市轨道交通各子系统的节能管理要求和电耗统计范围等内容，适用于运营期的城市轨道交通的节能管理和综合电耗计算方法等.北京市地方标准《城市轨道交通能源消耗评价方法》[12]规定了城市轨道交通能耗的计量器具安装要求、统计内容与要求、评价指标、能耗评价方法.根据对北京地铁的实际调查，目前对所有线路统一设定一个本年度每车百公里列车实耗作为每条线路的评价指标.

2011年，文献[13]提出一套严格的铁路系统能耗评价指标体系，这种方法包括衡量系统整体能源消耗，但并没有提供有关不同子系统性能的信息.文献[14]分析了城轨系统能耗组成、牵引供电系统和能量流，提出KEPI，包含KPI和PI.使用能耗值、客流量和距离等相关数据，将这些值组合得到KPI和PI，能够对系统的实际能耗表现进行全方位的分析，评估节能策略的节能潜力.与此同时，国内学者提出了城市轨道交通评价体系[15].我国也已发布了MOPES指标体系和一些地方标准，例如北京地标《城市轨道交通路网运营指标体系》[16].

轨道交通领域对能耗的分析主要集中在能耗预测方面.有部分学者利用机器学习的方法预测轨道交通系统的能耗值.文献[17]提出利用支持向量回归(SVR)预测地铁牵引能耗，模型的输入有日均周转量，全日走行公里、最小发车间隔等，采用遗传算法与交叉验证方法对SVR模型参数进行寻优，并对比了神经网络模型、多元线性回归模型等能耗模型的预测效果.文献[18]认为交通的能耗影响因素主要包括经济活动总量、技术进步和交通运输结构等，计算出影响大小的数值并提取核心影响因素，分析了每个因素的变动对于整体影响的灵敏性，用贝叶斯估计预测能耗，给出节能政策建议.文献[19]探索了动态客流和牵引能耗的耦合机理.

当前我国地铁运营单位主要通过计算各种指标，例如车公里、人公里指标等，设置阈值判断线路运营能耗的异常情况，进而分析每条线路和列车的电能使用和查找能耗异常原因.各地投入使用的电能管理系统已实现对城市轨道交通能耗较为精确的计量和采集，能耗相关数据逐年累积，具有维度高、数量大等特点.存在的问题主要有两个方面:1)现有方法以针对年度/月度数据的静态分析为主，由人工计算一定周期内的能耗指标，受限于人的能力，时间跨度大，不利于能耗异常原因的溯源；2)所用能耗指标与日常生产任务关联较为松散，不同时间段(工作日、周末、节假日)的判断阈值“一刀切”，亟待研究不同时间段的能耗模式，作为判别异常的依据.

本文作者针对以上问题提出了一种基于数据挖掘的城轨能耗动态分析方法，可用于分析牵引能耗和动照能耗的能耗模式，作为判别异常的依据.

1 牵引能耗和动照能耗数据集

本文研究所使用的数据是2019年3月国内某地铁某线路记录的牵引能耗数据集和动照能耗数据集.此类数据通常由城轨电能管理系统记录，记录间隔可以有半小时、一小时等选择，本文选取每半个小时记录一次.由于原始记录的数据是累计值，将相邻的采样数据相减可以得到整条线路每半个小时之内的牵引和动照能耗.基于此数据绘制的牵引能耗曲线如图1所示，发现数据曲线在一天中的某个时间段具有类似的波动形状，这是典型的周期模式特征.与牵引能耗数据类似，动照数据也具有周期性模式特征.

为了便于后续的分析，对数据进行了预处理获得4类数据集：1)动照能耗数据全集，包含各个车站动照能耗数据集；2)牵引能耗数据全集，包含正线和车辆段的各变电站牵引能耗数据集；3)包含正线和车辆段的全线牵引能耗数据集(不区分各个牵引变电站)；4)正线数据集，仅包含正线牵引能耗数据的数据集(不区分各个牵引变电站).

2 城轨能耗分析方法

城轨能耗分析方法的流程为：1)由于目前尚无系统权限下载数据，数据集通过人工抄录系统显示数据获得，存在较多“疑问”数据(可能是由于记录疏忽造成的)，必须要对数据进行清洗.采用Log变换和基于标准差的方法进行数据清洗.2)构建特征向量，选择合适的聚类方法对数据进行聚类，得到不同日期城轨系统的耗能规律.3)基于聚类得到的耗能规律，构建决策树，进行分类，获得不同时段城轨系统的能耗模式；4)基于分析得到的能耗模式，采用聚类方法，可用于分析其他日期的能耗数据是否异常.

2.1 K-Means算法

由于本文中数据集属于时间序列聚类，数据之间不存在平移，波动性不影响聚类结果，适合使用基于距离的聚类算法，可直接用欧式距离来衡量时间序列之间的差异，因此选择K-Means聚类算法.

K-Means(K均值)算法是一种无监督学习的聚类算法，它可以将相似的对象归到同一个簇中.聚类分析试图将相似的对象归入同一个簇中，将不相似的对象归到不同的簇中.而是否相似则取决于算法中的相似度计算方法.K-Means算法的相似度计算是通过计算与数据点与各个簇中心的距离，选取最相近的簇中心来确定的.这里的距离计算常使用欧氏距离.

算法1：K-Means算法

输入：(x1,x2,…，xn-1，xn)，k

输出：k个聚类中心

1. 从数据集中随机选择K个样本作为初始集群中心C={c1,c1,…,ck}

2. do

3. fori=1,2,…，n-1,n

4. 计算xi所属的类：

(1)

5. end for

6. forj=1,2,…，k-1,k

7. 重新计算每个类别cj的聚类中心：

(2)

8. end for

9. while 聚类中心发生变化

其中最优K值的选取有很多种方法，在本文中选择使用手肘法.

2.2 决策树与CART算法

决策树算法具有计算复杂度不高，输出结果易于理解，对数据的缺失不敏感等优点，也存在着可能产生过度匹配问题的缺点，但可以通过一些限制和优化方法进行改进.构造决策树时，首先要寻找能够将数据集进行最大划分的特征.为了找到这个特征，需要通过一些算法计算数据的最大划分.常见的算法有ID3、C4.5、CART等，本文在对比了如上算法后，考虑到进行能耗时段分类时对于能耗时段的过滤需求，采用了可以计算数值型特征和具有剪枝过程的CART算法.

CART算法构建的决策树是二叉树，其内部节点特征的取值为“是”和“否”，其中左子树代表“是”的分支，右子树代表“否”的分支.CART决策树通过递归的二分每个特征，将特征划分为有限个单元，并在这些单元上确定预测的概率分布.

CART分类决策树算法使用Gini系数最小化准则来进行特征选择，生成二叉树.首先，CART算法检查每个变量和该变量所有可能的划分值来发现最好的划分.将每个属性的所有划分按照他们能减少的杂质量来进行排序，本文所使用的杂质度量方法是Gini系数.一个节点A的Gini系数的计算式为

(3)

式中：pk表示节点包含的数据中属于k类的概率；C为类的数量.

当所有类在节点中以相同概率出现时，Gini(A)最大；当Gini(A)取最小值时，节点A得到最大划分.将全部数据作为根节点，对此过程进行递归，直到满足限定条件，即得到分类决策树.

算法2：CART分类决策树算法

输入：D=(x1,x2,…xn)，基尼系数阈值，样本个数阈值

输出：决策树T

1. 从根节点开始

对于当前节点的数据集D，如果样本个数小于阈值或没有特征，则返回决策子树，当前节点停止递归.

2. if Gini(D)<基尼系数阈值

return

3. else

4. 计算当前节点现有的各个特征值对数据集D的基尼系数，由

(4)

得到使基尼系数最小的特征A和对应的特征值

a，将D划分成两个子节点D1和D2

5. 对左右子节点递归调用1～4步，生成决策树

6. return

2.3 LOF算法

LOF算法是基于密度的经典算法，对数据的分布无特殊要求，允许数据分布不均匀，可量化每个点的异常程度，通过给每个数据点都分配一个依赖于邻域密度的离群因子 LOF，进而判断该数据点是否为离群点.LOF值越远离1，越可能判为异常值.

1)k-邻近距离：在距离数据点o最近的点中，第k个最近的点与o之间的距离.记为kd(o).

2)第k距离邻域：与o的距离小于等于k-邻近距离的点，记为|Nk(o)|.

3)可达距离：给定参数k，点o的k-邻近距离和数据点p与数据点o直接距离的最大值.

rdk(p,o)=(p,o)=max {kd(o),d(p,o)}

(5)

4)局部可达密度：点p的第k邻域内点到p的平均可达距离的倒数.

(6)

5)局部异常因子：点p的第k邻域内点的平均局部可达密度与点p的局部可达密度之比.

(7)

算法3：LOF异常值检测算法

输入：(x1,x2,…,xn)，k，threshold

输出：异常值outliers

1. fori=1,2,…，n-1,n

2. 根据式(5)～式(7)，

3. ifLOFi>threshold

4. outliers←xi

5. end if

6. end for

3 验证和分析

3.1 线路牵引能耗

由于图1的曲线表现出典型的周期性特点，因此重新定义时间跨度为一天对数据展示，见图2.

针对图2的观察发现工作日(周一—周五)和非工作日(周六、日)的能耗曲线波动不太相同，若是进行聚类，可能会聚为两类.为了验证此猜测，首先利用手肘法进行最优K值的选择.基于数据计算不同K值时误差平方和SEE(Sum of the Squared Errors).肘部对应的k值为2(曲率最高)，故对于这个数据集的聚类，最佳聚类数应该选2.基于此结果，采用KAMeans方法，对数据集进行聚类，得到的聚类结果如图3所示.其中非工作日(周六、日)被归为一类，而工作日被归为了另一类.图3中带状分别描述数据的平均值和波动范围.

基于上述聚类结果进行能耗模式分析.受车辆段夜间用电的影响，最初采用包含正线和车辆段的全线牵引能耗数据集进行能耗模式分析，未得到解释性较好的结果.此后改为使用仅包含正线牵引能耗数据的正线数据集进行牵引能耗模式分析,通过聚类方法将能耗相近的时间段归到一起，将所有时间段划分为高能耗时段和低能耗时段两类.然后通过决策树算法建立高低能耗时间段分类与星期、时间两个属性的联系，运行程序得到图4中的决策树.决策树中X[0]为代表周几的数字表示，X[1]为小时的数字表示.Gini系数在决策树分类时用来衡量不确定度的大小，samples为样本数量，value代表被分到不同类别中的样本数量.

以图4(a)中最右下角的叶子节点N为例，说明对决策树整理解释的过程.N中有7个样本，全部被分为第2类，从N向根节点的路径搜索N的判定条件，由于每个节点的左子节点代表节点中的条件成立，右子节点代表条件不成立，N为其父节点的右子节点，父节点的特征判定条件为X[1]<=23.25，因此可知N中的样本有X[1]>23.25.X[1]代表能耗数据的时间，取值范围为[0, 24)，23.25即代表23时15分，即节点N具有条件为时间在23:15以后.对N的父节点继续向根节点的方向搜索，到达根节点，知其具有判定条件X[1]<=5.75为假，即时间在5:45以后，此条件是“时间在23:15以后”条件的必要条件，因此省略.决策树中时间的表示是[0, 24)的数字，且从根节点到叶子节点N的路径中没有X[0]的判断条件，因此从节点N中读出的信息为：从周一到周日，23:15—0:00的牵引能耗属于第2类.其他叶子节点的解释方式相同.通过对决策树A进行整理解释得到了区分明显的特殊时段和运行时段.

对运行时段使用K-Means和决策树算法进行进一步的划分，得到了决策树B.通过对决策树B整理，同时在整理分析时忽略较明显的离群点，将运行时段的牵引能耗分为第1等级(能耗较高时段)和第2等级(能耗较低时段)，得到完整的牵引能耗模式，如表1所示.

表1 牵引能耗模式

3.2 车辆段牵引能耗

单独绘制车辆段的牵引能耗数据，如图5所示.每条曲线表示车辆段从周一到周日每天0:00—23:30的数据.发现能耗模式与其他车站以及线路整体有着较明显的差异，并且没有工作日与非工作日间的差别.

对车辆段进行单独的聚类与决策树分析，程序运行结果见图6.类似图4，经过分析整理可得能耗时段与模式的关系如下：0:00—3:00时段为第2等级；3:00—6:30为第1等级；6:30—24:00为第2等级.其他时段因数据量有限不能得到明显的区分.

3.3 动照能耗

动照数据集中有两个重要属性：车站名称和日期.基于日期，可以获得日动照能耗数据这一时间序列数据；基于车站名称则是另一种分类方式.

1)日动照能耗数据的车站聚类.

采用上述牵引能耗模式分析方法，也可以找到动照能耗的能耗模式.图7为利用正线动照数据集绘制的各个车站全天能耗曲线.采用K-Means聚类算法，可将各个车站聚为3类：动照第1等级、第2等级和第3等级.7 d的聚类结果如表2所示.可以发现，车站I的能耗值在3月23日与3月24日(周末)与其他时间(工作日)的能耗不同，其能耗的聚类周末属于第1等级而工作日属于第2等级，这种变化是否是由于某种措施带来的能耗异常值需要进一步分析(图7中红色曲线所示).

表2 基于动照能耗的车站聚类结果

2)各车站动照能耗的异常值监测.

17:00-次日16:30每半小时记录一组数据，将23.5 h内记录的47组数据点视为一个多维数据.采用LOF算法对每个站7 d内的数据进行异常值分析结果，见表3.异常值阈值设置为1.5.其中车站F周三和周六的能耗、车站G周日的能耗被判为异常.

表3 每站每天的动照能耗LOF值

4 结论

1)针对传统城轨能耗数据分析以静态统计分析为主的特点和判断能耗异常的阈值“一刀切”的问题，提出了一种基于数据挖掘的城轨能耗动态分析方法，可用于分析牵引能耗和动照能耗模式，作为判别异常的依据.首先基于聚类方法获取基于时序的耗能规律.其次基于聚类得到的耗能规律，采用决策树分类方法分析其能耗模式；最后，基于分析得到的能耗模式，采用聚类方法，分析新的能耗数据是否异常.

2)利用国内某地铁线路供电系统记录的牵引能耗数据集和动照能耗数据集，进行了分析，通过数据实验得到了该线路的牵引能耗模式和动照能耗模式，并发现了数据集中某日以及某车站的能耗数据异常，验证了方法的有效性.

3)基于此方法可以从多角度(例如牵引和动照)、多层面(线路或者车站)全面分析城轨系统的能耗模式、快速准确地发现能耗异常，为城轨系统能耗分析提供了一种基于数据的动态分析手段.