APP下载

基于双层支持向量机的污水处理系统健康状态评估

2022-11-16刘文辉贺晓宇罗二娟岳丛俊赵建东

科学技术与工程 2022年29期
关键词:服务区子系统污水处理

刘文辉, 贺晓宇, 罗二娟, 岳丛俊, 赵建东*

(1.山西省交通新技术发展有限公司, 太原 030012; 2. 北京交通大学交通运输学院, 北京 100044)

中国高速公路总里程高达13.79万km[1],服务区作为高速公路的重要组成部分之一,其数量规模也很庞大。服务区的作用在于为司机和乘客提供休息场所,在日常运营中会产生污水,但服务区大多远离市区,污水输送不便,所以在服务区中建有专用污水处理系统来保证服务区的正常运营。污水处理系统包括提升泵、进水泵、自吸泵、曝气、电压电流和温度湿度6个子系统,通过系统自带的云端数据平台可查看各子系统实时运行数据。

污水处理系统在日常运行时会出现设备故障不易被发现等问题[2],为提高污水处理系统的工作效率,则需对该系统实时运行健康状态进行评估。经调研,目前对设备健康状态的研究较多,对服务区污水处理系统健康状态的研究较少,但污水处理系统是否健康运行直接关系到服务区和高速公路的运营效率,所以对高速公路服务区污水处理系统开展健康状态评估研究具有重要意义。健康状态评估就是将设备工作时所提取的特征参数值投射到健康因子中,现有评估技术主要包含以下三大类。

(1)回归模型。将设备的健康状态变化看作随时间变化的参数,采用回归模型对设备健康状态进行拟合预测。Lu等[3]使用随机系数回归模型进行健康状态评估,在特定工况下也需要人为经验辅助判定。郑雪莹等[4]使用高斯过程回归模型对锂电池健康状态评估。林娜等[5]使用融合无迹卡尔曼、遗传算法和粒子滤波算法的方法降低了粒子退化程度,从而对锂电池的寿命状态进行评估。该方法需要尽可能多地获得设备的真实连续运行数据。

(2)知识网络。诸如Petri网[6]和专家系统[7]等,其技术方面主要基于实际经验和对某领域的知识了解,通过一些非量化的、主观性更强的参数来进行健康评估。王亮等[8]考虑到大型设备的构造复杂,以设备最小可评估单元为输入建立Petri模型进行健康状态判断。这类模型缺少自学能力,主要依靠专家知识和定性参数。

(3)数据驱动。常使用的模型包括众多神经网络模型,例如递归神经网络[9]等。王国锋等[10]使用深度学习方法提取刀具磨损信号特征,再使用粒子滤波方法对刀具的寿命状态进行评估。神经网络模型可以将时间序列信息映射到语义向量空间中,可记忆历史信息,但是训练该模型需要较为连续且数据规模大的历史运行数据。

综上所述,因为服务区污水处理系统拥有完善的数据采集和存储系统,而且支持向量机(support vector machine,SVM)模型具有可解决高纬度问题和鲁棒性较高的特点[11],所以现选取基于数据驱动的双层SVM构建污水处理系统健康状态评估模型。针对真实数据类别不均衡现象,根据各子系统运行特征构建特征向量集;为了健康状态的可溯源性,构造双层SVM模型,可以输出各子系统及整个系统的健康状态;另外,引入ThunderSVM算法提高模型训练速度。训练后得到的双层SVM模型具有判断精度高、速度快和健康状态可溯源的特点。

1 系统工作原理

污水处理系统工作原理如图1所示,各设备间呈串联工作状态。污水首先进入提升井,提升井浮球达到一定高度时提升泵开始工作,将污水输进调节池,当调节池液位达到某一高度时,触发进水泵开始工作,将污水输进生化池,生化池内有生物膜可以过滤杂质。经过有氧和无氧环境后污水流进膜池,当膜池达到某液位后触发自吸泵工作,膜压力计和流量计会相应显示膜池内压力和管道内污水的流量。污水随之流经紫外线和消毒设备,最后进入清水池完成污水处理工作。其中风机(曝气)向生物膜鼓风,将生物膜上的杂质抖落下来。

图1 污水处理系统工作原理图

2 数据处理

2.1 数据描述

系统内各子系统所含特征如表1所示,其中各设备1号代表主设备,2号代表备用设备。服务区污水处理系统的云端管理系统可以对表1中各系统特征数值进行实时监控,数据每分钟刷新一次,正常运作1 d可产生1 437条数据。

2.2 构建特征向量集

通过爬取云端数据发现,因为污水处理系统投入运营的时间较短,各子系统长时间处于健康工作状态,所以云端数据中亚健康、故障和异常状态的数据量极少,导致样本分布不均衡,同时,考虑到各子系统的特征运行数据值多为0或1,所以根据各子系统在运行时产生数据的特征来构建特征向量集,使用的函数表达式为

f=RANDBETWEEN(*,*)

(1)

式(1)中:f为函数生成值;两个*为函数生成值的下界和上界。对于运行数据为0或1的特征,令两个“*”分别为0和1;对于运行数据为某个范围内数值的特征,令两个“*”分别为该特征所设定的下界和上界。

2.3 数据标定

数据标定,即给无标签的数据按其所属类别进行打标签分类工作。按以下逻辑判断规则,为所构造的特征向量集中每条数据标定其所属的健康状态。

2.3.1 提升泵

(1)健康:①所有参数均为0;②主提升泵和备用提升泵均无故障、达到备用液位时提升泵相应工作,且备用预警不报警。

(2)亚健康:主提升泵和备用提升泵有一个故障。

(3)故障:①主提升泵和备用提升泵均故障;②备用预警报警。

(4)异常:除以上情况外的其他情况。

2.3.2 进水泵

(1)健康:①所有参数均为0;②主进水泵和备用进水泵均无故障、达到调节池液位时进水泵相应工作,且调节池预警不报警。

(2)亚健康:主进水泵和备用进水泵有一个故障。

(3)故障:①主进水泵和备用进水泵均故障;②调节池预警报警。

(4)异常:除以上情况外的其他情况。

2.3.3 自吸泵

(1)健康:①所有参数均为0;②膜池液位报警,主自吸泵或备用自吸泵同时带动紫外线和消毒工作,且产水瞬时流量值和膜压力值均不为0、膜池预警不报警。

(2)亚健康:主自吸泵和备用自吸泵有一个故障。

(3)故障:主自吸泵和备用自吸泵均故障,其他参数均为0。

(4)异常:除以上情况外的其他情况。

2.3.4 曝气

健康:主曝气设备和备用曝气设备均无故障。亚健康:主曝气设备和备用曝气设备中有一个故障。故障:主曝气设备和备用曝气设备均故障。异常:除以上情况外的其他情况。

2.3.5 电压、电流

电压、电流参数不存在寿命问题,但它们的大小对系统运行的安全有影响,所以电压电流子系统只设置健康和故障两种状态。健康:电压、电流参数均处于安全范围内,设安全范围为215~235 V,7~9 A。故障:有一个或多个特征值不在安全范围内。

2.3.6 温度、湿度

温度、湿度参数不存在寿命问题,但它们的大小会影响系统运行的安全,所以温度、湿度特征只设置健康和故障两种状态。健康:参数均处于安全范围内,设安全范围为15~35 ℃,15%~70%。故障:有一或两个特征值不在安全范围内。

2.4 数据欠采样

从逻辑判断规则可以看出,子系统达到健康状态的要求较严格,所以经数据标定后的特征向量集中非健康状态的样本相对较多,同样会导致样本不平衡,但相比云端数据而言不平衡的程度更轻。若在模型训练中输入样本不平衡的数据,则模型会更多地学习数据量较多的样本,而忽略数据量较少的样本,导致模型过拟合,因此采用数据欠采样方法来解决此问题。数据欠采样指保留数据量少的样本数据,而删除部分数据量较多的样本数据,使得各个样本的数据规模趋于一致。

经数据标定和欠采样处理后的特征向量集共包含22 992条数据,相当于16 d的数据量,设前15 d数据作为训练集,最后1 d数据作为测试集。

3 系统健康状态判断模型

3.1 模型原理

SVM[12]是一种基于统计学习理论的监督式机器学习算法。其最初是通过在特征空间上划分出几何间距最大的分离超平面,从而实现二分类。对非线性可分问题而言,超平面表达式为

f(x)=ωTφ(x)+b

(2)

式(2)中:f(x)为超平面;ω为法向量;φ(x)为映射后特征向量;x为空间中的点;b为位移项。将其化为对偶问题并通过拉格朗日乘子法化简求解,可得

(3)

式(3)中:a为拉格朗日算法中的参数;y为2倍法向量绝对值的倒数;K()为核函数;xi、xj为空间中的两个点。

核函数是SVM的重要组成部分,它将数据点映射到更高维的空间中,从而实现非线性和高维的分类效果。考虑到污水处理系统的健康状态评估是一种非线性分类任务,所以选取径向基函数(radial basis function,RBF)作为双层支持向量机中的核函数,从而实现非线性映射,表达式为

(4)

式(4)中:x1、x2为空间中的两个点;σ为函数的宽度参数,控制函数的径向作用范围。

实现4种健康状态的判断属于四分类问题,而基本SVM是用来解决二分类问题的,因此面对多分类情形,选择“一对一法”[13],即在每两类样本之间训练出一个分类器,例如对于四分类问题,则需要构建6个二分类SVM分类器。然后对样本分类时采用投票机制,对于输入的某一个样本,每个分类器对其进行判断投票。最后票数最多的类别作为该输入样本的类别。

3.2 ThunderSVM算法

SVM在计算机编程中主要使用到的算法是基于单核CPU提出的sklearn算法,其无法充分利用多核处理器,因此选择一个高效并行支持向量机算法——ThunderSVM[14]算法,该算法可以调用GPU来进行多线程计算,从而加快支持向量机模型的训练速度。

3.3 模型搭建与训练

通过将两个单层SVM模型进行融合搭建出一个双层SVM模型,模型训练过程如下。

步骤1将提升泵、进水泵、自吸泵、曝气、温度湿度、电压电流子系统的特征向量数据输入至下层SVM模型,同时,分别使用sklearn算法和ThunderSVM算法观察模型的训练速度,最终输出6个子系统的运行健康状态。

步骤2融合下层SVM模型的输出结果,输入至上层SVM模型进行训练,最终输出整个系统的健康状态。模型框架如图2所示。

图2 双层SVM模型架构图

4 实验验证

实验验证采用的数据集共包含两部分,共计2 874条数据:第一部分是从污水处理系统云端管理平台提取的数据,因为污水处理系统运营时间不久,云端数据多为健康状态数据,所以选取2021年6月4日整天的数据;第二部分选用数据处理章节中所构建的测试集。通过以上方法可避免实验数据集因缺失某种状态样本或某种状态样本量过少而造成实验结果的偶然性。

首先,分别比较双层支持向量机模型在sklearn算法和ThunderSVM算法下的训练速度,实验结果如表2所示。在下层SVM模型训练的过程中,ThunderSVM算法均大幅提高了6个子系统模型的训练速度。

表2 不同算法下模型训练所耗时间对比

其次,在相同的实验条件下对双层SVM模型进行横向对比和纵向对比。横向对比模型选择单层SVM模型,该模型是将所有子系统的特征向量进行整合作为单层SVM的输入,这样会造成大量数据同时涌入且无法获得各子系统的健康状态。纵向对比模型选择在多分类问题中被广泛使用的树类模型:CART决策树、AdaBoost、XGBoost和LightGBM模型。使用精确度作为实验结果的评判标准,表达式为

(5)

式(5)中:TP(true positives)为分类器把正例正确的分类为正例;FN(false negatives)为分类器把正例错误的分类为负例;TN(true negatives)为分类器把负例正确的分类为负例;FP(false positives)为分类器把负例错误的分类为正例。

如表3所示,双层SVM模型的判断精确度优于决策树、Adaboost、XGBoost、LightGBM和单层SVM模型,分别提高了18.55%、16.98%、14.89%、16.79%和13.46%。

表3 实验结果对比

5 结论

从高速公路服务区污水处理系统健康状态评估应用场景出发,使用双层支持向量机模型可以更准确、快速地解决实际问题,具体结论如下。

(1)根据各子系统运行数据特征所构建的数据集,经过数据标定和欠采样处理后可有效地应用于模型训练与实验验证阶段。

(2)使用ThunderSVM算法可大幅度提高高速公路服务区污水处理系统健康状态判断的速度。

(3)双层支持向量机模型可实现对高速公路服务区污水处理系统以及各子系统健康状态的高精确度判断。

猜你喜欢

服务区子系统污水处理
不对中转子系统耦合动力学特性研究
江苏高速服务区管理信息化探索与实践
我国乡镇污水处理模式的探讨
农村生活污水处理中MBR工艺应用
高速公路智慧服务区建设探讨
农村黑臭水体治理和污水处理浅探
太原市61个村要建污水处理设施严禁直排入河
加油站 直通车 服务区 督政台
网络空间供应链中入侵检测及防御子系统的投资机制研究
网络空间供应链中入侵检测及防御子系统的投资机制研究