APP下载

改进K-means聚类算法行驶工况及油耗研究*

2021-11-22苏小会张玉西徐淑萍

计算机工程与科学 2021年11期
关键词:特征参数油耗特征值

苏小会,张玉西,徐淑萍,尚 煜

(西安工业大学计算机科学与工程学院,陕西 西安 710021)

1 引言

汽车行驶工况也称运转周期,是车辆在特定环境中行驶的速度-时间变化规律,主要用于评价车辆污染物排放和能耗,对新车型技术研发与交通控制风险评估等研究具有重要价值[1]。现有许多学者对其进行了研究,Nguyen等人[2]提出基于马尔可夫链理论的行驶循环构建过程。丁一锋等人[3]用主成分与聚类分析等多元统计方法构建汽车道路工况。刘应吉等人[4]利用运动学片段联系模糊的特点使用组合主成分和模糊C均值聚类构建工况。大多数学者对行驶工况的研究主要集中在K-means聚类初始中心的选择上和单一地改进K-means聚类算法,缺乏对主成分分析和聚类组合优化以及执行算法时耗的研究。若要达到理想的聚类效果和时耗,还是要集中在K-means聚类的改进上,张锐等人[5]为了弥补传统K-means算法聚类效果严重依赖于初始聚类中心这一不足,提出了OICC(Optimize Initial Cluster Centers)K-means算法。张琳等人[6]采用密度的思想克服传统初始中心比较敏感的缺陷。罗军锋等人[7]引入信息熵和加权距离,去除孤立点。张琰[8]提出一种基于密度加权的粗糙K-means聚类改进算法,不仅提高了聚类准确率,减少了迭代次数,而且还弱化了聚类时噪声数据和离群点对结果的干扰。但是,该算法是在牺牲效率代价的前提下,提高了聚类准确率,大多数的时耗用在运算数据对象的密度上,时间复杂度过高。

因此,本文提出一种改进K-means聚类优化算法,引入最大最小距离和加权欧氏距离,依据贡献因子对聚类特征值增加权重。实验结果表明本文算法聚类效果稳定、时耗低,所构建的行驶工况适用性强,满足交通路况的特征。

2 行驶工况数据解析

2.1 数据预处理

本文采集的数据是来源于城市轻型汽车2019年9月份实际道路行驶状况(采样频率1 Hz),其中,数据信息有时间、GPS测速、经纬度和瞬时油耗等。利用拟合插值法对受到干扰不连续的数据进行插值拟合,小波分解和重构法对污染的数据进行平滑处理[9],用Matlab预处理后的原始数据由194 511条减少至164 039条。

2.2 特征参数提取及运动学片段划分

汽车由一个怠速开始到下一个怠速开始前的区间被称为运动学片段[10]。在分析相关资料并进行相关研究的基础上,本文定义了12个特征参数来描述运动学片段[11],即片段持续时间T、行驶距离S、平均速度Va、平均行驶速度Vd、怠速时间比Ti、加速时间比Ta、减速时间比Td、巡航时间比Tc、速度标准差Vstd、平均加速度aa、加速度平均标准差astd和平均减速度ad共12个特征参数。

本文利用Python开发了相关程序,采用堆栈和循环遍历数据进行处理,从164 039条预处理数据中分割出2 445个运动学片段。

3 改进主成分分析

传统的主成分分析利用线性技术对数据进行降维,消除数量级影响的同时也剔除了各特征因子的差异信息,而实际生活中数据间的关系常常是非线性的,采用方差贡献率为权重的综合评价方法不能合理解释分析结果,甚至会出现评价结果与事实偏差较大的现象[12]。因此,本文采用文献[13]提出的比重法,改进后的主成分不仅能够消除量纲的噪声,还可以在表征较多特征参数信息的同时实现降维,如式(1)所示:

(1)

其中,n为运动学片段数量,ti为第i个片段,tij为第i个片段的第j项特征参数,ZTij为第i个片段的第j项特征参数的标准化比重。

改进的主成分分析在实现降维的情况下,将求出的实验数据与特征参数组成矩阵, 选取累积贡献率达到80%以上的主成分进行降维和去相关。从图1可看出,前4个主成分累计贡献率已达82.76%,基本代表了该片段12个特征参数的所有信息。

Figure 1 Contribution rate and cumulative contribution rate图1 贡献率与累积贡献率

从图2可以看出,各主成分的特征值呈逐渐减小趋势,且变化曲线存在明显拐点。由图1可知改进的主成分分析结果中第1主成分包含41.5%的信息,因此达到了用较少主成分表征更多信息的要求。

Figure 2 Gravel map图2 碎石图

当选取参数的主成分载荷系数的绝对值越大时,说明某参数与某主成分的相关系数越高[1]。从图3可以直观地看出各个特征值相关性的大小,根据表1可得第1主成分M1的特征值有行驶距离、平均减速度和平均行驶速度,从图3可看出特征值的相关性系数分别为3.15,2.08和3.69,则M1与行驶距离和平均行驶速度的相关性较大;第2主成分M2的特征值有平均速度和巡航时间比,从图3可看出特征值的相关性系数分别为2.75和3.84,则M2与巡航时间比的相关性较大;第3主成分M3的特征值有怠速时间比和减速时间比,从图3可看出特征值的相关性系数分别为3.06和2.85,则M3与怠速时间比的相关性较大;第4主成分M4的特征值有片段持续时间,从图3可看出特征值的相关性系数为2.43,则M3与片段持续时间的相关性较大。

Figure 3 Scatter plot of principal component analysis 图3 主成分分析散点图

4 改进的K-means聚类优化算法

4.1 离群点处理

实际测试中总会有一定的干扰,常常产生孤立点或噪声,影响聚类效果,本节利用剩余数据点距离均值和的方法来消除噪声和离群点的影响[14]。每一数据点与其他点的距离和为Si,距离均值和为H,当Si>H时,则把点i视为孤立点。

Table 1 Principal component loading matrix表1 主成分载荷矩阵

(2)

(3)

其中,xih和xjh分别为数据样本xi和xj第h维的值,d为数据维度,n为样本数量。

4.2 最大最小距离

最大最小距离法是把距离远的实验数据点看作聚类中心,避免了K-means聚类算法选取初始值时与聚类中心太过邻近的情况,如果只依据距离做出判断,初始中心点中很可能包含有离群点,从而影响聚类准确率。

最大最小距离法的基本思想:首先,在实验数据中随机选取数据点v1作为聚类中心点;然后,选择离v1最远的数据点v2作为聚类中心点;再选择与之前中心点的欧氏距离最大的数据点作为下一个中心点,重复该过程依次计算剩余所需要的中心点。

4.3 加权欧氏距离

设有n个实验数据组成聚类数据集X={x1,x2,…,xn},其中xi=[xi1,xi2,…,xid]T为d维向量,根据实验数据中每个分量的特征参数的影响不同,引入权值ω=[ω1,ω2,…,ωn]T∈Rn×d来区分各部分实验数据与聚类中心的关系。

(4)

(5)

新初始权重为:

(6)

其中,聚类精度为:

(7)

其中,ωj=(ωj1,ωj2,…,ωjd)T为d维向量,xj表示第j个实验数据,ci表示第i个聚类中心,xjm表示第j个实验数据的第m个分量,cim表示第i个聚类中心的第m个分量,可以看出ω是一个能体现实验数据整体分布特征的权值[5]。ncor为正确分类实验数据数,n为实验数据数。

4.4 特征加权K-means聚类算法

(1)处理噪声和孤立点,得到新的数据集,分析得到相关特征列表。

(2)用改进的主成分分析计算每个特征的贡献因子,以此获得初始权重。

ω=(w1X1,…,wiXi,…,wnXn)

(8)

其中,Xi为第i个特征的贡献因子。

(3)利用最大最小距离法产生经过优化的聚类中心,以此确定K个初始聚类中心。

(4)基于加权特征和初始聚类中心,执行K-means以获得K个簇。

(5)计算初始聚类精度。

(6)对于ω中的每个数据点i,执行没有该数据点时的K-means聚类,并计聚类精度Ai,若Ai

(7)归一化权重,基于新权重执行K-means聚类,并计算聚类精度Ainit;

若最终聚类精度Afinal>Ainit,则接受该新权重,并令Ainit=Afinal;否则保持旧的权重不变。

根据本文的工况数据,使用本文改进的K-means算法进行处理,首先对边缘数据、离群点进行检测,并剔除异常点,如图4所示,簇1为正常聚类的点,簇2为边缘数据离群点。从图5可以看出,边缘数据大部分为离群点,可剔除。

Figure 4 Scatter plot of edge data points of working conditions图4 工况边缘数据点散点图

Figure 5 Relative distance comparison of outliers图5 离群点相对距离对比

根据上述改进主成分分析,使用贡献因子和相关性较大的特征值绘制三维图,如图6所示,本文选用平均速度、行驶距离和巡航时间比代表聚类的每个点。

Figure 6 Three-dimensional scatter plot of working conditions图6 工况三维散点图

改进K-means聚类算法把运动学片段聚成4大类,分别由簇1、簇2、簇3和簇4表示。由图7可知,第1类为闹市区,汽车频繁启停且车速较低,平均速度、巡航时间比和行驶距离都低;第2类为生活区,较为拥堵,启停次数较多,平均速度、巡航时间比和行驶距离都较低;第3类为郊区,路况较为通畅,启停次数较少,平均速度、巡航时间比、行驶距离都较高;第4类为高速区,交通顺畅,启停次数少,平均速度、巡航时间比和行驶距离都高。

Figure 7 Working condition cluster analysis scatter plot图7 工况聚类分析散点图

5 行驶工况构建与油耗分析

5.1 工况构建与验证

根据汽车行驶工况中各类时间片段总时间占所有片段集总时间的比例,可得出各工况在最终构建工况中所用的时间[15]。本文截取1 400 s的时间片段合成由低速片段、中速片段、中高速片段和高速片段的车辆行驶工况,如图8所示。

Figure 8 Synthetic driving conditions图8 合成行驶工况

用速度和加速度验证所构建行驶工况与实验数据之间的差异[11],这是相对标准的验证方法。 使用Matlab软件计算所构建汽车行驶工况数据的速度-加速度联合分布矩阵,如图9所示。

Figure 9 Difference between experimental data and synthetic conditions图9 实验数据与合成工况的分布差异值

由图9可见,实验数据与本文改进聚类算法构建行驶工况的速度-加速度联合差异分布在±1.2%范围内,因此,本文构建的行驶工况满足轻型汽车的行驶特征,符合车辆行驶工况构建的开发要求,具有较强的实用性。

Figure 10 Running time of the four algorithms图10 4种算法运行时间

本文使用文献[16,17]的工况构建方法和本文方法在本文数据上进行20次实验,结果如图10所示。结果表明,本文改进K-means聚类算法不仅可以弱化噪声点对初始中心的影响,还在聚类效果稳定的基础上大大缩短了聚类时间。

表2是在Matlab上运行的结果,本文算法聚类表现较好,其中平均运行时间比传统K-means聚类算法缩短了44.2%。

Table 2 Experimental results comparsion of the four algorithms表2 四种算法对比实验结果

5.2 油耗分析

如图11和图12所示,在低速、中低和高速时瞬时油耗较大,车辆转矩波动较高速区大,高速区瞬时油耗比较平稳,而低速区、中速区瞬时油耗率明显增加。从图12可观察到,瞬时油耗除低速时有短暂的升高现象,之后油耗起伏趋势与行驶速度大致吻合。从图13可看出,行驶工况发动机转速主要分布在1 500~2 500 r/min,油门踏板开度集中在0.12~0.18,表明行驶工况为中高速状态。

Figure 11 Relationship between vehicle driving time and instantaneous fuel consumption图11 车辆行驶时间与瞬时油耗的关系

由图14可观察到,高瞬时油耗大多集中在转速为1 000~1 500 r/min,扭矩百分比为10%~30%时,说明这部分行驶工况是由高速、中速和低速区组成。

Figure 12 Relationship between vehicle speed and instantaneous fuel consumption图12 车辆行驶速度与瞬时油耗的关系

Figure 13 Relationship between vehicle running speed and accelerator pedal opening图13 车辆行驶转速与油门踏板开度的关系

Figure 14 Relationship among vehicle driving time, speed, and instantaneous fuel consumption图14 车辆行驶时间、速度和瞬时油耗的关系

6 结束语

本文提出了一种改进的主成分和特征加权K-means聚类组合的优化算法,引入剩余点聚类均值法,剔除离群点,减少聚类时耗。最大最小距离法可优化候选初始中心,使K-means避免陷入局部最优解,从而达到良好的聚类效果。依据特征值的贡献因子对聚类的贡献率,获得初始特征权重,提出一种加权欧氏距离度量。选出贡献因子较大的巡航时间比、行驶距离和平均速度等特征值,可加大权重进行聚类分析,进而构建车辆行驶工况。本文提出的改进聚类算法仍有改进空间,可在本文算法的基础上提出加权密度K-means聚类算法,还可以考虑在本文数据预处理部分直接剔除孤立点,减少后续聚类运行时间,也可加入更多维的特征信息。

猜你喜欢

特征参数油耗特征值
不谈油耗 只讲运动 试驾第十一代思域e:HEV
一类带强制位势的p-Laplace特征值问题
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
单圈图关联矩阵的特征值
降低内燃装卸机械油耗措施的探讨
双管齐下 YarisL致享综合油耗测试
基于PSO-VMD的齿轮特征参数提取方法研究
基于商奇异值分解的一类二次特征值反问题
统计特征参数及多分类SVM的局部放电类型识别