APP下载

基于梯度提升决策树模型的冷连轧机颤振研究

2021-07-14周晓敏郝勇凯丛文韬魏志彬温国栋

振动与冲击 2021年13期
关键词:轧机机架决策树

周晓敏, 郝勇凯, 丛文韬, 魏志彬, 温国栋

(北京科技大学 机械工程学院, 北京 100083)

轧机颤振是世界范围内板带轧制生产过程中普遍存在并难于解决的问题[1],对生产效率以及产品质量造成了极大的影响。轧机工作机座以及辊系经常发生垂直振动即颤振,按轧机振动频率分为低频、中频和高频振动。造成颤振的原因非常复杂,Yarita等[2-3]最早开始对轧机振动问题进行理论建模和机理探索,建立了四自由度对称弹簧质量阻尼模型研究辊缝刚度对振动的影响,认为减小压下量和摩擦因数能够抑制轧机的振动。Tamiya等[4]简化了模型,建模时忽略了工作辊,并认为轧机系统上下对称。经过分析作者认为轧机的三倍频颤振是由轧机间张力的变化和轧辊辊缝变化之间的相位差导致的自激振动。Niziol等[5]利用自激振动和参数激励模型研究轧机系统的颤振现象,并推导了带钢的运动方程,结果表明,轧件速度对振动的激励和强度起着至关重要的作用。随着数值计算能力和理论研究方法的发展,针对多模态耦合振动[6]、非线性因素[7]、塑形变形过程[8]、界面摩擦与润滑[9]、连续轧制[10]等结构与工艺问题的考虑,从理论分析、数值计算、试验模拟及工程验证等多方面进行了研究。

目前,我国钢铁行业的主要生产方式多为多机架连续轧制方式。连轧过程是典型的复杂工业流程,具有长流程、多设备、多工况、难以获得准确机理模型、过程数据具有海量高维异构等大数据特性,给轧制系统建模仿真、质量预测、故障诊断带来了很多挑战。工业4.0时代,数据成为能够创造价值的“生产资料”,这些数据蕴涵着轧机生产过程中设备所有运行和控制包括振动在内的规律,通过对这些过程数据的分析挖掘,有助于理解连轧线轧制过程的运行规律和控制操作,从而识别出振动发生的规律以及条件,进一步实现轧制生产过程的优化决策以及生产过程的智能制造。

冷连轧机组颤振机理及影响因素非常复杂,难以实现精确建模。机器学习网络结构善于从原始输入数据中挖掘出具有抽象和泛化的特征表示,摆脱专家知识和先验知识等限制,正在轧钢预测领域开始广泛应用。如文献[11]提出基于BPAdaBoost和POS-SVM两种轧机振动预测模型,利用某钢厂实测数据通过数据挖掘技术,对两种模型进行训练和测试。文献[12]建立了冷轧机垂直系统的动态轧制力模型,为分析振动,此模型中包含振动因素。文献[13]通过结合分析近几年轧机垂直振动问题的研究成果,提出运用BP神经网络进行数据挖掘。

某钢厂1420冷连轧机组目前已在轧机上部署了轧机振动在线监测系统[14],在振动发生后发出报警信息再采取抑振措施,从而避免发生剧烈振动。基于振动在线监测系统采集的振动数据和生产过程记录数据,经过数据整理和预处理建立数据样本库,并建立梯度提升决策树振动回归模型,采用实际生产过程数据进行模型验证,结果表明,利用模型选择的重要特征作为输入建立的回归模型能准确跟踪振动能量的变化趋势。

1 建立数据样本集

所用数据包括某钢厂1420冷连轧机组的在线振动监测数据和实际生产过程数据。实际生产过程数据主要包括1#~5#机架的工艺参数如轧制速度、出口张力、入口张力、轧制力、压下量、辊缝等;轧件参数如带钢宽度、厚度、材质等;设备参数如轧辊相关信息等。振动在线监测系统如图1所示。轧机的振动信号通过安装在1#~5#轧机机架上的振动加速度传感器来实时采集,并将采集的信号经过处理后分解为低、中、高频能量数据,根据计算与设定的报警模型进行对比判断轧机是否振动。颤振信号数据中主要包括:1#~5#机架的轧制速度,1#~5#机架低频、中频、高频能量值和能量限值。

图1 振动监测系统结构图

由于生产过程记录数据和振动能量数据存储周期不同,此外由于这两部分属于不同的系统,数据记录的生成绝对时间不同,将生产过程记录数据进行下采样并按照5#机架速度进行匹配。按照该方法提取出以卷为单位的25卷钢的数据。

对25卷钢的样本进行数据清洗,如样本中存在的缺失值、乱码等错误,考虑到参数存在阶梯状跳跃,故直接对残缺样本进行剔除,确保样本集中每个样本的正确性。认为超过报警值即发生能量超限现象即可认为发生颤振,对 25卷钢的数据处理后的样本条数进行统计,其结果如表1所示。

表1 25卷钢的数据样本条数统计

由表1可知,25卷钢的数据共提取出118 048条样本数,其中1#~3#机架没有发生过颤振信号能量超限,颤振信号能量超限主要发生在4#和5#机架中频,5#机架的中频超限发生次数明显高于4#机架,因此针对5#机架中频能量建立回归预测模型。

通过统计的信息对数据进行再次处理,因为1#~3#机架没有发生过颤振,再结合经验知识,建模时只考虑4#和5#机架参数对颤振的影响,故将1#机架~3#机架的参数剔除;此外认为生产过程记录数据中的参考值和某一整列不变的值对结果无影响,也将其剔除,再结合参数的实际物理意义进行人工挑选,把无实际物理意义的参数进行剔除。

经过现场经验知识确认,剩余参数中很多参数具有线性强相关,比如4#机架轧制速度和5#机架轧制速度等,线性强相关的参数具有同等作用,故需将其中的冗余参数进行去除,利用皮尔逊相关系数法对参数进行线性相关计算,结合实际参数物理意义和经验知识有选择地剔除具有线性强相关的冗余参数,认为当两个特征之间的相关系数绝对值大于等于0.95、显著性系数小于0.01时,这两个特征具有线性强相关关系。

由于所有的数据都具有实际物理意义,其取值受到单位的影响,为消除不同特征取值量级不同的影响,对数据利用min-max归一化方法进行归一化处理。

通过对生产过程数据进行数据预处理及统计分析,结合机理和经验知识,最终确定数据样本集的输入变量为123个,输出变量为第5#机架中频能量值。

2 梯度提升决策树原理简介

梯度提升决策树(gradient boosting decision tree,GBDT)算法最初是由FreidMan[15-16]在1999年提出来的。

GBDT属于一种迭代算法,以决策树为弱学习器的梯度提升算法,并且决策树是回归树,而不是分类树,每棵树是从先前所有树的残差中来学习,每一次新的训练都是为了改进上一次的结果,所有树的结论累加起来做最终答案。GBDT通过组合弱学习器形成一个强学习器,使其具有天然优势可以发现多种有区分性的特征以及特征组合,所以它在刚提出时就被认为泛化能力较强的算法。

用GBDT做回归分析,其所用的损失函数为Huber函数

L(y,f(x))=

(1)

式中:L(y,f(x))为损失函数;x、y分别为实际样本数据的输入和输出值;f(x)为拟合值;δ为分位数。

假设共训练M棵数,其算法步骤为

(1) 输入:训练数据集

D={(x1,y1),(x2,y2),…,(xN,yN)},

xi∈X⊆Rn,yi∈Y⊆R

(2)

(2) 初始化

(3)

(3) 对m=1,2,…,M

(a) 求残差

rm-1(xi)=yi-Fm-1(xi),i=1,…,N

(4)

(b) 求分位数

(5)

(c) 计算负梯度

i=1,…,N

(6)

(d) 利用负梯度训练出第m棵回归树,得到其叶节点划分的区域为

(7)

其中J为叶子节点数。

(e) 对于回归树的每一个叶节点j=1,2,…,J,计算输出值

(8)

(9)

(f) 更新

(10)

式中:I(x∈Rjm)为指示函数,当回归树判定x属于Rjm时,其值为1,否则为0;α称为步长(学习率),一般地,0<α≤1。

(4) 循环结束,得到梯度提升回归树

(11)

3 梯度提升决策树建模及结果分析

利用25卷带钢共计118 048条记录的数据建立数据样本集,将23卷带钢合并作为训练集,另外2卷带钢数据建立整卷带钢的振动回归模型测试集。

对回归模型,评价分类器性能的指标一般是均方误差(mean square error,MSE),由构建的样本集可知,超过报警线的能量值样本数量极少,样本大部分处于振动不超限状态,在学习模型时利用平方损失函数作为误差函数容易把超限能量值当作噪声点作平滑处理导致尖峰值不能很好地拟合,可结合拟合的曲线进行判断选择,每个模型重复5次,取其中结果较平均的一个作为该模型结果。如图2所示。

图2 模型误差和测试集结果

可以发现,图2中模型趋于稳定,整体拟合的MSE达到了0.000 015,模型无过拟合现象,回归拟合的趋势反映了实际能量的变化趋势。由于测试数据是实际轧制过程中的一整卷带钢数据集,在采样点数4 000附近的最后一个尖峰值是由于带钢甩尾瞬间而并非工艺原因造成的振动,因此模型未拟合到尖峰值。

4 特征选择

GBDT方法本身是依据决策树集成的方法,而决策树在构建时会根据特征重要度来构建分枝节点,所以GBDT会对重要的特征进行选择,利用这一特性,对GBDT选出的特征进行排序。经过特征选择得到特征的排序,从第一个特征开始,每次增加一个特征,进行循环建模,将每次建模得到评价标准MSE作图,如图3所示。

图3 特征个数和评价标准图

由图3可知,特征个数在10个的时候就能得到较好效果,为了排除偶然等因素,分别以输入为排序前10、15、20、25的特征数量进行建模,结果如图4所示。

(a) 输入为排序前10个特征的模型结果

由图4结果分析可知,图4(a)中的MSE最大,为0.000 013,但已具有较好的尖峰值预测效果,图4(b)中的MSE最小,为0.000 010,图4(c)中的MSE为0.000 011,稍大于图4(b),但是对尖峰值的预测效果更好,图4(d)中的MSE与4(c)相同,拟合效果接近。

综合考虑模型精度和复杂度,选择输入特征为特征排序的前20个特征。图5为20个输入特征的重要度排序,图中m1xp为主令速度定位位置,s4s为4#机架实际前滑,s5v为5#机架实际速度,sl为实际轧制带钢长度,m1a为主令加速度,s5vg为5#机架附加速度增益,g5hod为5#机架HGC驱动侧补偿,z5p为5#机架辊缝附加位置,s5s为5#机架实际前滑,s5p为5#机架实际辊缝位置,p4cr为4#机架窜辊变化率,g5hoo为5#机架HGC操作侧补偿,s5bf为5#机架支撑辊平衡压力, scs4为4#机架速度补偿,p5sc为5#机架窜辊伺服阀输出,s5irbp为5#机架中间辊弯辊,g5hpo为5#机架HGC位置控制输出,s4rf为4#机架实际轧制力,s4pd为4#机架轧制线偏差,s5pd为5#机架轧制线偏差。

图5 特征重要度结果

输入为选择的20个特征时,训练耗时为33.92 s,预测耗时为0.003 34 s。输入为123个特征的模型训练耗时为185.35 s,预测耗时为0.005 98 s。可以看出,经过特征选择后的模型有效降低了模型复杂度和模型训练时间。

5 结 论

为解决工业实际问题,结合现场记录的生产数据,提出了梯度提升决策树模型的冷轧颤振研究,取得了以下的结论:

(1) 建立冷连轧机组第5机架中频能量的GBDT模型,能够准确拟合轧制过程中的振动能量变化尖峰,拟合趋势准确反映了实际能量变化趋势。

(2) 结合GBDT自身算法特性和机理知识进行特征选择,选择重要度排序前20个特征作为输入特征,降低了模型复杂度,且与123个输入特征模型具有相近的预测精度。

通过建立冷连轧机组振动的GBDT机器学习模型,对一些难以建立精确机理模型的工业实际问题提供了建模思路,对人工智能化和数据化在工业上的应用进行了一次有意义的探索。

猜你喜欢

轧机机架决策树
热连轧机组粗轧机精度控制
常见短应力线轧机接轴托架简介
别忽略它的存在!“意大利新一代架皇”BAS Accordeon(雅歌顿)XL4 2.0发烧机架
一种针对不均衡数据集的SVM决策树算法
轧机工作辊平衡缸端盖及密封圈的在线更换
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
热轧拉矫机机架加工讨论
基于肺癌CT的决策树模型在肺癌诊断中的应用
书讯