APP下载

基于迁移学习和知识蒸馏的加热炉温度预测

2022-07-07翟乃举周晓锋史海波

计算机集成制造系统 2022年6期
关键词:炉温加热炉卷积

翟乃举,周晓锋,李 帅,史海波

(1.中国科学院 网络化控制系统重点实验室,辽宁 沈阳 110016;2.中国科学院 沈阳自动化研究所,辽宁 沈阳 110016;3.中国科学院 机器人与智能制造创新研究院,辽宁 沈阳 110169;4.中国科学院大学,北京 100049)

0 引言

加热炉对钢坯进行加热,使钢坯达到设定温度后送入轧机进行轧制[1]。钢坯的加热温度直接决定钢坯质量,但钢坯温度很难直接测量,需要通过精确预测钢坯所经过的加热炉内加热区的温度来近似推断钢坯的加热温度。准确预测炉温的目的是建立钢坯加热跟踪模型,以此指导手工操作。如果炉温能够被准确预测和控制,操作人员就可以保持燃料正常配比[2],从而降低加热炉运行成本,优化加热炉的工作效率,提高加热炉的使用寿命。钢坯的加热过程具有多变量、非线性、强耦合、大惯性和滞后性等特点[3],炉内温度很难精准预测,具体表现在:

(1)滞后性 在对加热炉实施控制后,会延迟一段时间才能看到效果,因此需建立时序预测模型提前预测炉温变化趋势,以便及时调整控制策略。

(2)多目标性 钢坯在炉膛内的加热过程会经过多个加热区,各加热区对应不同的加热曲线,而且各加热区会受到一部分相同控制变量的影响。

(3)模型部署困难性 加热过程是一个时变过程,需要温度预测模型快速响应,对所有区进行高效、准确预测是一个棘手的问题。

综上所述,准确预测炉温是加热炉优化的核心和基础,也是当今冶金科技发展的前沿课题。

一些学者尝试通过机器学习和数理统计的方法解决上述问题,PANDIT等[4]基于时序自回归(Autoregression, AR)建立多变量炉温预测模型,可以在炉温稳定下进行准确预测,然而该方法仅建立一阶线性模型,并不适合拟合非线性、非平稳的炉温数据;ZHANG等[5]基于模糊最小二乘支持向量机(Support Vector Machine, SVM)建立炉温预测模型,具有较强的抗干扰能力,然而该方法忽略了加热过程的时序信息,长期预测能力有限;CUI等[6]考虑时序信息对模型的影响,建立了基于BP(back propagation)神经网络的炉温预测模型,从多组实验中选取最优模型;CHEN等[7]建立了人工神经网络和极限学习机(Extreme Learning Machine, ELM)来预测温度。文献[6-7]两种方法均引入神经网络拟合非线性数据,并取得良好的预测结果,但是仍存在学习速度慢、无法解决温度滞后等问题。针对上述模型的缺陷,深度学习提供了一种有效的解决方案。

深度学习结构中的多个隐藏层可以自动提取加热过程中多个变量的相关特征和时序信息,具有强大的特征学习能力[8],目前该技术已应用于高炉研究,DING等[9]提出循环神经网络—长短期记忆(Recurrent Neural Network-Long Short Term Memory, RNN-LSTM)来解决高炉的非线性和滞后性问题,取得了良好的预测精度和很强的适应性;最近的研究也表明,时间卷积网络(Temporal Convolutional Network, TCN)由于架构简单、学习速度快、可以捕获任意长度的输入序列而不泄漏信息等特点已经广泛应用于序列建模[10]。然而,现有的深度学习模型用于加热炉温度预测存在以下两方面缺陷:①实际生产中,钢坯在炉内经过多个加热区,各加热区采集的数据具有不稳定性和非线性特点,由于神经网络没有外推性,现有的神经网络无法准确预测此类工业数据,加热炉系统中大部分加热区的温度难以准确预测。另外,在不同加热区域训练不同的模型会增加计算成本。针对以上两个难点,并结合各加热区相似性的特点,提出一种基于时间卷积网络[11]的迁移学习[12](Temporal Convolutional Network-Transfer Learning, TCN-TL)框架来预测多区温度。②深层网络在训练数据中表现良好,但是当其结果反馈给控制器时会产生灾难性后果,同时部署到应用的深层模型因使用较大的计算资源而产生较高的延迟。针对这一缺点,提出基于知识蒸馏网络(Knowledge Distillation network, KD)[13]的炉温预测网络,然而现有研究大都为分类的应用[14],很少关注知识蒸馏在回归预测中的应用,因此提出一种基于多任务学习的知识蒸馏方法应用于加热炉温度预测这样的回归任务。

本文贡献如下:①建立基于迁移学习和知识蒸馏网络(Transfer Learning-Knowledge Distillation network, TL-KD)的炉温预测模型来准确、高效预测所有加热区温度;②提出基于自迁移的神经网络权重初始化方法用于优化模型;③提出可用于回归任务的知识蒸馏方法来解决深度迁移网络延迟高的缺点;④通过大量实验证明本文所提TL-KD框架是解决炉温预测问题的先进模型。

1 研究思路

本文所提温度预测框架包括两个阶段:①基于TCN-TL的温度预测模型准确预测所有加热区的温度;②结合炉温预测建立模型,提出TL-KD来解决深层网络应用于炉温预测的缺点。具体研究思路如图1所示。

(1)阶段1 本文采用自相关系数[15]方法确定滑窗尺度,使经过处理后的数据符合TCN的输入格式,然后根据温度分布确定迁移学习的源域;接着,建立时间卷积网络拟合源域数据,并采用基于迁移学习思想的权重初始化方法优化网络形成源域模型;通过在迁移学习阶段采用生成对抗损失[16]最大化源域和目标域的相似性来完成知识迁移,解决神经网络无外推性的缺点;最后通过目标域的目标变量微调高层权重形成目标模型,同时目标模型也作为TL-KD的Teacher。

(2)阶段2 首先用阶段1的Teacher拟合训练集,训练集的预测结果作为soft-label,真实的训练集的目标变量作为hard-label;然后构建单层全连接循环神经网络(Recurrent Neural Network, RNN)作为Student,用Student拟合soft-label作为辅助任务,拟合hard-label作为主任务,采用L1损失分配主任务和辅助任务的权重,以此实现基于知识蒸馏网络的参数预测;最后,由TL-KD输出预测结果以及Student和Teacher的参数数目。

2 基于时间卷积网络的迁移学习的炉温预测方法

2.1 TCN构建和优化

炉温预测需要利用历史时刻的数据来预测未来温度,TCN的因果卷积[17]保证了这种单向性:t时刻的温度值通过t时刻之前的控制变量预测。然而,TCN可捕获的历史时刻范围受限于卷积核的大小,要获取更长的时间范围,就需要堆叠很多隐藏层。针对上述问题,TCN采用空洞卷积[18]来使网络以较少的隐藏层捕获较长的历史信息。因此,t时刻的温度F定义为

(1)

式中:d为空洞因子,随隐藏层的增加呈指数型增加;k为卷积核大小。网络可捕获的历史信息为k·dmax。

除此之外,TCN还引入残差连接[19]来解决卷积层数增加带来的梯度消失、训练复杂等问题,以有效训练深层网络。TCN通过一个残差块堆叠两个卷积层,并在每层中采用权重归一化和Dropout来防止过拟合。

(2)

当网络结构确定后,提出如图3所示的基于自迁移学习的权重初始化方法来优化网络参数,具体步骤如下:①训练集预训练一个TCN模型;②考虑到空洞因子高的隐藏层会遗漏信息,冻结浅层权重;③再次用训练集更新未冻结的权重。

2.2 迁移网络的构建

神经网络无外推性的缺陷导致其难以预测分布外的数据。因为炉温曲线具有不稳定性、非线性等特点,所以神经网络无法预测多个加热区训练数据分布外的炉温曲线。为此,利用同一个加热炉内各加热区具有相似加热过程的特点,将神经网络在能够准确预测炉温的加热区(源域)学习到的知识传递到其余加热区(目标域)。除此之外,加热炉有多个加热区,若对每个加热区都建立预测模型,则不同加热区可能有不同的神经网络模型,从而增加计算成本。因此提出如图4所示的基于迁移学习的炉温预测方法。

针对源域和目标域不同的特征,采用基于生成对抗损失的域自适应方法。生成对抗网络(Generative Adversarial Networks, GAN)同时训练两个模型:①捕获数据分布的生成模型G;②估计样本来自真实数据而不是G的判别模型D。D的目标是实现数据源的两种分类,G的目标是生成伪数据G(z),使D无法判别数据源[20]。换言之,D和G用值函数V(G,D)进行以下极小极大对策:

[log(1-D(G(z)))]+Ex~pdata(x)[logD(x)])。

(3)

通过式(3)可以得出GAN的训练方式为首先固定生成器G,同时训练判别器D:

Ex~pdata(x)[logD(x)])。

(4)

最大化式(4)的值,使判别器将真实数据划分为1,生成的数据划分为0。若一个生成的数据被分为1,则第一项趋于负无穷;同理,若错误地将真实数据分为0,则第二项判别器趋于负无穷。然后训练生成器:

Ex~pdata(x)[logD(x)])。

(5)

训练生成器使式(5)最小,使判别器D不能区分真假数据。

[fd(fg(x))]+E(x)~Pt(xt)log[1-fd(fg(x))]。

(6)

本文通过生成对抗损失最小化目标域和源域差异,然后利用目标域数据Dt微调目标模型,微调阶段采用平均绝对误差(Mean Absolute Error, MAE)损失。最终的目标函数为

(7)

3 基于多任务学习的蒸馏网络

上述炉温预测模型均为深层网络模型,深层网络的结果反馈到加热炉控制器时可能产生灾难性后果,浅层模型由于容量和能力而很难获得较优的性能。除此之外,大模型有推断速度慢、部署资源要求高等特点,不满足加热炉要求模型快速反馈的需求。因此,提出基于知识蒸馏的方法减少网络参数来进行炉温预测。HINTON[13]首次提出知识蒸馏概念,将复杂、学习能力好的Teacher网络学习到的知识蒸馏到参数少、结构简单的Student网络。具体来说,知识蒸馏将Teacher网络的输出结果t作为Student网络的目标变量,训练Student网络,使Student网络的结果s接近t,实际上Student学习的是带有噪声的Teacher的输出,可以将损失函数写为L=CE(y,s)+αCE(s,t),CE为交叉熵(cross entropy),y为真实标签。然而现有研究大多关注分类问题,很少关注知识蒸馏在回归问题中的应用,原因是回归问题一般不采用交叉熵损失,甚至因Teacher预测结果显然不能完全等于真实数据而不能直接用Student模型拟合Teacher的输出。因为Teacher网络的学习能力强大,能够捕获到Student无法学习到的特征,所以Teacher有指导Student的能力。基于上述分析,本文的损失函数如下:

(8)

式中α为权重参数,0≤α≤1。

如果Student预测误差小于等于Teacher预测误差,则不需要Teacher辅导Student,否则Teacher需要指导Student的学习。

不只Teacher预测的输出,真实目标变量也存在噪声,两个任务存在不同的噪声模式,联合地学习两个任务能够使模型通过平均噪声模式获得更好的表征[22]。因此,提出如图5所示的基于多任务学习[23]的TL-KD来解决回归问题:①采用迁移学习生成的目标模型作为Teacher预测原训练集,输出结果为t,将其称为soft-label;②建立单层全连接RNN网络作为Student构建多任务学习网络,主任务为Student拟合真实标签,即拟合hard-label,辅助任务为Student拟合soft-label。因为两个任务相似,所以本文采用硬共享机制[24]在两个任务中共享RNN的参数,硬共享机制为所有任务共用隐藏层参数,同时保留各自任务的输出层。由于为回归预测,提出MAE损失作为两个网络的损失函数。所提TL-KD的目标函数为

(9)

由于Student拟合hard-label为主任务,定义α=0.6。

4 实验验证

4.1 加热过程

本文研究的加热炉类型为步进梁式三段加热炉,分为预热段、加热段、均热段,共10个加热区,如图6所示。每个区有一对烧嘴,奇数区为上烧,偶数区为下烧。温度检测值由加热炉燃烧系统的热电偶传感器采集。

4.2 数据分析和处理

本文采集了某集团热轧宽带生产线某加热炉10个加热区的实际生产数据。数据采集时间为2019年1月24日10:00~2019年1月25日10:00,各加热区的采样频率为1/30 Hz,每个加热区有2 859个样本。控制变量包括空气压力、氧气流量、气体流量、氮气流量、阀门开度等62个变量,用每个加热区前70%的数据作为训练集,最后30%作为测试集。

研究发现神经网络的外推性不强,即神经网络对该训练集分布之外数据的预测并不可靠,现有神经网络对这种分布不稳定的炉温数据无能为力。如前所述,由于各加热区有很高的相似性,提出采用迁移学习的思想克服神经网络无外推性的缺点,最终选择温度曲线比较稳定的1区作为源域,将1区学习到的知识转移到其余9个加热区。

(10)

归一化时采用线性函数将原始数据等比例缩放到[0,1]范围。本文提出用源域目标变量的自相关系数确定窗宽范围

(11)

式中:Cov(·)为协方差,σ(·)为方差。式(11)表示一个时间序列在任意t时刻和t+Δt时刻的相关性。计算结果如图7所示,一般自相关系数大于0.8表示高度相关。图7中,当相关系数大于0.8时,滞后时间步长小于28,因此将滑窗范围缩小到[1,28]。考虑到目标域的预测精度,当源域和目标域差异最小时迁移结果最佳。由于各加热区共享控制参数,滑窗范围越大,源域和目标域的相似性越高,因此滑窗大小为28。

4.3 基于时间卷积的迁移网络预测结果

此前设置窗宽为28,因此TCN的空洞因子d=[1,2,4,8,16]。所提出的TCN结构包括输入层、初始卷积层、5个残差块结构、一维卷积和最后的全连接层。

根据前文提到的基于自迁移的权重初始化方法优化TCN的参数,设置每层卷积核数为64个,在训练TCN模型时,epoch的值设为100,选择Adam作为优化器来自适应学习速率。将均方根误差(Root Mean Squard Error, RMSE)和MAE作为评价标准。经过多次实验取均值后确定,当1区为源域时,冻结前29层时预测误差最小。图8所示为优化后的TCN同未优化的TCN和经典的时间序列模型进行的性能对比,这些模型的参数均通过网格搜索确定。从图中可见,所提基于自迁移的权重初始化方法的预测误差更小。

在知识迁移阶段,因为所有加热区都在同一个炉内,各加热区受所有控制变量的影响,所以各区有很高的相似性。因此本文采用GAN作为域自适应网络:采用三层Dense层作为判别器,第二层和第三层之间采用dropout防止过拟合,前两层用ReLU作为激活函数,因为判别器做二分类,所以用sigmoid作为最后一层的激活函数。文献[25]提出一种基于双向长短期记忆(Bi-directional Long Short-Term Memory, BiLSTM)网络的迁移学习方法来提升空气质量预测结果,本文也建立了基于双向长短期记忆网络的迁移学习(Bi-directional Long Short-Term Memory-Transfer Learning, BiLSTM-TL)方法预测加热炉温度用于对比。本文所采用的迁移学习炉温预测方法和与未采用迁移学习预测结果的比较如表1所示。从表中可见,所提基于自迁移学习的权重初始化方法的性能优于初始的TCN,同时提出的基于迁移学习的炉温预测方法有效解决了部分加热区预测误差过大的问题,大大降低了预测误差。10个加热区的一致性结果表明所提方法是有效的。

表1 不同模型在目标域的得分

续表1

图9所示为3个不同加热段炉温预测结果对比图,对比模型为所提模型与表1其余模型中误差最低的模型,即经过自迁移优化后的TCN模型。从图中可以明显看出,相比于单个模型预测,所提迁移学习框架可以明显提升预测精度,解决炉温预测中因神经网络外推性不强而造成的预测误差较大的问题。

4.4 基于多任务学习的蒸馏网络预测结果

实际生产过程需要模型迅速响应,而深层模型反馈速度慢,因此提出TL-KD结构。两个任务共享单层RNN的参数,有各自的输出层,神经元个数设置为128,Adam作为自适应优化器。TL-KD要求Teacher有良好的预测结果,因此本文将迁移学习得到的目标模型作为TL-KD的Teacher。表2所示为采用TL-KD后的Student参数、Teacher参数,以及两个单独的任务,即Student拟合soft-label和Student拟合hard-label的预测结果。从表中可见,Student网络的参数明显减少,最少减少33 344个参数,最多减少95 360个参数。而且所提TL-KD主任务的误差明显比Student拟合hard-label进行单任务学习的误差更小,辅助任务的误差也比Student拟合soft-label进行单任务学习的误差小。本文案例中,主任务的预测结果为网络最终的输出结果。虽然TL-KD中的Student预测结果不如Teacher预测结果,但是参数明显减少,且与表1的其他网络相比,TL-KD的预测误差更低。除此之外,表3所示为用于结果对比的TL-KD与其他网络的参数数目,可见TL-KD的参数数目明显减少。以上分析更加直观的表示如图10所示,图10a的纵坐标为预测模型的各评价指标得分,图10b的纵坐标为预测模型的参数量对比,参数量由特征向量的权重和偏置组成。本文选取所提TL-KD、Teacher模型和其余模型中误差最低的模型,即基于自迁移的权重初始化优化后的网络。图10a为3个模型的预测结果对比,可见所提TL-KD比Teacher模型误差更高,但在大多数加热区所提TL-KD比自迁移网络误差更低,自然比表1其余模型的误差更低。图10b为3个模型的参数量对比,可见相比其余网络,所提TL-KD的参数规模明显下降。结合图10a和图10b得出,相比未采用迁移学习的模型,所提TL-KD预测精度提升的同时参数规模明显降低,即性能最优;相比采用迁移学习的模型,所提TL-KD在预测精度下降不多的情况下参数规模大幅度降低。综上所述,所提TL-KD更适合实际部署。

表2 基于多任务学习的蒸馏网络参数数目和输出结果

表3 蒸馏网络与其他网络的参数数目

5 结束语

本文基于迁移学习和知识蒸馏开展加热炉温度预测研究。相比于现有的炉温预测方法,本文基于迁移学习的炉温预测方法可以明显提升预测精度,对于不稳定、非线性的加热炉数据,本文迁移学习框架为解决神经网络无外推问题提供了一种新的途径。另外,本文提出的基于自迁移的权重初始化方法可以提升神经网络的预测能力。基于迁移学习生成的Teacher网络因其低误差性,可以为Student网络提供良好的指导,在此基础上本文提出TL-KD,利用多任务学习将知识蒸馏方法用于解决回归预测问题,且大大减少了网络参数,解决了深度网络延迟高、时效性差的缺点。未来的工作将关注于进一步提升Student网络的预测精度,这也是后续工作的重点。

猜你喜欢

炉温加热炉卷积
中天钢铁轧钢5#棒加热炉成功点火烘炉
基于3D-Winograd的快速卷积算法设计及FPGA实现
双面辐射附墙燃烧加热炉数值模拟
卷积神经网络的分析与设计
油田常用加热炉类型及发展趋势
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
基于信捷PLC 电热锅炉温控系统的设计
便携无火加热炉
减小焦炉蓄热室阻力与炉温控制