一种结合注意力机制的IGBT失效预测方法研究

2023-03-14陈雯柏刘辉翔

重庆理工大学学报(自然科学) 2023年2期

蒋闯，艾红，陈雯柏，刘辉翔，马航

(北京信息科技大学自动化学院, 北京 100192)

0 引言

绝缘栅双极晶体管(insulated gate bipolar transistor，IGBT)在现代能源、航空航天等领域有着广泛的应用，为保证设备的安全可靠运行，对IGBT的失效预测具有重要意义。IGBT可靠性分析的方法主要有两类，基于物理模型的方法和基于数据驱动的方法[1]。目前，基于数据驱动方法的研究中对输入参数选择多种多样。Li等[2]通过温度循环方法对IGBT模块进行老化试验，获得集电极发射极通态电压Vce(on)和电流Ice作为老化参数，提出了一种基于粒子滤波理论的方法来预测 IGBT的性能。Ge等[3]分析并选取集电极发射极的瞬态尖峰电压作为失效特征参数，提出了一种基于自回归递归网络概率预测的IGBT剩余使用寿命预测方法。值得注意的是，IGBT失效过程中会引起多个监测参数变化，目前研究多是采用单参数或双参数作为输入，会丢失IGBT老化失效过程中的一些特征信息。本文中采用集电极发射极电压Vce作为失效参数，辅以集电极发射极电流Ice，栅极电压Vg，栅极发射极电压Vge作为输入参数进行预测。

研究表明，使用长短时记忆网络(long short term memory，LSTM)[4-5]方法的时间序列预测分析已经取得了很好的性能。在IGBT的可靠性分析领域，Li等[1]提出了一种能够有效处理时间序列数据的LSTM网络来预测IGBT剩余使用寿命。高伟等[6]提出了一种基于三层LSTM网络的IGBT故障预测方法。但是，传统的LSTM在预测中仍然存在一些局限性，它只使用上次时间步长的学习特征进行回归或分类[7]，没有专注到所有时间步更重要的特征。

本文中提出一种基于注意力机制的LSTM与卷积神经网络(convolutional neural network，CNN)的融合模型LACNN用于IGBT失效预测。模型中的交叉连接结构，不但在单通道中可以深入挖掘LSTM-Attention的特征，还可以使数据经由CNN和LSTM-Attention组成的双通道结构保留两者的优势。不但增加模型的信息挖掘能力，还可以保留长依赖关系。为了使输入数据包含退化过程较为全面的信息，实验采用IGBT多参数指标作为输入，同时注意力机制来学习特征和时间步的重要性，并为更重要的特征分配更大的权值。该方法通过NASA AMES实验室提供的开放数据集(获取网址http://ti.arc.nasa.gov/tech/dash/diagnostics-and-prognostics)进行验证并通过和传统的深度学习方法对比，证明了所提方法的有效性。

1 IGBT失效和老化试验

1.1 IGBT失效分析

目前发现的IGBT失效是由引线键合剥离、芯片焊接退化、栅极氧化物退化和封装分层机制引起的。图1表示了IGBT的故障来源，其中有61%的故障是由较高的稳态温度和温度循环引起的[8]。

在工作过程中，IGBT暴露在温度循环中，由于反复的热应力，铝丝和硅片的热膨胀系数之间的不匹配在铝丝粘结界面上产生了应力，这些应力会使模具和封装部件发生膨胀和收缩，导致变形和退化，最终导致IGBT失效[9]。

图1 IGBT故障来源

1.2 加速老化试验

正常工况条件下，IGBT器件从开始工作到老化失效一般会经历几千小时的时间。为了分析器件退化性能，Greg等[10]设计了一个能够在栅控功率晶体管上进行鲁棒性实验的加速老化系统，以总结和分析预测指标。功率循环加速老化试验和热循环加速老化试验是目前广泛应用于功率器件长期性能测试的标准可靠性加速老化试验方法，热循环加速老化试验控制流程如图2所示。

图2 加速老化试验控制流程框图

在加速老化试验中，IGBT被反复打开和关闭，直到外壳温度达到之前设定的最大值Tmax。当温度达到Tmax时，关闭设备直到温度下降到Tmin。然后设备在温度Tmax和Tmin之间循环。热电偶模块包括T型热电偶和信号调理电路，实现对功率器件表面温度的测量，是加速老化试验中的关键模块。传感器电信号采集则是对实验过程中IGBT的电流、电压等的监测。加速老化试验的主要目的是识别设备开始运行至故障失效过程中随运行时长变化的参数，其变化可以映射为设备的退化过程。在实际工程中监测这些前兆参数，就可以实现合适的诊断和预测算法，以提供故障的早期预警，并预测设备的剩余使用寿命[11]。

2 LACNN融合模型

LSTM 能够处理具有复杂时间关联性的数据，而CNN具有强大的特征提取能力。本文中使用交叉连接的方式结合两者的特点并引入注意力机制提出了LACNN融合模型。

2.1 模型分析

文献[12]证明，在时间序列问题上增加CNN网络可以提高LSTM的性能。引入CNN网络以提高模型的特征提取能力，不同于以往研究的CNN与LSTM并行使用，采用LSTM后接CNN串联的结构。借鉴深度残差网络[13](deep residual network，ResNet)中的交叉连接思想在网络结构件间使用跳连，使数据中的时间与空间信息得到充分利用。在首层使用LSTM能够很好地保留原始数据中对预测任务有重要影响的时间信息，在其后引入的在自然语言处理中起重要作用的注意力机制，则弥补LSTM只使用上次时间步长的学习特征进行回归预测的缺点。最后接入CNN网络深度挖掘数据特征，大大增加模型的预测精度，构建LACNN融合模型如图3所示。

模型的输入数据是多个时间步的多个物理量，虽然比单指标输入含有更全面的特征，但是也夹杂了大量无用信息且加大了计算资源。因此，引入注意力机制分配有限的信息处理资源给更重要的部分，提升学习效率的同时也提高了预测的精度，并增强了模型可解释性。模型中LSTM能够学习到长期依赖性的信息，而CNN可以在提取时不改变特征，它们的组合提高了模型整体的精度，增强了处理非线性数据的能力。提出的模型主要包含一个LSTM-Attention部分和一个CNN部分，从它们中提取的特征被组合以生成最终结果，以下将详细说明其结构。

图3 LACNN融合模型

首先采用滑动时间窗口法处理数据。大小为Nw的窗口沿着时间序列滑动，每滑动一个单元，反馈滑块内的数据，作为预测模型的输入，二维数据经过时间窗口处理后，每个样本尺寸为(Nw，m)，其中Nw表示窗口大小，m表示特征数量[14]。滑动窗口的步长可根据需求设定，为得到更多数据，步长设置为1。

遗忘门：

ft=σ(Wf·[ht-1,xt]+bf)

(1)

输入门：

(2)

(3)

输出门：

(4)

Attention层为更重要的特征或时间步分配更大的权值，即对ht进行分配权重并计算最终结果。假设LSTM网络对一个样本学习到的特征可以表示为H=(h1,h2,h3,…,hd)T，T是该转置操作。其中hi∈Rn，n为特征的序列步数。图4为Attention内部结构。

图4 Attention内部结构

根据自注意机制，第i个输入特征hi的不同顺序步骤的重要性可以表示为si=φ(WThi+b)，其中W和b分别是权重矩阵和偏差向量，φ(·)是得分函数。在得到第i个特征向量的得分后，可以使用softmax函数进行归一化，如式(5)所示[7]:

(5)

注意机制的最终输出特征O可以表示为：

O=H⊗A

(6)

式中：A=(a1,a2,a3,…,ad)，⊗是元素乘法的操作。

Attention层得到的特征送入CNN层，使用卷积核大小为1，沿着时间维度进行一维卷积。CNN对输出特征O进行卷积操作，其特征映射可以用式(7)表示为：

cj=f(wj∘O+b)

(7)

式中： ∘ 表示点积；wj表示窗口向量；b∈R表示偏置项；f表示非线性变换函数。

实验中选择Relu作为非线性函数。在模型中，使用n个过滤器生成如下特征映射：

W=[c1，c2，c3，…，cn]

(8)

式中：ci为第i个过滤器生成的特征映射。

最后，将Attention的输出与CNN层的输出拼接，得到融合的特征M=[O,W]，最后在全连接层后添加一个神经元，代表预测失效参数的输出值。对失效特征参数的预测是一个典型的回归问题，因此提出方法的损失函数设置为均方误差(mean square error，MSE)损失。给定预测和真实值，可以计算训练数据上的MSE损失并反向传播，生成每一层(如LSTM层、注意力层和CNN层)的误差梯度。然后，根据误差梯度，对模型各层参数采用自适应优化算法进行优化。考虑到深度学习模型中的过拟合问题，需要采用适当的正则化技术。

2.2 过程分析

根据以上描述，LACNN模型的训练和测试过程归纳为算法1，如下所示。

算法1

1) 输入：

数据预处理，对NASA提供的数据进行分析，最终提取出本实验需要的数据集。预处理后的信号样本x={xi∈RN×L×M∣i=1,…,K}其中i表示训练数据集中的索引，N是样本数，L是每个样本的时间步数，M是通道数。

2) 初始化：

初始化各层参数。

3) 前向传播：

数据首先送入LSTM层，对时间信息进行编码，并保留LSTM层的隐层状态，然后Attention层分配权重，最后加入CNN网络学习更全面的特征。

使用 Dropout层来避免过拟合。

使用损失函数MSE计算损失。

4) 反向传播：

使用Adam优化算法计算误差梯度并调整各层权值。

5) 循环：

不断循环3和4直到最大迭代次数或误差精度满足要求。

6) 输出：

经过训练的LACNN模型。

提出的基于注意力机制的IGBT失效预测方法为：对集电极发射极电压、集电极发射极电流、门极发射极电压和门极电压进行数据分析筛选，选定IGBT关断时刻的各项参数作为研究对象与失效指标，建立LACNN融合模型对失效参数进行预测。在实际工程中对比失效参数预测结果与IGBT实际运行过程中产生的数据，确定差异值，若差异值大于最大误差值ε，将当前误差超出次数加一，当误差超出次数大于次数阈值n，生成失效报警信息，工作人员根据报警信息对IGBT进行检修与更换。其中，ε为模型训练结束时的最大误差，n设置为与窗口大小等同。

3 实验与分析

3.1 实验设置

3.1.1数据分析

使用美国宇航局研宄中心的老化数据对IGBT失效预测问题进行研究。该加速热老化实验条件如表1所示[10]。

表1 IGBT热加速老化实验条件

从开始至器件出现故障失效，实验共经历 180 min左右的时间，采集到瞬态电压数据418组，每组数据包含集电极发射极电流、栅极电压、集电极发射极电压等。完整的集电极发射极电压Vce变化趋势如图5所示。

图5 集电极发射极电压变化趋势

图5中横坐标表示采样点数(按时间顺序)，纵坐标表示集电极发射极电压Vce，随着老化试验的进行，Vce外包络线呈下降趋势。研究发现，图中呈现下降趋势的点就是关断瞬间的集电极发射极尖峰峰值电压，如果尖峰较高，可能会发生过电压击穿，导致失效。因此检测并预测 IGBT 的关断尖峰电压具有十分重要的意义。

第50、150、300、400组的IGBT开关一次完整数据如图6所示。可以观察到IGBT关断过程中集电极发射极电压会出现瞬时尖峰，且峰值逐渐变小。为更直观地体现，图7在同一坐标系下给出了跳变时刻附近的电压数据值。可以很明显看出尖峰电压值在IGBT退化过程中呈下降趋势，因此，集电极发射极关断瞬间尖峰峰值电压Vce-peak可以作为IGBT失效预测依据。

图6 集电极发射极开关一次电压信号

图7 集电极发射极瞬态峰值

提取每组数据的尖峰电压值，共获得418组失效参数指标，如图8所示，图中横坐标表示釆样周期，纵坐标表示IGBT退化过程中集电极发射极实时关断尖峰电压值。

图8 集电极发射极实时关断尖峰电压值曲线

3.1.2评价标准

为评价模型的性能，文中采用如下评价标准：平均绝对误差(mean absolute error，MAE)、均方根误差(root mean square error，RMSE)、平均绝对百分比误差(mean absolute percentage error，MAPE)和决定系数(coefficient of determination，R2)。

(9)

(10)

(11)

(12)

3.2 结果与分析

3.2.1参数影响

1) 窗口大小分析：在数据预处理过程中，窗口大小是最重要的参数之一。为了评估这个参数的影响，实验过程中用不同的窗口大小(3、6、9、12) 来实现所提出的方法。为了实验结果的严谨性又设置较小窗口4和较大窗口32作为实验对照。考虑到参数初始化时的随机性，每组参数下的模型运行10次，RMSE与MAPE结果箱线图如图9所示。

实验结果表明，更大的窗口可以包含来自数据集更多的信息，以便于准确预测，但是在窗口增大到一定数值后在测试数据集上的性能反而会下降，这可能是由于当窗口含有太多信息时对于文中数据集过拟合造成的。在实际应用中需要通过对训练数据交叉验证，对不同的数据集选择不同的窗口大小。根据实验结果，采用窗口大小6时模型最优。

图9 LACNN在不同窗口大小条件下的实验结果

2) 隐层节点数分析：在模型中，LSTM是直接与输入数据相连的网络层，因此它的隐层节点数对建立的神经网络模型性能影响很大。考虑到LSTM的结构以及输入数据维度为4，选择4、16、64、128、256、512作为节点数目。训练模型得到的RMSE以及平均每个epoch所需要的时间t(单位ms)如图10所示。

图10 使用不同隐层节点数的实验结果曲线

实验结果表明，适当增加节点数目可以提高模型性能。这是因为这一层中的节点代表了之前所有数据的特征，当节点数目增加时，网络所能表达的特征更加的全面。然而，节点数目超过一定的值，模型在测试集上的性能不再提升或略有下降，且训练时长大大增加，这不利于最优模型的建立。因此，选择LSTM隐层节点数为128所得到的模型为最优。

由于篇幅限制，主要展示以上实验结果。对于所提出的LACNN模型，经实验分析后结构参数如表2所示。

表2 模型参数

3.2.2模型对比

为了验证所提方法中采用多参数输入并引入注意力机制的有效性，分别构建LSTM和LSTM-Attention模型，然后使用这2个模型来验证测试集中的部分数据。预测结果如图11所示。

图11 模型预测曲线

图11中横坐标是采样周期，纵坐标是失效特征参数。由图11可知，LSTM-Attention预测的结果比单独使用LSTM的预测结果更加精确，由表3可知RMSE提升了1.27%。证明采用多指标预测并引入Attention机制在IGBT失效预测任务中能提高模型精度。

为解决仅使用LSTM网络进行训练不能全面学习到数据中深层特征的问题，进一步提高模型预测精度，模型中加入CNN网络层，构建LACNN模型，极大提升对特征提取与处理的能力。选择数据集的90%作为训练，10%作为预测，图12为LACNN模型在测试集的误差分布直方图。横坐标表示预测值与实际值之间的差值，纵坐标表示与误差区域相对应数据的数量。由图12可知，预测误差分布主要在区间[-0.05，0.05]且主要集中在0.004附近，证明所提模型预测精度符合要求。

图12 预测误差分布直方图

以MAE、RMSE、MAPE、R2作为评价指标，在NASA的公开数据集上进行验证，不同预测模型的性能如表3所示。LSCNN指的是带有交叉连接结构的LSTM-CNN模型。

表3 不同预测模型的性能

由表3可知，在处理带有时间序列信息的回归预测问题上，LSTM的表现明显优于CNN和传统模型。而相比于使用单一的LSTM网络，CNN-LSTM、LSTM-CNN、LSCNN和LSTM-Attention都有更好的表现，证明在IGBT失效预测任务中可以通过CNN和Attention来增强LSTM的性能，主要原因是CNN具有提取数据深度特征的能力，Attention则可以专注于更重要的特征和时间步长，从而提升LSTM的性能。而在LSTM-CNN、CNN-LSTM与LSCNN三者中，LSCNN的效果最好。因此在LSTM-CNN框架下将交叉连接结构与Attention两者结合构建LACNN融合模型，并应用到IGBT的失效预测中，预测精度得到巨大提升。结果如下，RMSE：0.020 8，MAE：0.016 5，MAPE：0.213 7，R2：0.987 9，表明所提LACNN模型对IGBT失效特征参数预测的精度更高。