GRU 稳定性研究及在声波反散射中的应用

2023-05-10王欣羽孟品超尹伟石

长春理工大学学报（自然科学版） 2023年2期

王欣羽，孟品超，尹伟石

（长春理工大学数学与统计学院，长春 130022）

近年来深度神经网络已经成为人工智能的核心框架，神经网络的理论分析也成为学术研究的热点问题之一。Weinan[1]研究发现残差神经网络（ResNet）中的残差结构与连续（离散）动力系统存在某些一致性，把ResNet 解释为一阶非线性常微分方程。随后，这种思想被应用到深度神经网络（DNN），更一般地，机器学习可以看作由函数的表示、损失函数和训练动力学构成的一个连续公式，这使得许多机器学习模型被证明可以转化为不同连续方程的特定离散化，如随机特征模型、双层神经网络模型和残差神经网络模型等[2]。神经网络能够用微分方程解释，就能够利用微分方程解的稳定性来分析神经网络的稳定性。在常微分方程理论启发下，Haber E 和Ruthotto L[3]通过使Jacobi 矩阵特征值实部足够小，来构造能够保持稳定性的网络框架。除此之外，也可以利用方程的数值方法设计新的网络结构，以此提高网络的稳定性和泛化能力[4-6]。

门控循环单元网络（GRU）是一种循环神经网络（RNN），在解决各类实际问题中表现出较好的能力，尤其在学习长序列时，能够解决梯度爆炸和梯度消失的问题[7-8]。通过研究RNN 引起的动力系统行为，发现在没有输入数据的情况下，GRU 表现出混沌动力学[9-10]。但在各类实际应用中，GRU 在训练和测试中都保持了稳定性，本文给出并证明了GRU 稳定性的定理。

1 GRU 及其动力学表示

单层GRU 结构如图1 所示，每个节点的运算结构代表一个门控单元的运算过程，节点t(t= 1,2,…,T)的输入xt与节点t- 1 的输出ht-1合并后，经过门控单元的运算，得到节点t的状态ht，将其传入下一个节点t+ 1。这里节点t的输入xt和输出ht分别表示为：，。

图1 GRU 结构图

门控单元主要包括更新门和重置门。更新门zt+1是通过节点t+ 1 的输入数据：xt+1∈ℝn(t= 0,1,…,T- 1) 与节点t的隐含层状态ht∈ℝm，利用激活函数作用生成：

更新门用于控制前一节点的状态信息被带入到当前状态中的程度，其值越大说明前一个节点保留下的信息越多。

重置门rt+1用来控制忽略前一节点的状态信息的程度，其值越小说明忽略的信息越多。

在将节点t的信息传递到节点t+ 1 时，还需要利用重置门信息对前一节点状态ht进行忽略，再与输入xt+1作用得到候选激活状态，表示为：

其中，代表矩阵乘积；∗代表Hadamard 积；权重矩阵Wzx、Wrx、Wh͂h∈ℝm×m；Wzx、Wrx、Wh͂x∈ℝm×m。

从而，GRU节点t+1的输出ht+1可表示为：

其中，ht+1的第i项可写为：

每个节点t+ 1 的状态ht+1只与上一节点的状态ht和当前节点的输入值xt+1有关。

为了用离散动力系统逼近GRU，下面讨论GRU 的动力学表示。

其中，映射关系G(ht,xt+1)满足：

因此，单层GRU 在给定一个初值h0时，都能得到一个近似解ht，使得该方程在每个节点的解都是连续方程在节点的近似解，当计算到方程在节点T的解时，就相当于GRU 完成了前向传播过程。

映射关系ℱ 满足：

由此得到无输入GRU 的动力系统表达式为：

可见系统中ℱ(ht)不显含变量t。因此，可以得出以下结论：

定理1：单层无输入的GRU 系统是一种自治非线性动力系统。

因此，可以用动力学系统的理论来判断单层无输入GRU 的稳定性。

2 GRU 的稳定性

一般地，通过微分方程的平衡解或零解随时间变化的程度，来判断方程的解的稳定性。这里首先给出Lyapunov 意义下微分方程解的稳定性的定义和Krasovskii 方法。

定义1：设f(t,x)满足解的存在唯一性定理的条件，且微分方程初值问题,x∈ℝn的解x(t)=x(t,t0,x0)在(-∞, +∞)存在，f(t,x)还满足f(t,0)= 0，即x(t)= 0 是方程的解，称x(t)= 0 为方程的零解。

定理1 给出GRU 系统是一种非线性系统，这种非线性系统的稳定性可以通过Lyapunov 稳定性判定方法中Krasovskii 方法来判断。

引理1：（Krasovskii 方法）对于非线性系统：

若系统满足如下条件：

（1）平衡解为x= 0。

（2）f(x) 对状态变量x是连续可微的，即存在矩阵，使为负定矩阵，其中，那么系统（11）渐近稳定。

由此给出n维单层无输入GRU 的局部稳定性条件。

定理2：若n阶权重矩阵的所有n个特征值都小于2，则单层无输入的GRU 在原点处是局部渐近稳定的。

证明：由公式（10）单层无输入的GRU 网络可以表示为：

式中，T是GRU 单元个数；ct为中间变量。

其对应的连续方程形式为：

其中，h=(h1,h2,…,hn)T。

该微分方程的解h在(-∞, +∞)存在，满足存在唯一性定理，且f(h)满足f(0) = 0，故h= 0 为方程的零解，进一步得到h=c= 0。

单层无输入GRU 的Jacobi矩阵表达式中仅含有权重矩阵Wh͂和单位矩阵E，这说明系统的稳定性只依赖于候选激活状态的权重矩阵Wh͂。因此，可以通过在训练中选择满足该条件的权值矩阵Wh͂，来保证其前向传播的稳定性。

任意选择三种初始状态：(0.5, - 0.75)，(-0.9,0.5)，(-0.19, - 1.5)，取总体迭代次数T= 50，步长ε= 0.1。利用二维无输入的单层GRU 来预测隐藏状态的轨迹，考虑以下两种候选激活状态的权重矩阵Wh͂，他们分别对应图2（a）和图2（c）：

图2 GRU 动力学可视化和变化趋势图

权重矩阵W+的两个特征值分别为λ1(W+)=-5,λ2(W+)= -3，权重矩阵的所有特征值都小于2，且隐藏状态分别从各自初始点（用星号表示）向原点移动，此时网络在原点处满足局部渐近稳定。而权重矩阵W-的特征值λ1(W-)= 4 +1.7i,λ2(W-)= 4 - 1.7i，实部都是大于2的正数，每个初始点都向不同的终点移动，从图2（d）也可看出每个初始点的坐标最终都稳定在不同的坐标点下。若权重矩阵对应的特征值不满足定理2 的稳定条件，那么在多次迭代后其输出值不趋于零点，且输出值不可预测。

若动力系统在零解处渐近稳定，那么随迭代次数的增加，每次迭代得到的结果都会逐步趋向零解，直至达到完全平稳。从图2（b）的仿真结果可以看出，尽管无输入的GRU 在不同初始值下到稳定的速度不同，但其最终都在零点处达到稳定。而对于不满足稳定条件的GRU，虽然每个初始点在迭代多次后最终都趋于稳定，但每个初始点的稳定点都不相同，无法预测最终的运行轨迹。因此，可以说在满足定理2 的条件下，无输入的GRU 其结果具有可预测的动态特性。

3 GRU 在波场障碍物反演中的应用

对于波动方程的散射问题，正向物理过程属于适定问题，但在求解反问题过程中，方程的解关于已知数据不稳定，这就导致了波场障碍物反演是一种典型的不适定问题。考虑在Dirichlet条件下，利用GRU 反演单入射波和多角度入射波下的障碍物形状[11-12]。

网络的运行效果通过对花生形状边界的反演误差来进行评估。障碍物边界反演过程以远场数据作为GRU 输入，GRU 最终节点的隐藏状态hT发送到全连接层进行形状参数提取，将所得参数带入到经过傅里叶展开的曲线方程中绘制预测曲线。这里Adam 作为优化器，将远场数据依次按节点顺序呈现到GRU 中，换句话说，每个节点的输入是远场数据中实部和虚部构成的二维向量，输出是曲线参数方程的傅里叶系数，时间步长在单入射情况下为T=n，在多角度入射时T=n2。

3.1 单入射情况

研究二维不可穿透障碍物的边界曲线f(x)，其中入射波数k= 1.5。在散射场[ 0,2π ]中均匀设置n个观测点，且GRU 的门控单元个数与观测点个数n相同，利用GRU 得到反演结果，误差计算函数为，表1 给出了网络的训练误差和测试误差。

表1 单入射下不同观测点个数对反演效果的影响

由表1 可见，观测点个数的增加意味着包含的障碍物远场信息增多，在神经网络的训练和预测中，网络的运行所消耗的时间也会增加，相应的反演结果与真实曲线的误差逐渐减小，这说明网络在整个学习过程中保持了稳定反演效果和泛化能力。图3 给出了在单入射下的反演效果图。

图3 观测点个数为n= 5,15,25,30,35 时反演效果图

从图3 可见，在单入射情况下，随着观测点的增加，获得了更多的远场信息，较好地反演出障碍物的形状曲线，尤其是在图像拐点处也能很好地贴合真实曲线形状。

3.2 多角度入射情况

相比于单入射情况，多角度入射得到的远场数据能够包含更多的障碍物边界信息，从理论上能够得到更好的反演效果。

在多角度入射的情况下，设置观测点个数和入射点个数相同。取入射点的个数分别为n=3,5,7，研究在这种情况下网络对障碍物形状边界的反演效果。

从表2 中的测试误差可以看出，利用越多的有效信息反演出障碍物的效果越好。这与理论分析结果相同。当入射点个数和观测点个数均为7 时，每个障碍物形状由7 × 7 个远场数据表示，而单入射15 个观测点的情况仅包含15 个远场数据，此时多入射反演产生的误差与单入射情况下效果基本相同，因此，在数据集远场数据有限的情况下，通过构造单入射多个观测点的数据能够通过较少的远场数据得到相似的训练效果。反演结果如图4 所示。

表2 观测点个数对反演效果的影响

在观测点数n= 3 时，图4 所示的反演结果，在外凸部分相对于观测点个数为5 和7 时误差较大，图4 反演的花生形状在曲线拐点处的凹陷较浅，曲线夹角大，在不同观测点个数时都能较好地反演出原有形状。而当观测点个数增加到7 时，反演结果都能够几乎与原曲线重合，从表3上的误差结果看，这三种观测点个数的选取都能使预测误差低于0.05，在实际反演形状曲线时能够得到接近真实值的边界曲线。

图4 观测点个数为n= 3,5,7 时反演效果图

表3 不同噪声程度下的训练效果

3.3 含噪声的多角度入射

实际计算得到的远场数据是存在误差的，为了检测远场数据中误差对网络反演效果的影响，在远场数据集中添加了一些随机噪声。当入射点和观测点个数都为n= 7 时，反演出的障碍物形状与原形状误差最小，在原有参数下，对数据集添加高斯白噪声N(0,per2)，分别考虑噪声per =5，20，50 的情况。训练时间和误差如表3 所示。

将带有不同噪声的远场数据的反演结果显示在表3 中，可见添加不同程度的噪声对整体的反演效果影响不大，噪声越小其误差也就越小，当原始数据集中噪声占比达到50%时，依然能够描绘出障碍物的边界形状，表明了在该条件下的网络结构具有稳定性。

如图5 所示，当远场数据包含低水平的噪声时，该模型可以准确地反转形状参数并重建障碍物的形状。可以看出，该网络对噪声具有很强的鲁棒性。

图5 噪声per=5，20，50 时反演效果图

从3.1 和3.2 的实验可以看出，在数据中不存在噪声时，GRU 都能够根据现有的远场数据准确地反演出障碍物的形状曲线。由3.3 节的实验证明，当远场数据集含有不同程度的噪声时，网络的反演误差也能达到与不含误差同等的实验效果。因此，对于这种不适定的反散射问题，不论远场数据集是否存在误差，都能够得到较好的反演结果，且在网络的反演过程中都保持了稳定的运行。

4 结论

将GRU 与常微分方程联系起来，从常微分方程的稳定性理论入手分析GRU 的稳定性。同时，提出了一种通过循环神经网络反演障碍物形状的方法，由于声波反散射问题非线性不适定性，而神经网络能够很好地拟合非线性系统，因而选择GRU 来重构障碍物形状。数值实验表明，该方法适用于具有多个入射和多个观测方向的全孔径条件，在能够处理单一入射方向和多观测情况。实验中该网络在反演障碍物形状时误差均维持在10-2，可见GRU 在处理这类不适定问题时保持了较好的可训练性和稳定性。