基于梯度下降法的Chebyshev前向神经网络

2018-11-01肖秀春彭银桥梅其祥闫敬文

安徽工业大学学报（自然科学版） 2018年2期

肖秀春，彭银桥，梅其祥，闫敬文

(1.广东海洋大学a.电子与信息工程学院，b.数学与计算机学院，广东湛江524088；2.汕头大学工学院，广东汕头515063)

尽管深度神经网络在众多领域取得了令人注目的进步，但其理论基石仍然是传统人工神经网络。深度神经网络主要是人工神经网络在结构层次上逐步深化的结果，其学习的概念及主要思想也源自对传统人工神经网络学习理论的研究[12]。因此，研究传统神经网络的结构及激励函数、学习理论对于推动深度学习及人工智能理论向前发展具有重要意义。通常，在传统人工神经网络及深度神经网络的结构中，相同层的隐层各神经元的激励函数是相同的，这与人类神经元的实际情况不一致；另一方面，神经元激励函数趋同也不利于对数据中不同模式的学习，理论上会导致需要较多的隐层神经元来学习相同的数据模式[12-16]。本文主要探讨人工神经网络隐层各神经元的激励函数、学习算法以及逼近能力等，与传统人工神经网络及当前广泛研究的深度神经网络不同在于，构造一种以隐层各神经元激励函数为一簇Chebyshev正交多项式的前向神经网络，针对此神经网络，提出一种基于梯度下降法的训练算法，且将构造的神经网络及其训练算法应用于复杂的非线性函数的曲线逼近中，验证其非线性逼近能力。

1 网络模型

在给出Chebyshev正交多项式定义的基础上，以一簇Chebyshev正交多项式作为隐层各神经元激励函数，构造Chebyshev前向神经网络模型。

1.1 Chebyshev正交多项式

定义1[17-18]在区间(-∞,+∞)上关于权函数ρ(t)=e-t2的正交多项式Pi(t)称为Chebyshev正交多项式。其基于导数的数学表达式为

其中：Pi(t)表示序列中第i个Chebyshev正交多项式，表示求i-1阶层导数。

由上述表达式可得到递推关系式，其前三项及递推关系如下式：

2.2 Chebyshev前向神经网络

利用定义的Chebyshev正交多项式簇，构造一种特定结构的Chebyshev前向神经网络，如图1。该特定结构的神经网络采用单隐层结构，以Chebyshev正交多项式簇中的各函数分别作为隐层中各神经元的激励函数，其他网络层神经元全部使用线性激励函数，隐层神经元至输出层神经元的权值为wi,i=1,2,…,n，输入层神经元至隐层神经元的权值固定为1；所有神经元阈值皆为0。

图1 Chebyshev前向神经网络结构Fig.1 Structure of Chebyshev forward neural network

设有样本总量为m的训练样本集{(xj,yj),j=1,2,…,m}，将该样本集中的数据{xj,j=1,2,…,m}和{yj,j=1,2,…,m}分别作为图1所示神经网络的输入和期望输出，通过合适的训练算法对神经网络中所有参数进行调整，从而学习到训练样本集中存在的模式。由图1所示Chebyshev前向神经网络可实现对输入{xj,j=1,2,…,m}的激励输出Q(xj)，

其中：w∈Rn，为神经网络输入层到隐含层的权值向量；P(xj)∈Rn，为神经网络输入层到隐层的激励向量。w和P(xj)的定义为：

事情发生在一小时以前，因为没给我准备好学费，我骂了父亲。我当时好像并不只是为了骂他，就是要找个人出气。我骂他：你有个么鸡巴用，就知道上骒快活。

由所有输入{xj,j=1,2,…,m}经激励后的实际输出Q(xj)与期望输出{yj,j=1,2,…,m}，可定义Chebyshev前向神经网络的目标函数E为

2 梯度下降学习算法

神经网络的学习算法是影响其性能的重要因素之一。学习算法利用样本数据对神经网络参数(包括各神经元之间的连接权值和神经元本身的阈值)进行迭代调整，在目标函数最小化的约束下，使神经网络尽量对学习样本集实现有效逼近[12]。梯度下降算法是一种最常见的学习算法，文中采用梯度下降法对图1所示的Chebyshev前向神经网络参数进行迭代调整(即学习)。采用梯度下降法优化式(4)所示目标函数E，网络参数迭代求解如式(5)。

其中：k=0,1,2,…，为迭代次数为第k+1次迭代时，E对w的梯度；η为神经网络学习率，可控制神经网络收敛速度，文中设置为常数。为求解分别定义Fj(w),j=1,2,…,m和F(w)，如式(6)，(7)。

于是，F(w)可表示为

其中：x=[x1x2…xm]T∈Rm；y=[y1y2…ym]T∈Rm；Q(x)∈Rm×n称为激励矩阵，实现对所有样本输入的激励输出，其定义如式(9)。

式(10)中J(w)为Jacobi矩阵，定义如式(11)。

其中，矩阵中各元素可通过求解Fj(w)对wi的偏微分简单计算出，如式(12)。

由式(5)，(10)得到基于梯度下降法的Chebyshev前向神经网络学习算法为

值得提出的是，当学习率η满足条件式时，由迭代式(13)产生的序列必然全局收敛于神经网络的最优权值向量[19-20]。

图2为基于梯度下降法的Chebyshev前向神经网络训练算法流程图，其中更新神经网络参数是算法中最重要的一步，参数更新按式(13)进行。

3 仿真验证

为验证本文提出的Chebyshev前向神经网络的可行性及其算法的有效性，采用Matlab(R2012a)分别为本文算法和传统BP神经网络算法求解复杂模式的数据拟合问题编写仿真程序，且进行仿真对比实验。实验过程中，本文提出的Chebyshev前向神经网络和传统BP神经网络取相同参数，即η=0.05，m=200，n=150；对于传统BP神经网络，其隐层激励函数采用Matlab神经网络工具箱中的“tansig”函数，隐层到输出层采用“purelin”函数作为其激励函数。

图2 算法流程图Fig.2 Flowchart of the algortihm

图3是以函数y=cos((5x2+2)(x2+1)/(2+(x-1)3))为例，采用本文提出的Chebyshev前向神经网络和传统BP神经网仿真出的目标输出、实际输出及其误差。对比图3可发现：本文提出的Chebyshev前向神经网络算法在迭代次数不大于传统BP神经网络的1/400时，仍能以更高的精度逼近样本数据集；Chebyshev前向神经网络算法在迭代次数较少的同时，对样本数据集的逼近精度更高。

图4为本文提出的Chebyshev前向神经网络及传统BP神经网络对前述示例函数逼近时的均方误差下降曲线。对比图4(a)，(b)可发现：Chebyshev前向神经网络均方误差下降曲线在迭代次数达10次时，下降速度很快，随着迭代次数的进一步增大，均方误差下降曲线接近0且趋于稳定，表明Chebyshev前向神经网络及其梯度下降法具有良好的收敛特性；传统BP神经网络均方误差下降速度较慢且在下降过程中伴随振荡，表明传统BP神经网络收敛性能较差。

图3 Chebyshev前向神经网络和传统BP神经网络对实例函数的仿真结果Fig.3 Simulation results for a function example with Chebyshev forward and traditional BPneural network

图4 Chebyshev前向神经网络和传统BP神经网络训练过程中的均方误差下降曲线Fig.4 MSE descent curves in the training process of Chebyshev forward and traditional BPneural network

4 结论

利用Chebyshev正交多项式簇作为神经网络隐层各神经元激励函数，构造Chebyshev前向神经网络，且推导其梯度下降法公式。通过仿真实验验证Chebyshev前向神经网络对于复杂模式数据逼近的有效性。结果表明，基于梯度下降法的Chebyshev前向神经网络学习算法能够有效调整网络参数，可实现以较少的迭代次数对复杂非线性函数较高的精度逼近。