基于交互学习神经网路的仿真研究

2013-07-12四川职业技术学院电子电气工程系

电子世界 2013年4期

四川职业技术学院电子电气工程系刘宸

基于交互学习神经网路的仿真研究

四川职业技术学院电子电气工程系刘宸

交互学习可促使人更加具有智慧，因此，研究人类的交互学习对于探索人类的学习规律具有十分重要的意义。有研究表明，神经网路同博弈理论相结合能够构建人类交互学习模型，本文通过对交互学习神经网路模型进行构建，采用仿真技术对人类交互学习的过程及其基本规律进行研究，结果显示，此模型能够对交互及竞争学习过程进行有效模拟。

交互学习；博弈理论；神经网路；仿真

人类作为一种群居性的动物天生就具有交互性学习的能力，交互性学习可以促使人变得更有智慧，因为一旦某一只动物变聪明，其它动物就能够对此能力进行学习，因此也会跟着变得更聪明。若某人了解交互学习与竞争学习之间的关系，那么这个人就会变得更加聪明。若某民族了解此道理，则此民族也会更兴旺。因此，研究交互学习规律对于人类思维发展具有十分重要的意义。

1.人类交互学习的特征分析

同人类的个体学习过程不同，交互学习具有其较为显著的特征：若有n个参与人员，各参与人员均会通过对除其自身以外的n-1个参与人员进行同时性的学习，并以此为基础来对自身的行为策略进行改变，即某个参与人员其自身的选择会受到剩余其他参与人员的选择影响，同时也会对其他参与人员的选择带来影响。此特征普遍存在于如今的经济生活当与社会环境之中，因而研究人与人的交互学习模型具有很重要的意义。

本文通过将在人工神经网路中融合入博弈支付函数的结构，并将博弈支付矩阵中各个支付值作为其输入的结点xj以及对手支付值，同时，将参与人相应可进行选择的行动策略作为其输出的结点y，并最终建立了一个人类交互学习的神经网路模型。

图1 交互及竞争学习模型的博弈实验训练过程曲线

图2 博弈实验的数据同仿真结果之间的比较

2.交互学习神经网路模型的构建

通常而言，重复性的博弈理论中的学习过程通常包括如下两种模型：一种是强化性的学习模型，另一种是强化及环境两者交互性混合学习模型。此两种学习过程模型的各种相应的权重参数均需以实验数据等为依据进行调整。同以上两种学习模式不同，有资料还提出了另一种模式，及以Regret反馈为基础的学习神经网路，此模式可成功进行混合策略博弈中唯一性均衡点的预测。以Regret反馈为基础的学习神经网路为前馈与反馈两种神经网路的结合。对于人工神经网路而言，其实质主要是将众多相对较为简单的神经元在某一网路系统中进行有机组合，以以信息流的方向为依据将其分为前馈与反馈两种神经网路。

由于神经网路学习的过程为误差向后由输出至输入层传播且对网路连接的权值进行修正的过程，因此学习目的即为了确保网路实际的输出同某一期望输出相接近。对于交互学习神经网路结构而言，其输入节点主要为支付矩阵中的8个支付值，而将两个输出节点来对实际过程的行动选择概率进行具体表示。通常而言，各输入节点的输入信息取当前博弈过程中相对应支付值，而对于输出结点而言，其激活函数主要是将相相应的输入节点同连接权wij的乘积进行求和，之后再由Sigmoid活化函数进行计算后获得，公式如下：

式中，ti(a-k)——参与人员k对剩余参与人员行动后的最佳反应；yi——参与人员做出行为i的概论；Rk（·）——通过行为及其他参与人员行为所得的Regret值；xj——输入节点强度，也可认为是支付值；λ——学习率。Regret主要是由实际所收入的支付值同可能获取最大支付值之间的差值进行计算的。因此，以上述两个公式可对连接权进行如下调整：学习效率、实际情况下的收益同事后的最佳收益之间的差、Regret值以及输入特性等多种因素间的乘积。

将Regret引入到反馈学习中极大程度地改善了神经网路混合策略预测性能的均衡性。Regret等于在对手行为选择已知的情况下参与人员可能能获得的最大支付值同博弈过程实际的支付值之间的差值。此法为通过神经网络对人类的交互学习行为进行了科学模拟，并提出了相应的算法。模型基于单神经元感知器对博弈收益进行了考虑，以便对反馈过程进行修改。此种事后驱动同学习过程相符。参与者在得知同剩余参与者上次行动的选择之后可得Regret值，而后以Regret程度为依据来对自己最佳行动策略进行选择，以逐渐接近最佳策略。也就是说，参与者了解剩余参与者前一次的博弈行动选择之后，会将其目前行动朝着上一次博弈最佳反应方向转变。

3.模型仿真及结果分析

为了对交互学习模型的性能进行比较，本文采用了均方差准则MSD，MSD作为检测估计值同实测值间差值中普遍受到认可的方法，其公式如下：

其中，y——实测值向量；y′——估计值向量；yi——第i个博弈试验中y向量所选相应行动频率值；yi′——模型的输出频率值，N——对应向量的长度。

基础数据采用博弈理论支付函数，借助于所构建的交互学习神经网路模型进行仿真分析，计算结果如图1所示：图1的上方为仿真计算中输出的A1与A2分别表示的是参与人A所选行动1的频率，以及参与人B所选行动2的频率。而图2显示的是此组数据同实验结果之间的比较，由图2可知，交互学习神经网路模式的仿真结果同实验的数据较为吻合。

在对10组不同的博弈实验进行MSD准则计算及对比后可知，Regret模型具有相对较好的预测结果。结果显示：在反馈过程中进行Regret变量的引入能够对人工神经网路的性能进行显著的改善。进行Regret模型的构建能够体现如下重要特点，即可对人类交互学习的过程进行有效模拟，就像博弈实验相同。作为自然进化过程中十分重要的特征之一，人类的交互学习过程不仅包括了人与人之间的交互学习过程，还包括了人与自然以及人与自然界中其它生物之间的交互学习。

4.结论

随着人类对思维及知识掌握过程探索及论证的逐步深入，有关人类交互学习的研究已经成为当今领域的研究热点之一。在人工神经网路交互学习的进化过程中，通过对人类的学习方法中的回顾和对比进行效仿来对人工神经网路的连接权值进行有效的更新。通过所构建的交互学习模型进行仿真分析，结果显示，此模型不仅能够对人类的交互学习过程进行较好的描述，还可对博弈均衡状态进行较为有效的预测。

[1]李伯虎,柴旭东,侯宝存等.一种新型的分布协同仿真系统——“仿真网格”[J].系统仿真学报,2010(20):5 423-5430.

[2]Kepecs A,Uchida1 N,Zariwala1 H A,Mainen Z F.Neural correlates,computation and behavioural impact of decision conf i dence[J].Nature(S0028-0836),2008,455(7210):227-231.