基于参与主体异质性条件下囚徒困境合作演化博弈模型研究

2015-08-21张新立张恰元何丽红董婷婷

经济数学 2015年2期

张新立　张恰元　何丽红　董婷婷

摘要利用演化博弈理论，对参与主体异质性条件下的囚徒困境模型进行了探讨，求出了满足不同条件下的演化稳定策略，并对种群中个体异质性对演化稳定策略的影响进行了分析，得出种群中选择相同策略的个体异质性差异越大，参与个体选择合作行为作为演化稳定策略的可能性就越大.极端地，当个体的异质性趋向于无穷大时，合作成为唯一的演化稳定占优策略，为现实大多数合作系统中能保持长期的一种合作稳定状态提供了合理地解释.

关键词博弈论；合作行为；合作演化博弈；囚徒困境；异质性

中图分类号 N949 文献标识码 A

The Cooperative Evolutionary Game Model

of Prisoners Dilemma under Agent Heterogeneity

ZHANG Xinli， ZHANG Qiayuan， HE Lihong， DONG Tingting

（College of Mathematics， Liaoning Normal University， Dalian， Liaoning 116029， China）

Abstract This paper studied prisoner's dilemma model under agent heterogeneity by evolutionary game theory， solved evolutionary stable strategy under different conditions， and analyzed how the agent heterogeneity affects the evolutionary stable strategy. It points out that the cooperative behavior of evolutionary stable strategy will be increased with the addition of the difference of agent heterogeneity. Extremely， cooperation is the unique dominant strategy when the difference of agent heterogeneity approaches to infinite. It provides reasonable explanation that the most cooperative system can maintain a longterm cooperative stable state in the real world.

Key words game theory； cooperative behavior； cooperative evolutionary game； prisoners dilemma； heterogeneity

1 引言

合作行为是自然界中最为普遍的现象，从微生物到高级动物，从社会性昆虫到人类社会.生物之间个体的合作行为，增强了整个种群的生存能力.然而，根据达尔文的进化论，自然选择是基于竞争性的，种群中的个体将会自私地最大化自身利益，这显然不能解释处处普遍存在的合作行为现象.为了解释合作行为是如何从自私的个体之间演化产生的，演化博弈论为其提供了一个强有力的数学理论框架，囚徒困境则是演化博弈论被广泛采用研究合作行为的一个最典型范例[1，2].在原始囚徒困境博弈模型中，采用纯策略种群中的个体都有两种选择：合作（coorperation，C）与背叛（defection，D）.D策略个体利用C策略个体，获得T收益，而C获得S.双方都合作则获得R，都背叛则获得P（如表1所示），其中T>R>P>S，2R>T+S.在单轮博弈情况下，无论对手采取何种策略，个体的最佳策略总是选择背叛.然而，在双方都采取合作策略的情况下，二者总的收益才是最大的，这一现象说明了社会两难问题的实质.解决的方案之一就是Axelrod提出利用迭代囚徒困境来解决合作行为的演化，其中又以Rapoport提出的TitforTat（TFT）策略和Pavlov提出的WinStayLose-Shift （WSLS）策略最为著名[3].姜殿玉等通过引入背叛函数及其严厉度和参与人的背叛愿意，给出了一种惩罚机制下一次性n人囚徒困境合作的可能性[4].李栋等人探讨了一类具有两种状态名声机制条件下的重复囚徒困境存在合作的可能性，得出有3个马尔可夫策略时高效的强健完美纳什均衡，与好名声者合作与背叛坏名声者的策略时最具吸引力的一个策略，此策略促进合作成功并能持续下去[5].王健探讨了如何通过承诺在囚徒困境博弈中寻求合作共赢的新局面，并提出重复博弈下的声誉机制是使承诺可信，促使囚徒困境合作的重要因素[6].廖列法等人针对规则格子上的节点的自私行为不能有效抑制问题，提出了一个结合个体移动和噪声因素的演化囚徒困境模型，认为个体移动和噪声对囚徒困境的演化博弈的合作行为产生影响[7].

经济数学第 32卷第2期

张新立等：基于参与主体异质性条件下囚徒困境合作演化博弈模型研究

表1 种群中参与个体的博弈支付表

尽管上述文献在研究种群中参与个体的合作行为演化方面取得了重大进展，不同程度地提出了解决合作行为的方案与措施，但它们在研究种群中参与个体演化合作博弈的传统方法通常假设种群内的个体是均匀同质的，即种群中的任何个体都是实力对等的，对其他个体的影响是一样的，且都以独立相同的概率和其他个体相遇并进行博弈.然而，这种模型假设过于理想化，因为现实种群中博弈双方的个体实力时常不对等、具有异质性.种群中博弈双方的异质性不仅影响博弈双方个体的收益，而且也影响相应的采取策略，目前关于这方面的研究还鲜有学者涉及.基于此，本文把参与主体的异质性条件引入到囚徒困境博弈模型中，探讨异质性条件下囚徒困境博弈中的种群能够演化出与均匀同质性种群不同的一些行为模式，这些行为模式能够促使异质性囚徒困境博弈模型演化出具有很高合作率的群体，从而有效地解释了为何在现实中大多数合作系统中都能观测到合作方和接收方之间存在长期的合作稳定状态.

2 同质性条件下的囚徒困境演化博弈模型

考虑到种群中不同的参与个体可以利用各自对应不同的收益表来表示，又因原始囚徒困境中种群中的个体都有两种选择纯策略：合作与背叛，收益表中的参数关系满足T>R>P>S.为了减少收益表中自由参变量的个数，可以定义种群中个体采取合作行为付出的代价为c，此合作行为使对方获得收益为b；个体采取背叛策略不付出任何代价，即P=0，也不分发任何利益给对方，收益表可以简化为只含两个参变量b和c的形式，且满足关系式b>c>0.由于囚徒困境是对称博弈，博弈双方对应的收益表A与B有关系式BT=A.所以博弈双方具有相同的性质.下面仅对博弈一方的演化性质进行讨论.

C DC DCDRSTP=CDb-c-cb0.

现在考虑在一个种群中的个体间随机配对进行博弈.假设在该种群中，采取C策略的种群比例为x，采取D策略的种群比例为y，x+y=1.由于假设该种群内的个体是同质的，实力对等，所以，不管它采取何种策略，种群个体采取的策略只会影响它的收益.此时采用两种策略的参与个体的期望收益与种群的平均期望收益分别为

fC=（b-c）x-cy，fD=bx-0y，

φ=xfC+yfD. （1）

于是，一博弈方采取合作策略的复制子动态方程为

F（x）=dxdt=x[fC-φ]=

x（1-x）（fC-fD）=-cx（1-x）. （2）

根据该复制子动态方程，x=0和x=1为2个稳定状态.依据微分方程的稳定性定理及演化稳定策略的性质，当F′（x）<0时，x为演化稳定策略.因为F′（0）<0，所以，x=0为演化稳定策略.其动态趋势和稳定性的相位图如图1所示.也就是说，不论博弈对方如何让选择，种群中一方博弈个体的最优选择是背叛，而且是一个占优战略均衡，所以也是演化稳定的.种群的所有个体最终由背叛个体组成.

图1 一方博弈的策略稳定性相位图

3 异质性条件下的囚徒困境演化博弈模型

在囚徒困境参与个体博弈过程中，博弈双方的个体经常是异质的，双方实力不对等，此时博弈双方的策略选择和获得的收益显然要受双方异质性的影响[8].在此条件下，当博弈双方都选择背叛时，受到的伤害程度也是不同的，实力大的一方受到的伤害程度显然比实力小的一方要小得多，尤其从长期来看，这种伤害程度对博弈双方来说都要比实际显现的要大；当双方都选择合作策略时，实力大的一方所选择的策略更主动，得到的收益分配显然比实力小的一方要高.为此，假设种群都选择合作策略的博弈双方实力差异为r1；一方选择合作，另一方选择背叛的实力差异为r2；双方都选择背叛策略的实力差异为r3.当r1=r2= r3时，囚徒困境显然变为同质性的情形.当r1，r2，r3不全相等时，种群内的参与个体是异质的，异质性不仅对其采取的策略产生影响，而且对分配的收益也有影响.此时采用两种策略的参与个体的期望收益与种群的平均期望收益分别为

图2 两个内点的演化策略稳定性相位图

4 结束语

种群中的合作行为是自然界中最为普遍存在的规律，而种群中个体的异质性又是常见的.本文利用演化博弈的相关理论，对个体具有异质性的囚徒困境模型进行了分析，认为尽管种群个体一般都有背叛个体所组成，但是当异质性满足一定的条件时，群体中背叛和合作的个体是可以共存的，而且伴随着选择相同策略群体异质性程度的不断增加，群体中背叛个体逐渐向合作个体过渡，直至可以达到群体由完全的合作个体所组成，为自然界中最为普遍出现的合作行为现象提供了有益地诠释，也为促进自然界群体中的有益合作提供了一定决策参考依据.

参考文献

[1] MAYNARD SMITH. Evolution and the Theory of Games[M]. Cannbridge：Cambridge University Press， Cambridge， 1982.

[2] M A NOWAK. Five rules for the evolution of cooperation[J]. Science， 2006，5805（314）： 1560-1563.

[3] R AXELORD. The Evolution of Cooperation [M]. New York： Basic Books，1984.

[4] 姜殿玉，郑长波，许作铭. 一种惩罚机制下一次性n人囚徒困境的合作性[J].运筹与管理，2011，20（4）：96-99.

[5] 李栋，蒋军利，唐晓嘉.基于名声机制的重复囚徒困境合作博弈分析[J].计算机科学，2013，41（4）：240-243.

[6] 王健.冲突与合作视角下的承诺及其可信性研究—以囚徒困境博弈为例[J].河南工业大学学报：社会科学版，2013，9（1）：49-53.

[7] 廖列法，孙玮，刘朝阳. 基于演化博弈研究移动和噪声对合作的影响[J].物理学报，2015，64（3）：53-56.

[8] C TAYLOR，M A NOWAK. Evolutionary game dynamics with nonuniform interaction rates[J] .Theoretical Population Biology， 2006，69（3）： 243-252.