APP下载

哺乳动物脑在博弈中的影响探究
——基于路径2的有限博弈分析

2016-07-21吉宝卫杜玉林

山西青年 2016年12期

吉宝卫 杜玉林

华东政法大学,上海 201600



哺乳动物脑在博弈中的影响探究
——基于路径2的有限博弈分析

吉宝卫杜玉林

华东政法大学,上海201600

摘要:本文尝试探究哺乳动物脑在博弈中所发挥的作用,认为具有公平、互利等特征的社会偏好(陈叶烽,2012)行为源于哺乳动物脑,通过两条路径去影响博弈。路径2是指哺乳动物脑通过系统1最终改变前景理论中的参考点来干扰系统2做出理性的决策。

关键词:社会偏好理论;哺乳动物脑;有限次博弈

一、文献综述

Doux(2002)认为情感事件通过“场景记忆”进入哺乳动物脑,并被保存起来。费尔(2004)指出哺乳动物脑(中脑)对高等动物来说,是主管情感的脑区。这一脑区在哺乳动物出现的时候已经形成,人类的大脑皮层是在后来的长期进化中形成的,覆盖在哺乳动物脑系统上。哺乳动物脑所激发出来的主要是情感型行为。因为早期的动物没有大脑,很多具有重大生存价值的行为,无法通过理性思维来实现,所以哺乳动物脑激发出来的行为无需理性的推断。据此我们认为社会偏好的“场景记忆”存储在哺乳动物脑,并且通过路径1直接产生不受理性控制的情感行为。

卡内曼(2012)认为系统1是自主而初始的印象和感觉,它是系统2中信息的主要来源和决策依据。系统1包括一些与生俱来的能力,这些能力与其他动物的本能一样,比如确定声源位置。而现代生物学认为,确定声源位置的初级听反射是由哺乳动物脑(中脑)控制完成的。我们据此认为系统1与哺乳动物脑有着某种信息沟通方式,甚至可以说哺乳动物脑是承载系统1的一个实体组成部分。我们认为哺乳动物脑是承载系统1部分功能的一个实体,系统1是先于大脑皮层形成的,从事简单的大脑规律性应答活动,并为后来形成的系统2提供支持。路径2是指存储情感行为的哺乳动物脑通过系统1最终改变前景理论(Kahneman,1979)中的参考点来干扰系统2做出理性的决策。

Kahneman(1979)在对前景理论编码的论述中指出人们通常关注的是收益和损失,而不是财富或福利的最终状态,收益和损失是相对于某一参考点而言的,而参考点的位置以及收益和损失的编码,会受到提供期望的表达方式和决策者预期的影响。表达方式对于参考点的影响已经得到了大量实验的证实,而本文提出的路径2探讨的是预期的改变,即存储社会偏好行为的哺乳动物脑,通过影响系统1中决策者的预期,进而最终改变系统1中的参考点。系统1的预期与通常的预期不同,通常的预期需要经过严密的逻辑分析才能产生,而这里的预期不需要这一前提。因为它是由系统1完成的,卡尼曼(2012,P5——9)指出系统1几乎无法处理逻辑和统计的问题,但它仍然会对外界进行预测,且大多数时候是恰当和准确的,这可以使系统2免于承担过多不必要的工作。因此这里的预期就像前景理论中的权重函数一样,无法通过逻辑或理论的推导得出,只能经过大量实验才能检验其是否具有客观存在性。我们还认为参考点的选择是由系统1负责的,如果参考点的选择是由具有更强理性思维的系统2负责的,表达方式的改变将无法改变参考点,这与大量的实验结果不符。

二、基于路径2的相对收益分析

假设A、B进行有限次囚徒博弈,策略集如表1所示,“()”里是绝对收益的数值,“[]”里是考虑参考点后相对收益的数值。

表1 囚徒困境的有限次博弈

由于最后一局不存在任何可信的威胁或许诺(Schelling,1960),通过逆向归纳法可知A、B一开始就都选择不合作,最终有限次博弈的结果和单次博弈的结果没有什么区别。路径2的影响:哺乳动物脑与系统1有着密切联系,而系统1负责向系统2提供参照点,于是系统1在社会偏好的影响下向系统2提供了合作的收益做为参考点,这导致不合作的相对收益是一种损失。Tversky(1981)指出结果相对于参考点看起来是一种收益,在确定效应作用下就会倾向于规避风险;反之,结果看起来是一种损失,决策者就会是风险偏好者。因此,为了规避这种损失A、B都愿意赌一把:尝试选择合作。

我们认为路径1是通过自我激励完成合作的行为,而路径2则是通过自我惩罚的机制完成对系统2不合作行为的抑制和对合作行为的尝试。我们还认为路径2在单局博弈中的作用要远远小于路径1,但在重复博弈中却又大于路径1。系统2也具有预测能力,但系统2的理性预测(逆向归纳法)不仅无法使相对收益获得累加性,而且还会纠正系统1的社会偏好参照点。除此之外,累加性还需要一个重要的结论:有限博弈中首局如果有人选择不合作,那么双方以后就几乎没有合作的可能性。这里我们将这一结论命名为“BW”结论,下面我们将证明这一结论的成立性。

根据鲍尔斯(2004)的仿真实验,人性38.2%自私,37.2%正义,24.6%善,本文据此推断系统1已经在进化中形成了上述初始的印象和感觉,即系统1相信博弈中存在合作的可能性。博弈被分为“零和”和“非零和”博弈,有限次博弈属于非零和博弈,在非零和博弈中双方利益有些是一致的有些是不一致的,虽然存在占优均衡,但博弈双方还是存在通过合作改善彼此利益的激励。以A为例,A会考虑去争取那些“一致的利益”,并且A有理由相信B也会做同样的选择,即A相信B有合作的可能性。如果博弈中存在合作可能性,A就必须在预期B策略的基础上进行最恰当的反应,进而A就不再只面对一个占优策略。

(一)命题1:最优反应策略应该具备“报复性”

“报复性”是指在对方“无缘无故”的背叛之后立即以背叛报复(阿克塞尔罗德,2007)。在阿克塞尔罗德的计算机竞赛中,所有的策略可以被分为两类:

1.善意策略,典型代表是“弗里德曼”,它的特点是绝不首先背叛,但当对方背叛时也会立即回应;

2.恶意策略,典型代表是“唐宁”,它的特点是偶尔(无缘无故)背叛。

首先看善意策略,由于没有主动背叛的机制,只要是对方背叛就一定是无故的背叛,对方一定是恶意策略,事实上很多恶意策略都是“善意策略”的变形,报复性不仅可以避免损失的扩大,而且还会向对方清晰的发出“鲁棒性”的信息,“迫使”许多恶意策略放弃“尝试”展现“善”的一面。遇到善意策略时,报复性没有任何损害,因此我们说善意策略应该具有报复性。

下面看恶意策略,恶意要面对如下问题:1、主动背叛的机制;2、识别对方的反应;3、避免循环报复。区分报复与无故背叛是“识别对方的反应”中最难解决的问题,“乔斯”和“检验者”在这方面做的都很差,“乔斯”是在双方都合作的情况下随机背叛,并将对方下一局的背叛视为无故背叛进行报复,这导致报复循环。“检验者”则首局选择背叛,并将下一局的背叛视为报复,如果遭到报复会用合作请求“原谅”,但“检验者”只进行一次这样的识别。“唐宁”、“镇定者”则不断的进行识别,以防止做得太过导致报复循环,但最后仍不理想,究其原因主要是因为:一、都低估了善意策略的报复性,尽管它们能占到便宜,但这导致双方都损失了持续的合作收益;二、遇到恶意策略时,都以各自的方式掺杂背叛,因此识别对方的行为几乎是不可能的,尤其是双方都是这种不断识别的策略。并且这些策略都极力想避免报复的循环,导致其鲁棒性不明显,最终无法迫使“尝试”的策略展现出“善”的一面。从本质上来看,恶意策略都应该对无故的背叛进行立即报复,之所以有些策略没有及时进行报复是因为这些策略无法识别无故的背叛。

无论善意还是恶意策略,都能识别出首局的背叛,因为没有博弈的历史,首局的背叛一定是无故的背叛。阿克塞尔罗德的竞赛虽然无法穷尽所有策略,但穷尽了所有策略的基本性质,并且命题1也将策略的范围缩小到“最优反应策略”上来,并没有包含所有的策略。综上所述,最优的策略应该具备“报复性”。

(二)命题2:在有限次博弈中首局释放合作意愿的效果最好、成本最低、希望最大

由于不存在任何可信的威胁或许诺,因此A、B可利用的就是的历史博弈,想要释放合作的意愿只能通过博弈中的特定行为。由于首局博弈行为是后面判断对方策略的重要参考,也就是说首局释放信号影响的局数最多,因此首局释放合作意愿的效果最好。

表2 释放合作意愿的机会成本或额外收益

(三)命题3:在有限次博弈中首局选择不合作,那么双方以后就没有合作的可能性

表面上被动的善意策略是在主动追求持续的合作收益,而表面上主动的恶意策略却是在被动的损失持续的合作收益。根据命题2的结论,我们可以推出最优的恶意策略在首局一定选择合作,因为首局的背叛不仅能够被清晰的识别出是无故的,而且也向对方释放自己是恶意策略的信号,这将导致该策略很难继续获得背叛的额外收益,所以恶意策略在首局一定要“伪装”出具有合作的意愿。这里非最优的恶意策略包括但不限于“唐宁”和“检验者”,它们的共同特点是一上来(首局)就选择背叛,结果导致一系列的损失。在所有的最优反应策略中,只有“完全背叛”策略才会在首局博弈中不表达“合作的意愿”。

假设B在首局没有合作,A会推断:B在首局既然没有释放信号,那么B一定使用的是“完全背叛”的策略,因此A的最佳策略就是绝不首先释放合作的信号。同样B会预期到A会采取这一策略,因此B在以后的博弈中也没有选择合作的激励,所以B要么在首局选择合作,要么就一直背叛。综上所述,在有限博弈中首局如果有人选择不合作,那么双方以后就没有合作的可能性。

(四)BW结论:有限博弈中首局如果有人选择不合作,那么双方以后就几乎没有合作的可能性

“BW”结论是对命题3结论的削弱,因为系统1的直观印象更符合“BW”结论。这里还需要指出的是,系统1的运行是非常高效和迅速的,“BW”结论正是对系统1运行过程的一个模拟,系统1本身无需上面的三个命题就能直接得出“BW”结论,时间也非常的短。

三、相对收益对有限博弈的通用影响

表3 有限N次囚徒博弈

3.投入品增多。进入夏秋季节,渔用饲料、肥料及渔药等投入品使用频率较高,使用量也比其他季节增多,大量的投入品施入水体,必然加剧水体污染,使水质难以控制,各种病害增加。

由δ1=0,我们可以得到D1=1/(1+δ1)=1

我们设:

当A、B都合作时有相对收益Ui≡0

Sn=0

考虑系统1的情况,我们将命题3放松到“BW”结论,进行相对收益的缩放处理:

γ=υn+μ—ε ψ=υn+ω—ε

引入前景理论的权重函数和价值函数可得

π(0)=0V(0)= 0

表4 有限N次相对收益博弈

结果如表4所示,路径2导致A、B的参考点为ε,不合作的相对收益被视为损失,“BW”结论使得这种损失逐渐累加,依据前景理论的观点,此时A、B对于不执行系统2的纳什均衡(都不合作)具有强烈的风险偏好。

四、结语

存储社会偏好的哺乳动物脑影响系统1中参考点的选择,导致系统2在前景理论的作用下无法进行理性的决策,非理性的选择合作。相较于路径1产生的合作,路径2产生的合作将受到博弈次数的影响。贾拥民(2015)认为包括杏仁核在内的边缘系统通常被认为是产生损失厌恶的重要脑区。如果路径2存在,那么通过功能性近红外脑成像仪应该能观察到相关脑区的活跃。如果路径2确实存在,那么这里将产生一个重要的结论:有限次博弈的结果将受到博弈次数的影响,博弈次数越多刚开始就越容易产生合作。

[参考文献]

[1]阿克塞尔罗德.合作的进化[M].上海人民出版社,2007.

[2]卡尼曼.思考,快与慢[M].中信出版社,2012.

[3]贾拥民,黄达强,郑昊力.偏好的异质性与一致性[J].南方经济,2015(5).

[4]汪丁丁,罗卫东,叶航.人类合作秩序的起源于演化[J].社会科学战线,2005(4).

[5]Fehr et al.The Neural Basis of Altruistic Punishment[J].Science,Vol 305,27 August,2004.

[6]Kahneman,D.and Amos Tversky.Prospect Theory:An analysis of Decision Making under Risk[J].Econometrica,vo1.47,1979(2):263-291.

中图分类号:S851.3

文献标识码:A

文章编号:1006-0049-(2016)12-0044-03