基于复制动态博弈的大学生上课选座位博弈分析

2018-06-02赵文强蒋菡

价值工程 2018年15期

赵文强蒋菡

Game Analysis of College Students Selecting Seats in Class Based on Replicator Dynamic Game

摘要：运用大规模有限理性群体复制动态博弈模型，结合了大学生在上课时坐在教室前排和坐在教室后排时的收益情况，分析了大学生上课选座位的动态演化过程。结果表明：在教室座位有空缺的条件下，大学生会倾向于坐在教室后排而不是教室前排，最终全部坐在后排导致前排无人坐，即使少数学生偏离了该稳定状态，复制动态最终依然会收敛于上述稳定状态。

Abstract： This paper uses a large-scale finite rational group copy dynamic game model， combined with the income of college students sitting in the front row of the classroom and sitting in the back row of the classroom during the class， analyzes the dynamic evolution process of college students' seat selection. The results show that under the condition that there are vacancies in the classroom， college students tend to sit in the back row of the classroom rather than in front of the classroom. Eventually all sitting in the back row leads to no one sitting in the front row， even a small number of students from the steady state， dynamic replication will still converge to the final steady state.

關键词：有限理性；复制动态博弈；选座位；稳定状态

Key words： bounded rationality；replicator dynamic game；seat selection；steady state

中图分类号：F224.9 文献标识码：A 文章编号：1006-4311（2018）15-0014-03

0 引言

大学教室里经常出现这样一种现象，代课老师在讲台上激情蓬勃地讲课，但学生却尽可能地远离老师的视线，例如，教室里一共有八排座位，座位的数量大于来上课的学生数量，上课时学生坐满了后六排座位，最前面的两排却没人坐，尤其是最后一排的座位“一票难求”，抢不到后排座位的学生，才会无奈的坐在靠前一些的座位。这样的例子在如今的大学校园里比比皆是，无不让人痛心。这种现象的出现与中小学生托关系坐到前排形成鲜明的对比，折射出老师和学校乃至大学教育的无奈[1]。

国内社会对大学生选择坐后排的现象进行过一系列讨论，讨论的结果都是基于教育学和社会学的角度而对如今大学生的学习态度和人生观进行批评，并没有从演化博弈论的角度出发而去论证这种现象产生的必然性。

演化博弈论以博弈方具有有限理性为基础，研究博弈方组成的群体成员采用特定策略比例的变化趋势和稳定性，它对分析预测经济关系的长期趋势和解释各种普遍性社会现象有重要的作用[2]。谢识予对进化博弈论的思想、方法、意义和发展前景进行了讨论[3]，王先甲等探讨了演化博弈论中的各种学习模型，提出了有限理性的实质是怎么去学习[4]，吴昊等探讨了合作竞争博弈的演化模型，用“进化稳定策略”来描述合作竞争博弈的长期演化趋势[5]，孙庆文等基于不完全信息假设，借鉴生物进化过程中“复制动态”的思想，对非对称2×2演化博弈均衡进行渐近稳定性分析，完整地给出了其定性行为的拓扑等价分类[6]，刘德海等运用演化博弈理论建立了重大突发事件的疫情传播方程[7]，王玉燕等采用演化博弈方法研究逆向供应链在企业供应链中的推广应用[8]。

本文运用演化博弈论，建立坐后排者和坐前排者的有限理性群体复制动态博弈模型，分析出均衡结果，给出一系列的结论。

1 有限理性和复制动态模型

1.1 有限理性

静态博弈和动态博弈基本上是以博弈方的完全理性为基础，但在现实中对决策者的完全理性假设是很难满足的[9]。如果博弈的参与人不满足完全理性假设，称为“有限理性博弈方”，这时博弈可称之为“有限理性博弈”[10]。有限理性意味着博弈方往往不会一开始就找到最优策略，会在博弈过程中学习博弈，通过试错寻找较好的策略。

1.2 演化博弈和复制动态模型

有限理性博弈方有不同的理性层次，学习速度差别很大。参与人的学习速度慢表现为向优势策略转变是一个渐进的过程，称之为演化博弈。演化博弈的复制动态模型最早在1978年由Taylor和Jonker提出，复制动态模型来源于生物学中的进化动态方程。“签博弈协议”的例子很好的说明了复制动态模型。

参与人A和参与人B要签订一个协议，两个参与人都有“同意”和“不同意”两种可选策略，他们的支付矩阵如表1所示。

帕累托最优的纳什均衡是（同意，同意）。

参与人往往不可能一开始就能找到最优的策略[11]，有参与人会选择“不同意”。假设“同意”类型的参与人占比为x，“不同意”类型的参与人占比为1-x（大群体中忽略参与人本身对其他类型参与人占比的影响），“同意”和“不同意”两种类型的参与人各自的期望收益uy和un分别为：

uy=x·1+（1-x）·0=x un=x·0+（1-x）·0=0

群体成员的平均收益为：

只要“不同意”类型的参与人有基本的直觉和判断能力，迟早会发现改变策略对自己是有利的，即x和1-x是随时间变化的。博奔方策略类型比例动态变化是有限理性博奔分析的核心，动态变化的速度取决于两个因素，一是模仿对象的数量大小，二是模仿对象的成功程度（可用模仿对象策略收益超过平均收益的幅度表示）。

以“同意”类型参与人比例为例，其动态变化速度可用微分方程（1）表示：

上述动态微分方程与生物进化中描述特定性状个体频数自然变化选择过程的“复制动态”方程是一致的，所以把它称作“复制动态方程”。

当x=0时，即初始时刻没有参与人采用“同意”策略，变化速率为0，所有参与人都不会改变策略；

当0

当x=1时，变化速率为0，参与人全部采用“同意”策略。

复制动态过程收敛到x*=1时，学习过程停止，有限理性参与人找到了本博弈中效率较高的纳什均衡，即x*=1是一个稳定状态。

2 大学生上课选座位的演化博弈分析

2.1 问题描述

研一的时候要上英语课，上课的教室一共有八排座位，来上课的学生一共只能坐满六排座位，老师为了保证课堂教学质量，鼓励大家尽量坐在教室的前排，结果却事与愿违，前两周上课时还有学生坐在前两排，后来大家就心照不宣的从第三排开始往后坐，前两排彻底无人坐。老师发现了这种现象后对全班学生进行了批评，并且强制大家坐满前两排座位，但随着时间推移，大家又一次心照不宣的从第三排开始往后坐，一直到课程结束，前两排座位都处于闲置状态。

根据本人的切身体会以及与同学之间的交流，发现大家不愿意坐前排有以下几个原因：

①避免被老师提问。老师一般会让前排的同学来回答课堂问题，但大多数同学都不想被老师提问，所以选择坐后排。

②方便做自己的事情。很多同学上课不认真听讲却在做其他的事情，例如：玩手机、看小说等等，他们认为坐在后排不容易被老师发现。

③坐在后排比較有安全感。很多同学认为，不管怎样，有人坐在自己前排会让自己觉得更有安全感，有一种被保护的感觉，所以他们希望更多的人坐在自己前排，而自己坐在后排。

2.2 模型建立与分析

我们假设教室里只有两名学生：学生A和学生B，对他们之间的博弈做出如下假设：

①如果A和B都坐在教室的前排，两人的收益都是1。这时两人都认真听课，但很可能会被老师提问，并且不能在上课时做其他的事情。

②如果A坐在教室前排，B坐在教室后排，A只能选择认真听课，不能做其他事情，而B可以认真听课，还可以做自己喜欢的其他事情，这时A的收益为0，B的收益为2。反之如果B坐在教室前排，A坐在教室后排，A的收益为2，B的收益为0。

③如果A和B都坐在教室的后排，两人虽然都可以选择听课或者做其他的事情，但没有人坐到前排，两人都会遭到老师的批评，这时两人的收益都为1。

在博弈中，A、B两人的支付矩阵如表2所示。

根据该博奔的支付矩阵不难看出，它的纯策略纳什均衡是（后排，后排）。如果是在两个满足完全理性假设的博弈方之间进行博弈，那么这个博弈的结果是A、B两人都会选择坐后排，但存在有博弈参与人理性层次很低的情况下，必然会有参与人选择坐前排，这时就需要利用理性层次较低的大规模有限理性群体复制动态博弈模型来分析该博弈。

假设坐前排学生的比例是x，坐后排学生的比例是1-x，所有学生中随机配对进行该博弈时，每个参与人可能遇到“前排”的对手，也可能遇到“后排”的对手，前者的概率是x，后者的概率是1-x。“前排”和“后排”两种类型参与人各自的期望收益uf和ub分别为：

uf=x·1+（1-x）·0=x ub=x·2+（1-x）·1=x+1

教室内所有学生的平均收益为：

u=x·x+（1-x）·（x+1）=1

根据上述结果可以看出，“后排”类型参与人的期望收益高于“前排”类型参与人的期望收益，也高于教室内所有学生的平均收益。当收益较差的参与人，即“前排”类型参与人发现坐在“后排”对自己更有利时，他们就会改变策略，从而坐到教室“后排”。这种动态变化的速度可用微分方程（2）表示：

=（1-x）（ub-u）=（1-x）x=x-x2（0？燮x？燮1）（2）

当x=0时，变化速度为0。即初始时刻没有选择坐前排的学生，那么选择坐前排的学生就不会出现。

当0

当x=1时，变化速度为0，即所有学生都选择坐后排，“后排”的学生数量不再变化。

微分方程（2）的相位图如图1所示。

根据微分方程（2）和相位图1可知，除了x=0以外，该博弈从其他初始情况出发的复制动态过程，最终都会使所有博弈方趋向于选择坐后排，即x=1。x*=0和x*=1是上述复制动态的两个稳定状态，x*=1是现实中出现的稳定状态。

当x*=1时，所有学生全部选择坐在后排，有限理性参与人的学习过程停止，所有参与人都通过学习找到了最好的策略。

当代课老师发现教室前两排无人坐时，对全班同学进行了批评教育，这时少数听话的学生就按照老师的要求坐在了前两排，我们假设比例为？着的学生坐在了前两排（记为前排），比例为1-？着的学生依旧坐在后排。这时，选择“前排”学生的期望收益为：

对比（3）（4）两式可知，选择坐前排学生的收益小于选择坐后排学生的收益，同时也低于教室内所有学生的平均收益，因此坐前排的学生会转变策略，最终仍然会趋向于x*=1，即所有学生都选择坐在后排，复制动态博弈最后依然收敛到x*=1，即x*=1是一个稳定状态。

对比可知，x*=1不是稳定状态。当有少数学生选择后排，即偏离0时，选择后排的学生会越来越多，最终导致趋向于1。

3 结论

本文运用大规模有限理性群体复制动态博弈模型，结合了大学生在上课时坐在教室前排和坐在教室后排时的收益情况，分析了大学生上课选座位的动态演化过程。结果表明：在教室座位有空缺的条件下，大学生会倾向于坐在教室后排而不是教室前排，最终全部坐在后排导致前排无人坐，即使少数学生偏离了该稳定状态，复制动态最终依然会收敛于上述稳定状态。因此，要纠正大学生选择坐后排而不坐前排的问题，仅仅依靠老师在课堂上的监督与叮嘱是远远不够的，学校应该考虑从教学方式、教学内容和课程安排等角度另谋良策，才有可能根治这一问题。

参考文献：

[1]闫建章，刘凌燕.大学生上课为何爱坐后排[J].中国教育报，2011-05-23（006）：23.

[2]卢方元.环境污染问题的演化博弈分析[J].系统工程理论与实践，2011，9（9）：148-149.

[3]谢识予.有限理性条件下的进化博弈理论[J].上海财经大学学报，2001，3（5）：2-3.

[4]王先甲，全吉，刘伟兵.有限理性下的演化博弈與合作机制研究[J].系统工程理论与实践，2011，31（1）：83-84.

[5]吴昊，杨梅英，陈良猷.合作竞争博弈中的复杂性与演化均衡的稳定性分析[J].系统工程理论与实践，2004，2（2）：91.

[6]孙庆文，陆柳，严广乐，车宏安.不完全信息条件下演化博弈均衡的稳定性分析[J].系统工程理论与实践，2003，7（7）：11.

[7]刘德海，王维国，孙康.基于演化博弈的重大突发公共卫生事件情景预测模型与防控措施[J].系统工程理论与实践，2012，5（32）：937.

[8]王玉燕，李帮义，申亮.两个生产商的逆向供应链演化博弈分析[J].系统工程理论与实践，2008，4（4）：43.

[9] 李树祥，梁巧转，伍勇.海关走私监管的演化博弈分析[J].系统工程理论与实践，2009，5（18）：29-30.

[10][11]谢识予.经济博弈论[M].上海：复旦大学出版社，2007.01.