基于信号博弈模型的交通诱导－路径选择分析

2015-04-18王中奇

武汉理工大学学报（交通科学与工程版） 2015年3期

王中奇马俊

（北京交通大学交通运输学院1）北京 100044）（北京信息科技大学机电工程学院2）北京 100192）

0 引言

交通诱导是一种非强制性的交通管理手段，交通管理者期望通过发布诱导信息合理地分配路网流量以使网络整体出行费用最低，而出行者的目标是使个人出行费用最少.当网络略去拥挤效应时Wardrop系统最优和用户均衡是相等的［1］，而在网络拥挤情况下交通管理者与出行者的目标并不完全一致.因此，在交通诱导系统中交通管理者与出行者之间存在一种博弈关系，两者之间的互动决策过程会对路网交通流分布产生影响.博弈论很早在交通领域就有应用，Chen等［2］应用Cournot模型、Stackelberg模型和Monoply模型等，把动态交通控制和动态交通分配结合为交通管理者和出行者之间的非合作博弈；李艳君［3］在系统最优的原则下制定诱导与交通控制结合的交通管理策略，建立了以管理者为主出行者为从的Stckelberg模型；李学勇等［4］为实现路网流量的Nash均衡，建立了交通出行诱导离散Stackelberg动态博弈模型，并用逆向归纳法进行模型求解，进而得到用于网络发布的诱导策略.上述相关研究中所建立的模型均为静态博弈，交通领域的很多问题可以等价为非合作Nash均衡和Stackelberg博弈［5］.但是，在真实驾驶环境下出行者通常只能对当前所处路段的交通状况有一个认识而很难获知所处路网的交通状态，出行者只能通过管理者所发布的诱导信息对路网的交通状态做出判断进而选择出行路径.静态博弈模型不能体现真实路网中交通管理者与出行者之间的信息不对称性，为此，刘建美等［6］提出诱导－出行信号博弈模型，并通过虚拟行动模型验证了均衡解的合理性.交通管理者的诱导信息发布与出行者的路径选择之间的博弈关系符合不完全信息动态博弈中信号博弈模型所描述的情形，本文借助在信息经济学领域广泛应用的信号博弈模型来对两者之间的博弈行为进行分析，并提出基于分离均衡点的诱导信息的分类方法，对诱导信息生成策略的研究提供了一种新的思路.

1 交通管理者与出行者之间的信号博弈模型

单个出行者对路网交通状态的影响可以忽略，此处考虑的是路网同一OD对间具有一定数量出行者的集体行为特征.

1.1 模型假设和说明

1）采用交通拥堵指数（TPI）描述路网交通状态，把路网状态分为“畅通”“基本畅通”“轻度拥堵”“中度拥堵”“严重拥堵”5种.不同日期（工作日或节假日）不同时段同一路网各种交通状态出现的概率是不同的，一般可以根据历史数据统计得到.某些路网早晚高峰等特定时段“畅通”状态出现的概率可以认为为0，且交通诱导对“畅通”路网运行状况的改善作用有限，故本文不考虑路网“畅通”的情形.

2）管理者向使用者发布的诱导信息为诱导路径和预期旅行时间.

3）随着路网规模的增大，出行路径迅速增加.对于具有一定规模的路网，可以近似认为交通管理者与出行者的策略在区间［0，1］是连续的.用M＝［0，1］之间的实数m来描述所发布的诱导信息，m＝0表示发布按随机用户最优分配的诱导路径，以下简称随机用户最优路径，m＝1表示发布按系统最优分配的诱导路径，以下简称系统最优路径；（0，1）间的实数m趋于0表示诱导路径趋于随机用户最优，m趋于1表示诱导路径趋于系统最优；出行者的策略空间用区间A＝［0，1］之间的实数a表示，a＝0表示出行者选择随机用户最优路径，a＝1表示出行者选择系统最优路径，（0，1）间的实数a趋于0表示出行者选择路径趋于随机用户最优路径，a趋于1表示出行者选择路径趋于系统最优路径.

4）出行者根据以往使用诱导信息的经验建立对交通管理者的信任，交通管理者形成对出行者的信誉，交通管理者信誉越高出行者对诱导信息的服从率越高，诱导信息发布的效果越好.诱导路径与出行者感知效用最大路径的差异会影响服从率，两者差异越大，诱导信息的服从率越低，这里将按随机用户最优分配的诱导路径近似看作出行者感知效用最大路径.交通诱导系统中交通管理者发布诱导路径需要承担信誉成本，所谓信誉成本就是发布高信号即趋于系统最优的诱导路径之后，诱导信息服从率降低所造成的诱导效果减弱和由于信誉受损导致的管理者未来收益降低.信誉成本在某种程度上是一种预期信用损失.诱导路径越是趋于系统最优，管理者承担的信誉成本越高.

5）对于一定数量的出行者，所有出行者关于路网状态的推断是相同的，所有出行者都可以接收到管理者所发布的诱导信息.若无诱导信息发布，出行者按随机用户最优原则选择出行路径.

1.2 模型的建立

信号博弈是2个参与者之间的非完全信息动态博弈，在交通诱导信号博弈模型中的参与人是：交通管理者（信号发送者），记为S；出行者（信号接收者），记为R.本文建立的模型属于多类型无限战略博弈（4种交通状态，参与人的策略空间为实数区间［0，1］），博弈的时间顺序如下.

1）自然根据特定的概率分布p（ti），从可行的类型集 T＝｛t1，t2，t3，t4｝中赋予发送者某种类型ti，这里对所有的i，p（ti）＞0并且p（t1）＋p（t2）＋p（t3）＋p（t4）＝1.

2）发送者观察到ti，然后从可行的信号集M＝［0，1］中选择一个发送信号m.

3）接收者观察到m（但不能观察到ti），然后从可行的行动集A＝［0，1］中选择一个行动a.

4）交通管理者与出行者的收益函数分别为Us（ti，m，a）和Ur（ti，m，a），且为双方的共同知识.

其中：T＝｛t1，t2，t3，t4｝为类型空间，表示路网交通状态，t1＝1为路网基本畅通，t2＝2为路网轻度拥堵，t3＝3为路网中度拥堵，t4＝4为路网严重拥堵.P（ti）为路网交通状态为ti时的概率.这是一个3阶段不完全信息动态博弈.首先，虚拟的局中人－自然决定当前路网的交通状态；第二阶段，交通管理者观察到路网交通状态并根据路网交通状态发布诱导信息；第三阶段，出行者根据交通管理者发布的诱导信息对路网交通状态做出判断并决定以何种程度接受诱导信息，进而做出路径选择.

2 效用函数性质分析

以往研究中，通常将交通流分配理论中系统最优和随机用户最优分配模型（或动态系统最优和动态随机用户最优分配模型）的目标函数分别作为交通管理者和出行者的收益函数，对于Stackelberg这类静态博弈模型，可以通过逆向归纳的求解方法找出理想均衡点.但是不完全信息动态博弈的求解更加复杂，解决该类问题尚无有效算法，因此，上述目标函数的设定在信号博弈模型中不适合直接作为交通管理者与出行者的收益函数.本文用交通管理者与出行者的效用函数Us（ti，m，a）和Ur（ti，m，a）分别表示两者的收益，效用函数的引入可以方便信号博弈模型的分析.这里Us（ti，m，a）表示交通管理者对诱导信息发布效果的满意程度，Ur（ti，m，a）表示出行者对接收诱导信息后行动的满意程度.

对于具有一定规模的路网，可以假设对于每个类型t，收益函数Us（ti，m，a）和Ur（ti，m，a）是关于（m，a）的连续函数.根据实际路网运行经验Us（ti，m，a）和Ur（ti，m，a）具有以下特点：

1）在某一路网状况下，若交通管理者的策略保持不变，出行者选择的出行路径越趋于系统最优，诱导信息发布的效果就越好，交通管理者的效用也越大，即给定0且为连续的.而在使用者策略不变的情况下，交通管理者发布的诱导信息越是趋于系统最优，其承担的信誉风险越高，担负的信誉成本越大，收益随之减小，即且为连续的.假设出行者了解路网交通状态，即完全信息条件下，出行者按随机用户最优原则选择出行路径，此时若管理者发布偏离该路径不大的诱导路径即小信号时，仍会有部分出行者受交通管理者积累的声誉影响采纳诱导信息，此时管理者效用是递增的，即，ε＞0且足够小.当信号m1足够大即交通诱导路径偏离随机用户最优路径一定程度时，出行者对诱导信息服从率迅速降低使得交通管理者效用降低，即＜0.完全信息条件下，在小信号范围内，相同信号改变量对路网运行状态的改善作用逐渐减小；当发送的信号超过m1时，诱导路径越趋于系统最优，诱导信息服从率下降的越快，所造成的交通管理者效用损失越大，所以诱导信息的边际效益是递减的，即0.交通管理者效用与发送信号之间的关系见图1.

图1 交通管理者效用－信号发送关系图

2）系统最优解相对于用户最优解，总出行费用的节约随交通拥挤度的增加而增加［7］，因此路网越拥挤出行者对诱导信息的需求越高.对交通管理者来说，给定使用者的策略，拥挤路网诱导信息发布的效果较好，交通管理者发布诱导信息的边际效益严格越高，即＜；路网越拥挤，出行者相同程度的路径选择调整对路网运行状态的改善效果越好，出行者的行为为交通管理者带来的边际效益递增，即.对出行者来说，给定诱导策略，路网越拥挤出行者一定范围内相同程度的路径选择调整会为其带来更大的效用，即，但是随着出行者的路径选择趋于系统最优，会造成部分出行者的收益降低，其行动为出行者整体带来的边际效用递减，即0.

3）在出行者不了解道路交通状态的情况下，交通管理者发送的信号越是趋于系统最优其承担的信誉成本越大，为使管理者的收益保持稳定，需要出行者采取更积极配合的行动才能补偿交通管理者因信誉成本增加所造成的损失，即≥0，at（m）是在交通管理者无差异曲线Us（t，m，a）＝C上接收者对类型t发送的信号m所采取的行动.在出行者了解道路交通状态的情况下，路网越拥挤，出行者能够改善自身出行的可调整的出行路径越有限，因此出行者整体的最优路径调整（，）程度越小，即0.atm为完全信息条件下，路网交通状态为t时出行者的最优反应函数.

4）当t＝4路网严重拥堵时，发送趋于随机用户最优路径的诱导路径即小信号时，出行者的行动往往低于此时的效用最大行动，即出行者的路径选择较效用最大路径更趋于随机用户最优路径；而当发送超过m′的大信号时，交通管理者的信誉成本增大，若要保持管理者效用不变，出行者需要采取高于出行者效用最大行动的行动，所选路径应更趋于系统最优以弥补发送大信号造成的损失.也就是说，存在信号m′发送者需要高于完全信息下的行动来补贴，如图2高信号示意图.

3 均衡点分析

交通管理者和出行者的之间的信号博弈模型应符合上述所做的分析，该模型满足文献［8］中对一类信号博弈模型的基本假设A1～A6.根据文献［8］中的证明，该类信号博弈模型存在惟一的分离均衡.因此，本文所建立的交通管理者与出行者之间的信号博弈模型具有分离均衡且该分离均衡是惟一的，这在实际应用中是非常有意义的.

图2 高信号示意图

根据上述对效用函数性质的分析，交通管理者的效用函数可以表示为

式中：λ为服从率；M 为一个足够大的正数；xp为路段p的流量；tp（xp）为路段p上的阻抗；m为交通管理者发布的信号；a为出行者对交通管理者发布的信号做出的反应；t为路网交通状态；θ1＞1，β＞1，两者均与路网有关；0＜b（4）＜b（3）＜b（2）＜b（1）.

出行者的效用函数可以表示为

式中：Tmax为当前路网出行时间最长路径的出行时间；Tfree为自由流最短路径在当前路网的出行时间；θ2＞1与路网有关.

在完全信息条件下出行者的最优反应函数为

式中：θ3＞0与路网有关.记（）为类型一即基本畅通路网的分离均衡点，（）为类型二即轻度拥堵路网的分离均衡点，（）为类型三即中度拥堵路网的分离均衡点，）为类型四即严重拥堵路网的分离均衡点.［（），（），（），（）］为此信号博弈模型的惟一分离均衡.

4 结束语

本文提出了交通管理者与出行者之间的信号博弈模型，该模型能够较好的描述出行者处于信息劣势的条件下两者的行为相互影响的过程.通过对建立的信号博弈模型的定性分析，得出了此博弈模型具有唯一分离均衡的结论.交通管理者可以通过信号传递帮助出行者对不同的路网状况进行区分，并根据分离均衡点选择发布相应的诱导信息，出行者可以据此选择合适的出行路径进而提高路网效率.交通管理者还可以根据分离均衡点对诱导信息进行分类，这为交通管理者制定诱导方案、发布诱导信息提供了新的理论方法.目前，对于不完全信息动态博弈问这类题尚无有效的求解算法，本文所建立的模型只涉及了相关问题的定性分析，下一步将对不同路网条件下效用函数的表示以及分离均衡的求解算法进行研究.

［1］黄海军.城市交通网络平衡分析理论与实践［M］.北京：人民交通出版社，1994.

［2］CHEN O J，BEN A M E.Game＿theoretic formulations of interaction between dynamic traffic control and dynamic traffic assignment［J］.Transportation Research Record，1998，1617：179－188.

［3］李艳君.基于博弈论的交通控制与诱导一体化模型的研究［D］.天津：天津大学，2003.

［4］李文勇，陈学武，陆建.交通出行诱导的离散Stackelberg动态博弈模型及其求解算法［J］.控制理论与应用，2009（10）：1157－1161.

［5］马寿峰，卜军峰，张安训.交通诱导系统中系统最优与用户最优的博弈协调［J］.系统工程学报，2005，30（1）：30－37.

［6］刘建美马寿峰.交通诱导－出行信号博弈分析及其虚拟行动学习模型［J］.武汉大学学报：工学版，2010，43（1）：102－107.

［7］WIE B W，TOBIN R L.Comparison of system optimum and user equilibrium dynamic traffic assignments with schedule delays［J］.Transportation Research，Par t C：Emerging Technologies，1995，36：389－411.

［8］YU Gang，SHENG Zhaohan，XIAO Tiaojun.An effective algorithm for computing equilibrium outcome of class of signaling games［J］.International Journal of Information Technology ＆ Decision Making，2002，1（2）：209－228.