风险敏感马氏决策过程与状态扩充变换*

2023-02-03马帅夏俐

中山大学学报(自然科学版)(中英文) 2023年1期

马帅，夏俐

中山大学管理学院，广东广州 510275

马氏决策过程（MDP，Markov decision process），又称马氏控制过程（controlled Markov process）或随机动态规划（stochastic dynamic programming），其主要研究对象是转移结构受控的随机动态系统。根据系统的状态，决策者选取一个动作来控制或影响系统的演化，这种状态-动作映射即为一个策略。在无后效性的策略作用下，MDP将产生一个含报酬信号的马氏过程（MRP，Markov reward process）。在随机报酬过程{Rt}的基础上，MDP的优化准则（optimality criterion）量化了策略的性能。经典的优化准则主要考虑风险中性（risk-neutral）的累计报酬期望，主要分为累积（折扣）准则与长期平均准则。由于期望准则满足全期望公式且具有时间一致性（time-consistency），该准则下的最优策略可通过Bellman 最优方程迭代得到。由于风险中性优化准则的良好性质，此类准则已被广泛研究［1-2］。然而经典理论中无风险概念的优化准则无法满足诸如金融、交通、医疗与能源等领域中风险敏感（risk-sensitive）工程问题的实际要求，即决策者难以接受伴有高风险的高收益。

随着人们对风险的愈发重视，针对MDP 中风险准则的研究渐受关注。该研究通常包含两类问题，一类是当MDP 模型信息不完备，由参数不确定性造成的风险。此类问题通常被称为鲁棒控制（robust control），决策者需针对最坏情况下的参数组合进行优化［3］。本文主要研究由MDP 内在随机性引起的风险，此类问题被称为风险敏感MDP（risk-sensitive MDP）。风险敏感MDP 是一个重要研究方向，通常对标风险中性MDP，与鲁棒控制和微分博弈（differential game）存在密切的联系，是对传统风险中性MDP 的扩展。风险敏感MDP 中，决策者需选取一个最优策略，在该策略下可以生成一个“好”的随机报酬过程{Rt}，其中Rt为t∈N 时刻所得一步报酬。对“好”的量化体现于优化准则中，通常用风险测度（risk measures）将一个策略下的{Rt}转化为标量，并考查该策略是否满足可能存在的约束集。风险敏感MDP 中的风险测度ρ可以分为两类，一类着重考查{Rt}的动态性，通常定义为

其中ρt为t∈N 时刻的条件风险测度，此类风险测度被称为Markov风险测度（Markov risk measure）［4-5］。另一类测度定义在一个由{Rt}简化而来的静态随机变量，该静态随机变量通常被定义为累积（折扣）报酬或平均报酬。以无限阶段MDP为例，给定折扣因子γ∈(0，1)，其累积折扣报酬定义为

该随机变量也被称为收益（return），经典的期望准则与一系列风险测度皆定义于此类静态随机变量。相比于Markov 风险测度，基于静态随机变量的风险测度被广泛研究，主要可分为三类：基于方差的测度、基于效用的测度与基于分位数的测度。

方差作为随机变量的中心二阶矩，是一种天然的风险测度。风险敏感MDP中的方差准则包括：

收益方差V(Φ)，该准则针对收益的方差进行优化。Sobel 为带有确定性报酬的MRP 收益方差给出了解析解［6］。Mannor 和Tsitsiklis 证明了有限阶段的均值-方差问题为NP-难［7］。Tamar 等［8］为多种基于收益方差的优化准则提出了基于策略梯度的优化方法。Xie等［9］针对均值-方差问题提出了坐标下降法。

相比于前两类方差，该准则旨在量化一步报酬的稳定性。Sobel和Chung研究了带有均值约束的单链MDP中稳态方差优化问题［12-13］。Prashanth 等［14］应用Actor-Critic 算法估计策略梯度，进而优化稳态方差，该方法的局部收敛性可通过常微分方程证明。Gosavi［15］针对稳态方差提出了Q-learning算法，该算法在假设下可收敛。Xia［16］针对稳态方差的时变性，提出了“伪方差”的概念，进而提出了高效的策略迭代算法。基于该算法，Ma等［17］在稳态方差的基础上引入折扣因子，以一步报酬波动性现值的累积为优化目标，针对一类基于该方差的优化准则提出了两层优化算法框架，并在该框架下提出了值迭代算法，并证明其局部收敛性。

由于有着诸多良好性质，基于方差的优化准则被广泛应用于金融、能源、交通与制造业等领域的风险敏感决策问题。金融市场中，Markowitz将方差引入优化目标，在投资组合领域提出了均值-方差优化方法［18］。这种方法被广泛应用于投资组合及对冲等金融问题［19］。能源领域中，当间歇性清洁能源（风电、水电、太阳能等）接入电网，如何借助储能设施，建立合理的充/放电策略，使得电网的稳态负载方差较小，对电网的安全性与经济性至关重要［20］。交通系统中，交通拥堵与安全等问题往往与交通流的波动性直接相关，尤其是在不久的将来，智能网联车逐渐增多，如何调控此类异质交通流将会成为研究热点［21］。工业界中，方差可以作为产品质量控制的优化目标，进而平稳生产流程，减小产品质量波动［22］。当被考查随机变量的分布近似正态分布时，方差是一个良好的风险测度。然而当分布的对称性较差，或随机变量的正/负偏差需要区别对待时，方差不再是一个合适的优化准则。

效用理论始于经济学，最早由Morgenstern 和von Neumann于1947年提出［23］。效用理论将随机收益所产生的效用定义为确定性等价物（certainty equivalent），即与该随机收益具有相同效用值的确定性收益，该确定性收益取决于决策者对不同风险情况的主观评价。经典案例有阿莱悖论（Allais Paradox）［24］与圣彼得堡悖论（St.Petersburg Paradox）［25］。阿莱悖论表示，决策者更愿意选择100%的概率得到100 万元，而非10%的概率得到500 万元，89%的概率得到100万元，1%的概率无收益，即使前者的期望收益小于后者。该情况出现的原因被归结为确定性效应（certainty effect），即决策者过度重视确定性的收益。圣彼得堡悖论表示，人们不愿意以较大的付出来参与一场收益期望无限大的游戏。该游戏中，参与者需投掷一枚硬币，若第一次投掷为正面，可得收益2且游戏结束；若第一次投掷为反面，则继续投掷，若第二次为正面则可得得收益4，且游戏结束，如此，参与者若投掷不成功则继续投掷，直到成功。若第n次投掷成功，则收益为2n，游戏结束。人们不愿意以较大的付出来参与该游戏的原因主要被归结于决策者会弱化小概率事件的意义。上述例子中决策者的主观态度可以通过效用函数进行量化。风险敏感MDP 中，效用函数形式通常为U-1{E[U(Φ)]}.指数效用（exponential utility）是效用函数族中的经典形式，被应用于最早的风险敏感MDP模型［26］，由于其结构的良好性质，可以构成特殊的乘法形式Bellman方程。该效用可表示为

即U(x) ≔exp(βx).Chung等［27］首次针对收益的指数效用研究了基于收益分布的不动点定理。Bäuerle等［28］证明MDP中指数效用准则可通过定义扩充状态空间进而通过值迭代算法求解。Zhang为连续时间MDP中的指数效用准则建立了最优方程，并证明了最优确定性平稳策略的存在性［29］。实际工程中，指数效用准则被应用于军事［30］、金融［31］与交通［32］等领域。

分位数是对随机变量分布最直接的刻画。风险价值（VaR，value at risk）是一种经典的基于分位数的测度，它起源于金融界，由JP 摩根（J P Morgan）于20 世纪80 年代提出，并于90 年代被列入到《巴塞尔协议》中。作为商业银行资产风险评估的标准之一，VaR 刻画了在一定的概率水平（α）下收益的最小可能值（τ）。从数学上讲，数值对（τ，α）为随机变量累积分布函数（CDF，cumulative distribution function）上的点，而α-VaR 即α分位点。Filar 等［33］为风险敏感MDP 中基于VaR 的研究定义了两类问题：给定α下τ的优化与给定τ下α的优化。虽然两个问题都是对收益CDF 的直接优化，但在风险敏感MDP 中的方法却不尽相同［34］。VaR 虽然是一种直观的风险测度，但并不具有良好的数学性质（如凸性），不能很好地度量尾部风险，且不满足一致性公理。在VaR 的基础上，Rockafellar 等［35］于2000 年提出一种新的风险测度——条件风险价值（CVaR，conditional VaR）。CVaR 又被称为expected shortfall、average value at risk 或expected tail loss，它量化了在收益不小于给定VaR 值的条件下收益的平均值。与VaR 相比，CVaR 满足次可加性、正齐次性、单调性及传递不变性，因而CVaR 是一种一致性（coherent）风险测度［36］。由于具有较好的数学性质，CVaR在风险敏感MDP中具有较为广泛的研究。Borkar和Jain针对带有CVaR约束的有限阶段MDP问题提出了动态规划算法，并证明了算法的收敛性。然而该算法涉及连续变量的积分，在实际应用中难以实施［37］。Bäuerle和Ott证明了CVaR准则下存在最优Markov策略，该策略定义在包含了累积报酬的扩充状态空间上［38］。基于该扩充空间，Haskell 和Jain 为CVaR 准则下的MDP 问题提出了基于数学规划的算法，然而该非凸规划需要通过求解一系列的线性规划进行近似求解［39］。Prashanth 针对带有CVaR 约束的MDP问题提出了策略梯度算法，该算法可收敛至局部最优［40］。Chow 等从鲁棒优化的角度分析了CVaR 准则下的MDP 问题，证明了其与带约束鲁棒优化问题的等价性，并提出了近似值迭代算法［41］。除了金融领域［42］，CVaR也被广泛应用于能源［43］、交通［44］与医疗［45］等领域中。针对CVaR的综述，见文献［46］。

由文献综述可见，针对不同的风险测度，学者们提出了诸多理论方法，然而理论方法与工程问题常存有差异。对于风险敏感MDP 而言，这种差异的主要形式之一就是报酬函数的差异。当系统的不确定性来源复杂时，风险敏感MDP 中的报酬函数形式将随之变得复杂。理论方法中的MDP 报酬通常是确定性的、基于当前状态的［47-51］，即Rt=r(Xt，Kt)，其中r为报酬函数，Xt与Kt分别为t∈N 时刻的状态与动作；而工程问题中的报酬可能是随机的、基于状态转移的，如Rt～r(Xt，Kt，Xt+1)，其中r为报酬分布函数。这种报酬函数形式的差异对风险中性的期望准则而言无关紧要，通常方法即将报酬函数进行线性简化（见定义1）。然而对于风险敏感MDP 而言，这种对报酬函数的简化将改变随机报酬过程{Rt}，进而改变绝大部分风险测度。以累积折扣报酬的方差为例，Sobel 为带有确定性报酬函数的无限阶段离散MRP给出了方差评估算法，然而该方法无法直接应用于带有随机报酬的MRP［6］。针对此类问题，一种解决方案是对报酬函数进行简化，然而该简化将改变MRP 的{Rt}，进而改变累积折扣报酬的方差。另一种方法是针对此类问题开发专门的（ad hoc）算法，但这种算法的设计开发需要工程相关的从业人员对问题本质有着深度的理解。如何从实际问题出发，考虑绝大部分风险测度，将针对简单模型的理论方法与实际中的复杂工程问题合理对接，是风险敏感MDP中的一个重要问题，具有一定的理论意义和广泛的应用背景。

状态扩充变换（SAT，state augmentation transformation）针对风险敏感MDP，将带有复杂报酬函数的MDP 变换为带有简单报酬函数的MDP，且保证相同策略（原始策略与对应扩充策略）下MRP 的随机报酬过程{Rt}不变。本文针对MDP中的策略评价，通过数值实验，在给定策略下的MDP中考查三类常用的风险测度：方差、指数效用与条件风险价值，并对比通过SAT 与报酬函数简化所得三类风险的差异，进而验证SAT对带有复杂报酬函数/随机策略的MDP中风险敏感策略评价的有效性。理论验证与数值实验均表明，当报酬函数形式较为复杂时，状态扩充变换可在简化报酬函数的同时保持风险测度不变。故而在不确定性来源复杂的风险敏感工程问题中，需通过SAT 而非简化报酬函数来对MDP进行报酬函数形式上的简化。最后，讨论SAT的一些潜在发展方向。

1 风险敏感MDP模型

1.1 MDP模型

本文主要研究无限阶段时齐（time-homogeneous）离散MDP，其状态与动作数量均为有限。一个MDP可定义如下：

（i）确定性的、基于状态的报酬rDS：S×A→R；

（ii）确定性的、基于状态转移的报酬rDT：S×A×S→R；

（iii）随机性的、基于状态的报酬rSS：S×A→Δ(R)；

（iv）随机性的、基于状态转移的报酬rST：S×A×S→Δ(R).r∈{rDS，rDT，rSS，rST}为系统的报酬函数或报酬分布函数，令Rt∈[-C，C]为t时刻的一步报酬，其中C∈R 为一步报酬绝对值的上确界。简洁起见，相同报酬函数表述也被使用于MRP。对于随机性报酬，本文仅考虑离散随机报酬分布。

策略描述了决策者如何选择动作。针对无限阶段MDP，本文仅考查平稳Markov策略，即当前动作的选择仅依赖于当前状态而非整个历史，且策略不随时间改变。用D表示平稳Markov策略空间，其可进一步分为确定性策略空间Dd与随机性策略空间Dr。M在策略d∈Dd的作用下将构成Md=S，rd，pd，μ，γ②此处忽略策略对状态空间的可能影响。。需注意的是，M在策略d∈Dr的作用下构成的Md不能直接表述为S，rd，pd，μ，γ，这是因为该表述暗示了报酬函数的部分简化，进而改变{Rt}。这也是下文中，情况3无法与情况2建立等价性的原因。

定义1(报酬函数线性简化）给定一个M与策略d∈D，若所得MRP的报酬（分布）函数rd非rDS型，则可通过计算条件期望将rd简化为rDS。考虑最一般化的形式，以一个带有rST的M在随机策略d∈Dr下所生成的Md为例，其报酬函数可作如下线性简化：

其中supp{rd( · |x，a，y)}表示分布rd( · |x，a，y)的支集（support）。

当优化准则为风险中性的平均准则或折扣准则时，报酬函数的线性简化不会影响策略的最优性。然而优化目标为风险测度时，报酬函数的线性简化将改变Md的{Rt}，进而改变策略的最优性。下文将介绍三种常用风险测度的计算或估计。

1.2 风险测度

本部分内容主要介绍三种经典风险测度：方差、指数效用与CVaR。针对MRP的收益，三种风险测度可定义如下。

方差方差作为随机变量的中心二阶矩，是最具代表性的风险测度之一。MRP中收益的方差定义为

其中Eμ与Vμ为给定系统初始状态分布μ时的期望与方差。Sobel基于Bellman 方程，为带有确定性报酬的MRP中收益的方差提供了一种高效计算方法。

定理1为MRP收益的方差给出了一种类Bellman方程的高效算法，但该算法仅针对带有确定性报酬的MRP。

指数效用给定一个风险敏感系数β∈R，MRP的指数效用为

其中O( · )为无穷小渐近。由此可知，当β＜0 时，该准则为一种风险规避准则。当β足够小时，该准则可以用收益的期望与方差近似估计。

CVaR CVaR 是当收益值超过某置信度下的VaR 情况时的条件数学期望，VaR 是收益在给定置信度α∈(0，1)下的最小收益值。给定一个置信度α，MRP的VaR定义为：

虽然CVaR 作为一类一致性风险测度，具有良好的数学性质，但难以在MRP 中被高效评估。本文通过假设收益的分布近似服从正态分布，进而对指数效用与CVaR进行近似估计。

假设1 MRP的收益近似服从正态分布。

在假设1下，CVaR可如下估计：

其中g与G分别表示标准正态分布N (μ，σ2)的概率密度函数和累积分布函数，该式被称为逆米尔斯比率（inverse Mills ratio）。更多常用常见分布的CVaR表达式可见文献［52］。

当一个带有rST的MDP/MRP 需要应用一种针对带有rDS模型的理论方法时，该如何处理方法与模型在报酬函数上的差异？一种方法是为特定问题开发新算法，但这种方法需要工程相关的从业人员对问题本质有着深度的理解。另一种方法是应用SAT将其变换为一个带有确定性报酬的MDP/MRP。

2 状态扩充变换

针对理论方法与实际问题由于报酬函数的差异而引起的风险测度优化与评估的问题，本文研究了状态扩充变换（以下简称SAT）［53］。该方法针对上述问题，从策略优化与评价两个角度为两类MDP/MRP建立等价形式，即对于一个带有复杂报酬函数的MDP/MRP，SAT 可以将其转换为一个带有简单报酬函数的MDP/MRP，且两者的{Rt}相同。本文针对MDP 中的策略评价，考查三类不确定性来源：由状态转移导致的不确定性、报酬本身的随机性与策略的随机性。将不确定性来源依次扩展，定义如下三种情况。

情况1：带有rDT的Md；

情况2：带有rST的Md；

情况3：带有rST的M和一个d∈Dr.

其中情况1 为早期SAT 考虑的问题，因其针对带有基于状态转移报酬函数的MRP，故又称状态转移变换［54］。情况2 为情况1 的拓展，考虑了更一般化的报酬函数。情况3 将问题进一步扩展，将由策略引起的随机性考虑进来。三种情况中前者为后者的特殊形式，若以“ ≺”表示此种关系，则有

对于情况3下的SAT有如下定理。

定理2（SAT 作用下的随机报酬过程等价性）对于任意MDPM=S，A，r，p，μ，γ，其中r为rST形式，在策略d∈Dr下所产生的Md与SAT变换所得M†d的{Rt}相同。

证明考虑Md下任意样本路径ω=(s0，a0，s1，j1，a1，s2，j2，a2，…)。对任意t∈N，令ω(t) =(s0，a0，s1，j1，a1，s2，j2，a2，…，st，at，st+1，jt+1)及其概率P(Ω(t) =ω(t))。对应该样本路径，在M†d下

该定理描述了情形3 中两个带有不同类型报酬函数的MRP 关于{Rt}的等价性，而当两个MRP 的{Rt}相同时，其风险测度必然相同。针对MDP 的SAT 被证明于文献［53］，并于文献［55］从概率空间的角度被进一步补充。值得注意的是，当直接将SAT 应用于MDP进行策略优化时，由于状态空间的扩充，对应策略空间也需要扩充。应在扩充策略空间上增加相应约束，进而保证其与原策略空间的一一映射关系，详见文献［55］。由定理2出发，可得针对情况1与2的推论，此处以情况2 为例给出相应推论。

针对该推论的证明详见文献［53］。依据推论1，以一个带有rSS报酬函数的二状态MRP 为例，SAT 的作用如图1 所示。图中圆圈表示随机过程的状态，箭头表示状态转移，其上方的数字表示对应的转移概率，状态旁的方框表示报酬，随机性报酬表示为报酬值与括号中的概率。该图示直观地解释了SAT 在简化报酬函数的同时保持{Rt}不变的原理，即将对一步报酬有影响的因素综合为一个扩充状态，该扩充状态可以被理解为与报酬对应的“情况”。SAT作用下产生的随机过程保留了原过程的Markov性，且新的转移核可由原MRP 的转移核与报酬/策略的分布计算而得。图1 中，带有随机报酬的状态y被扩充为两个状态：y1与y2，分别代表了状态为y时，获取报酬值为-1 与1 的两种“情况”。基于扩充状态空间，该MRP的转移概率可由原转移概率与状态y上的报酬分布计算而得。

图1 一个MRP在报酬函数线性简化与SAT作用下的两种变换Fig. 1 The linear reward simplification and the SAT on an MRP

3 数值实验

本部分内容以图1 所示MRP 为例，通过数值实验考查报酬函数简化对三种风险测度的影响，同时验证SAT的有效性。由于指数效用与CVaR的估计均基于假设1，首先验证该假设对于此MRP是否成立，该验证可量化为近似分布与真实分布的误差分布的尾部概率。

3.1 近似分布的误差

当ACDF与AECDF相似度较高时，该近似分布的误差概率界效果较好。

3.2 仿真结果

设初始分布μ(x) = 1（即初始状态为x），γ=0.95，M=20，N=100，H=500，此时δ'≤1.454 9 × 10-10。通过应用Monte Carlo 仿真模拟，可获取N个分位数的均值与样本标准差，进而绘制带有误差区域的AECDF。分别计算报酬函数简化与SAT 作用后的MRP 的期望与方差，并在假设1 下绘制两者的ACDF。三条分布曲线如图2 所示。由图可见，在假设1 下，SAT 所得收益的ACDF 与AECDF 相似度较高（δ≈0.016 3），而报酬函数简化所得收益的ACDF与AECDF相似度很低。

图2 近似经验分布（AECDF）与假设1下的两个近似分布（ACDF）对比，两者的方差分别在报酬函数简化与SAT作用下通过定理1进行估计Fig. 2 A comparison between the approximated empirical CDF and the two approximated CDFs,whose variances are calculated by Theorem 1 with the aid of the SAT and the reward simplification,respectively

SAT与报酬函数简化作用下MRP的三种风险测度与仿真结果对比于表1。通过对比可见，SAT下的方差和CVaR与仿真结果较为接近，而报酬函数简化下的结果则相差甚远。在不同风险敏感参数下对比指数效用，可见相对报酬函数简化下的结果，SAT 所得结果与仿真结果更为接近。随着风险敏感参数的增大，SAT对指数效用的估计精度也逐渐降低，这是因为式(1)中的误差项随着风险敏感参数的增大而增大。

表1 三种风险测度在SAT、报酬函数简化与仿真模拟中的结果对比Table 1 The comparison among the three risk measures with the SAT，the reward simplification and the simulation

4 结论与展望

风险敏感MDP 是一类广泛且重要的随机动态决策问题，由于不同风险测度的特性各有不同，且风险敏感的应用场景较多，目前研究活跃且成果丰富。然而理论方法与实际问题间常有差异，若不能妥善处理此类差异，则将错误评估风险程度，以致决策失败。本文针对无限阶段风险敏感MDP 理论方法与实际问题在报酬函数上的差异，研究了SAT 方法，并通过仿真实验，对比了SAT 与报酬函数简化对三类常用的风险测度的影响。数值结果显示，通过SAT 所得到的数值与仿真结果较为接近，而报酬函数简化将大幅改变风险测度值。SAT的本质在于通过扩充状态空间，保留了完整的{Rt}信息，进而在简化报酬函数的同时保持风险测度不变。该方法为理论研究提供了带有不同报酬函数的MRP 间的等价性，并为相关从业人员提供了一种直接将理论方法应用于复杂实际问题的解决方案。

SAT 在策略评价情景中的应用较为直观，而在决策优化情景中的应用则较为复杂。将SAT 直接应用于MDP进而优化决策时，由于扩充了状态空间，该MDP的策略空间也被扩充，故需对扩充策略空间加以约束，以保证与原策略空间的一一对应。SAT 的另一个问题是状态空间规模的扩充导致问题维度组合式增大。考虑到定义在扩充状态空间上的转移概率与原MDP 的转移概率信息量相同，如何降低扩充问题的维度是值得研究的问题。Ma 和Yu 针对扩充状态的相似性，给出了状态归并（state lumping）的条件，满足该条件的状态可归并为一个状态，且不影响风险测度［55］。处理该问题的另一种思路是从报酬值的差异程度出发，当两个扩充状态由同一原始状态扩充而来，且两者报酬值差异不大时，可近似为一个状态，这种近似会导致风险测度的改变，而这种差异的上界应为报酬值差异的函数。