基于马尔科夫模型的期望效用序贯三支决策方法

2021-07-22曹家硕李华雄贾修一

西北大学学报（自然科学版） 2021年4期

曹家硕，李华雄，闵帆，贾修一，于洪

(1.南京大学工程管理学院, 江苏南京 210093；2.西南石油大学计算机科学学院,四川成都 610500；3.南京理工大学计算机科学与工程学院，江苏南京 210094;4.重庆邮电大学计算机科学与技术学院，重庆 400065)

三支决策(three-way decisions,3WD)是一种基于人类认知的决策模式,它把待解决的问题或待处理的信息分解为3个元素或者3个部分，再进行处理。因其思想的朴素性与实用性,三支决策理论普遍存在于科学研究和日常生活等各个方面[1]。三支决策理论最初由姚一豫教授提出,是一种较新的决策分析理论,可以用于处理不完整、不精确信息[2-3]。在粗糙集理论模型中,Yao通过引入贝叶斯风险决策方法,依据最低风险代价,将划分对象集分为正域、边界区域和负域[4]。在此基础上,通过获取更多有效信息,继续对延迟区域进行三支划分,形成了序贯三支决策模型,适用于处理动态、复杂、不确定性的问题[5]。

目前，对三支决策的研究主要集中在理论扩展、模型改进和实际应用上。

1) 在理论扩展方面,研究主要集中在概念分析、阈值确定和属性约简等方面的研究。魏玲等对三支概念分析进行了系统的研究[6-9]。周献中等利用概率语言术语集来确定阈值概率[10]。刘盾、李天瑞等在三支决策粒计算方面进行了理论扩展[11-12]。于洪、王国胤等将聚类算法和属性约简引入到决策理论粗糙集,重新划分了三支决策区域[13-14]。张清华等从模糊集角度对三支决策进行了系统研究[15-16]。孙秉珍等在2个全集上建立了三支决策粗糙集[17]。李金海等在三支决策概念方面做了系统地研究[18]。折延宏等在多尺度决策表方面对决策规则进行了拓展研究[19]。

2) 在模型改进方面,研究主要集中在将效用理论、罚函数、混淆矩阵等引入三支决策建立新的模型。王天行、李华雄等将前景理论、累积前景理论等引入到了三支决策[20-24]。姚一豫等将序贯粒度属性约简引入到了序贯三支决策[25]。张清华、王国胤等从相邻两个粒度层的分类精度差异出发，提出了一种基于罚函数的序贯三支决策,并通过引入效用理论提出了一种效用三支决策[26-27]。苗夺谦等通过引入混淆矩阵建立了新的三支分类器模型[28]。闵帆等通过引入聚类选择算法提出了三支主动学习模型[29]。贾修一等通过提出一种自动选择簇号的方法改进了三支聚类方法[30]。王平心、杨习贝等引入关联矩阵和确定性函数提出了新的三支聚类方法[31]。

3) 在实际应用方面,研究主要集中在将三支决策应用到人脸识别、医疗诊断、投资金融等方面。刘盾等将三支决策应用到了投资决策方面[32-34]。祁建军等在冲突分析方面进行了三支决策的相关研究[35]。梁德翠等将三支决策模型应用到了众包任务分配方面[36]。

投资问题必然伴随着投资决策。目前,在投资决策方面的研究,徐泽水等提出了多维偏好线性规划法来解决铁路投资问题[37]。廖诺等通过引入遗传算法以节能减排为目标解决了建筑投资问题[38]。李晓彤等通过构建信息安全投资决策博弈模型来解决企业投资问题[39]。如图1所示,投资决策与三支决策具有天然的一致性,三支决策的正域与决策进行投资相对应,负域与决策不进行投资相对应,边界域与决策暂且观望并收集更多信息相对应。

图1 三支决策模型Fig.1 Trisecting-and-acting model of three-way decisions

刘盾等曾就投资问题建立起三支决策模型以解决石油投资问题[32],然而，该模型未考虑投资者的投资效用问题,投资的收益和风险也未考虑动态序贯的过程。因此,为解决动态序贯的投资决策问题,本文将通过引入期望效用理论来模拟投资人的投资偏好,使用马尔科夫预测方法模拟估计投资预期收益和风险,提出了一种序贯三支决策模型,以期望能为投资问题提供新的思路。

1 相关工作

1.1 序贯三支决策

假设状态集Ω={X,X}表示2种状态,本文对象属于X和属于X的补集分别表示投资在未来预期具备高收益和预期不具备高收益。行动集A={aP,aB,aN}中的aP,aB和aN分别代表进行投资,无法判定和不进行投资3种决策行动,在实际决策过程中,不同状态下采取不同行动往往会产生不同的损失代价。表1给出了相应的决策代价损失,其中λPP,λBP和λNP为对象属于状态X时,分别采取行动aP,aB和aN对应的代价损失;λPN,λBN和λNN为对象不属于状态X时,分别采取aP,aB和aN行动的代价损失。在经典三区域决策模型中,决策代价损失均以实值表示。

表1 代价损失矩阵Tab.1 Loss function matrix

事实上,对于对象[x]([·]表示等价类),采取不同行动所产生的风险代价可计算为:

R(aP|[x])=λPPPr(X|[x])+

λPNPr(X|[x])；

R(aB|[x])=λBPPr(X|[x])+

λBNPr(X|[x])；

R(aN|[x])=λNPPr(X|[x])+

λNNPr(X|[x])。

依据贝叶斯最小风险决策原则,最小成本决策规则可归纳为:

(P1) 如果代价R(aP|[x])≤R(aB|[x])且R(aP|[x])≤R(aN|[x]),则x∈POS(X);

(B1) 如果代价R(aB|[x])≤R(aP|[x])且R(aB|[x])≤R(aN|[x]),则x∈BND(X);

(N1) 如果代价R(aN|[x])≤R(aP|[x])且R(aN|[x])≤R(aB|[x]),则x∈NEG(X)。

考虑到一种合理情形,即

λPP≤λBP<λNP且λNN≤λBN<λPN。

假设决策边界域存在,则有

(λBP-λPP)(λBN-λNN)<

(λPN-λBN)(λNP-λBP),

则上述决策规则(P1)～(N1)可进一步简化为:

(P2) 若满足条件Pr(X|[x])≥α，则

x∈POS(X);

(B2) 若满足条件β

x∈BND(X);

(N2) 若满足条件Pr(X|[x])≤β,则x∈NEG(X)。

其中：

否则,决策规则(P1)～(N1)表示为:

(P3) 若Pr(X|[x])≥γ,则x∈POS(X);

(N3) 若Pr(X|[x])≤γ,则x∈NEG(X)。

其中,

在边界域决策的过程当中，需要更准确的划分它的正域、负域和边界域,形成一个序贯的、多粒度、多层次的决策结构,构成一个序贯三支决策过程。序贯三支决策是一种从粗粒度到细粒度的动态决策过程。在每个粒度级别,当没有足够的可用信息来支持最终决策时,会采用延迟决策。在添加更多信息后,在下一个粒度级别继续进行三支决策。假设(αi,βi)为第i层粒度下的决策阈值,则基于(αi,βi)的正域、边界域和负域分别为:

POS(αi,βi)(Xi)={x∈Ui|Pr(Xi|

[x]≥αi)};

BND(αi,βi)(Xi)={x∈Ui|βi

[x]<αi)};

NEG(αi,βi)(Xi)={x∈Ui|Pr(Xi|

[x]≤βi)}。

其中,Xi表示第i层粒度结构的目标概念,即第i层粒度结构下投资项目的决策结果,Xi⊆Ui；Ui表示第i层粒度结构下需要决策的投资项目,即第i层粒度结构的论域。

经过第i层决策后,得到边界域BND(αi,βi)(Xi)中的对象,将在第i+1层重新进行投资决策。因此，Ui+1=BND(αi,βi)(Xi)满足Un⊂…⊂U2⊂U1。此外,第i+1层的目标概念Xi+1=Xi∩BND(αi,βi)(Xi)满足Xn⊂…⊂X2⊂X1。

序贯三支决策多层次处理问题的过程中,当获取的信息不足时,把对象划分到边界域中,当获取到有效信息时继续对边界域中的对象进行划分,这种对象的认识粒度由粗逐渐变细的过程,为许多实际问题的解决提供了方法,能够有效解决多粒度、多层次的问题。

1.2 期望效用理论

序贯三支决策的边界域的确定，即阈值的获取是受到广泛关注的问题。对于投资决策问题，可以通过期望效用理论来刻画决策者的投资感受。决策人对于期望收益值的满意程度就叫做投资决策的效用。在决策理论中,决策结果对决策人的实际价值,即决策人对结果的偏好次序是用效用来描述的。效用就是偏好的量化[27]。偏好次序如下:

1)x≥y:弱偏好于x,即x至少与y一样好;

2)x≻y:强偏好于x,其中x≻y⟺x≥y但

y≥x不成立;

3)x～y:对x,y无差异,即x～y⟺x≥y且y≥x。

当考虑不带不确定性的一般经济均衡讨论中,经济活动者的行为是以效用函数期望最大化来进行决策的。当考虑带不确定性的经济均衡讨论中,则假定商品的量均是随机变量,它们的取值将取决于不确定的状态。当效用函数遇到不确定现象时比如投资决策中投资者的满意程度,这种模糊的概念比较难以确定其准确值,因此，就引出了期望效用的概念。假设投资的效用是一个随机变量u,它可能取2个值

ui=u(ωi),i=1,2。

并且，u=ui的概率分别是π1和π2,那么，u的期望值Eu=π1u1+π2u2就是投资的期望效用。对于期望效用函数, 它的数学性质可以反映人的行为特性。因为期望效用是不一定能实现的, 真实的效用会比它高或比它低, 有不确定性。达不到预期的效用就造成了损失, 形成风险。对待风险的态度可分为3种:风险厌恶、风险中性、风险偏好, 如图2所示。

1)若效用函数是凹函数,如图2中曲线a有u(Eω)>Eu(ω)，即期望的效用好于效用的期望,则相应于风险厌恶者;

2)若效用函数如图2中直线b满足u(Eω)=Eu(ω)，即期望的效用等于效用的期望,则相应于风险中性者;

3)若效用函数是凸函数,如图2中曲线c有u(Eω)

图2 效用函数类型Fig.2 Types of utility function

经典的资产定价理论中介绍了多种形式的效用函数,而一般认为投资者是属于风险厌恶的。因此,最常用的投资者的效用函数是二次型效用函数，为

二次型效用函数具有递增绝对风险厌恶的性质。如果投资的收益率服从正态分布(即满足马科维兹均值-方差模型的分析假设条件),同时，投资者效用函数为二次型,那么，不论投资者的风险偏好程度如何,他们在资产组合的有效边界中总能确定一个最优资产组合。

1.3 马尔科夫预测方法

二次型效用函数对效用的计算需要投资的收益值与风险值,因此，需要对投资的收益和风险进行预测。在投资决策中,对于投资收益率、投资的风险等变量进行预测十分重要,也是很多学者努力研究的方向。根据解题思路不同,常用的预测方法大致分为:时间序列模型、灰色预测模型及马尔科夫方法[40]等。可以运用预测股票收益的马尔科夫方法来预测投资收益与风险。

符合无后效性质的过程,称为马尔科夫过程。根据学者们在之前研究时的经验,以及对投资标的物一段时间内的观察,再加上市场对标的物价格在一般情况下的决定方式,可以把标的物价格的变动过程看作是服从马尔科夫过程的。若将收益率变量设定为随机变量,则其具有的马尔科夫性质意味着投资收益率在未来的变化轨迹不会依赖收益率在过去遵循的路径。借助于标的物价格的马尔科夫性质,采用马尔科夫方法,对根据每期标的物价格所测算出来的投资未来期望收益率进行预测。

假设当期证券的收益率处于状态i,下一期该证券的收益率处于状态j,则可获得整个收益率历史数据中由状态i转移到状态j的转移次数aij,并构建状态空间转移次数矩阵

根据状态转移次数可计算状态转移概率

因此,可构建状态转移概率矩阵

建立线性方程组以求得收益率处于各个状态的概率

求解线性方程组,解为x=(p1,p2,…,pN)T。由此可知,在经过一段时间后,证券收益率处于状态1至状态N的概率分别为p1至pN。那么,其中概率最大的状态的对应收益率即为该证券在未来一段时间内最有可能的收益率。

2 期望效用序贯三支决策

通过马尔科夫预测方法预测投资的收益和风险,并获得决策者的期望效用，由此可以建立起一种序贯的投资三支决策模型。

针对投资问题,假设基于期望效用理论的三支决策模型是由状态集Ω={X,X}的2个状态和行动集A={aP,aB,aN}的3个行动组成。假设不同状态下不同行为产生的期望效用eij(i=P,B，N;j=P,N)由一个3×2矩阵给出,如表2所示。在矩阵中,ePP,eBP,eNP分别表示当投资在未来预期处于高收益状态时给出行为aP,aB和aN的期望效用,ePN,eBN,eNN分别表示当投资在未来预期可能不处于高收益状态时给出行为aP,aB和aN的期望效用。类似于经典三支决策模型[2]和基于效用理论的三支决策模型[27]，本模型同样利用等价类[x]刻画对象x即证券,Pr(X|[x])表示x属于X的概率，即一系列证券中预期具备高收益率的概率。

表2 期望效用矩阵Tab.2 Expected utility matrix

与上节稍有不同, 需要获取投资具有最高收益预期的状态的概率, 而非概率状态最高对应的预期收益率。通过计算该投资处于各个状态下的预期收益率, 预期收益率最高的状态的概率即可认为是该投资具有高收益率预期的概率。由上节可知,投资处于状态1至状态N的概率分别为p1至pN。假设当前处于状态i, 则下一期处于状态j的概率为pij, 可计算得到投资的收益率期望和方差为:

通过比较状态1至状态N对应计算得到的期望收益率r,选取其中最大的r对应的状态i即为三支决策的状态X,则条件概率Pr(X|[x])即为对应状态概率pi。

假设收益率R服从正态分布N(μ,σ2),其中，由上述公式可知有μ=r和σ2=σ2[41]。正态分布的密度函数为

因此,二次型效用函数的期望效用为[41]

ER～N(r,σ2)R-bER～N(r,σ2)R2=

ER～N(r,σ2)R-b[(ER～N(r,σ2)R)2+

varR～N(r,σ2)R]=

r-b(r2+σ2)=

r-br2-bσ2,

根据期望效用最大化的决策程序,采取不同行动aP,aB和aN所对应的期望效用EU(ai|[x])(i=P,B，N)可以表示如下:

EU(aP|[x])=ePPPr(X|[x])+

ePNPr(X|[x]),

EU(aB|[x])=eBPPr(X|[x])+

eBNPr(X|[x]),

EU(aN|[x])=eNPPr(X|[x])+

eNNPr(X|[x])。

由于决策者可能会选择最大期望效用的选项,基于期望效用的三支决策模型提出了以下优化问题来寻找最佳行动

因此,决策程序建议以下追求最大期望效用的决策规则:

(P4) 如果EU(aP|[x])≥EU(aB|[x])且EU(aP|[x])≥EU(aN|[x]),则x∈POS(X);

(B4) 如果EU(aB|[x])≥EU(aP|[x])且EU(aB|[x])≥EU(aN|[x]),则x∈BND(X);

(N4) 如果EU(aN|[x])≥EU(aP|[x])且EU(aN|[x])≥EU(aB|[x]),则x∈NEG(X)。

考虑到一种合理情形,即

eNP

假设决策边界域存在,则有

(eBP-ePP)(eBN-eNN)<

(ePN-eBN)(eNP-eBP)

则上述决策规则(P4)～(N4)可进一步简化为:

(P5) 若满足条件Pr(X|[x])≥α,

则x∈POS(X);

(B5) 若满足条件β

则x∈BND(X);

(N5) 若满足条件Pr(X|[x])≤β,

则x∈NEG(X)。

其中：

因此,上述3种决策规则(P5)～(N5)称之为期望效用三支决策。然而,基于投资决策问题,需要构建一个动态序贯的三支决策。假设T={T1,T2,…,Tn}为投资期数,即投资者选取作为历史数据的期数。其中T1

3 实验与分析

基于以上分析,为验证模型的有效性,将投资标的物以股票为例进行实验分析。本文选取了中国股票市场中基于不同行业共9支股票s={s1,s2,…,s9}进行实验。以股票ID为000825的股票s1为例,首先选取2020年初至2021年初的历史交易数据作为第一次决策的数据样本。以每5天作为1期,则样本数据可分为共48期,即T1=48。下面，先应用马尔科夫链预测方法对数据进行预处理。

根据历史数据计算得出, 该股票收益率的最大值为0.159 9, 最小值为-0.141 1。于是, 收益区间为[-0.141 1, 0.159 9], 将区间4等分为[-0.141 1,-0.062 6),[-0.062 6,0.009 4),[0.009 4,0.084 6), [0.084 6,0.159 9],分别设为状态1至4。则一步状态转移矩阵为

建立如下方程,求解股票收益率落在各个状态的概率

上述方程的解为x=(p1,p2,p3,p4)T,由此可知，在未来一段时间内处于状态1至4的概率分别为0.063 8,0.595 7,0.297 8,0.042 6。

因此,状态1的期望收益率和方差分别为0.047 0和0.003 8；状态2的期望收益率和方差分别为-0.004 0和0.002 0；状态3的期望收益率和方差分别为-0.012 1和0.001 8；状态4的期望收益率和方差分别为-0.028 2和0.005 7。显然,当股票处于状态1时,它具有最高的期望收益率。9支股票处于高收益预期的概率Pr(X|s)及对应的收益率期望r和方差σ2如表3所示。

表3 股票相关属性Tab.3 Stock related attributes

针对证券投资者问题,并参考刘盾等在投资三支决策中阈值的设置方式[32],9支股票不同行为对应期望效用如表4所示,显然都满足eNP

eBP=wePP,uBN=weNN

其中,w为权重函数。由于状态1至状态N为历史收益率区间的N均等分,很显然状态1至状态N的区间收益率为递增状态。当处于状态1时，更可能转移到预期收益率更高的状态;当处于状态N时,则更可能转移到低预期收益率的状态。本文实验对应的权重函数如下式所示:

其中,Pij为股票从状态i转移到状态j的概率。根据如上方法设置期望效用,当股票处于预期高收益状态的概率足够高或者该状态的预期收益率足够高时,很容易被分到正域;当股票的状态概率和状态预期收益率都很低时,很容易被分到负域;其余情况则会被分到边界域。则由期望效用求得的9支股票对应阈值如表5所示。

表4 不同行为对应期望效用Tab.4 Expected utility of actions

假设第二次决策选取2019年初至2021年初共97期收益率历史数据；第三次决策选取2018年初至2021年初共140期收益率历史数据；第四次决策选取2017年初至2021年初共189期收益率历史数据。则序贯三支决策的决策结果如表6所示。

表5 股票阈值Tab.5 Threshold of the stocks

由表3可知,股票s2和s7都具有较高的高期望收益状态概率，即Pr(X|s2)=42.6%且Pr(X|s7)=48.9%,因此，易将它们分入正域;相反,股票s3,s4,s6和s9的高期望收益状态概率Pr(X|s)和预期收益率r都较低,因此，易将它们分入负域;剩下的股票s1,s5和s8先将它们分入边界域,再通过不断扩大历史数据再次进行决策。其中,股票s1和s8通过更大的历史数据获得的Pr(X|s)和r有所下降,因此，被逐步分入负域。由此可见,序贯三支决策的决策结果符合设计预期。