APP下载

基于Q学习参数辨识的动物学习能力评价方法

2022-11-04冯浩然尚志刚杨莉芳靳富丽马佐豪

科学技术与工程 2022年27期
关键词:马尔科夫决策状态

冯浩然, 尚志刚*, 杨莉芳, 靳富丽, 马佐豪

(1.郑州大学电气工程学院, 郑州 450000; 2.河南省脑科学与脑机接口技术重点实验室, 郑州 450000)

马尔科夫决策理论是数学上表达强化学习的理想化形式,被广泛应用于动物的行为决策研究中[1]。如何评价动物在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力,对于动物行为学与心理学研究至关重要[2-4]。

早期的学者已经在不同行为决策问题中对动物的学习能力进行了探索。Paterson[5]通过简单行为决策任务分析了猪、山羊、牛是否能从已知事件推断未知事件,并发现不同物种之间存在认知与决策能力的差异。Kilgour[6]使用Hebb-Williams迷宫比较了绵羊、牛、猪、山羊、狗在一系列路径选择问题中的学习能力。但是早期的研究只关注与评价不同物种之间学习能力,实验范式设计过于简单,没有对实验对象的学习能力进行量化处理。近20年来,强化学习理论得到发展,而马尔科夫决策理论框架作为交互式学习问题的高度抽象,使动物行为决策问题研究得到进一步发展[7-8]。在马尔科夫决策任务中,Watkins等[9]提出的Q-learning模型作为一种离线差分算法,克服了模型对策略估计的困难,是价值学习研究中最常见的数学模型。在Q-learning模型中,智能体根据策略在状态st执行动作at,环境反馈奖励rt,并到达新的状态st+1。根据奖励更新状态-动作对的Q值,智能体一直重复上述操作,直到训练结束[10]。

Rose等[11]训练鸽子完成基于视觉线索的马尔科夫决策任务,建立了Q-learning模型模拟鸽子行为,并证明了奖励大小对学习过程的影响可以通过Q-learning模型准确地反映。Ito等[12]分析了大鼠在随机奖励的马尔科夫决策任务中的行为策略,在比较多种数学模型后,发现Q-learning模型能够更好地预测大鼠的行为决策。师黎等[13]提出了一种动态学习率的Q-learning模型,完成了鸽子颜色刺激-抉择认知训练,以学习率α的动态变化准确地描述了鸽子的行为决策。陶梦妍[14]引入主观价值因素,提出了一种新的动态强化学习模型,提高了动物行为的预测精度。阮晓钢等[15]受啮齿类动物利用嗅觉线索进行空间导航的启发,提出了一种基于气味奖励引导的Q-learning环境认知策略,有助于增强动物对于环境的认知能力。对于马尔科夫决策任务中动物行为决策问题的探索,现阶段研究已经取得了一些进展,但是,大多数只是利用Q-learning模型对动物的行为决策进行描述或预测,而个体间学习能力的差异才是导致行为决策不同的根本原因,关于学习能力评价的研究却少有涉及。

在马尔科夫决策任务中,动物的学习能力与诸多因素有关。为最大化累计奖励,动物既需要合理利用过去积累经验对当前动作做出选择,又需要考虑当前动作对未来状态的影响[16-17]。在Q-learning模型中,学习率α(0<α≤1)表示智能体权衡当前学习结果与过去积累经验的比值,α越接近0,表示智能体利用过去积累经验对当前动作做出选择的能力越强,α越接近1,表示智能体利用过去积累经验的比重越少。折扣因子γ(0<γ≤1)表示智能体对未来奖励的重视程度,γ越接近1,表示智能体越重视未来奖励,γ越接近0,表示智能体“目光短浅”,只看重即时奖励。在马尔科夫决策理论框架下,智能体的“目标”是最大化累计奖励,为完成该“目标”,一个学习能力强的智能体应充分利用过去积累的经验知识,同时考虑未来奖励,其模型参数应呈现“学习率α较小,折扣因子γ较大”的特点,而对于学习能力较差的智能体,其Q-learning模型参数应该与之有所区别。

为了探究马尔科夫决策任务中不同个体之间利用过去经验与重视未来奖励的学习能力差异,首先选择色彩辨识能力与认知能力都很优秀的家鸽作为实验动物[18-20],然后确定家鸽在该任务中对最优策略的习得程度,最后用Q-learning模型参数对(α,γ)评价不同家鸽的学习能力。

1 材料与方法

1.1 实验动物

实验动物选用成年家鸽(质量:400~550 g; 平均年龄:2.1岁),雌雄不拘,身体健康。饲养环境为3 m×3 m×2 m的鸽舍,食物与水供应充足,体重保持在正常体重的85%以上。实验动物经郑州大学生命科学伦理审查委员会审查,符合各项规定。

1.2 实验设备及范式设计

如图1所示,所有实验均在马尔科夫决策任务训练箱中进行。训练箱前端两侧各有一个按键,中间有一个食盒,箱体内部右上方有一个提示灯。按键底部安装有背光灯,按键在亮灯状态下可以被按下。当动作选择正确时,食盒会进入训练箱并持续2 000 ms。提示灯闪烁2次标志实验开始。

为了探究马尔科夫决策任务中家鸽的学习能力差异,设计了含有状态转移概率的马尔科夫决策任务。如图2所示,实验开始后,进入1 500 ms的等待期,然后两个按键同时亮起红灯或绿灯,概率P均为50%。每次亮灯状态下家鸽均有两个动作选择:啄左键或啄右键。若1 500 ms等待期后按键同时亮红灯,那么该状态下两个动作选择均不会得到奖励,但会影响下一次状态转移概率。红灯状态下,啄右键,下一次亮绿灯概率为80%,啄左键,下一次亮红灯概率为80%。若1 500 ms等待期后按键同时亮绿灯,那么该状态下两个动作选择均会得到奖励,同时影响下一次状态转移概率。绿灯状态下,啄左键,下一次亮绿灯概率为90%,啄右键,下一次亮红灯概率为90%。在进入下一次亮灯状态之前都会有1 500 ms的试次间隔时期(inter-tribal interval, ITI)。由于每次啄键动作都会影响下一次亮灯状态,所以除即时奖励外,家鸽还需要考虑状态转移概率,选择最优策略,使累计奖励最大化。因此,考虑到上述情况,最优策略是在红灯状态下啄右键,绿灯状态下啄左键(所有实验动物在实验前均完成预训练,该过程包括建立对训练箱、按键、食盒等设备的认知,理解“亮灯状态下啄键”的任务需求)。

图1 训练箱功能示意图Fig.1 Schematic diagram of training box function

图2 马尔科夫决策任务范式流程图Fig.2 Flow chart of Markov decision-making tasks

1.3 数据获取与处理

在所有行为学数据中,未啄键试次被认为是无效试次,同时,以“均值±3×标准差”作为响应时间阈值,响应时间过长被认为是注意力不集中,响应时间过短被认为是误啄,剩余试次被认为是有效试次。该任务范式下家鸽的行为学数据如表1所示。

表1 家鸽行为学数据表Table 1 Behavioral data sheet of pigeons

1.4 Q-learning建模

已有研究证明动物对外部环境的学习是受价值引导,并以此影响其行为决策。选用Watkins等[9]提出的Q-learning模型对家鸽在马尔科夫决策任务中的行为决策进行建模。首先,设置Q值查找表与Reward表。在该任务范式中,存在2种状态:红灯状态与绿灯状态,2种动作:啄左键与啄右键,共组成4种状态-动作对,故Q矩阵与R矩阵应为2×2矩阵,其中,矩阵的行表示状态,列表示动作。Q查找表如式(1)所示,由于智能体初始状态没有经验知识,故Q查找表各初值定义为0。

(1)

Reward表如式(2)所示,在该实验范式中,红灯状态下两个动作都没有奖励,故第一行各值定义为0,绿灯状态下两个动作都有奖励,故第二行各值定义为1。

(2)

然后,智能体会尝试探索最优策略π*(s),以使累计奖励最大化Bellman最优方程将最优策略π*(s)的探索描述为

(3)

π*(s)=argmax[Q*(s,a)]

(4)

Qt+1(st,at)=Qt(st,at)+αΔQ(st,at)

(5)

ΔQ(st,at)=Rt+1+γmaxQ(st+1,a′)-

Qt(st,at)

(6)

式中:α为学习率(0<α≤1);γ为折扣因子(0<γ≤1)。接下来,采用网格搜索法,以0.01为步长,将学习率α与折扣因子γ进行取值,共得到10 000组(α,γ)参数对,即

(α,γ)=

(7)

1.5 参数对(α,γ)评价指标

不同的学习率α与折扣因子γ对Q-learning模型的行为预测结果及收敛性等因素有不同的影响。因此,在得到10 000组参数对(α,γ)之后,需要进行评估与筛选。首先,参数对(α,γ)应使Q-learning模型具有较高的行为预测正确率;其次,根据Q-learning收敛定理,如果每个动作在每个状态下无限次的执行,并且适当的衰减学习率α,那么Q值将以1的概率收敛到最优Q值,但是,由于无法进行无限次实验,需对收敛性进行评估;同时,在Q值趋于收敛时,Q-learning模型对不同状态下的动作预测应趋于稳定,参数对(α,γ)应使Q-learning模型具有较好的动态预测稳定性。综上,设置了三个参数对(α,γ)评价指标,分别为①行为预测正确率、②收敛性、③动态预测稳定性。

在评价指标①中,通过训练集数据对Q-learning模型进行训练,并使用测试集数据检验Q-learning模型的行为预测正确率,设置正确率阈值,筛选出能使Q-learning模型行为预测正确率大于正确率阈值的参数对(α,γ)。在评价指标②中,以方差衡量Q值的收敛性,方差越小,Q值的收敛性越好,设置方差阈值,筛选出能使Q-learning模型各Q值方差小于方差阈值的参数对(α,γ)。在评价指标③中,以累计误差衡量训练后的Q-learning模型在测试集数据上的动态预测稳定性。Q-learning模型每更新一次即实时预测,若当前动作预测正确,累计误差不变;若当前动作预测错误,累计误差累加“1”(“累计误差”初始值为0),设置累计误差阈值,筛选出能使Q-learning模型动态预测累计误差小于累计误差阈值的参数对(α,γ)。最后,将满足三个评价指标的参数对(α,γ)取交集,得到最能反映家鸽自身行为决策的参数对(α,γ),以参数对(α,γ)的不同表征家鸽在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力差异。

2 结果

2.1 行为学数据分析

为了直观表现不同家鸽在马尔科夫决策任务中对最优策略的习得程度,对整个实验过程中家鸽的动作选择情况进行分析,结果如图3所示。

从图3中可以看出,实验初期,家鸽选择动作时随机性较大,没有习得某一固定策略,仍处于探索阶段,奖励试次占比曲线偏低。实验中期,家鸽的动作选择呈现出一定的规律性,逐渐习得最优策略,奖励试次占比曲线逐渐升高。实验后期,家鸽的动作选择情况趋于稳定,奖励试次占比曲线稳定在0.9以上。但是,由于不同个体在马尔科夫决策任务中的学习能力存在差异,所以三只家鸽对最优策略的习得程度有所区别。根据奖励试次占比曲线是否连续两个session大于90%,将家鸽的行为学数据划分为“学习期”与“习得期”。在“习得期”,P003在红灯状态下只啄右键,在绿灯状态下只啄左键,说明其完全习得了最优策略;P004在红灯状态下右键占比曲线波动较大,绿灯状态下左键占比曲线的收敛性也不如P003与P008,说明其并未完全习得最优策略;P008在红灯状态下只啄右键,在绿灯状态下大部分试次啄左键,但是少数试次也会啄右键(在300~320 trails,绿灯状态下左键占比曲线有所下降),说明其已经习得红灯状态下的最优动作,但对于绿灯状态下的最优动作并未完全习得。因此,在该马尔科夫决策任务中,P003的学习能力最强,P008的学习能力次之,P004的学习能力最差。

2.2 参数对(α,γ)评估

在评价指标①中,为了直观表现不同参数对(α,γ)对Q-learning模型行为预测正确率的影响,取“学习期”数据为训练集,“习得期”数据为测试集,设置0.8为正确率阈值,对所有参数对(α,γ)进行评估,结果如图4所示。

从图4中可以看出,在评价指标①中参数对(α,γ)具有区域性分布的特点,行为预测正确率最高分别达到1、0.939 8、0.801 6。以0.8作为正确率阈值,图4中的黄色区域为筛选后的参数对(α,γ)。在该马尔科夫决策任务中,由于家鸽个体间利用过去经验与重视未来奖励的学习能力存在差异,导致其对于最优策略的习得程度有所不同。因此,在不同家鸽的行为学数据上,参数对(α,γ)分布特点有所差异,图4(a)中,筛选出的参数对(α,γ)表示P003具有较小的学习率α(0.01≤α≤0.48)与较大的折扣因子γ(0.01≤γ≤1),说明P003能够充分利用过去积累经验对当前动作做出选择,同时重视未来奖励;图4(b)中,筛选出的参数对(α,γ)表示P008具有较大的学习率α(0.52≤α≤1)与较大的折扣因子γ(0.01≤γ≤1),说明P004虽然能够重视未来奖励,但是其选择当前动作时忽视过去积累经验;图4(c)中,筛选出的参数对(α,γ)表示P008的学习率α与折扣因子γ的取值范围较广,说明P008利用过去积累经验对当前动作做出选择的能力较差,但是能够重视未来奖励。

在评价指标②中,为了直观表现不同参数对(α,γ)对各Q值收敛性的影响,对Q-learning模型更新过程中各Q值的方差进行分析,设置0.02为方差阈值,对所有参数对(α,γ)进行评估。以P003行为学数据为例,结果如图5所示。方差越小,收敛性越好。Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)分别表示红灯状态下啄左键、红灯状态下啄右键、绿灯状态下啄左键、绿灯状态下啄右键的Q值。

图3 马尔科夫决策任务中家鸽动作选择情况Fig.3 Pigeons’ action selection in Markov decision-making tasks

图4 评价指标①中参数对(α,γ)评估情况Fig.4 Evaluation of parameter pairs (α,γ) in evaluation index①

从图5中可以看出,Q(sr,al)、Q(sr,ar)、Q(sg,al)、Q(sg,ar)的收敛性均随着参数对(α,γ)的增大而变差,以0.02作为方差阈值,图中的黄色区域之外为筛选后的参数对(α,γ)。结果表明,当折扣因子γ取值过大时(0.68≤γ≤1),Q-learning模型的收敛性较差,无法满足该评价指标。

在评价指标③中,为了直观表现不同参数对(α,γ)对Q-learning模型动态预测稳定性的影响,对经过训练的Q-learning模型进行动态预测分析,设置0.15为累计误差阈值,对所有参数对(α,γ)进行评估。结果如图6所示,累计误差越高,颜色越偏向蓝色表示累计误差越低。

图5 评价指标②中参数对(α,γ)评估情况(以P003为例)Fig.5 Evaluation of parameter pairs (α,γ) in evaluation index②(take P003 as an example)

从图6中可以看出,当学习率α取值较小时,Q-learning模型在家鸽测试集数据上的动态预测累计误差较小。结果表明,以0.15作为累计误差阈值,所有参数对(α,γ)均能使Q-learning模型在P003的测试集数据上具有较好的动态预测稳定性,P004、P008的测试集数据筛选出的参数对(α,γ)为蓝色区域。

图6 评价指标③中参数对(α,γ)评估情况Fig.6 Evaluation of parameter pairs (α,γ) in evaluation index③

2.3 学习能力评价

为了筛选最符合家鸽动作选择情况的参数对(α,γ),设置了三个评价指标,并对各指标评估结果取交集,得到了在该任务中能够反应不同家鸽学习能力的模型参数对(α,γ),结果如图7所示。横坐标表示折扣因子γ的取值情况,纵坐标表示学习率α的取值情况,三个图层分别为表征P003、P004、P008在该任务中学习能力的参数对(α,γ)。

从图7中可以看出,筛选后的Q-learning模型参数对(α,γ)在P003行为学数据中主要分布在(α≤0.23,γ≤0.56)区域;在P004行为学数据中主要分布在(α=1,γ≤0.08)区域;在P008行为学数据中主要分布在(α≤0.14,γ≤0.35)区域内。图3与图7综合分析,可以看出P003的学习率α较小,折扣因子γ较大,说明其能够充分利用过去积累经验对当前动作做出选择,同时能够重视未来奖励,因此在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力最强;P008的学习率α较小,但是折扣因子γ的取值范围小于P003,说明其能够利用过去积累经验,但是对未来奖励的重视程度不及P003,因此其利用过去经验与重视未来奖励的学习能力次之;P004的学习率α过大,折扣因子γ过小,说明其对当前动作进行选择时忽视了过去积累经验,同时不重视未来奖励,因此其利用过去经验与重视未来奖励的学习能力最差。

图7 参数对(α,γ)分布情况Fig.7 Distribution of parameter pairs (α,γ)

3 结论

为了评价动物在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力,训练家鸽执行含有状态转移概率的马尔科夫决策任务,提出了一种以Q-learning模型参数对其学习能力进行评价的方法。首先,针对Q-learning模型的主要参数学习率α与折扣因子γ采用网格搜索法,以0.01为步长,将参数对(α,γ)分为10 000组。然后,为筛选能使Q-learning模型预测效果最佳的参数对(α,γ),设置了三个评价指标。最后,通过将家鸽的行为学数据与Q-learning模型参数综合分析,得出如下结论。

(1)表征动物行为决策的最佳Q-learning模型参数可以通过三个评价指标筛选后得到,分别为行为预测正确率、收敛性、动态预测稳定性。

(2)在马尔科夫决策任务中,动物利用过去经验与重视未来奖励的学习能力可以通过Q-learning模型参数进行评价。其中,学习率表征了动物利用过去积累经验做出选择的能力,折扣因子表征了动物对未来奖励的重视程度。

猜你喜欢

马尔科夫决策状态
马尔科夫链驱动的带停时的超前倒向随机微分方程的适应解
智珠二则
决策大数据
决策大数据
决策大数据
诸葛亮隆中决策
生命的另一种状态
马尔科夫链在企业沙盘模拟教学质量评价中的应用
马尔科夫链在企业沙盘模拟教学质量评价中的应用
基于卡尔曼滤波的改进案均赔款法