APP下载

TransPath:一种基于深度迁移强化学习的知识推理方法

2022-03-03崔员宁陆正嘉

小型微型计算机系统 2022年3期
关键词:成功率图谱动作

崔员宁,李 静,陈 琰,陆正嘉

1(南京航空航天大学 计算机科学与技术学院,南京 211106) 2(国网上海市电力公司 信息通信公司,上海 200000)

1 引 言

近年来,Freebase[1],NELL[2],WordNet[3]等大型知识图谱的迅速发展,为推荐系统[4,5]、智能问答[6,7]等大量下游自然语言处理任务的研究推进提供了数据支撑.但是,无论是人工整理的知识图谱,还是借助实体关系自动抽取获得的知识图谱,通常都是不完整的,实体间的链接存在大量缺失,严重制约了下游任务的性能提升.知识推理旨在通过挖掘路径来推理和发现缺失的三元组,补全知识图谱,是知识图谱领域重要的基础研究方向.

近年来,由于具有可解释性和良好的性能,基于强化学习的知识图谱补全方法迅速成为研究热点.Xiong[8]等人于2017年首次提出基于深度强化学习的知识推理方法DeepPath,将知识图谱建模为马尔可夫决策过程[9](Markov Decision Process,MDP),将实体作为状态空间,关系作为动作空间,智能体在知识图谱上游走并搜索路径,与传统的路径排序算法[10]和基于嵌入表示的方法相比,具有更好的性能和良好的可解释性.但由于DeepPath模型简单,而且需要预挖掘的路径作为预训练样本,其推理性能和训练效率都有较大的提升空间.因此,近年来AttnPath[11]、DIVINE[12]等大量基于RL的方法被提出,知识推理性能得到快速提升.

尽管如此,在实际的知识图谱环境中,大多数RL方法的路径搜索成功率却不高.一方面,对于一个特定实体来说,动作空间中存在大量无效动作,如图1所示,对于实体London来说,WorkFor、BornIn、PlaySports等都是无效的动作,因为实体London无法作为这些谓语的主语;另一方面,知识推理是一项多步的复杂任务,RL智能体不仅要在每一步都选择有效动作,还要在知识图谱多阶子图中搜索唯一的目标结点.这两个问题导致智能体在初始阶段难以获取奖励,路径搜索成功率低.

图1 无效动作问题示例Fig.1 An example of invalid actions

强化学习需要从成功的经验中学习如何更好的完成任务,而知识图谱环境中的无效动作使强化学习在初始阶段就难以挖掘成功的经验.因此,我们认为智能体的学习过程应循序渐进,在学习复杂的多步推理之前,应当让智能体先学习如何单步游走选择有效动作.

迁移学习能够将源任务中学习到的经验用到目标任务,因此本文将迁移学习应用到知识推理场景,在目标推理任务之前增加了一个有效性驱动的源任务—单步游走选择有效动作,并提出一种基于深度迁移强化学习的知识推理模型TransPath.首先在源任务上训练RL智能体单步选择有效动作的能力,然后迁移到目标推理任务上进行多步推理的微调学习,这一迁移训练机制有效提升了路径搜索的成功率.

本文的主要贡献包括:

1)提出一种基于深度迁移强化学习的知识推理方法TransPath,在源任务和目标任务上依次训练智能体,帮助智能体循序渐进地学习多步推理任务;

2)提出一种有效性驱动的源任务,其目的是训练智能体单步游走选择有效动作的能力,消融实验结果表明源任务有效提升了智能体的选择有效动作的能力;

3)在FB15K-237[32]和NELL-995[8]公开标准数据集上的对比实验表明,本文提出的模型不仅大幅提升了路径挖掘的成功率,也在大多数知识推理任务上取得了最优性能.

本文后续章节安排如下:第2节主要介绍了知识推理和迁移强化学习领域的相关工作;第3节介绍本文提出的基于深度迁移强化学习的知识推理方法;第4节通过在两个公开测评数据集上的对比实验来验证本文方法的有效性,并用迁移学习消融实验分析了源任务和目标任务对模型性能的影响;第5节对本文方法进行总结,并探讨进一步的研究方向.

2 相关工作

自DeepPath模型在2017年被提出,深度强化学习已广泛应用于知识推理领域,本文的TransPath模型主要是结合了传统的深度强化学习模型和迁移学习实现的,因此本节将介绍知识推理与迁移强化学习的国内外相关工作.

2.1 基于嵌入与路径的知识推理模型

知识图谱普遍存在缺失问题,仅靠实体发现和关系抽取很难实现完整抽取,因此知识图谱补全是知识图谱领域长期的问题.知识推理通过挖掘路径来推理补全知识图谱,是知识图谱领域的一项基础研究.知识推理的方法大致可以分为3类:基于嵌入表示的方法、基于路径的方法和基于强化学习的方法.

基于嵌入表示的方法.近年来,大量基于嵌入表示的方法被提出,如TransE[13]、TransD[14]、TransR[15]、TransH[16]等,它们基于知识图谱中的三元组将实体和关系映射到连续的向量空间,并用这些向量表示进行链接预测和事实预测.尽管基于嵌入表示的方法在知识图谱补全各项任务中已经取得了不错的成绩,但这些方法大多缺少多步推理的能力.

基于路径的方法.路径排序算法[10](Path Ranking Algorithm,PRA)在路径约束的组合下选择关系路径,并进行最大似然分类.为了改善路径搜索,Gardner[17]等人通过结合文本内容,在随机工作中引入了向量空间相似性启发法,缓解了PRA中的特征稀疏性问题.Neelakantan[18]等人开发了一个RNN模型,通过递归应用组成性来构成关系路径,其推理链是一种支持多因素的神经注意力机制.DIVA[19]提出了一个统一的变分推理框架,该框架将多跳推理分为路径发现和路径推理的两个子步骤,大幅提升了推理效果.

2.2 基于深度强化学习的知识推理模型

近年来,由于具有可解释性和良好的性能,基于强化学习的知识图谱补全方法迅速成为研究热点.Xiong[8]等人于2017年首次提出基于深度强化学习的知识推理方法DeepPath,它将知识图谱建模为马尔可夫决策过程,将实体作为状态空间,关系作为动作空间,RL智能体在知识图谱上游走并挖掘路径.MINERVA[20]通过最大化期望奖励,将从起始实体到目标实体的路径作为一个顺序优化问题,它不依赖目标答案实体,并提供了更强大的推理能力.Multi-Hop[21]针对奖励稀疏问题提出一种软奖励机制来代替二进制奖励函数,为了实现更有效的路径探索,在训练过程中还采用Action Drop来掩盖某些向外的边.M-Walk[22]用RNN控制器捕获历史轨迹,并使用蒙特卡洛树搜索生成有效路径.CPL[23]提出了协作策略学习,通过利用文本语料库与当前实体的句袋,从文本中查找路径和提取事实.DIVINE[12]提出一种基于生成对抗模拟的深度强化学习方法,该方法不需要人工设定奖励,避免人为奖励设置不合理影响智能体的训练.AttnPath[11]基于LSTM[24]和图注意力[25]在DeepPath 基础上增加了记忆单元,并提出一种强制回退的推理机制提高智能体获取奖励的能力和推理成功率.

2.3 迁移学习在强化学习中的应用

强化学习智能体通过不断与环境交互,来学习策略以最大化奖励并实现特定的目标.然而,在实际复杂的任务中,强化学习往往面临一个严峻的问题:RL智能体无法得到足够多的、有效的奖励.这一问题会导致智能体学习缓慢甚至无法进行有效学习.

迁移学习能够将源任务中学习到的经验应用到目标任务,让目标任务的训练更灵活高效.因此将迁移学习应用在强化学习中,可以降低任务难度,有效缓解奖励稀疏的问题.近几年,迁移学习已被广泛应用在多种强化学习场景中.

Yaser[26]等人于2018年将迁移学习用于文本摘要场景,提出一种基于自我批评策略梯度方法的强化学习框架,预训练后仅用几个微调样本就可达得最优性能;Ammanabrolu[27]等人于2019年将迁移学习用于基于知识图谱的文本冒险游戏,在多项计算机生成和人工创作的游戏中不仅能够更快学习强化学习策略,而且也提升了智能体策略质量;Gamrian[28]等人于2019年将迁移学习用于打砖块和赛车游戏等强化学习场景,克服了传统方法无法适应背景图像变化的问题.Liu[29]等人于2019年将迁移学习用于多智能体的强化学习,提出一种基于新型MDP相似性概念的可扩展的迁移学习方法,显著加速多智能体强化学习,同时具有更好的性能.

从以上研究工作中可以发现,迁移学习适用于源任务样本丰富但目标任务样本稀少的场景.在知识图谱场景中,尽管智能体在目标任务上难以获取成功的样本,但知识图谱中每个三元组(h,r,t)中都包含两个单步游走的成功样本(h,r)和(t,r-1),源任务样本丰富而容易获取.因此,本文将单步游走作为源任务,将多步推理作为目标任务,提出一种基于深度迁移强化学习的知识推理方法TransPath.

3 基于深度迁移强化学习的知识推理方法

为了解决知识图谱环境中无效动作的问题,本文提出一种基于深度迁移强化学习的知识推理方法TransPath.如图2所示,首先通过有效性驱动的预训练,提高RL智能体单步游走能力,帮助智能体学习选择有效动作;然后通过目标任务的多步推理训练,提高RL智能体在目标推理任务上的多步路径搜索能力.

图2 基于深度迁移强化学习的知识推理模型框架图Fig.2 Overall framework of deep transfer reinforcement learning model for knowledge reasoning

3.1 深度强化学习环境建模

RL智能体的行动和状态转移都在知识图谱中完成,因此本节对知识图谱进行强化学习环境建模.

一个知识图谱K由{E,R,V}组成,其中E是实体的集合,R是关系的集合,V是形如(头实体,关系,尾实体)的RDF事实三元组的集合.将知识图谱K建模为RL智能体的强化学习环境KE=,其中S是智能体的状态空间,A是智能体的动作空间,Υ是智能体的奖励,P是智能体的状态转移策略.

3.1.1 状态空间

本文将知识图谱中的实体集合E作为智能体的状态空间.知识图谱中的实体以符号的形式存在,无法表示其语义内涵,因此本文采用嵌入表示模型TransE[13]将实体表示为连续的嵌入向量:

st=TransE(et)

(1)

其中et为当前实体,st为当前实体的状态表示向量.

3.1.2 动作空间

智能体选择动作,实现从当前状态到下一状态的转移.本文将知识图谱中的关系集合R作为智能体的动作空间.同时,为了使智能体能够逆向推理,将关系集合中的所有关系的逆关系也加入动作空间:

(2)

3.1.3 奖励设置

当智能体完成任务或失败时,环境都会反馈一个正向或负向的奖励,智能体根据奖励更新自己的策略,以最大化奖励.由于智能体的预训练和微调训练(fine-tune)的任务不同,3.2和3.3节中将会详细介绍面向两项任务的不同奖励.

3.1.4 策略神经网络

策略网络将输入的状态表示et映射到选择各项动作的概率向量.本文采用全连接网络(Full-Connected Network.FCN)来参数化策略函数,该神经网络由两个层隐藏层和一个输出层组成,输出层采用softmax函数归一化,对于一个输入的状态st,其策略为:

d(st)=softmax(f(f(st×w1+b1)×w2+b2)))

(3)

其中f为激活函数,w和b为隐藏层的权重和偏置.d(st)是一个|A|×1的矩阵,每一位表示选择一个动作的概率.

3.1.5 参数优化

本文模型采用策略梯度下降算法[31]更新策略网络的参数:

(4)

1https://github.com/thunlp/Fast-TransX

其中θ为需要更新的参数,π(a=rt|st;θ)为在状态为st时策略网络选择动作为rt的概率,Υ为执行这个动作获得的奖励.

3.2 源任务的预训练

在执行路径推理任务训练之前,本文先对RL智能体进行有效性驱动的预训练,其目的在于帮助智能体学会选择有效动作,提高单步游走的成功率.

3.2.1 生成训练集

在知识图谱中,事实三元组集合V包含了状态和有效动作的所有组合.将V中的每个三元组(ehead,r,etail)拆分为两个状态-动作二元组(ehead,r)和(etail,r-1),然后合并相同的二元组,得到预训练的有效动作训练集Tvalid.

3.2.2 奖励函数

预训练任务的目标是学习选择有效动作,智能体在状态et选择了动作ai,若二元组(et,ai)包含在Tvalid中时,给予智能体以正向奖励,否则无奖励.其奖励定义为:

(5)

3.2.3 预训练算法

由于知识图谱中已经包含了状态和有效动作的所有组合,不需要智能体在与环境的交互中获取奖励,所以本文将Tvalid作为训练集离线训练智能体.有效性驱动的预训练算法如算法1所示.

算法1.预训练算法

输入:Tvalid

输出:RL智能体的策略网络参数

1. forTvalid中的每个(et,ai)

2.st←TransE(et)

3. 更新策略网络参数:

4. end for

3.3 目标任务的微调训练

智能体在预训练中学会了如何选择有效动作,微调训练模块将智能体迁移到具体的推理任务上,使其在知识图谱环境中继续学习如何完成多步推理任务.

3.3.1 推理任务

与预训练的单步任务不同,推理任务旨在搜索两个实体之间的路径.对于事实(estart,rtask,etarget),其中rtask为推理任务,estart和etarget为初始结点和目标结点,智能体从初始结点出发,搜索除rtask外其他能够到达目标结点的路径.

3.3.2 奖励函数

因为微调训练是一项多步任务,所以环境不能直接对智能体选择的每一个动作即时给出奖励.本文采用蒙特卡洛方法[31],当智能体在知识图谱中成功到达目标结点或步数到达预定上限时,对这条路径p上的每个状态-关系二元组(et,ai)给出奖励.其奖励设置为:

(6)

其中length(p)为路径的长度.正向奖励取路径长度的倒数,是为了降低路径长度,提高推理效率.

3.3.3 微调训练流程与算法

在完成预训练后,将智能体迁移到目标任务上,每个目标任务都是知识图谱中的一种关系,智能体在微调训练中学习搜索能够替代目标关系的路径.从数据集中抽取所有包含目标任务的三元组组成目标任务的训练集trainset.目标任务的微调训练算法如下.

算法2.目标任务的微调训练算法

输入:目标任务的trainset

输出:RL智能体的策略网络参数

1. 重载预训练后的RL策略网络

2. fortrainset中的每个(estart,rtask,etarget)

3.st←TransE(estart)

4. steps=0,succ=False

5. while steps

6.d(st)=softmax(f(f(st×w1+b1)×w2+b2)))

7. 基于d(st)随机选择动作ai,若无效则终止

8. 状态-动作二元组集合T记录(et,ai)

9. 执行动作ai,跳转到下一实体enext

10. ifenext==etarget:

11. succ=True

12. end if

13.st←TransE(enext)

14. end while

15. 计算T中每个(et,ai)的奖励

16. 更新策略网络参数:

17. end for

4 实验与分析

4.1 数据集与参数分析

本文实验性能分析中采用FB15K-237[32]和NELL-995[8]作为对比实验数据集,这两个数据集是知识推理领域通用的基准数据集.其中FB15K-237包含14.5k个实体、237个关系、310.1k个三元组事实和20个推理任务,它是将FB15K[13]中的冗余三元组删除后得到的.NELL-995包含7.5k个实体、200个关系、154.2k个三元组事实和12个推理任务.数据集的统计信息如表1所示.

表1 数据集统计Table 1 Statistics of the datasets

本文训练模型时,策略网络最后一层采用softmax函数激活函数,两个全连接隐藏层都使用ReLu[33]作为激活函数,结点数分别设置为512和1204,选择Adam[34]作为训练优化的算法,初始的学习率设置为0.001.本文按照Fast-TransX1中的方法训练TransE[13]模型,嵌入维度设置为100维;源任务上的预训练batchsize设置为1000,训练2000个epochs;目标任务上的微调训练batchsize设置为500,训练500个epochs.本文提出的TransPath基于TensorFlow框架实现,并且在NVIDIA1080Ti GPU上进行训练.

4.2 评价标准和基线方法

对于基于深度强化学习的知识推理质量评价,常用的指标主要是路径搜索成功率(Path Finding Success Rate,PFSR)、事实预测(Fact Prediction,FP)的平均精度均值(Mean Average Precision,MAP)和链接预测(Link Prediction,LP)的平均精度均值.

1)路径搜索成功率:该指标主要衡量RL智能体挖掘路径的能力,是指在训练过程中每个epoch上RL智能体能够从初始结点游走到目标结点并找到一条路径的样本与总数的比率,其定义如下:

(7)

其中SuccNum为每个epoch中成功搜索到路径的样本个数,batchsize为批处理大小.PFSR越大,说明RL智能体路径搜索能力越强.

2)平均精度均值:FP和LP的平均精度均值分别用来衡量事实预测和链接预测的效果.事实预测是指在给定三元组(eh,r,et)的条件下判断此三元组是否正确,链接预测是指在给定缺失尾实体的三元组(eh,r,ex)条件下预测三元组的尾实体ex,在每个数据集上用于测试的正负样本的比例约为1∶10,其中负样本是替换正样本的尾实体生成的.

为了验证本文方法的有效性,我们将TransPath模型与3类方法做对照试验:

1)嵌入模型.嵌入模型在链接预测和事实预测任务上具有较好的性能,在本节中我们与传统的嵌入模型TransE[13]、TransD[14]、TransR[15]和TransH[16]方法做对照试验.

2)基于路径的模型.基于路径的模型比嵌入模型具有更好的多步推理的能力,我们选用经典的PRA[10]方法和目前效果较好的DIVA[19]方法与本文模型做对照试验.

3)基于RL的模型.DeepPath[8]方法是第1个被提出的基于RL的方法,AttnPath[11]在DeepPath基础上增加了LSTM[24]和图注意力机制[25]作为记忆单元.另外MINERVA[20]重新建模知识图谱,提出基于查询的方法,DIVINE[12]提出基于生成对抗的强化学习方法.

4.3 路径搜索实验

为了分析模型的路径搜索能力,本文将TransPath模型与同类方法DeepPath和AttnPath方法的路径搜索成功率进行对比.在源任务上预训练后,智能体在目标任务上训练500个epochs,结果如表2所示.

表2 路径搜索成功率实验结果(%)Table 2 Path finding success rate results(%)

其中DeepPathNoPre表示DeepPath[8]方法中没有预训练的模型,AttnPathForce表示AttnPath[11]方法包含强制游走的版本.表2所示的实验结果表明,尽管没有强制游走机制,本文方法的路径搜索成功率比其他方法有显著提升,尤其是在FB15K-237上,成功率提升了114%.这主要是由于在源任务上的预训练使智能体学会了在单步游走中选择有效动作,大大提高了单步游走的成功率,进而提升了多步推理的成功率.

为了更清楚的展示路径搜索成功率的提升,我们从NELL-995中选择了任务athletePlaysInLeague并绘制了该目标任务上微调训练时路径搜索成功率的变化曲线.结果如图3所示.

图3 路径搜索成功率(PFSR)结果Fig.3 Results of path finding success rate(PFSR)

由图3可知,在目标任务athletePlaysInLeague上本文方法的路径搜索成功率有较明显的提升,而且由于源任务上的预训练,在前0-50个epochs上,本文方法就能够很快达到较高的成功率.迁移学习不仅使路径搜索的成功率得以提升,训练的初始阶段起步也更快.

4.4 事实预测实验

事实预测旨在判断事实是否为真,对于给定的三元组(eh,r,et),模型通过打分来对其正确性做出评价.传统的基于深度强化学习的方法延续了PRA[10]中的评价方法,即采用已挖掘的路径作为打分依据,将这个三元组符合的路径个数作为分数,分数越高则认为它越有可能是正样本.

表3 事实预测实验结果Table 3 Fact prediction results

与先前的方法不同,本文用RL智能体直接为三元组(eh,r,et)打分,打分的步骤如下:1)以eh为起始节点,将状态向量输入策略网络;2)策略网络将当前状态的向量映射为选择每个动作的概率,并据此选择一个动作;3)RL智能体在知识图谱环境中执行动作,移到下一结点;4)若此时走过的动作链组成了已挖掘的一条路径,判断当前结点是否为et,如果是则分数+1并终止,否则分数-1并终止;5)重复步骤2)~4),若达到最大步数则终止并记分数为0.

本文方法可以将智能体直接用于事实预测,主要是因为源任务上的预训练使得路径搜索成功率很高.为了降低偶然因素的影响,本文还采用了多次测试取分数均值的策略.事实预测的实验结果如表3所示,其中TransPath后的数字表示测试次数.

由表3所示的实验结果可知,本文方法在两个数据集上均达到了最优的事实预测性能.其中,在测试次数为1时,就能够超越DeepPath[8]方法,在测试次数为20时,就能超越AttnPath[11]方法.随着测试次数的增加,结果逐渐趋于稳定,我们测试了在测试次数取500时,在FB15K-237上本文方法结果约为0.42,在NELL-995上约为0.74.

4.5 链接预测实验

链接预测旨在预测缺失的实体,对于一个测试样本(eh,r,ex),预测缺失的ex.模型通过打分给候选的尾实体排序.在链接预测实验中,生成负样本后的数据集被分为训练集和测试集,我们采用DeepPath[8]中的测试方法,将样本对每条路径适配与否作为二值特征,在训练集上预训练一个分类模型,并用此模型为测试集中的尾实体打分.链接预测实验结果如表4所示.

表4 链接预测实验结果Table 4 Link prediction results

如表4所示,本文方法在FB15K-237上的链接预测实验达到了最优性能,在NELL-995数据集上也达到了不错的效果,略逊于MINERVA及其改进方法,而且本文方法在FB15K-237数据集上比在NELL-995上的性能提升更明显.一方面,FB15K-237中的平均路径长度大于NELL-995,无效动作导致的奖励稀疏也更为严重,而本文方法的优势在于缓解无效动作问题,因此在FB15K-237数据集上效果提升更明显;另一方面,本文方法是在DeepPath基础上提出的一个改进模型,训练与测试过程也与DeepPath方法类似,虽然在NELL-995数据集上未达到最优性能,但相比于原DeepPath方法,本文方法的性能已有较大提升.

4.6 迁移学习消融实验

为了进一步分析迁移学习中源任务预训练和目标任务微调训练的影响,我们对TransPath方法做了如下消融实验.

4.6.1 删除源任务

为了研究源任务的影响,我们将RL智能体直接在目标任务上训练,得到模型Target-only,训练完成后在路径搜索任务和单步游走任务上测试此模型.

4.6.2 删除目标任务

为了研究目标任务的影响,我们将目标任务上的微调学习删除,在完成源任务上的预训练后得到模型Pre-only,直接将模型用于路径搜索任务和单步游走任务.

本文将这两个生成的残缺模型和TransPath原模型在NELL-995数据集上进行路径搜索和事实预测的对比实验,消融实验的结果如表5所示,其中事实预测任务上3个模型的测试次数统一设为1.

表5 迁移学习消融实验结果Table 5 Transfer learning ambition study results

如表5所示,Pre-only模型在搜索路径实验和事实预测实验的结果都很差,这主要是因为Pre-only模型训练的只有单步的源任务,而路径搜索和事实预测都建立在多步的推理任务之上.Target-only模型虽然在目标任务上做了训练,但由于缺少源任务的训练,模型选择有效动作的能力不足,路径搜索的成功率不高.因此,实验结果表明,源任务的预训练对于目标任务的完成具有明显的提升效果,单一的目标任务训练无法使模型性能得到充分提高.

上述消融实验仅验证了源任务对于目标任务的影响,缺乏目标任务对源任务影响的进一步分析.因此我们将3个模型在源任务和目标任务上分别进行测试,并在FB15K-237中的filmCountry任务上绘制了它们在目标任务的训练过程中的成功率变化曲线.源任务上的实验结果如图4所示,目标任务上的实验结果如图5所示.

图4 源任务消融实验结果(PFSR)Fig.4 Ambition study results on source task(PFSR)

源任务上的消融实验结果如图4所示,Pre-only模型在预训练后在源任务上的成功率约为92%,而Target-only模型由于缺乏源任务上的训练,在源任务上单步游走的成功率从0%开始逐渐提升,最高达到20%左右.值得注意的是,TransPath原模型在目标任务的训练过程中,在源任务上的成功率逐渐下降,最终稳定在83%左右.这说明任务迁移后,目标任务上的训练对智能体源任务具有一定的负面影响,使其在源任务上的成功率下降了约9%.

目标任务上的消融实验结果如图5所示,完整的TransPath模型的路径搜索成功率比仅有目标任务训练的Target-only起步更高,提升更快,在前50个epochs就能基本达到最优性能,而且在充分训练后性能仍明显比Target-only模型更好.所以,源任务不仅显著加速智能体强化学习,同时使模型具有更好的性能.另外,由于此任务推理路径较短,Pre-only模型尽管只在源任务上进行了训练,在目标任务上仍取得了不错的性能.

图5 目标任务消融实验结果(PFSR)Fig.5 Ambition study results on target task(PFSR)

5 结 论

本文提出一种新的基于深度迁移强化学习的知识推理方法TransPath,该模型通过增加有效性驱动的源任务,帮助智能体先学习在单步游走中选择有效动作,然后再迁移到目标任务上做微调训练,有效提高了RL智能体的路径搜索成功率.实验部分验证了本文模型不仅有效提升了路径搜索成功率,而且在事实预测和链接预测的大多数任务上表现明显优于同类方法.本文还通过消融实验对迁移学习的源任务和目标任务的影响做了进一步分析,验证了源任务的加入有效提高了智能体单步游走和路径搜索的成功率.

接下来,我们计划继续研究基于深度强化学习的模型存在的无效动作问题,尝试用渐进式强化学习与课程学习相结合的方式,提出更有效的解决方案.同时,我们计划对搜索得到的路径进行评价,筛除质量较差的路径,对智能体选择的路径质量加以限制,以实现更优的模型性能.另外,在消融实验中我们发现目标任务上的训练会影响智能体单步游走的成功率,因此通过多智能体协作或任务拆分降低迁移学习对源任务的影响也是值得探索的方向.

猜你喜欢

成功率图谱动作
成功率100%,一颗玻璃珠入水,瓶子终于坐不住了!
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
院前急救心肺复苏成功率的影响因素研究
优化急诊护理流程对提高急诊患者抢救成功率的影响
下一个动作
图表
非同一般的吃饭动作
中国知名官方智库图谱