APP下载

基于多任务学习的短文本实体链接方法

2022-03-12朱艳辉梁文桐欧阳康孔令巍黄雅淋

计算机工程 2022年3期
关键词:多任务短文阈值

詹 飞,朱艳辉,梁文桐,张 旭,欧阳康,孔令巍,黄雅淋

(1.湖南工业大学 计算机学院,湖南 株洲 412008;2.湖南省智能信息感知及处理技术重点实验室,湖南 株洲 412008)

0 概述

实体链接是知识图谱构建[1]和应用[2]过程中的关键技术,在智能问答、信息检索等知识图谱的相关领域得到广泛应用[3]。实体链接任务的目标是将文本中的实体指称指向知识库中的特定实体,从而明确文本中实体指称的含义。实体链接通常分为候选实体生成和候选实体排序两个阶段,候选实体排序是实体链接过程中的研究重点。候选实体排序阶段对实体指称和候选实体集中的所有候选实体进行相关度排序,选择相关度最大的候选实体作为实体指称对应的链接实体。

已有的实体链接方法主要针对长文本语境[4],针对短文本的实体链接方法研究较少。随着社交平台的发展,越来越多的网络文本以短文本的形态呈现,面向短文本的实体链接方法具有重要的研究价值。面向短文本的实体链接与面向长文本的实体链接有所不同,短文本的特点是文本上下文缺失、表达不正式、语法结构不完整等。短文本的这些特点导致传统的实体链接方法针对短文本实体链接的效果有待提高。

针对短文本的特点,可以将多任务学习[5]引入短文本实体链接过程中。多任务学习是机器学习领域的一个分支[6],多个相关的任务并行学习,不同任务之间共享部分模型参数。多任务学习在机器学习的很多应用领域均取得了优秀的成果[7-9],如自然语言处理(Natural Language Processing,NLP)[10]和计算机视觉(Computer Vision,CV)[11]。与传统的单任务学习相比,多个任务的并行学习能够使模型学到更加通用的底层表达,从而提高模型的泛化能力,优化模型在主任务中的表现。实体指称的类别是实体链接过程中的重要信息[12],对短文本实体链接任务起积极作用,所以将实体分类任务作为辅助任务进行多任务学习。

为解决信息不充分导致的短文本实体链接准确率较低的问题,本文提出一种基于多任务学习的短文本实体链接方法。通过构建基于多任务学习的短文本实体链接模型,将实体分类任务作为短文本实体链接的辅助任务进行多任务学习。辅助任务能够缓解短文本实体链接过程中信息不充分的问题,促使模型学习到更加通用的底层表达,从而提高模型的泛化能力,优化模型在短文本实体链接任务中的处理效果。

1 相关工作

1.1 多任务学习

多任务学习是机器学习的一种学习模式,其目的是利用多个相关任务中包含的信息来提高模型在各个任务中的泛化能力和性能。多任务学习包含一组相关任务ym,m∈M,第i个任务的训练集为Ti,包含Ni个样本,如式(1)所示:

其中:x(i,j)和y(i,j)表示第i个任务中的第j个样本及其对应的标签。

定义M中各个任务对应的模型分别为fm(x;θ),m∈M,多任务学习的联合目标函数为所有任务损失函数的线性加权,联合目标函数的计算式如式(2)所示:

其中:li(·)为第i个任务的损失函数;ηi是第i个任务的权重;θ表示模型中包含的所有参数。各个任务的权重可以根据该任务的重要程度及优化优先度来赋值。

多任务学习的难点在于各个任务之间共享机制的设计。常用的参数共享策略主要有硬共享模式和软共享模式,层次共享模式和共有-私有模式也被针对特定任务提出。硬共享模式是使用范围较广的共享模式,不同任务的神经网络模型共享底层网络部分,然后针对每个任务设置特定的私有网络层。硬共享能够通过多个相关任务的协同训练获取更加通用的底层表达,从而提高模型泛化能力,优化模型在目标任务上的表现。软共享模式中各个任务并不显式地共享模型结构,但每个任务均可以从其他任务中学习部分信息来优化当前任务的表现。

1.2 实体链接

当前对实体链接的研究大多基于深度学习方法[13-15],基本思路是使用神经网络模型来计算实体指称上下文和候选实体上下文之间的语义匹配程度。许多研究人员将候选实体排序问题转化为二分类问题进行处理,对于给定实体指称对应的候选实体,用二分类器来判断该候选实体是否为当前实体指称对应的链接实体。PHAN 等[16]首次将双向LSTM 和注意力机制引入实体链接任务中,对实体指称左侧和右侧的上下文分别独立地进行编码,在当时取得了较优的性能。LIU 等[17]将一种新的注意力机制引入实体指称上下文的编码过程,从而能够捕获实体指称周围的重要文本片段。SIL 等[18]将深度学习方法和相似性模型相结合,能够有效获取实体指称上下文与目标候选实体的相似度。

随着短文本实体链接的需求增长,近年来一些研究人员针对短文本语境的实体链接方法进行了研究。GU 等[19]提出一种多轮多选择阅读理解框架来解决短文本实体链接问题,首先利用实体指称的上下文在搜索引擎中进行查询,然后使用选择模块从查询所得的候选实体中识别正确的链接实体。ZHANG 等[20]提出基于局部注意力机制的短文本实体链接方法,通过对实体指称的上下文与候选实体的描述文本进行拼接,将短文本转换为长文本,并引入局部注意力机制来缓解长距离依赖问题,强化局部的上下文信息。本文将多任务学习思想引入短文本实体链接过程中,以实体分类任务作为辅助任务进行多任务学习,缓解短文本实体链接过程中的信息不充分问题。

2 基于多任务学习的短文本实体链接模型构建

本文提出的基于多任务学习的短文本实体链接模型整体结构如图1 所示,由BERT 编码器、实体分类模块和实体链接模块构成。

图1 基于多任务学习的短文本实体链接模型Fig.1 Short text entity linking model based on multi-task learning

模型的参数共享模式采用硬共享模式,实体分类模型和实体链接模型共同使用BERT编码器部分。BERT编码器与实体分类模块构成实体分类模型,与实体链接模块构成短文本实体链接模型。模型训练期间,实体分类和短文本实体链接任务交替进行,实体指称上下文和该实体指称对应的候选实体上下文作为实体链接任务的输入,实体指称上下文作为实体分类任务的输入。来自两个任务的梯度信息均会传递到共享的BERT 编码器部分并更新模型参数,从而得到更加通用的底层表达。根据式(2),将多任务学习模型的损失函数定义为:

其中:α和β为超参数,分别表示实体链接模块的损失和实体分类模块的损失在总的损失中所占的比重,较大的参数值会在训练时引导模型优先学习当前任务,用于防止单个损失过大对模型整体训练产生负面影响;Llink和Ltype分别表示实体链接模块和实体分类模块的损失。

2.1 候选实体生成

常用的候选实体集构建方法是将实体指称对应的所有候选实体加入候选实体集中[20],分别计算每个候选实体上下文与实体指称上下文的相关度,若所有候选实体相关度得分的最大值大于给定阈值,则认为相关度最大的候选实体为实体指称对应的正确链接实体。若所有候选实体对应的相关度均小于阈值,则认为该实体指称在知识库中没有对应的实体。

对上述候选实体集构建方法进行改进,首先将实体指称对应的所有候选实体加入候选实体集中,然后对候选实体集增加候选实体“NIL”,NIL 表示实体指称在知识库中没有对应的实体,将NIL 也作为一个候选实体参与训练过程,其对应的候选实体上下文记为“未知实体”。预测时,取相关度最大的候选实体作为实体指称对应的实体。若NIL 对应的相关度最大,则认为该实体指称在知识库中没有对应的实体。

2.2 BERT 编码器

预训练语言模型近年为NLP 领域的发展做出了很大贡献,本文使用BERT[21]预训练语言模型作为共享编码器,其强大的语言表征能力可以提高下游实体链接和实体分类任务的性能。BERT 模型结构如图2 所示,以双向Transformer 编码器作为模型的基本组成单元。

图2 BERT 模型结构Fig.2 Structure of BERT model

模型的输入是词嵌入、位置嵌入和句子嵌入3 个部分的和,词嵌入为中文文本中每个字对应的向量,位置嵌入包含每个字的时序信息,句子嵌入用来区分输入的两个句子。位置嵌入的计算式如式(4)和式(5)所示:

其中:Ppos表示字符在文本中的位置;i表示词向量的位置序号;dmodel表示词向量的维度。

将叠加之后的向量输入Transformer 编码器中,从而得到最终的包含语义信息的隐藏层向量,将隐藏层向量输入下游的任务模块进行相应任务的训练。

2.3 短文本实体链接模块

本文将短文本实体链接问题转换为二分类问题进行处理。短文本实体链接模块采用基于BERT 的实体链接模型,模型架构如图3 所示。首先对实体指称构建对应的候选实体集,候选实体集构建方法见2.1 节。候选实体集构建完成后,对候选实体集中的候选实体依次进行训练。将实体指称上下文和候选实体上下文以[SEP]分隔符隔开并输入BERT,然后将BERT 输出的CLS 位置向量与实体指称对应的开始和结束位置向量拼接作为下一层全连接层的输入。接着,之后再经过Dropout 层与全连接层得到模型最终输出,使用sigmoid 函数进行激活,最终得到实体指称和当前候选实体的相关度概率得分y,把实体指称上下文与候选实体上下文的相关性问题转化为二分类问题进行处理。将实体链接模型得到的实体指称与候选实体的相关度概率得分y与预先设定的阈值K进行比较,若y大于阈值K,则认为该候选实体是正确的链接实体,否则认为不是。若候选实体集中有多个候选实体的相关度概率得分大于阈值K,则取y值最大的候选实体作为正确的链接实体。

图3 基于BERT 的实体链接模型Fig.3 Entity linking model based on BERT

2.4 实体分类模块

本文使用的CCKS2020 评测任务二数据集中,每个实体指称均有对应的类别,而实体指称的类别是实体链接过程中的重要信息,因此,将实体分类任务作为辅助任务帮助模型学习到更加通用的底层表达,从而提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。图4 所示为实体分类模块的模型架构。

图4 实体分类模型Fig.4 Entity type model

数据集中的实体指称共有24 类,故将实体指称分类问题看作24 分类问题。将实体指称上下文输入BERT,然后将BERT 输出的CLS 位置向量与实体指称对应的开始和结束位置向量拼接作为下一层全连接层的输入,之后再经过Dropout 层与全连接层得到模型最终输出,使用Softmax 函数进行激活,得到实体指称的类别概率分布。

3 实验结果与分析

为证明本文所提方法的有效性,根据不同的候选实体生成方法、不同的阈值K以及是否使用多任务学习模型分别进行短文本实体链接实验。

3.1 实验数据

本文选用CCKS2020(2020 全国知识图谱与语义计算大会)评测任务2 提供的数据集。该数据集包括标准数据集和知识库。标准数据集由训练集、验证集和测试集组成,整体标注数据大约10 万条,按8∶1∶1 比例分配,3 份数据均通过百度众包标注生成。标注数据集主要来自于:真实的互联网网页标题数据、视频标题数据、用户搜索query。

数据集中的知识库来自百度百科知识库,知识库中的每个实体均提供了实体名称,实体对应的概念类型,以及与此实体相关的一系列二元组信息。

3.2 评价指标

给定短文本输入Text,此Text 中有N个实体指称:MText={m1,m2,…,mN},每个实体指称链接到知识库的实 体id 为EText={e1,e2,…,eN},实体链接系统输出的链接结果为,则实体链接的准确率、召回率和F 值定义如式(6)所示:

3.3 实验环境

本文实验采用的操作系统为Ubuntu,CPU 为Intel®CoreTMi7-9700K @ 3.60 GHz,GPU 为NVIDIA RTX 2080Ti(11 GB),Python3.6 版本,Tensorflow 版本为1.13.1。

3.4 参数设置

本文所使用的BERT 为包含12 层transformer 的BERT-base,学习率为1×10-5,最大序列长度为256,训练batch_size 为8,实体链接模块和实体分类模块损失的权重α和β为1。

3.5 结果分析

3.5.1 候选实体生成实验

对不同的的候选实体生成方法进行实验,记候选实体集中不包含“NIL”实体的候选实体生成方法为方法1,候选实体集中包含“NIL”实体的候选实体生成方法为方法2。Model-signal 代表采用2.3 节中的基于BERT 编码器的单任务实体链接模型,Modelmulti 代表本文提出的基于多任务学习的短文本实体链接模型。2 个模型使用不同候选实体生成方法时取得的实体链接F 值如表1 所示。

表1 两种候选实体生成方法对应的实体链接结果Table 1 Entity linking results corresponding to the two candidate entity generation methods

由表1 可知,Model-signal 和Model-multi 两个模型采用方法2 进行实体链接实验得到的F 值均高于采用方法1 得到的F 值。

分析实验发现,相当一部分候选实体集中并不存在实体指称对应的正确链接实体,且该部分候选实体集中与实体指称相关度最大的候选实体所取得的相关度概率得分仍然较小,此时实体指称对应的正确链接实体应为NIL,通过阈值K的取值实验解决此类问题。

3.5.2 阈值K的取值实验

设定阈值K,将实体链接模型得到的实体指称与候选实体的相关度概率得分y与阈值K进行比较,若y大于阈值K,则认为该候选实体是正确的链接实体,否则认为不是。若候选实体集中有多个候选实体的相关度概率得分大于阈值K,则取y值最大的候选实体作为正确的链接实体。各模型的实体链接F 值随阈值K的变化情况如表2 所示,实验结果如图5 所示。

图5 各模型实验结果Fig.5 Experimental results of each model

表2 实体链接F 值随阈值K 的变化情况Table 2 Change of entity link F value with threshold K

由表2 和图5 可知,各模型在候选实体生成方法取方法1 时,F 值随阈值K的增大呈上升趋势,当达到最大值后呈下降趋势,Model-signal 和Model-multi模型均在阈值K=0.25 时F 值达到最大;在候选实体生成方法取方法2 时,F 值随阈值K的增大呈下降趋势,Model-signal 和Model-multi 模型均在阈值K=0时F 值达到最大。

3.5.3 对比实验与分析

单任务和多任务学习模型的实体链接F 值对比实验结果如表3 所示。由表3 可知,对于候选实体生成方法,将NIL 实体加入候选实体集中的方法2优于方法1;Model-multi 模型的表现优于Model-signal 模型。基于多任务学习的短文本实体链接方法在采用两种候选实体生成方法时的表现均优于相同结构的单任务模型,多任务模型在采用方法2进行候选实体生成且阈值K=0时取得最优F 值0.894 9。基于多任务学习的短文本实体链接方法优于相同结构的单任务模型,这证明了本文提出的基于多任务学习的短文本实体链接方法的有效性。

表3 对比实验结果Table 3 Results of comparative experiments

4 结束语

针对短文本中信息不充分导致实体指称和候选实体相关度计算依据不足的问题,本文提出一种基于多任务学习的短文本实体链接方法。实体指称的类别是实体链接过程中的重要信息,对短文本实体链接任务具有积极作用,因此将实体分类任务作为辅助任务进行多任务学习。实验结果表明,基于多任务学习的短文本实体链接方法能够有效提高短文本实体链接的F 值,辅助任务的引入缓解了短文本实体链接过程中的信息不充分问题。多任务学习思想在短文本实体链接任务上的有效性对于自然语言处理领域的其他任务也有一定的启发意义。本文方法需要用到知识库中的实体类别信息,下一步将对面向中文的实体分类任务进行研究,提高该方法的泛化能力。

猜你喜欢

多任务短文阈值
数字时代的注意困境:媒体多任务的视角*
结合自监督学习的多任务文本语义匹配方法
土石坝坝体失稳破坏降水阈值的确定方法
面向多任务的无人系统通信及控制系统设计与实现
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
KEYS
Keys
基于Reworks操作系统的信息交互软件设计
基于迟滞比较器的双阈值稳压供电控制电路
一种改进的小波阈值降噪方法