APP下载

融合多层注意力机制与双向LSTM的语义关系抽取

2019-10-11周文烨刘亮亮张再跃

软件导刊 2019年7期

周文烨 刘亮亮 张再跃

1. 江苏科技大学 计算机科学与工程学院,江苏 镇江 212003;

2. 上海对外经贸大学 统计与信息学院,上海 201620)

摘 要:关系抽取是构建如知识图谱等上层自然语言处理应用的基础。针对目前大多数关系抽取模型中忽略部分文本局部特征的问题,设计一种结合实体位置特征与多层注意力机制的双向LSTM网络结构。首先根据位置特征扩充字向量特征,并将文本信息向量化,然后将文本向量化信息输入双向LSTM模型,通过多层注意力机制,提高LSTM模型输入与输出之间的相关性,最后通过分类器输出关系获取结果。使用人工标注的百科类语料进行语义关系获取实验,结果表明,改进方法优于传统基于模式匹配的关系获取方法。

关键词:位置特征;多层注意力机制;双向LSTM;关系抽取

DOI:10. 11907/rjdk. 182763 开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2019)007-0010-05

Multi-level Attention-based Bidirectional Long Short-Term

Memory Networks for Relation Extract

ZHOU Wen-ye1,LIU Liang-liang2,ZHANG Zai-yue1

(1. College of Computer, Jiangsu University of Science and Technology, Zhenjiang 212003,China;

2. School of Statistics and Information, Shanghai University of International Business and Economics, Shanghai 201620, China)

Abstract:Relational extraction is the basis for constructing upper natural language processing applications such as knowledge graph. Because most of state-of-the-art systems ignore the importance of the local feature, in this paper, we design a bidirectional LSTM network structure which combines position eigenvector and multi-level attention mechanism. Firstly, the model embedded the text information by extending word vector feature which was based on positional features. Secondly, the information was introduced into the bidirectional LSTM model, and multi-level attention was used to improve the probability between the input and output of LSTM model. Finally, it obtained the result by classifier. The proposed method in this paper achieves an better result than the tradition method.

Key Words: position feature; multi-level attention mechanism; bidirectional LSTM; relation extraction

基金項目:国家自然科学基金项目(61371114,611170165);江苏高校高技术船舶协同创新中心/江苏科技大学海洋装备研究院项目(1174871701-9)

作者简介:周文烨(1995-),女,江苏科技大学计算机科学与工程学院硕士研究生,研究方向为软件工程、模式识别与图像处理;刘亮亮(1979-),男,博士,上海对外经贸大学统计与信息学院讲师,研究方向为自然语言理解、知识工程与知识获取;张再跃(1961-),男,江苏科技大学计算机科学与工程学院教授,研究方向为数理逻辑与应用逻辑、知识表示与推理、智能信息处理。本文通讯作者:张再跃。

0 引言

在信息量快速增长的今天,如何利用信息抽取技术快速、有效地获取准确信息,一直是自然语言处理领域的重要研究课题,受到了学术界与工业界的广泛关注[1]。信息抽取包括概念抽取与关系抽取两方面,关系抽取[2-3]的目标是自动识别相关三元组,该三元组由一对概念及其之间的关系构成。传统关系抽取方法[4-5]通常采用基于手工标注语料的模式匹配方法,该方法在提取句子特征时依赖于命名实体识别的NLP系统,容易导致计算成本和额外传播错误增加;另外,手工标记特征非常耗时,而且由于不同训练数据集的覆盖率较低,因而导致通用性较差[6]。近年来,基于深度学习框架的神经网络模型成为实体关系抽取的新方法。深度学习是机器学习研究中的一个新领域,其动机在于建立、模拟人脑进行分析学习的神经网络。神经网络模型可自动学习句子特征,而无需复杂的特征工程[7-8]。研究过程中,Socher等[9]提出使用矩阵—递归神经网络模型MV-RNN完成关系抽取任务。该方法能够有效考虑句子的句法结构信息,但无法很好地考虑两个实体在句子中的位置和句义信息,且方法运用准确率往往受限于句法分析准确率;Liu等[10]将卷积神经网络(CNN)引入关系抽取任务,用于自动学习句子特征,但由于卷积神经网络无法对较长的句子进行建模,因而存在两个实体的远距离依赖问题。另外,RNN 和CNN 都未充分利用局部特征以及全局特征,使得关系抽取准确性较差[11]。

LSTM(Long Short Term Memory)网络是由Hochreiter & Schmidhuber[12]在1997年提出的一种RNN改进模型,其通过构造专门的记忆单元存储历史信息,能够有效解决两实体之间的长距离依赖问题。Xu等[13]以LSTM为基础,利用词向量、词性标注、句法依存等方法对实体之间的最短依存路径信息进行学习;刘燊等[14-15]则提出使用SDP-LSTM模型实现开放域实体关系抽取,可以分别处理句子可能出现的多个依存路径。以上方法使用LSTM进行关系抽取,然而LSTM无法对局部特征与全局特征加以充分利用。

注意力机制是Treisman & Gelade[16]提出的一种模拟人脑的模型,通过计算概率分布,突出关键输入信息对模型输出的影响以优化模型。Bahdanau等[17]将注意力机制应用在自然语言处理任务中,以提升机器翻译的准确性。注意力机制可以充分利用句子的局部特征及全局特征,通过赋予重要特征更高权重,从而减少噪声,提高关系抽取的准确性。因此,本文提出一种基于实体位置特征与多层注意力机制的LSTM实体语义关系获取方法,运用两层注意力机制,分别对字和句子增加注意力。实验结果表明,该方法有利于提升实体语义关系获取效果。

1 LSTM网络结构

Long Short Term Memory(LSTM)网络是一种RNN的特殊类型,可以对长期依赖信息进行学习[18]。LSTM模型在文本处理领域的很多问题上都取得了很大成功,并得到了广泛应用。

LSTM通过特殊设计以避免长期依赖问题。LSTM与RNN一样,具有一种重复神经网络模块的链式结构,但LSTM重复的模块拥有不同结构。在[t]时刻,LSTM有3个输入:当前时刻网络输入值、上一时刻LSTM输出值与上一时刻单元状态,以及2个输出:当前时刻LSTM输出值与当前时刻单元状态。LSTM使用3个控制开关即3个门进行控制,分别是遗忘门、输入门和输出门。LSTM通过遗忘门决定从细胞状态丢弃什么信息,通过输入门决定将什么新信息存放在细胞状态中,并通过输出门决定输出什么值。LSTM网络结构如图1所示。

其中,公式(1)用于计算输入门,[ht-1]表示上一状态输出值,[xt]表示当前状态输入值,公式(2)用于计算遗忘门,公式(3)用于计算输出门。[W]表示权值矩阵,[b]表示偏置量,激活函数采用sigmoid函数,[Ct]表示单元状态。

LSTM模型的工作机制是将当前记忆与长期记忆进行组合,其最终输出由输出门和单元状态共同确定。由于将长短期记忆进行了有机关联,LSTM模型解决了关系抽取过程中的长期依赖问题,但缺乏对句子中局部特征与全局特征加以利用的环节。为此,本文引入多层注意力机制,对于相关字与句子分别赋予相关权重,并减少噪声,以提高关系获取的准确性。

2 改进的关系抽取模型

本文结合实体位置特征与多层注意力机制的双向LSTM网络结构构建关系抽取模型,采用位置嵌入、字嵌入相结合的字向量表示方法,增加语义相关度,采用LSTM模型以避免传统深度学习方法的长距离依赖问题,同时采用多层注意力機制,充分利用句子的局部特征以及全局特征。该模型框架主要包括以下两部分:①融合特征的字向量生成。对语料库中的文本信息进行向量化处理,提取文本的实体特征与位置特征,然后将这些特征转换为字向量,得到句子融合特征的字向量表示;②关系抽取模型构建。将文本的字向量表示导入双向LSTM模型中,采用多层注意力增强文本的局部特征与全局特征,将增强后的特征导入分类器进行分类,输出分类结果。模型框架如图2所示。

2.1 融合特征的字向量表示

向量化表示是一种分布式表示,一般使用字向量表示作为神经网络的输入,本文将每个输入字转换为向量。考虑到在关系抽取任务中,越靠近实体的字通常越能表示句子中两个实体的关系,因此本文融合位置信息以扩充字向量维度,改进后的字向量称为融合特征的字向量。

(1)字向量:构建字向量是将文本信息转换为向量形式。将每个句子转换成一个多维矩阵,给定一个由[T]个字组成的句子[S=x1,x2,?,xi,?,xT],对于句子[S]的每个字,使用word2vec[19]将每个字[xi]映射到一个低维实值向量空间中,通过公式(6)对句子进行字向量处理。

其中,[ei]是字[xi]的字向量表示,[vi]是输入字的one-hot形式,[Wword∈Rdωm],其中[m]是固定长度的词典,[dω]表示字向量维度,[Rdωm]是一个向量空间,由此得到句子中每个字的向量化表示[e=e1,e2,?,eT]。

(2)位置向量:在关系抽取任务中,越靠近目标实体的字通常更能表示句子中两个实体的关系。本模型使用位置向量标记实体对,可以帮助LSTM判断句中每个字与实体对的位置,将句子中第[i]字分别到[e1]和[e2]相对距离的组合定义为位置向量。句子实例如图3所示。

图3 句子实例

其中,“千金”是指“关系”,其关联实体是“卢恬儿”(用[e1]表示)和”卢润森”(用[e2]表示)。假设在句子向量化过程中,字向量维度为[dw],位置向量维度为[dp],则将字向量与位置向量组合在一起,将句子表示成一个向量[w=][ω1,ω2,?,ωT],其中[ωi∈Rd(d=dw+dp×2)]。

在图3实例中,该句子从关系“千金”到实体[e1]“卢恬儿”的距离[s1]为19,从关系“千金”到实体[e2] “卢润森”的相对距离[s2]为5,则“千金”的向量化表示如图4所示。

图4 融合特征字向量表示

2.2 注意力机制

注意力机制的思想来自于模仿人们在读取句子信息时注意力的行为。因为中文信息对关系抽取的影响可能来源于某个关键字,所以类似关键字这种局部特征具有重要影响力,本文使用注意力机制增强局部特征与全局特征。

(1)字级注意力机制: 将句子向量[w=ω1,ω2,?,ωT]输入LSTM模型中,获得句子初步训练结果[ht],并使用公式(7)进行处理。

在实际场景中,并非所有字都对句子含义的表示具有同等作用,在训练过程中随机初始化并共同学习字上下文向量[uω]。因此,引入字级注意机制衡量字与关系的相关程度,并汇总信息字的表示以形成句子向量。字级注意力机制具体公式如下:

在使用字级注意力机制时,[αt]为该字[ut]与单字上下文向量[uω]的归一化表示,[s]为两者加权和。

(2)句级注意力机制:将通过字级注意力机制得到的[s]组成的句子输入LSTM模型得到输出[hi]。与字级注意力机制相似,在训练过程中随机初始化并共同学习句子上下文向量[us,v]是所有句子的向量集合,具体公式如下:

2.3 结果分类

将实验得到的结果通过分类器进行关系分类,输出分类结果[S(x)]。

其中,[Wm]表示分类器权值矩阵,[bm]表示分类器偏置,[s]表示分类器选择,本文选择Softmax作为分类器。Softmax一般用于多分类过程中,其将多个神经元的输出映射到(0,1)区间内。本模型输出[S(x)={p1,p2,,p3,?,pi,?,][p12}]是12维向量,第[i]维表示属于第[i]类的概率[pi]。

2.4 基于多层注意力机制的双向LSTM关系获取模型

基于多层注意力机制的LSTM关系获取模型构建主要包括LSTM构建、注意力机制引入与分类3部分,其模型如图5所示。

图5 基于多层注意力机制的LSTM关系获取模型

本模型采用双向LSTM网络结构与双向LSTM模型,其网络包含左右序列上下文的两个子网络,分别是前向与后向传递。将上一节得到的句子向量化表示作为输入,以第[i]个字为例,其输出为:

综上所述,基于多层注意力机制的双向LSTM关系获取模型由两层LSTM神经网络与两层注意力机制组成。为了对句子局部与全局特征加以充分利用,本文选择LSTM输出层加入注意力机制,步骤如下:①输入语料中的句子,对句子进行向量化处理,得到句子的融合特征向量化表示;②将向量化表示后的句子输入LSTM网络中进行初步学习,然后对其结果增加字级注意力机制,对句子局部特征增加权重;③将步骤②得到的结果输入LSTM网络中进行学习,然后对其结果增加句级注意力机制,并对全局特征增加权重;④将步骤③输出结果输入分类器中,得到输入句子的实体关系类别,完成模型训练。

3 实验

为了验证具有实体位置关系与注意力机制的双向LSTM关系获取模型可以使关系获取准确率更高,使用本文设计的网络结构进行实验。首先介绍实验中使用的数据集与评估指标,并使用交叉验证确定模型参数;然后评估多层注意力的影响,并在不同大小的数据上显示其性能;最后,将设计的模型与几种关系抽取方法在同一数据集上进行实验比较。

3.1 实验数据

实验采用的数据集是以百度百科、互动百科等中文类百科的语料为基础,进行人工标注后整理生成的。该数据集包括18 636个训练样本与2 453个测试样本,共包含12种关系。样本关系如表1所示,样本示例如表2所示。

表1 样本关系

表2 数据集示例

3.2 实验指标评价

本文采用准确率([precision])、召回率([recall])和[F1]值作为模型性能评价指标,指标计算公式如下:

[precision=right_outall_out] (15)

[recall=right_outthis_all] (16)

[F1=2?recall?precisionrecall+precision] (17)

[right_out]表示输出的判断正确的个数,[all_out]表示输出的所有关系个数,[this_all]表示测试集中所有此类关系的个数。

3.3 参数设置

本次实验模型激活函数选用sigmoid函数,并采用Softmax作为分类器。为了避免模型在计算过程中出现过拟合现象,采用L2正则化方法对网络参数进行约束。训练过程引入dropout策略,采用批量的Adadelta优化方法用于模型训练,并采用交叉验证方式进行验证,具体参数设置如表3所示。

表3 参数设置

3.4 实验结果分析

将3.1节语料库的训练样本作为训练集进行模型训练,采用测试样本对训练后的模型进行测试。实验抽取12类关系的评价指标如表4所示。

表4 12类关系评价指标

由表4可以看出,对类似于“父母”、“祖孙”等表达较为简单、容易辨别的语义关系,本模型抽取结果要比“情侣”、“朋友”等表达更为复杂,且容易混淆的语义关系抽取效果更好。这是由于复杂的语义关系在进行关系抽取时对上下文语境要求更为严格,抽取难度较高,而简单的语义关系更容易被模型所学习,抽取难度较低。

3.5 对比试验分析

为了体现本文模型在关系抽取的准确度和稳定性上存在一定优势,将本模型与传统基于模式匹配[20-21]的关系抽取方法进行比较。同时,為了突显本文模型的优势,实验设定了3个模型:一是只采用LSTM结合的模型,二是只采用句级注意力机制的模型,三是本文提出的模型,实验结果如表5所示。

表5 实验对比结果

由表5可以看出:

(1)LSTM方法相比于传统基于模式匹配的关系提取方法,具有更高的召回率,且减少了手工标注的繁琐过程,提取准确率更高。

(2)LSTM+句级注意力机制方法相比于单纯的LSTM方法,对LSTM模型输入句子与输出句子之间的相关行进行权重计算,提高了LSTM模型的准确率,[F1]值更高,性能更好。

(3)本文设计的模型对局部特征进行处理,增加了句子中字的位置向量特征与字级注意力机制,提高了重要字的权重,增加了局部特征。相比于LSTM+句级注意力机制,该模型在召回范围内精度较高,准确率也有所提升,表明本文提出的模型是有效的。

4 结语

本文提出一种新的端对端神经网络模型用于实体关系获取,该模型不仅保留了LSTM可避免长距离依赖问题的优势,还利用整个句子的序列信息,增加了位置向量特征与多层注意力机制,并充分利用了局部特征与全局特征,提高了关系抽取准确率。但该方法只能抽取预先设定好的关系集合,而对于开放领域的自动关系获取方面仍有待进一步研究。

参考文献:

[1] 郭喜跃,何婷婷. 信息抽取研究综述[J]. 计算机科学,2015,42(2):14-17,38.

[2] 郭喜跃,何婷婷,胡小华,等. 基于句法语义特征的中文实体关系抽取[J]. 中文信息学报,2014,28(6):183-189.

[3] 台丽婷. 基于半监督机器学习的实体关系抽取算法研究[D]. 北京:北京邮电大学, 2018.

[4] 陈立玮,冯岩松,赵东岩. 基于弱监督学习的海量网络数据关系抽取[J]. 计算机研究与发展,2013,50(9):1825-1835.

[5] 贾真, 何大可, 杨燕,等. 基于弱监督学习的中文网络百科关系抽取[J]. 智能系统学报, 2015(1):113-119.

[6] 徐健,张智雄,吴振新. 实体关系抽取的技术方法综述[J]. 现代图书情报技术,2008(8):18-23.

[7] 李枫林,柯佳. 基于深度学习框架的实体关系抽取研究进展[J]. 情报科学,2018,36(3):169-176.

[8] 刘绍毓, 李弼程, 郭志刚,等.  实体关系抽取研究综述[J].  信息工程大学学报, 2016, 17(5):541-547.

[9] 郭丽,刘磊. 基于关系相似度计算的实体关系分类研究[J]. 软件导刊,2013,12(4):130-131.

[10] SOCHER R,HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]. Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:1201-1211.

[11] LIU C Y, SUN W B, CHAO W H, et al. Convolution neural network for relation extraction[C]. International Conference on Advanced Data Mining and Applications,2013:231-242.

[12] SUNDERMEYER M,SCHLüTER R,NEY H. LSTM neural networks for language modeling[EB/OL]. http://www-i6.informatik.rwth- aachen.de/publications/download/820/Sundermeyer-2012.pdf.

[13] GERS F A,SCHMIDHUBER J,CUMMINS F. Learning to forget: continual prediction with LSTM[J]. Neural Computation, 2014, 12(10):2451-2471.

[14] YAN X,MOU L,LI G, et al. Classifying relations via long short term memory networks along shortest dependency path[J].  Computer Science, 2015, 42(1):56-61.

[15] 刘燊. 面向《大词林》的中文实体关系挖掘[D]. 哈尔滨: 哈尔滨工业大学,2016.

[16] TREISMAN A,SYKES M,GELADE G. Selective attention and stimulus integration[J]. Attention and performance VI,1977,333:97-110.

[17] BAHDANAU D,CHO K,BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. Computer Science, 2014.

[18] HOCHREITER S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based, Systems, 1998, 6(2):107-116.

[19] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc, 2013:3111-3119.

[20] BRIN S. Extracting patterns and relations from the World Wide Web[M]. Berlin:Springer Berlin Heidelberg,1998.

[21] 李夢瑶,向卓元. 基于语音识别技术的移动全能秘书平台设计[J].  软件导刊,2015,14(8):127-129.

(责任编辑:黄 健)