APP下载

基于准循环神经网络的中文命名实体识别

2020-07-20李业刚蒲相忠

计算机工程与设计 2020年7期
关键词:命名标签实体

王 栋,李业刚,张 晓,蒲相忠

(山东理工大学 计算机科学与技术学院,山东 淄博 255049)

0 引 言

信息检索、机器翻译、问答系统等自然语言处理任务是目前人工智能领域的热门研究方向[1-3]。然而,命名实体识别、短语识别[4]和文本匹配[5]等基础任务对于上述热门研究方向来说则是重要的组成部分[6,7]。

传统的命名实体识别多采用基于规则和统计机器学习的方法,例如,最大熵模型(maximum entropy,ME)[8]、条件随机场模型(conditional random fields,CRF)[9]、支持向量机模型(support vector machine,SVM)[10]等。虽然上述方法在命名实体识别任务中取得了不错的成绩,但是识别效果很依赖特征模板的设计。相较于传统方法,利用深度学习技术处理序列任务可以直接通过神经网络模型自动获得序列数据的特征信息,更精确地描述命名实体识别问题。

为了获得更好的识别性能和系统运行速度。本文提出了融合双向准循环神经网络(BQRNN)与条件随机场(CRF)的中文命名实体识别模型。该模型中的BQRNN网络首先将待标注对象和各标签序列所对应的得分输出给CRF模型,由CRF依据标签之间的约束关系对标签序列进行选取。并且在模型中引入了Attention机制,进一步增强了BQRNN网络所获取的特征信息。

1 相关工作

近年来,深度学习技术大量的应用在自然语言处理领域。命名实体识别在深度学习中常常被定义为序列标注任务。文献[11]通过深度神经网络(deep neural networks,DNN)获取文本序列的特征信息,对中文新闻内容进行命名实体识别。但是由于深度神经网络模型的窗口固定,导致模型并不能充分地获取全文信息。于是,具有强大序列建模能力的循环神经网络(recurrent neural networks,RNN)受到了大量研究者的关注,该网络的特点在于当前时刻的计算依赖于前一时刻的输出信息,信息可以在网络内传递,这样的特点使得模型不再需要使用固定长度的窗口获取全文信息。不过由于RNN记忆单元的结构相对简单,并且存在长距离依赖的问题,在使用随时间进行的反向传播算法(backpropagation through time,BPTT)时,经常会面临梯度消失的问题,这样就导致网络只能学习到距离当前时刻相对较近的信息。文献[12]提出了基于长短期记忆网络(long-short term memory,LSTM)的命名实体识别方法,该方法所应用的LSTM网络成功地解决了RNN网络存在的梯度爆炸和消失的问题。LSTM网络通过增加细胞状态来存储记忆,避免了使用单一隐藏层的局限性。

基于上述研究的命名实体识别取得了长足的进展。具有门限机制的LSTM网络逐渐成为利用深度学习技术处理该任务的标准模型结构。在英文命名实体识别中,文献[13]提出了一种具有混合神经网络结构的命名实体识别模型,该模型使用BLSTM网络和CNN网络分别抽取词级别和字符级别的特征,避免了对特征工程的需要。文献[14]基于文献[13]的研究在模型中引入了CRF层,利用序列层面的标注信息提高标注的性能。相较于英文命名实体识别,中文词语缺少明显的词边界和大小写信息,使得中文命名实体识别更加具有挑战性。文献[15]提出了一种基于汉字的中文命名实体识别模型,通过BLSTM网络提取中文汉字的特征信息,避免引入分词错误影响识别质量,并且在特征向量中加入了汉字的字形信息,其性能明显优于基于词的识别模型。但是,该模型中的LSTM网络结构复杂,网络的训练参数较多,使得模型在处理较长的序列化文本时,会因为序列数据不同部分的状态不能并行运算而消耗大量的时间,降低了系统的整体性能。

针对LSTM网络缺乏并行性的问题,本文提出融合双向准循环神经网络(BQRNN)与条件随机场(CRF)的中文命名实体识别模型(BQRNN-CRF)。该模型使用相较于LSTM网络性能更好的准循环神经网络(quasi-recurrent neural networks,QRNN)[16]作为基本模型,获取序列化文本中的特征信息。QRNN训练参数更少,网络结构更简单,并且具有良好的并行计算能力,更适用于处理长序列文本。CRF模型可以基于序列前后的标签信息进行标注,减少了不合理的输出标签组合,并且在模型中添加了Attention机制增强模型对关键字信息的利用,更好地改善了BQRNN网络的输出,从而实现了端到端的中文命名实体识别。

2 模 型

2.1 QRNN

准循环神经网络(QRNN)是一种具有交替卷积层的神经序列建模方法,可以实现数据的并行处理,并且在输出时有效地利用了输入序列的顺序信息。QRNN网络由卷积层和池化层两部分组成。

假设QRNN网络的卷积层使用数量为m的滤波器进行卷积运算。对于一个输入序列X=(x1,x2,…,xT), 通过卷积操作得到序列Z=(z1,z2,…,zT)。 其中,序列X中每个向量的维度为n, 序列Z中每个向量的维度为m。 如果t时刻时,滤波器的宽度为k, 则卷积的范围为xt-k+1到xt。 卷积层如式(1)~式(3)所示

Z=tanh(Wz*X)

(1)

F=σ(Wf*X)

(2)

O=σ(Wo*X)

(3)

式中:Wz,Wf,Wo为卷积滤波器,σ为激活函数,*表示在时间顺序上的卷积运算。当滤波器的宽度k增大时,模型可以计算更多的n-gram特征。本文选择k为2的设置,此时,QRNN的卷积层如式(4)~式(6)所示

(4)

(5)

(6)

QRNN的池化层用于提取卷积层输出的特征信息,减少特征数目。池化层的计算是在动态平均池化的基础上,增加了输出门和遗忘门。这样的结构与LSTM的门结构非常类似,池化层如式(7)、式(8)所示

ct=ft⊙ct-1+it⊙zt

(7)

ht=ot⊙ct

(8)

式中:f,i,o分别表示遗忘门、输入门、输出门,ct表示t时刻时的细胞状态,h,c的状态初始化为0,⊙表示向量之间的点乘运算。在文本序列处理的每一时刻,池化函数都需要运算,但是运算的过程具有并行性,所以对于较长的文本序列,运算增加的时间是可以忽略的。池化时QRNN的结构如图1所示。

图1 池化时QRNN的结构

2.2 条件随机场

条件随机场模型(CRF)是一种判别式概率无向图学习模型,主要用于序列数据的标注和切分,现已成功应用在自然语言处理、生物信息学和机器视觉等领域。在命名实体识别任务中,识别模型的输出标签并不是任意出现的,它们之间有很强的约束关系,一个字的输出标签不仅受到全文信息和字本身含义的影响,并且还受到前后输出标签的影响,例如,标签I-PER不能在B-ORG之后出现,这样便限制了B-ORG之后的输出标签。所以,如果仅仅使用BQRNN网络构建命名实体识别模型并没有考虑这种约束关系,模型在输出标签的类别判断上仅仅考虑了字本身含义的,而没有考虑与前后的输出标签的逻辑关系。因此,本文在BQRNN模型后引入CRF模型,可以对BQRNN网络的输出序列在句子层面进行标注,以达到提高识别质量的目的。

2.3 Attention机制

Attention机制的核心是一种资源分配思想,旨在模拟人脑的注意力机制,选择性地关注某些重要的特征信息,例如:人在进行阅读活动时,并不是关注文本的所有内容,而是根据需求集中阅读特定的内容。本文利用Attention机制的特点将较大的权值分配给序列化文本中的关键字,将较小的权值分给其它的汉字。在这里,Attention机制的注意力权重αi的计算如式(9)、式(10)所示

ui=tanh(Wuht+b)

(9)

(10)

其中,Wu为权重矩阵,b为偏置项,M为上下文矩阵,ui为ht的隐藏层表示。

2.4 基于BQRNN-CRF的中文命名实体识别模型

图2给出了本文提出的BQRNN-CRF模型框架。

(11)

图2 基于BQRNN-CRF的中文命名实体识别模型

BQRNN网络的输出ht经过Attention的处理后,便获得到第i个字的注意力权重αi, 利用注意力权重αi对ht进行加权计算得到输出表示Ht, 如式(12)所示

(12)

此时,使用CRF模型进一步提取句子前后的标签信息,达到提高标注性能的目的。假定目标序列为Y=(y1,y2,…,yn), 其分值如式(13)所示

(13)

其中,P是BQRNN网络输出的分数矩阵;A为标签转移矩阵,表示时间顺序上从第yi个标签转移到第yi+1个标签的概率。进而可以利用softmax得到序列Y的概率,如式(14)所示

(14)

模型训练时,采用最大似然估计训练模型参数,其计算公式如式(15)所示

logP(y|x)=s(X,Y)-log∑Y′exp(s(X,Y′))

(15)

模型训练结束后使用Viterbi算法获得最终的标签序列,其中,Y′表示所有可能的标签序列,在预测标签序列时,输出预测分数最大的序列,如式(16)所示

(16)

3 实 验

3.1 数据集

本文实验使用Bakeoff-3用于评测中文命名实体识别技术的MSRA数据集。该数据集是由微软亚洲研究院为中文命名实体识别任务提供的简体汉字数据集,是一个经典公开的中文命名实体识别数据集。语料包含了3种类型的命名实体,包括:地名、人名、组织机构名。MSRA数据集的详细划分信息见表1。

3.2 预训练字向量

在基于深度学习技术的命名实体识别中,序列化文本不能直接输入到神经网络中,需要预先转化为向量的形式。由于QRNN网络非常适用于长序列任务的处理,例如,字符级别的文本数据处理。所以本文采用字向量作为模型的输入,避免分词错误影响模型的性能,同时也可以减少文本中的未登录词对识别效果的影响。在本文的实验中,采用[-0.25,0.25]区间内随机初始化的方式得到字向量。

3.3 标注策略和评价指标

在对语料进行标注时,命名实体通常不是由一个词组成,而是由多个词组成,因此需要为文本中的每个字分配一个命名实体标签。本文采用BIO的标注策略,其中,O表示非实体,B表示实体起始边界,I表示实体起始边界后的部分。这样便可以将命名实体识别作为在类别标签上进行类别判断的分类问题。本文实验的性能评价指标使用精确率P、 召回率R、F1值,其计算公式如式(17)~式(19)所示

(17)

(18)

(19)

3.4 模型超参数选择

模型超参数设置不仅决定了整个模型训练过程中的运行速度,而且影响了模型的识别性能。在实验的过程中发现,batch_size、网络的隐藏层单元数(Hidden units)、dropout的设置对模型的运行速度和识别性能具有重要的意义。其中,较大的QRNN隐藏层单元数会增加模型的复杂程度,降低模型的泛化能力。较小的隐藏层单元数会导致特征提取的效果不佳;使用dropout可以有效地防止模型过拟合,保存序列信息,提高模型的泛化能力;采用适合的batch_size设置可以提高内存的利用率和模型训练的速度,并且使得梯度下降的方向更加准确。

为了获得模型的最佳性能,本文对模型batch_size、隐藏层单元数、dropout这3种参数的选取进行了实验分析,实验结果如图3、图4所示。首先考察了在不同dropout设置的情况下,QRNN隐藏层单元数对模型性能的影响。实验中QRNN隐藏层单元数选取的范围是100~500,间隔为100。dropout的设置分别选取0.2、0.3、0.4、0.5。图3为采用4种dropout设置时,QRNN隐藏层单元数对模型识别效果的影响趋势图。

图3 Hidden units和dropout的影响

图4 batch_size的影响

通过图3所示的实验结果可知,本文模型在隐藏层单元数取400,dropout取0.2时系统性能达到了最优的效果。图4所示的实验结果为不同的batch_size大小对模型性能的影响。

从图4所示的结果可以看出,采用不同的batch_size数值,模型性能有一定程度的变化,当batch_size数值过大时,会降低模型的泛化能力,导致识别效果不佳。当batch_size数值为32时,模型达到了最佳的性能。

综合以上参数实验,选取了模型的隐藏层单元数为400,dropout为0.2,batch_size为32的超参数设置。并且采用了Adam算法优化模型,提高模型的收敛速度。具体的参数设置见表2。

3.5 对比实验

为了评估本文模型在MSRA数据集上的模型性能,本文设计了6组实验来进行对比和分析,包括长短期记忆网络(LSTM)模型实验、双向长短期记忆网络(BLSTM)模型实验、双向准循环神经网络(BQRNN)模型实验、BLSTM-CRF模型实验、BQRNN-CRF模型实验和BQRNN-CRF+Attention模型实验。以下是对上述6组模型实验的简介:

表2 模型超参数统计

(1)LSTM

该模型使用字向量作为输入,采用长短期记忆网络LSTM构建中文命名实体识别模型。

(2)BLSTM

在实验(1)的基础上,采用双向长短期记忆网络BLSTM构建模型。

(3)BQRNN

在实验(1)的基础上,采用双向准循环神经网络BQRNN构建模型。

(4)BLSTM-CRF

该模型是文献[14]和文献[15]的主干模型,是应用最为广泛的基本模型结构。这里采用文献[15]中基于汉字的BLSTM-CRF模型进行实验。

(5)BQRNN-CRF

本文提出的BQRNN-CRF模型,使用字向量作为输入,未添加Attention机制。

(6)BQRNN-CRF+Attention

在实验(5)的基础上,加入了Attention机制。

3.6 实验结果与分析

表3给出了6种模型的中文命名实体识别实验结果比较。

表3 实验结果对比

根据表3中前3组模型的实验结果可以看出,BLSTM网络能够综合考虑序列化文本的上下文信息,与单向的LSTM网络相比系统性能有了较明显的提升,F1值达到了85.84%。BQRNN模型实验的F1值比BLSTM模型提高了0.42%。与此同时,通过BLSTM模型、BLSTM-CRF模型、BQRNN模型和BQRNN-CRF模型的实验结果对比可以看出,CRF模型与神经网络所构成的联合模型可以明显地提高命名实体识别的性能。究其原因,联合模型在考虑上下文信息的同时,通过CRF模型获得了序列级别的标签信息,所以标注的性能得到了进一步的提高。相较于BLSTM-CRF模型,未添加Attention机制的BQRNN-CRF模型的F1值有了0.45%的提高,其主要原因是QRNN可以基于序列数据并行运算,具有较高的吞吐量和长序列缩放性。BQRNN-CRF模型添加了Attention机制后,模型的F1值达到了90.12%,相比未添加Attention机制的模型F1值提高了1.36%。

本文在MSRA数据集上进行了BLSTM-CRF和BQRNN-CRF两种模型的运行时间对比实验,统计了两种模型的运行时间。实验过程中,两组模型采用了相同的参数设置。实验结果见表4。

表4 两种模型运行时间的对比

从两种模型运行时间对比实验的结果可以看出,BQRNN-CRF模型的训练时间比BLSTM-CRF模型减少了约40%。综合实验结果,验证了本文提出的BQRNN-CRF模型与BLSTM-CRF模型相比具有更快的系统运行速度,模型的整体性能得到了有效的提升。

4 结束语

提高命名实体识别的速度和性能,对于推动命名实体识别的发展具有重要的应用价值,本文提出的基于BQRNN-CRF的中文命名实体识别模型,具有良好的识别效果,运行速度的提升最为明显,显著优于BLSTM-CRF模型。随着大数据时代的到来,跨领域的命名实体识别需求越来越大,下一步的研究方向会尝试从解决命名实体识别领域适应性的角度出发,构建能够处理多领域文本的命名实体识别模型。

猜你喜欢

命名标签实体
命名——助力有机化学的学习
前海自贸区:金融服务实体
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
有一种男人以“暖”命名
为一条河命名——在白河源
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
让衣柜摆脱“杂乱无章”的标签