APP下载

融合attention机制的BI-LSTM-CRF中文分词模型

2018-11-17黄丹丹郭玉翠

软件 2018年10期
关键词:分词标签向量

黄丹丹,郭玉翠



融合attention机制的BI-LSTM-CRF中文分词模型

黄丹丹,郭玉翠

(北京邮电大学理学院 北京 100876)

中文的词语不同于英文单词,没有空格作为自然分界符,因此,为了使机器能够识别中文的词语需要进行分词操作。深度学习在中文分词任务上的研究与应用已经有了一些突破性成果,本文在已有工作的基础上,提出融合 Bi-LSTM-CRF模型与attention机制的方法,并且引入去噪机制对字向量表示进行过滤,此外为改进单向LSTM对后文依赖性不足的缺点引入了贡献率对BI-LSTM的输出权重矩阵进行调节,以提升分词效果。使用改进后的模型对一些公开数据集进行了实验。实验结果表明,改进的attention-BI-LSTM-CRF模型以及训练方法可以有效地解决中文自然语言处理中的分词、词性标注等问题,并较以前的模型有更优秀的性能。

中文分词;BI-LSTM;CRF;attention机制;贡献因子;去噪机制;Dropout

0 引言

随着人工智能在越来越多领域的突破,基于深度学习的自然语言处理这一重要领域已经引起了众多研究者的关注。分词、词性标注作为中文自然语言处理中最重要的基础工作之一,已经取得了一些成果。本文在已有结果的基础上深入研究深度学习在中文分词中的应用。分词是指将未加工的自然语言文本分割成单词的顺序。在英语中,单词之间以空格作为的自然分隔符,但在中文中汉字之间没有明显区分。因此需要将中文文本序列进行分割,使之转变成单词序列,以便后续的中文信息处理。

从机器学习角度来看,分词任务可转化成序列标注任务(或者分类任务)。序列标注任务指将观察序列中的每个元素在固定标签集合中为之赋予一个指定标签的过程(分类的过程)。目前,常用的解决序列标记任务的模型有隐马尔可夫模型[1]、条件随机场模型[2,3]和最大熵模型[4]。然而,这些传统的模型需要使用大量的语言学知识来手工构造特征,因此不具有广泛的适用性。深度学习有效利用无监督数据,避免繁琐的人工特征提取,从而具有良好的泛化能力。它通过对数据的多层次建模从而得到数据特征的层次结构以及数据的分布式表示。

深度学习用来解决自然语言处理领域的一些难题。语言的高维特性导致了传统的自然语言处理系统需要复杂的语言知识以便手动构造分类器所能使用的特征。深度学习的方法有以下优点:(1)通过构建模型,可以自动学习自然语言处理领域中解决问题所需要的特征。Collobert等[5]就是利用该特性,抛弃传统的手工提取特征方式,解决了英文序列标注问题。(2)在自然语言处理领域,获得标记数据相对于获得大量的无标记数据成本较大,深入学习可以使用大量的无标记数据来获取特征。(3)自然语言处理领域中的许多问题是密切相关的,如分词、词性标注和命名实体识别等。传统的方法往往单独解决这些问题,而忽略了它们之间的关系。使用深度学习,您可以在特征提取级别构建统一模型以同时处理这些问题,并使用多任务学习方法在模型中建模其相关性以获得更好的性能。Zheng等[6]利用SENNA系统将神经网络运用到中文分词任务上,并提出一个感知器算法加速整个训练过程。Chen等[7,8]在GRNN模型基础上提出了LSTM(long short-term memory)模型进行中文分词任务,取得了很好的效果。之后,Yao等人[9]在LSTM 模型的基础上提出了BI-LSTM模型,更进一步提高了中文分词的准确度。

本文在适合于中文自然语言处理的双向长短期记忆条件随机场模型(BI-LISTM-CRF)基础上,进行了以下改进:(1)提出一种去噪机制,对字向量表示进行调整,使得固定窗口内的字嵌入以一定概率出现,不再依赖于左右联合字嵌入的共同作用;(2)引入了贡献因子对前传LSTM层和后传LSTM 层的权重矩阵进行调节以改进单向LSTM对后文依赖性不足的缺点;(3)在BI-LSTM-CRF中文分词模型中融合attention机制,通过注意机制计算Bi-LSTM模型的输入和输出之间的相关性的重要性,并根据重要性程度获得文本的整体特征。利用改进的attention-BI-LSTM-CRF模型,在MSRA corpus、PKU corpus和人民日报2014公开数据集上进行了实验。实验结果表明,使用本文改进的模型以及训练方法可以有效地进行中文自然语言处理中的分词问题,并提高了精度。

1 模型建立

本文采用图1所示的attention-BI-LSTM-CRF中文分词模型来进行中文分词处理。自底向上: (1)将待分词的文本序列进行文本向量化,将文本中的每一个字映射成一个固定长度的短向量,以作为当前字的特征向量表示;(2)基于去噪机制对输入的信息进行过滤调整;(3)利用 BI-LSTM 获取每个词长距离的上下文特征;(4)引入attention模型对BI-LSTM层的输入与输出之间的相关性进行重要度计算,根据重要度获取文本整体特征; (5)最后CRF层考虑单词标签之间的制约关系,加入标签转移概率矩阵,给出全局最优标注序列。

图1 Attention-BILSTM-CRF中文分词模型

1.1 LSTM和BI-LSTM

图2 RNN神经网络结构

RNN理论上可以学习长期的依赖关系,但在实际情况中并不是如此,它们更倾向于最近的输入序列。这是由于传统的RNN在进行几次链式法则求导后梯度会指数级缩小,导致传播几层后出现梯度消失,无法处理“长期依赖”问题。因此,出现了一种RNN的变体即LSTM。LSTM的设计旨在通过整合一个存储单元来解决这个问题,并被证明可以捕获远距离依赖。他们使用几个门来控制输入给存储单元的比例,以及从以前的状态中忘记的比例[12]。

LSTM的结构与RNN一致,唯一的不同在于其中间的神经网络模块A。该模块结构如图3所示。

图3 LSTM神经网络模块结构

图4 BILSTM+CRF模型

1.2 标签得分计算

中文分词问题可以转换为字符序列的字符标签分类问题。1.1节中BI-LSTM神经网络的中文分词模型的输出即为字符序列中每一个字符的标签得分。文中采用BMES标注方法对分词语料库文本进行标注,即每个字符用{B,M,E,S}来分别表示字符在词中的开始位置、中间位置、结束位置以及单个字为一个独立词。比如文本序列‘我们都是共产主义接班人’用{B,M,E,S}来分割后为‘我/B 们/E 都/B 是/E 共/B 产/M 主/M 义/E接/B 班/M 人/E’。

1.3 CRF标注模型

一个简单但效果显著的有效标注模型叫条件随机场(CRF)[13]。它根据给定的观察序列来推测出对应的状态序列,属于一种条件概率模型。CRF由Lafferty 等人于2001年提出,它解决了隐马尔可夫模型的输出独立性假设问题,也解决了最大熵模型在每一个节点归一化导致只能找到局部最优解和标记偏见问题,因此是比较好的命名实体识别模型。CRF的序列标注思想和BI-LSTM模型利用前后上下文特征的思想上有相向之处,在文献[13]和文献[9]中分别证明了该类模型性能相较于只考虑单方面影响的模型性能有更好的表现。

CRF的工作原理如下:

在所有可能的标签序列上产生序列y的概率为:

训练期间,目标函数是最大化正确标签序列的对数概率:

其中Y代表句子X的所有可能的标签序列。从上述公式可以看出,CRF是学习一个从观察序列到标记序列的概率函数映射关系。我们鼓励我们的网络生成一个有效的输出标签序列。在预测过程(解码)中,模型使用动态规划的Viterbi算法来获得最大分数的输出序列:

1.4 引入attention机制

深度学习中的attention机制模拟人脑的注意力特点。Attention机制可以理解为总是将注意力放在更重要的信息上。Bahdanau等在论文[14]中第一次提出把attention机制应用到了神经网络机器翻译上。

其中:

在attention层之后用一个tanh层用来预测神经网络输出的标签得分:

Attention-BI-LSTM-CRF模型在BI-LSTM网络与CRF标签判别层中间添加attention层。我们将字嵌入序列作为输入提供给BI-LSTM,通过BI-LSTM层结合了上下文的特征,输出返回每个字的上下文的表示,并结合attention机制将更有效的信息输入向CRF层,使用CRF来考虑相邻标签,从而得出每个字的最终预测结果。

2 输入字嵌入

本节介绍输入字嵌入,用特征向量表示序列文本作为BI-LSTM层的输入:(1)将原始序列文本进行向量化,用一个固定长度的向量表示每一个字;(2)由于固定窗口大小带来的上下文不确定性,引入去噪机制对特征向量进行调整;(3)最后使用dropout技巧防止训练过程中的过拟合问题。

2.1 文本向量化

为了使机器能够理解自然语言首先需要将自然语言符号数学化,即文本向量化。在深度学习中,将文本向量化的方式使采用分布式表示方法[15](又称字嵌入)。该方法将词用一种低维实数向量表示,这样的表示既能够使得上下文的词之间的彼此联系,又可以避免向量维度过大带来的不必要的复杂度。

具体地,在中文分词任务中,我们建立一个大小为d×N的汉字字典矩阵D,其中d为字向量维度,N为字典大小。该字典包括我们可以处理的所有汉字以及其他字符(如数字、标点、未登录字等)的替代符号。因此,我们用字典找到对应的字向量来代替每个字。研究表明,将大规模无监督学习得到的字向量作为输入矩阵的初始值要比随机初始化得 来的字向量性能上表现更优[16]。本文实验中使用word2vec作为第一层,把输入数据预先处理成字嵌入向量。

2.2 输入去噪

本文对当前字设置了特征窗口,即利用固定上下文窗口内的字表示当前字。但是固定窗口内的字不一定每次都出现在一起,有的可能只出现少数次。因此,加入一个去噪层对固定窗口内的信息进行调整,使得固定窗口内的字嵌入以一定概率出现,不再依赖于固定窗口内左右词的字向量的共同作用。

首先,句中每个字的字向量表示作为去噪机制的输入。然后该机制对输入信息进行调整,之后BI- LSTM获取每个词长距离的上下文特征并由attention机制对BI-LSTM层的输入与输出之间的相关性进行重要度计算获取文本整体特征,最后CRF层考虑单词标签之间的制约关系,加入标签转移概率矩阵,给出全局最优标注序列。

2.3 Dropout技巧

为了防止模型训练过程中的过拟合问题,本文采用了Dropout[17]技术。其主要思想是在模型训练过程中,随机移除一定比例p(Dropout比率)的神经元以及其对应的输入输出权重。我们将输入attention- BI-LSTM-CRF模型的字嵌入向量使用Dropout方法以降低错误率,提升系统性能。

3 实验

为了说明改进的模型的有效性,我们选择常用的MSRA corpus、PKU corpus和人民日报2014作对比实验。其中MSRA和PKU corpus是由国际中文分词评测Bakeoff提供的封闭语料,包括简体中文和繁体中文。

实验过程中为了公正的评估模型的分词性能,我们采用了分词常用的评价指标:准确率(P),召回率(R),综合指标值(F1)。

3.1 贡献因子与去噪机制测试

为验证本文提出的贡献因子和去噪机制是否会影响到实验效果,我们选取1层BI-LSTM分词模型,句子长度为80,在MSRA数据集上进行测试,测试结果如表1所示。

表1 贡献因子和去噪机制在MSRA 测试集上测试结果(F1值)

Tab.1 Contribution factor and denoising mechanism test results on the MSRA test set (F1 value)

表2<40时不同取值的贡献因子测试结果

Tab.2 Contributing factor test results with different values when t<40

3.2 超参数配置

对于本文改进的attention-BI-LSTM-CRF模型,我们使用反向传播算法来训练我们的网络,设定初始学习率为0.01。本实验采用word2vec方法对字向量进行训练预处理。文中使用PKU数据集,基于BMES词位标注方法,以BI-LSTM为模型,我们设定字嵌入向量长度为 100,dropout 大小为 0.3。实验研究过程中,我们发现不断增大的隐藏层单元数当达到一定值以后,对测试结果影响趋于稳定。本文中改进的模型最终选取隐藏层的单元数为120。

表3 超参数设置

Tab.3 Hyperparameter setting

3.3 实验对比与分析

我们测试BI-LSTM、BI-LSTM-CRF、和本文改进的attention-BI-LSTM-CRF这三个不同的模型分别在 PKU,MSRA和人民日报2014语料库上分词性能的表现。如表4所示,本文提出的attention-BI- LSTM-CRF模型相比较BI-LSTM和BI-LSTM-CRF 模型性能分别提升为0.6%、1.0%和0.6%,分词效果更好。

表5为本文训练的attention-BI-LSTM-CRF模型与前人在分词领域研究结果对比。其中Bakeoff-best 为2005年Bakeoff 测评最好结果;Chen-2015[7]他们在文本向量化过程中加入了双字符嵌入向量,最佳水平如表5所示;Yao-2016在文献[9]中叠加了 3层BI-LSTM 模型。本文中融合了attention机制与过滤机制以及引入了贡献因子也取得了不错的分词效果,证明了 attention-BI-LSTM-CRF分词模型的优越性。

表4 不同模型在PKU、MSRA、人民日报2014测试集上的实验对比结果

Tab.4 Experimental comparison results of different models on PKU, MSRA, People's Daily 2014 test set

表5 在PKU、MSRA测试集上与前人模型的实验结果对比

Tab.5 Comparison of experimental results with predecessor models on PKU and MSRA test sets

4 结语

文中针对自然语言处理中的中文分词任务,在BI-LSTM-CRF模型的基础上提出一种改进的attention- BI-LSTM-CRF中文分词模型。该模型融合attention机制方法,以计算BI-LSTM模型的输入和输出之间相关性的重要性,从而更好的获得文本的整体特征。利用一种去噪机制,使得固定窗口内的字嵌入以一定概率出现,减少了左右联合字嵌入的联合作用。并且引入了贡献因子以改进单向LSTM对后文依赖性不足的缺点。实验表明, 在中文分词任务中,相比较BI-LSTM模型和BI-LSTM-CRF模型,本文改进的attention-BI-LSTM-CRF模型在选取的测试集上分词表现更加出色。

[1] 李月伦, 常宝宝. 基于最大间隔马尔可夫网模型的汉语分词方法[J]. 中文信息学报, 2010, 24(1): 8-14.

[2] Peng F, Feng F, Mccallum A. Chinese segmentation and new word detection using conditional random fields[C]. Proceedings of Coling, 2004: 562-568.

[3] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]. Proc of the Fourth SIGHAN Workshop on Chinese Language Processing, 2005: 168-171.

[4] Nianwen Xue. Chinese word segmentation as char- acter tagging[J]. Computational Linguistics and Chi- nese Language Processing, 2003, 8(1): 29-48.

[5] Collobert R, Weston J, Bottou L. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.

[6] Zheng X, Chen H, Xu T. Deep learning for Chinese word segmentation and POS tagging[C]. Confer- ence on Empirical Methods in Natural Language Processing, 2013: 647-657.

[7] Chen X, Qiu X, Zhu C, et al. Gated recursive neu- ral network for Chinese word segmentation[C]. Proc of Annual Meeting of the Association for Computational Linguistics, 2015: 1744-1753.

[8] Chen X, Qiu X, Zhu C, et al. Long short-term memory neural networks for Chinese word seg- mentation[C]. Conference on Empirical Methods in Natural Language Processing, 2015: 1197-1206.

[9] Yushi Yao, Zheng Huang. Bi-directional LSTM recurrent neural network for Chinese word segmen- tation[C]. InternationalConference on Neural In-formation Processing, 2016: 345-353.

[10] Y. Bengio; P. Simard; P. Frasconi, Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 2002, 5(2): 157-166.

[11] 张玉环, 钱江. 基于两种 LSTM 结构的文本情感分析[J]. 软件, 2018, 39(1): 116-120.

[12] S Hochreiter, J Schmidhuber, LSTM can solve hard long time lag problems. International Conference on Neural Information, 1996, 9: 473-479.

[13] Lafferty J D, Mccallum A, Pereira F C N. Conditional random fields: probabilistic models for seg- menting and labeling sequence data[C]. Proc of ICML, 2002, 3(2): 282-289.

[14] Neural Machine Translation by Jointly Learning to Align and Translate. D Bahdanau, K Cho, Y Bengio - arXiv preprint arXiv: 1409. 0473, 2014.

[15] Hinton G E. Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society. 1986: 1-12.

[16] Mulder W D, Bethard SMoens M F. A Survey on the application of recurrent neural networks to statistical language modelingJ. Computer Speech &Language, 2014, 30(1): 61-98.

[17] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

BI-LSTM-CRF Chinese Word Segmentation Model with Attention Mechanism

HUANG Dan-dan, GUO Yu-cui

(School of Science, Beijing University of Posts and Telecommunications, Beijing 100876, China)

In English words, spaces are used as natural delimiters between words, and there are no such clear delimiters between Chinese words. Therefore, deep learning models and methods that obtain good results in English natural language processing cannot be directly applied. Deep learning has achieved breakthrough results in the field of natural language processing in English. Based on the existing work, this paper proposes a method to integrate the Bi-LSTM-CRF model and the attention mechanism, and introduces a denoising mechanism to filter the word vector representation.In addition, the contribution rateof the unidirectional LSTM is reduced. The output weight matrix of the BI-LSTM is adjusted to improve the word segmentation effect. We conducted experiments using the public data set in the above model. Experimental results show that the improved attention-BI-LSTM-CRF model and training method can effectively solve the problem of word segmentation and part of speech tagging in Chinese natural language processing, and can obtain good performance.

Chinese segmentation; BI-LSTM; CRF; Attention mechanism; Contribution factor; Denoising mechanism; Dropout

TP391

A

10.3969/j.issn.1003-6970.2018.10.050

黄丹丹(1991-),女,研究生,主要研究方向:自然语言处理;郭玉翠(1962-),女,教授,主要研究方向:数学与信息安全。

黄丹丹,郭玉翠. 融合attention机制的BI-LSTM-CRF中文分词模型[J]. 软件,2018,39(10):260-266

猜你喜欢

分词标签向量
向量的分解
聚焦“向量与三角”创新题
分词在英语教学中的妙用
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
基于多进制查询树的多标签识别方法
论英语不定式和-ing分词的语义传承