APP下载

基于词向量的无监督词义消歧方法

2018-12-10吕晓伟章露露

软件导刊 2018年9期
关键词:机器翻译自然语言处理

吕晓伟 章露露

摘要 词义消歧在多个领域有重要应用。基于Lesk及其改进算法是无监督词义消歧研究的典型代表,但现有算法多基于上下文与义项词覆盖,通常未考虑上下文中词与歧义词的距离影响。为此提出一种基于词向量的词义消歧方法,利用向量表示上下文以及义项,并考虑融合上下文与义项的语义相似度及义项分布频率进行词义消歧。在Senseval-3数据集上测试,结果表明,该方法能有效实现词义消歧。

关键词 词义消歧;词向量;自然语言处理;机器翻译;Word2vec

DOIDOI:10.11907/rjdk.181100

中图分类号:TP391

文献标识码:A文章编号文章编号:16727800(2018)009019303

英文标题Unsupervised Word Disambiguation Method Based on Word Embeddings

--副标题

英文作者LV Xiaowei,ZHANG Lulu

英文作者单位(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

英文摘要Abstract:Word sense disambiguation have important applications in many fields.Lesk algorithm and its improved algorithm are typical representatives of unsupervised wordsense disambiguation.However,most of the existing algorithms are mostly based on word coverage of context and gloss.In addition,the effect of distance between ambiguous words and word in context is not considered.This paper proposes a method of wordsense disambiguation based on word vectors,which uses vectors to represent contexts and gloss and also considers combined semantic similarity between context and gloss with the distribution frequency of gloss.The test results on the Senseval3 dataset show that this method can effectively achieve wordsense disambiguation.

英文關键词Key Words:word sense disambiguation; word embedding; natural language processing;machine translation;Word2vec

0引言

在自然语言中存在大量一词多义现象,这些词被称为歧义词。词义消歧指在给定的语境中识别歧义词的正确含义[1]。词义消歧是自然语言处理领域的基础研究,也是核心研究,在机器翻译、语音识别、文本分类、信息检索等方面有着十分重要的作用。

目前,解决词义消歧任务主要有4种方法[2]:①基于知识的方法,②基于语料库的无监督方法,③基于语料库的有监督方法,④组合以上方法的方法。基于知识的方法主要使用丰富且系统的语义知识库进行消歧,例如《知网》[3]、WordNet[4]等;基于语料库的有监督方法使用经过标注的语料库进行消歧。有监督的方法消歧效果较好,但这种方法需要人工标注语料库,现实中大量人工标注的语料库往往难以获取,故多数特定场合难以采用此方式。

基于语料库的无监督方法使用未经标注的语料库进行消歧,典型代表为Lesk算法[5]。该算法利用机读词典,将歧义词的每个义项与上下文中词的每个义项进行匹配,单词覆盖的最多义项为该歧义词上下文中的正确含义。

Lesk算法虽能进行词义消歧任务,但存在两个问题[7]:①计算单词覆盖度的次数与概念中的单词数量有关,单词数量越多,计算次数越多;②词汇覆盖只是基于义项中词汇的共现。针对第一个问题,有研究者提出简化版的Lesk算法[8]:将歧义词的各个义项分别与歧义词所在的上下文计算单词的覆盖度,覆盖度最大的义项为最佳含义。针对第二个问题,有研究者[9]提出根据语义相关,使用WordNet作为语义网络,扩充歧义词各个义项,以增加覆盖度。王永生[10]以WordNet为基础,使用CBC算法扩充目标词的相似词集合进行词义消歧。Pierpaolo Basile等[11]考虑扩展后的义项频率等信息,并在分布语义空间中计算相似度以消歧。基于改进的Lesk算法,通过不同方式扩展同义词、义项,再与上下文计算相似度进行消歧。

随着Word2vec、Glove的提出以及普及,大量研究者使用词向量[6]完成自然语言处理中的许多任务,词义消歧任务也不例外。

词向量是使用一个向量表示一个词。目前,有两种词向量表达方式:① onehot representation方式;②Distributed representation[12]。onehot representation方式表示的词向量非常简单,向量的长度为辞典大小,向量中的每一维由0或1表示,词在辞典中对应的维为1,其它为0。这种方式虽然可简单表示一个词,但不能有效表达词之间的词义信息,而且存在数稀疏问题。Distributed representation这种方式能很好地克服onehot representation方式的两个缺点。该方法将一个词映射到一个实数向量空间中,一般为100~300维,这种方法使得词义之间的相似性可以用空间距离表示,两个词向量的空间距离越近,表示两个词的相似性越高。

Google公司2013年开放了Word2vec[16]这一可以训练词向量的工具。Word2vec以大量文本训练语料作为输入,通过训练模型快速有效地将一个词语表达成向量形式。该工具包含CBOW和Skip_gram两种训练模型。CBOW模型通过上下文预测当前词,Skip_gram模型通过当前词预测其上下文。Word2vec开放后,有研究者使用Word2vec训练所得的词向量进行词义消歧实验。杨安等[13]考虑义项与上下文相似度分数、领域相关性分数、WordNet相似度分数以及义项频度分数4种因素进行消歧。Kaveh Taghipour[14]等结合IMS系统,加入词向量进行消歧。

上述方法考虑了扩展注释、相似词集、参考领域信息、利用语义网络等因素,但是未考虑上下文中词与歧义词的距离对消歧的影响。本文使用文档向量表示歧义词所在的上下文,使用义项向量表示歧义词的各个义项,进行词义消歧。同时考虑到义项频度对消歧的准确度影响,最终实现无监督词义消歧方法。通过在Senseval3数据集上测试,表明本文方法能有效实现词义消歧。

1基于词向量的词义消歧方法

1.1方法描述

本文提出的词义消歧方法主要思想是,使用向量分别表示歧义词的各个义项及歧义词所在的上下文,分别计算向量表示的上下文与歧义词的各个义项之间的相似度,再计算歧义词各个义项的分布频率,结合相似度以及义项频度,选择出歧义词的最佳含义。消歧步骤如下:①数据预处理;②上下文以及义项的向量表示;③上下文-义项相似度计算;④义项分布;⑤最终词义选择。如图1所示。

在数据预处理步骤中,本文只进行去标点、分词、大写转换小写操作,得到歧义词的上下文,后续分别描述上下文及义项的向量表示、上下文-义项相似度计算、义项分布以及最终词义选择。

1.2上下文及义项向量表示

直观来看,若上下文中的词距离歧义词越近,对歧义词正确含义的判定影响就越大。为体现上下文中词与歧义词距离的影响,本文采用局部加权法计算上下文中词相对歧义词的位置权重。如公式(1)所示。

wi=e(-|xi-t|2τ2),xi∈|C|(1)

式(1)中,wi表示上下文中第i个词位置权重,xi表示上下文中第i个词位置,t表示歧义词位置,|C|表示上下文大小,τ2是调节参数,表示上下文中的词相对歧义词位置的权重关系,距离关键词距离越近,权重越大。

在定义位置权重基础上,上下文向量计算公式如下:

ci=∑nie1i·wi,wi∈0,C(2)

式(2)中,ci表示第i篇上下文的向量表示,wi表示上下文中第i个词的位置權重,e1表示上下文向量,e1i表示上下文词集中第i个词的词向量,|C|表示歧义词所在上下文的大小。

各个义项的向量计算如下:

gi=∑ni∈ae2i(3)

式(3)中,gi表示歧义词第i个义项的向量表示,a表示义项中的词,e2表示义项向量,e2i表示义项中的第i个词的词向量。

1.3上下文-义项相似度计算

本文使用余弦相似度判断上下文与各个义项的相似度。公式(4)为余弦相似度计算公式。

cos(c,gi)=c·gi‖c‖·‖gi‖(4)

式(4),cos(c,gi)表示上下文向量与歧义词第i个义项的余弦相似度,c表示上下文向量,gi表示第i个义项的义项向量。

1.4义项分布频率

义项分布频率指歧义词的各个义项在包含该歧义词的文档中出现的概率。根据式(5)计算各个义项分布概率:

Pi=niN(5)

式(5)中,N表示包含该歧义词的上下文数量, ni表示在上下文中歧义词的含义是第i个义项的上下文数目。

1.5最终词义选择

最佳义项选择采用评分方式,对上下文和义项的相似度以及义项频度综合考虑。根据公示(6)计算每一个义项得分,最高得分的义项为歧义词在该上下文的最佳含义。

scorei=a·cos(c,gi)+b·Pi(6)

式(6)中,a、b是参数,本文方法中a=b=0.5。

2实验

本文使用维基百科数据集,采用Word2vec训练词向量,使用CBOW模型,窗口大小为5,词向量维度为300。

本文使用Senseval3数据集,该数据集包含57个歧义词,其中动词32个,名词20个,形容词5个。训练集包含7 860篇文档,测试集包含3 944篇文档,每个词平均义项为6.473个,义项分布频率在Senseval3数据集中得到。使用本文方法在Senseval3测试集上测试,并与基于改进的Lesk算法[15] (L1)及文献[10]中的方法(L2)进行对比,本文方法使用L3表示,结果见表1。

使用本文方法全部词的平均准确率达到0.558,高于文献[15]中改进的Lesk算法准确度,也高于文献[10]中没有使用义项频度只计算名词消歧的准确度,表明本文考虑上下文中词与歧义词的距离及融合义项频度方法有效。

3结语

语义消歧在机器翻译、语音识别、文本分类、信息检索等方面有着十分重要的作用。考虑歧义词周围词语对歧义词正确含义判定的影响,以及歧义词各个义项在数据集中出现的概率,使用词向量进行消歧,消歧效果优于改进的Lesk算法。歧义词的有些义项在数据集中并不存在,消歧准确率还有进一步提升空间。下一步拟研究更准确的歧义词义项概率及用更准确的方法表示上下文以及歧义词义项方法。

参考文献参考文献:

[1]NAVIGLI R.Word sense disambiguation:asurvey[J].ACM Computing Surveys,2009,42(2):169.

[2]AGIRRE E,EDMONNDS P.Word sense disambiguation[J].Algorithm and Application,2007(10):128.

[3]董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):3344.

[4]FELLBAUM C.WordNet: An electronic lexical database[M].Cambridge:MIT press,1998.

[5]LESK M.Automatic sense disambiguation using machine readable dictionaries:how to tell a pine cone from an ice cream cone[C].Proceedings of the 5th Annual International Conference on Systems Documentation,1986:2426.

[6]蔣振超,李丽双,黄德根,等.基于词语关系的词向量模型[J].中文信息学报,2017,31(3):2531.

[7]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

[8]KILGARRIFF A,ROSENZWEING J.Framework and Results for English SENSEVAL[J].Computers and the Humanities,2000,34(12):1548.

[9]BANERJEE S,PEDERSEN T.An adapted Lesk algorithm for word sense disambiguation using WordNet[J].Computational Linguistics and Intelligent Text Processing,2002(2276) 136145.

[10]王永生.基于改进的Lesk算法的词义排歧算法[J].微型机与应用,2013 (24):6971.

[11]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

[12]HINTON G E.Learning distributed representation of concepts.[C].Proceedings of CogSci,1986:112.

[13]杨安,李素建,李芸.基于领域知识和词向量的词义消歧方法[J].北京大学学报:自然科学版,2017,53 (2):204210.

[14]TAGHIPOUR K,NG H T.Semisupervised word sense disambiguation using word embeddings in general and specific domains[J].The 2015 Annual Conference of the North American Chapter of the ACL,2015(5):314323.

[15]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

[16]周练.Word2vec的工作原理及应用探究[J].图书情报导刊,2015(2):145148.

责任编辑(责任编辑:杜能钢)

猜你喜欢

机器翻译自然语言处理
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
基于组合分类算法的源代码注释质量评估方法
词向量的语义学规范化