APP下载

融合领域多词特征的英文武器装备名识别研究

2019-06-17雷树杰邢富坤王闻慧

计算机应用与软件 2019年6期
关键词:词形语料模板

雷树杰 邢富坤 王闻慧

1(战略支援部队信息工程大学洛阳校区 河南 洛阳 471003)2(青岛大学外语学院 山东 青岛 266000)

0 引 言

命名实体识别(Named Entity Recognition,NER)是自然语言处理任务中一项基础性的工作,可以为自动文摘(Automatic Summarization)、自动问答(Question and Answering)和机器翻译(Machine translation)等更复杂的自然语言处理任务提供支持。对于军事领域的信息处理而言,军事类命名实体的识别同样起着基础性的作用,而武器装备名就是一类非常重要的军事类命名实体。

1 英文武器装备名识别概述

武器装备是武装力量用于实施和保障战斗行动的武器、武器系统和军事技术器材的统称,通常分为战斗装备和保障装备。战斗装备是指在军事行动中直接杀伤敌人有生力量和破坏敌方各种设施的技术手段,如枪械、作战飞机、导弹等。保障装备是为了有效使用战斗装备所必需的军事技术器材,如雷达、军用测绘器材、野战工程机械等。武器装备名可分为类名与具体名,类名是某类武器装备名的统称,如枪(gun)、战斗机(fighter)等。具体名则专指某一款武器装备的名称,如“M1”、“J-20”都属于具体名。从军事领域自然语言处理任务需求看,武器装备的类名与具体名都是重要的军事领域专有信息,都应作为武器装备名称予以分析研究。

对命名实体的识别研究主要受到了如CoNLL(Conference on Computational Natural Language Learning)等评测会议的影响,其研究也主要集中在对人名、地名、组织机构名、时间和数字表达式的识别上[1],对武器装备名的识别研究还较少。这一方面是由于其领域特殊性,另一方面也源于该领域语言资源的稀缺。

早期的命名实体识别方法大都是基于规则的,20世纪90年代之后,基于大规模语料库的统计方法逐渐成为主流。在这方面的代表工作主要有文献[2]采用人工标注语料训练最大熵模型(Maximum Entropy Model),对英文与德文中的人名、地名、机构名以及其他实体名进行识别,取得不错的效果;文献[3]采用自助取样方法(Bootstrapping Method)对统计模型识别出的时间表达式进行迭代、拓展和筛选,在识别准确率和召回率上都取得很大的提升;文献[4]利用支持向量机(Support Vector Machine)对命名实体进行了识别,获得了很好的效果;文献[5]利用Hellinger PCA获取词向量并用Structural SVM-HMM作为学习模型对波斯语当中的命名实体进行了识别,取得了较好效果。

综合来看,现阶段对命名实体的识别研究从方法和效果上都取得了很大进步,但仍存在需要改进的地方。首先,对特定领域实体关注不够,而特定领域实体具有区别于一般命名实体的领域特征,需要给予专门研究;其次,识别模型使用的语言特征较为单一,基本限定在词形、词性等普通语言特征,缺少对专门领域知识特征的研究与应用;最后,在以CRF为代表的序列标注模型中,标注单位限定为词,而由于很大一部分实体特征是由多个词组合而成,因此单独以词为标注单元对有效提取和利用语言特征具有消极影响。

基于以上问题,本研究对CRF标注模型做了两点改进:一是在模型使用中融合了武器装备名自身独有的构造特征,丰富模型使用特征的范围;二是将模型标注单元由词扩展到多词单元,以便模型能更好地利用领域特征。

2 构造模式与特征

英文武器装备名涉及面广,命名种类多样。本文通过维基百科等渠道收集整理6 402条武器装备名称,并基于名称实例及命名特点,对英文武器装备名的构造模式与特征进行了研究。

2.1 构成成分及分类

针对英文武器装备名的总体命名特点,本文用两层分类体系对武器装备名进行描述:第一层是对武器装备名的总体性描述;第二层是对描述性要素的具体划分。任何一个武器装备名都可以用该分类体系进行描述。

第一层分类将武器装备名内部构成成分分为型号(A)、别称(N)、描述(P)、缩写(R)四类。第二层分类将第一层分类中的型号(A)做进一步区分,区分为系列E和具体型号V;对第一层分类中的描述(P)也做了具体区分。描述类(P)的第二层分类信息如表1所示。

表1 描述类要素及举例

续表1

2.2 构造模式

基于该分类体系,本文对收集整理的6 402条英文武器装备名进行人工标注,分析了每一条名称的构造模式与特征,并对标注后的结果进行了统计分析。表2是对武器装备名构造模式的统计结果。

表2 武器装备名构成模式统计结果

统计结果显示,英文武器装备名具有明显的构造规律:其构成成分类型相对有限,其构造模式相对集中稳定。具体来讲,英文武器装备名的构成成分类型在本文的分类体系下只有19种,而64.41%的武器装备名的构造模式集中在10个主要构造模式上。该结果表明本文针对英文武器装备名构建的两层分类体系具有很强的描述能力,也反映出英文武器装备名具有明显的领域特征,且该领域特征是自动识别的重要依据。

此外,在调查所得的词条数为6 402的领域词典中,有1 205条词条由两个或两个词以上组成,占比为18.82%。这说明多词单元在英文武器装备名的构成成分中占了相当一部分比例。这也要求对这些多词单元进行组合,以充分利用武器装备名的领域特征。

3 基于改进CRF的识别模型

英文武器装备名识别的任务是在文本中识别出武器装备名的边界并将其正确归类,该任务与一般的命名实体识别任务类似,都可以归为序列标注任务。基于此,本文使用序列标注模型CRF开展相关实验工作,并结合武器装备名识别任务对CRF模型进行改进。

3.1 CRF简介

条件随机场(conditional random fields,CRFs)是由J. Lafferty于2001年提出,并迅速在自然语言处理领域得到广泛应用[7]。自诞生以来,CRF模型被广泛应用于序列标注问题当中,其定义了如下条件概率:

(1)

式中:X为观测序列,Y为输出标识序列,λj是特征函数Fj(Y,X)的权重,需要从训练样本中估计出来,1/Z(X)是归一化因子,特征函数Fj(Y,X)包含了转移函数和状态函数两个部分。 CRF选择了指数函数作为其模型,这是由于指数函数能够在符合所有边缘分布的前提下使得熵值最大,符合最大熵原则。相对于隐马尔科夫模型(hidden Markov models, HMM)而言,CRF消除了独立性假设,因此能对整个序列内部的信息和外部观测信息进行有效利用。而相对于最大熵马尔科夫模型(maximum-entropy Markov model, MEMM)对每一个状态都有不同的指数模型而言,CRF采用了单个指数模型,因此能有效避免标记偏置问题。

3.2 CRF标注模型的改进

本文对CRF标注模型的改进主要有以下两点:

一是将武器装备名的构造特征加入识别模型,从而丰富CRF模型所使用的特征。目前,利用CRF进行命名实体识别一般都是基于词形、词性等语言特征[8],这些特征具有提取容易,准确性较高的优点,被广泛应用在语言序列标注问题中,具有较强的通用性。但是由于词形、词性都属于浅层语言学特征,虽然对命名实体的识别具有一定的指示作用,但难以表征出特定领域的专业特征,因此难以满足面向特定领域实体的识别需求。针对武器装备名的识别任务,本研究引入武器装备名的构造特征,将构造特征与一般语言特征融合使用,从而丰富识别模型所依赖的特征,希望能够对实体识别起到支持作用。在实际识别中,本文将表1中构成武器装备名的18个构造特征补充进特征模板。在对文本进行分词处理后,会对每一个词判断其是否属于这18个构造特征中的一类,如果属于其中某一类,就将该类的类别特征作为这个词的一个特征标签,如果不属于其中任何一类,则将其特征标签设为“O”。这样,识别模型就有了可以依赖的领域特征。如在对“F-18 Super Hornet jets”这个武器装备名的识别中,识别模型就多了“F”的领域特征“系列E”,“-18”的领域特征“具体型号V”,“Super Hornet”的领域特征“别称N”,以及“jets”的领域特征“基本类型K”这些领域信息来对该武器装备名进行识别。

二是将多词组合作为标注单元。传统的CRF模型一般都是基于词进行序列标注,如图1所示。其中X={x1,x2,…,xn}是观测序列,Y={y1,y2,…,yn}是状态序列。

图1 传统的CRF模型

但对于英文武器装备名而言,有很多构成成分是由两个词甚至两个词以上构成,如在“USS Ronald Reagan(美国海军军舰罗纳德·里根号)”这个武器装备名当中,其构成成分分为“USS”与“Ronald Reagan”两个部分,而“Ronald Reagan”对应特征“具体型号V”,但如果将其分为两个词 “Ronald”和“Reagan”后,这两个独立的词不对应任何一个武器装备名专有的特征,造成特征缺失,其直接影响就是模型可依赖的识别特征缺失,造成识别效果降低。这样的例子还有很多,如“F-18 Super Hornet jets”中的“Super Hornet(超级大黄蜂)”,“UH-60L Black Hawk helicopters”中的“Black Hawk(黑鹰)”等。为解决此问题,本研究在利用CRF进行实体识别时,将特征提取工作分为两步,第一步进行多词单元的识别,第二步进行特征提取。这样就使得由多个词构成的特征能够被有效提取出来,为识别模型提供支持。多词单元识别基于前期调查总结的英文武器装备名特征词表,利用最长匹配方法进行识别。改进后的CRF模型如图2所示。相较于图1中传统的CRF模型而言,改进后的模型观测序列X={x1_x2,x3,x4_x5,…,xn}。其中,x1与x2、x4与x5被组合为一个多词单元。状态序列Y={y1,y2,…,yn}。

图2 基于多词单元的CRF模型

3.3 武器装备名识别框架

在前期对武器装备名构成模式特征分析的基础上,本文提取出可以支持CRF模型的武器装备名构造特征集。在此特征集的支持下,本文对人工标注的训练文本进行多词组合与特征标注,并以此训练CRF模型,得到针对英文武器装备名的识别模型,并利用该识别模型对测试文本中的武器装备名进行了识别,具体流程如图3所示。

图3 武器装备名识别框架

4 实 验

4.1 实验语料的选择与加工

本文收集了110篇美国国防部官网2017年度的新闻报道作为待标注语料,并对其中的英文武器装备名进行了人工标注。本文选取了其中80篇作为训练语料,另外30篇作为测试语料。

在对110篇新闻报道完成标注后,本文抽取出其中所包含的英文武器装备名,并利用上文所述的两层分类体系对所有武器装备名进行了人工标注。标注完成后,本文统计总结了这些武器装备名的构成成分和构成模式,并做成了包含(构成成分—构成成分类型对)的领域词典作为构造特征集。该特征集作为包含了英文武器装备名构造规律特征的语言资源参与到了对武器装备名的识别当中。领域特征集如表3所示,表中第一列是武器装备名构成成分,第二列是该成分所属构成类型。

本文采用了三元素标注集,三个元素为{B-MILEQP,I-MILIQP,O}。其中,“B-MILEQP”表示一个英文武器装备名的起始部分,“I-MILIQP”表示英文武器装备名的非起始部分,“O”表示非英文武器装备名成分。

4.2 评测标准

只有对文本当中一个完整武器装备名的各个部分全部标注正确并且对该武器装备名的后一个其他成分没有标注为“I-MILIQP”,本文才视为对该武器装备名识别成功,部分标注正确或标注超出了该武器装备名的界限则视为标注失败。

为了更加全面地描述实验效果,本文设置了六个评价指标,各个指标定义如表4所示。

表4 评价指标

其中,整体标注的正确率Pw用来评价模型对整体文本的标注情况;武器装备名识别的准确率Pm与召回率Rm用来评价模型对武器装备名的识别情况;F值则用来综合评价模型对武器装备名的识别情况;为了排除模型对某一特定武器装备名多次识别成功或失败所造成的对总体评价指标的影响,本文设置了武器装备名type识别的召回率Rtype这一指标,在这一指标下,对同一武器装备名的多次识别成功只计算一次;而未登录词识别的召回率Ruk则用来评价模型对未登录词的泛化能力。

4.3 CRF特征模板

为了验证英文武器装备名的构造规律对武器装备名识别的有效性,本文设计了三个特征模板,如表5所示。

表5 特征模板

在特征模板一中,选取了当前词词形本身、当前词前后各两个词形、当前词与前一个词的组合、当前词与后一个词的组合、是否包含数字、是否包含大写字母共九个特征作为特征模板,该特征模板主要包含了词形特征。特征模板二除了包含特征模板一中的所有特征外,还包含了表1中18个英文武器装备名的构造特征作为语言学特征来支持对命名实体的识别。特征模板三包含了特征模板二中的所有特征,区别在于:在该特征模板中,所有非词形特征被归并为一列,对于一个词可能拥有多个非词形特征的情况,本文将其所拥有的多个非词形特征连写。如Missile这个词就拥有“包含大写字母”H、基本类型K与附属C三个非词形特征,其特征连写为“HKC”。在此基础上,特征模板三还包含了当前词前后两个词的非词形特征、当前词的非词形特征与前一个词的非词形特征的组合、当前词的非词形特征与后一个词的非词形特征的组合共六个特征。

需要说明的是,由于能力有限,本文未能精确地将武器装备名的每个部分标为该部分在当前实体中所属的构造特征,而是将其所有可能的构造特征全部赋予该部分。如在“Brimstons Missile”这个词条中,“Missile(导弹)” 的构造特征是基本类型K。在“Alleigh Burke-class Missile Destroyer”中,“Missile”表示该驱逐舰携带有导弹,其构造特征属于附属C。本文并未进行这样的区分,而是把基本类型K与附属C这两个构造特征都赋给了文本中的“Missile”作为其构造特征,再加上该词本身拥有大写字母特征,使得文本中所有的“Missile”都拥有H、K、C三个特征标注。由此也引出了上文提到的特征模板三中的特征连写。

4.4 实验设计及结果分析

为了验证本文对CRF改进的有效性,本文对基于词进行序列标注与基于多词单元进行序列标注在三个特征模板下都做了实验。三个特征模板所包含特征的层层递进性能验证英文武器装备名的构造特征对识别效果的有效性。此外,本文在以下两种情况下都做了上述实验:一种情况是未将测试语料中的未登录词的构成成分包含在领域词典中,另一种情况是将测试语料中的未登录词的构成成分包含在领域词典中。在第一种情况下,由于领域词典的不完备性,包含了多个词的未登录词并没有被合并为多词单元,因此难以验证多词单元对识别效果提升的有效性。在第二种情况下,测试语料当中的多词单元都能得到合并,因此能验证基于多词单元进行序列标注对识别效果的提升作用。

4.4.1包含未登录词影响的实验

该实验没有将测试语料当中的未登录词构成成分包含在领域词典中,以此来验证基于改进CRF的识别模型在开放测试集上的识别效果,实验结果如表6、表7所示。

表6 包含未登录词影响的实验结果1

表7 包含未登录词影响的实验结果2

4.4.2去除未登录词影响的实验

该实验将测试语料当中的未登录词的构成成分包含在领域词典中,以此来验证多词单元对CRF模型识别效果的提升作用,实验结果如表8、表9所示。

表8 去除未登录词的影响的实验结果1

表9 去除未登录词的影响的实验结果2

4.4.3结果分析

本文从四个方面对实验结果进行分析:

(1) 武器装备名的构造特征对于识别效果的影响 从实验结果可以看到,无论是否将未登录词的构成成分包含在领域词典当中,随着英文武器装备名构造特征和其上下文构造特征的加入,CRF对英文武器装备名识别的准确率、召回率和F值都获得了极大的提升,其中召回率更是得到一倍左右的提升,整体标注正确率也提升近三个百分点,最高达到99%以上。这显示了英文武器装备名构造特征对于识别效果的显著提升作用,并证明武器装备名构造特征在提升识别效果方面有着相较于其他浅层语言学特征不可比拟的优越性。如在特征模板一,“F-35”这个词条未被识别出来。而在特征模板二与特征模板三,由于加入“F”的构造特征“系列E”与“-35”的构造特征“具体型号V”,该词条就被成功识别出。

(2) 多词组合特征对识别效果的影响 在4.4.2节的实验中,随着序列标注从基于词变为基于多词单元,识别的各个评价指标都有了极大的提升。这是因为当标注序列变为多词单元后,更多的构造特征可以加入到识别当中,这样就带来了识别准确率和召回率的双重提升。从另一个意义上讲,多词单元的组合也是将本文前期调查的语言学规则加入模型当中,一定程度上实现了“规则+统计”的识别模式。

(3) 武器装备名type的识别效果分析 武器装备名type的召回率体现的是识别模型对不同武器装备名type的识别能力,排除了模型对同一武器装备名type的多次识别而导致的识别评价指标虚高的情况。从表6、表7、表8与表9可以看出,当加入武器装备名构造特征后,武器装备名type的召回率Rtype有了大幅提升,提升效果在25%以上,尤其是当排除未登录词的影响且标注序列变为多词单元后,Rtype更是提升了45%以上。这一指标变化也印证武器装备名领域特征与多词单元对于CRF模型的有效支持作用。

(4) 未登录武器装备名的识别效果分析 对于未登录词的识别是命名实体识别模型效果的一个重要评价指标,该指标反映的是模型的泛化能力。表6与表7中的Ruk就是识别模型对于测试语料中未登录词的召回率。从表中可以看到,在武器装备名构造特征对识别模型的支持下,未登录词的召回率提升了25%以上。这体现了在武器装备名构造特征支持下的CRF模型具有更强的泛化能力。

但本文的方法也存在一定程度的局限性,本文统计了改进的识别模型识别出错的原因类型,主要有两点:

(1) 模型的泛化能力虽有提高,但依然存在能力不足的问题,主要体现在对未登录词的识别方面。这主要是由于领域特征词典的覆盖度不足。如在4.4.1节实验当中,随着标注序列变为多词单元,识别的各个指标都存在一定程度的下降。这是因为实验中有大量未登录词构成成分未包含在领域特征词典中,这导致大量多词单元不能组合到一起,其构造特征也相应不能支持模型对该武器装备名的识别,因此导致了指标的下降。

(2) 武器装备名构成特征过强的泛化能力导致模型将不是武器装备名的词条识别为武器装备名。如“CTF-70”本意是美国太平洋舰队第七舰队的战斗指挥部——第70特遣队。但由于该词条包含了本文特征模板中的“大写字母”、“数字”、“具体型号”(“-70”也是一个具体型号),这使得识别模型将其误判为武器装备名。

而这两点不足也是下一步研究要解决的主要问题。

5 结 语

本文抽取了美国国防部官网的110篇新闻报道,对其中的武器装备名进行了标注,并依据笔者前期的研究成果对这些武器装备名的构成成分进行了分析,得到了包含了对(构成成分,构成成分类型)的领域词典。在调查结果的支持下,针对已有CRF应用在命名实体识别领域的缺点,本文对CRF做了两方面的改进:一是将英文武器装备名的构造特征加入到了CRF中;二是依据英文武器装备名的构造特征将CRF从基于词进行序列标注拓展为基于多词单元进行序列标注。实验结果显示,英文武器装备名的构造特征和多词单元都能够很好地提升CRF对英文武器装备名的识别效果。在接下来更深一步的研究中,可以将深度神经网络模型应用到对武器装备名的识别中,以期达到更好的效果。

本文的研究思路、方法和成果不仅能够支持军事领域相关的英文信息处理工作,也能够对其他语种和其他相关领域的研究提供重要借鉴意义。

猜你喜欢

词形语料模板
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
特高大模板支撑方案的优选研究
面向低资源神经机器翻译的回译方法
Inventors and Inventions
英语词形变异及其语义信息
可比语料库构建与可比度计算研究综述
带前置功能的词形《 в сопоставлениис 》的结构与搭配
飞行专业英语陆空通话词汇认知特点研究
国内外语用学实证研究比较:语料类型与收集方法