APP下载

语义分析若干前沿问题

2020-06-04姬东鸿

长江学术 2020年2期
关键词:语义短语实体

姬东鸿

(武汉大学 国家网络安全学院,湖北 武汉430072)

一、词汇融合

(一)概念

例1:27 日上午8 时40 分,【上访】教师【聚集】滞留在六安市政府南大门,且围观人员越聚越多。市委、市政府相关负责同志赶到现场接访,劝导上访教师不要堵门堵路,选出代表到市信访局依法理性表达诉求,但没有起到作用。在现场,民警多次进行法律宣讲和劝导,告知其行为已违反《中华人民共和国治安管理处罚法》、《中华人民共和国集会游行示威法》、国务院《信访条例》有关规定,应立即停止【集访】。(六安市人民政府网)

例2:央行宣布自2015 年3 月1 日起【下调】金融机构一年期贷款基准【利率】,金融机构一年期贷款基准利率下调0.25 个百分点至5.35%,一年期存款基准利率下调0.25 个百分点至2.5%。此番调整是自去年11 月以来,4 个月时间内央行进行的第二次【降息】调整。(新浪财经)

例1 中融合式“集访”的两个语素都来自分离式,而例2 中融合式“降息”的两个语素都未见于分离式。对于双音节融合式来说,按照语素是否来自分离式,它们可分为四种类型:AA 型、BB 型、AB型和BA 型。AA 型融合式的两个语素分别来自两个分离式,BB 型融合式的两个语素都不来自分离词,而AB 型和BA 型融合式只有一个语素来自分离词。但是无论融合式的两个语素是否来自分离式,它们在语义上都分别指向两个分离式,如“集访”的“集”指向“聚集”,“访”指向“上访”;而“降息”中的“降”指向“下调”,“息”指向“利率”。

另一个特征是两个分离式间可能存在句法关系,如例2 中的“下调”和“利息”间存在动宾关系,例3 中的“飞机”和“坠毁”间存在主谓关系,例4 中的“电影”和“明星”间存在定中关系。分离式间也可能不存在显式的句法关系,如例1 中的“聚集”和“上访”间不存在显式的句法关系,例5 中的“泄露”和“机密”间也不存在显式的句法关系。但是“上访”的形式主语与“聚集”间存在主谓关系,“泄露”与“机密”修饰的中心词“信息”间存在动宾关系,在此意义上两个分离式间也存在广义的句法关系。

例3:据外媒报道,近日,美国佛州一对父子乘坐的小型【飞机】因引擎故障【坠毁】。美国国家运输安全委员会将调查这起【坠机】事故。(中国新闻网)

例4:这22 位【影星】,代表了当时新中国影坛的老、中、青演员,都是当年轰动一时、在民间引起空前反响的佼佼者,观众俗称为“22大【电影】【明星】”。(新浪网)

例5:法院记录显示,彼得雷乌斯曾向调查人员撒谎,否认自己向布罗德韦尔【泄露】过【机密】信息。但实际上,他所提供的8 本工作记录上记载了驻阿美军战略计划、情报信息、外交谈判内容以及白宫国家安全委员会会议纪要等机密信息。虽然他的初衷是为自己的传记提供资料,但此举仍被认定为重大【泄密】行为。(中国新闻网)

(二)任务和资源

词汇融合的识别包含两个步骤:一是识别出语篇中可能存在词汇融合关系的融合式和分离式,二是判别它们是否存在词汇融合关系,即判断融合式的语素和分离式间的语义指向关系。前者是一个词语识别任务,后者则是一个语义关系的判断任务。

针对双音词的词汇融合现象,我们标注了2000条数据,每条数据包含融合式、分离式及两个分离式间的句法关系。我们用XML 格式标注这些样例,如下给出针对例5 的标注信息。

更复杂的一种情况如例6 所示。合成式和分离式都是实体信息的短语,合成式与分离式的关系不是简单的语义指向,而是一种语义概括,即合成式整体上是若干分离式的一种概括。如例6 中的“四巨头”概括“IBM”“Google”“微软”和“亚马逊”4 个公司,而“16 主要机构”除四巨头外,还包括“麻省理工学院”和“橡树岭国家实验室”等学术或研究单位。

例6:云计算【四巨头】集结“超强算力”加速病毒研究。【IBM】与美国能源部、科技政策办公室合作成立的运算联盟,计划携手【Google】、【微软】、【亚马逊】等云计算巨头,以及【麻省理工学院】、【橡树岭国家实验室】等顶尖学术或研究单位,一共【16 主要机构】一齐贡献运算力寻找疫情解决方案。(十轮网)

(三)意义和挑战

词汇融合的识别对语言信息处理的很多任务具有重要意义。比如在一般的语言理解任务中,可将语篇中的融合式描述与其分离式描述关联起来;在语义检索中,输入查询词“集访”,可查询到仅包含分离式“聚集”和“访问”的文档;在自动问答系统中,针对询问“参与病毒研究的主要机构”,基于这个融合式与其分离式间的关系,可顺利确定参与研究的主要机构。

词汇融合作为汉语中一种常见的共指现象,其研究尚处于起步阶段,目前在资源建设、识别模型和应用任务方面存在一些挑战。

资源建设方面,现代语言信息处理模型需要大规模的监督语料进行训练,而监督语料的标注则需要大量的人力成本。如何利用基于规则和远程监督的方法构建大规模标注预料并尽可能减少噪音数据,是词汇融合识别研究的一大挑战。

图1 词汇链示例(腾讯网)

图2 实体链示例(腾讯网)

识别模型方面,词汇融合现象层出不穷,在大规模标注语料的基础上,如何利用计算技术对词汇融合识别建模,提升词汇融合模型的泛化性使其能自动识别新出现的词汇融合现象是另一个挑战。

应用任务方面,如何将训练好的词汇融合识别模型,低成本地应用到其他语言信息处理任务包括语义检索、自动文档等系统中,是词汇融合识别应用方面面临的挑战。

二、实体链

(一)概念

表1 实体链标注语料统计结果

(二)任务和资源

实体链的识别包括两个步骤,第一,识别描述实体的最长名词短语,第二,判断这些短语间是否存在共指或部分-整体等语义关系。实现过程可采用串行策略,即先识别最长名词短语,然后判断它们间的语义关系;也可以采用并行策略,即实体识别和关系判别并行进行。

我们选取了中文新闻语料进行标注,最终形成的标注资源如表1 所示。其中标注文档数是2496,包含的最长名词短语26760个,实体链个数是5096,短语平均长度是5.92 个字。

(三)意义和挑战

实体链的分析无疑有助于篇章理解,具体来说,第一,对于句子结构来说,最长名词短语识别有助于提高句子分析的性能;第二,对于篇章结构来说,最长名词短语将篇章结构分析的粒度从句子层面细化到短语层面;第三,对于篇章内容分析来说,实体链的识别也有助于篇章话题及其演化分析,有望在自动文摘、标题生成等任务中发挥作用。

图3 语义角色标注分析示例

实体链的识别也存在一些挑战。其中一个问题是最长名词短语的范围和类型,与汉语词性问题有关,需要进一步细化名词短语的边界和类型。第二个问题是实体链中语义关系的范围和界定,名词短语间的关系包含很多类型,需要确定可操作性的判定原则。

三、语义角色标注

(一)概念

图4 语义角色标注结构示例

语义角色标注结构与成分树结构有一定的关联与区别。如图3 所示,首先,语义角色结构的基本元素在成分树中有对应的短语词性标签,比如,短语“小明”的语义角色为Agent,同时在成分树中承担了NP 的角色。语义角色结构偏向于刻画元素之间的语义关系,但成分树结构更加关注句子的成分层级结构,以及短语成分的语法角色。

另外,语义角色结构与依存树结构在句法层面有更为紧密的联系,例如,短语“遇到”在依存树中为核心词,直接连接着根节点(Root),同时与其他的各个成分相连接,并与该短语在语义角色结构中的谓词角色(Predicate)相互照应。因此,语义角色标注任务与依存树解析任务具有较强的互补作用。然而,相比语义角色结构,依存树结构更加关注句子中各个元素的语法依赖关系。

(二)任务和资源

论元识别:针对目标谓词,检测出该谓词的附属论元。如图4,对于谓词“参观”,需要检测出对应的三个论元:“很多游客”“迪士尼乐园”“以便……人物形象”。

论元分类:针对所确定的论元,预测其对应的语义类别。比如针对谓词“参观”,需要确定“很多游客”的类别为施事,“迪士尼乐园”类别为受事,“以便……人物形象”类别为目标。

图5 语义角色标注的两种形式

(三)意义和挑战

图6 文本中的事件

四、事件分析

(一)概念

事件作为一种重要的知识与信息表现形式,近年来在语言学和自然语言处理领域受到越来越多的关注。事件一般被定义为特定的人、物在特定时间和特定地点相互作用的客观事实,由触发词及其要素共同组成。其中触发词以动词、动名词居多,但也有名词、形容词等。事件要素包括参与者、时间、地点等。图6 给出两个事件描述的实例,其中的触发词分别是“相撞”和“处理”。

表2 事件分析结果

(二)任务和资源

事件分析主要包括事件触发词识别和事件要素抽取两个子任务。触发词识别需要判断触发词的边界,有些触发词是短语,甚至是模板;事件元素识别包括事件参与者及时间和地点等。

例7:在【伊拉克】,当【一个美国坦克】对着【酒店】〖开火〗时一个【摄影师】〖死去〗了。(新浪网)

例7 包含“死去”和“开火”两个触发词,事件分析的任务包括识别这两个触发词,给出其事件类型即:“攻击”和“死亡”,并分析出“伊拉克”是两个事件的发生地,“摄影师”是“死亡”事件的参与者,“酒店”与“美国坦克”是“攻击”事件的参与者,分析结果如表2 所示。

图7 ACE 标注结构

图8 事件要素类型

目前事件标注的主要资源是ACE 2005,这是由语言数据联盟(LDC)标注的多语种语料库,包含英语、阿拉伯语和汉语训练数据。该语料共标注了599 篇文章,涵盖了新闻、对话和微博等多种类型的文本。该语料库由多种类型的数据组成,包括实体、关系和事件。其中事件类型共分为8 大类33 小类,事件元素共有35 类。其标注结构如图7所示:

针对中文事件描述,我们完成了3000 篇的标注语料,事件类型包含包括自然灾害、社会治安、公共安全、公共卫生等。相比其他标注资源,该语料的特点是:第一,该语料的触发词类型是针对新闻报道中的突发事件,有利于突发事件的监测和预警;第二,触发词可能是单个词语,也可能是由轻动词+动词构成的模板,如例8 中,“发生……冰冻灾害”是触发词,这样可使句子的句法中心轻动词“发生”和语义中心“冰冻”关联起来,避免句子分析中句法和语义层面的不一致。第三,增加了事件要素的语义标记,如例8 中,“在……上”是事件要素处所的标记。图8 给出了该语料的标注内容,表3 给出了这些要素的解释。

表3 事件要素释义

(三)意义和挑战

图9 事件链示例(中国西部网)

事件分析是自然语言处理的一个核心技术。首先,对于句子理解来说,事件一般是句子表达的主要信息,因此事件分析是句子理解的关键;其次,对于篇章理解来说,其内容主要是事件表达、演化及情感表述,因此事件分析也为篇章理解奠定基础;再次,事件分析作为实体与关系抽取的上层任务,所包括的信息相对于实体更加完整,也能够帮助从文本中获取关键信息,为阅读理解、自动摘要和舆情监测等应用提供支持。

目前事件分析也存在一些挑战。首先,事件分析大多基于句子级别,但在真实文本场景下,触发词与其要素有可能分布在篇章中的不同句子中,因此需要考虑跨句子信息;其次,事件分析工作大都针对单个事件抽取,未考虑事件间的联系,而事件间的联系可能有助于事件分析,因此需要考虑更广的篇章背景;再次,事件分析中事件的类型大都是预定义的,但在真实场景下,常常会遇到新的事件类型,因此需要事件分析具有更强的学习功能。总之,事件分析在篇章信息的利用和开放域的背景方面面临挑战。

图10 事件链示例(中华军事网)

五、事件链

(一)概念

事件链是一个语篇所描述的主要事件根据它们所在句子的顺序构成的链。语篇中所描述的主要事件一般有两个特点,第一,主要事件一般会出现在标题中;第二,这些主要事件一般存在语义关系,如上下位、同义、因果等。

图11 从上至下依次是句子链,事件链和实体链

图10 给出另一个事件链的示例。【】标记的触发词构成事件链。其中标题中的“派”和“闯入”均可看作“动作频频”的下位事件。其他【】标记的触发词要么和标题中的触发词语义相似,如“现身”“逼近”“闯入”等;要么作为标题中的触发词的子事件,如“飞行”“折返”“执行”等。

图12 实体链和触发词链(中国西部网)

事件链的提出与语篇连贯性的研究有关。语篇连贯性的研究大致分为两类策略,基于句子关系的模型和基于实体关系的模型。前者如Wolf 和Gibson等将篇章中描述同一主题的句子划分为一组,并以句子关系为基础探讨语篇连贯性。 但是句子关系的判断涉及句子内容分析,目前面临不少挑战。基于实体关系的模型以词汇链或实体链为基础刻画篇章的连贯性。但是词汇链和实体链仅是语篇连贯的必要条件,而非充分条件,因此仅依靠词汇链无法确保语篇的连贯性。

事件一方面作为句子内容的简化表示,另一方面为词汇或实体引入结构化表示,因此可以此为基础探讨语篇的连贯性。图11 给出了实体链、事件链和句子链的示意图。

(二)任务和资源

事件链识别的过程包括两个步骤:第一,识别触发词链;第二,根据触发词链识别事件要素。事件链识别的关键在于触发词链的识别。触发词链实际上是一个谓词词汇链,其识别策略可分为两类,一类根据触发词间的语义关系,首先确定标题中的触发词,然后根据触发词间的语义关系依次确定其它触发词。另一类是先确定实体链,再根据实体和谓词间的依存关系确定触发词链。图12 给出了图9 所含篇章的实体链及基于依存关系确定的触发词。从图12 可看出,基于实体链可大体上确定触发词链,但也存在错判和漏判的情况,如“包围”被识别为触发词,而“躲”没有识别出来。

这种基于实体链分析的优势在于触发词链内的语义关系不好把握,因此直接识别触发词链面临一定困难,而实体链一般含有较易把握的词汇链,比如图12 中的实体链含有“美军”,而且实体与谓词间的依存关系也容易把握,因此通过实体链及其依存关系确定的触发词可看作一个候选,最后再根据语义关系确定触发词链。

针对事件链的资源建设,我们选取了3000 篇新闻报道,并根据以上标注过程标注了触发词链和事件要素。

(三)意义和挑战

事件链串联了实体链和谓词链,为实体链赋予了结构信息,也承接了触发词间的语义关联,因此事件链的识别有助于判断语篇的连贯性,可用于作文自动打分等系统中。另一方面,事件链一定程度上反映篇章的主要内容,因此也可应用于阅读理解和自动文摘等系统中。

事件链的分析面临一些挑战。首先,事件链的资源构造方面,篇章描述的主要事件如何界定,它们间的语义关系的类型和范畴如何确定,需进一步探讨;其次,事件链的自动识别方面,触发词分布于篇章的不同句子,需要考虑更多的篇章信息才能确定触发词链;再次,作为构造事件链的主要手段,包括触发词间的语义关系判断及触发词与实体间的依存关系判断都面临挑战。

六、事件框架

(一)概念

目前,大多数事件分析注重于识别以触发词为核心的独立事件,而忽略事件间存在的关系,因此为了实现篇章理解,需要从更宏观的角度分析相关事件。事件框架是指由突发事件、诱因事件、处置事件、结果事件组成的框架。直观上,事件框架描述突发事件及其诱因、结果及其处置情况。

以自然灾害事件为例,其核心事件往往是自然灾害本身,例如暴雨、山洪、洪水、地震等;诱因事件表示引起自然灾害的直接原因,往往是非突发性气候条件,如厄尔尼诺现象、副高气压影响等;结果事件表示自然灾害导致的结果,例如造成的人财物损失,如人员伤亡、房屋倒塌、道路阻断等;处置事件表示针对自然灾害采取的措施与行动,如救援工作、灾后处置工作等。

目前与事件框架相关的工作主要是事件关系分析任务。事件关系分析旨在于判断事件间存在的因果、时序、共指等关系。分析方法可分为基于规则的方法和基于深度学习的方法。

图13 突发事件示例(中国新闻网)

图14 事件框架结构示例

图15 事件框架标注结构图

(二)任务和资源

事件框架抽取可看作一种特殊的事件与事件关系抽取,包括事件抽取与事件关系分析两个子任务。

以图13 所示这篇新闻为例,其中标注部分是我们的抽取目标。【】表示核心事件,〖〗表示诱因事件,[]表示处置事件,{}表示结果事件,下划线表示触发词。其事件框架逻辑图如图14 所示。

针对事件框架,我们标注了3000 篇新闻语料,其中标注突发事件、诱因事件、结果事件和处置事件。该标注语料由3000 个txt 文件及对应的xml文件组成,其中,txt 文本文件存放新闻语料原文,xml文件存放标注数据,其主要结构如图15 所示。

(三)意义和挑战

图16 事件回指示例(腾讯网)

相比事件来说,事件框架刻画更全局的信息,因此事件框架分析有助于更全面的篇章内容理解,反过来也有助于改进单个事件的识别性能。另一方面,事件框架有望在自动文摘、自动问答和阅读理解等基于篇章理解的应用中发挥作用。

目前,事件框架分析面临的挑战主要在于:首先,篇章信息建模方面,传统的事件分析以事件为核心,仅在句子或段落层面就可捕获足够的上下文信息。而事件框架中的多个事件可能分布在篇章中的不同部位,如何有效的建模覆盖事件框架的篇章信息成为一大挑战。其次,蕴含关系方面,不同于传统的两两事件关系分析,在事件框架中,事件间的关系会受到事件框架中其他事件的影响。因此,如何捕获这种蕴含在事件框架内的传递性关系具有一定挑战性。

七、事件回指

(一)概念

图17 事件回指标注示例(搜狐网)

(二)任务和资源

事件回指分析主要包括三个子任务,第一,识别事件回指语;第二,识别事件描述先行语;第三,识别它们间的回指关系。

针对回指语是指代短语(如“这次胜利”)的情况,我们建立了一个事件回指标注资源。其中包含4000 篇文档,共有4406 个事件回指。图17 给出了一个标注示例,其中包括四个回指语,两个先行语,它们间的回指关系如箭头所示。

(三)意义和挑战

事件回指的识别对于自然语言处理具有重要意义。首先,事件回指有助于篇章内容的深层理解,将上下文有关同一事件的不同描述关联起来;其次,事件回指识别有助于提高篇章级的信息抽取、话题识别及演化、文本摘要、阅读理解和自动问答等应用的性能。

目前,事件回指的识别也面临不少挑战。首先,关于事件描述和回指语的类型和边界,篇章中事件描述有时很长,回指语本身也可能较长;其次,关于事件描述与回指语关系的判别,同一个上下文中,可能存在多组事件描述和回指语,它们间的回指关系不易区分;再次,事件回指可能存在嵌套情况,即:事件描述中包括回指语和子事件描述。

本文从概念、任务、资源、意义和挑战等几个角度分别探讨语义分析的若干前沿问题,包括词汇融合、实体链、语义角色标注、事件分析,事件链、事件框架和事件回指等。其中词汇融合和实体链分别是词汇级和实体级的语义分析、语义角色标注是句子级的浅层语义分析,而事件属句子级较深层的语义分析,事件框架、事件链和事件回指则是篇章级的语义分析,词汇融合和实体链也涉及到篇章信息。这些任务都有一个重要特点:既涉及内容分析,如事件、语义角色、时间和地点等;又涉及结构分析,如事件框架和实体链等。从另一个角度看,这些任务既包含实体分析,包括简单实体和复杂实体,如语义角色或事件;又包含关系分析,如回指关系、因果关系等。

猜你喜欢

语义短语实体
基于ColBert-EL 和MRC 模型的零样本实体链接
初中英语词组高频考点聚焦
实体书店步入复兴期?
2017实体经济领军者
汉语依凭介词的语义范畴
关于推动实体书店经营发展的几点思考