基于依存句法的实体关系抽取

2017-02-23周亮俊

电子技术与软件工程 2016年24期

关键词：自然语言处理计算机

本文首先介绍了自然语言处理的概念，并给出了自然语言处理模型，与此同时，分析了依存句法的有关问题，包括其公理以及具体分析方法等，最后阐述了基于依存句法的实体关系抽取过程。

【关键词】计算机自然语言处理依存语法实体关系抽取

计算机技术与人工智能的结合，形成了自然语言处理，使得人与计算机的结合更加紧密，依存句法能够实现对实体关系的抽取和对自然语言的分析，进而使自然语言处理成为可能，这对于信息抽取效率的提高以及人与计算机之间联系的加强意义重大。

1 自然语言处理

1.1 自然语言处理的概念

自然语言处理，是计算机领域的一种技术，是计算机技术发展到一定阶段，与人工智能逐渐结合的产物。自然语言即人类的常用语言，自然语言处理的意义在于，对上述语言进行处理，使其能够被计算机所识别，进而将其应用于计算机软件系统当中，使软件的研发以及修改等得以实现的一种技术。鉴于语言本身存在复杂性的特点，因此自然语言处理的实现也十分复杂，建立相应的计算模型，是使处理过程能够有效实现的基础。

1.2 自然语言处理模型

自然语言处理模型由自然语言（N）、问题（P）、模型（M）、算法（ A）、输入集（I）与输出集（O）几种因素组成。自然语言属于人类的语言，计算机作为机器，不能够对其进行识别，将其转换为问题，能够使其与计算机的识别要求相适应，与此同时，使其以模型的方式体现，可以使自然语言处理得以实现。在充分考虑输入集的前提下，应用相应的算法，将其与在问题的基础上所得到的模型相结合，能够产生输出集，最终完成自然语言处理过程。

2 依存句法

依存句法的应用，是实现自然语言处理的基础。在依存句法的基础上，自然语言能够以依存树等形式存在，为语言的处理提供了便利条件。

2.1 依存句法公理

依存句法的公理主要包括以下幾方面内容：

（1）一个句子中，必须只有一个独立成分，且该成分不依存于其他成分。

（2）在一个句子中，其他成分必须依存与某一成分。

（3）在一个句子中，无论对于任何成分而言，其所依存的成分最高数量为1，不能超过这一数量，简单的说，句子中的任意成分，其所依存的成分量，不能大于等于2。

（4）假设句子中存在三个成分，分别为1、2和3，在三个成分当中，如果1直接依赖于2，而3在1与2中间，那么3既可以依存于1，又可以依存于2，但需要认识到的是，一定要坚持第三点公理，3必须单独依赖于1或2。除此之外，成分3页可以既不依赖于1，也不依赖于2，而是依赖于两者之间的某一成分N。

2.2 依存句法分析方法

2.2.1 依存句法结构

目前计算机领域主要存在三种依存句法结构，分别为依存树、有向图以及依存投射树。依存树以树状的形式存在，是依存句法用于实现自然语言处理的主要结构之一。有向图充分考虑了句子各个成分之间的关系，例如主语与谓语的关系、动词与宾语之间的关系以及定语与中心词之间的关系等，在分析句子各词语上述关系的基础上，实现自然语言处理，完成对自然语言的分析，使其能够成为计算机所能够识别的语言。依存投射树指的是与依存树基本一致，但同时又有所不同，主要体现在投射方面，在应用时，需要对两者加以区别。

2.2.2 依存句法分析方法

依存句法分析方法有很多种，每一种类所依靠的原理不同。至今为止主要包括基于泰尼埃理论的依存句法分析方法、基于上下文无关文法的分析方法、基于约束的依存分析方法等。上述方法均根据依存句法分析方法所依靠的原理的不同来划分。除此之外，还可以以统计为标准，实现对依存句法的划分。或将上述两种划分方法相结合，实现依存依据的分析。

3 基于依存句法的实体关系抽取

3.1 实体关系抽取

社会的不断发展，使得每一天所产生的信息量也在不断加大，为计算机对数据以及信息的处理带来了极大的困难。实体关系抽取，能够使不同信息识别的准确性得到提高，对于信息处理效率的提升极为重要。在实体抽取下，所抽取出的知识要素，会以离散的形式存在，能够有效的反映出文本中所存在的实体的内容，同时也就能够达到识别实体的目的，但需要认识到的是，实体识别无法判断不同实体之间的关系。将实体识别与关系抽取相结合，既能够达到准确反映实体情况的目的，又能够使各实体之间的关系得以体现，将上述过程建立在依存句法的基础上，能够极大的提高信息识别的效率以及有效性。

3.2 基于依存句法的实体关系抽取

依存句法能够有效的分析出句子中各词语之间的依存关系，通过对其这一功能的应用，可以使实体关系抽取成为可能。依存句法结构包括有向图结构，以“他是一个坏人”为例，在上述结构下，“他”与“是”成主谓关系，“是”与“人”为动宾关系，“一个”与“人”为定中关系。“坏”与“人”同样呈定中关系。依靠依存句法，上述自然语句中各实体之间的关系能够有效的体现，同时，也能够将各个实体在语句中所扮演的角色识别，即满足了实体识别的功能，又满足了关系抽取的功能，使得实体关系抽取得以实现。

由此可见，在考虑依存句法的基础上，实现实体关系抽取，能够使抽取过程更加简单，因此也就能够使计算机更好的识别出自然语言，从长远的角度看，这对于人工智能水平的进步，具有重要的现实意义。

4 结论

综上，自然语言处理是将人与计算机相联系的主要途径，而处理过程的实现，则需要依靠实体关系抽取过程来完成。实体关系抽取较为复杂，以依存句法为基础，将其种种结构图进行应用，能够有效的完成实体识别以及关系抽取的过程，使得计算机能够有效的识别出每一个实体，并分析出其与其他实体之间的关系，使得自然语言处理效率得到了极大的提高。

参考文献

[1]徐健，张智雄，吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术，2014，12（08）：12-14.

[2]车万翔，刘挺，李生.实体关系自动抽取[J].中文信息学报，2014，19（02）：1-5.

[3]奚斌，钱龙华，周国栋，等.语言学组合特征在语义关系抽取中的应用[J].中文信息学报，2013，22（03）：14-16.

[4]郭喜跃，何婷婷，胡小华，等.基于句法语义特征的中文实体关系抽取[J].中文信息学报，2014，28（06）：183-186.

[5]董静，孙乐，冯元勇，等.中文实体关系抽取中的特征选择研究[J].中文信息学报，2013，20（04）：70-75.

作者简介

周亮俊（1992-），男，浙江省温州市人。同济大学硕士研究生。研究方向为自然语言处理。

作者单位

同济大学计算机科学与技术系上海市 201804