融合关键词提取与远程监督的文物信息资源实体关系抽取方法研究

2023-02-21童兆莉

现代情报 2023年2期

彭博童兆莉

(1.华中科技大学建筑与城市规划学院，湖北武汉 430074；2.华中师范大学信息管理学院，湖北武汉 430079；3.湖北省城镇化工程技术研究中心，湖北武汉 430074)

网络的开放性、交互性以及共享性特征使信息资源数量达到了前所未有的丰富程度，但其中大部分以非结构化数据的形式出现，如要对该类信息资源进行深度利用，就需要通过信息抽取将其转换为结构化、半结构化的信息以待进一步的分析。实体关系抽取作为信息抽取的重要组成部分，可以从信息资源中获取描述实体关系及属性的三元组，为知识图谱构建、语义分析等研究提供基础数据。但是网络信息资源数量庞大、复杂多样、更新频繁，人工方法标注全部数据需要进行大量工作，亟需一种自动进行的高效方法完成实体关系抽取，才能满足网络信息资源数据处理的需要，充分利用网络中的海量数据。

自动进行信息资源实体关系抽取的一个前提是该领域中具有大量标准统一的结构化数据作为参考，而文物领域中的数据正好符合这一特征。该领域具有数字化程度高、数据标准清晰、实体关系明晰的特点，在开展实体关系自动抽取时拥有良好的数据基础。基于此，文章聚焦网络中由非结构化数据组成文物信息资源，面向网络文物信息资源提出了一种将信息资源关键词与远程监督方法结合，融合多知识库数据的实体关系自动抽取方法。

1 相关研究

1.1 实体关系抽取的相关研究

实体关系抽取是指将非结构化数据构成的信息资源转化为结构化数据并进行存储[1]，现有的实体关系抽取有关研究主要围绕无监督学习、半监督学习、全监督学习以及远程监督方式进行。

无监督学习根据实体的上下文特征进行，利用每个实体关系对在句中的固定特征进行聚类，通过聚类后的结果进行实体关系抽取。Hasegawa T等[2]通过命名实体的上下文特征进行聚类，根据实体间的相似性打上对应标签，完成实体关系抽取。Miller S等[3]通过统计方法设计匹配规则，经过词性识别、实体识别、句法分析、语义解析4个步骤进行实体关系抽取。Kambhatla N[4]采用最大熵模型来整合文本中的词、句的语义特征，使用逻辑回归的方法进行实体关系的分类，实现实体关系抽取。Zhao S等[5]使用核函数模型，将分词、句子解析、深度依存分析分别进行核函数表示，综合3种维度进行预定义关系下的实体关系抽取。无监督方法不需要训练数据，能够对各种类型信息资源进行实体关系抽取，适应性强，但由于其多基于聚类结果抽取，所获取结果准确率通常较低。

半监督学习只需通过少量的种子标记样本与大量无标记样本进行迭代训练就可以得到分类模型[6]，常见方法有Bootstrapping[7]、协同训练[8]和标注传播[9]。半监督实体关系抽取的最大特点是通过对领域语料进行分析后制定一定的规则，利用小规模数据实现关系抽取，抽取结果精度较高，但该方法存在语义漂移等问题，而且样本数据中的错误会随算法迭代进一步放大。

全监督学习方法有基于规则、基于特征和基于核函数等。随着深度学习的出现，全监督学习摆脱了传统机器学习算法需要进行特征设计的缺点，可以自动提取实体关系的特征。Socher R等[10]使用Word2Vec与递归神经网络进行实体关系抽取，其首先学习实体在句子中的向量表示，然后通过递归神经网络得到句子的向量表示进行关系分类，开创了深度学习在实体关系抽取中的应用。Zeng D等[11]利用卷积神经网络提取词汇和句子级特征，将这两个级别的特征连接以形成最终提取的特征向量，而后输入到Softmax分类器中，从而预测两个标记实体之间的关系进行实体关系抽取。Nguyen T H等[12]使用多个尺度的窗口过滤预训练词向量，得到了一种基于卷积神经网络的泛化实体关系提取方法。由于卷积神经网络在处理长句时会由于过长的输入增加导致精度下降，Xu Y等[13]提出，使用长短时记忆网络进行关系抽取，在句子级别实体关系抽取中，找到两个实体在依存树中的最短路径以去除无关信息，长短时记忆网络较以往的卷积神经网络关系抽取，使用最短依赖路径保留相关信息的同时消除了句子中不相关的词，多通道长短时记忆网络允许通过依赖路径从异构源进行有效的信息集成，还可以减轻神经网络过拟合的情况。

全监督学习方法体现出了较高的实体关系抽取效率，但其面临的一个关键问题就是标记资源的稀缺，对大规模高质量训练数据的需求导致其进行关系抽取时需要付出较高的成本。远程监督[14]方法的提出为数据的自动标注提供了一个可行的路径，即通过假设“如果两个实体在知识库中具有关联关系，那么其所在的句子则能够提取出相应的关系”利用外部知识库中预先储存的关系信息对句子中实体关系进行标注，能够满足大数据环境下大量样本标记的需求，降低标注成本，解决大规模语料人工标注耗时费力的问题。知识库的不断更新也能保证实体关系标注的即时性，是面向网络环境进行信息资源实体关系抽取的一种可行方法。随后，学者们利用多示例学习与卷积神经网络相结合的方法[15]，降低远程监督由于过于绝对的假设带来的标注噪音问题，进一步提高实体关系抽取效率。深度学习中注意力机制的出现进一步提升了远程监督实体关系抽取的性能，注意力机制能从大量文本序列信息中筛选出重要的特征，提高远程监督标注中正样本的重要性，样本中的关键词的权重得以进一步放大，使得深度学习模型能够更好捕捉正样本的特征[16]。随着外部知识库的不断发展，有学者将知识库中已有的先验知识融入神经网络模型中，作为获取语义特征的预训练模型，加入远程监督实体关系抽取的工作中，进一步提升了抽取效率[17]。在远程监督的有关研究中，学者们着重解决的问题主要围绕如何更好地利用现有标注数据，通过捕获正样本特征来提高实体关系抽取的正确率上，较少有利用领域内容特征提升数据标注质量降低远程监督噪音的研究。目前，信息资源内容的提取主要依靠关键词抽取方法进行[18]，内容有关关键词提取在关键词频率较高的子集中计算得来，重复出现的内容一定程度上代表了其在信息资源中的重要性，也意味着其作为主要内容代表的概率越高，因此这些关键词能提供与主要内容有关的信息。以文本为例，当前关键词提取方法可以分为统计学方法、语言学方法、监督学习方法、主题模型方法4种[19]，不同方法对文物信息资源中与主要内容有关关键词提取的效率不尽相同[20]，但是通过抽取关键词能够精炼外部知识库中与信息资源内容有关的实体关系集合，对于降低远程监督实体关系抽取中的噪音问题有显著的效果。

1.2 文物信息资源的有关研究

文章按照结构化、半结构化和非结构化数据对网络中的文物信息资源进行分类分析[21]。结构化数据多以专业数据库的形式存在，如全国馆藏文物信息数据库、各博物馆自建数据库等，该类信息资源由于系统限制、数据标准不一等问题，致使收集和整理难度较大，因此，可以进行直接利用的内容较少。半结构化数据多以网页、链接等形式存在，如各博物馆有关的介绍页面、百度百科中的词条等，这类信息资源具有针对文物的分类信息介绍，需要通过包装器或者有针对性的数据抽取方法将其转换为结构化数据。非结构化数据是互联网中主要的信息资源，由于阅读过程更符合人类习惯，这类数据也成为了数量最多、应用最为广泛、受众最易理解的信息资源[22]。如对这类信息资源进行利用，首要问题就变成了从中抽取结构化数据，也就是进行实体关系抽取。

总的来看，网络中的文物信息资源具有以下特点：①信息量大，传播广泛；②内容丰富，质量不一；③时效性强，动态更新；④信息使用成本低，共享程度高；⑤重复度高，用户获取文物知识的效率较低；⑥缺乏系统性的数据采集与分析方法。上述特点说明了，进行文物信息资源的开发与利用需要选择有针对性的方法进行实体关系抽取以获取蕴含其中的知识，这其中的核心是将结构化数据、半结构化数据、非结构化数据所构成的信息资源进行深度融合，利用结构化数据抽取非结构化数据信息资源中的实体关系，引导用户更充分地了解文物知识，提升网络中文物信息资源的利用效率。

基于以上分析，文章首先从非结构化的文物信息资源中抽取关键词，以获取文本的主要内容，限定外部知识库的检索范围，以便更为集中地获取文物实体间的关联关系。然后将关键词通过SPARQL语言在多个外部知识库中查询候选实体并获取实体关系后基于语义进行对齐，最后依据远程监督有关假设进行网络文物信息资源的实体关系抽取。该方法从关键词角度入手获取外部知识库中与信息资源主题有关的实体关系，能够显著降低远程监督方法进行实体关系抽取时的噪音，同时基于语义对实体关系进行合并可以解决关系标注中的长尾问题，方法所构建的自动化抽取过程能够在大数据环境下面向网络信息资源进行高效的实体关系抽取。

2 基于关键词提取与远程监督的文物信息资源实体关系抽取模型

文章实体关系抽取的对象为广义信息资源的概念下的文物信息资源，来源丰富、形式多样与文物有关的文本、图像、视频等资源都可以被视为文物信息资源。实体关系抽取过程分三步进行，首先依据信息资源的特征抽取与主要内容有关的关键词作为外部知识库检索词，这是由于知识库中的实体记录数以亿计，实体关系几十亿计，直接使用信息资源文本进行检索会获取大量与文物无关的数据，因此，抽取与信息资源主题密切相关的关键词作为检索词，可以增加从知识库获取文物实体及关系数据的精度，减少无关实体带来的噪音。然后将检索到的实体两两组合，在知识库中进行实体关系遍历检索，构建实体关系集合。由于不同知识库对同种实体关系的描述存在差异，需要根据语义相似度按统一标准进行对齐，最后利用对齐后实体关系集合，选择远程监督方法从信息资源中抽取实体关系三元组，抽取模型如图1所示。

图1 基于关键词与远程监督的信息资源实体关系抽取模型

针对远程监督方法在实体关系抽取中出现的噪音、关系标注的长尾现象及多知识库关系描述存在差异等问题，文章的创新之处在于从信息资源内容角度出发，利用主题关键词对知识库实体关系进行筛选，以达到减少无关实体关系标注带来的噪音问题。同时通过基于语义的词汇相似度计算对多知识库实体关系进行对齐，解决关系标注的长尾现象。多知识库实体关系的融合能进一步扩充数据来源，提高关系抽取效果。

2.1 信息资源中知识库检索词的获取

远程监督方法进行实体关系抽取，其核心思想是基于一种强关系假设，即对于一个已知的实体关系三元组，假设信息资源中的句子包含该实体对，则可以认为这两个实体包含这种关系。基于该假设，远程监督可以利用知识库中已经存在的大量实体关系三元组对信息资源进行句子级别的实体关系标注。但该方法在对大量数据自动标注时也存在着标记错误和噪音问题，影响了实体关系抽取的效果。

因此，文章提出从信息资源内容角度对远程监督方法进行改进，通过提取信息资源中与主题有关的关键词，对外部知识库实体关系进行过滤，构建与信息资源主题内容有关的三元组集合，利用精炼后的三元组集合替代知识库进行基于远程监督的实体关系抽取。网络中文物信息资源主要有两方面的来源：

一是对文物进行科普性质描述的信息资源，该类资源一般是针对文物主要特征的概括性介绍，主题集中且内容重复度较高。对于这部分内容，文章提出使用主题模型方法[23]进行，LDA是一种三层贝叶斯概率模型，通过分析文档、主题、词项，将关键词向量约减为关键词集合的降维表达。LDA首先假设所有的文档均存在一定数量的隐含主题，先以一定概率抽取主题，然后再选定主题，抽取特征词，通过设定的迭代次数获取足够的特征词。每个特征词在文档中出现的概率为：

p(特征词|文档)=Σ主题p(特征词|主题)×p(主题|文档)

(1)

二是对文物进行研究的论文、报告等，主要针对文物知识的深入解读，主题分散且由于存在论文查重机制重复率较低。文章提出使用基于统计学的TF-IDF[24]算法进行关键词抽取，该算法可以发现在一篇文档中出现频率较高而在文档集合中出现频率较低的词，能够有效区分文本内容间的不同。如式(2)所示。G代表文档总数，nt为包含特定词语t的文档数，TF代表词频，IDF是包含词语文档数与总文档数的对数，一个词语的重要性随其在文档中出现的频率而增加，但随其在文档集中出现的总频率而减小。

(2)

两类文物信息资源依照统计学方法提取词语分布特征后进行分类，可以发现，分类结果存在明显差异，科普性质信息资源间关联度紧密，而研究性质信息资源间关系离散。针对上述差异，文章提出将某一领域或主题的信息资源依据内容进行聚类，而后根据科普类和科研类信息资源在文章主题结构上的差异，分别采用基于主题模型以及基于统计学的关键词抽取方法进行主题关键词的抽取，可以更加准确地获取代表不同类型信息资源主题的关键词，从而提升知识库检索精度，获取过程如图2所示。

图2 面向信息资源内容与结构特征的知识库检索词获取过程

2.2 信息资源实体关系获取与命名实体识别

图3 知识库实体关系的SPARQL检索式

在得到查询结果后，使用图模型将三元组中的实体及属性映射为节点和边，映射过程可以表示为(S,P,O)→Gi=(Vn,Em)，其中V={S,O}、E={(S→O)}，边E的标签表示为P，通过映射方法构建文物信息资源实体关系集合。

2.3 多知识库融合的信息资源实体关系抽取

由于各知识库实体关系的描述词不尽相同，获取到多个知识库中的实体关系及实体链之后，需要对实体关系集合中的边进行统一，合并具有相同意义的关系。文章选择基于知网(HowNet)[25]与《哈工大信息检索研究室同义词词林扩展版》[26]融合的词汇语义相似度计算方法进行实体关系描述词的对齐。首先进行基于知网的词汇相似度计算，通过比较义原间的相似度判断词汇间的相似度。义项间相似度计算如式(3)所示，其中，参数βi是可调节的，β1+β2+β3=1，其取值分别为0.7、0.17、0.13，如果两种词汇之间可能存在多种义项关系，则取所有计算结果的最大值。

(3)

然后进行基于同义词词林的词汇相似度计算，由于同义词词林的五层树形构造，词汇间的相关性可以按照层次之间的连接性进行计算，不同第一层大类间的初始距离设置为18，按照层次顺序依次赋予词汇权重wi，其中0.5≤w5≤w4≤w3≤w2≤5，w5+w4+w3+w2≤10。词林中决定词汇相似度的因素还有树形结构的层数n和两个词汇之间层数的距离k，因此最终的计算公式为式(4)。

(4)

其中，dis(C1,C2)是词汇代号C1、C2在树状结构中的距离函数，等于词汇连接路径中各级层数权重处理之后的加总。最后文章将两种词汇相似度进行融合计算，得到总相似度s，λ取值分别为0.5，计算如式(5)所示。

s=λ1S1+λ2S2

(5)

在知识库实体关系对齐的实践中，文章以WikiData知识库中定义的8 440种实体关系类别[27]为对齐目标，其他知识库实体关系描述词汇与WikiData知识库中定义的实体关系描述词汇进行遍历相似度计算，以相似度最高的目标作为实体关系对齐的依据，对齐过程如图4所示。

图4 多知识库实体关系对齐过程

最后将多知识库融合的实体关系集合{、…、}作为数据源对文物信息资源依据远程监督方法进行实体关系抽取，即如果En和Em同时出现在信息资源分句后的句子S中，则S表达了En和Em间的关系Rk，获得实体关系三元组，完成信息资源中实体关系的抽取。

3 “中国十大传世名画”信息资源实体关系抽取实验

为了验证文章方法的可行性以及对抽取方法进行评价，文章以“中国十大传世名画”中各名画的名称进行检索，从互联网中获取与之有关的信息资源文本468篇，共41 855句。

3.1 “中国十大传世名画”信息资源的知识库检索词获取

由于聚类算法无法直接对自然语言进行解析，因此需要通过将自然语言中的词汇进行分解，在使用Jieba分词工具进行分词后，用词汇出现次数的稀疏矩阵来表示文本的特征。文章采用Doc2Vec[28]模型，该模型是一种无监督算法，可以获得句子、段落、文档间的向量表达。在聚类方法的选择上，使用K-Means[29]算法进行，该算法源于信号处理中的一种向量量化方法，现在则作为一种聚类分析方法流行于数据挖掘领域。K-Means聚类的目的是：样本中的n个点划分到k个聚类中，使每个点都和每个聚类中心点最为接近，以此作为聚类的标准。聚类个数由3个参数共同决定，分别是组内平方误差和(Sum of Squared Error，SSE)[30]、轮廓系数(Average Silhouette Method)[31]、困惑度(Perplexity)[32]，如图5所示，最终聚类个数为8。

图5 信息资源聚类个数确定过程

随后文章对这8个聚类使用TF-IDF提取文档向量，K-Means算法进行二分类，分类结果中相对聚集的类团使用LDA主题模型抽取关键词，相对离散的类团使用TF-IDF模型抽取关键词，为了观察文章方法的实体关系抽取效果，关键词阈值分别选择10、30、50。

3.2 “中国十大传世名画”信息资源的实体关系获取与命名实体识别

从表1可以发现，文章方法所抽取的关键词个数和其他单一方法相比在3种阈值下均最多，这说明该方法可以最大限度地抽取信息资源中主要内容有关的关键词。在通过关键词检索获取实体的数量方面，该方法与其他单一方法比较所获取到的实体数量最多，关键词与实体的匹配率上处于中间水平，关键词与所获取实体数量的比值并未随阈值的增加而明显下降，这说明文章方法能够随着阈值的增加稳定地进行命名实体识别工作。

表1 “中国十大传世名画”信息资源的关键词抽取与实体获取结果

3.3 “中国十大传世名画”信息资源实体关系抽取

从外部知识库中获取到的实体关系是根据信息资源的主题内容对外部知识库中众多实体关系的一次筛选，随后需要对这些实体关系进行对齐，才能够使用远程监督方法进行信息资源中实体关系的抽取。文章根据前述方法选择WikiData知识库中的8 440种已定义的实体关系作为对齐目标，由于这些关系依旧具有极强的长尾特征，出现次数最高的关系约为平均数的500倍，故文章在实体关系对齐时选择了出现次数超过平均值的关系，即全部关系前5%[34]作为最终对齐目标，根据前文中的方法进行实体关系对齐。

根据对齐后的实体关系集合在“中国十大传世名画”信息资源文本的41 855句中使用远程监督的方法进行实体关系抽取，即假设实体关系集合中的任意两个具有关联关系的实体出现在同一句话中，则该句中的两个实体具有相应的关联关系，从而进行信息资源中的实体关系抽取，最终抽取结果如表2所示。

从表2可以发现，文章方法在阈值较低时从信息资源中抽取到的实体关系较少，但随着阈值的增加，抽取数量不断增加，且实体关系抽取的增量也较其他方法多，这说明随着关键词阈值的增加，文章方法能够较为全面地抽取信息资源中的实体关系。

3.4 实体关系抽取质量评价

为了进行信息资源实体关系抽取质量评价，文章选择从网络视角和实际抽取效果两方面进行分析，首先利用社会网络分析中常用的点度中心度对从信息资源文本中抽取的实体关系集合进行评价，以考量所抽取实体关系间的紧密程度，网络的平均点度中心度如图6所示。

图6 实体关系集合的网络平均中心度指标

从网络的角度看，文章方法从信息资源中抽取实体关系构成的网络中节点的平均度仅次于LSI方法，但实体关系抽取数量显著高于该方法，说明所抽取实体关系间的联系较为紧密，且平均中心度随阈值增加而稳定上升，在数据量较小时能够准确地抽取与信息资源内容有关的实体关系，在数据量较大时能够稳定剔除无关关系带来的噪音。

为了进一步检验该方法相较其他方法在实体关系抽取中的提升，文章以样本中未收录的故宫博物院《五牛图》介绍页面进行实体关系抽取实验。

从图7可以发现，远程监督抽取的实体关系数量最多，但有部分关系与文物无关，而文章方法则较好地解决了噪音问题，同时也能够获取到相当数量与文物有关的实体关系，而且随着外部知识库的不断更新，方法抽取到的实体关系也在未来会继续增加。

图7 《五牛图》页面实体关系抽取结果

消融实验基于依存句法分析进行关键词抽取方法下的实体关系抽取，使用全知识库进行远程监督的实体关系抽取，同文章方法进行对比，结果如表3所示。

表3 《五牛图》页面实体关系抽取消融实验结果

文章方法抽取到了6条实体关系三元组，人工方法抽取到了9条实体关系三元组，远程监督方法抽取到了15条实体关系三元组，关键词抽取方法获得了21条实体关系。但后两种方法蕴含了大量的噪音，对抽取结果的质量有着较大影响，而文章方法则较好地解决了文物领域内进行远程监督实体关系抽取的噪音问题。

从实体关系抽取应用的角度来看，文章进行的“中国十大传世名画”信息资源的实体关系抽取也为文物知识的分析提供了独特的视角，比如挖掘清朝第六位皇帝乾隆与十大传世名画间隐含的关联关系。具体分析方法是以乾隆皇帝为实体节点，抽取关系集合中与其有关的节点并进行分析，关系抽取结果如图8所示。

图8 乾隆帝实体关系抽取结果

从图8可以发现，“中国十大传世名画”曾经均为乾隆皇帝的收藏，可见其在文物研究上的造诣以及对文物藏品的兴趣，更从另外一个侧面显示了清王朝在乾隆皇帝时代国力的强盛，能够收集历朝历代的著名文物。同时根据图中内容也可以发现，随着时间的推移，仍留存在紫禁城中的文物只剩下6件，反映出清朝后期国力衰退、时局混乱，致使诸多文物流落海外，分析结果与历史的发展特征相吻合，从时空数据的角度为历史文物的分析提供了新的视角。由于文章进行的实体关系抽取是基于外部知识库的，所有实体均可以外部链接形式进行注解，实体关系则可以根据外部知识库的更新而实时调整，兼具扩展性与灵活性。

上述抽取结果说明，文章方法能够抽取与信息资源主要内容有关的实体关系，可以围绕文物实体构建关联紧密的实体关系集合，抽取到的实体关系集合通过重新组织，可以为文物的分析与研究工作提供多种新的分析视角，能够面向网络文物信息资源完成实体关系的自动抽取。

3.5 结论

从网络视角对融合关键词提取与远程监督的实体关系抽取结果进行分析后可以发现，LSI、LDA这类基于主题模型的关键词抽取方法获取的检索词与文物实体关联较为密切，但实体关系抽取数量随着关键词阈值的增长较为缓慢，这说明网络文物信息资源文本的主题较为集中，通常能够围绕文物的主要特征展开，如文物的基本情况、主要特点、著名典故等，但对于其他与文物承载内容、背景知识等有关的关键词，由于分布较为零散、提取效果较差，导致构建的实体关系网络范围较小，较难涵盖文物特征的全貌。相对的，TF-IDF这类基于统计学的关键词抽取方法构建的实体关系网络点度中心度较低，实体关系间的关联较为松散。同时随着关键词阈值k的增加，TF-IDF方法构建的实体关系网络规模出现较大幅度增长，这说明该类方法能够获取到大量与实体有关的检索词，但其中部分与文物实体关联程度较低，增加了关系抽取中的噪音。还有TextRank和Word2Vec这类基于语言学的关键词抽取方法，实体关系抽取的效果介于上述两类方法之间，未能体现出方法特点。

综合来看，文章提出的依据内容聚类后根据文本结构特征对信息资源进行分类关键词抽取作为外部知识库检索词的方法，可以在兼顾信息资源主要内容的同时，尽可能扩大从外部知识库中获取实体关系的范围，充分融合不同关键词抽取方法的特点进行互补，最后依照远程监督方法自动抽取信息资源中的实体关系。结果显示，文章方法能够较为充分地抽取文物信息资源中的实体关系，进行命名实体识别、实体链接、关系链接，还能够利用抽取到的实体关系集合为文物知识的分析提供独特视角。

4 总结

网络环境下，海量信息资源不断涌现，文物作为中华文明发展过程的见证，任何有关结论都需要经过严谨的考证与推理，因此，面对网络中的文物信息资源，需要由一种可靠、标准化的自动处理方法进行实体关系抽取，以便得到更好的利用。

文章提出了一种利用信息资源中与内容有关的关键词进行检索，从外部知识库中获取实体关系后，使用远程监督进行自动实体关系抽取的方法。基于信息资源内容与结构特征进行关键词抽取作为外部知识库检索词，能够有效地减少传统远程监督方法使用全知识库进行实体关系抽取时带来的噪音问题。基于语义进行的多知识库实体关系对齐则能够在融合多知识库数据源的同时，减少外部知识库实体关系长尾现象带来的抽取关系稀疏的问题。在与单一关键词抽取方法进行的关系抽取对比试验中，文章方法在多个关键词阈值下取得了较好的效果，融合了多种关键词抽取方法在获取信息资源主要内容中的优势特点，在大数据、非结构化数据较多的网络环境中，提供了一种自动进行实体关系抽取的方法。但是文章方法容易受到分词结果正确率的影响，下一步研究还需要就多知识库实体关系对齐的规则进行进一步优化。