一种基于事实知识的实体相关度计算方法

2016-05-04孙叔琦孙珂赵世奇李生王海峰杨沐昀

中文信息学报 2016年3期

关键词：知识库日志实体

孙叔琦，孙珂，赵世奇，李生，王海峰，杨沐昀

(1. 哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 150001)2. 百度，北京 100085)

一种基于事实知识的实体相关度计算方法

孙叔琦1，孙珂2，赵世奇2，李生1，王海峰2，杨沐昀1

(1. 哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 150001)2. 百度，北京 100085)

在近来出现的面向实体的搜索服务中，准确地预测实体间的相关程度是至关重要的。该文提出了一种基于实体的事实知识，即利用 “实体—属性—属性值”(SPO)记录进行实体相关度计算的方法。该文通过基于属性和属性值的两步概率估计，将实体表示为一个属性值词的概率分布列，并通过比对两个实体共享的属性值词汇得出二者的相关度。实验表明，在用于面向实体搜索的相关实体排序问题上，该文方法达到了80.9%的平均top-5准确率，优于词袋方法和基于查询日志共现的方法。此外，该文通过定量分析，考察了不同领域的用户需求特性对实体相关度计算结果的影响。

实体相关度；实体—属性—属性值(SPO)记录；用户需求；面向实体的搜索；

1 引言

在网页搜索查询中，有超过一半的查询包含对特定实体的信息需求[1]。为了更好地满足这些需求，一些主流搜索引擎推出了面向实体的搜索(entity-oriented search)服务。以谷歌推出的“知识图谱”为例，面向实体的搜索结果一般在输入查询为一个实体名字(如人名)时触发，其内容主要包含与实体相关的图片、围绕实体的关键事实知识罗列(如生卒年、家庭成员、作品)，以及一个相关实体的列表。除了谷歌之外，其他主流搜索引擎，包括百度、必应、雅虎等，也推出了类似形式的服务。

在面向实体的搜索结果中，根据与中心实体的相关度推荐相关实体是一个环节。既有的实体相关度计算研究工作主要使用了分类体系(taxonomy)结构[2-5]、数据库链接结构[6-9]、在线百科正文文本[2]或关键短语[10]等资源。

与上述研究工作相比，本文使用了一种新的资源——实体事实知识进行实体间的相关度计算。事实知识是指与特定实体紧密相关的事实，如“人物实体A的作品有B”，“电影实体C的导演是D”，等等。在常见的知识库(如Freebase，DBpedia等)中，这些事实一般以“实体-属性-属性值”(subject-property-object，SPO)记录的形式存储，如“A-作品-B”或“C-导演-D”，而一个实体则表示为一组SPO记录的集合。在面向实体的搜索服务中，事实知识是前端展现的核心内容，而SPO记录是常见的后端知识库中实体的基本存储结构。因此，使用实体知识资源，具有表义直观、贴近应用、附加开销小等优点。

本文基于SPO数据，以属性值词汇的概率分布列表示实体，并通过比对两个实体共享的属性值词汇得出二者的相关度: 1)统计网页搜索查询日志中的用户需求信息，并由此为实体的属性赋权。这一步的基本假设是如果用户频繁地将实体(实体的名字)与它的某些属性放在一起构成查询，那么这些属性就是重要的，并应赋予更高的权重；2)属性值中的每个词根据一个平滑语言模型来分割属性所获得的权重；3)通过比较对应模型中的属性值词，就可以得出两个实体之间的相关度。

针对面向实体的搜索服务，本文在相关实体排序问题上检验了本文方法的效果。实验结果显示，在人物、影视、游戏三个领域上，本文方法达到了80.9%的平均top-5准确率，优于词袋方法和基于查询共现的方法。此外，本文还定量分析了不同领域的用户需求特性对相关度计算结果的影响。

本文剩余部分组织如下: 第二部分总结实体相关度计算的相关研究工作；第三部分提出实体的表示策略，并在此基础上定义实体相关度算法；第四部分在相关实体排序问题上检验实体相关度的效果，并分析实验结果；第五部分给出结论。

2 相关工作概述

实体相关度计算的典型方法主要分为三类。

1) 基于分类体系(taxonomy)的方法

这类方法比较两个实体在给定分类体系中的相对位置，包括分类层次深度[3-4]、路径长度[4-5]等。分类体系的构建是一项复杂和严谨的工作，在不同领域上的丰富度与质量也不同。领域上的差异影响了算法的通用性，而在真正需要特定领域内的语义相关度的时候，强领域相关的知识资源又不易构建。

2) 基于数据库链接结构的方法

这类方法使用随机漫步算法挖掘实体之间的引用结构，其优点是能够发掘出高阶的相关关系。这类方法经常使用高度互联的数据库资源，如维基百科[6]、IMDB、DBLP[8-9]，等等。这一类方法多使用链接分析算法，这一算法在新实体出现时的迭代更新代价较大，在快速发展变化的应用领域上可用性受限。

3) 基于文本资源的方法

这类方法通过考察在实体间共享的各种文本、超文本元素来判断实体的相关度。此时，实体一般以文本的形式，如在线百科文章([2，11]或者从文章中事先抽取的关键短语[10]的形式表示，而用来计算重叠的基本元素一般是词或短语。此外，计算百科文章中的超链接重叠也被证明是有效的[7，11]。文本资源相对于结构严整的分类体系资源，其覆盖面更广、构建更为容易；而相对于基于链接结构的方法，基于文本资源元素的方法灵活性更强，对全局范围上的迭代更新依赖性弱。

本文首次使用了事实知识，即SPO记录支持实体相关度计算。从某种角度上讲，SPO记录也是一种文本资源，但与既有研究工作中使用的文本资源相比，SPO记录又有其自身的特点。首先，与基于在线百科文章中超链接重叠的方法[7，11]相比，本文中基于SPO记录的方法考察的是两个实体在事实知识上的重叠程度，因而能够直接反映两个实体所共享的特征，例如，电影《泰坦尼克号》和《终结者》的“导演”都是“詹姆斯·卡梅隆”；其次，SPO记录的内容较为精炼，从而省去了从文本中识别关键词、关键短语的开销[10]。

3 基于事实知识的实体相关度计算

3.1 问题定义

实体相关度计算的数学形式是一个函数，它量化了两个实体e和e′之间的相关度，如式(1)所示。

(1)

其中，M(·)是一个实体的模型化表示，而函数f(·,·)执行相关度计算，衡量两个实体在事实知识上的重叠程度。

事实知识是知识库中实体的基本存储结构，通常以一组“实体-属性-属性值”(SPO)记录(subj，prop，obj)的形式存在，其中subj表示实体ID，prop表示属性，obj表示属性值。设实体e在知识库中的存储形式为e={(subj,prop,obj)}，则e的模型M(e)定义为所有属性prop下的属性值词t的一个概率分布列{Pr(t|e)}，其中每个属性值词的概率按照式(2)计算。

Pr(t|e)=Pr(t|{(subj,prop,obj)})

·Pr((subj,prop,obj))

·Pr((prop,obj)|subj)·Pr(subj)

·Pr(prop|subj)

(2)

其中，第六行推导是基于以下事实: 1)subj，即实体ID在e的所有SPO记录中保持不变；2)SPO记录的结构决定了属性值obj与属性prop是一一对应的。

式(2)所示的实体模型可以看作一种混合语言模型，这种模型一直在已知项(known-item)检索[12]、XML检索[13-14]，以及实体检索[15]等研究问题中广泛应用。混合语言模型的核心思想是对属于不同数据域，或不同类型的词赋予不同的权重。在以往的工作中，这些权重或者通过训练样本得到，或者直接根据知识库中的统计信息确定。相比之下，本文使用从查询日志中挖掘到的用户需求信息来估计各个属性、属性值词的权重，并且在实际问题中展示了这种策略的有效性。

3.2 知识库及其构建

以在线百科全书为基础的知识库(如Freebase、DBPedia)在面向实体的搜索等新生信息服务的推动下，发展较为迅速。此类知识库从广大用户群体共同参与编辑的在线百科全书中抽取、汇总各领域知识，在相当程度上降低了知识库对专家知识的依赖程度，而对新产生的实体也能较快收录。

在大多数基于在线百科全书的知识库中，SPO记录是实体的基本存储结构，而其中存储的属性、属性值等信息也是实体在线百科词条中的核心信息。下面给出本文计算实体相关度所需的知识库的构建过程。知识库根据百度百科的页面构建，库中的每个实体均对应于一组SPO记录。具体地，本文针对每个带有“信息卡片”(如图1所示)的百科页面建立一个实体、分配实体ID，并从信息卡片的三个数据域中生成SPO记录: 1)简述，2)属性-属性值列表，以及3)用户生成的标签，如图1中实线框所示。

每条SPO记录是一个三元组，为了方便表示，将其写作下列格式:

{实体ID}{属性}:[属性值]

对同一实体的所有SPO记录，实体ID实际上是不变的。在不产生歧义的情况下，下文中将其省略。

以图1为例，第一，简述生成单独的一条SPO记录: {简述}:[詹姆斯·卡梅隆即……]；第二，属性-属性值列表中的每对属性、属性值生成一条SPO记录，如{代表作品}:[泰坦尼克号，魔鬼终结者……]；第三，用户生成的标签也生成单独的一条SPO记录: {标签}:[人物，导演，奥斯卡金像奖……]。这样，每个实体的SPO数据都包含三种类型的记录: 简述、属性，以及标签。其中，简述和标签可以看作特殊的属性。最后，本文使用卡片的标题(詹姆斯·卡梅隆)作为实体的名字，如图1中虚线框所示。

整个知识库包含36.6万个实体，以及369万条SPO记录。

3.3 概率估计

式(2)将t的概率估计过程分解为三个环节。首先，通过估计概率Pr(prop|subj)对e的每个属性prop的赋权(subj是e在知识库中的ID)；然后，再将属性的权重根据概率Pr(t|prop,subj)分配到对应的属性值词上；最后，遍历所有的属性，获得t的概率Pr(t|e)。

3.3.1 基于用户信息需求的属性概率估计

在上述三个环节中，Pr(prop|subj)的估计对基于事实知识的实体相关度计算是至关重要的。一个实体具有多方面的事实知识，这些事实知识的重要性不同，而属性对事实知识起着提纲挈领的作用。例如，判断两个电影实体间的相关度时，“导演”属性显然比由 “上映时间”属性更加可靠。

但是，从知识库本身出发，难以找到有效的统计方式来预测这样的重要度差异。这是因为知识库有自身的设计需求，属性在知识库中出现的概率有时不能代表其重要性。例如，如果知识库从设计完备性考虑，那么应该对同一类型的所有实体设置相同的属性集合，即使对应的属性值并不存在。于是，如果按照属性在实体中出现的概率估计Pr(prop|subj)，则所有属性的概率均相等，这是不合理的。因此，需要挖掘知识库以外的数据源，以实现对Pr(prop|subj)的合理估计。

图1 百度百科中电影导演詹姆斯·卡梅隆的“信息卡片”示例

搜索引擎的查询日志直接体现了用户的信息需求，而用户对实体的某种事实知识的需求强度是一个自然的重要性判断依据。因此，本文首先从查询日志中挖掘用户需求信息，以确定e的每个属性prop的权重。具体地，本文假设:

如果prop是e的重要属性，那么人们会频繁地把prop和e(的名字*实体的名字在常见的知识库(如Freebase，DBpedia)中是一个特殊的数据域，与实体的SPO记录独立。在本文使用的知识库中，也沿用了这样的实现方式。)放在一起搜索。

“把prop与实体e的名字(记作Ne)放在一起搜索”包括两种情况: 第一，直接将Ne与prop拼接成查询；第二，将Ne与prop所对应的属性值objprop，subj*这里的obj用下标修饰，是为了区分不同实体、不同属性所对应的属性值。中的词汇拼接成查询。例如，“泰坦尼克号导演”和“泰坦尼克号卡梅隆”都反映出用户对“导演”这一属性的兴趣。

对应上面的两种情况，本文按照下面的方式为属性prop赋权。首先，将objprop，subj分词并进行词性标注与名实体识别，然后，分别考察“实体名+属性”以及“实体名+属性值词”形式的查询在查询日志中的频率，计算prop关于e(即subj)的搜索频率分数sf(prop，subj)，如式(3)所示。

sf(prop,subj)=ln(#(Ne+prop))

(3)

其中，#(Ne+x)表示查询“Nex”在查询日志中(如“泰坦尼克号导演”、“泰坦尼克号卡梅隆”)的频率，集合T(objprop，subj)包含属性值objprop，subj中所有的名词(包括名实体)和动词。只考虑名词、动词与实体名Ne的共现，是因为其他词性的属性值词与Ne的共现不能明显反映用户对prop的兴趣。

统计共现所用的查询日志是三个月的百度搜索日志。在共现频率上取自然对数，是为了降低极高频查询的影响。特别地，每个词t的共现频率被平均分配到所有在属性值中含有t的属性(即{prop′:t∈T(objprop′,subj)})上。例如，电影《泰坦尼克号》的导演和编剧均为卡梅隆，如果查询“泰坦尼克号卡梅隆”在日志中出现了N次，那么导演、编剧两个属性将分别获得ln(N)/2的搜索频率分数加成。此外，本文对“实体名+属性值词”型查询的频率使用T(objprop，subj)的基数(即属性值包含的词数)进行了归一化，以避免长属性值的影响。

最后，根据sf(prop，subj)，Pr(prop|subj)以一个带全局平滑项的概率形式计算，如式(4)所示。

(4)

其中，第二项表示prop在整个SPO数据库中的全局重要程度，并根据参数λprop与第一项拟合。根据本文实验数据上的实验分析，我们发现全局项的权重较大时，计算效果较好。在实验中，设置λprop=0.1。

3.3.2 基于平滑语言模型的属性值词概率估计

在获得属性的权重之后，本文使用一个相对简单的策略将该权重根据概率Pr(t|prop,subj)分配到对应的属性值词上。为了增强表义能力，排除通用词的干扰，本文在实体模型M(e)中只引入了属性值中的名词、名实体、数量值以及动词。

与属性相对于实体的分布不同，属性值词在给定一条属性值上的概率分布是有意义的，尤其是将属性值词限定到上述范围之后。但是，由于属性值一般比较短，为了得到有意义的概率分布，需要对其进行平滑。因此，对实体e的每条SPO记录(subj，porp，objprop，subj)，本文使用一个平滑语言模型[15]获得t在该记录上的分布Pr(t|prop,subj)，如式(5)所示。

(5)

其中tf(t，objprop，subj)表示objprop，subj中t的频率，|objprop，subj|表示objprop，subj包含的词数。沿用文献[15]的配置，插值参数λobj=0.5。θsubj是e的一个Dirichlet平滑的语言模型，如式(6)所示。

(6)

其中Pr(t|θDB)是t在整个知识库中的概率，平滑参数μ设定为一个实体的所有SPO记录所包含的平均词汇数[15]。

3.4 实体相关度计算

在得到属性值词t的概率分布列之后，两个实体e、e′的相关度按照式(7)计算。

(7)

4 实验与分析

4.1 应用场景

实体相关度有着广泛的应用，本文以相关实体推荐这一典型应用场景为例，来验证本文方法的效果。相关实体是面向实体的搜索结果中的一项重要内容。在传统的推荐服务中，一种常见的方法是通过统计与原始查询的字面共现频率，从查询文本和用户会话中挖掘相关查询。该方法在原始查询是一个实体名字的时候同样有效。给定中心实体ec和一个候选相关实体集合R(ec)={r1(ec),r2(ec),…,rn(ec)}，通过统计与中心实体名Nec和Nri(ec)在查询日志中的共现，可以将R(ec)排序。但是，查询日志共现所反映出的趋势可能会偏离相关实体推荐的初始预期。例如，同期上映的电影可能在查询中高频共现，尽管它们的演员、类型可能很不一致。

相比之下，本文使用基于SPO记录的实体相关度对候选相关实体进行排序，即根据实体相关度rel(ec,ri(ec))从高到低的顺序，对R(ec)排序。基于SPO记录的相关度计算算法考察的是实体内在属性上的一致性，而这些内在属性来自人们根据自身常识编纂的在线百科词条。人的常识是一种较为稳定的知识，受暂时性事件的影响较小，举例来说，电影的“导演”是一个事实性的信息，不因一部电影是否与其他电影同期上映而改变。因此，基于此类事实知识的实体相关度计算结果能够纠正由暂时性的事件导致的计算错误。

4.2 实验设置

4.2.1 数据准备与标注

实验数据分为三个领域: 人物、影视和游戏。这三个领域既是用户高度关注的领域，同时也是主流的面向实体搜索服务的覆盖范围。

通过名实体识别，并对照知识库中的实体名，本文从一个月的百度搜索查询中抽取出所有人名、影视名和游戏名，并统计了同类名字在查询文本和用户会话中两两的共现频率。这样，对每个实体名，都可以获得一个与其共现的实体名列表。

为了模拟“给定中心实体，对其相关实体排序”的应用场景，我们在人物、影视和游戏领域，分别随机抽样了120个实体名，构成集合U。其中任意u∈U都满足: 在知识库中只存在一个以u为名字的实体；然后，对每个u∈U，为其提取至多前10个共现实体名，构成集合R(u)；最后，把每个u∈U在知识库中对应的实体eu作为中心实体，并将每个共现实体名r(u)∈R(u)通过与eu比对，对应到知识库的具体实体r(eu)上，形成待排序的候选相关实体集合R(eu)。

在应用实体相关度对R(eu)排序之前，需要首先建立黄金标准。我们请两位标注者对eu与所有r(eu)∈R(eu)的相关程度做出0分、0.5分、1分的三档评价。评价标准如下:

• 两个实体是相关的(1分)，如果它们有显著、明确的共同点或者确定的关系。如“玛丽莲·梦露-伊丽莎白·泰勒”、“阿凡达-泰坦尼克号”、“使命召唤-战地”，等；

• 两个实体是弱相关的(0.5分)，如果它们只有不太重要的共同点，或者在一些周边的事件中共同出现。如名人在其轶事中涉及的其他人物，具有同一类型的电影等；

• 其他情况下，两个实体是不相关的(0分)。

两位评价者之间的Cohen’s Kappa系数在人物、影视、游戏三个领域上分别为0.43、0.44和0.44。在实验中，两位标注者给出的分数取了平均值。在移除|R(eu)| < 5的中心实体eu后，用于排序实验的数据规模如表1所示。

表1 三个领域上的排序实验数据统计

4.2.2 评价指标

为评估排序质量，本文在每个领域上计算平均的Precision@k(1≤k≤5)如式(8)所示。

(8)

4.2.3 基线方法

本文方法与下列两个方法对比。

1) 词袋(bag-of-words)方法

所有SPO记录，包括属性和属性值，被解散成词袋。两个实体之间的相关度定义为对应词袋之间的余弦相似度。

2) 查询日志共现

我们有必要确认基于实体相关度的排序结果是否好于基于查询日志共现次数的结果。查询日志共现方法根据实体名u和r(u)在查询日志(与4.3.1节相同)中的共现频率对R(eu)排序。实际上，考察查询日志共现在传统搜索服务中也是一种典型的推荐策略。

4.2.4 均匀分布的实体模型

为了验证本文提出的概率估计策略的有效性，本文还尝试将两个概率Pr(prop|subj)、Pr(t|prop,subj)全部设为均匀分布，并考察基于这一简化的实体模型的推荐结果质量。

4.3 实验结果

总体上，本文方法取得了最好的效果。不同方法的效果对比如图2所示。本文的方法在三个领域、所有1～5位置上的平均Precision@k均高于词袋方法以及基于均匀分布实体模型的方法，其中在影视领域上的每个位置，以及游戏领域的第二位上统计显著地高于后两者。这说明本文提出的基于两步概率估计的实体模型化表示方法以及赋权策略都是有效的。

基于查询日志共现的方法效果明显不如本文方法。从表2给出的实例来看，虽然“鞠萍”与“倪萍”均为央视的主持人，但是“董浩”才是前者在儿童节目中的搭档；“西雅图未眠夜”与“真爱至上”虽然题材相似，但“电子情书”不但与前者题材相似，而且其两大主演(汤姆·汉克斯、梅格·瑞安)更与前者相同；“生化尖兵”与“生化奇兵”仅在字面上相似，而“使命召唤”则是在游戏类型(第一人称射击游戏)上与前者一致。这些实例表明: 网页搜索用户的兴趣并非总能体现出实体之间的相关关系，而基于事实知识的实体相关度可以改良基于查询日志共现的推荐结果。

领域中心实体查询日志共现方法本文方法第1位结果人工评分第1位结果人工评分人物鞠萍倪萍0．75董浩1影视西雅图夜未眠真爱至上0．25电子情书1游戏生化奇兵生化尖兵0．5使命召唤1

4.4 领域用户需求特性分析

在式(4)中，属性的权重是通过搜索引擎用户对它的兴趣确定的。根据上一节的实验，这样的赋权策略的确可以导出比较准确的实体相关度结果。但是，通过分析黄金标准数据，我们发现: 一些被用户的具体信息性需求提权的属性有时并不能有效指导实体之间的相关度计算——这对本文工作的假设是一种扰乱。这种扰乱是影响实体相关度计算的重要因素，且在各个领域上的强弱程度不同。

表3 人们在查询信息和判断相关度时

5 结论

本文探究了如何使用实体-属性-属性值(SPO)记录中存储的事实知识计算实体之间的相关度。本文使用属性值中词汇的概率分布列表示一个实体，并根据网页搜索用户的需求信息，以及属性值上的平滑语言模型，分两步估计了属性值词的概率。最后，实体间的相关度由二者的模型所共享的词汇及权重确定。在面向实体的搜索中的一个应用问题: 相关实体排序上，本文提出的实体相关度达到了最高80.9%的平均top-5相关实体推荐准确率。此外，本文通过定量的领域特性分析，发现了人们在“获取信息”和“判断相关度”时的认知差异，这种差异是影响实体相关度计算效果的重要因素。

在未来研究工作中，我们将考虑使用短语代替词汇作为实体的基本表示单元。这将使得两个实体所共享的事实知识更具可读性。我们还将尝试直接从知识库中推荐相关实体。这对在查询日志中缺乏共现信息的长尾实体尤其重要。

[1]JPound,PMika,HZaragoza.Ad-hocobjectretrievalinthewebofdata[C]//Proceedingsofthe19thInternationalConferenceonWorldWideWeb,WWW’10.NewYork,NY,USA:ACM. 2010: 771-780.

[2]MStrube,SPPonzetto.Wikirelate!ComputingsemanticrelatednessusingWikipedia[C]//Proceedingsofthe21stNationalConferenceonArtificialIntelligence-Volume2,AAAI’06.AAAIPress,2006: 1419-1424.

[3]JLiu,LBirnbaum.Measuringsemanticsimilaritybetweennamedentitiesbysearchingthewebdirectory[C]//ProceedingsoftheIEEE/WIC/ACMInternationalConferenceonWebIntelligence,WI’07.Washington,DC,USA:IEEEComputerSociety,2007: 461-465.

[4]SPPonzetto,MStrube.KnowledgederivedfromWikipediaforcomputingsemanticrelatedness[J].J.Artif.Int.Res.,2007,30(1): 181-212.

[5]STuarob,PMitra,CLGiles.Taxonomy-basedquery-dependentschemesforprofilesimilaritymeasurement[C]//Proceedingsofthe1stJointInternationalWorkshoponEntity-OrientedandSemanticSearch,JIWES’12.NewYork,NY,USA:ACM,2012,8:1-8,6.

[6]YOllivier,PSenellart.Findingrelatedpagesusinggreenmeasures:anillustrationwithWikipedia[C]//Proceedingsofthe22ndNationalConferenceonArtificialIntelligence-Volume2,AAAI’07.AAAIPress,2007: 1427-1433.

[7]DTurdakov,PVelikhov.SemanticrelatednessmetricforWikipediaconceptsbasedonlinkanalysisanditsapplicationtowordsensedisambiguation[C]//ProceedingsoftheSYRCoDIS,2008.

[8]YSun,JHan,XYan,etal.Pathsim:Metapath-basedtop-ksimilaritysearchinheterogeneousinformationnetworks[J].PVLDB,2011,4(11): 992-1003.

[9]XYu,YSun,BNorick,etal.Userguidedentitysimilaritysearchusingmeta-pathselectioninheterogeneousinformationnetworks[C]//Proceedingsofthe21stACMInternationalConferenceonInformationandKnowledgeManagement,CIKM’12.NewYork,NY,USA:ACM. 2012: 2025-2029.

[10] J Hoffart,S Seufert,D B Nguyen,et al. Kore: Key phrase overlap relatedness for entity disambiguation[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management,CIKM ’12. New York,NY,USA: ACM,2012: 545-554.

[11] D Milne,I H Witten. An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence: an Evolving Synergy. AAAI Press,2008: 25-30.

[12] P Ogilvie,J Callan. Combining document representations for known-item search[C]//Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval,SIGIR ’03. NewYork,NY,USA: ACM,2003: 143-150.

[13] P Ogilvie,J Callan. Hierarchical language models for XML component retrieval[C]//Proceedings of the 3rd International Conference on Initiative for the Evaluation of XML Retrieval,INEX’04. Berlin,Heidelberg: Springer-Verlag,2005: 224-237.

[14] J Kim,X Xue,W B Croft. A probabilistic retrieval model for semi-structured data[C]//Proceedings of the 31th European Conference on IR Research on Advances in Information Retrieval,ECIR ’09. Berlin,Heidelberg: Springer-Verlag,2009: 228-239.

[15] R Neumayer,K Balog,K Nrvåg. On the modeling of entities for ad-hoc entity search in the web of data[C]//Proceedings of the 34th European conference on Advances in Information Retrieval,ECIR’12. Berlin,Heidelberg: Springer-Verlag,2012: 133-145.

[16] X Han,J Zhao. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,ACL ’10. Stroudsburg,PA,USA: Association for Computational Linguistics,2010: 50-59.

[17] Davis A Veloso,A S da Silva,W Meira,et al. Named entity disambiguation in streaming data[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1,ACL ’12. Stroudsburg,PA,USA: Association for Computational Linguistics,2012: 815-824.

[18] D Milne,I H Witten. Learning to link with Wikipedia[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,CIKM’08. New York,NY,USA: ACM,2008: 509-518.

Entity Relatedness Calculation Based on Fact Knowledge

SUN Shuqi1, SUN Ke2, ZHAO Shiqi2, LI Sheng1, WANG Haifeng2, YANG Muyun1

(1. School of Computer Science and Technology,Harbin Institute of Technology, Harbin, Heilongjiang 150001, China;2. Baidu, Beijing 100085, China)

In the emerging entity-oriented search service, an accurate prediction of the relatedness between entities is essential. This paper proposes an approach to compute entity relatedness based on entities’ fact knowledge, i.e., subject-property-object (SPO) records. We adopt a two-step estimation based on property and object, mapping an entity to a discrete distribution of the object words, and obtained two entities’ relatedness by comparing the object words they share. On the related entity re-ranking problem in entity-oriented search, experimental results showed that our approach achieves 80.9% top-5 precision on average, outperforming the bag-of-words and query log co-occurrence based approaches. We also conducted quantitative analysis to find out how user demand in different domains affects the relatedness computation.

Entity relatedness,subject-property-object(SPO)record,user demand,entity-oriented search

孙叔琦(1985—)，博士研究生，主要研究领域为信息抽取、文本挖掘。E⁃mail：sqsun@mtlab．hit．edu．cn孙珂(1982—)，博士，主要研究领域为自然语言处理。E⁃mail：sunke@baidu．com赵世奇(1981—)，博士，主要研究领域为自然语言处理。E⁃mail：zhaoshiqi@baidu．com

2014-07-28 定稿日期： 2014-12-20

国家自然科学基金项目(61272384,61370170,61105072)

1003-0077(2016)03-0178-09

TP391