APP下载

基于复数空间内矩阵映射的知识表示方法

2023-01-31田应彪安敬民李冠宇

计算机工程与设计 2023年1期
关键词:三元组集上图谱

田应彪,安敬民,李冠宇

(大连海事大学 信息科学技术学院,辽宁 大连 116026)

0 引 言

知识图谱KG(knowledge graph)近年来得到了快速发展。一般以三元组 (h,r,t) 的形式表示知识图谱中的一条事实,其中h,t代表现实世界中的两个实体,r表示实体间存在的关系,例如(北京,位于,中国)。由于知识图谱语义及结构的复杂性,表示学习作为关键解决方法,将实体与关系的语义信息表示为稠密低维实值向量,以减少实体与关系的链接代价[1]。近年,RotatE[2]关注表示关系模式,被证明可以表示包括对称/反对称、可逆、组合等多种关系模式。然而,RotatE忽略了关系模式与复杂关系的紧耦合性,并不能同时能表示实体间一对一(1-1)、一对多(1-N)、多对一(N-1)及多对多(N-N)等复杂关系以及前述几种关系模式。如图1为YAGO以及WordNet中部分子图,isConnectedTo为对称关系,同时也为一个复杂关系,其连接的首尾实体数量为一对多。hypernym与hyponym为一对逆关系,复杂关系与关系模式紧密相关。

图1 关系模式与复杂关系间的紧耦合

考虑到关系模式以及复杂关系间的紧耦合性,本文提出了MMCS(knowledge representation using matrix mapping in complex space)方法。MMCS的优势如下:

不仅可以推断关系模式,包括对称模式、逆模以及组合模式,也可以建模1-N、N-1、N-N等复杂关系。与翻译方法表示在实数空间不同,MMCS表示在复数空间,且采用适用于复数的,以向量间元素积的形式对复数实体向量每一维进行映射以解决RotatE对复杂关系建模的不足。在基于Freebase、WordNet、YAGO知识图谱中抽取的4个通用数据集上进行链接预测实验,实验结果表明,MMCS优于大部分方法。

1 相关工作

DistMult为RESCAL的简化版,通过限制关系矩阵为对角矩阵,达到了减少参数的目的。但是由于这种方法的特性,其只能处理对称关系,显然这对于一般的知识图谱并不是十分适用[3]。HoLE[4]将实体和向量都表示在同一向量空间k。 由于循环相关运算符是不可交换的,HolE可对非对称关系建模,但不能建模逆关系。ComplEx[5]将嵌入向量定义在复数空间,ComplEx可处理对称、逆关系,但不能处理组合关系。

TransE将关系解释为低维空间内实体向量间的翻译操作,通过使头尾实体满足h+r≈t来捕获三元组的结构信息[6]。TransE在1-N、N-1、N-N关系建模上效果差,TransH将实体投影到与关系相关的超平面内,以此表示前面几种关系[7]。但TransH不能对逆关系以及组合关系建模。为建模知识图中存在的大量关系模式,研究人员提出了RotatE,通过将关系视为头尾实体间的旋转操作,RotatE可以更好建模对称关系、逆关系、组合关系[2],但没有考虑一对多、多对多等复杂关系。QuatE[8]使用四元数表示实体,将关系表示为四元数空间中的旋转,但仍无法建模复杂关系。

ConvE[9]引入卷积神经网络来表示实体以及关系向量表示。由于卷积网络设计特性,ConvE提取局部特征的效率高,但在同一维度上的全局特征可能会丢失,影响补全性能[10]。R-GCN[11]将图卷积神经网络应用于处理多关系数据的链接预测任务。然而,R-GCN没有考虑关系嵌入所具有的丰富语义信息,而VR-GCN[12]显示的对关系进行嵌入并且将当前节点附近的结构信息并融入到结点表示中,之后选择DisMult作为解码器输出。与图卷积神经网络不同的是MMCS是以单独的解码器的形式出现的,参数量少并可应用于图卷积神经网络的解码器。

我们注意到也有一些研究人员将路径[13,14]、实体类型[15,16]、文本和事实的联合嵌入[17-19]、本体[20]等辅助信息引入到传统方法中,取得了相对的提升。

相比于上述工作,本文旨在提出一种可以同时建模1-1、1-N、N-1与N-N等复杂关系以及建模对称、逆、组合等关系模式的方法,该方法可作为其它方法的基线方法。

2 方法介绍

在这部分我们先定义了一些符号,然后在第一小节与第2小节分别介绍了3种关系模式以及复杂关系的定义,其次在第3小节中给出提出MMCS的动机,最后在第4小节中阐述了MMCS的设计细节并说明其可表示复杂关系,验证了MMCS可建模关系模式。首先定义一些符号。本文用E表示知识图谱中实体的集合,R表示关系的集合。知识图谱中的三元组表示为 (h,r,t), 其中h,r,t分别代表三元组中的头实体、关系、尾实体,有h,t∈E,r∈R。 用黑体加粗的字母h,r,t代表他们在低维空间的向量表示,用 [h]i表示头实体的第i维,其中i≤k。 Δ, Δ′分别代表知识图中正确三元组集合以及错误三元组集合,即 (h,r,t)∈Δ表示 (h,r,t) 为正确三元组, (h,r,t)∈Δ′表示 (h,r,t) 为错误三元组。本文的一些符号见表1。

表1 重要符号及其表示

2.1 3种关系模式

知识图中主要存在3种关系模式,即对称、逆、组合关系。例如‘夫妻’和‘朋友’是两组对称关系,‘父亲’

是反对称关系,‘上位词’的逆关系是‘下位词’,‘父亲’与‘哥哥’的组合关系是‘伯父’。3种模式的定义如下:

定义1 对称/反对称关系

∀x,y∈E, (x,r,y)∈Δ⟹(y,r,x)∈Δ

(1)

∀x,y∈E, (x,r,y)∈Δ⟹(y,r,x)∈Δ′

(2)

则称关系r为对称、反对称关系。

定义2 逆关系

∀x,y∈E, (x,r1,y)∈Δ⟹(y,r2,x)∈Δ

(3)

则称关系r1与关系r2互为逆关系。

定义3 组合关系

∀x,y,z∈E, (x,r1,y)∈ΔΛ(y,r2,z)∈
Δ⟹(x,r3,z)∈Δ

(4)

则称关系r3为关系r1与r2的组合关系。

2.2 复杂关系

复杂关系可分为一对一,一对多,多对一以及多对多关系。对于每个关系r∈R, 计算r的每个头实体对应尾实体的平均数量tphr以及每个尾实体对应头实体的平均数量hptr。 若tphr<1.5且hptr<1.5, 则r为一对一关系;若tphr<1.5且hptr≥1.5, 则r为多对一关系;若tphr≥1.5且hptr<1.5则r为一对多关系;若tphr≥1.5且hptr≥1.5, 则r为多对多关系。

2.3 动 机

正如引言与相关工作所述的,现有的方法并不能同时表示复杂关系以及推断对称、逆、组合等关系模式。

图2 MMCS方法解释

我们发现相同的头(尾)实体和关系可能对应不同类型的尾(头)实体,例如在YAGO3-10中,有10 174个头实体满足(?,isLocatedIn,United_States),如图3所示,这些实体具有不同的类型,我们认为为不同的实体设置不同的映射矩阵可以更好的建模。

图3 三元组(?, Located,United_States)中不同的头实体可对应不同的类型

2.4 方法设计

在MMCS方法中,对于每个实体和关系,我们都定义两个位于不同空间的向量,第一个用于表示实体(关系)的语义,第二个用于构造映射矩阵。所以对于任意一个三元组 (h,r,t), 由6个向量表示,即h,r,t,hp,rp,tp, 下标p表示向量用于构造映射矩阵,其中h,r,t∈k,hp,rp,tp∈k,表示复数空间,表示实数空间,k为空间维度。我们将每个三元组的头实体和尾实体映射到与关系及其自身相关的空间,映射矩阵的定义如下

Mrh=diag(rp∘hp)+Ik×k

(5)

Mrt=diag(rp∘tp)+Ik×k

(6)

其中,diag表示将向量映射为对角阵,即对于向量v,若A=diag(v), 有Aj,j=vj; ∘代表向量间元素积,即 [rp∘hp]j=[rp]j·[hp]j, ·表示两数之积;I代表单位矩阵。可见头(尾)实体的映射矩阵要受到实体和关系的共同影响。头尾实体在映射空间的表示如下

h⊥=Mrhh

(7)

t⊥=Mrtt

(8)

其中,h⊥,t⊥∈k。 由于映射,我们期望同一关系所对应的不同的头(尾)实体在矩阵映射后可以改变复数向量的各维模长,然后具有相同的表示,即将实体间的多对多等复杂关系转换为一对一。然后我们定义关系r为映射得到的头实体到尾实体间的旋转,给定三元组 (h,r,t), 期望t⊥=h⊥∘r。 特别的,对于复数空间中的每个维度,t⊥j=h⊥jrj, 其中|rj|=1, 即为rj旋转子,有rj=eiθ=cosθ+isinθ。 距离函数定义如下

(9)

通过将关系视为复数空间内的旋转操作,MMCS可以建模和推断对称、组合、逆模式,证明如下:

证明1:MMCS可建模对称模式: ∃(x,r,y)∈Δ, (y,r,x)∈Δ, 则有

(10)

证明2:MMCS可建模逆模式: ∃(x,r1,y)∈Δ, (y,r2,x)∈Δ, 若r1p=r2p, 则有

(11)

证明3:MMCS可建模组合模式: ∃(x,r1,y)∈Δ, (y,r2,z)∈Δ, (x,r3,z)∈Δ若r1p=r2p=r3p, 则有

(12)

我们使用文献[15]中的自我对抗负采样作为损失函数,定义如下

(13)

其中,γ为固定的间隔,σ为sigmoid函数, (h′i,r,t′i)∈Δ′为第i个负样本。采样负样本的概率p定义如下

(14)

其中,α为采样调节系数,α≥0。 当α=0是均匀采样,α>0时,负样本得分越高的权重越大。

3 实验及分析

链接预测旨在根据知识图谱中已有的事实去预测知识图谱中缺失的实体或关系。例如,在三元组(北京,位于,?)中,尾实体‘中国’缺失。我们需要根据距离函数由低到高对知识图谱中所有实体排名,距离越小则排名越靠前,由此获得正确的头体。

3.1 数据集

本文在4个常用的数据集上进行评估。这些数据集的统计见表2。

表2 4个数据集统计信息

WN18是由Border等创建的词汇知识图WordNet的子集。WN18中的主要关系模式为对称和逆关系。

WN18RR是由Dettmers等筛除了反向关系模式创建的WN18数据集的子集。他们验证了利用简单的逆模型在WN18以及FB15K上都达到了先进的结果。其关系模式主要为对称、组合关系。

FB15k-237是Toutanova以及Chen在发现FB15k由于存在等价和逆关系而遭受测试泄露之后构建的。他们删除了FB15k中所有等价和逆关系,还确保训练集中连接的实体没有一个直接链接到验证和测试集中。其关系模式主要为对称、组合关系。

YAGO3-10也是由Dettmers等创建的,由至少各有10个关系的实体组成,包括123 182个实体和37个关系。Dettmers等用实验验证用逆模型在YAGO3-10测试效果很差,这意味着它不应该遭受和WN18和FB15k相同的测试泄露。

3.2 参数设置

我们使用Adam作为优化器。搜索的超参数范围如下:向量维度K∈{200,400,500,1000}, batch大小B∈{256,512,1024}, 负样本数量N∈{256,512,1024}, 采样调节系数α∈{0.5,1.0,3.0}, 学习率lr∈{0.00005,0.0001,0.0002}, 软间隔γ依据数据集不同分别调整。初始化关系向量r在0和2π间,实体及关系映射向量为1,在WN18以及WN18RR数据集上使用了正则化。最优超参数设置如下:在WN18上的最优参数为K=500,B=512,N=1024,γ=8,lr=0.0001,step=50000,25 000时下调学习率为初始学习率的1/10。在WN18RR上的最优参数为K=500,B=512,N=512,γ=4,lr=0.000 05,step=50000,25 000时下调学习率为初始学习率的1/10。在FB15k-237上的最优参数K=1000,B=512,N=256,γ=5,lr=0.000 05,step=50000,25 000时下调学习率为初始学习率的1/10。在YAGO3-10上的最优参数为K=400,B=512,N=400,γ=18,lr=0.0002,step=180000,60 000时下调学习率为初始学习率的1/5,120 000时为初始学习率的1/20。

3.3 评估指标

根据Bordes等的观点,在测试以及验证数据时我们用每个候选实体替换头部实体或尾部实体以创建候选三元组。然后我们按照得分降序排列候选三元组。我们使用Bordes等的“过滤”设置,即在排名时不考虑任何现有的有效三元组。我们选用通用的平均排名(MR),平均倒数排名(MRR)和命中次数(H@N,N∈{1,3,10}) 作为数据集的评估指标,它们的定义如式(15)~式(17)所示。其中q为测试集中单个三元组在预测头实体或尾实体中的排名,Q为q的集合。MR表示测试集中所有三元组预测排名的平均值,MRR为排名倒数的平均值,H@N表示每个三元组预测实体时正确实体排在前N个位置的比例。MR越低,MRR越高,H@N越高代表算法预测的实体越准确,链接预测的结果越好

(15)

(16)

(17)

3.4 实验结果及分析

我们将MMCS与现有的性能先进的方法进行比较,包括TransE、DistMult、ComplEx[5]、ConvE[11]、ConvKB[21]、R-GCN[11]、VR-GCN[12]、RotatE[2]。TransE、RotatE属于几何方法,DistMult与ComplEx属于张量分解方法,ConvE与 ConvKB属于卷积神经网络方法,R-GCN与VR-GCN属于图卷积神经网络方法。TransE及DisMult的结果源自文献[2]。实验结果见表3和表4。

从表3和表4可以看出,与其它方法相比,MMCS由于同时建模复杂关系以及多种关系模式,在数据集YAGO3-10、WN18RR和WN18上获得最好的MR、MRR,最高的Hit@1 Hit@3和Hit@10。①在YAGO3-10数据集上MMCS 的MR比RotatE提升18%,MRR提升4.7%,H@1提升5.4%,H@3提升4.6%,H@10提升2.9%;在WN18RR数据集上MMCS的MR提升40.7%,H@3提升1.4%;在WN18数据集上MMCS的MR提升13.6%。MMCS在FB15k-237上与RotatE表现相近,我们认为是FB15k-237数据集相较其它数据集稀疏,导致映射矩阵建模效果不明显。ConvKB属于卷积神经网络方法,神经网络不可解释。②RotatE表示能力优于TransE、DistMult、ComplEx等,其原因在于RotatE可以建模对称、逆、组合关系模式,而TransE不能建模对称关系,DistMult不能建模逆关系,ComplEx不能建模组合关系。

表3 YAGO3-10及WN18RR数据集上不同方法链接预测结果

表4 FB15k-237及WN18数据集上不同方法链接预测结果

与RotatE相比MMCS在YAGO3-10数据集上实现了很大的提升。我们认为这是由于RotatE相比MMCS能更好地建模一对多、多对多关系模式。我们按2.2小节中复杂关系分类的方法分析了YAGO3-10中各元组所属复杂关系的比例,表5为在测试集中的比例。可以看到YAGO3-10测试集中N-N关系所占比例很大,占85.8%。仅有0.6%的1-1关系,1-N与N-1占比13.6%。为了确认MMCS在YAGO3-10上的提升源于对复杂关系的处理能力,我们测试了MMCS在YAGO3-10上4种类别的预测头/尾实体的MRR、Hits@1、Hits@3和Hits@10得分,见表6、表7,表中单元格左部为RotatE测试结果,右部为MMCS测试结果。RotatE与MMCS在处理1-1预测的头部和尾部预测性能相仿。在处理1-N以及N-1预测时大部分指标相近,而在处理N-N类型的预测,MMCS表现更好,实验结果表明MMCS更能处理复杂关系。

表5 YAGO3-10测试集中各元组的所属复杂关系类别

表6 RotatE与MMCS在YAGO3-10测试集上预测头实体结果

表7 RotatE与MMCS在YAGO3-10测试集上预测尾实体结果

MMCS方法中的每个关系rj有rj=eiθ=cosθj+isinθj, 为了直观表示MMCS能隐含推理关系模式,我们忽略关系向量各维嵌入的具体位置,将关系的每一维限制到 [-π,π], 绘制关系嵌入中每个元素的相位直方图,横坐标表示相位。

对称模式:对称模式要求对于关系r有r∘r=1, 则有 [r]i=±1, 即每一维应取值于集合 {-π,0,π} 中。将WN18中训练得到的similar_to 与verb_group关系(两个关系均为对称关系)每一维用直方图统计,结果如图4(a)、图4(b)所示。表明MMCS可建模对称关系模式。

逆模式:逆模式要求对于关系r1及关系r2有r1=r2-1, 即r1、r2互为共轭复数。我们将训练后WN18中互为逆关系的hypernym与hyponym的每一维分别统计,将两者得到的向量相加并限制其在 [-π,π] 间,得到图4(c),hypernym与hyponym的向量分布如图4(d)、图4(e)所示,可知,两者具有很好的对称性。相加后的向量集中在0附近。表明MMCS可建模逆关系模式。

组合模式:组合模式要求对于关系r1,r2,r3,r1∘r2=r3。 我们将FB15k-237中训练得到的3个关/award/award_nominee/award_nominations./award0/award_nomination/nominated_for(for1),/award/award_category/winners./award/aw-ard_honor/award_winner(winner),/award/award_category/nominees./award/award_nomination/nomininated_for(for2)的每一维用直方图分别统计,如图4(f)、图4(g)、图4(h)所示,将for1与winner关系相加减去for2关系得到的向量限制在 [-π,π] 间,得到图4(i),相加后的向量集中在0附近,表明MMCS可建模组合关系模式。

图4 关系向量各维直方图分布统计

4 结束语

为了同时建模1-1、1-N,N-1,N-N复杂关系以及推断对称、可逆、组合等关系模式,本文提出了MMCS方法,考虑到知识图中头(尾)实体和关系对应的尾(头)实体的类型不同,将实体映射到不同的复数空间。在N-N关系占比最高的YAGO3-10测试集上测试,实验结果表明MMCS对复杂关系建模更有效。我们对训练得到的关系向量的各维数据进行统计,得到与分析相近的结果,表明MMCS能很好的建模关系模式。MMCS相比其它方法效果更好,可应用于知识图谱补全能等相关任务中。在今后的研究中,我们考虑联合知识图谱本体与类型信息改进MMCS,将其引入到路径查询、规则挖掘等任务中。

猜你喜欢

三元组集上图谱
特征标三元组的本原诱导子
绘一张成长图谱
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
分形集上的Ostrowski型不等式和Ostrowski-Grüss型不等式
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
三元组辐射场的建模与仿真