基于惩罚似然优化模型的本体稀疏向量计算算法*

2015-05-02兰美辉

云南师范大学学报（自然科学版） 2015年4期

关键词：植物学本体准确率

兰美辉

(曲靖师范学院计算机科学与工程学院,云南曲靖 655011)

基于惩罚似然优化模型的本体稀疏向量计算算法*

兰美辉

(曲靖师范学院计算机科学与工程学院,云南曲靖 655011)

通过稀疏向量的学习来得到本体函数，利用方向导数计算来得到惩罚似然优化模型的最优解，进而得到本体稀疏向量.将该算法应用于植物学领域PO本体和仿生机器人领域本体，同时将实验结果与已有算法的结果作对比，结果表明本算法对植物学领域的相似度计算和仿生机器人领域本体映射的建立有较高的效率.

本体;相似度计算;本体映射;稀疏向量

1 引言

本体作为结构化概念共享、存储模型，越来越受到学者的重视，并成为计算机领域近年来研究的热点问题之一.本体概念模型可用图结构来表示，其顶点代表一个概念，边代表概念之间的直接从属关系.正则化学习模型被广泛应用于本体概念的相似度计算和本体映射的构建[1-4].除正则化模型外的其他本体学习算法可参考文献[5-8].

本文通过惩罚似然优化模型的求解得到本体稀疏向量，然后利用本体稀疏向量来表示本体函数，进而通过本体函数来计算顶点对应实数在数轴上的距离，最后确定它们之间的相似度.实验数据的对比说明本文算法对于植物学领域本体相似度计算和仿生机器人领域本体映射的构建有较高的效率.

2 新算法描述

对本体图中的每个顶点，它代表一个概念，将该概念的名称、属性、结构、语义等信息用一个p维向量来表示.设v={v1,…,vp}是顶点v对应的向量.为了方便表示，用v来同时表示顶点以及对应的向量.本体学习算法的目标是得到最优本体(得分)函数f:V→,顶点对应概念之间的相似度通过顶点对应实数在数轴上的距离来衡量.此类算法的本质是降维，用一维向量来表示p维向量，即所要学习的本体函数f是一个降维函数f:p→.

在实际应用中，本体函数可通过稀疏向量作如下表示：

(1)

其中β=(β1,…,βp)T是稀疏向量，它的特点是大部分分量为0或者大部分分量对于剩余小部分分量而言，值非常的小；δ是噪声项.从而，本体函数的学习就归结为稀疏向量的学习.设稀疏向量β∈p的支集为supp(β)={i:βi≠0}，且设一种学习β的模型为：

(2)

其中Q(β)为亏损项，它表示Vβ和y的接近程度.这里V∈n×p是数据矩阵，y∈n是目标向量，它由领域专家给出，反映通过本体函数f期望得到的目标值.Q(β)的一类常见取法为：限制条件‖β‖0≤s用来控制向量β的稀疏度.

与本体稀疏向量一般学习框架不同，本文利用惩罚似然优化模型(penalized likelihood optimization)来得到向量β：

(3)

其中l(β)表示对数似然，λ1是协调参数用于协调本体向量β的稀疏性.更进一步，惩罚似然优化模型可如下表示：

(4)

记

一般地，可设l(β)是一个二次可导凹函数.对任意点β，在每个方向x∈p(满足‖x‖=1)上的方向导数为

3 实验

将得到的本体稀疏向量计算算法应用于植物学本体和仿生机器人本体，来验证算法是否有效.

3.1 本体相似度计算实验

第一个实验是采用http: //www.plantontology.org网站构建的植物学PO本体O1(其结构可参考图1)来验证算法的效率.植物学PO本体的结构为树形，所有顶点被分成两个大分支.除本文算法外，还将一般本体排序算法[9]、快速排序算法[10]和基于NDCG测度计算的本体算法[11]分别作用于植物学PO本体.用P@N[12]平均准确率来衡量实验结果的好坏.将这三种算法得到的P@N准确率与本文算法得到的P@N准确率进行对比，当N=3、5、10时的数据如表1所示.

图1 PO本体O1

表1 实验1部分数据

Table1Dataofexpriment1(N=3,5,10)

算法名称P@3平均准确率P@5平均准确率P@10平均准确率本文算法50．29%68．91%74．63%一般排序算法45．49%51．17%58．59%快速排序算法42．82%48．49%56．32%NDCG本体算法48．31%56．35%68．71%

由表1可知，本文本体函数计算算法对于植物学PO本体的效率明显高于其他三类算法.

3.2 本体映射实验

第二个实验是采用下面两个“仿生机器人”本体O2和O3来验证本文本体函数习算法的效率.除了本文算法外，将k-部排序本体算法[13]、基于NDCG测度计算的本体算法[11]和基于超图调和分析的本体算法[14]分别作用于“仿生机器人”本体，然后将这三种算法得到的P@N准确率与本文算法得到的P@N准确率进行比较，当N=1、3、5时的数据如表2所示.

图2 “仿生机器人”本体O2

图3 “仿生机器人”本体O3

表2 实验2部分数据

Table2Dataofexperiment2(N=1,3,5)

算法名称P@1平均准确率P@3平均准确率P@5平均准确率本文算法27．78%53．70%78．89%k⁃部排序本体算法27．78%48．15%54．44%NDCG本体算法22．22%40．74%48．89%调和分析本体算法27．78%46．30%53．33%

通过表2准确率数据对比可知：本文本体函数学习算法在“仿生机器人”本体O2和O3间建立本体映射的效率明显高于其他三类算法.

4 结束语

本文通过方向导数的计算得到惩罚似然优化模型的最优解从而求得本体稀疏向量，进而通过本体稀疏向量来得到本体函数，最后通过本体函数来得到顶点对应概念之间的相似度.实验数据表明，该方法对于植物学领域的相似度计算和仿生机器人领域的本体映射构建是有效的.

[1] 高炜,梁立.基于超图正则化模型的本体概念相似度计算[J].微电子学与计算机,2011,28(5):15-17.

[2] 高炜,朱林立,梁立.基于图正则化模型的本体映射算法[J].西南大学学报:自然科学版,2012,34(3):118-121.

[3] 朱林立，吴访升，叶飞跃，等.有噪条件下基于正则化模型的本体学习算法[J].西北师范大学学报：自然科学版，2014,50(6):41-45.

[4] 朱林立，戴国洪，高炜.正则化框架下半监督本体算法[J].微电子学与计算机，2014,31(3):126-129.

[5] 兰美辉,高炜.基于变换模型的本体相似度计算与本体映射[J].曲靖师范学院学报，2011,30(6):52-55.

[6] 兰美辉,高炜.基于k-部排序学习方法的本体映射算法[J].苏州科技学院学报：自然科学版，2012,29(2):60-62.

[7] 兰美辉,徐坚,高炜.基于primalRankRLS方法的本体映射算法[J].云南师范大学学报：自然科学版，2014,34(3):37-40.

[8] 兰美辉,徐坚,高炜.基于优先图的本体相似度计算[J].科学技术与工程，2014,14(28):252-255.

[9]WANGY,GAOW,ZHANGY,etal.OntologysimilaritycomputationuserankinglearningMethod[C].The3rdInternationalConferenceonComputationalIntelligenceandIndustrialApplication,Wuhan,China,2010:20-22.

[10]HUANGX,XUT,GAOW,etal.OntologySimilarityMeasureandOntologyMappingViaFastRankingMethod[J].InternationalJournalofAppliedPhysicsandMathematics,2011,1(1):54-59.

[11]GAOW,LIANGL.OntologysimilaritymeasurebyoptimizingNDCGmeasureandapplicationinphysicseducation[J].FutureCommunication,Computing,ControlandManagement,2011,142:415-421.

[12]CRASWELLN,HAWKINGD.OverviewoftheTREC2003webtrack[C].ProceedingsoftheTwelfthTextRetrievalConference.Gaithersburg,Maryland,NISTSpecialPublication,2003:78-92.

[13]兰美辉,任友俊,徐坚,等.k-部排序本体相似度计算[J].计算机应用，2012,32(4):1094-1096.

[14]GAOW,GAOY,LIANGL.Diffusionandharmonicanalysisonhypergraphandapplicationinontologysimilaritymeasureandontologymapping[J].JournalofChemicalandPharmaceuticalResearch，2013,5(9):592-598.

Computation Algorithm for Ontology Sparse Vector Based on Penalized Likelihood Optimization

LAN Mei-hui

(Department of Computer Science and Engineering,Qujing Normal University,Qujing 655011,China)

In this paper,the ontology function is obtained in terms of sparse vector learning.The optimal sparse vector is yielded via penalized likelihood optimization based on directional derivative computation.The algorithm is applied to the Go ontology in plant field and humanoid robotics ontologies, and the results by our algorithm are compared with results by previous algorithms.It shows that the new algorithm has higher efficiency for calculating the similarity in plant field and establishing the ontology mappings in humanoid robotics application.

Ontology; Similarity measure; Ontology mapping; Sparse vector

2015-05-31

国家自然科学基金资助项目(61262071)；云南省教育厅科学研究基金资助项目(2014C131Y).

兰美辉(1982-),女,云南宜良人,硕士,讲师,主要从事信息检索、机器学习、人工智能方面研究.E-mail: lanmeihui97@163.com.

兰美辉.

TP393.092

1007-9793(2015)04-0051-05