APP下载

基于语义相似度的领域知识推荐研究

2013-09-28李燕妮李海生

复杂系统与复杂性科学 2013年3期
关键词:短句信息内容短文

李燕妮,李海生,蔡 强

(北京工商大学计算机与信息工程学院,北京 100048)

基于语义相似度的领域知识推荐研究

李燕妮,李海生,蔡 强

(北京工商大学计算机与信息工程学院,北京 100048)

提出一种基于语义的领域知识推荐方法,通过判断用户输入类型,分别进行概念相似度和短句相似度的计算。其中概念相似度计算是通过计算概念的信息内容值进行的,短句相似度计算分为语义相似度和句法结构相似度。实验结果表明,该方法有效地对用户的查询请求进行概念扩充,提高了搜索的查全率与查准率。

信息内容;相似度;语义;知识推荐

0 引言

知识在人们的生活和工作中发挥着巨大的作用。随着互联网的进一步发展,知识传播更新的速度也会越来越快。通过搜索引擎从互联网获取所需信息的方式,显然不符合人类的习惯。研究显示,用户查询经常含有歧义或意图不清,这导致用户经常搜索失败[1]。查询推荐是一种能够有效提高用户搜索体验的信息检索交互技术[2],目的在于推测用户多种可能的意图。推荐查询应该尽量涵盖各种可能的查询,因此召回率就显得更为重要[3]。生活中的实际问题大都来自于特定的领域,因此领域知识与领域智能的应用在实现知识推送中也就非常重要,而且领域知识的划分也可以提高知识推送的精度。

与传统依赖关键词的推荐相比,领域信息推荐是根据用户提交的领域关键字或短句,再结合具体领域本体进行推荐,而不是简单地按字面意思匹配,具有更高的查准率与查全率。其中,概念的相似度计算决定了语义匹配的精确度,是语义推荐的基础,所以提高概念相似度计算的精确度成为本体应用的关键。

本文结合WordNet[4]词典本身结构,综合考虑概念在分类树中的子节点信息、深度信息、公共父节点信息,提出了一个新的基于信息内容的概念语义相似度算法,这种基于WordNet本身结构的求解方法不需要其他语料库的参与,简单易行。在此基础上,对句子结构进行分析,通过语义相似度与结构相似度计算句子相似度。最后本文利用WordNet词典及专家知识,构建了旅游领域本体,对实验结果的统计分析表明,该方法更好地满足了用户的检索需求。

1 信息内容计算

根据信息理论中的定义,信息内容表示为-logP(c),含义是一个概念的出现的概率越大,则该概念的自信息量就越小[5]。

概念信息内容的精确与否直接影响到概念间相似度的比较。经过分析,本文认为影响概念信息内容及概念间相似度的因素有:

1)被比较概念在本体树中的深度。概念深度越小,出现频率越高,越抽象,所涵盖的信息内容越少。底层概念间的语义相似度一般大于高层概念间的相似度。

2)被比较概念在本体树中所在簇[6]的密度。簇中概念节点越多,密度越大,说明对该簇根节点概念的细化程度越大,所对应的子节点的信息内容就越大,相似度越高。

3)被比较概念最近祖先节点(Least Common Subsumer,LCS)的信息内容。在密度、深度及路径长度相同的情况下,被比较概念最近祖先节点的信息内容越大,概念的信息内容也就越大。

基于以上分析,提出了基于信息内容特征参数求解的新模型:

其中,Cnode_max为概念c所在簇的概念节点总个数,Tnode_max为本体树所有概念节点的个数,AIC为概念c最近公共祖先节点的IC值,Hnode为概念c最近祖先节点拥有的与c深度相同的子节点个数,hypo(c)为概念c的所有子节点,depth(c)为概念c的深度,Tdepth_max为本体树的最大深度。

式(1)的分母把信息内容值约束在[0,1]之间,本体树中顶层概念节点信息内容值为0,底层概念节点信息内容值为1,如此规律递增。概念节点越向上,说明概念出现的频率越高,所包含的信息内容越少,反之亦然。同样,概念节点所包含的子节点越多,则出现的频率越高,涵盖的信息内容也少。在深度、密度、子节点数都相同的情况下,如果父节点的信息内容值越大,则子节点的信息内容值也越大。

2 短句相似度计算

目前基于相关词汇的算法在长文本的语义匹配方面取得了不错的效果,然而在短句相似度方面,由于简单的几个词汇不足以完全概括短文的意思,因此传统的计算方法就失去了意义[7]。本文通过采用对短文进行分词,分别从词汇相似度和句子的句法结构两方面来计算短文的相似度。词汇相似度计算的是将词汇按照一定的顺序组成向量,分别计算词汇之间的语义相似度,然后运用余弦公式计算两个句子的语义相似度[8];句法结构是将词汇按照句子的顺序组成向量,计算句子间结构之间的相似度。最终短文相似度算法模型通过采用加权的算法综合两方面的因素去计算所得的最终短句相似度值,具体如图1所示。

2.1 语义相似度计算

1)给定两个短句S1和S2,短句所包含的词语构成联合集S,并将此联合集定义为语义词汇向量。

2)如果这个语义词汇向量中存在的词汇,在短文S1中存在,则在此位置上S1的语义向量取值为1;如果在S1中不存在语义词汇向量中包含的词汇,则在S1的语义向量上计算此词汇与S1中所有的词汇之间的相似度,取最大值。

然后利用余弦算法计算两篇短文的相似度:

图1 短句相似度计算Fig.1 Short sentences semantic similarity

其中,wk,d1为词汇Wk在向量d1中的权重,计算所得的值越大,表明两篇短文越相似。

2.2 句法结构相似度计算

给定两个句子:

两个句子中的词汇组成集合:

分别对每个句子中的词汇顺序进行标注,以S1中的词汇顺序为参照,可以得到:

然后通过句法结构计算公式可得到S1与S2两个句子句法结构的相似度:

2.3 短句相似度计算

最后本文的短文相似度算法模型通过采用加权的算法综合两方面的因素去计算所得的最终短文相似度值:

3 基于语义相似度的知识推荐

推荐知识主要是依据用户输入的关键词或短句进行的。在推荐过程中,通过对用户提交的关键字的理解,以此作为推荐的依据,结合领域本体,通过计算本体树中概念之间的相似度,找出该词的同义词、近义词,达到概念扩充的目的。从而选出与概念相关的文档,并推荐给用户。同时,如果用户输入的是短句形式,可对该短句进行预处理后计算该短句与库中短句间的语义相似度和句法结构相似度,设定相似度阈值并进行相应的推荐。

流程图如图2所示,首先判断用户输入是概念或短句。若为概念,在领域本体中进行查找,如果关该键字不存在于本体中,计算该关键字与领域本体中其它概念的相似度,计算出相似度后,取相似度大于某一阈值的概念,得到一组扩展概念集合,计算关键字与这一组扩展概念的相似度,根据相似度大小把知识推荐给用户。同理,若用户输入为短句,先在库中查找有无此短句,没有再计算该短句与库中短句间的语义相似度及结构相似度,最后根据相似度值进行推荐。

图2 推荐流程图Fig.2 Recommendation process

4 实验结果与分析

在验证知识推荐时,本文的实验数据采用旅游领域100篇文章,抽取其主题,并用Stanford parser[9]解析成概念集合;在计算用户关键字与概念结合的相似度时,构建了旅游领域本体,如图3所示。依据旅游本体扩展后的概念相似度大于设定阈值的文章推荐给用户,同时,主题与用户输入短句相似度大于阈值的文章也进行推荐。这里用查全率和查准率来判定推荐结果(见表1)。

图3 旅游本体片段Fig.3 Travel ontology

实验结果表明,本文基于信息内容特征参数的领域知识推荐方法获得了比较高的查全率和查准率,提高了检索结果与用户需求的相关性,进而提高了用户的满意度。

表1 推荐结果比较Tab.1 Recommendation results comparison

5 结论

Internet越来越重视用户的个性化需求,在基于关键字的知识推荐中,关键字是被孤立的,仅仅靠用户输入的关键字并不能很好地表达用户的真正需求。利用本体进行语义扩展,能够很好地描述概念与概念之间、短句与短句之间的关系。在计算概念间的语义相似度中,本文结合一些经典的基于领域本体的语义相似度计算方法,在此基础上将概念所处于树中最近公共祖先节点、簇中同深度的节点数等纳入模型当中,使得概念的信息内容值和概念间相似度更为精确,从而也就使得检索结果更能满足用户需求。

[1]Song R,Luo Z,Wen J R,et al.Identifying ambiguous queries in web search[C]//Proceedings of the 16th International World Wide Web Conference(WWW2007).Banff,Alberta,Canada:ACM,2007:1169-1170.

[2]Huang C K,Chien L F,Oyang Y J.Relevant term suggestion in interactive web search based on contextual information in query session logs[J].Journal of the American Society for Information Science and Technology,2003,54(7):638-649.

[3]李亚楠,王斌,李锦涛,等.给互联网建立索引:基于词关系网络的智能查询推荐[J].软件学报,2011,22(8):1771-1784.

Li Ya’nan,Wang Bin,Li Jintao,et al.Indexing the world wide web:intelligent query suggestion based on term relation network[J].Journal of Software,2011,22(8):1771-1784.

[4]Princeton University.Wordnet:a lexical datebase for English[DB/OL].[2011-10-10].http://wordnet.princeton.edu/.

[5]Resnik P.Using information content to evaluate semantic similarity in a taxonomy[DB/OL].[2012-11-10].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.5277.

[6]Gómez-Pérez A,Fernández-López M,Corcho O.Ontological Engineering[M].2nd ed.Berlin:Springer-Verlag,2004.

[7]李海生.知识管理技术与应用[M].北京:北京邮电大学出版社,2012.

[8]Tian Y,Li H SH,Cai Q,et al.Measuring the similarity of short texts by word similarity and tree kernels[DB/OL].[2012-11-10].http://d.wanfangdata.com.cn/Conference_WFHYXW442849.aspx.

[9]The Stanford Natural Language Processing Group.The Stanford parser:a statistical parser[DB/OL].[2012-10-10].http://nlp.stanford.edu/software/lex-parser.shtml.

Research on Knowledge Recommendation for Domain Ontology Based on Semantic Similarity

LI Yan-ni,LI Hai-sheng,CAI Qiang
(College of Computer and Information Engineering,Technology and Business University,Beijing 100048,China)

With the explosive growth of web resource,it is difficult for keyword-based knowledge recommendation to meet the professional needs of users.In this paper,a knowledge recommandation calculation algorithm based on semantic similarity method is proposed.According to the style of user’s input,we calculate similarity of concepts based on information content and similarity of sentences based on semantic similarity and structure similarity.Experiment results show that the user’s inquiry request has been expanded its concept effectively,and the recall and accuracy of retrieval have been improved obviously.

information content;similarity;semantic;knowledge recommendation

TP391.1

A

1672-3813(2013)03-0050-05

2012-12-04

北京市教委科技发展计划面上项目(KM200910011007);北京市属高等学校人才强教计划资助项目(PHR201108075)

李燕妮(1986-),女,山东潍坊人,硕士研究生,主要研究方向为本体与知识管理。

李海生(1974-),男,山东宁津人,博士,教授,主要研究方向为本体与知识管理,可视化。

(责任编辑 李进)

猜你喜欢

短句信息内容短文
短句,让表达更丰富
浅析知识仓库及其在企业管理中的应用
信源、信息内容、情绪特征对微博转发的影响探究
论《网络信息内容生态治理规定》的创新与完善
短句—副词+谓语
短句—谓语+宾语
KEYS
Keys
微信公众平台推送信息内容对顾客品牌忠诚的影响
短文改错