APP下载

一种基于中文Deep Web的属性相似度计算方法

2014-12-30高华玲

科技创新导报 2014年32期
关键词:相似度模式匹配

高华玲

摘  要:随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。

关键词:深网  模式匹配  相似度  属性相似度

中图分类号:TP301.6 文献标识码:A 文章编号:1674-098X(2014)11(b)-0058-02

A Calculation Method of Attribute Similarity based on Deep Web in Chinese

Gao Hualing

(Computer Public Education Department, SanYa University,SanYa,Hainan,572022,China)

Abstract:With the increasing amount of the Chinese website, Deep Web information integration in Chinese has become the focus of the net information field. The Attribute similarity computation is a key step of schema matching in Deep Web information integration. In this passage ,According to the characteristics of Chinese query interface attribute vocabulary which often shows of 1-3 words to form phrases, provides a more effective attribute similarity calculating method based on the “HowNet”, in this way, the attribute matching accuracy has been greatly improved.

Key Words:Deep Web; Schema matching; Similarity; Attribute similarity

1 问题的提出

随着中文Deep Web信息数据量的急速增长,如何利用中文语言的特点做好Deep Web信息集成已成为这一领域的研究热点。

Deep Web信息集成基本过程可分为三个模块:第一,Deep web查询接口的发现、分类和模式抽取等;第二,接口集成、查询处理和数据库选择等;第三,查询结果抽取和标注、合并、去重等。中国人民大学信息学院孟小峰教授对不确定的查询接口的模式匹配[1]做了深入研究,提出了中文属性相似度的定义和计算方法。

在中文Deep Web查询接口中,常常涉及的属性匹配是1~3个词汇构成的中文短语之间的匹配,如果沿用英文接口的属性匹配方法进行计算将出现明显的误差。例如文献[2][3]的属性相似度计算方法:对于两个属性A1和A2,如果A1可划分成n个词语:A11,A12,…,A1n,A2可划分成m个词语: A21,A22,…,A2n,则A1和A2的相似度是各个词语的相似度之最大值,即

当两个短语中都包含同一个词语“城市”,属性相似度为所有词语相似度的最大值,得到“出发城市”和“到达城市”的相似度相等且等于1,即认为“出发城市”和“到达城市”两个属性短语语义一致,这样无法对此类属性短语做出准确的语义相似度计算结果。该文考虑到查询接口属性词大多以1~3个词语构成的短语形式出现,故提出了一种新的属性语义相似度计算公式,大大提高了属性相似度计算的准确度。

2 中文Deep Web查询接口属性相似度

2.1 方法的提出

义原和义项是HowNet中两个最主要的概念。义原是用来描述一个义项的最小意义单位,一个词语可以表达为几个义项。本文计算两个词语之间的语义相似度,采用基于《知网》的中文词汇语义相似度计算方法[4],这与文献[2][3]是相同的。

定义1:词语相似度:对于两个汉语词语,其中有m个义项:,有n个义项:,规定的相似度为各个义项相似度的最大值,也就是说:

定义2义项相似度:两个义项相似度记为:,其中是可调节的参数,且有:。

定义3 义原相似度:两个义原的相似度定义为两个义原之间的语义距离:,其中表示两个义原,d是在义原层次体系中的路径长度,是一个正整数。是一个可调节的参数。

该文将属性名的短语划分成若干词语,根据中文查询接口中属性的特征,提出这种属性相似度计算方法,此方法源自于2005年的一种文本相似度算法[5],但略有不同。

定义4 属性相似度:对于两个属性,可划分为m个词语:,可划分为n个词语:,令t=min(m,n),将各个词语之间的相似度排列成矩阵,得到一个m×n阶的矩阵:,记录矩阵中相似度值最大的一个,同时删除其值的所在行和列,然后再记录剩余矩阵中的相似度最大值,删除所在行和列,不断重复上述操作,直到矩阵为空。按照这样的方法取出的相似度的值为t个,规定的相似度为这t个词语相似度的平均值,表示为:

2.2 实例验证过程

将上述定义中的参数设定为常用参数,设定相似度阈值,其他参数取值为:,计算属性值A(出发城市)与B(起飞地),以及A(出发城市)与C(目的地)的相似度。endprint

第一步,计算词语相似度。

属性A“出发城市”,含两个词语:出发,城市;属性B“起飞地”,含有两个词语:起飞,地;属性C“目的地”,含有两个词语:目的,地。

“出发”有一个义项:V start|开始,content=leave|离开

“城市”有一个义项:N place|地方,city|市

“起飞”有一个义项:V start|开始,content=fly|飞

“地”有七个义项:1)N attribute|属性,circumstances|境况,&entity|实体2)N attribute|属性,scene|景象,&physical|物质3)N earth|大地,#weather|天象4)N land|陆地5)N land|陆地,#crop|庄稼6)N location|位置7)N place|地方

“目的”有一个义项:1)N purpose|目的

对于文献[1]中的示例“出发城市”和“起飞地”以及“出发城市”和“目的地”的属性匹配得到了较为合理的计算结果。如表1、表2:

第二步,计算属性相似度。

即属性A(出发城市)和属性B(起飞地)相似。,即属性A(出发城市)与属性C(目的地)不相似。

在对本文开始提出的“出发城市”和“到达城市”进行计算,结果如下:

,这里注意需要设定更为合理的阈值,一般要在0.5以上才能区分开具有相同词语的短语,具体的阈值需要大量数据实验总结出更为合理的值,这里使用阈值0.6即可区分“出发城市”和“到达城市”,这样可以得到更为合理准确的计算结果。

3 结语

该文对中文Deep Web信息集成中模式匹配关键问题——属性相似度的计算提出了一种更加有效的计算方法。该方法基于《知网》的词语相似度计算,同时考虑到中文Deep Web查询接口的属性特征,实验证明该方法应用在中文Deep Web查询接口的属性匹配中收到较好的效果,值得推广。

该文提出的属性相似度计算方法是模式匹配方法中的一种。中文Deep Web信息集成中模式匹配也可以考虑运用描述逻辑强大的知识表示能力进行属性匹配和实例匹配。

参考文献

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,贾琳琳,Deep Web集成服务的不确定模式匹配[J].计算机学报,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪辉,李石君,余伟,田建伟,基于语义的中文Deep Web查询接口集成[J].计算机科学,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范学峰,基于《知网》的中文Deep Web模式匹配算法研究[J].计算机应用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(刘群,李素建,基于《知网》的词汇语义相似度的计算[C]//第三届汉语词汇语义学研讨会,台北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005(2):291-297.endprint

第一步,计算词语相似度。

属性A“出发城市”,含两个词语:出发,城市;属性B“起飞地”,含有两个词语:起飞,地;属性C“目的地”,含有两个词语:目的,地。

“出发”有一个义项:V start|开始,content=leave|离开

“城市”有一个义项:N place|地方,city|市

“起飞”有一个义项:V start|开始,content=fly|飞

“地”有七个义项:1)N attribute|属性,circumstances|境况,&entity|实体2)N attribute|属性,scene|景象,&physical|物质3)N earth|大地,#weather|天象4)N land|陆地5)N land|陆地,#crop|庄稼6)N location|位置7)N place|地方

“目的”有一个义项:1)N purpose|目的

对于文献[1]中的示例“出发城市”和“起飞地”以及“出发城市”和“目的地”的属性匹配得到了较为合理的计算结果。如表1、表2:

第二步,计算属性相似度。

即属性A(出发城市)和属性B(起飞地)相似。,即属性A(出发城市)与属性C(目的地)不相似。

在对本文开始提出的“出发城市”和“到达城市”进行计算,结果如下:

,这里注意需要设定更为合理的阈值,一般要在0.5以上才能区分开具有相同词语的短语,具体的阈值需要大量数据实验总结出更为合理的值,这里使用阈值0.6即可区分“出发城市”和“到达城市”,这样可以得到更为合理准确的计算结果。

3 结语

该文对中文Deep Web信息集成中模式匹配关键问题——属性相似度的计算提出了一种更加有效的计算方法。该方法基于《知网》的词语相似度计算,同时考虑到中文Deep Web查询接口的属性特征,实验证明该方法应用在中文Deep Web查询接口的属性匹配中收到较好的效果,值得推广。

该文提出的属性相似度计算方法是模式匹配方法中的一种。中文Deep Web信息集成中模式匹配也可以考虑运用描述逻辑强大的知识表示能力进行属性匹配和实例匹配。

参考文献

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,贾琳琳,Deep Web集成服务的不确定模式匹配[J].计算机学报,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪辉,李石君,余伟,田建伟,基于语义的中文Deep Web查询接口集成[J].计算机科学,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范学峰,基于《知网》的中文Deep Web模式匹配算法研究[J].计算机应用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(刘群,李素建,基于《知网》的词汇语义相似度的计算[C]//第三届汉语词汇语义学研讨会,台北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005(2):291-297.endprint

第一步,计算词语相似度。

属性A“出发城市”,含两个词语:出发,城市;属性B“起飞地”,含有两个词语:起飞,地;属性C“目的地”,含有两个词语:目的,地。

“出发”有一个义项:V start|开始,content=leave|离开

“城市”有一个义项:N place|地方,city|市

“起飞”有一个义项:V start|开始,content=fly|飞

“地”有七个义项:1)N attribute|属性,circumstances|境况,&entity|实体2)N attribute|属性,scene|景象,&physical|物质3)N earth|大地,#weather|天象4)N land|陆地5)N land|陆地,#crop|庄稼6)N location|位置7)N place|地方

“目的”有一个义项:1)N purpose|目的

对于文献[1]中的示例“出发城市”和“起飞地”以及“出发城市”和“目的地”的属性匹配得到了较为合理的计算结果。如表1、表2:

第二步,计算属性相似度。

即属性A(出发城市)和属性B(起飞地)相似。,即属性A(出发城市)与属性C(目的地)不相似。

在对本文开始提出的“出发城市”和“到达城市”进行计算,结果如下:

,这里注意需要设定更为合理的阈值,一般要在0.5以上才能区分开具有相同词语的短语,具体的阈值需要大量数据实验总结出更为合理的值,这里使用阈值0.6即可区分“出发城市”和“到达城市”,这样可以得到更为合理准确的计算结果。

3 结语

该文对中文Deep Web信息集成中模式匹配关键问题——属性相似度的计算提出了一种更加有效的计算方法。该方法基于《知网》的词语相似度计算,同时考虑到中文Deep Web查询接口的属性特征,实验证明该方法应用在中文Deep Web查询接口的属性匹配中收到较好的效果,值得推广。

该文提出的属性相似度计算方法是模式匹配方法中的一种。中文Deep Web信息集成中模式匹配也可以考虑运用描述逻辑强大的知识表示能力进行属性匹配和实例匹配。

参考文献

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,贾琳琳,Deep Web集成服务的不确定模式匹配[J].计算机学报,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪辉,李石君,余伟,田建伟,基于语义的中文Deep Web查询接口集成[J].计算机科学,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范学峰,基于《知网》的中文Deep Web模式匹配算法研究[J].计算机应用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(刘群,李素建,基于《知网》的词汇语义相似度的计算[C]//第三届汉语词汇语义学研讨会,台北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005(2):291-297.endprint

猜你喜欢

相似度模式匹配
基于模式匹配的计算机网络入侵防御系统
具有间隙约束的模式匹配的研究进展
OIP-IOS运作与定价模式匹配的因素、机理、机制问题
改进的协同过滤推荐算法
模糊Petri网在油田开发设计领域的应用研究
基于散列函数的模式匹配算法