APP下载

模糊本体构建的概念距离聚类方法

2012-11-30李慧琳李冠宇

计算机工程与设计 2012年4期
关键词:模糊集本体聚类

李慧琳,刘 宁,李冠宇

(大连海事大学 信息科学技术学院,辽宁 大连116026)

0 引 言

本体是共享概念模型的明确的形式化规范说明,表示的是精确性概念及其之间的确定性关系[1]。模糊本体(Fuzzy Ontology)是对通常意义本体的扩展,表示的是模糊概念及其之间的模糊关系[2]。针对现实世界中的不确定性,模糊本体是有效处理和表示不确定信息和知识的基础性工具。因此,如何构建模糊本体成为亟待解决的问题。

关于模糊本体的构建,目前在国内外已有一些方法。模糊本体是模糊集理论 (L.A.Zadeh,1965)[3]和本体理论(T.Gruber,1993)[4]相结合的产物。除了最基本的手工构造模糊本体的方法外,其构建思路可总结为以下两种[2]:基于模糊集理论和基于现有本体的构建方法。本文在现有本体构建方法的基础上,结合模糊集理论,提出模糊本体构建的概念距离聚类生成方法,其中心思想是:首先应用模糊集理论从实际领域的信息源中抽取模糊概念及模糊关系以构建出一个模糊概念格,然后在其上应用概念距离聚类方法得到模糊概念层次,最终将模糊概念层次映射得到模糊本体。通过具体的构建实例,验证了该构建方法的可用性和有效性。

1 模糊本体

本体是共享概念模型的明确的形式化说明。本体可用三元组O= (C,P,R)表示之。其中,C为概念集,P为属性集,R为概念之间的关系[5]。

模糊本体是用于描述和表示不确定信息的一类本体,由模糊概念和模糊关系组成。模糊本体也可用三元组表示O= (Cf,P,Rf)表示,其中Cf为模糊概念集,P为属性集,Rf为模糊概念集与属性集之间的笛卡尔积[6]。

模糊概念[7]可表示为Cf= (o1d1,o2d2,…,ondn),其中oi是对象,di是oi隶属于Cf的隶属度。那么,对象oi属于概念Cf的隶属度为di。

模糊关系R是模糊元组的有穷集合,它是集合叉集P(A1)×P(A2)×…×P(Am)的一个子集。其中,Ai是属性域,P(Ai)表示Ai-的幂集。

目前对模糊本体的构建方法研究虽多但均不成熟,其构建方法可以归结为两大类:基于模糊集理论和基于现有的本体构建方法。前者主要有基于模糊概念模型、基于语言变量、基于属性隶属度和基于MDA的构建方法等;而后者主要有5种类型:Uschold和King方法;Gruninger和Fox方法;Berneras方法;METHONTOLOGY方法;基于SENSUS方法[8]。

模糊本体的构建是以不精确信息为数据源且需要在领域专家的参与下进行的,构建得到的模糊本体往往呈现多样性。而由模糊概念和模糊关系构成的模糊概念格具有结构惟一性的特点[9],因此,本文以模糊概念格为基础构建模糊本体,又由于模糊概念外延的模糊性,导致模糊概念格中生成了大量的模糊概念节点,因此需对模糊概念格进行约简处理,考虑概念格的构成特点,对其运用概念距离聚类方法进行约简较为方便和直接,且减少了生成的模糊本体的多样性。

综上,本文在模糊概念格的基础上,运用概念距离聚类方法对其进行处理,进而生成模糊本体。

2 概念距离聚类方法

概念聚类是基于模型的聚类,能够对生成的聚类确定其属性特征,且对新生成的聚类给予一定的概念解释[10]。

概念距离聚类方法是一种基于带有模糊参数的模糊概念格的概念聚类。该聚类方法不仅能够产生树状结构的聚类层次,还可以对概念间有多重继承关系的模糊概念格上的模糊概念进行聚类[11]。

定义1(模糊参数E) 对于对象集合O,属性集合D=f(O),d∈D,参数E定义如下

式中:|O|——集合O的元素个数;

式中:|D|——集合D的元素个数。

定义2(模糊参数δ) 对于对象集合O和属性集合D=f(O),d∈D,参数δ定义如下

式中:|O|——集合O的元素个数;|D|——集合D的元素个数。

参数E描述的是对象的平均隶属度,参数δ描述的是对象隶属度相对于参数E的偏离程度[6]。

定义3(概念距离) 模糊概念 (O1,D1)和其子概念 (O2,D2)的距离定义如下

式中:——概念C1= (O1,D1)的参数;——概念C2= (O2,D2)的参数。

概念距离聚类方法的步骤是:计算出模糊概念格的模糊参数E和δ;根据概念距离公式计算出有效概念间的距离DS;根据实验,选取合适的概念距离阈值,合并概念节点,生成模糊概念聚类。图1为概念距离聚类的示例。

图1 概念距离聚类示例

3 用概念距离聚类方法构建模糊本体

模糊本体构建的概念距离聚类方法的核心思想是:从现实世界的不确定信息中抽取出模糊形式背景,构建模糊概念格,利用聚类技术将模糊概念格转化生成模糊概念层次,最后映射得到模糊本体。

3.1 构建生成模糊概念格

模糊概念格是描述概念的内涵 (intension)与外延(extension)具有模糊关系的不精确性概念的一种方法[12]。

定义4(模糊概念格) 若二元组C= (O’,D’)满足O’=g(D’)且D’=f(O’),则称C为一个模糊形式概念。K= (O,D,I)为一个形式背景,通过偏序关系将K中的所有模糊形式概念建立起来的完全格,叫做K所对应的模糊概念格[13]。

概念格的渐进式构建算法可以将概念节点和节点间的连接关系同时产生,因此它非常适合于处理动态数据库。所以可把这种方法应用到模糊概念格的构建中。

构建模糊概念格的过程,实际上是寻找新节点的直接前驱和直接后继的过程。模糊概念格的渐进式构建算法分为6个步骤:

(1)初始化模糊概念格L。从形式背景中生成初始的模糊概念格节点集,设每个节点为一个模糊形式概念C(o,f(o)),并初始化为空。

(2)生成新概念节点。从形式背景中取出一个对象x,形成节点X(x,f(x)),若格L中任意节点C(extension(C),intension (C)),使得f(x)intension (C),则将节点X(x,f(x))作为新节点加入L中。

(3)更新L中的概念节点。扫描L中所有节点,看是否存在节点C(extension(C),intension(C))的内涵小于等于新生成节点X(x,f(x))的内涵,若存在,则节点C为更新节点。将每个更新节点更新为 (extension(C)∪x,intension(C)),边不更新。转 (5)

(4)产生子概念节点。扫描模糊概念格L,将节点C与新生成节点X进行交运算,若内涵交集不等于L中任意节点的内涵,则产生子概念节点C’(extension(C)∪x,intension(C)∩f(x))。查找L中是否存在节点C’的更新节点,若存在,则更新新生成节点C’;否则,节点C’加入到L中,并连接新生成节点相应的边。

(5)直到形式背景中的所有对象加入到L中。转 (2)

(6)构建根节点和末梢节点。搜索L中所有没有子节点的节点,如果这样的节点多于一个,则生成末梢节点,并增加末梢节点到这些节点的边。同理,生成根节点。

3.2 聚类生成模糊概念层次

从模糊概念格到模糊概念层次的过程,实际上是用具体地聚类算法在格上进行概念聚类的过程,由此得到的模糊概念的层次结构,可以对其运用映射规则得到相应的模糊本体的概念框架。

结合上述模糊概念格的生成过程,在模糊概念格上进行概念聚类,本文采用基于距离的概念聚类方法。把概念间概念距离小于距离阈值的概念聚为一类,基于此法可以得到模糊概念层次。具体操作如下:

(1)计算模糊参数E和δ的值。根据初始形式背景,计算出模糊概念格中有效节点的参数值。(2)计算有效概念间的距离DS。(3)模糊概念聚类。

1)将格中模糊概念的节点集C、边集C1C2、概念间的距离DS,作为一个集合U= {C,C1C2,DS};

2)选取距离阈值T;

3)查找U中符合条件DS<T的边CaCb,并聚类Ca、Cb;

4)子节点吸收父节点的内涵,并更新子节点为新节点C’(extension (Cb),intension (Ca)∪intension (Cb));

5)递归3)、4)步骤,直到集合U中不存在DS<T的边;

(4)生成模糊概念层次。删除底节点,循环查找聚类后的概念格中的概念节点,若聚类生成新节点C’,则原来连接到父节点Ca和子节点Cb的边更新为连接到新节点C’,其余边不变。

3.3 映射生成模糊本体

基于上述方法导出的模糊概念层次,可以用来构造模糊本体。根据模糊概念层次和模糊本体中元素的对应关系,在模糊概念层次上运用特定的映射规则,映射得到模糊本体原型。两者的映射规则如图2所示。

图2 模糊概念层次与模糊本体的映射规则

根据上述映射规则得到模糊本体原型,再为其添加属性、公理、实例等来扩充和完善模糊本体,通过该方法生成的模糊本体具有一致性,因而不再需要进行一致性检查。模糊本体是基于有模糊性的不确定信息构建生成的,用模糊值表示属性值的模糊本体体现了现实性。对现实世界中存在的大量非分类的不确定信息的描述[14],就需专家参与,才可得到比较完整的模糊本体。

4 构建实例

4.1 构建模糊概念格

以生活中常见的天气问题为例,表1中以连续5天的天气为对象,气温高低、紫外线强弱,风级大小,有无雨为属性,抽取得到标准模糊形式背景。设定阈值为0.5,对标准模糊形式背景进行处理,得到模糊化后的形式背景,如表1所示。

表1 模糊形式背景

根据模糊形式背景表1,用渐进式算法进一步构造模糊概念格,如图3所示。

图3 模糊概念格

模糊概念格中共有7个模糊形式概念,各有效模糊形式概念的模糊参数值及构成如表2所示。

表2 模糊形式概念构成及参数值

4.2 聚类生成模糊概念层次

利用3.2节的概念距离聚类方法,对上述已构造出的模糊概念格进行聚类。首先计算出概念间的距离,如下:

为本实例设定距离阈值为0.5,则运用概念距离聚类方法得到的模糊概念层次,如图4所示。

图4 模糊概念层次

4.3 映射得到模糊本体

以图4举例说明模糊本体的生成。依据3.3节的规则来映射本体,1号根节点映射得到无效的模糊概念,因此,可得到3个类分别用A、B、C表示,以及类间的关系。

表3 模糊本体类间关系

根据表3中的3个类及其所含模糊概念之间的关系,就构成了一个模糊本体,如图5所示。

以类A为例,属性为气温高 (0.6)、紫外线强 (0.6)和风力大于5级 (0.7);实例为1,2,3,预测出未来连续3天的天气情况。模糊本体的这种构建方法简单易行,根据特定领域的不确定信息构建出的模糊本体,可以直观的反映现实世界。

图5 模糊概念体示例

5 结束语

本文研究了模糊本体构建的概念距离聚类方法,与手工构建模糊本体相比,该方法提高了模糊本体构建的效率;与其他构建方法相比,该方法构建出的模糊本体具有更好的一致性和灵活性。首先利用渐进式算法构建模糊概念格,结合模糊集理论和概念距离聚类方法,再聚类生成模糊概念层次,最后映射得到模糊本体,并以实际问题为例验证了该构建方法的有效性。然而目前的研究尚存在着不足,例如没有对聚类结果进行有效性评价等。下一步将与模糊本体的其他生成算法做对比研究。

[1]ZHANG Nannan.Research on the method of semi-automatic domain ontology building for the semantic web [D].Dalian:Dalian Maritime University,2008 (in Chinese). [张囡囡.面向语义网的领域本体半自动构建方法的研究 [D].大连:大连海事大学,2008.]

[2]CAI Yi,LEUNG Hofung.A formal model of fuzzy ontology with property hierarchy and object membership [G].LNCS 5231:Conceptual Modeling.Berlin Heidelberg:Springer-Verlag,2008:69-82.

[3]WANG Biao,DUAN Chanlun,WU Hao,et al.The research and application of rough sets and fuzzy sets [M].Beijing:Electronic Industrial University Press,2008 (in Chinese).[王彪,段禅伦,吴昊,等.粗糙集与模糊集的研究及应用 [M].北京:电子工业出版社,2008.]

[4]XU Hongsheng.Building、merging and presenting of ontology based on formal concept analysis. [D]Kaifeng:Henan University,2007(in Chinese).[徐红升.基于形式概念分析的本体构建、合并与展现 [D].开封:河南大学,2007.]

[5]WU Zhengchao.Research of domain ontology automatic construction method based on relational database [D].Dalian:Dalian university of Technology,2007 (in Chinese).[吴正超.基于关系数据库的领域本体自动构建方法研究 [D].大连:大连理工大学,2007.]

[6]Giuseppe Fenza,Vincenzo Loia,Sabrina Senatore.Concept mining of semantic web services by means of extended fuzzy formal concept analysis(FFCA) [C].IEEE International Conference on Systems Man and Cybernetics,2008:240-245.

[7]Quan Thanh Tho,Siu Cheung Hui.Automatic fuzzy ontology generation for semantic web [J].IEEE Transactions Knowledge and Data Engineering,2006,6 (18):842-856.

[8]WANG Xiaoying,WANG Xiaoxuan,LIU Peng.Research on Chinese ontology construction and visualization [J].Computer Technology and Development,2010,20 (2):121-124 (in Chinese).[王晓盈,王晓璇,刘鹏.中文本体构建及可视化研究 [J].计算机技术与发展,2010,20 (2):121-124.]

[9]QIANG Yu.Research on fuzzy concept lattice model and its application [D].Shanghai:Shanghai University,2005 (in Chinese).[强宇.模糊概念格模型及其应用研究 [D].上海:上海大学,2005.]

[10]HUANG Jianbin,JI Hongbing.A web search results clustering algorithm based on fuzzy concept lattices [J].Xi’an University of Electronic Science and Technology Journal(Natural Science Edition),2005,32 (6):856-860 (in Chinese).[黄健斌,姬红兵.基于模糊概念格的Web搜索结果聚类算法[J].西安电子科技大学学报 (自然科学版),2005,32 (6):856-860.]

[11]XU Jiaqing.The process cluster and evolution analysis based on the fuzzy formal concept analysis [D].Shanghai:Fudan University,2009(in Chinese). [许佳卿.基于模糊形式概念分析的程序聚类及演化分析 [D].上海:复旦大学,2009.]

[12]LIU Ruixin,SUN Shibao,QIN Keyun.Research on implementation algorithm of fuzzy concept lattices based on different implication operator [J].Computer Engineering and Applications,2007,43 (17):179-181(in Chinese). [刘瑞新,孙士保,秦克云.基于不同蕴涵算子的模糊概念格建格算法研究 [J].计算机工程与应用,2007,43 (17):179-181.]

[13]WU Hongyi.Method and system of constructing fuzzy concept lattice [D].Dalian:Dalian Maritime University Maritime University,2010 (in Chinese).[乌弘毅.模糊概念格的构建方法与构建系统 [D].大连:大连海事大学,2010.]

[14]WANG Suihua,ZHAO Ailing,MA Weiwei.Approach to extracting on-taxonomic relationships for Chinese ontology from web [J].Computer Engineering and Design,2010,31 (2):451-454(in Chinese). [王岁花,赵爱玲,马巍巍.从 Web中提取中文本体非分类关系的方法 [J].计算机工程与设计,2010,31 (2):451-454.]

猜你喜欢

模糊集本体聚类
基于上下截集的粗糙模糊集的运算性质
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
基于本体的机械产品工艺知识表示
基于粗糙模糊集的输电杆塔塔材实际强度精确计算
《我应该感到自豪才对》的本体性教学内容及启示
一种层次初始的聚类个数自适应的聚类方法研究
E-广义凸直觉模糊集①
自适应确定K-means算法的聚类数:以遥感图像聚类为例
专题