APP下载

Folksonomy知识组织模式中领域知识动态演化规律研究*

2016-10-21滕广青常志远刘雅姝赵汝南张利彪

图书与情报 2016年4期
关键词:时间序列分析知识网络

滕广青 常志远 刘雅姝 赵汝南 张利彪

摘 要:Folksonomy知识组织模式在众多的图书馆和文献数据库中被应用,其特有的演化发展规律也一直是图书情报学界关注的重点。文章借助复杂网络理论,基于标签之间的共现关系构建了领域知识网络。从领域知识网络的基本属性、中心性和群聚性三个方面,对领域知识的演化过程进行了动态跟踪与时序分析。研究结果显示,Folksonomy模式中领域知识网络逐渐向小世界网络演化;领域知识的中心性并非完全协同一致;领域知识的群聚性与标签关联关系相关。

关键词:Folksonomy;领域知识;知识网络;时间序列分析;演化规律

中图分类号: G254 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016082

Dynamic Evolution Rules of Domain Knowledge in Folksonomy Knowledge Organization Mode

Abstract As a kind of knowledge organization model, folksonomy is applied in many libraries and literature databases and the evolution rules of folksonomy are one of the focuses of library and information academic community. With the theory of complex networks, this article constructed domain knowledge networks based on co-occurrence relationship between tags. From the basic properties, centrality and aggregation of domain knowledge network, the evolution process of domain knowledge was tracked and time-series analyzed. The results show that domain knowledge network evolves to small-world network; Centralities of domain knowledge are not entirely concerted; Aggregations of domain knowledge are associated with the relationships of tags.

Key words Folksonomy; domain knowledge; knowledge network; time-series analysis; evolution rules

1 引言

Folksonomy[1]知识组织模式自诞生以来就受到了图书情报学界的极大关注,特别是在学术性图书馆实践中得到广泛的应用。如宾夕法尼亚州立大学图书馆、北卡罗来纳州立大学图书馆、新泽西理工学院图书馆、厦门大学图书馆、上海交通大学图书馆,以及Bibsonomy、CiteULike等学术文献资源网站。与此同时,学术界也对Folksonomy知识组织模式的相关问题展开了研究,并取得了较为丰富的成果。

雪城大学的M Weaver[2]基于公共图书馆Folksonomy知识组织模式的研究表明,现实中的标签集可以被分解为不同的分面结构,能够帮助用户获取所需要的内容;德国曼海姆大学的K Eckert[3]对著名的学术型文献数据库Elsevier中的三种经典期刊文献进行了分析,发现Folksonomy模式下的用户标注是最适合塑造文献注释的方法之一,并在此基础上开发了相应的开源软件工具用于主题词表和知识分类的分析;纽约城市大学的K Ma[4]采用幂律分析和逻辑回归分析对文献数据库CiteULike的Folksonomy知识组织模式七年的使用情况进行了跟踪,研究结果表明特定文献的突出标签具有鲜明的统计显著性和稳定的增长模式;阿姆斯特丹大学的H Voorbij[5]基于荷兰乌特勒支大学图书馆的600条随机样本对标签性质和标签与关键词关系进行了研究,通过对主题标目和其他关键词学科差异的分析,发现大多数标签与主题相符,大约将近一半的记录能够基于标签丰富语义内容。与此同时,国内学者也对Folksonomy知识组织模式相关问题展开了研究,比较典型的研究主要集中在Folksonomy与受控词表结合[6]或者Folksonomy与本体结合[7]的研究方向上,也有部分学者对Folksonomy模式中的标签紧密性[8]、标签聚类[9]、层级结构[10]等问题进行了研究。

综上所述,尽管随着Folksonomy知识组织模式在图书情报领域中的应用,学术界关于Folksonomy相关问题的研究取得了较为丰富的成果,但是其中大多数研究工作仍然停留在静态分析的层面,仅有极少数成果采用了动态的研究视角,更缺少对Folksonomy模式中知识演化规律的揭示。鉴于此,本研究以复杂网络理论为指导,基于标签之间的共现关系构建特定领域的知识网络。从时间序列的角度对Folksonomy模式中领域知识的动态演化过程进行跟踪。以期为Folksonomy知识组织模式下领域知识演化规律的揭示做出有益的尝试和探索。

2 研究方案与思路

2.1 整体研究方案

领域知识往往限定于特定的学科领域或者具体的学术方向,既带有一定程度的专指性也含有知识之间的关联性。本研究中借助复杂网络科学[11]的理论与方法,主要从领域知识网络的基本属性、中心性和群聚性三个方面,对Folksonomy模式中领域知识的演化过程展开时间序列分析。

研究首先针对特定领域的文献数据,按照不同的时间窗口根据标签之间的共现关系构建了标签邻接矩阵,并进行二值化处理以获得相应的二值邻接矩阵;然后基于二值邻接矩阵构建领域知识网络,以此作为时间序列分析的基础;再对时间序列领域知识网络的标签及其关联关系、网络密度、聚类系数、特征路径、点度中心势、中介中心势、紧密中心势、派系、k-丛等指标进行动态跟踪分析;最后对分析结果进行讨论、归纳和总结其中隐含的领域知识动态演化规律(研究思路见图1)。

2.2 数据采集与领域知识网络构建

研究以卡塞尔大学、维尔茨堡大学和德国L3S

研究中心共同资助的Bibsonomy文献出版共享系统作为基础数据源。以“semanticweb(语义网)”为检索标签进行检索,共获得领域知识相关文献1002篇。所获得的文献共被287个标签标注过,时间跨度为2006-2015年。以年份为时间刻度,将2006-2015时间区间划分为10个时间窗口,汇总各个时间窗口中文献数量与标签数量的统计结果(见表1)。

进一步对标签之间的共现(共同标注)关系进行提取,即如果2个标签被用于同一篇文献的标注,则这2个标签之间具有共现(共同标注)关系。由此获得标签之间的共现关系总量为1508对。以标签为节点,标签之间的共现关系为连线构建各个时间窗口的领域知识网络。首先基于文献与标签之间的隶属关系构建隶属关系矩阵,然后基于标签之间的共现关系将隶属关系矩阵转换为邻接矩阵。对邻接矩阵进行二值化处理,获得二值邻接矩阵。基于二值邻接矩阵构建10个时间窗口下的时间序列领域知识网络(见图2)。

3 领域知识演化分析

3.1 基于网络基本属性的演化分析

从领域知识网络演化发展的时间序列(见图2)可以发现,在时间轴的起始阶段网络规模较小,而且结构相对简洁。随着领域知识的发展,领域知识网络的规模沿着时间轴逐渐扩大,网络结构越来越复杂。将不同时间窗口领域知识网络的节点(标签)数量与连线(共现关系)数量进行对比,得到时间序列领域知识网络节点数量与连线数量对比折线图(见图3)。

可以看出,起始阶段领域知识网络的节点数量与连线数量比较接近,随着领域知识的发展二者逐渐拉开差距。领域知识网络中的连线数量远远大于标签节点数量,《信息简史》的作者J Gleick[12]所强调的知识之间的连通性通过标签间的共现关系逐渐凸现出来。从曲线的发展形态上看,节点曲线与连线曲线都经历了由缓慢发展到高速增长并最终逐渐趋稳的过程,曲线存在理论上的极值和拐点,整体形态趋近于逻辑斯蒂曲线(Logistic Curve)[13]。

进一步对10个时间窗口中领域知识网络的密度和聚类系数分别进行计算,得到时间序列领域知识网络密度和聚类系数(见表2)。

可以看出,领域知识网络的密度较低,并且随着时间轴的延展呈现下降趋势,即随着领域知识的发展网络逐渐稀疏。反映出领域知识发展进程中,大量的新知识不断涌入到领域内部,既包括相关领域的知识渗入也包括领域内部的知识新生;另一方面,表2中领域知识网络的聚类系数虽然存在波动,但始终保持在较高的水平上(>0.78)。这一现象说明,在领域知识发展过程中,基于标签共现关系构建的领域知识网络一直保持较高的聚类性。领域知识网络的稀疏性和高聚类性比较符合小世界(Small World)[14]的特征,因此,进一步对领域知识网络的特征路径长度进行探查,获得时间序列领域知识网络的路径距离分布(见表3)。

从领域知识网络特征路径距离分布可以发现,在领域知识发展过程中距离为2步的情况占据绝大多数,且比例逐渐增大,除去起始阶段(2006、2007)外,都保持在90%以上。而且尽管随着领域知识的发展网络节点不断增加,但是平均路径长度始终保持在较短的范围内(1.6-2.0)。这一现象说明领域知识网络中任意2个标签节点之间最多需要2步就可以实现连接,而且Folksonomy模式中基于标签共现关系的领域知识网络的特征路径长度相比传统的基于关键词共现关系的领域知识网络的特征路径[15]更

短。结合前述领域知识网络的网络密度、聚类系数综合考察可以发现,随着领域知识的不断扩容,领域知识网络的密度逐渐下降,网络越来越稀疏。同时,网络始终保持着较高的聚类性和较短的特征路径长度。根据D J Watts[16]的理论可知,领域知识网的演化越来越符合小世界网络的判定标准,演化的结果向小世界网络趋近。

3.2 基于网络中心性的演化分析

传统知识组织体系中都带有鲜明的中心性,Folksonomy知识组织模式的中心性[17]则隐含于离散的外在表象之后。出于对Folksonomy知识组织模式中领域知识演化规律进行揭示的目的,研究中采用L C Freeman[18]提出的网络中心性测度方法,对时间序列领域知识网络(见图2)的中心性进行测算。所获得的点度中心势(Degree Centralization)、中介中心势(Betweenness Centralization)、紧密中心势(Closeness Centralization)的相关指标数据(见表4)。

可以发现,领域知识网络的点度中心势呈现高位(2006年时间窗口中点度中心势为78.57%,其余年份窗口中点度中心势都大于90%)震荡发展态势。由于网络的点度中心性反映节点在网络中的核心聚集程度,因此,点度中心势的高位波动现象说明领域知识发展过程中领域核心焦点比较鲜明,知识的扩充与核心的凝聚交叉伴生。一般情况下,知识领域内的核心焦点总是处于不断地凝聚过程中,但是当领域中新知识扩充的步伐超越核心凝聚的脚步时,领域中原有的核心焦点会在一定程度上被淡化,网络的点度中心势就会下降。当然,随着领域知识的发展

核心焦点也会被重塑,进而表现出网络点度中心势的起伏波动。

领域知识网络的中介中心性反映的是知识节点对网络资源的桥接控制程度,表4中的网络中介中心势表现出一定程度的波动起伏。与点度中心势不同的是,在时间轴的前半段(2006-2010)点度中心势与中介中心势同步增长,即在领域知识核心逐渐显著的同时,越来越多的标签节点通过中间节点拉近彼此间关联关系,此时中介中心性与点度中心性二者是互促关系。在时间轴的后半段(2011-2015)领域知识核心再次逐步凝聚(除2015时间窗口外点度中心势总体上升),领域知识网络的桥接程度却逐步下降(除2011年时间窗口外中介中心势总体下降),此时中介中心性与点度中心性二者是互扰关系。显然,领域知识的核心性与桥接性的演化规律并不一致,表4中前后两个阶段中介中心势演化发展的差异说明,前期领域知识网络中连线数量的高速增长(见图3)提高了领域知识之间的中介桥接程度;后期领域知识网络中连线数量的缓慢增长没能弥补网络规模扩张造成的领域知识之间中介桥接程度的衰减。

领域知识网络的紧密中心性反映网络中个体知识与其他所有知识的距离远近程度。如果网络中的标签节点都只需要通过很少的节点就能够连接到其他所有标签节点,则该网络具有较高的紧密中心性。表4中时间轴的前半段领域知识网络的紧密中心势呈上升趋势,与点度中心势、中介中心势同一时间段内的演化发展趋势相一致。2011年时间窗口中由于新增标签节点形成局部网络碎片,故而不能计算全网络的紧密中心势。2012-2014年时间窗口的网络紧密中心势再次上升,此时的标签间关联关系将碎片区域与网络主体部分连通。2015年时间窗口再次出现网络碎片。纵观领域知识网络的紧密中心势演化过程可以发现,随着连线数量的增长标签节点之间的关联彼此拉近,领域知识的紧密性逐渐趋于增强;另一方面,领域知识网络演化发展过程中也可能会出现网络非联通状况,新增节点有时会构成局部碎片,此时全领域范围内网络的紧密中心性也就无从谈起。

3.3 基于网络群聚性的演化分析

本文分析的领域知识网络的高聚类系数说明,领域知识网络具有较高的群聚性,能够在网络内部形成知识群落[19]聚类。研究中分别从互惠性、稳健性两个方面,采用卢斯—佩里(Luce-Perry)[20]派系(cliques)概念和赛德曼-弗斯特(Seidman-Foster)[21]k-丛(k-plex)概念对领域知识网络的群聚性进行分析。设上述两类凝聚子群的最小成员数量为3,获得时间序列领域知识网络群聚性(见表5)。

表5中,派系与k-丛的时间序列呈现总体上升趋势,除2015年时间窗口中领域知识网络的派系与k-丛数量有所回落外,都经历了由缓慢发展到高速增长并最终逐渐趋稳的发展过程,与逻辑斯蒂曲线生长模型相类似。由于派系是领域知识网络中最大的完备子图,因此,其概念的严格性决定了数量相对较少。派系的完备性要求子群内部标签节点之间相互完全连接,进而使标签所代表的知识之间形成完全地相互支撑关系。表5中的数据显示,在领域知识的发展演化过程中,这种具备完全相互支撑关系的知识群落(子群)数量呈现总体递增趋势。特别是与图3结合考察可以发现,网络连线数量高速增长的阶段也是派系数量上升最快的阶段。由此可知,领域知识演化过程中派系数量的增长与标签共现关系(连线)数量的增长密不可分,并且随着领域知识的发展领域内知识之间的相互促进性越发显著。

由于派系的概念过于严格,因此知识领域中完全符合派系界定标准的子群条件比较苛刻,现实中更多的情况是知识群落内大部分知识之间具有相互支撑关系。因此,进一步使用更稳健的k-丛的概念对领域知识网络的群聚性进行考察,只要子群内每一个标签节点与不少于n-k个节点具备关联关系即可。表5中k-丛指标的k取值为2,即子群内任意节点至少与n-2(n为子群内节点总数)个节点连接具备相互支撑关系。通过表5中的数据可以发现,由于k-丛的稳健性使得同一时间窗口中k-丛的数量远远大于派系的数量,这一现象在时间轴的中后期尤为明显。而且k-丛的高速增长期同样对应着图3领域知识网络中连线的高速增长期,显然领域知识网络演化过程中标签共现关系(连线)数量的增长促进了k-丛数量的增长。

由于领域知识网络中连线数量的增长直接对派系和k-丛产生影响,因此派系和k-丛在数量增加的同时容量也在扩充。当网络节点数量不变连线数量持续增长,或者节点数量增加的速度落后于连线数量增长的速度时,子群容量的扩充就有可能导致子群数量的减少。表5中2014-2015年时间窗口的数据就说明了这一点(参照表1中2014-2015节点数量不变连线数量继续增加的情况)。这一现象从知识群落容量(而不是数量)方面反映出领域内知识之间相互支持与相互促进的特征随着领域知识的发展日渐显著,也再一次印证了知识之间的关系比知识点本身更为重要的观点。

4 结果与讨论

研究中以复杂网络分析为基本方法,基于Folksonomy知识组织模式中标签共现关系构建特定领域知识网络,以动态发展的视角对领域知识的演化规律展开时间序列分析,初步得出如下结论:

(1)随着领域知识的发展,Folksonomy模式中领域知识网络逐渐向小世界网络演化。领域知识网络演化过程中网络连线(标签共现关系)的数量远远超过标签节点数量,其生长曲线趋近于逻辑斯蒂曲线模型。由于演化过程中新知识和新关联关系的产生和加入,领域知识网络密度递减的同时又保持较高的聚类系数和较短的特征路径长度。因此,领域内不同知识之间仅需要较短的路径就能够彼此建立连接。

(2)领域知识演化过程中网络中心性并非完全协同一致。领域知识网络演化过程中网络的点度中心性、中介中心性、紧密中心性在时间轴的前半段保持同步增长。在时间轴的后半段点度中心性和紧密中心性在经历了短暂回落后再次递增,中介中心性则表现出递减趋势。而且紧密中心性还会受到局部网络碎片的影响。因此,领域知识网络中心性的演化并非完全协同一致。

(3)领域知识演化过程中网络群聚性与标签关联关系相关。领域知识网络的凝聚子群(派系、k-丛)数量随着领域知识的发展逐渐递增,特别是在网络连线(标签共现关系)的高速增长阶段增幅最大。高速增长阶段也是增长曲线斜率最大的阶段,这一阶段中连线数量的增速与标签节点数量的增速迅速拉开差距,急剧丰富的标签关联关系推动领域内凝聚子群数量迅速上涨。当两种曲线增速差距缩小或者逆转时,领域知识中内部相互支持的知识群落的数量会出现回落。

5 结语

本研究基于标签共现关系构建特定领域知识网络,从时间序列的角度对领域知识网络演化过程进行了跟踪与剖析,对Folksonomy模式中领域知识演化规律的揭示做出了探索。研究工作中也存在一些尚不完善之处,对网络特征属性指标的考察还不够全面,研究数据尚不能穷尽所有的领域知识资源。这些工作有待于在未来的研究中进一步探索和完善。

参考文献:

[1] Peters I,Stock G W.Folksonomy and information retreval[J].Proceedings of the American Society for Information Science and Technology,2007,44(1):1-28.

[2] Weaver M.Contextual metadata:faceted schemas in virtual library communities[J].Library Hi Tech,2007,25(4):579-594.

[3] Eckert K,H葬援nger C,Niemann C.Tagging and automation:challenges and opportunities for academic libraries[J].Library Hi Tech,2009,27(4):557-569.

[4] Ma J.The sustainability and stabilization of tag vocabulary in CiteULike[J].Online Information Review,2012,3(5):655-674.

[5] Voorbij H.The value of LibraryThing tags for academic libraries[J].Online Information Review,2012,36(2):196-217.

[6] 邰杨芳,贾君枝,贺培风.基于受控词表的Folksonomy优化系统分析与设计[J].情报科学,2014,32(2):112-117.

[7] 熊回香,王学东.大众分类体系中标签与本体的映射研究[J].情报科学,2014,32(3):121-126.

[8] 滕广青,毕达天,任晶,等.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013,29(12):48-54.

[9] 吴江.自由分类标签类聚成网状分类结构研究与实现[J].图书情报知识,2011(1):75-81.

[10] 陈丽霞,窦永香,秦春秀.利用社会化标签实现P2P语义推荐[J].图书情报工作,2011,55(22):110-113.

[11] Lewis T G.陈向阳,巨修炼,等译.网络科学:原理与应用[M].北京:机械工业出版社,2011:1-14.

[12] Gleick J.高博译.信息简史[M].北京:人民邮电出版社,2013:409-421.

[13] Pearl R,Reed L J.The logistic curve and the census count of 1930[J].Science,1930,72(1868):399-401.

[14] Milgram S.The small world problem[J].Psychology Today,1967,1(1):61-67.

[15] 赵汝南,常志远,姜博,等.基于网络演化的领域知识发展趋势研究[J].数字图书馆论坛,2016(3):24-29.

[16] Watts D J.Network,dynamics and the small-world phenomenon[J].American Journal of Sociology,1999,105(2):493-527.

[17] 滕广青,毕强.领域本体与社群分类法结构中心性的比较研究[J].情报学报,2013,32(10):1037-1045.

[18] Freeman L C.Centrality in social networks conceptual clarification[J].Social Networks,1979,1(3):215-239.

[19] 滕广青,杨明秋,田依林,等.Folksonomy模式中的知识群落及其核心知识分析[J].图书情报工作,2015,59(22):124-129.

[20] Luce R,Perry A.A method of matrix analysis of group structure[J].Psychometrika,1949,14(2):95-116.

[21] Seidman S B,Foster B L.A graph theoretic generalization of the clique concept[J].Journal of Mathematical Sociology,1978,6(1):139-154.

a

作者简介:滕广青(1970-),男,东北师范大学计算机科学与信息技术学院信息管理系副教授;常志远(1989-),男,东北师范大学计算机科学与信息技术学院硕士研究生;刘雅姝(1993-),女,东北师范大学计算机科学与信息技术学院硕士研究生;赵汝南(1991-),女,东北师范大学计算机科学与信息技术学院硕士研究生;张利彪(1974-),男,东北师范大学计算机科学与信息技术学院副教授。

猜你喜欢

时间序列分析知识网络
基于R软件的金融时间序列的预测分析
知识网络环境下高职高专思想政治教育创新
淮北市生态足迹动态演变分析
高考数学第一轮复习中的做法和反思
思维导图在小学语文阅读教学中的运用探究
微信公众号未来发展态势的实证预测
基于MATLAB的时间序列预测
中国石化产业产能过剩测度及预警
宏观审慎框架下中国上市银行系统性风险监测研究