APP下载

我国网络计量学研究的知识扩散可视化分析

2016-06-05韩牧哲李秀霞张艺蔓

图书情报研究 2016年4期
关键词:特征词计量学网络图

韩牧哲 李秀霞 张艺蔓

(1.华中师范大学信息管理学院武汉430079;2.曲阜师范大学传媒学院日照276826)

我国网络计量学研究的知识扩散可视化分析

韩牧哲1李秀霞2张艺蔓2

(1.华中师范大学信息管理学院武汉430079;2.曲阜师范大学传媒学院日照276826)

以我国网络计量学期刊论文的题录和引文数据为基础,应用Gephi分别生成了期刊-学科-时序网络图和特征词聚类-时序网络图,并对其进行逐一分析。期刊-学科-时序网络图横轴显示某种期刊涉足网络计量学领域的最早发文年份,纵轴显示涉足网络计量学的四种期刊类型,分别是图书情报学类、计算机软件类、高校学报类以及其他学科类期刊,揭示该学科领域内部知识扩散的宏观特征;特征词聚类-时序网络图则显示网络计量学研究主要有三个区域:网络计量理论与方法、网络计量实证应用以及网络计量算法与技术,并对这三个区域进行时序分析,揭示其内部知识扩散的微观特征。

网络计量学知识扩散时序分析网络可视化

1 引言

知识扩散是指知识在科学文献与专利中的传承[1],本文主要从引用关系视角来研究知识扩散。网络可视化方法可以展示引文网络中的知识扩散路径,但展示效果并不直观,因此有学者尝试将时间维度和引文网络整合在一起来揭示学科知识扩散情况,将现有的静态网络按照时序进行排列,通过添加时间标签直观地展示出知识扩散的动态过程。汤易兵等人在引文网络分析中引入了引文滞后指标刻画了供应链研究分支领域知识扩散的速度以及知识整合的情况[2];Gao和Guan构建了时序引文网络模型并用有关h指数的文档集进行了验证[3];邱均平、李小涛则从期刊、机构、作者、关键词四个层面分别构建了时序引文网络[4];韩牧哲、李秀霞、张艺蔓基于模块化拆分后的引文网络对领域知识扩散的水平进行了计量分析[5]。本文因袭并发展了之前学者提出的时序分析方法,但是在构建网络图谱时,除添加时间维度以外,还根据相关统计量的分类标准对网络图按照时间顺序进行重组,构建模块-时序网络图来对本文主题进行知识扩散研究和展示。

网络计量学是文献计量学、科学计量学、信息计量学三个学科在网络环境下交叉演进出的新兴计量学科[6]。最早由Almind于1997年提出,2000年被武汉大学邱均平教授引入国内并定名为“网络信息计量学”[7],其后的十余年中,网络计量学一直被国内学者持续研究并不断发展,成为计量学重要的分支学科。此前学者多用传统方法对其进行综述研究和可视化分析[8-9],而本文试图以论文间的引用关系为基础,按照不同的统计单元分别构建网络图,采用时间序列和不同统计量的分类标准对网络图进行有序化处理并进一步分析,此方法在对网络计量学的可视化分析中尚属首次应用。本文以刊载网络计量学主题论文的学术期刊为统计单元,基于论文间的引用关系构建网络,并进行时序模块化分析,试图揭示该学科领域内部知识扩散的宏观特征;而通过对这些论文特征词的共现关系构建网络,并划分不同的类团进行时序分析,试图揭示其内部知识扩散的微观特征。下文将构建涵盖模块-时序两种维度的网络图谱,并对国内网络计量学的知识扩散特征进行分析。

2 研究工具和数据来源

2.1 研究工具

本文使用多种工具构建基于模块-时序的网络图谱,主要以Gephi0.8.2为主。Gephi是一款开源的图谱网络探测和分析软件,它利用一个3D渲染引擎实现复杂网络实时动态的可视化展示[10]。本文利用Gephi绘制网络图,本节主要介绍文中使用到的Gephi的相关功能。

网络图谱由节点和边两种基本元素组成,节点代表事物本身,边象征事物之间的关系。Gephi“排序”部分可以根据属性对网络图的节点和边进行一系列的可视化调整。节点的基本属性是点度,点度又可以分为出度和入度,分别代表某事物进行知识扩散传播和知识吸纳整合的能力,节点的点度可以通过设置不同的大小、形状、颜色来进行可视化展示。边的基本属性是方向和权重,Gephi可以根据分析需要生成有向图和无向图两种图谱,其中有向图的边带有方向箭头,可以表示知识的扩散方向,而无向图则只有体现节点联系的边,不具有方向属性;边的权重可以体现事物之间知识扩散的强度或者事物之间关系的紧密程度,通常用边的粗细来进行可视化展示。

Gephi网络布局一般有算法布局和自定义布局两种。其中的自定义布局是通过手动调整节点的坐标值来完成的,本文中的期刊-学科-时序网络图和特征词聚类-时序网络图采用自定义坐标值来进行布局。

2.2 数据来源

国内网络信息计量和网络计量的概念基本一致,链接分析是网络计量学的核心方法,网络影响因子是网络计量评价的重要指标。为全面了解网络计量学内部的知识扩散轨迹并兼顾论文质量,在CNKI中文期刊数据库中限定检索式“(核心期刊=Y OR来源标识码=P0209)AND((题名=网络信息计量学OR网络信息计量OR网络计量)OR(主题=链接分析OR共链分析OR网络影响因子))(精确匹配)”检索,检索时间为2014年10月,得到网络计量学方面的中文核心期刊论文482篇,经过初步筛选,剔除书评、纪要、通知以及其他无关文献,最终得到有效期刊论文434篇,发文时间在2000年到2014年之间。

其后分别下载并统计以上论文的题录和引证文献信息,统计得到该文档集中的434篇论文累计被引5 546次,其中被期刊论文引用累计3 303次。进一步统计发现这434篇论文中存在相互引用关系的共327篇。本文认为以网络计量学为主题的论文间的相互引用关系是该学科内部知识扩散的主要途径,因此集中存在引用或被引用关系的327篇论文就构成了本文研究的数据源。

图1 期刊-学科-时序网络图

3 实验结果与分析

3.1 期刊-学科-时序网络

3.1.1 期刊-学科-时序网络的生成统计327篇论文的来源期刊信息,将具有引用关系的数据导入Gephi,软件会将同一期刊自动合并为同一节点,提取每种期刊最早发表网络计量学主题论文的年份作为节点标签。以最早发文年代升序数值为横轴,以发文期刊类型为纵轴,采用自定义坐标,对各个节点进行布局;图中节点标签是其所代表期刊的刊名,节点及标签文字的大小与其所代表期刊的载文量成正比;节点的颜色深浅标识与节点出度成正比,即某种期刊所载论文的累计被引频次越高,其对应节点颜色越深;图中的边是从被引期刊指向引证期刊的有向边,边的粗细与其边权成正比,即某种期刊所刊载的论文被另一种期刊的论文引用越多,则从前者指向后者的边越粗。由此得到的期刊-学科-时序网络图整体可视化效果如图1所示。

3.1.2 期刊-学科-时序网络分析图1共涵盖了63种期刊,297条有向边涵盖各个期刊的引用、被引和自引关系。图中展示效果比较直观,横轴是某种期刊涉足网络计量学领域的最早发文年份,纵轴可以看出涉足网络计量学的期刊共有四种类型:

(1)图书情报学类期刊。网络计量学主要是从情报学分支文献计量学中演化而来,因此情报学和图书情报两栖期刊是我国最早关注这个领域研究的,其刊载的论文主要涉及网络计量学的理论基础、各种方法及其在实证研究中的应用。情报学至今仍是国内网络计量学研究的主体领域。《情报理论与实践》于2000年刊载了武汉大学邱均平教授的《信息计量学(一)》,文中首次将Webometrics译为“网络信息计量学”并加以阐述,成为国内网络计量学期刊论文的开山之作;《图书情报工作》2001年开始关注这个学科并迅速成长为该领域影响力最大的权威期刊,本文的统计数据显示,其载文量和相关论文的被引频次皆位居所有期刊的第一位;《情报科学》和《情报杂志》在随后的2002年和2003年分别加入对该学科的研究,这两种期刊在近十年来刊载了该领域内相当数量的论文,且在网络计量学领域都有较高的学术影响力。以上4种期刊是国内在网络计量学领域探索的先驱和权威期刊。网络信息计量仅是图书馆学期刊的诸多关注点之一,其载文也偏重于应用相关方法评价图书馆网站和网络信息资源,从而为图书馆建设提出相关建议,因此,单纯的图书馆学类期刊在网络计量学领域载文不多且对该领域的关注也相对较晚。需要说明的是,CNKI数据库缺失2002年以后《情报学报》载文的相关数据,本文没有有效手段进行数据补全,因此仅能统计到该期刊2001年刊发的一篇论文。

(2)计算机软件类期刊。计算机软件类期刊最早在2002年开始涉足网络计量学,以《计算机科学》、《计算机应用研究》和《计算机工程与应用》等期刊为代表,该学科期刊刊载的论文主要探讨与网络计量学相关的算法和技术,如对PageRank、HITS等算法的改进和一些新的信息提取排序算法的开发。这些论文提出的算法和技术作为网络计量学的技术基础,陆续形成新的方法范式被其他研究者接受并应用于后续的实证研究中,这也说明计算机科学类期刊在该主题领域的发展势头强劲。

图2 特征词聚类-时序网络图

(3)高校学报类期刊。从2003年起,国内很多高等院校学报也开始关注网络计量学。各大高校学报对网络计量学研究的重点是链接分析、网络影响因子与高校网站建设和大学网络影响力的关系,因此高校学报类期刊多刊载一些应用类的论文,不过由于其本身的综合性强,故而载文量不高;此外,高校学报刊载的论文一般属于网络计量学的相关方法在终端领域的应用,相关论文很难反过来推动网络计量学本身的理论创新和方法改进,因此其被引频次通常也较低。

(4)其他学科期刊。网络计量学是一门工具性的学科,在实践中的应用是研究的最终目的。从2006年起,很多其他学科的专业学术期刊陆续刊载了运用网络信息计量方法对目标学科领域所作的一系列实证研究。其应用领域可以涵盖出版印刷、教育技术、经济管理、新闻传播和一些自然科学领域,这可以从另一个角度说明网络信息计量的理论和方法在2006年已经发展得相对成熟并为其他学科广泛接受和应用。

综上,国内网络计量学的学科扩散路径是从情报学发起,由计算机科学和图书馆学支持,到相关方法在其他学科中广泛应用的过程。

3.2 特征词聚类-时序网络

3.2.1 特征词聚类-时序网络的生成统计327篇论文的1 330条关键词字段,其中不同词项639个。国内论文的关键词多为名词性词组,其结构通常是“定语”+“中心词”,中心词表征事物实体,而定语则是限定性修饰语。具有相同中心词的关键词表明其研究的是同一个范畴的事物或同属于某个主题领域;具有相同定语的关键词则表明其具有相同的限定性,从而可能具有一些共同的特征。信息检索有时会将检索词按语义进行“碎片化”拆分,从而可以压缩词典容量并提高检索查全率[11]。

本文在进行关键词处理时采用“定语”、“中心词”拆分原则进行拆词,拆分工作通过VBA算法实现,对部分词项加入了必要的手工干预,共统计到2 088个特征词,其中不同词项405个,出现4次以上的特征词77个,累积百分比达79.26%,可以很好地满足本次研究的需要。使用Bicomb2.0软件生成高频特征词共词矩阵,导入SPSS19.0转换成Pearson相关系数矩阵,并对其进行系统聚类,可以得到聚类树状图。

利用Excel数据透视表功能将共词矩阵调整转换后导入Gephi,提取每个特征词在文档集中首次出现的年份信息,因为77个特征词共存在906次共现,于是生成一组由77个节点和906条边组成的无向网络图。以之前生成的聚类树状图的序列为横轴,以各特征词首次出现的年份为纵轴,采用自定义坐标,对各个节点进行布局;图中节点标签是其所代表的特征词,节点及标签文字的大小与其出现频次成正比;节点的颜色深浅标识与其点度成正比,即某特征词与其他特征词的共现频次越高,其对应节点的颜色越深;图中的边是代表共现关系的无向边,边的粗细与其边权成正比,即两个特征词的共现次数越多,则连接二者的边越粗。

将SPSS生成的聚类树状图和Gephi生成的特征词时序网络图组合起来,添加时间标签可得特征词聚类-时序网络图,如图2所示。

3.2.2 聚类区域分析结合图2,按照聚类效果,再结合语义将聚合的特征词划分为三个区域,将各区域汇聚的特征词按照语义重新组合可以归纳如下:

(1)网络计量理论与方法。网络计量学是研究主题,互联网上的各种信息是其基本的研究对象;文献计量学、信息计量学和科学计量学都是与网络计量学有密切关系的理论来源和学科前身,这些学科都是情报学的分支领域;引文分析、期刊影响因子和布拉德福定律分别是文献计量学中的重要方法、评价指标和经典定律,有学者将这些传统的理论和方法在网络环境中进行对比和应用,从而提出适用于网络计量学的新的方法论。网络影响因子是网络计量学最重要的评价指标,其借鉴文献计量学的期刊影响因子发展而来,2002年由杨涛等人发文引入[12],在网站影响力计量和网络信息质量评估方面应用广泛;网络使用因子是测度网站链接分布特征的重要指标,其在国内应用较晚,本文数据显示在2008年由邓中华等人最早发文引入[13]。链接分析是网络计量学特有的核心方法,而基于链接关系的计量也融入到网络计量学的基本理论体系之中;定量分析、比较研究、知识图谱等属于从其他学科借鉴而来的一般方法,由于这个部分所对应的论文有些是对网络计量学本身所做的理论探讨、综述研究和计量分析,因此这些方法可能被用于分析该学科本身。

(2)网络计量实证应用。网站影响力评价、网络信息质量评价、评价指标体系等都属于网络信息计量方法的重要应用领域,众多学者使用链接分析方法和由网络影响因子、网络使用因子等指标构成的指标体系对高校、图书馆、企业、政府、教育机构等的网站和国内外各种网络信息资源进行影响力评估和相关的信息质量评价,并结合这些评价结果来区分出某个领域的核心网站或者对网站网页进行排名研究。而这些网络计量学方法的实证应用领域还在随着时代发展而不断拓宽,网络计量方法开始只是针对企业网站进行评价,一年后被迅速应用于企业竞争情报的分析中,而随着反链接网络推广中的应用,专门针对反链接进行计量的竞争情报与反竞争情报研究也在2011年被引入[14];博客在中国兴盛于2005年,在2007年已有学者关注对博客的计量[15],并进一步提出了BlogRank[16]及博客计量学[17]等理念。这些新的应用领域同时也促使网络计量学的研究引入了一些新的分析方法,从共引分析发展而来的共链分析出现于2006年[18],是当前网络计量学发展势头较旺的新兴领域;另外基于内容的词频共现、聚类分析和多维尺度分析,以及社会网络分析、网络可视化的相关方法也分别在2004~2008年间被陆续引入。

(3)网络计量算法与技术。网络计量研究所面临的第一个重要问题就是Web数据的来源问题,获取信息的便捷性决定计量研究的可操作性,所能获取到数据信息的覆盖率和精确度直接影响计量研究的层次和质量,因此对基于Web的信息检索问题诸如对搜索引擎的研究和改进、网络爬虫的设计和应用以及对网络数据挖掘技术和信息采集、信息提取技术的研究都成为网络计量技术层面关注的重点。从2003年开始,一些单纯的网络数据的统计和采集已经不足以满足网络计量更深层的要求,于是相关学者开始研究基于内容和基于主题相关度的检索技术[19-20]。其后随着本体论推动下的语义技术的流行,基于语义相似度的网络挖掘和检索技术也成为2005年以来的研究热点[21]。而特征词中出现的PageRank算法、HITS算法等都是以上问题的具体实现形式,PageRank算法是Google搜索引擎的核心算法,它通过链接关系来确定网页等级,从而进行网页排名并形成搜索序列[22];HITS算法是Web结构挖掘中最具权威性和使用最广泛的算法[23];但这两种算法在实际使用中都存在诸如主题漂移、检索扩大化等不足,于是针对这些算法的改进和对各种算法的对比评价就备受关注[24-25]。此外,本区域还涵盖了对链接层次、锚文本链接、链接结构、链接倾向等专门问题的研究。

3.2.3 时序特征分析对图2的时序特征进一步观察可以发现:网络计量学的理论基础和基本方法起步最早,2000~2002年间国内的相关学者奠定了网络计量学的理论和方法基础,其后有学者将一些其他学科的方法指标陆续引入网络计量学的研究中来。在2005年,这个学科的理论基础已经成型,网络计量学自此成为一个独立学科,此后虽然仍有学者将一些新的方法陆续引入,但是2005年之后这个区域的新增词汇已明显稀疏。

理论研究离不开技术支持,国内的网络计量学起步较国外晚,早期的算法与技术研究多是图书情报学者从国外引进,并进行阐释和应用。而自从2003年以来,计算机科学领域的学者开始关注这个领域并为网络计量学的发展提供技术支持,相关研究的创新性和前沿性显著提高,到2008年,网络计量学的技术框架已经基本成型,但是在实证应用中发现的问题仍会促使技术不断发展,而技术的发展又会持续推动方法和理念的革新并不断发现新的问题,因此网络计量技术在近年来仍有许多新的理念不断引入。

网络计量学是一门应用性极强的学科,在实际中的应用是其研究的重要内容和目的,实证应用也一直伴随着这门学科的发展。从最早针对高校和图书馆的网站进行分类评价到对政府政务评价,再到企业竞争情报研究;从评价国内网站和信息资源扩展到对国外资源的评价并进行比较研究,网络计量学在自身发展中不断地扩展自己的应用范围。网络计量学一直保持着对新生事物的敏感,在其应用发展中不断有学者将新的分析方法和评价体系借鉴进来,2006年开始出现的共链分析方法已经成为该学科应用广泛的专门方法;近年来网络上兴起的博客、微博、反链接推广等新生事物也迅速转化为本学科研究的对象和材料,不难看出网络计量学是一个在应用中不断发展的学科。

4 结语

本文通过采集国内网络计量学方面核心期刊论文的题录和引用数据,应用Gephi绘制了期刊-学科-时序网络图和特征词聚类-时序网络图,整合可视化图谱中的时序信息和类别信息进行针对性的分析和探讨。基于对以上图谱的分析分别在研究领域、关注学科和主题热点方面由表及里地刻画出网络计量学内部的知识扩散特征。本文研究的创新之处是将不同统计量的分类特征整合到时序网络分析中,丰富了网络分析和可视化分析的相关方法,配合成熟的大型网络可视化工具Gephi的使用,在文献计量和知识扩散研究领域有较强的应用价值。但是本文分析多是通过可视化结果进行的定性分析,对知识扩散的定量测度不够深刻,在今后的研究中将尝试整合知识扩散速度、强度、广度等定量指标进行更深入的研究。

[1]Chen C M,Hicks D.Tracing knowledge diffusion[J].Scientometrics,2004,59(2):199-211.

[2]汤易兵,黄祖庆,张宝友.基于引文网络的知识扩散和整合研究——以供应链研究为例[J].情报杂志,2012(1):119-122.

[3]Gao X,Guan J.Network model of knowledge diffusion[J]. Scientometrics,2012,90(3):749-762.

[4]邱均平,李小涛.基于引文网络挖掘和时序分析的知识扩散研究[J].情报理论与实践,2014(7):5-10.

[5]韩牧哲,李秀霞,张艺蔓.基于模块化引文网络的网络计量学知识扩散水平测度[J].情报杂志,2015(7):189-194,178.

[6]沙勇忠,欧阳霞.网络信息计量学研究方法的三维框架[J].中国图书馆学报,2006(2):30-32,41.

[7]邱均平.信息计量学(一)第一讲信息计量学的兴起和发展[J].情报理论与实践,2000(1):75-80.

[8]张洋.国内外网络信息计量学研究现状分析[J].情报杂志,2008(5):40-44,39.

[9]邱均平,吕红.基于CSSCI的我国网络计量学研究进展可视化分析[J].图书馆,2014(3):61-65.

[10]Bastian M,Heymann S,Jacomy M.Gephi:an open source software for exploring and manipulating networks[J].ICWSM,2009(8):361-362.

[11]何金凤.基于中文信息检索的文本预处理研究[D].成都:电子科技大学,2008.

[12]杨涛,曹文娟.网络影响因子及其测度[J].图书情报工作,2002(9):24-27.

[13]邓中华,孙建军,李江.国外链接指标研究综述[J].情报科学,2008(7):1116-1120.

[14]李志义,肖炯恩.基于网络隐社区反链接挖掘的企业战略情报分析[J].图书情报工作,2012(16):85-90.

[15]邱均平,李江.链接分析工具——博客链接索引(BSI)的功能与应用[J].图书情报工作,2007(9):25-28,108.

[16]邱均平,徐蓓,李江.BlogRank算法及其在图书馆博客中的应用[J].图书情报知识,2008(1):68-71,77.

[17]李江.博客计量学的“独立资格”分析[J].图书情报工作,2008(8):97-100.

[18]周倩.共链分析方法的发展与应用研究[J].图书情报工作,2006(10):44-47.

[19]李盛韬,赵章界,余智华.基于主题的Web信息采集系统的设计与实现[J].计算机工程,2003(17):102-104.

[20]王晓宇,熊方,凌波,等.一种基于相似度分析的主题提取和发现算法[J].软件学报,2003(9):1578-1585.

[21]郑健珍,林坤辉,周昌乐,等.基于本体语义的定题爬虫[J].山东大学学报(理学版),2006(3):90-94.

[22]冯振明.Google核心——PageRank算法探讨[J].计算机技术与发展,2006(7):82-84.

[23]常庆,周明全,耿国华.基于PageRank和HITS的Web搜索[J].计算机技术与发展,2008(7):77-79.

[24]黄德才,戚华春,钱能.基于主题相似度模型的TSPageRank算法[J].小型微型计算机系统,2007(3):510-514.

[25]张娜,张化祥.基于超链接和内容相关度的检索算法[J].计算机应用,2006(5):1171-1173.

(责任编校骆雪松)

A Visualization Analysis of the Knowledge Diffusion in Webometrics in China

Han Muzhe1,Li Xiuxia2,Zhang Yiman2
1.School of Information Management,Central China Normal University, Wuhan 4300079,China; 2.School of Communication,Qufu Normal University,Rizhao 276826,China

Based on the title list and the citation data of the journal articles in Webometrics in China,the present paper employs Gephi to make a journal subject sequence network diagram and a feature-words-clustering sequence network diagram and then analyzes them respectively.The former diagram reveals the macroscopic features of the internal knowledge diffusion in the discipline of Webometrics,with its horizontal axis showing the earliest year in which a journal published articles in Webometrics and its vertical axis indicating the four types of journals which have published articles in Webometrics,namely journals of library and information science,journals of computer software,university journals and other journals. The latter diagram reveals the microscopic features of the internal knowledge diffusion by demonstrating the three main fields in Webometrics,i.e.Webometrical theories and methods, empirical application of Webometrics and Webometrical algorithm and technology.

Webometrics;knowledge diffusion;sequentialanalysis;network visualization

G350

韩牧哲,男,1990年生,2016级图书馆学博士研究生,研究方向为信息计量,发表论文4篇;李秀霞,女,1971年生,副教授,硕士生导师,研究方向为信息计量、数据挖掘,发表论文30篇;张艺蔓,女,1990年生,2013级图书馆学硕士研究生,研究方向为信息计量,发表论文4篇。

猜你喜欢

特征词计量学网络图
基于CiteSpace的医药语料库文献计量学分析
基于类信息的TF-IDF权重分析与改进①
针刺治疗失眠症的文献计量学分析
网络图计算机算法显示与控制算法理论研究
网络图在汽修业中应用
基于改进TFIDF算法的邮件分类技术
化学计量学在中药质量控制研究中的应用
产品评论文本中特征词提取及其关联模型构建与应用
基于科学计量学的公安院校科研与评价
面向文本分类的特征词选取方法研究与改进