APP下载

基于CiteSpaceⅢ的档案资源研究文献可视化分析

2018-09-10

山西档案 2018年5期
关键词:图谱聚类节点

档案作为信息的承载体,天生具有资源属性。档案由于原始性﹑真实性,发挥了其他形式信息资源不可替代的作用。在档案学界,关于档案资源方面的文献在不断增长,具体包括档案资源的整合建设﹑开发利用﹑评估体系﹑服务模式等方面。在这些研究中,马伏秋[1]采用计量分析的方法,从论文作者﹑引文﹑内容三个方面,对2000—2014年间在档案学两种CSSCI来源期刊《档案学通讯》《档案学研究》上发表的关于档案信息资源开发与利用的论文进行统计分析;周耀林[2]对2000—2009年间档案信息资源建设相关论文的数量﹑研究主体﹑核心高频词汇等进行了分析。本文旨在通过可视化知识图谱软件CiteSpaceⅢ,对CSSCI(中文社会科学引文索引)数据库中收录的档案资源方面相关文献进行分析。

一、数据来源和分析工具

(一)数据来源

CSSCI(中文社会科学引文索引)作为一个专门的引文数据库,可以检索从1998年到目前为止的来源期刊论文及其被引用情况。众所周知,CSSCI来源期刊是经过严格选择的,收录的文献质量较高,且数据库收录文献引用情况完备,界面简洁明了,检索结果精确。[3]本文以CSSCI(中文社会科学引文索引)数据库中的文献资料为数据来源,检索时间段为1998年—2017年,分别以“关键词=档案资源”“所有字段=档案资源”“篇名=档案资源”为检索式进行检索,分别返回119﹑141﹑96条记录,为了保证查全文献,最终以“篇名=档案AND篇名=资源”为检索式进行检索,共得到323条文献记录。

(二)分析工具

本文选取美国德雷赛尔大学陈超美教授及其团队研发的可视化软件CiteSpaceⅢ作为分析工具。CiteSpace工具自从2005年被引入国内学术界,就得到了学术界的广泛关注。CiteSpace软件可以分析合作﹑共现﹑共引﹑耦合这四种关联数据。本文具体用到的功能主要有:共被引文献分析﹑合著作者分析﹑关键词分析。通过这些分析,探查档案资源领域有影响力的文章及作者,分析档案资源领域研究内容及热点。

二、档案资源研究引文分析

在CiteSpaceⅢ软件界面,时间范围选择从1998年到2017年,时间分区(Year Per Slice)设定为1,即共分为20个时间区;主题词来源选择文献标题(Title)﹑摘要(Abstract)﹑作者关键词(Authour Keywords)﹑附加关键词(Keywords Plus);网络节点选择引用文献(Cited Reference),数据抽取对象为top20,即设置每一时间区取前20条记录;“剪枝算法”选择路径搜索(pathfinder)算法,选择此算法是为了使构建的图谱结构更加明显。运行软件,得到档案资源研究的作者共被引网络图谱,见图1。

图1 档案资源研究的作者共被引网络图谱

图1体现了各研究者与他人之间的共被引关系以及这种联系的强度。图谱中的圆形代表高被引作者,节点的大小和被引频次成正相关关系。两节点之间有连线代表节点作者之间存在共被引关系,连线的粗细表示作者共被引次数的多少,连线越粗表示两位作者多次被共同引用,表示研究领域相一致或有交叉。节点圈的厚度表明了被引作者的中心性。

被引频次和中心性并不是正相关的,这是因为中心性刻画的是点在整个网络中的重要程度。有些文章被引频次可能很高,但是与网路中其他节点之间联系并不紧密,其中心性就会比较低。一般来说,高被引频次文章及高中心性文章共同构成了研究领域的关键性文献。冯惠玲从宏观的角度认为,数字资源是当那资源的重要组成,建议构建“中国记忆”大型数字资源库。[4]何振等从组织机构角度构想了国家档案资源整合与共享工程。[5]钱毅从技术角度探讨了数字档案馆系统管理策略。[6]吕元智就具体数字档案资源语义描述工作进行了探讨。[7]肖希明则研究了国外三馆(图书馆﹑档案馆和博物馆)数字资源整合研究进展。[8]需要说明的是,Burst表示引文次数激增,对应文章为胡小琳的《论档案资源的社会共享》,主要论述了实现档案资源社会共享的策略和途径。[9]

三、档案资源研究关键词共现分析

共词分析主要是指通过分析两个词在同一篇文献中共同出现的频率来反映相关领域的研究情况。如果两个词反复在同一篇文献中共同出现,那么说明它们之间的联系很紧密,在相关领域中具有一定的意义。运用CiteSpaceⅢ可以对被研究文献的关键词进行共词分析,关键词是对文章的高度概括,几个关键词共同反映了文献的主题。

在CiteSpaceⅢ中选择关键词作为节点类型,运行软件,对得到的知识图谱进行调整,包括手动对某些节点的位置进行调整,以及删去不重要的节点及连线,尽量使得到的图谱结构较为明显,见图2。

图2 CiteSpaceⅢ中以关键词为节点类型的知识图谱

在与档案资源相关的文献中,在一定时间段内反复出现的关键词,被称为高频关键词。它们在一定程度上体现了研究领域的研究热点。

中心性越高的关键词在整个网络图中与其他关键词之间的联系越多,在图谱中的位置越重要。“档案信息资源”“档案馆”“数字档案资源”的中心性较高,表明在档案资源领域这三个关键词有着至关重要的作用。同时,中心性在0.01以上的关键词主要有“档案信息资源”“数字档案资源”“档案信息”“档案管理”,可以将它们分为两类,一类是主要热点理论,一类是主要热点应用。

在用CiteSpaceⅢ软件绘制聚类知识图谱的过程中,会自动将一些高频关键词归类在一个研究领域中,从而更生动地展示研究成果。通过软件聚类分析,可以得到图3:

图3 CiteSpaceⅢ软件绘制的高频关键词聚类知识图谱

图3中左上角中的Q值和S值两个指标,反映了图谱绘制效果。一般来说,Q值>0.3就意味着分析出来的聚类团组是显著的;当S值在0.5以上,一般认为聚类是合理的。本文中的聚类分析S值为0.6929,Q值为0.4754,表示聚类形成的类别是显著的,但是聚类的合理性有待加强。

根据图3,同时结合CiteSpaceⅢ软件中Cluster explore对关键词按聚类进行的列举,不同阶段对于档案资源所关注的研究热点不一样。聚类0企业档案主要包括企业档案﹑档案利用﹑档案信息资源﹑档案管理等关键词,企业档案资源如何管理﹑利用也一直是档案资源领域关注的热点。聚类1数字档案资源包括的关键词主要有资源建设﹑资源整合﹑资源共享﹑数字档案资源服务﹑国家数字档案资源等,数字档案资源整合建设的方式﹑途径等也是近几年档案资源开发所需要解决的问题。聚类2档案馆主要包括馆藏建设﹑信息服务﹑档案编研﹑关联数据|档案信息资源开发等,相关档案资源主要来源于各级档案馆,因此馆藏建设﹑编研及提供服务等内容也是各级档案馆一直在思考的问题。聚类3信息资源包括的关键词主要有档案网站﹑信息组织﹑政府主体﹑政府信息资源﹑管理服务|资源整合等,说明在档案资源领域,政府也是不可或缺的角色。聚类4档案学包括的关键词有档案学教育﹑本科教育﹑图书馆学﹑课程资源建设等,说明在档案学教育中档案资源也是一个重要内容。

四、结论

本文运用CiteSpaceⅢ软件对CSSCI数据库档案资源相关文献进行可视化分析,主要分析了共被引文献及关键词共现现象。通过对共被引文献的分析,找到了档案资源领域关键性的文章,从而发现了领域内有较大影响力的重要作者;通过对关键词共现的分析,将档案资源领域研究内容大致进行了聚类划分。在研究的过程中,也发现了相关问题,对于档案资源和档案信息资源的表述,有研究者认为两个词语外延不同,不能混淆使用。但在实际情况中,很多学者在文章中并不区分二者的不同,因此这两个关键词在分析中也可以合二为一。此外,关键词共现聚类效果并不是很好。究其原因,主要是有些文章关键词的选取并不能完整地表达文章主题,有些文章关键词太少,且较为“一般”,对于文章关键性的特点不能很好地展示,于是对关键词进行共词分析时可以考虑对关键词先行处理,使分析结果能尽量符合现实情况。

猜你喜欢

图谱聚类节点
CM节点控制在船舶上的应用
绘一张成长图谱
基于AutoCAD的门窗节点图快速构建
概念格的一种并行构造算法
基于K-means聚类的车-地无线通信场强研究
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法