APP下载

基于关键词共现和社会网络分析法的数字图书馆研究热点分析

2011-03-14殷沈琴张计龙任磊

大学图书馆学报 2011年4期
关键词:群体数字图书馆

□殷沈琴 张计龙 任磊

1 引言

数字图书馆是利用数字技术获取、存取、发布信息的图书馆。1971年的古登堡项目(ProjectGutenberg)是世界上较早的数字图书馆项目,而绝大多数国家的数字图书馆研究始于 20世纪90年代初,1993年美国发起著名的“数字图书馆先导项目”(Digital Library Initiative),受其影响,同一时期很多国家纷纷出台相应的数字图书馆计划,兴起一股全世界研究数字图书馆的热潮,其后随着互联网和通讯技术的发展,数字图书馆的研究和实践迅猛发展,随之涌现了大量研究数字图书馆的文献,对这些文献进行统计分析可以帮助我们了解数字图书馆的研究现状、学术热点及发展趋势。

国内外对数字图书馆领域的文献进行计量分析的论文数量较少,2007年前发表的国内论文[1-4]主要集中对数字图书馆相关文献的定量研究,如对文献数量、著者、机构、核心期刊、经典文献内容进行分析,这些研究主要通过频数进行描述分析,采集的数据均在2005年之前,数据的年限一般是10年,对研究主题较少涉及。2009年董伟运用共词分析和多元统计分析法对国内图书馆1999-2008年的数据进行了分析[5],苏娜运用共词分析结合Ucinet软件绘制国外数字图书馆关键词共现网络[6],这两篇文章均利用可视化工具直观表现关键词之间的关系,在此基础上对数字图书馆研究主题进行分析,但较少涉及数字图书馆领域的研究内容随时间变化的趋势。目前笔者检索到的对数字图书馆的作者进行合著分析的文献仅有一篇,2005年Xiaoming Liu等采用合著分析对1994-2004年ACM、IEEE的会议数据进行研究[7],从社会网络分析的角度去说明文献作者之间的关系,并利用A uthorRank算法对作者的影响力进行排名,但并未对合著者的研究主题做阐述和进一步挖掘。

本研究将在上述研究的基础上,结合科学计量学中比较成熟的研究方法,将1991~2010年间Web o f Science中SCI-E和SSCI收录的研究数字图书馆的论文,分成4个时间段,进行关键词共现分析,全面了解二十年来数字图书馆的发展历程;并对合著作者进行分析,构建作者社会网络图谱,展现主流学术合作群体及其核心思想,多视角解析数字图书馆的研究主题和热点。

2 数据来源和研究方法

2.1 数据来源

在Web of Science的SCI-E、SSCI数据库中,以(主题=“digital librar*”OR 主题=“virtual librar*”OR 主题=“electronic librar*”)为检索式,统计年限为1991~2010年,截止日期为2010年8月31日,选取“A rticles”精炼结果,检索出 1752篇文献,抽取关键词、作者、机构、国家、发文期刊等字段进行统计分析。

2.2 关键词共现分析

关键词共现分析法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的关键词在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明关系越密切、距离越近。利用因子分析、聚类分析和多维尺度分析等多元统计方法,可以进一步按这种“距离”将一个学科内的重要主题词或关键词加以分类,从而归纳出该学科的研究热点、结构与范式[8]。

2.3 社会网络分析

社会网络分析起源于社会计量学,是一个受多学科影响的交叉学科。社会网络分析将社会结构界定为一个网络,这个网络由成员之间的联系进行连接。社会网络分析更多地聚焦于成员之间的联系而非个体的特征,并把共同体视为‘个人的共同体',就是视为人们在日常生活中所建立、维护并应用的个人关系的网络[9]。

2.4 合著分析

两位或多位作者共同发表一篇文献,则被界定为他们之间存在联系。作者之间的合著关系是社会关系中很重要的一种,根据作者共现矩阵可以构建合著网络模型,其中,节点代表合著论文的作者,联系代表作者之间的合著关系。

图1 数据处理流程图

如图1所示,本文在高频关键词共现矩阵的基础上,利用多元统计分析将高频关键词按照相互之间的距离和相似度分成几大区域,同一区域的词代表类似的研究方向,不同区域代表不同的研究方向,来揭示数字图书馆的研究主题。社会网络分析方法被证明可以成功地研究科学合作网络和互联网中的可视化网络[10]。本文亦采用社会网络分析法对数字图书馆领域的学术合作群体进行分析。

3 统计与分析

3.1 论文发表时间分布

1991~2010年间被SCIE、SSCI收录的论文共计1752篇,如图2所示,从1991年开始逐年上升,在2000年达到峰值,2001年有所下降,2001~2005年文献量基本保持稳定,2006年达到新的峰值,2007年小幅下降,2007~2009年保持稳定,而2010年数据不全,不计入内。

图2 1991-2010年的发文量统计

3.2 各时间段高频关键词统计

高频关键词可以很好地反映某一领域的关注热点。对每年论文关键词进行词频统计排序。根据各年关键词的相似度,及每年论文数量变化,可将1991年以来数字图书馆的发展分为4个时间段:1991~1995年、1996~2000年、2001~2005年、2006~2010年。按4个时间段重新统计高频词,表1列出各阶段前30个高频词及出现频率。

3.3 4个时间段的高频关键词共词分析

为关注数字图书馆研究的重点领域,本文对表1所示的每一时间段的高频关键词进行共词分析,首先剔除关键词 digital libraries、digital library,然后根据关键词在同一篇文档中出现的频率生成关键词共现矩阵,并对矩阵标准化,消除矩阵因关键词频次差异的影响。然后利用多维尺度分析结合聚类分析和因子分析,分别得出 1996~2000年、2001~2005年、2006~2010年高频关键词知识图谱,如图3、图4和图5所示,下文将结合图2对各个时间段的研究内容进行分析。其中1990~1995年的关键词词频较低,各关键词之间的距离较大,不能形成明显的聚类,直接通过关键词和文章摘要对这一时间段的研究进行说明。

美国国家科学基金会(NSF)1993年发起、1994年资助美国6所大学图书馆开展“数字图书馆先导计划”项目(Digital Library Initiative),标志着大规模数字图书馆研究的开端,同一时期,英国、日本、新加坡均提出相应的数字图书馆计划,在此背景下,如图1所示,1995年的发文量由1994年的22篇跃为60篇。数字图书馆研究的初始阶段,文献数量不多,关键词的频次均为个位数,由图2所示的关键词和文章摘要可以看出,这一阶段的研究内容集中在:(1)数字图书馆的定义、功能及概念辨析。“数字图书馆”(digital library)这一概念从混沌走向清晰,电子图书馆(electronic library)、虚拟图书馆(virtual library)、数字图书馆(digital library)这三个相近但又有着差别的概念,被数字图书馆取代。(2)数字图书馆系统建设相关信息技术与基础设施。(3)数字图书馆能提供的服务等。这一时间段旨在探索相关技术和基础平台,以试验为目的。

表1 数字图书馆论文分时间段高频词

图3 1996~2000年高频关键词知识图谱

1996~2000年文献量稳定增长,每年增幅在20篇左右,并于2000年达到发文的峰值。和这一时间段的背景密切相关:一方面互联网和信息技术的飞速发展为数字图书馆的发展奠定了基础,另一方面随着1993年美国“数字图书馆先导计划”(DLI)的启动,其他国家纷纷效仿,如1996年德国通过1996~2000年信息技术发展计划,1997年中国开始建设“中国试验型数字式图书馆项目”,1999年俄联邦政府批准预算为2亿卢布的“俄罗斯电子图书馆”项目等。这一时期全球范围内各国政府重视数字图书馆的建设和发展,对图书馆界产生了巨大影响。通过图3的知识图谱可以看出,这一时间段的研究内容主要分为5个区域:(1)多媒体数据的压缩与传输,电子数据交换,元数据;(2)开始研究用户学习、用户界面、虚拟现实、机器学习等;(3)信息系统和互操作、安全性、信息检索(基于内容的检索);(4)复合图书馆设计(纸质馆藏和虚拟馆藏相结合)和数字图书馆性能评估;(5)语义检索和并行计算、多媒体数据库、图像视频数据库等。

图4 2001~2005年高频关键词知识图谱

2001~2005年文献量变化不大,保持在100篇左右,第一、二时间段启动的数字图书馆项目都已接近尾声,开始新一轮工程建设。如图4所示,研究内容集中在:(1)信息服务与用户教育:以用户为中心设计数字图书馆,如计算机辅助设计、人机交互界面等,关注用户学习、用户教育等;(2)数字出版、电子图书、电子期刊、引用影响力、同行评审等。(3)信息检索、搜索、开放系统、知识管理、数据处理;(4)信息系统与信息管理、元数据标准、数据挖掘、多媒体数据管理系统等。

图5 2006~2010年关键词知识图谱

数字图书馆事业的繁荣不断推动着数字图书馆研究,2006年发文量继2000年之后又达到一个新的峰值。由图5可以看出,2006~2010年的研究分别由不同的关键词构成4大区域,同一区域内的关键词之间的距离较小,相似度较大,代表同一研究方向,主要包括:(1)信息检索、语义网、搜索引擎、数据挖掘和文本挖掘在数字图书馆中的应用、资源索引模型、数字图书馆系统与标注等;(2)数字图书馆服务:包括信息服务、用户界面重新设计、虚拟视频、基于用户信息行为分析基础上的服务如个性化服务、信息推送服务等;(3)数字存储:包括存档管理、自存档系统,元数据标准等;(4)数字图书馆的资源建设:包括电子期刊管理、数字出版物等;(5)其他关于国家和地区的词如“United Kingdom” 、“China”、“Canada”等,显示数字图书馆研究核心地区和国家。由上可知,这一时间段,数字图书馆侧重于资源的建设和应用,研究趋于多元化,与不同学科交叉融合。数字图书馆上升到应用层面,注重从用户视角进行分析,提供更具个性化和多样化的信息服务。

3.4 1991-2010年排名前10位的高频关键词统计

剔除 digital libraries,virtual library、electronic library、1991~2010排名前10的高频词汇随年份变化频率如图6所示。

图6 高频关键词随年份频次变化图

可以看出,信息检索一直是历年研究的热点所在,信息检索贯穿整个数字图书馆的发展历程。而数字图书馆是基于网络环境共建共享的可扩展的知识网络系统,随互联网应运而生,以互联网为基础平台,随互联网的发展而发展。数字图书馆的发展离不开图书馆的支撑,最早启动的数字图书馆项目均是由图书馆来负责实施的。数字图书馆包括所有数字形式的图书馆资源:经过数字化转换的资料和本来就是以电子形式出版的资料,如电子期刊等。故电子出版、电子期刊也是重要的关键词。元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具,是信息检索的基础,元数据标准的制定、搜集、收割和管理一直是数字图书馆研究的一个重要方面。从2000年开始,用户学习开始受到重视,基于用户视角的可用性学习、用户界面和用户模型等成为研究内容,相应的针对用户的信息服务亦是重点。

4 国际合作前沿

关于合作模式的研究在三个层面上进行:基于作者个体的微观层面、基于合作机构的中观层面以及基于合作国家的宏观层面[11]。早期对合作模式的研究主要在科学计量学领域,且集中在组织机构和国家层面上的合作模式,对论文作者层面上的微观结构研究得比较少。国内外文献对数字图书馆领域的合作模式的研究也比较少,Xiaoming Liu等[7]对数字图书馆领域的国际会议论文作者合著模式进行研究,但对各个学术合作群体的主要思想并没有阐述。本文在上述研究基础上,在微观层面基础上构建数字图书馆领域的学术合作群体,同时结合论文摘要,揭示主要学术合作群体的研究领域。

4.1 主要学术合作群体

1991~2010年,主题词为“数字图书馆”的1752篇文章中,可萃取出1001位不同作者,总出现频次为3676次。选取论文产出量高于和等于4的高产作者,在这一阈值间有43位作者,根据他们的合著数据,生成作者共现矩阵,利用社会网络软件UCI-NET,通过聚类将其分为7个学术合作群体(群体人数>=3),如图7所示。每一个节点大小代表节点的度的中心性,也就是说与某一作者有合作关系的人数越多,度的中心性越高,节点越大;线条的粗细表示每一个合作对之间的合作论文数,线条越粗,两个作者合作次数越多。表2显示7个合作群体的作者组成、论文数和国籍/地区分布,从中可以了解国家之间的合作和不同地区之间的合作。

最大的合作群体以 Rimmer J、Blandford A、W arw ick C 、Buchanan G 、Gow J为核心人物,一共有8位作者,分别来自英格兰和威尔士的三所机构,他们之间已经合作发表了数篇论文,形成了比较稳定的合作关系。

合作群体2由来自美国和巴西的4位作者组成,以Fox EA为核心人物,从图 7也可以看出,Goncalves MA和 Laender AHF之间的合作更紧密。合作群体3包括美国两所机构的4位作者,以Nelson M L为核心作者。还有4个包括3位作者的学术合作群体和6个合作对。合作群体4由来自美国的3位作者组成,合作群体5来自美国和意大利,合作群体6来自英格兰和威尔士,合作群体7来自英格兰。2人合作对Bainbridge D和W itten IH均是高产作者,且关系稳定。另有5位作者没有与其他作者合作过。

图7 高产作者社会网络图谱

由上可知,英格兰和美国是研究数字图书馆的重镇,这一点从论文的国家分布数也得到证实,发文前三位的国家分别是美国、英国和中国。英国不同地区不同机构的合作较频繁,美国学者则与巴西、意大利学者的合作比较多。整体而言,与其他学科相比,数字图书馆领域的作者合作的规模比较小,作者之间的合作网络比较松散,国际合作较少。

表2 作者所在组别、发文量和国家地区

4.2 主要学术合作群体思想述评

学术合作群体1是最大的合作群体,且形成了比较稳定紧密的合作关系。

2008年,M akris S等利用Ellis的信息搜索模型分析律师的信息行为,从而改进设计,提升信息检索效率[12]。同年,M ak ri S等通过David Eillis's的模型,针对信息行为分析来评估电子资源的功能性和可用性[13]。

2007年Blandford A等通过在数字图书馆的设计过程中引进情景导向设计(scenario based design),在不同用户的需求间达成共识[14]。2008年,Bland ford A等应用CASSM方法,专注于用户和交互系统之间的匹配,以评估数字图书馆系统的可用性,并通过指出系统重新设计的可能性来提升可用性[15]。同年,Bland ford A等通过 PRET A Rapporter框架,评估信息检索系统(尤其是数字图书馆)的交互性,以及与用户更广泛的信息工作要求之间的匹配度[16]。

2009年,W arw ick等指出数字人文资源存档的重要性,存档既包括文本标引或数据库建设等技术文档,也包括资源建设的过程文档[17]。

由上可知,学术合作群体1的主要研究方向集中在数字图书馆的可用性、人机交互和设计上,包括可用性评估,通过用户信息行为分析和认知过程来改进设计,从而提升可用性和信息检索的效率等。

学术合作群体 2以美国学者 FOX EA为主,FOX EA是公认的十大数字图书馆专家之一,完成了很多数字图书馆系统的开发(如ETD 、CITIDEL、NDLTD 、A rchDL 、EPrints等),他的早期研究涉及到数字图书馆的多个方面。近年来,Goncalves M A、Moreira B L和Fox EA等学者构建了用于评估数字图书馆运行和服务质量的5S(社会、情景、空间、结构与信息流)模型,在其模型框架中,各种不同类型的数字图书馆均有不同的质量维度,且这些维度都有不同的评估指标[18]。他们还就其所提出的数字图书馆质量模型与数字图书馆信息生命周期结合起来,拓展了原有的质量模型,以阻止、监测、评估并消除数字图书馆服务过程中的问题,并应用5S质量模型对数字图书馆进行自动化评估[19]。由上可知,学术合作群体2近年来的主要研究领域在基于5S模型的数字图书馆运行和服务质量的评估。

学术合作群体3主要研究数字图书馆技术,包括搜索引擎、OM I-PMH元数据收割等。学术合作群体4聚焦在特色馆藏数据库建设,比如NASA的天文数据系统。学术合作群体5研究数字图书馆的存取控制和认证系统。学术合作群体6的发文时段为2004~2005年,主要研究资源数字化、用户行为和数字信息服务,近年未再合作发文。学术合作群体7的研究2007-2009年主要集中在个性化的数字图书馆、信息搜索、认知模式和以用户为中心的设计。

通过对7个主要学术合作群体的分析,我们发现,近年来数字图书馆的研究主要围绕数字图书馆的可用性评估、基于用户信息行为分析和认知模式的人机交互设计、个性化数字图书馆、基于5S模型的数字图书馆运行和服务质量评估等方面。

5 结语

综上所述,近二十年来,数字图书馆的发展受到互联网、信息通讯技术、国家政策的巨大影响;信息检索始终是研究的重点,随着信息技术的发展不断深入,从文本检索、图像检索到语义检索,研究粒度不断细化;基于用户信息行为分析的信息服务、用户界面和用户研究日益受到重视,成为数字图书馆领域主要学术合作群体的重要研究内容;数字图书馆从最初的系统平台和技术研究发展到针对资源建设、可用性评估和质量评估的研究,从理论逐步走向运用。数字图书馆领域的学者的国际合作的规模比较小,集中在少数发达国家之间,作者之间的合作网络比较松散,国际合作有待进一步加强。

1 赵秀君.十年来我国数字图书馆研究统计分析.图书情报工作,2005,49(8):99-102

2 周静怡,孙坦.基于W ebof Science的数字图书馆研究论文定量分析.情报科学,2005,23(10):1521-1525

3 钟云志,周东晓,杜香莉.基于洛特卡定律对我国数字图书馆的研究.情报杂志,2006(6):113-114

4 晏尔伽,朱庆华.1996-2005年SCI-E数据库中数字图书馆研究文献定量分析.情报科学,2007,25(12):1823-1828

5 董伟.国内近十年数字图书馆领域研究热点分析—基于共词分析.图书情报知识,2009(5):59-63

6 苏娜.基于共词分析的数字图书馆领域研究主题及进展分析.情报杂志,2009,28(6):15-19

7 Xiaom ing Liu etc.Co-authorship netw orks in the digital library research comm unity.Information Processing and Managem ent,2005,41(6):1462-1480

8 邱均平,周春雷,杨思洛.改革开放30年来我国情报学研究的回顾与展望(下).图书情报研究,2009,2(2):1-9

9 Otte E,Rousseau R.Social Netw ork Analysis:a PowerfulStrategy,also for the Information Sciences.Journal of Information Science.2002,28:443-455

10 侯海燕.科学计量学知识图谱.大连:大连理工大学出版社,2008:28-29

11 Hildrun K retschmer.Author productivity and geodesic distance in bibliographic co-authorship netw orks,and visibility on the Web.Scien tometrics,2004,60(3):1-12

12 Makri S,Blandford A,Cox AL.Investigating the information-seeking behaviou r of academ ic lawyers:From Ellis'smodel to design J.INFORMA TION PROCESSING &MANAGEM ENT,2008,44(2):613-634

13 Makri S,Blandford A,Cox AL.U sing Information Behaviors to Evaluate the Functionality and Usability of E lectronic Resources:From Ellis's Model to Evaluation J.JOURNAL OF THE AMERICAN SOCIETY FOR INFORMAT ION SCIENCE AND TECHNOLOGY,2008,59(14):2244-2267

14 Blandfo rd A,Keith S,Bu tterworth R,et al.Disrupting digital library developmen t with scenario info rm ed design J.INTERACTINGW ITH COMPUTERS,2007,19(1):70-82

15 Blandford A,G reen TRG,Furniss D,et al.Evaluating system utility and conceptual fit using CASSM J.IN TERNATIONAL JOURNAL OF HUMAN-COM PUTER STUDIES,2008,66(6):393-409

16 Blandford A,Adams A,A ttfield S,et al.The PRET A Rapporter framew ork:Evaluating digital libraries from the perspective of information w ork.J.INFORMATION PROCESSING&MANAGEMENT,2008,44(1):4-21

17 Warw ick C,Galina I,Rimmer J,et al.Documentation and the users of digital resources in the humanitiesJ.JOURNAL OF DOCUMEN TAT ION,2009,65(1):33-57

18 Goncalves M A,Moreira BL,Fox EA,et al.“What is a good digital lib rary?”A quality model for digital libraries.INFORM ATION PROCESSING&MANAGEMENT,2007,43(5):1416-1437

19 Moreira BL,GoncalvesMA,Laender AH F,et al.Au tomatic evaluation of digital libraries w ith 5SQual.JOURNA L OF INFORM ETRICS,2009,3(2):102-123

猜你喜欢

群体数字图书馆
通过自然感染获得群体免疫有多可怕
“群体失语”需要警惕——“为官不言”也是腐败
图书馆
答数字
数字看G20
去图书馆
成双成对
关爱特殊群体不畏难
特殊群体要给予特殊的关爱
数字变变变