APP下载

链接分析研究综述

2008-07-24殷之明

大学图书馆学报 2008年2期

李 江 殷之明

摘要在调研近十余年国内外链接分析研究的相关文献的基础上,归纳了链接分析研究的四大视角,即网络计量学视角、检索优化视角、Web结构挖掘视角和Web结构图建模的视角,并详细分析了各个研究视角的现状,然后在此基础上提出了链接分析发展中的问题及发展趋势。

关键词 链接分析 网络计量学 检索优化 Web结构挖掘 Web结构图建模

链接分析(Link Analysis),如果从李彦宏1996年提出的链接分析算法[1]算起,已有十余年的研究历史了。综观十余年来国内外链接分析研究的相关文献,便会发现其主要著者为文献计量学、网络计量学、信息检索等领域的学者,不同领域的学者研究的侧重点有所不同。本文在国内外链接分析研究相关文献的基础上将其综述为四大研究视角,并提出了链接分析发展中的问题及发展趋势。

1 链接分析研究四大视角

1.1 网络计量学的视角

邱均平等从网络计量学的角度提出了链接分析的研究内容包括如下几个方面[2]:链接和被链接量、链接网页的类型、链接的频次和变化、链接网页之间的关系和网络电子图书、期刊引证分析等。在这样的研究框架下,部分学者用统计的方法研究网站网页的链接特征;部分学者借助入链数量与网络影响因子评价网络信息资源及网站的网络影响力,并以此与电子期刊及大学评价排行榜类比;还有一部分学者则对链接分析的理论基础提出质疑,并尝试论证其有效性。

1.1.1 链接特征分析

邱均平等将链接特征分析的指标归纳如图1所示,并从101个美国商学院和医学院网站中抽取40个作为样本,考查了网站链接特征的相似性,站内外链接数量的比例等[3]。以相似的研究方法,马大川等分析了中美心血管学网站的链接特征,以探讨网站质量与链接特征之间的关系[4];段宇锋分析了中美大学网站的链接特征及中国财经类院校[5]、美国商学院和医学院网站的链接特征[6],以探讨网站评价的指标体系,并将网站分层,对不同页面层的链接数量分布、链接密度、页面平均链接数进行比较,进而得出结论:网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位[7]。链接,作为网络形成的枢纽,是互联网研究的重要研究对象之一,通过对链接特征的分析,可以深入了解网络信息资源的网状结构及资源分布状况。

1.1.2 网络信息资源评价

网络计量学中的链接分析法犹如文献计量学中的引文分析法,可用于科学评价,其基本假设为:链接代表认可,其评价对象主要为网络信息资源,如网站等。在网络信息资源的评价中,链接分析主要作为一种定量评价方法,通常与定性方法相结合,构成综合性的评价指标体系[8][9][10][11]

而在网站评价的实证研究中,网络影响因子通常扮演着不可忽视的作用。1998年,Ingwerson在The Calculation of Impact Factor[12]一文中提出了“网络影响因子(Web Impact Factor)”这一概念,用于计算网站的影响因子,类似于期刊的影响因子(也称加菲尔德因子[13]),进而评价网站的网络影响力。Ingwerson将网络影响因子定义为:指定时间内,指向某一国家或网站的外部链接与自链接页面数的累计和与该国家或网站内部页面数的比值,并特意强调这一算法中的分子是外部链接与自链接的页面数量之和,而不是外部链接与自链接数量之和。而自WIF诞生至今,其适用范围问题、有效性问题一直饱受争议,有许多学者纷纷提出了改进算法,如将分子中的内部链接数剔除[14],将分母改为“大学全职科研人员总数”,用于大学网站的评价[14][15][16][17][18]等。

在WIF用于网站评价的过程中,学者们多结合实例,多选取国内外不同学科、不同大学、不同院系的网站作为评价对象,而对于评价结果与效果,大多也各执己见[21][22][23][24][25][26]。除了用链接分析的方法评价国家、大学、院系网站、电子学术期刊等,Franz Barjak,Xuemei Li和Mike Thelwall还用链接分析的方法评价了科学家,作者选取欧洲6个国家5个学科的456名科学家的个人主页作为研究对象,对其进行了评价[27]。不仅如此,学者们还将网络影响因子评价网站的结果与电子期刊的影响因子比较[28],与大学评价的排行榜比较 [29][30][31]

1.1.3 对链接分析有效性的论证

十余年来,链接分析在蓬勃发展的同时,因沿用引文分析的理论方法而受到重重质疑,如网络影响因子这一指标是否合理、商业搜索引擎作为链接分析工具得出的数据是否可靠、用链接分析这一方法评选核心网站是否可行等[32] [33],毕竟,网络环境与学术期刊环境有着本质的不同。

刘雁书、方平认为站外链接关系反映的是被链网页被利用与被推荐的总体情况,与被链网页质量存在正向(肯定)联系,因此利用站外链接评价网络信息是可行的[34][35]。张晗为研究该方法的可靠性,选择Medical Matrix作为对照工具,将专家对网站的评价等级与链接分析法的评价结果做相关性检验,检验二者的一致性[36]。邱均平、李江从链接分析与引文分析比较的角度对链接分析的有效性进行论证,并对链接分析理论沿用引文分析理论的适用范围作了说明[37]

当前网络计量学视角的链接分析的有效性可谓见仁见智,作为网络计量学的重要组成部分,作为情报学的重要研究方法,链接分析在不断发展着,也在不断完善着。

1.2 检索优化的视角

网络计量学视角的链接分析研究自然在网络计量学诞生(以1997年T.Almind和P.Ingwersen发表Informetric Analyses on the World Wide Web:Methodological Approaches to “Webometrics”[38]为标志)之后,但在此之前,用于信息检索结果相关性排序的链接分析算法就已经诞生了。随着网络计量学研究的深入,搜索引擎被用作链接分析工具,链接分析效果也反过来作为搜索引擎性能的测度指标。当前,搜索引擎主题不明确等问题日益突显,为解决这一问题,聚焦爬虫成了研究热点,链接分析也在其中有了应用。

1.2.1 检索结果相关性排序

1998年Pagerank算法[39]和HITS算法[40]的诞生改变了检索结果相关性排序的历史。Pagerank算法在google中应用至今,商业上取得了很大成功,以至于催生了网络中的SEO(Search Engine Optimization)的诞生,虽然其在应用过程中也暴露出了一些缺陷,也出现了各种各样的改进算法[41][42],包括IBM Almaden 实验室的CLEVER 系统、Compaq 系统研究中心的Web Archaeology 项目以及王晓宇提出的STED算法[43]。但基本都遵循了Pagerank算法的迭代原理。而HITS算法更大程度上是一种实验性质的尝试,它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。这使得在实际应用环境中使用HITS算法变得十分困难,尽管有人尝试通过算法改进和专门设立链接结构计算服务器等操作,可以实现一定程度的在线实时计算,但这对于每天要处理超过几十亿次用户需求的商用搜索引擎而言,这样的计算代价仍然是不可接受的。此外,HITS算法在主题提取中有着广泛的应用,但因存在如下缺陷:①站点内部网页在权威度数值上的相互加强;②网页辅助制作工具自动生成的链接条目的干扰;③与主题无关的网页或者主题漂移[44]。其诞生后的改进算法也层出不穷[45][46][47][48][49][50][51] [52]

1.2.2 对搜索引擎性能的评价

链接分析研究初期,对链接数量等各指标进行统计时,主要以商业搜索引擎Google、Alltheweb、Altavista等为工具。国外初期的链接分析工具以Altavista为代表。如Larson[53],Ronald Rousseau[54],Peter Ingwersen[55],Owen Thomas和Peter Willett[56]在做实证分析时,均以Altavista为链接分析工具;国内早期的链接分析的实证研究中,吕俊生[57]、刘雁书等以Fast Search为工具[58],邱均平[25][59]、段宇锋[5][20][30]、朱雷[60]等以Alltheweb为工具,马大川以Google为工具[4]

而反过来,搜索引擎用作链接分析工具时的效果可用于评价搜索引擎的性能,如Peter Ingwerson指出,计算WIF值时,搜索引擎统计结果时的性能可以作为搜索引擎质量评价的一个测度[55]。国外学者纷纷用“一致性/不一致性(Irregularity[61]、Flexibility[62]、Inconsistency[63][64][65]、Stability[66])”描述搜索引擎对于同一检索式在不同时刻返回不同结果的特征,许多学者也将不同搜索引擎用作链接分析工具时的性能做了比较研究[67][68][69][70][71],邱均平、李江等人通过严格的数学计算和统计分析得出结论为:Google、Alltheweb、Altavista 三者之间的检索结果一致性存在显著性差异,Google 检索结果一致性最好,Alltheweb 次之,Altavista 再次之[72]

1.2.3 聚集爬虫(Focused Crawler)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎,例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性[73]:①不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;②通用搜索引擎的目标是追求尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;③万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;④通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源[73]。在聚焦爬虫的研究方面,链接分析也起到了各种各样的作用,G. Almpanidis等人开发了基于潜在语义的、结合文本与链接分析的分类器[74];汪涛等人则利用链接分析对主题爬虫的爬取算法进行了改进,并通过实验,比较引入链接分析前后的结果,论证了其设计的可行性与可操作性[75]

1.3 Web结构挖掘的视角

苏新宁将Web数据挖掘分为三类[76]:Web内容挖掘、Web结构挖掘和Web日志挖掘。Web结构挖掘主要对Web中页面链接关系进行处理和挖掘,以此了解Web站点的主题、用户接口、标记语言、连接与响应速度、站点信息构建、潜在关联内容等,并从这些内容中发现站点的受重视程度、站点主体的信息化水平等。

1.3.1 Web页聚类

聚类就是将数据对象组成不同的类(或簇),使得类间的相似性尽量小,而类内的相似性尽量大[76]。Web文档中不仅包含内容,还包含指明Web文档间关系的链接,利用其间的链接关系可将Web页聚类。事实上,Web页聚类是数据挖掘中的一个重要研究分支,可应用于信息检索、网络计量学等领域,笔者按方法特性将其放在Web结构挖掘视角下进行探讨。

Web页聚类研究中,有学者直接利用页面间的链接关系提出或改进聚类算法,用于Web页聚类,如何拥军等[77]、王元珍等[78]在链接分析的基础上提出了将检索结果聚类的方法,用于提高检索效率;也有学者利用共链分析法挖掘页面间的潜在关联后将其聚类,如牛春华、沙勇忠运用链接分析方法,探讨了我国38所“985工程”院校网站Web空间内部的链接情况,并采用聚类分析、多维尺度分析进行了网站聚类[79]

1.3.2基于共链分析的潜在资源发现

Web结构挖掘的实证研究中,网络共链分析(Web Colink Analysis,WAC)是有一种常用而有效的方法,尤其是在获取一些隐性网络信息资源方面。虽然当前共链分析研究的学者多为网络计量学领域的学者,多从将共链分析与文献计量学中的共引分析比较的角度着手,但因为共链分析早在网络计量学诞生之前就已出现(1996年[53]),因此笔者未将其放在网络计量学视角下叙述,而从应用的角度将其放在了Web结构挖掘的视角下。

1996年,美国加州大学伯克利分校的情报学家Ray R.Larson率先研究了共链现象。他认为通过Web 网页共链关系可以观察网络空间(cyberspaces)的结构,并做了相应的实证分析——利用Altavista搜索引擎获取数据并分析了地球科学、地理信息系统、卫星遥感三个学科的相互关系以及发展趋势[53]。2003年,Mike Thelwall等人利用共链和耦合理论进行了网络中相似学术网站的发现与识别研究[80]。2004年,Vaughan 分析了32家电信企业在“雅虎全球”和“雅虎中国”上的共链情况,得出各企业在全球和中国两个市场中的相对竞争地位[81]。2006年,Alesia Zuccala将网络共链分析(Web Colink Analysis,WAC)和作者共引分析(Author Cocitation Analysis,ACA)从数据选取、数据搜索策略、数据矩阵、数据地图和聚类、对共引共链的解释五个角度进行了比较分析,认为二者可称为网络计量学与文献计量学中的姐妹技术,但因链接分析理论尤其是链接动机分析理论方兴未艾,WAC的适用性有待深入考证[82]

Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息。通过对社区信息的认识可以帮助我们总览Web的全貌。而将Web按照社区来组织有许多优点:社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者;社区还代表了Web的社会活动,因为Web就是一个社会性的网络。因此,“网络社区发现”便成了链接分析研究的又一个应用。基于共引用与共耦合关系的社区发现方法便是一种有效的发现Web上根据“主题”聚集在一起的多个社区的方法[83]

1.4 Web结构图建模的视角

将互联网的整个结构图作为对象来研究不仅对理解互联网的各种属性有直接意义,同时还对很多互联网算法(例如搜索、爬取以及社区发现等)都有重要帮助。另一方面,在研究这些互联网算法的同时,很多实验和观察也进一步促进了Web结构图的研究。

1.4.1 随机模型

Kumar R等人认为,将页面和页面上的链接视为结点和边便形成了有向图,根据创建结点和删除结点的随机特性,认为Web结构图是一种随机模型[84]。这种图不同于传统的图模型,传统的图模型是静态的,即模型一旦被创建,则图中节点和边的数目就固定了。但是, Web结构图模型中有新的结点和边随着时间的变化不断在图中出现,而已有的一些结点可能在图中消失。

1.4.2 Internet小世界模型

小世界现象通常可解释为:若网络中两点间的平均距离L随网络大小(网络中结点数N)呈对数增长,即LlnN,当网络中结点数增加很快时,L变化相对缓慢。六度分离现象中,平均距离L便等于6。有学者设计了一种软件,通过这种软件对Internet做数据采集分析发现,Internet中的平均距离是19个链接,也就是说,在Internet上随机任意取两点,不断地点击这上面的链接,点击19次即可到达另一点,这便是Internet小世界特征[85]。用这样的模型来描绘Web结构图,有助于我们深化对Web结构的理解。不仅如此,研究Web结构图模型可以改善Internet的信息交流过程,如利用小世界网络特征来缩短Internet上信息传播的路径长度和提高网络的可靠性。

总之,链接分析不仅局限于上述四大视角,还有学者从其他视角研究链接分析,但因停留于尝试阶段,未能得到广泛认同。因此,我们并未将其作为一大研究视角单独列出。如杨光以海尔和LG集团为例,说明链接分析原理和方法除在网络计量学等领域得到较广泛的应用外,也可以应用到企业竞争情报系统的建设中[86];Peter Stephenson提出链接分析可用于跟踪网络中各种类型的欺诈[87]等。

2 链接分析的发展趋势

链接分析尽管已得到蓬勃发展,但作为新兴研究领域,其理论基础、研究工具、研究方法等方面仍需进一步研究。理论基础方面,笔者认为最需研究的是对链接的认识,如链接类型、链接动机等,对链

接认识不足便进行链接分析是不严谨的; 研究工具方面,专业链接分析工具是网络计量学视角下链接分析得以发展的基础,对其深入研究也是当务之急;研究方法方面,除了当前的研究方法外,可借鉴社会网络分析法等其他学科方法以丰富其内容和拓宽其应用。

2.1 链接类型识别

当前国内外链接分类研究可谓链接分析中的热点之一,关于链接分类的依据及分类结果则是众说纷纭,表1列举了国内外几种有代表性的分类依据与分类结果。

除此之外,还有很多学者将链接分类,结果可谓五花八门[91][92][93][94][95]。根据当前链接分析的研究现状及链接分析分类的应用研究,笔者赞同Smith A,G将链接分为实质性链接与非实质性链接两类,前者代表“认可”,而后者则通指不代表“认可”的链接。这样简单分类可提高链接分类的可操作性,分类后的实质性链接可用于链接分析的各大算法及测度指标,以提高其有效性,如实质性PR值,实质性共链分析等。因此,链接分析的下一步工作便是将链接按这一标准分类,当然,是计算机自动分类,而不是手工分类。

基于上文的论述,我们将链接类型识别定义为:计算机根据链接源页面和目标页面之间的关系,自动识别链接类型的过程。链接类型识别是链接分析的难点之一,也是发展趋势之一。

2.2 专业链接分析工具的开发

所谓链接分析工具,是指用于统计链接总数、入链数、出链数、链接密度、页面平均链接数、共链频次、共链次数等链接分析指标的工具,即网络计量学视角的链接分析工具。链接分析研究初期,对链接数量等各指标进行统计时,主要以商业搜索引擎Google、Alltheweb、Altavista等为工具。发现商业搜索引擎的缺陷无法避免之后,部分学者从中择优使用,另一部分学者则尝试自制链接分析工具。1999年,Lei Cui等人参照引文分析的方法,以自制的“Checkweb”为工具,分析链接状况,为统计链接数量作准备[96];2001年,M. Thelwall针对商业搜索引擎检索结果的不一致性,自制了链接分析软件,用于测度网络影响因子[14];2005年,段宇锋以自制“Webstat”为工具做了链接分析的实证研究[97]

商业搜索引擎存在检索结果的“不一致性”的缺陷,且网页收录范围不同,使用不同的搜索引擎作工具,便会得出不同的结论;而自制链接分析工具功能简单、适用范围小[98],因此开发专业链接分析工具是链接分析研究中的大势所趋。

2.3 社会网络分析法的应用

社会网络分析(Social Network Analysis , SNA) 方法一般是研究组织中诸如咨询、信任、友谊、情报、沟通和工作流程等关系的网络, 以解释组织内部的决策、沟通、人事变动和组织冲突等问题[99]。社会网络研究发端于上世纪二三十年代英国人类学的研究,目前在情报学领域已有了多种应用,裴雷等列举了SNA方法在Web、网络计量学、网络链接行为和动机及知识管理等方面的应用[99],Linda S等人则将社会网络分析与引文网络分析比较,并认为二者都是科学交流研究的重要方法[100],韩玺分析了社会网络分析在竞争情报中的应用[101]

不仅如此,在链接分析的研究中,社会网络分析法可与链接网络比较,用于为Web结构图建模,结构洞理论(罗纳德•伯特1992 年在《结构洞》一书中提出[102])可用于分析结点网页的信息保持与信息控制能力,也可用于挖掘链接结构中处于核心位置的结点网页。在深化我们对链接的认识方面,社会网络分析将起到重要作用。

3 结束语

链接分析研究自网页间以“链接”形成Web开始,并将随着Web的发展而不断深入。不同领域的学者的研究视角不同,图书情报领域学者多从网络计量学视角研究,计算机领域学者则多从检索优化、Web结构挖掘、Web结构图建模等视角研究。不仅如此,链接分析研究中也逐渐渗入其他学科的研究方法。链接分析作为一个新兴研究领域,在仅十余年的发展时间里,已经取得了瞩目的成就,如Pagerank算法成功的商业化应用等。但从颇具争议的网站影响力评价、不成熟的链接动机判断与链接类型识别、难以提供准确数据的链接分析工具以及对Web结构图粗略的认识之中,我们可以发现当前链接分析研究的诸多不足之处,解决这些问题是我们共同努力的方向。

参考文献

1 李彦宏.一键中的.中国计算机用户,2000(6): 54-55

2 邱均平,黄晓斌.WWW网页的链接分析及其意义.中国图书馆学报,2002,28(6):44-47

3 邱均平,段宇锋.网络信息计量学研究(Ⅲ)——大学网站链接特征指标的计量分布规律.情报学报,2005,24(4):407-413

4 马大川,邱均平,段宇峰,陈敬全.中美学术型网站链接特征的比较研究.情报学报,2003(6):659-664

5 段宇锋,邱均平.中美大学网站评价的比较研究.中国图书馆学报,2005,31(5):22-28

6 段宇峰.网站特征的定量研究(一)——对大学网站链接特征的探讨.情报理论与实践,2005,28(1):82-86

7 段宇锋,赵蓉英,邱均平.网络信息计量学研究(Ⅳ)——网站链接特征的分层研究.情报学报,2005,24(5):573-584

8 陈文静,陈耀盛.网络信息资源评价研究述评.四川图书馆学报,2004(1):25-31

9 张咏.网络信息资源评价方法.图书情报工作,2002(10):41-47,61

10 黄奇,李伟.基于链接分析的学术性WWW网络资源评价与分类方法.情报学报,2001,20(2):186-192

11 刘雁书.链接关系在网络信息评价中的应用研究.图书情报工作,2001(12):80-80

12 Peter Ingwersen. The calculation of web impact factors. Journal of Documentation. 1998(2):236-243

13 Peter Vinkler. Characterization of the Impact of Sets of Scientific Papers: The Garfield (Impact) Factor. Journal of the American Society for Information Science and Technology, 55(5):431–435, 2004

14 Thelwall,M.Results from a Web Impact Factor Crawler.Joutnal of Documentation,2001,57(2):177-191

15 Thelwall M. Comparison of Sources of Links for Academic Web Impact Factor Calculations. Journal of Documentation ,2002 (1):66-78

16 Smith A ,Thelwall M. Web impact factors and university research links. In : Proceedings of the 8th International Conference on Scientometrics and Informetrics , Sydney,Australia ,Jul16-21 ,2001: 657-664

17 Junping Qiu ,Jingquan Chen. An analysis of backlink counts and Web impact factors for Chinese university Websites. In :Proceedings of the 9th International Conference on Scientometrics and Informetrics ,Beijing ,China ,Sep28-Oct02 ,2003: 221-229

18 Mike Thelwall.Extracting Macroscopic Information from Web Links. Journal of the American Society for Information Science and Technology,Nov. 2001, 52, (13):1157-1168

19 Owen Thomas,Peter Willett. Webometric analysis of departments of librarianship and information science,Journal of Information Science,2000 (6): 421-428

20 段宇锋,邱均平.基于链接分析的网站评价研究.中国图书馆学报,2005,31(4):19-23,41

21 朱雷.中美两国医院网站网络影响力指标对比评测研究.现代图书情报技术,2006(3):64-67,81

22 段宇锋.网站特征的定量研究(Ⅱ)——大学网站影响力探讨.情报理论与实践,2005,28(2):191-194,175

23 沙勇忠,欧阳霞.中国省级政府网站的影响力评价——网站链接分析及网络影响因子测度.情报资料工作,2004(6):17-22

24 沙勇忠,牛春华.中国信息化优秀企业网站链接分析与网络影响因子测度.兰州大学学报:社会科学版,2004, 32(5):99-107

25 邱均平,陈敬全,段宇锋.中国大学网站链接分析及网络影响因子探讨.中国软科学,2003(6):151-155

26 王宏鑫.我国省级以上公共图书馆网站的链接分析.中国图书馆学报,2005,31(3):86-89,97

27 Franz Barjak,Xuemei Li and Mike Thelwall.Which Factors Explain the Web Impact of Scientists餚ersonal Homepages? Journal of the American Society for Information Science and Technology, 2007,58(2):200-211

28 Liwen Vaughan,Mike Thelwall .Web link counts correlate with IS1 Impact Factors:Evidence from two Disciplines. In:Proceedings of the AS-IST Annual Metting,2002:436-443

29 Tang,R.,Thelwall,M..Exploring the pattern of links between Chinese university Web sites.Proceedings of the 65th Annual Meeting of the American Society for Informati on Science and Technology,2002,(39):417-424

30 段宇锋,邱均平.网络信息计量学研究(Ⅴ)——链接分析在大学评价中的应用研究.情报学报,2005,24 (6):735-741

31 谢奇,张晗.中国大学网站的网络计量学研究.现代图书情报技术,2005(7):74-77

32 袁毅.链接分析用于学术网站评价存在的问题及解决办法.情报学报,2005,24(5):585-593

33 杨涛.链接分析法存在的问题及改进方法.图书情报知识,2002(3):62-63

34 刘雁书,方平.Web网站站外链接类型与特征调查——链接分析法可行性研究.大学图书馆学报,2001,19(5):65-68

35 刘雁书,方平.利用链接关系评价网络信息的可行性研究.情报学报,2002,21(4):401-406

36 张晗,郭文,崔雷.链接分析法评价医学网络资源的可靠性研究.医学情报工作,2005,26(6):427-430

37 邱均平,李江.链接分析与引文分析的比较.中国图书馆学报,2007(5)

38 T.Almind, P.Ingwersen. Informetric analyses on the World Wide Web:Methodological approaches to “webometrics”.Journal of Documentation,1997,53:404-426

39 Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web, 1998. [2006-10-26]. http://dbpubs.stanford.edu:809 0/pub/showDoc.F

40 J Kleinberg. Authoritative Sources in a Hyperlinked Environment.1998. [2006-10-26]. http://www.cs.cornell.edu/home/kleinber/auth.pdf

41 吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法.计算机工程,2004,30(15):143-145

42 王秀平,李治柱.一种改进的搜索引擎网页排序算法.计算机科学,2004,31(9):17-19

43 王晓宇,周傲英.万维网的链接结构分析及其应用综述.软件学报,2003,14(10):1768-1780

44 搜索引擎中链接分析的HITS.2007-04-11.[2007-4-18]. http://www.seo886.com/Articles/20070411/sou_suo_yin_qing_zhong_lian_jie_fen_xi_de_1_863.html

45 王晓宇,熊方,凌波,周傲英.一种基于相似度分析的主题提取和发现算法.软件学报,2003,14(9):1578-1585

46 石晶,龚震宇等.一种更稳定的链接分析算法——子空间HITS算法.吉林大学学报:理学版,2003,41(1):49-53

47 杨沛,郑启伦,彭宏.Inherit/Feedback:一种新的Web主题挖掘方法.计算机研究与发展,2004,41(5): 807-811

48 韩亚洪,许卓明,董逸生.Web信息检索中主题精选算法的研究与改进.计算机工程与应用,2004,40(17): 174-178

49 傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法.西安交通大学学报,2005,39(2): 119-122

50 傅向华,冯博琴,马兆丰,何明.基于查询扩展的Web链接主题提取算法.小型微型计算机系统,2005,26(11): 1951-1954

51 王勇,杨华千,李建福.Web结构挖掘中基于熵的链接分析法.计算机工程与设计,2006,27(9): 1622-1624,1688

52 Qiang Wang, Yan Liu, and JunYong Luo.Exploiting Link Analysis with a Three-Layer Web Structure Model. K. Aberer et al. (Eds.): WISE 2006, LNCS 4255,2006:187-198

53 Larson R R,Bibliometrics of the World Wide Web : an Exploratory Analysis of the Intellectual Structure of Cyberspace,Proceedings of the American Society for Information Science (ASIS) 59th Annual Meeting,1996

54 Rousseau R,Sitation: an exploratory study,Cybermetrics,1997,1(1).[2006-10-26].http: //www.cindoc.csic.es/cybermetrics/articles/v1i1p1.html

55 Peter Ingwersen. The calculation of web impact factors,Journal of Documentation,1998(2): 236-243

56 Owen Thomas,Peter Willett. Webometric analysis of departments of librarianship and information science. Journal of Information Science,2000 (6): 421-428

57 吕俊生.网上信息资源的链接分析研究.情报科学,2005,23(1):78-82,139

58 刘雁书,方平.利用链接关系评价网络信息的可行性研究.情报学报,2002(4): 401-406

59 邱均平,安璐.中文期刊影响因子与网络影响因子和外部链接数的关系研究.情报学报,2003,22(4):

60 朱雷.中美两国医院网站网络影响力指标对比评测研究.现代图书情报技术,2006(3): 64-81

61 Rousseau R.,Daily time series of common single word searches in Altavista and NorthernLight,Cybermetrics: International Journal of Scientometrics,Informetrics and Bibli ome trics,1999(2).[2006-11-11].http: //www.cindoc.csic.es/cybermetrics/articles/v2i1p2.pdf

62 Greg R.Notess,On-the-fly Search Engine Analysis,Online,1999,23(5): 63-65

63 Greg R.Notess,Search engine inconsistencies,Online,2000,24(2): 66-68

64 Maryellen Mott Allen.Six degrees of affiliation: the small world of search tools,Online,2000,24(5): 49-51

65 Owen Thomas,Peter Willett,Webometric analysis of departments of librarianship and information science,Journal of Information Science,2000 (6): 421-428

66 Judit Bar-llan,Evaluating the stability of the search tools hotbot and snap: a case study,Online Information Review,2000,24(6): 439

67 吴茵茵.网络影响因子实证研究:基于不同搜索引擎的大学网站影响力分析.图书情报工作, 2005, 49 (4) :107-111

68 徐家坤.网络信息计量学中常用的四种搜索引擎的比较研究.现代图书情报技术, 2004(11) : 46-48 69 吴茵茵.不同搜索引擎在网络影响因子分析中的比较研究.情报科学,2005(3):431-435

70 杨木容.搜索引擎在网络链接分析中的应用研究.图书情报工作,2006,50(11):91-94

71 吕俊生,杨金凤.用于链接关系检索的搜索引擎的比较研究.情报杂志,2005,24(2):98-100

72 邱均平,李江,于琦.搜索引擎用于测定网络影响因子时的一致性比较及原因分析.情报学报,2006(6):686-694

73 什么是网络爬虫?[2007-4-20].ttp://zhidao.baidu.com/question/3378135.html

74 G. Almpanidis, C. Kotropoulos,I. Pitas. Combining text and link analysis for focused crawling—An application for vertical search engines,2006(9):1-23

75 汪涛,樊孝忠.链接分析对主题爬虫的改进.计算机应用,2004,24(B12):174-176

76 苏新宁.数据挖掘理论与技术.北京:科学技术文献出版社,2003

77 何拥军,骆嘉伟,孙星明.应用链接分析的web搜索结果聚类.计算机工程与应用,2005,41( 2):179-183

78 王元珍,陈涛.基于归类的链接分析技术.计算机工程与应用,2005,41(13):172-173,203

79 牛春华,沙勇忠.Web空间内部链接特征的聚类分析.图书情报知识,2006(6):22-27

80 Thelwall M, Wilkinson. Finding similar academic Web sites with links, bibliometric couplings and colinks. Information Processing and Management. 2004,40(3):515-526

81 Vaughan L, You J. Mapping business competitive positions using Web co-link analysis. In: Ingwerson P, Larsen B eds. The Proceeding of ISSI. Sweden: ISSI, 2005

82 Alesia Zuccala.Author Cocitation Analysis Is to Intellectual Structure As Web Colink Analysis Is to . . . ? Journal of the American Society for Information Science and Technology, 2006,57(11):1487–1502

83 高琰,谷士文,唐琎.基于链接分析的Web社区发现技术的研究.计算机应用研究,2006,23(7):183-185

84 Kumar R, Raghavan P, Rajagopalan S, Sivakumar D, Tomkins A, Upfal E. The Web as a graph. In: Serge A, ed. Proceedings of the 18th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Pennsylvania: ACM Press, 1999:109-118

85 司徒俊峰. Internet的小世界网络模型.情报杂志,2004(12):86-88

86 杨光.链接分析在企业竞争情报活动中的应用.图书情报工作,2005, 49(1):19-21,68

87 Peter Stephenson.Manual Link Analysis and Trace Back. Computer Fraud and Security,2003(6):17-20

88 Smith A,G.Classifying links for substantive Web Impact Factors. In: Proceedings of the 9th International Conference onScientometrics and Informetrics, Beijing, China, Sep 28- Oct02,2003:305-311

89 HTML 4.01 Specification.[2006-12-24].http://www.w3.org/TR/1999/REC— html401— 19991224

90 袁毅.核心网站评选的理论与方法.北京:北京图书馆出版社,2005

91 Hak Joon Kim. Motivations for hyperlinking in scholarly electronic articles: A qualitative study. Journal of the American Society for Information Science. 2000,51(10): 887

92 James Allan.Automatic Hypertext Link Typing. In Proe.For Hypertext96,conf.,W ashington,D.C.,USA ,1996,3:42—52

93 Yoshiaki Mizuuehi and Keishi Tajima.Finding context paths for Web pages.In Proe.of the lOth ACM Conf.on Hypertext and hypermedia.Darmstadt,Germany,pages, 1999,2,13—22

94 Ellen Spertus. ParaSite:Mining structural information on the Web.Computer Network and ISDN System,1997(29):1205—1215

95 Heting Chu.Taxonomy of inlinked Web entities: What does it imply for webometric research?Library & Information Science Research 27 (2005): 8-27

96 Lei Cui,MD,MS .Rating Health Web sites using the principles of Citation Analysis: A Bibliometric Approach,Journal of Medical Internet Research,1999,1(1): 1438-1471

97 段宇锋.网络链接分析与网站评价研究.北京: 北京图书馆出版社,2005

98 邱均平,李江.当前链接分析工具的缺陷及其解决方案.情报科学,2007(5) :641-647

99 裴雷,马费成.社会网络分析在情报学中的应用和发展.图书馆论坛,2006,26(6):40-45

100 Linda S. Marion, Eugene Garfield, Lowell L. Hargens, Leah A. Lievrouw, Howard D. White, Concepción S. Wilson. Social network analysis and citation network analysis: Com plementary approaches to the study of scientific communication. Proceedings of the American Society for Information Science and Technology, 2003,40(1):486-487

101 韩玺.竞争情报人际关系网络及其构建.图书情报工作,2006,50(4):43-46,76

102 胡蓉,邓小昭.基于结构洞理论的个人人际网络分析系统研究.情报学报,2005,24(4):485-489 お

作者单位:南京大学信息管理系,南京,200093

集美大学科技处,厦门,361000

收稿日期:2007年6月21日

A Review on Link Analysis

Li Jiang Yin Zhiming

Abstract:Based on the relative study of link analysis during the past years, the authors summarized the four perspectives of Link analysis including Webometrics, Optimization of Information Retrieval, Web structure mining and Modeling for the Web structure. Furthermore, the status quo of each perspective are analyzed.

Keywords:Link Analysis; Webometrics; Optimization of Information Retrieval; Web Structure Mining; Modeling for the Web Structure