APP下载

原生网络数字资源引用失效的概念界定与类型剖析

2022-12-28黄国彬

情报杂志 2022年8期
关键词:网页文献概念

黄国彬 黄 恋

(北京师范大学政府管理学院 北京 100875)

0 引 言

参考文献是学术出版物的基本组成部分,其作为学术论文的一种随附记录,为后来的研究人员考证和学习作者的引用内容提供了原始的来源依据。过去,参考文献通常是已发表的文章或已出版的书籍。而如今,在基于web的学术交流环境中,参考文献还包括了指向广泛web资源的在线链接。与引用纸质版或收入数据库的电子版学术出版物不同,对从不依托任何物理介质存在的各类原生网络数字资源进行引用著录,若著录方式只有原始资源的标题、URL链接、引用日期等信息,一旦其引用状态因各种原因发生了改变,就常常会出现引用失效(Reference Rot)的问题。如此,当后来的研究人员进行学术考证时,施引当时的原始内容就有较大可能无法完整呈现,这就与参考文献为所引内容提供原始来源依据的初衷相悖。原生网络数字资源的引用失效现象为学术交流带来了不可忽视的挑战。

1 国内外研究现状

为了了解国内外相关研究工作,本文采取的检索策略是,于2021年1月12日,对国外文献以web of science为检索库,使用“link rot”和“reference rot”等检索词集,通过主题词字段进行检索;以“网络引文”并“可获得性”或“可追溯性”作为检索词,通过篇关摘字段对CNKI进行检索,获取本主题的国内研究文献。另外,对从web of science检索到的外文文献中第一作者姓名和发文机构可直接判断属于国内作者的,也将其划入国内研究文献中。

1.1 引用失效严重程度

目前,web环境下,数字图书馆或学术出版物中使用URL引用原生网络数字资源是普遍现象,且都涉及到不容忽视的引用失效问题。以Martin等人[1]对1997年至2012年间约350万篇文章中的超100万个链接的检测结果来说,其发现,五分之四援引了原生网络数字资源的文献都或多或少面临引用失效问题。

国内外很多行业领域的研究者都就其各自所属行业的出版物中原生网络数字资源引用失效的程度问题进行了量化研究。以法律行业为例,Rumsey研究了法律资料中的引文链接,她发现一年前资料中的链接还有60%可以正常访问,而五年前资料中的链接就只剩下30%可正常访问。显然,随着时间的递增,链接失效的比例会上升。另一项来自哈佛大学的研究还对可客观判断是否变化的内容更替进行了量化,其取样了美国最高法院的意见,发现最高法院意见中援引的链接有近40%失效(无法返回200正常状态),而返回200正常状态的链接中也有49.9%已不再包含最初引用的信息;对于《哈佛法律评论》(HLR)、《哈佛法律与技术杂志》(JOLT)、《哈佛人权杂志》(HHRJ)三种期刊而言,其过去十几年间的引用链接失效率也维持在40%左右,剩余的可返回200正常状态的链接中,也有近35%的内容不再包含最初引用的信息。国内图情领域也开展过类似的研究。武汉大学的学者庄晓喆[2]对四种核心期刊《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》和《图书馆杂志》进行了量化研究,其发现四种期刊的链接有效率都是随时间推移而逐渐消减的,并由此推算出四种图情核心期刊的半衰期大约在六年以上。尽管这一结果较之国会图书馆报告[3]中对一般网页平均寿命估值的44-100天而言,已经相对长了很多,但就整个学术交流环境来看,其引用失效问题仍不容乐观。计算机领域中,Spinellis对Communications of the ACM和IEEE Computer Society所发文章的引用链接进行了量化,发现引用链接的半衰期是4年,且链路的结构层次越复杂,出现失效的概率越高。

此外,根据切萨皮克数字保存小组(CDPG)[4]的报告显示,其在过去六年间收集的可公开访问且无付费壁垒的文献所引链接有44%已经失效,这些链接的内容包括健康手册、学术声明、报告以及流行的媒体资源和个人网页等。CDPG的报告还指出了,从域名角度分析,引用.gov和.mil之类的超50%的政府域链接会出现失效情况。这说明即便是具有较高权威性的官方政府,也无法保证其原生网络数字资源得到稳定维护和保存。

1.2 引用失效量化方法

学者们在对各自领域内学术出版物的引用失效程度展开研究时,主要是对无法访问资源的链接进行量化。就链接提取和测试而言,早期的研究中,通常采用人工方式从纸质文献中提取URL链接,并逐条在浏览器中手动输入,以访问目标网页。如Germaine、屈卫群等,受限于技术工具,其样本量通常较少。而以Sumeer[5]、Carmine为代表的学者,则对逐条手动验证链接进行了改进,其开始使用Link Checker之类的链接检测工具进行批量检测,该方法大大提升了批量资源链接的检验效率。这也是国内学者如庄晓喆、王平[6]、杨思洛[7]等在进行引用资源有效性量化研究时采取的主流做法。更进一步的改进源于文本识别技术的发展。国外学者Sanderson等人[8]提出一种更自动化的链接提取方法,即将所研究的pdf转化成XML格式,再基于一定的提取规则提取引文中的URL,并作过滤和消重处理。此后,以Ke Zhou等人[9]为例,对于方法改进的研究聚焦于不同提取规则、不同正则表达式的准确性提升和评估等问题上。

就统计量化频率而言,学者们的统计频率主要分为一次性和多次性统计。一次性统计的研究方法一般用于大规模批量链接的可访问性检测,方法包括,统计某一研究周期内可正常访问的样本链接在不同年代的分布情况,如国外Mia等、国内朱莹等[10]的研究;以及,统计文献在某一时段内所引链接可正常访问量,如国外的Koehler、Kumar等人[11]的研究。多次性统计的研究方法需要较长的研究周期,一般统计周期内某些时间点的可正常访问量,形成文献所引链接可访问情况的定期跟踪,如Sarah[12]的研究。

1.3 引用失效影响因素

对引用失效量化研究进行分析,主流的影响因素可归纳为:学科、域名、资源类型、链接深度等。国内外学者对于相同影响因素的研究,可能存在较大差异。

就域名因素而言,国内学者吴志强[13]、朱莹验证后分别发现,.org域中的链接比.com和.edu域中的可正常访问率更高,这一结果与国外学者Spinellis、Dellavallle等结论一致,但与Sampath等人[14]相反,其研究结果是.org的失败率反而最高。而Saberi等人[15]的结论是.net域中的可正常访问率最高。

就资源类型而言,国内学者吴志强提出,可分为四类,分别为服务器级域、目录页、web页和web文件。其认为目录页和web页类型的资源,链接可正常访问率会比服务器级域的高。杨思洛等提出不同的分类,其分为静态类、动态类、网站和其他共四类,并认为网站类的可正常访问率最高,且文本格式为ASP、JSP、PHP、CFM及网址中含有“?”的动态类资源可正常访问率高于HTM、HTML、PDF、DOC、PPT、TXT等静态类资源。

就链接深度而言,国外学者Spinellis指出,链接可正常访问率会随路径深度的增加而下降,但吴志强认为不能一概而论,例如以后缀扩展名是pdf的web文件来说,其链接路径可能很深,但可正常访问率反而最强。这一结论也得到了Sarah的验证。

除此之外,还有一些影响因素也被纳入探讨,但次数不多,如引文来源国家地区分布[16]、施引文献是否属于高引用原生网络数字资源类别等。

2 概念界定

本节主要从概念内涵、概念溯源与概念辨析三方面进行梳理进而对概念进行界定。其中,概念内涵主要揭示了概念本身的含义;概念溯源重点展示了概念的形成逻辑;而概念辨析则着重比较了主要概念与易混淆的临近概念的关系。

2.1 原生网络数字资源

2.1.1概念内涵

本文认为的原生网络数字资源是指那些从创作之初即以数字形式存在并在网络上传播的数字资源,而不是经过数字化加工后在网络上传播的数字资源。由原生网络数字资源构成的引文最显著的表现特征是每一条引文的文本内容中都包含有对应的网络链接URL,其不仅指向为研究活动提供了参考的外界网络数字资源,也包括在研究过程中由研究者自行创建并上传至网络的数字资源。从形式上看,这些引用资源可能包括多种类型,如电子公告、博客、论坛贴、在线百科、演示文稿、项目工作流、本体、数据集、自媒体视频等。

2.1.2概念溯源

原生网络数字资源的概念起源可追溯到“Born Digital”,在国内常被译为“原生数字资源”。原生数字资源概念中的核心部分是“数字形式”和“信息资源”,此二者在很多定义中都得到了明确的强调。以国外机构Word Spy[17]和UNESCO[18]为例,其分别的定义是“仅以数字形式产生和存在的信息资源”和“除数字形式外再没有其他载体形式的信息资源”。也有一些定义只侧重于强调“数字形式”,如OCLC[19]的“以数字形式创建和管理的项目(items)”。此外,有一些学者如国内的李宝强等不直接作正面强调,而是尝试从侧面,如数字资源产生的技术手段角度着手,将之定义为“直接由文字处理软件、CAD、数字摄像设备等数字信息系统产生的数字资源”。一些学者也试图从拓宽其外延的角度切入,如国外的Mahesh和Mittal[20]从内容创作模式角度对原生数字资源作分类,对存续期间不以任何纸质形式存在的“专有数字资源”,和接受内容托管且可能被制作成各类副本的“印刷数字资源”进行了区分。后者实际是对电子期刊、电子书等一旦生成并发布见刊,修改更新往往受到绝对限制的资源进行了囊括。

从各家定义可看出,原生数字资源作为信息资源的一种,其传播环境通常是没有被纳入概念范畴进行探讨的。为了强调web环境下被传播的原生数字资源,国内学界进一步提出了原生网络数字资源的概念,除了强调数字性外,还着重强调网络传播环境。如国内学者常娥等[21]将之定义为“网上最初始的信息资源, 指那些利用计算机和网络创造、生成、存储及传播的数字资源, 并且没有经费支持, 没有固定的组织、机构或者商业公司加以管理, 由网络用户自发创作的、原汁原味的信息资源”。此外,还有陈红星[22]等提出的“直接在互联网活动中产生的或仅仅发布于互联网并仅以数字形式传播交流、保存利用的网络信息资源”。

2.1.3概念辨析

a.原生网络数字资源与网络数字资源。比起原生网络数字资源来,网络数字资源所能包括的资源类型更广泛。除了包含我们所定义的原生网络数字资源外,网络数字资源还涵盖了各种已经见刊的数字化文献,包括发布在各数据库的传统文献的电子版本(尽管这类资源只在网络传播,但是由纸质版本经历数字化加工而来,故认为其不属于原生网络数字资源)。如果从信息传播的功能特征对“网络数字资源”进行描述,也可称其为网络信息资源。

b.原生网络数字资源引文与网络引文。对网络数字资源进行引用著录形成的引文属于“网络引文”(或网络参考文献),很多研究中学者们常使用“网络引文”这一概念来指代由原生网络数字资源构成的引文,但实际上这二者是存在较大差别的,不可一概而论。具体差异可基于“网络引文”这一概念的逻辑结构来进行梳理。从内涵的角度来看,广义的网络引文是指互联网环境下文献和资源之间互相引用的一种引文形式;而狭义的网络引文则是指将网络数字资源作为学术论文参考文献的一种引文形式。从外延的角度来看,广义的网络引文包括互联网环境下的四种引证类型:其一是学术文献引用网络数字资源(P-W),其二是网络数字资源引用学术文献(W-P),其三是网络数字资源间的互相引用(W-W),其四则是学术文献间的互相引用(P-P);而狭义的网络引文引证形式只有学术文献引用网络数字资源这一种。由此可知,原生网络数字资源引文是狭义网络引文的一种所引资源类型,无法指代所有网络数字资源构成的引文。因而,无论狭义广义的网络引文都是不能被等同于原生网络数字资源引文的。

2.2 引用失效

2.2.1概念内涵

本文定义的引用失效是指施引时原始版本的网络资源不再能够通过所引链接在浏览器中正常呈现的现象,究其根本,是由网络资源的动态特性导致的引用状态发生变化。其不仅可以描述那些被引用著录的资源,也能够描述引用了这些资源的文献本身。从文献引用著录的参考资源来说,一旦该条著录包含的网络链接不能通过浏览器正常访问著录当时的内容,即可认为对应该资源链接的参考文献出现引用失效的问题。而对文献本身而言,若文献中某一条参考文献资源出现引用失效问题,即可认为该文献也出现引用失效问题(本研究中的“引用失效”主要用来描述某一参考资源的引用状态)。

2.2.2概念溯源

引用失效的概念源于“Reference Rot”,可直译为“参考腐烂”,本文译为“引用失效”。究其实质,以国外学者Burnhill等人[23]的观点来看,是引用原生网络数字资源的信息衰减问题。该观点对引用失效的适用范围进行了限定,即引用失效是主要针对原生网络数字资源而存在的概念。

相对于引用失效而言,国内还存在字面意义近似的概念“引用无效”。实际上,除适用于描述原生网络数字资源的引用情况外,引用无效还适用于描述学术出版物等内容固定的文本资源的引用状态。若不事先对引用无效的适用前提作设定,其内涵会比引用失效要宽泛得多。以赵丽莹[24]等对无效引用的界定,凡不相关引用、过度引用、自我标榜式引用及所引信息滞后等情况,都属于该范畴内。对于这几种情况的无效引用,从朱大明[25]的观点中我们可以提取出“学术性无效引用”的概念,相应的,也可以对人为的著录不规范导致的引用错误和一般意义的引用失效作“非学术性无效引用”的概念提取。可以看出,在引用错误和学术性无效引用的情况下,施引人的主观能动性很大程度上能对引用的有效性产生影响,而涉及到原生网络数字资源信息衰减问题的引用失效时,引用的有效性则主要受外部网络环境影响。

2.2.3概念辨析

a.有效引用与无效引用。本文所探讨的引用有效与否,从时间上看,是相对于每个研究者考证文献引用来源时的时间点而言的;从对象上看,主要是针对从不以任何纸质形式存在过,且修改不受限制的原生网络数字资源而言的;而从效果本身来看,是不考虑过度引用、不相关引用等学术性引用问题而言的。明确这三点后,再下定义,即,有效引用是指,目前还能依据文献引用原生网络数字资源时所给引用链接,访问其最初引用时的内容,并以之作为支撑作者观点的可考证据的一种引用状态。而无效引用则是指,目前不能依据文献引用原生网络数字资源时所给引用链接访问原始资源,或原始资源内容已经经历了较大更替,现有内容不再能代表最初引用时的内容,不足以支撑作者观点的一种引用状态。

b.无效引用、引用失效与引用错误。与“引用失效”字面意思近似,但容易混淆的概念是“无效引用”与“引用错误”。实际上,三者间构成逻辑关系,即无效引用包括引用失效和引用错误。

具体说来,对于无效引用中目前链接不可用的情况,究其原因,可分为两种情况:一是该链接曾经在施引后的一段时间内有效,但现在由于链接状态或内容发生改变已经处于无效状态(即引用失效)。二是该链接自正式施引时刻起就是无效的,此类情况通常是由人为的链接书写不规范导致的相关引用一直处于无效状态(即引用错误)[26],例如URL地址书写时出现问题,包括拼写有误、字符多余或缺失等;此外,对于服务器架设在Unix/Linux操作系统上的网站,其URL地址中字母大小写不完全匹配也会影响到链接有效与否[27]。

c.引用失效与引用老化。与“引用失效”字面意思存在差异,但仍容易出现混淆的概念是“引用老化”。传统的引用老化只用于描述引用对象的内容价值随时间流逝的变化,此时是不可与“引用失效”混为一谈的。但网络环境下,网络信息计量也将链接不可访问率等作为老化的计量指标,因而引用老化也可用于描述引用路径、引用对象的变化,此时其外延就囊括了“引用失效”。

3 类型分析

链接到原生网络数字资源的参考引用会出现引用失效的情况,按失效形式对“引用失效”作细分,主要可分为两类,即链接失效(Link Rot)与内容更替(Content Drift)。若对文献中某一条援引了原生网络数字资源的引文进行考证,发现其引用状态属于此二者中的任意一种形式,即可认为该条引用已经失效,进而得出该文献已经出现引用失效问题。

3.1 链接失效

3.1.1表现形式

链接失效的概念来自“Link Rot”,直译为“链接腐烂”,本文译为“链接失效”。该现象作为互联网的伴生品,较早可见于Denmark等人的研究中。学界对链接失效的概念研究通常是从其原理层面进行探讨的,但不同学者有着不同叫法。国外学者Markwell等人以及Kobayashi等人称其为断链(Broken Link);Spinellis则称其为衰变故障链接(Decay and Failure Link);Król等[28]则将这些不再可用的链接都总结为非功能性链接(Non-functional Link)。国内学者对失效链接还有另一种主流叫法,如谭园园等人、刘敏等人[29]称其为死链。但一些观点认为死链是链接失效的一种类别,如国内学者唐光前就认为链接失效是由死链和链接重定向共同构成的。此外,国外以Ke Zhou等人[30](发文机构为英国,可认为属于国外学者)为例,认为只要用户不再能依循所给链接访问相应的目标网页,就属于链接失效。这两类观点下,链接失效的概念就与本研究所定义的“内容更替”出现交叉。

为了避免上述概念交叉,本文定义的“链接失效”是指用户将不再能够依循所给链接访问相应的目标网页,该链接不再指向任何实质内容,通过链接进行访问会返回错误状态代码。一般来说,用户对于链接失效的感知通常都是即时且直观的,一旦用户点击链接后发现目标网页显示诸如“404错误代码”之类的问题,即可意识到该链接处于失效状态。而对于研究者而言,链接失效的量化工作无论是手动还是使用自动化工具都具有一定可行性,如果与http状态代码建立映射,其链接失效的成因还能被精准定位。

3.1.2形成原因

链接失效的原因从时间性上看,主要可分为暂时性链接失效和长期性链接失效。暂时性链接失效即网页处于短暂性不可访问的状态下,一般是因为服务器流量限制或程序问题导致网站一时无法访问, 其反映在http状态代码上一般是以5开头,如504、509等[31]。长期性链接失效即该网页长期都不可通过所引用的链接被正常访问到。主要是由资源维护不足和权限获取受限两个方面导致的。因资源维护不足或未进行维护而导致的链接失效主要表现为:链接对应的web资源被网站管理员删除;链接对应的web资源被暂时或永久性移动到同一服务器的不同位置或别的服务器上,且没有作链接重定向处理;实时网站域名已更改而所引用的链接未更新;服务器关闭或停止运行等。其最直观的体现可反映在http状态代码上,如404、410等。因资源获取权限受到限制而导致的链接失效主要表现为:链接可访问内容受限,如链接对应的web资源内容为第三方所有,访问需要经过第三方授权[32];链接可访问时间受限,访问时间已经过期;链接访问申请受限,被内容过滤器或防火墙阻止;链接可访问渠道受限,当时可公开访问的渠道如今因为特殊地区或机构的政策、法律等限制,目前已经不可使用等。其最直观的体现也可反映在http状态代码上,如401、403、305等[33]。

3.1.3存在问题

引用失效现象自被研究以来二十几年,关于失效程度和数量的研究几乎都是从链接失效角度来开展的。在前文中引用失效量化方法一节已经介绍过批量检测失效链接的工具,这也有力证实了通过链接失效来量化引用失效程度的可操作性。单从链接失效的角度分析引用失效已经可证明此现象的严重性。如2003年的一项研究]发现,网络上每周每200个链接中就有1个会断开,其计算出的链接半衰期为138周。该数据也得到了2017年的一项基于Yahoo! Directory中链接失效率研究[34]的证实,其发现链接的半衰期为两年。其研究结果发现,一般情况下,链接半年时间后失效的概率约为16%,一年后为30%,而两年后为50%。国内学者吴志强估计,六年时间足以让90%的链接都变得不可访问。国外学者Aronsky等则用较短的计算周期得到过另一种描述链接失效比率的方法,其对每日发布在PubMed上的某一学科出版物作随机抽取,发现有11.9%的链接失效时间是自文章正式发布日起的两天内。尽管不同研究获得的链接失效比率可能存在较大差别,但足以从数据层面说明引用这些网络资源存在的问题。

尽管为了应对链接失效已经采取了一些有效措施,如web存档,但其覆盖率通常是有限的,以2013年进行的一项研究[35]来说,其分析了Web of Science引文索引中近15,000个链接,发现网页的平均寿命为9.3年,而其中有62%被Internet Archive存档,62%的覆盖率已经是较好的结果了。此外,还有引入DOI等对数字资源进行唯一且永久的标识的方法,但这种方法始终存在费用成本的问题,且同样不能保证对所引资源做到全覆盖(可能的覆盖率在30%~60%间)。

3.2 内容更替

3.2.1表现形式

内容更替这一表达源自英文“Content Drift”,直译为“内容漂移”,本文译为“内容更替”,包括内容更新、更改或替换等情形。在美国阿拉莫斯国家实验室Hiberlink项目[36]首先使用“内容更替”的概念并提出“引用失效是链接失效和内容更替的组合”这一观点前,引用内容方面的失效问题常被认为处于链接失效的范畴内。例如Bar-Yossef就在链接对应资源不存在情况下,将服务器不返回404,而是呈现替代页或“OK”码(200)之类soft-404的情况就归为死链接。但自从内容更替概念被明确提出后,依据Król等的观点,这种页面内容的变化导致的失效问题就从链接失效的情况中区分了出来。

因内容方面发生变化而导致的网络信息传播层面的资源不可用,可能与“Bit Rot”(直译为比特腐烂,本文译为数据失效)产生混淆,数据失效可以被理解为是数字资源的内容衰减[37]。其虽然也描述因资源信息内容的变化而导致资源不可访问的情况,但成因涉及更多层面。以国外学者Król等的观点,数据失效的成因还涉及软件层面或物理层面数据载体的损坏。同理,作为数据失效的近义词,内容衰减、内容失效等类似概念也涉及更宽泛的外延,不能精准揭示引用失效在内容层面的资源变更过程。

本文定义的“内容更替”指通过链接进行访问可以返回正确状态代码,但其实目标网页内容已经发生更改且更改程度不再能代表原始引用内容[38]。对于目标链接出现链接重定向、空白页、自定义错误页面等可以客观判断的更替形式而言,研究者的量化工作是能够开展的,用户的感知也是即时的。而对于需要参考原有引用内容才能判断实质变更程度的更替形式而言,研究者是难以进行精准衡量的,用户也是难以察觉的。

3.2.2形成原因

通过所引链接对相应网页进行访问可以返回正常状态,但从内容本身来说,已经经历了实质性更改而不再包含最初引用的信息。内容更替的原因有太多,可能是网站运营者方面的问题,也可能是内容本身存在问题,还有可能是恶意的攻击等,总之无法做到一一列举。以引用博客或论坛贴为例,其原有内容可能会因为曾引起争议、过时、有误等被修改或增删。而对于一些公告板类的网页而言,无论私人还是官方,其内容也可能因为各种原因被上传者或管理者作更新处理。此外,链接虽然返回正常http状态(代码200),但因为发生链接重定向导致原有链接被重定向到其他完全不相关的网页,或直接显示空白页、自定义错误页面等,从用户角度而言,也属于内容更替的情况。

3.2.3存在问题

一般说来,相对于链接失效而言,从内容更替的角度对引用失效程度进行客观判断的难度会更大。一方面,单凭那些想要考证原始引证内容的研究者来判断网页内容更替程度,结果很可能会带有主观色彩,使得结论不够准确。因为这类研究者在进行判断时,往往会出于各自不同的考证目的关注到页面中不同位置的内容,对于部分学者而言已经出现了重大变化的内容可能并不在其他学者的关注范围内,此时不同学者关于内容更替程度的判断就容易出现较大差异。另一方面,对于那些不抱有考证目的、只想单纯量化内容更替程度的研究者而言,则需要采用一种全面、客观的量化方法。但是,采用目前已有的量化方法还难以在操作性和效果之间达到平衡,例如,一种可操作的方法是逐个查看页面以排除链接重定向、空白页、自定义错误页面等直观的内容更替问题,显然,此法不能察觉网页详细内容的变化,在量化效果方面还存在较大不足。其他如McCown等在早期研究中提出的通过测量网页内容大小来检测更替程度的可操作方法,无法排除页面内广告变化带来的干扰,被证明准确性较差,同样不能达到理想的量化效果。而能够在内容更替方面有较好效果的方法,其可操作性往往不强,如Mia等人[39]在研究中提及的将Internet Archive存储的相应日期下的快照作为更替程度的评估参照进行逐条比对的方法,其实施难度主要体现在:一是不能保证Internet Archive这一web存档保存了原始页面,二是没有一套判断内容更替程度的标准。

4 特征剖析

4.1 失效率与引用时长、引用频率呈正相关

对引用了原生网络数字资源的文献进行分析,不难发现,其公开发表时长越久,引用原生网络数字资源的频率越高,引用失效的概率越高。从逻辑推理来看,引文中原生网络数字资源的可访问性会受到各种因素干扰,且时间越长,频率越高,各类不可把控的干扰因素就有越多机会对引用对象或引用路径发挥负面影响,因此,不难得出失效率与引用时长、引用频率呈正相关的结论。对于与引用时长的关系,从实证统计来看,尽管不同学者在各自的研究中针对这一问题时选取的计量指标可能存在差异,(正如前文综述部分所提,有的学者选择了计量半衰期,有的选择了计量网页资源的生命周期长度,有的则选择直接计算不同时长的有效链接比例等),但这些不同的计量指标在反应失效率随引用时间增长而增长的特征时,始终是保持一致的。

4.2 失效现象更常出现在强调背景知识及时性的研究领域

对原生网络数字资源引用频率较高的文献更容易出现引用失效现象。从文献综述部分对不同领域引用失效严重程度的梳理可知,将这一结论延伸至学科层面,不难推断出更常引用原生网络数字资源的学科其失效现象也更容易发生。尽管很少有学者会关注不同学科的学科因素对文献中原生网络数字资源引用失效的影响。但通过已有引用失效量化研究的学科分布来看,大部分学者在研究时都会聚焦某个更倾向需要及时性知识作为研究背景和基础的学科,如医学、生物、法学、传播学、商业领域、计算机领域、图情领域等实用性较强的社会科学或社会性较强的自然科学。而对于人文科学如历史、文学、哲学而言,其研究基础并不强调背景知识的及时性,而是更强调背景材料的权威性与稳定性。在研究工作中,这类学科的研究者通常更依赖于可考证的一手著作或档案材料,而非可靠性难以保证的原生网络资源,即便对少量的原生网络数字资源有所引用,也会引用权威度较高,流传性较广的资源。因此,尽管这些研究领域也涉及到不可忽视的引用失效问题,但在涉及到引用失效现象出现频率的话题时,相比而言仍会低于那些更常引用原生网络数字资源的研究领域。

4.3 不同类型的引用失效在静态网页和动态网页上出现的概率不同

学者们在研究引用失效的影响因素时,是有可能因为选择了量化对象而在同一影响因素上得出相反结论的。这一点在资源类型、域名等因素上表现尤其突出,以吴志强、Spinellis等人的研究为例,此二者关于域名和链接深度都刚好得出相反结论。这类问题的出现与未能选择有效且准确的分类标准息息相关。对于学者们在研究引用失效的影响因素时通常会涉及到的网页不同分类标准如域名、资源类型等因素进行梳理,发现造成很多研究结论差异的来源可以追溯到网页构造方式上。网页按其构造方式分为静态网页和动态网页。这两类网页呈现在浏览器中时,直观来看是难以察觉有何不同点的,但一旦涉及到交互使用功能层面的体验,就能发现区别。一般来说,由于静态网页内容固定,一般已存储在服务器或本地,更新比较麻烦,而动态网页则需要服务器加载存储在后台数据库中的数据写入内聚框架中,更新灵活方便,因此,动态网页更容易出现内容更替类型的引用失效。而一旦网页管理者有了必须更新网页内容的需求,处理静态网页就要更新整个网页文件,而处理动态网页只需更新相应模块,从该角度出发,静态网页会更容易出现链接失效类型的引用失效。如果在研究过程中混淆不同类型的引用失效,或是忽略不同构造方式的网页带来的影响,就很容易导致结论中的影响因素缺乏一致性的问题。

5 结 语

文献资料的可靠性评价在很大程度上会基于其援引的引文。引文不仅要为行文者提供行文背景,还要被用来证实行文目标的可行性。当行文者提出不同意见、方法时,引文还会被作为提出和分析不同意见、方法的依据。而诸多实证结果显示,web环境下,学术研究交流面临着引用失效带来的一系列冲击。原生网络数字资源作为引文的重要组成,若未经任何web存档处理,一旦处于失效状态,将难以再为后人所考证,文献资料的可靠性也就不得而知。

引用失效不仅不利于各学科学术研究的完整性,更不利于各行业事务决策的科学性。以一贯遵循先例的法律领域为例,若某一判决所遵循的先例正好援引了当下已彻底失效的web资源,后人将无从理解当时的判决理由,该先例也将不再具有被继续遵循的意义。如此,证据无从追溯,先例失去意义,声明的效力慢慢衰退,决策的基石不断瓦解。引用失效造成的不利后果正如历史学家Jill Lepore[40]所言,如今基于开放网络进行的分享和阅读研究“就像试图站在流沙上”。更有甚者,“脚注,文明史上的里程碑,花了几个世纪的时间才被发明和传播开,却在(web环境下)短短几年的时间里被迅速摧毁。”(该说法虽然明确针对脚注,仍能揭示比脚注更宽泛的概念——引文,尤其是网络环境中,大量原生网络数字资源的引文)。

从整个信息生命周期来看,每一篇援引了原生网络数字资源的文献资料都将持续面临引用失效的风险。而在创作、发布、以及发布后的传播过程中,何时出现引用失效的状况无疑是难以预计的,有时甚至难以察觉。尽管目前图情领域已经在数字资源保存方面投入了大量精力,但对于每一位文献创作者援引的原生网络数字资源而言,依然无法全面覆盖。在未来的研究工作中,这些原生网络数字资源的引用失效现象还需要业界和学界投注精力,共同建立有效的应对策略来缓解其不利后果和负面影响。

猜你喜欢

网页文献概念
Birdie Cup Coffee丰盛里概念店
Hostile takeovers in China and Japan
基于HTML5与CSS3的网页设计技术研究
幾樣概念店
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
搜索引擎怎样对网页排序
The Role and Significant of Professional Ethics in Accounting and Auditing