APP下载

新西兰国家图书馆用网络管理工具进行网页存档情况介绍

2014-04-17王艳翠洪彦风崔建伟宗风强

科技视界 2014年22期
关键词:源代码国家图书馆网络管理

王艳翠 洪彦风 崔建伟 宗风强

(聊城大学 图书馆,山东 聊城252059)

0 引言

网络管理工具项目是新西兰国家图书馆与大英图书馆合作开发的、在国际互联网保存协议支持下实施的开放源代码工具。 合作用户在图书馆环境下使用网络管理工具时, 它是一种对在线材料进行选择、收割及质量评估的支持工具。 学科专家确定了收割的部分站点或整个站点(这些站点通常于某一学科领域或某一重要事件相关)时,可利用该工具进行有选择的网络收割。作为参与国际网络存档共享的益处,它可从http://webcurator.sf.net 网页上免费获取。

自2007 年1 月, 新西兰国家图书馆使用网络管理工具作为选择性网页存档方案的基础。 新版工具开发的第一年,大幅度的提高和改善了收割活动质量并实施了2 项大的收割活动。

本文介绍了生产环境中使用网络管理工具的经验、网页收割活动及网络管理工具的开发背景。

1 新西兰国家图书馆选择性网页存档

1.1 网页存档原因

无论新西兰社会和文化历史是以书籍、报纸、图片的形式存在的,还是以网站、博客及YouTube 影片形式存在的,新西兰国家图书馆都要根据法律授权和它所担负的社会责任对其进行保存,而越来越多的新西兰文化遗产仅能从网上获得。用户觉得网上的内容既有价值又方便,但网络内容的暂时性、缺乏明确的所有权、动态性特点对任何试图获取和保存它的机构都是巨大的挑战。网络管理工具通过允许机构捕获几乎所有的在线文件而解决了这些问题。 在线文件包括: 网页、网站、网络日志及目前大多数格式(包括HTML 网页、图片、PDF 文档、word 文档、音频、视频等多媒体内容)。 为保持这些文件的完整性与权威性,网络管理工具尽可能细致地对它们进行处理。 公众从那些安全的、长期保存的在线遗产中的获益是无法估量的。

1.2 收割历史

新西兰国家图书馆自1999 年开始就有一个选择性网页存档计划。 到2006 年底,新西兰国家图书馆已使用HT 跟踪网站复制软件对在线材料进行收割,并在一个基于MARC 的选择、查询数据库中对其进行跟踪观察。 HT 跟踪软件给图书馆留下了一项积压的工作——收割的材料不能用于长期保存的存档。目前正在实施的数据迁移计划就是把材料转换成适合存档的格式。

1.3 网络管理工具

网络管理工具支持一个包括一系列专门任务的收割工作流程:选择在线资源;寻求收割许可并使其可公开查阅;对其进行描述;确定范围和界限;列出网页收割清单;执行收割;进行质量审查并批准或拒绝收割资料;在数字仓储或数字文档中保存已认可的资料。

目前,多数网页存档活动严重依赖于收割实施者的专门技能。 然而,网页管理工具通过自动处理网页存档的技术细节使得用户和学科专家(而不是工程师和系统管理员)的收割更具有责任性。网络管理工具是开放源代码软件,并可在Apache 公共协议下从http://webcurator.sf.net 网站上免费获取。网站提供用户存取手册、邮寄清单、截图、常见问题解答、技术和管理文件、源代码、故障跟踪系统、开放源代码计划项目页等。

1.4 人员及系统资源信息

网络管理工具是新西兰国家图书馆主要的工具,并用其管理亚历山大特恩布尔图书馆的电子出版物。 在2007 年,相当于2.5 倍的全职电子选择者直接使用该工具管理着所有的选择、收割及质量审查。 该工具与图书馆的政策、工作流程、沟通及支持服务紧密集成并影响到更广泛的工作人员。 例如:技术服务维护系统的硬件和软件通过帮助界面进行管理;通过内容服务实现编目;国家数字图书馆进行数字化存档的维护。

网络管理工具设计的目的是使该工具尽量的与任何现有的系统紧密结合。 该工具配置使用了图书馆的Sun SPARC 服务器、Solaries操作系统、Oracle 数据库、Apache THHP 服务器并安装Tomcat 用于网络服务、Novell 电子地址的用户身份验证服务。 制作系统配置了2 个服务器:一个用于核心模块,一个用于收割(该配置可同时运行8 个并行收割)并与其他图书馆系统共享现有的数据库和文件服务。

2 网络管理工具1.2 版下的收割

2.1 收割历史工具

它大幅改善了质量审查的方便性和有效性, 决策过程更快速有效。 收割历史质量审查工具被证实是改善质量审查最有用的工具。 此工具列出了所有附有简要信息的特定目标, 这些信息包括开始日期、数据下载、网址收割、收割成功或失败、所用时间及现状等。 这对于强化质量审查过程中所需的大部分信息是非常有用的。

2.2 浏览工具

1.2 版质量审查工具一个简单有效的改变是: 增加了三种不同的方法用于选择查看收割站点。 这三种方法是:用浏览工具查看目前的收割案例;观看直播网站;查看以前的存档版本(互联网存档或本地存档)。收割案例在另一个浏览器窗口开放,并允许审查者把收割复本与站点的其它版本进行比较。

2.3 精简工具

1.2 版也对网络管理精简工具作了更新。 但新西兰国家图书馆不使用精简工具更改网站, 因而收割不会从它的许多变化中直接受益。新西兰国家图书馆已试行使用该工具。 实践证明,该工具新的观看功能对于选择和查看任意收割文件都是极其有益的。

2.4 正在收割的较大型网站

作为图书馆收割计划的一部分,最大的已完成并审查的收割规模是21GB,遗憾的是它未能通过质量审查。 新西兰国家图书馆已成功的收割、审查并存档多个10GB 规模的网站。

随着网站规模的增长,电子选择器更多地依靠自定义文件和优先性文件,尤其是排除那些允许电子选择器中断网站特别部分收割的过滤器。

2.5 数字资产存储配置

新西兰国家图书馆因而引进了一个更大的磁盘阵列用于数字资产存储,并提供汇报工具使馆员能持续监测磁盘阵列的使用状况。

2.6 目录工作流程及存取

当使用网络管理工具描述网站成为可能时,新西兰国家图书馆的政策就是在目录中描述图书馆的整个馆藏并提供从馆藏目录记录到存储在数字仓储中的数字化条目之间的链接。当新西兰国家数字遗产存档取代临时数字仓储时,普通民众可以获取收割的网站和期刊。

在搜索图书馆网站目录时的一个不足是:由于每个网站是单独编目的,因而无法充分反映每个收割事件。为解决这一问题,大英图书馆计划开发一个web 界面工具, 它提供基于主题和活动收割活动的存取,该工具为那些需要搜索特别网站的用户提供额外帮助。 网络管理工具目标(单个网站)及团体(网站收藏)定义使其成为可能。

3 结论

新西兰国家图书馆里用网络管理工具成功实现了有选择性的网页存档计划:使用网络管理工具进行选择、安排、收割并审查网站,然后把它们提交至数字化存档。 1.2 版的质量审查工具作了很大的改进,新西兰国家图书馆目前正对开放源代码网站进行故障追踪记录并把情况通知给该工具的未来修订版。该工具的新版(1.3 版)目前已经发布,预期它会进一步改善网站收割工作流程。新西兰国家图书馆目前正在开发将来存储和带宽要求的容量模型,筹划开发存取工具和域级别的收割。

[1]http://www.dlib.org/dlib/may08/paynter/05paynter.html[OL].

[2]http://www.httrack.com/[OL].

[3]http://opac.lianza.org.nz/cgi-bin/koha/opac-detail.pl?bib=121[OL].

猜你喜欢

源代码国家图书馆网络管理
人工智能下复杂软件源代码缺陷精准校正
基于TXL的源代码插桩技术研究
国家图书馆藏四种古籍编目志疑
软件源代码非公知性司法鉴定方法探析
电动汽车充电服务网络管理初探
中国国家图书馆藏西夏文《不空羂索神变真言经》考论
基于EOC通道的SHDSL网络管理技术
揭秘龙湖产品“源代码”
国家图书馆藏吴奕杂剧二种略考
校园网络管理及安全防护