APP下载

基于智慧校园的高校网站网页归档研究

2022-04-21孙婷婷张轶群柳萍

档案与建设 2022年3期
关键词:东南大学

孙婷婷 张轶群 柳萍

摘 要:高校网站作为智慧校园建设的基础平台,产生了海量的网页数据,这些数据多源、异构且复杂,并且从产生、发布到展示均是以电子形式进行。文章分析国内外有关高校网站网页归档的现状,总结其中存在的问题,结合东南大学实践提出具有高校特色的网站网页归档管理体系。

关键词:高校网站;网页归档;归档策略;东南大学

近年来随着高校智慧校园及“双一流”建设的推进,高校网站成了教学资源共享、师生互动交流、部门协同办公的综合信息集成服务平台,产生了海量的网页数据和电子文件。但受人为操作、软硬件升级、网站改版等原因影响,这些网页数据及文件具有易逝性,因此需要及时归档,保证网页档案信息资源长久保存。

一、 国际国内现状

1996年国外已开始网站网页归档研究与实践,最早主要有澳大利亚网络文件保存和获取项目(PANDORA)、英国网络信息保存联盟计划(UKWAC),美国国会图书馆网络信息保存项目(MINERVA)等,此后法国、加拿大、韩国等国家和组织也相继开展相关工作。2003年,国际互联网保存联盟(IIPC)[1]成立,截至2022年2月,共有52个成员机构,涵盖了超过45个国家的档案馆、图书馆、学校等。大多数高校如哥伦比亚大学、康奈尔大学、加州大学洛杉矶分校与美国互联网档案馆(Internet Archive)合作。美国互联网档案馆是1996年成立的世界上最大的在线数字档案馆,最主要的工作就是对互联网上的网页进行数字建档。[2]截至目前,其“Archive-It”网站归档项目已经与387个高校、高校院系、高校附属机构以及高校档案馆进行合作。[3]

我国网站网页归档研究与实践起步较晚,最早是2001年北京大学网络实验室的中国Web信息博物馆项目,其收录了几乎所有中文网站的网页信息。2003年国家图书馆开始从事网络信息资源采集与保存实验项目(WICP),对中国境内的互联网资源进行采集与保存。此后,国家图书馆加入IIPC,成立了国家图书馆互联网信息保存保护中心,[4]并于2021年启动互联网信息战略保存项目。但是我国档案部门的网站网页归档工作仍处于探索阶段,目前仅有少数网站网页归档试点单位。此外,也有少数高校开展网站网页归档工作,如台湾大学自2006年起开发网页归档系统,建立了台湾网站典藏库,至今已收录10大类共计52个网站。[5]

二、 高校网站网页归档存在的问题

综合国内外现状可见,我国的网站网页归档尚处于起步阶段,高校网站网页归档工作更是处于萌芽阶段,存在着以下几点亟待解决的问题。

1. 管理办法缺失

2019年12月,国家档案局发布《政府网站网页归档指南》,政府网站网页归档工作有了统一的指导标准。政府出台的规范标准虽对高校具有指导借鉴意义,但由于两者网页信息存在差异,在实际工作中不能完全适用。笔者通过调研北京、上海、江苏、浙江、重庆、东北等地区的30余所高校,发现其中开展网站网页归档工作且制定相关管理办法的高校寥寥无几。政府或学校管理办法的缺失,使得高校网站网页归档工作“无章可循”,出现种种问题。并且由于缺乏政策认可与指导,高校对网站网页的认识度和利用度有限,缺乏有效的支持与信息反馈,难以开展或推进网站网页归档项目,更难反推管理办法的制定,由此陷入恶性循环,制约了高校网站网页归档工作的开展。

2. 采集归档方式局限

目前高校多采用选择性采集和被动归档相结合的方式。选择性采集是选择符合一定标准的特定网站网页或文件进行采集;被动归档是由档案管理系统下达网页采集任务,利用采集工具抓取指定网页信息并归档。其局限性在于对采集内容的选择标准具有主观性,且易割裂采集内容与周围环境、背景知识等相关网页的联系。也有少数高校采用完整性采集和被动归档相结合的方式。完整性采集是对特定网络域的所有网页信息进行完整采集。这种完整性采集与被动归档相结合的缺点在于周期长、频率低、成本高,两个采集时间节点之间发生更新的网页信息无法归档,造成大量的信息遗漏,且无法实施深层网络资源采集,归档的信息质量较差。

3. 归档范围、内容片面

高校网站涵盖范围广泛,包含主站、二级单位网站及微博微信等。这些网站网页形式多样,更新发布信息频繁,具有复杂性、异构性和动态性等特点。因此对高校档案馆的人力、资金、技术等方面具有较高的要求,能将这些网站网页全部归档的少之又少。目前国内高校多是在校内网络范围内选择性地采集归档相关网页,如校报、校内新闻等网页,归档内容基本局限于纯文本或网页快照,缺乏与网页相关的多媒体内容、元数据等信息,大大降低了网页档案的凭证价值和利用价值。

三、 东南大学网站网页归档实践策略

2020年起,东南大学按照“统筹规划、量力而行、分期建设”的原则,通过调研学校网站群网络架构、平台建设和信息内容等情况,统筹规划实践工作,按网站类型和实施难易度确定分期建设的目标,至2021年底已完成65万余条网页数据及文件的归档工作,2022年将完成学校官方微博和微信网页归档。通过借鉴国内外经验,以及对做法进行不断总结与完善,逐步探索出具有较强可行性的高校网站网页归档实践策略。

该策略通过建立一套完善的网站网页归档体系,完成前端平台构建、管理制度建设、采集归档方式选择以及数据检测与利用等工作,从而形成良好的“生态系统”,系统各部分要素节点相辅相成、结合互补、互相推动、缺一不可,最终实现网站网页归档从前端控制、过程实施到后端管理的一体化、全过程管理。

1. 前端平台构建

(1)構建系统平台

构建系统平台的目的是对归档数据进行前端控制,将多种采集和归档方式结合并举。一方面,依托智慧校园网站群系统的主动推送,实现校内网站多站点、多栏目统一管理及信息集成,完整地将网站群上的数据进行归档。另一方面,建立完善的网页采集机制,通过下达任务,对校外站点数据进行被动抓取。两种方式优势互补,有效提高数据信息的广度和精度,保障归档网页数据的齐全完整。

(2)搭建数据桥梁

在智慧校园网站群系统与档案管理系统之间开通数据接口,实现数据的无缝对接。在网页采集程序与档案管理系统之间开通数据接口,实现校外站点数据的抓取与传输。通过这两座“桥梁”,实现前、后端互联互通,能够进行数据解析、清洗与去重、关系映射与转换等[6],提高归档数据质量,最终至档案管理系统进行长久保存,并在专题数据库集成与展示。

2. 管理制度建设

(1)定义归档范围

为了确保来源不同、态别不同、构成不同的网页数据与文件应收尽收、应归尽归,首先需要明晰归档集成对象。高校网站网页归档范围应包含三部分:一是中英文高校主站,二是中英文二级单位如院系、职能部门、直属单位等网站,三是校外站点与本校相关的重大事件、重要人物、重要事迹以及微博微信等网页。东南大学规定了网站网页归档范围涵盖东南大学智慧校园网站群以及校外媒体站点的相关内容,特别是与学校招生就业、人才培养、科研教学等相关的重要站点。

(2)明确归档内容

根据高校网站网页信息类型及呈现方式,可明确归档保存的内容。网页是内容和结构两方面的结合:内容包含文本内容(即网页上的纯文本)、视觉内容(即网页信息的视觉形式)、多媒体内容(图片、音视频、动画等)以及网页元数据。结构包含外观(即网页整体布局或演示)和行为(即网站内外链接导航)。东南大学规定设置归档字段如文件题名、网站名称等将元数据采集归档,同时网页文件及其视频、图片等以附件形式归档,并且利用技术手段将源网页的可视化图像进行归档,保留了网页的真实面貌。

(3)制定档号规则

制定档号规则是对数量众多、内容广泛、形式复杂的网站网页信息进行科学有序管理的必要一环,需使之兼具唯一性、合理性、稳定性、扩充性、易操作性,又能够与本单位档号制定规则相一致。参考《政府网站网页归档指南》及东南大学档案馆其他类档案号的制定规则,按“档案门类-归档年度-网站级别-流水号”规则设置,能够体现档案门类和网站级别,便于查找和区分。

3. 采集归档方式选择

如前文所述,单纯只采用某种采集和归档方式具有一定的局限性,为解决这些问题,依托网站网页归档系统平台,将不同的采集和归档方式结合互补,对三类网页数据——历史数据、链接与校外媒体站点数据以及新增与修改数据进行归档,多线并举,确保网页档案的齐全完整。

(1)完整性采集与主动归档相结合

采用完整性采集与主动归档相结合的方式,利用档案管理系统与智慧校园网站群系统之间的接口,将网站网页归档系统平台建立之前网站群上存在的历史数据一次性完整地主动推送至档案管理系统。东南大学在实践中采用此方式实现了3个主要站点20余万条历史数据及其相应附件的归档工作。

(2)选择性采集与被动归档相结合

采用选择性采集与被动归档相结合的方式,对历史数据中包含的链接数据的源网页信息甚至可视化图像进行捕获,保证归档数据的完整性。在实践过程中发现,网站前台发布人经常通过转载链接的方式发布网页信息,因此归档后往往只含有一条链接,为提高归档数据质量,后续将在网站网页归档系统平台嵌入网页采集机制对数据进行监督完善。照此方式,可对校外媒体站点与东南大学相关的网页及微博微信等进行精准捕获,甚至多次捕获不同时间节点的数据,确保其完整性与有效性。

(3)前端控制与实时监测

采用前端控制与实时监测的方式,可解决智慧校园网站群最新发布的新增数据归档问题。网页信息在网站前端一经发布,立即触发主动归档机制,瞬间将网页数据及文件推送至档案管理系统,真正做到网页数据的“一触即发”。若已归档的网页数据在前端发生修改,系统能够实时监测并比对,將修改后再次发布的数据进行推送,同时保存其修改过程中形成的元数据,确保档案形成证据链的完整性。

4. 数据检测与利用

为了加强网页档案数据的质量控制和安全保障,需对归档后的网页档案数据进行检测,推进网页档案数据资源的整合、服务和共享。

(1)数据检测

网页从前端创建、发布到归档管理均以电子形式流转,可用四性检测方式进行检测:一是通过检测网页元数据规范性、重复性以及电子文件属性、存储路径等,保证网页数据及文件的真实性;二是通过检测归档的网页文件数据总量、元数据与内容数据是否齐全完整等来保证其完整性;三是网页归档后,检测元数据是否可以被正常访问,网页文件及附件等是否可以正常浏览、下载,格式是否符合归档要求等,确保其可用性;四是除权限设置外,配备物理措施、数据加密技术、防病毒措施等,同时采集归档文件形成流转过程中的证据链,保证其安全性。

(2)数据利用

为了促进网站网页档案数据资源开发与利用,应积极探索知识管理、人工智能、数字人文等技术在网页档案信息深层加工中的应用,通过建立专题数据库的形式实现对网页档案资源的可视化开发利用。东南大学在将所有网页数据及文件归档后,建立了网站网页档案专题数据库,为用户提供检索、统计、分析、导出等功能,并且归档的网页文件以及音视频、图片等支持在线浏览或点播,以便为用户提供多元化服务,助力学校发展与科学研究。

*本文系中国高等教育学会档案工作分会一般项目“智慧校园背景下高校网页归档实践与研究”(项目编号:ZGD-YB-2020-21)阶段性研究成果。

注释与参考文献

[1]INTERNATIONAL INTERNET PRESERVATION CONSORTIUM-IIPC [EB/OL].[2022-02-18].http:// netpreserve.org/.

[2]杨弃.美国互联网档案馆建设[J].档案与建设,2018(04):24-26+13.

[3]Archive-It-Web Archiving Services for Libraries and Archives[EB/OL].[2022-02-18].https://archive-it.org/.

[4]刘青,孔凡莲.中国网络信息存档及其与国外的比较——基于国家图书馆WICP项目的研究[J].图书情报工作,2013(18):80-86+93.

[5]台湾大学.台湾网站典藏库[EB/OL].[2022-02-18]. http://webarchive.lib.ntu.edu.tw/.

[6]卞咸杰.大数据时代档案信息资源共享平台数据采集系统设计与应用[J].档案与建设,2020(10):25-29.

猜你喜欢

东南大学
东南大学迷惑招生行为:学弟学妹们!等你们来报到
东南大学退休职工健身锻炼现状调查与分析
东南大学与中国现代教育学的创建
梅庵旧闻
高校图书馆到馆率和纸质图书利用率的分析与思考
全国土木工程研究生暑期学校的实践与思考
党性和人民性相统一的价值探索
从市场营销视角优化大学品牌形象研究
中国普通高校体育教育之窗