APP下载

政府网站网页归档探索和实践
——以宁波市政府网站网页归档试点工作为例

2022-08-13余兆力宁波市档案馆

浙江档案 2022年7期
关键词:宁波市网页政府

余兆力 张 凯/宁波市档案馆

随着信息化建设的不断拓展和深入,文件归档范围也在不断延伸,网页文件、政务服务电子文件等各类新型电子文件都陆续纳入电子文件归档范畴。2016年,中办、国办印发的《国家电子文件管理“十三五”规划》中要求“推进政府网页及电子邮件、音视频等电子文件归档”。2017年国务院印发的《政府网站发展指引》提出:“网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。”[1]为全面推进部署网站网页归档工作,国家档案局启动了网站网页资源归档试点工作,明确宁波市档案局、市档案馆为4家网站网页资源归档试点单位之一。本文将着重对宁波市开展政府网站网页归档试点工作过程中形成的相关研究与实践成果进行详细阐述。

1 政府网站网页归档概述

政府网站网页真实记录了各级人民政府及其部门的信息发布、解读回应、办事服务、互动交流等信息记录,具有重要的历史价值、保存价值和研究价值。网页归档是指将政府网站形成的、对国家和社会具有重要保存价值的网页及相关信息记录进行采集、整理、保存并向档案部门移交的活动。

网站是政府机关进行信息发布、提供对外服务的重要窗口。网页文件更新快、寿命短,具有很强的动态性,不及时归档整理,这些记录将不复存在[2]。开展政府网站网页归档,将具有保存价值的政府网站网页及时归档,是时代赋予档案工作新的历史使命,既有利于对政府职能活动进行追溯、回顾和分析,也有利于构建更加丰富的档案资源体系。

2 政府网站网页归档研究重点

网页文件属于复杂文件,里面包括了文本、图片、HTML标签等各种信息,并且多个网页文件之间还存在链接关系,与传统的电子文件存在较大的差别。传统电子文件的归档模式并不适合网页文件的归档。按照电子文件归档要求,开展政府网站网页归档需要重点研究并解决以下几个问题。

2.1 网页归档范围的问题

政府网站一般包含信息发布、解读回应、办事服务、互动交流等栏目,围绕特定主题的几个栏目或内容又组合成频道。因此,政府网站网页涉及的内容比较复杂,各个网页的价值存在较大差别,并不是所有的网页都有归档保存的价值。因此,在开展政府网站网页归档工作时,要对各网站栏目的内容进行分析和梳理,明确网页归档范围。

2.2 网页归档格式的问题

为了确保电子档案长期保存和便捷利用,归档格式一直是电子文件归档工作中非常关注的问题。网页文件其本身原始格式就比较复杂,如静态的html、shtml或动态的cgi、asp、aspx、php、jsp等,在不同版本的浏览器上会出现显示差异。在国际上,普遍的做法是采用WARC格式作为网页的存档格式,WARC 格式将多样化的网络资源收割结果连同相关描述信息一并整合到同一存档文件中,详细记录了HTTP请求的头信息和元数据信息[3]。该格式的内核为html,与原网页具有较好的兼容性,能很好地展示网页之间的关联关系。在国内,电子文件归档普遍是采用版式格式PDF、OFD作为归档格式,若将网页文件转换成版式格式进行归档,将会损失网页的交互性,也不能再现网页原有面貌。

2.3 网页归档方式的问题

纵观目前国内外的网页归档项目,基本上都采用被动的网页归档方式,即通过网页爬虫技术抓取需要归档的网页并下载至本地,通过整理后进行归档保存。除了被动方式外,还可完善网站归档功能,通过web service服务接口将网页文件主动提交归档。在开展政府网站网页归档工作时,要根据政府网站的建设情况、归档需求选择合适的归档方式。

3 政府网站网页归档实践

宁波市档案局、市档案馆开展政府网站网页归档试点工作,得到了宁波市委市政府的大力支持。为规范政府网站网页归档管理工作,宁波市政府办公厅印发了《宁波市政府网站网页归档管理暂行办法》,为宁波做好国家档案局网站网页归档试点工作提供了有力支撑。宁波作为试点,着重从网页归档职责分工、网页归档范围和采集要求、网页整理归档要求、网页文件归档管理系统建设等方面进行探索和实践。

3.1 网页归档职责分工

宁波市政府网站网页归档,首批将宁波市政府门户网站、市级有关单位网站列为试点范围。为了明确分工、落实责任,在试点工作开展之初即梳理了网页归档和管理流程,分为收集、归档、整理、移交、接收、保管、管理和利用8个环节,明确政府网站网页归档管理的职责分工。

按照“谁形成谁归档”的原则,明确网站主办单位为网页归档的责任主体,应统筹规划网页归档工作,制定网页归档范围和保管期限表,完成网页收集、归档、整理、移交和档案室保管工作;市档案馆负责建设市政府网站网页归档管理统一平台,提供自动采集功能,按规定接收、保管和管理政府网站网页档案并依法提供利用;市档案主管部门负责市政府网站网页归档工作的监督指导,制定相关管理标准、流程等规范,开展培训和检查评估。

3.2 网页归档范围和采集要求

各网站的网页归档范围和保管期限由网站主办单位制定,由市档案局审核、备案。参考政府网站建设和管理相关标准,网页归档范围一般包括反映网站整体风貌的网站首页、频道首页及栏目首页,反映本单位职能和网站功能的信息发布类、解读回应类、办事服务类、互动交流类,以及其他具有保存价值的页面。通过归档实践的论证,我们认为保管期限应以栏目为单位设置,各栏目的保管期限为本栏目内网页文件的最高保管期限。采用这种方式有利于提高网页文件采集的效率。

网页文件具有超链接性,内容非常复杂,属于归档范围的网页文件,以URL链接方式存在于网页文件中的文本、照片、音频、视频等附件及网页文件相关元数据都属于归档采集的范围,应该一并采集归档。参考《都柏林核心元数据集》《政府网站发展指引》,结合网页文件的实际情况,网页文件采集的元数据应包括内容检索类、资源属性类、知识产权类、固化信息类4类共17项。其中,内容检索类包括网页标题、发布时间、来源、关键词、摘要、网址;资源属性类包括采集时间、语种、类型、格式、唯一标识符;知识产权类包括作者、发表者、贡献者、权利所有者;固化信息类包括数字摘要、校验信息。

3.3 网页文件整理要求

明确网站网页整理的要求是开展网站网页文件归档的关键,具体包括网站网页文件归档格式、网页文件编号规则、网页文件存储结构等。

在网页文件归档格式上,对WARC格式和版式格式的对比分析,发现这两类格式有各自的优缺点。为了既能确保网页文件的长期保存,又能提升归档后网页文件的利用体验,在试点工作实践中采用了双套归档的模式,即一套网页文件通过OFD转换引擎自动转换成OFD格式保存,同时保存了一套WARC格式的网页文件。

网页文件采用按件管理的方式,试点实践工作明确了网页文件的编号规则,采用网页文件唯一标识符作为网页文件唯一性标识,网页文件唯一标识符的结构为“网站编号—日期—保管期限代码—流水号”。其中网站编号为10位数字,前2位为省级行政区划代码,后8位为网站主办单位的ICP备案号中的8位数字;日期为网页文件的采集时间,以8位数字表示;保管期限代码用“YD30D10”表示;流水号为网页文件采集时的流水编号,采用6位数字编码。网页文件的档号以网页文件唯一标识符为基础,档号结构为“全宗号—WY.年度—网页文件唯一标识符”。

网页文件采用层级文件夹进行存储,不同格式的网页文件采用不同的存储结构。WARC格式的网页文件依次按不同的网站、年度建立层级文件夹,如“网页档案宁波市政府门户网站2018”;OFD格式的网页文件基于档号规则设置层级文件夹,如“宁波市政府网页档案2018永久”。

3.4 网页文件归档管理系统建设

为实现网页文件归档管理,需要建设一套网页文件归档管理系统,该系统一方面负责与各政府网站链接,通过网页爬虫技术采集各政府网站需要归档的网页文件;另一方面与宁波市档案馆现有的集中式档案管理系统连接,将整理完毕的网页文件提交归档。网页文件归档业务流程如图1所示。

按照网页归档职责分工的要求,宁波市档案馆负责网页文件归档管理系统的建设,为全市政府机关提供统一的网页文件归档平台。根据网页文件采集、整理、归档、利用的需求,网页文件归档管理系统包括网页文件采集管理系统和网页文件展示利用系统两部分。

图1:网页文件归档在信息系统中的业务流程

网页文件采集管理系统包括网站采集、网站管理、策略管理、分类管理等功能。网站采集按照设定策略规则通过网页爬虫从网站上采集网页文件,网页爬虫可下载设定范围内的网页文件、可自动分类、可提取网页元数据。网站管理用于管理与维护采集的目标网站信息,包括采集任务的监控、采集策略的设置等。策略管理包括元数据策略设置、内容分类策略设置、采集策略设置,元数据策略定义采集网页时元数据的捕获规则,捕获规则主要基于XPATH和正则规则技术实现;内容分类策略用于网页信息的自动分类,同样基于XPATH和正则规则技术实现;采集策略用于定义目标网站的采集范围,策略内容包括设置采集网站地址、层级、采集频度、启动时间等。分类管理采用树型结构展示网页文件信息,实现对采集的网页文件的分类管理,网页文件采用WARC格式进行存储管理,在网页文件提交归档时,通过OFD格式转换服务将网页文件转换成OFD格式进行归档,同时提交一套WARC格式文件归档。

网页文件展示利用系统提供对历史网页文件的展示、查阅等服务。可以展示不同历史时间点的网页文件,其展示效果与原网站展示效果一致,重现网站的历史原貌。支持按时间顺序进行在线展示与查看,支持搜索网站,可选择查看日期,浏览某历史时刻的网站原貌。提供网页电子文件的下载功能,可随时下载已生成的OFD网页文件,通过OFD版式阅读器离线阅览。

3.5 网页归档实践成果

自2018年网页文件归档管理系统上线运行以来,网页文件归档管理系统已与宁波市人民政府网站、宁波市发展和改革委员会网站、宁波市科学技术局网站、宁波市司法局网站、宁波市人力资源和社会保障局网站等15家市级政府网站建立连接,开展政府网站网页文件采集归档工作。截至2022年6月,已采集15家政府网站网页文件约1300万件,合计数据量为2TB。2022年7月,网页文件归档管理系统完成全面升级,提供了WARC离线阅读功能,改善了对微信公众号、微博和网页文件附件的支持,系统底层检索数据存储从原有的MongoDB升级为Elastic Search系统,可承载10亿级别的数据容量,可提供秒级的全文检索响应能力,可支持宁波全市政府网站网页的采集归档。在采集性能上,从每服务器支持5个网站升级到支持10个网站,性能翻了一番。

4 结语

2018年底,国家档案局组织专家对宁波市档案局、市档案馆的网站网页归档试点项目进行了验收。专家组高度评价试点项目取得的阶段性成果,一致认为试点成果具有较强的实用性、操作性和可复制性。项目组非常重视试点工作成果的转化,以试点工作成果为蓝本起草了宁波市地方标准《政府网站网页归档与管理规范》(DB3302/T 1112—2019),该标准已于2020年1月23日正式实施。项目组还参与了《OFD在政府网站网页归档中的应用指南》(GB/T 39677—2020)国家标准的制定,该标准已于2021年7月1日正式实施。

同时,宁波也非常重视试点工作取得的成果,在应用推广阶段重点抓好两件事:一是加强行政监管,促进共享利用。将网站网页归档管理工作纳入政府网站常态化监管内容,市档案主管部门会同市政府网站主管单位对网页归档管理情况进行监督考核,未落实归档管理责任的不得评为优秀政府网站。在推动网页文件利用上,确定了“以开放为原则”的指导思想,政府网站主办单位在向本级国家档案馆移交网页文件时,如未明确指明开放属性,一律标识为“开放”。二是拓展归档范围,扩大应用领域。在归档内容上,将网页文件归档的范围向微信公众号、微博等政务新媒体延伸;在应用层级上,将政府网站网页归档工作向区县延伸。如鄞州区档案馆经过前期调研,计划于2022年底完成1个区政府网站、全部55个部门子站和鄞州公安、鄞州政务等15个鄞州官方微信公众号网页文件采集工作。

猜你喜欢

宁波市网页政府
一图看懂2020年宁波市政府工作报告
一图看懂2019年宁波市政府工作报告
知法犯法的政府副秘书长
基于HTML5静态网页设计
省级政府金融权力榜
搜索引擎怎样对网页排序
宁波市四眼碶中学
宁波市中城小学
完形填空三则
网页智能搜索数据挖掘的主要任务