APP下载

企业数字档案长期保存框架与策略

2020-11-06杨帆王强

兰台世界 2020年10期
关键词:数字档案

杨帆 王强

摘 要 本文介绍了中石油在建设数字档案长期保存系统、设计数字档案长期保存数据架构、制定数字档案长期保存管理规范、采取多种形式的数字档案存储方式、实施数字档案备份与容灾策略等方面的做法,结合存在的问题,总结了构建数字档案长期保存框架体系的五点启示:一是全面遵循OAIS参考模型设计可持续框架;二是建设适用的数字档案长期保存系统;三是建设基于认证的数字档案长期保存管理体系;四是合理选择长期保存工具与技术策略;五是打造企业数字档案长期保存共赢生态。

关键词 数字档案 长期保存 中石油

中图分类号 G273.2 文献标识码 A 收稿日期 2020-05-26

★作者简介:杨帆,中油国际管道公司文档管理主管;王强,中国石油档案馆副研究馆员,中国人民大学电子文件管理研究中心研究员。

Abstract  This paper introduces CNPC's practices of digital archives in the construction of long-term preservation system, the design of long-term preservation data architecture, the formulation of long-term preservation management specifications, the adoption of multiple storage methods, the implementation of backup and disaster recovery strategies. In view of the existing problems, the paper summarizes five implications of building a long-term preservation framework system of digital archives: The first is to fully follow the OAIS reference model to design a sustainable framework; the second is to build a suitable long-term preservation system for digital archives; the third is to build a certification based long-term preservation management system for digital archives; the fourth is to reasonably select long-term preservation tools and technical strategies; and the fifth is to create a win-win ecology for long-term preservation of enterprise digital archives.

Keyword  digital archives; long-term preservation; CNPC

企业档案是企业的重要信息资源和知识资产,随着企业信息化和档案信息化的深入推进,数字档案日益成为档案管理的主要对象并成为企业數据资产的重要内容,数字档案长期保存是持续维护和开发数字档案资源与资产价值的基础。因而,如何通过数字档案保存维护数字对象的长期可获取与可用成为重要议题。

于国家层面,我国的数字档案馆与数字档案室战略从基础设施、管理系统到实施方案正探索持续推进的整体框架,美国的ERA、加拿大的数字可信仓储、澳大利亚的数字连续性政策均从不同方面探讨数字档案长期保存在国家层面的布局和政府部门中的落实。然而,对于企业这类重要社会组织机构而言,如何立足其性质与职能展开数字档案保存缺乏较多元与代表性的实践参照。这同样体现在国内外的理论研究中。较具国际影响力的跨国项目InterPARES从理论基础、原则与方法、具体方案探讨电子文件与档案的长久保存要义。我国近年来除明确数字档案以及电子文件以真实性、可信性为主的概念外,一方面,从保存格式、元数据模型、保管技术如区块链等方面研究具体的战略、策略、标准、方案[1][2][3][4]等;另一方面,明确档案数据化的趋势,提出面临的挑战与应对设想[5]。这些研究同样更多立足于政府机构或公共档案馆的范畴中,缺少企业数字档案长期保存实践数据与理论框架,对于企业如何开展数字档案长期保存缺失系统和具有实践论证的指导。

因之,本文将以中石油数字档案长期保存实践为案例,对具体行动及其进展予以全面说明,结合理论框架呈现更具应用价值的策略,以期为企业主体乃至更普遍的数字档案长期保存提供参照。

一、中石油数字档案长期保存多元维度解析

1.建设数字档案长期保存系统。中石油档案管理系统基于OAIS(Open Archival Information System,开放档案信息系统)参考模型建设,业务功能包括收集整理、档案管理、长期保存、开发利用、管理支撑五大模块112项功能。长期保存模块是档案管理系统核心模块之一,主要实现电子档案的长久保存,包括电子文件格式管理、元数据封装、数据包维护、“四性”检查等功能。功能描述如下:电子文件格式管理,按照国家和中石油电子文件格式规范要求,在线维护系统管理的电子文件格式规则,并可自动完成每种格式的电子文件数量、占用大小、平均大小等数据统计;电子档案存储格式转换与信息组织,通过对电子档案存储格式的转换,将存入系统的电子档案转换为符合长期保存要求的存储格式;电子档案长期保存,采用迁移、封装、检测等方式保障数字档案信息的长期保管;对非通用格式电子档案阅读所需要的原始软硬件在系统中进行标识;元数据封装,支持在线对电子档案设置元数据及数据长久保存封装规则,根据规则自动进行数据封装;数据包维护,支持通过数据包管理功能查看电子文件和电子档案相关数据封装后情况;备份,支持软件系统、数据库和电子档案备份,根据数据重要程度选择在线、离线等不同备份方式;“四性”检查,支持针对电子文件和电子档案来源、内容是否被篡改,信息构成是否完整,元数据和特殊软硬件是否完整,是否具备信息可识别性、存储系统可靠性、载体完好和兼容性等涉及“真实性、完整性、可靠性、可用性”的指标项进行在线监测和维护。

2.设计数字档案长期保存数据架构。数据架构参照OAIS参考模型进行设计。根据业务应用场景对档案业务数据进行分库管理,并结合分布式存储技术对数据内容进行存储,在功能、性能两方面满足业务发展需要。

从业务与信息系统自动归档或归档人员手工上传的电子文件对应OAIS中SIP数据包,其电子文件和关联的背景信息除以原始文件形式保存在数字档案馆系统外,还将背景信息中的结构化数据保存在数字档案馆数据库中,以方便查找利用。归档办结的档案中,对于有长久保存价值的(如保管期限为30年及以上的)电子文件,数字档案馆系统自主定制了专业数据包,对应OAIS中的AIP数据包。该数据包在档案办结稳定后,由后台打包服务自动完成长久保存数据包封装工作,并保存在一套独立的存储中。用户借阅的电子文件,对应OAIS中的DIP数据包,在用户进行借阅时,系统自动生成带权限保护的加密压缩数据包,每个借阅者都有其独立副本,只能通过系统自主开发的文件保护客户端由授权用户打开利用。

3.制定数字档案长期保存管理规范。一是归档电子文件元数据规范。保存元数據是电子档案长期保存重要技术保障措施之一,中国石油从集团公司层面制定了企业标准《归档电子文件元数据规范》(QS/Y10542—2018)。该标准定义了文件实体元数据(文件本身属性内容)、业务实体元数据(处理文件过程中的业务状态、行为)和实体关系元数据(实体关系类型、关系及表述等)三个域,规定了归档电子文件元数据的元素、结构、表述方法和封装,以满足数字档案长期保存的需要。针对每类电子文件明确元数据项,如电子会计档案元数据共81项,其中文件实体元数据71项、业务实体元数据6项、实体关系元数据4项。电子合同档案元数据共93项,其中文件实体元数据83项、业务实体元数据6项、实体关系元数据4项。二是归档电子文件格式规范。中石油从集团公司层面制定了企业标准《归档电子文件格式规范》,规定了归档电子文件长期保存格式应具有的特征和选择原则,定义了纯文本文件、格式化文本文件、版式文件、图像文件、矢量图形文件、音频文件、视频文件的归档电子文件的长期保存格式,同时定义了可提供保护的电子文件格式共7类,包括25种,如版式文件采用PDF格式、XPS格式、OFD格式,纯文本文件采用TXT格式、XML格式。

4.采取多种形式的数字档案存储方式。在数据保存方式上,档案管理系统中所有档案条目数据均保存在结构化数据库中,对应的电子文件保存在以NAS作为底层存储的分布式文件存储中,该保存方式结构公开,无技术偏好性,后期可随时更换底层的NAS存储以使用其他技术。以上数据均为方便在线利用进行保存。对于具备长久保存价值的电子文件及其相应的元数据,设计了一套以ZIP压缩包为封装载体,以分级文件夹进行电子文件组织,以XML文件为结构化数据组织的数据包封装方案。数据包中存储的XML文件保留了档案形成过程中产生的各类审批信息、源头信息和签名信息等。每份档案一个数据包,每个数据包均采用公开方式进行封装,没有加密操作,以确保长久保存数据脱离档案管理系统也可进行利用。长久保存数据包可定期存储在磁带库或不可覆盖的光盘介质中,并将介质进行登记与离线保存,防止数据被篡改。未来如在线系统中保存的档案数据丢失,或与长久保存数据包中的数据出现不一致时,均以长久保存数据包中的数据为准。在硬件存储方式上,档案管理系统计算资源与存储资源全部由中石油云计算平台提供,其中结构化数据底层存储采用SAN存储区域网络(Storage Area Network),非结构化数据采用NAS网络连接存储(Network-Attached Storage),备份数据采用磁带库方式保存。

5.实施数字档案备份与容灾策略。数据库备份策略:每周一至周六进行差异备份,周日进行全量备份。每天每隔三小时整点进行事务日志备份。每日对数据库备份完后对备份文件再次进行磁带库自动备份。每月30日在测试环境进行备份可用性恢复测试。电子文件备份策略:生产环境每日变化的电子文件数据,相关服务自动进行复制,复制至单独磁盘,并对磁盘文件每天进行磁带库备份。如出现需要恢复电子文件的情况,根据当日备份文件进行恢复。系统容灾策略:档案管理系统生产环境部署在北京数据中心,异地灾备环境规划在新疆数据中心,两个数据中心间具备万兆光纤进行数据传输与同步。中石油通过建设数字档案长期保存系统、设计数字档案长期保存数据架构、制定数字档案长期保存管理规范、采取多种形式的数字档案存储方式、实施数字档案备份与容灾策略等措施,基本实现数字档案的安全保管和长期可用。

二、中石油数字档案长期保存主要问题

通过选择数字保存能力成熟度模型(DPCMM)进行评价,中石油数字档案长期保存主要存在以下问题。一是没有系统化的数字档案长期保存框架。主要体现在OAIS的核心要素缺失——偏宏观管理活动而非档案业务活动的行政管理和保存规划模块的功能并没有纳入到档案管理系统建设中,说明业务和系统在整体建设与规划中缺少对于OAIS体系性的认识。二是缺乏数字档案长期保存体系认证意识。中石油尚且处于数字对象管理的功能建设阶段,并没有实施任何功能认证。三是数字档案长期保存技术与工具体系不完备。中石油在开展档案长期保存活动时,运用了数字对象封装技术、“四性”检测等校验技术、灾难备份与恢复技术和安全风险管理等。以数字封装为例,中石油目前使用的是常规的ZIP压缩工具,直接将内容信息与元数据进行压缩打包,而没有做任何XML格式封装处理。对照基于OAIS的数字保存技术工具与服务体系,如在接收功能方面,缺少数字对象封装技术、完整性校验技术。以上问题是很多企业开展数字档案长期保存时容易忽视的问题,应引起重视。

三、数字档案长期保存策略

1.框架指引:全面遵循OAIS参考模型设计可持续框架。OAIS(开放档案信息系统)(ISO 14721:2012)作为国际公认的数字信息长期保存标准,为数字档案长期保存提供了一个基本的框架,它所提出的信息模型对于制订长期保存元数据方案和指导数据封装具有重要的参考价值。此外,OAIS还针对数字信息的特点及生命运动规律,提供了包含六个基本功能模块的功能模型,为企业数字档案长期保存系统框架的构建提供了科学指导。值得注意的是,OAIS参考模型针对不同的应用对象,有着不同的具体实现,而且OAIS所提出的理论设想并不都具有绝对可行性,需要加以灵活应用。

2.系统保障:建设适用的数字档案长期保存系统。建设数字档案长期保存系统是实现数字档案长期保存的重要载体。数字档案长期保存系统的开发和建构,可基于《信息与文件—文件管理—第一部分:总则》(ISO 15489)的概念模型,也可参考OAIS参考模型提供的系统架构。ISO 15489作为整个文件与档案管理领域公认的奠基标准,其确立的一系列概念与管理原则在各个长期保存标准中也得到了广泛继承和发展。OAIS参考模型是建设可信数字资源保存库的基本参照和重要指南。很多档案馆、图书馆及出版机构等应用OAIS构建了数字信息长期保存系统,如美国国家档案馆以OAIS为参照,开发了著名的数字档案馆(ERA)项目;欧洲NEDLIB项目以OAIS的功能模块为参照,构建了电子出版物版本系统(DSEP)。在参照OAIS功能模型时,一些企业常常忽视行政管理功能的建设,行政管理功能通常包括制定标准和政策、管理系统配置、审查提交、商定提交协议等,在整个OAIS系统中扮演着宏观组织、控制和协调的重要角色,與其他五个功能实体保持联系和互动。另外,它还具有档案信息更新、物理存取控制、激活需求和客户服务等多项业务功能。因此,企业在参照OAIS功能模型建设数字档案长期保存系统时,应格外重注行政管理功能的建设。

3.体系作战:建设基于认证的数字档案长期保存管理体系。健全的管理体系是数字档案长期保存的重要保障。企业可遵循《可信数字仓储审计与认证:标准与审计表》(TRAC)国际标准,建立可信可认证的长期保存技术与管理体系。基本内容可从三个基本层次展开,即组织基础建设、数字对象管理、技术基础设施及安全保障,在每一个层次又可进一步展开和细分,形成具有可操作性的二级和三级指标。同时,可参考国家档案局在2017年发布的《企业数字档案馆(室)建设指南》,以其基本要求为指导,健全管理体系。

4.技术支撑:合理选择长期保存工具与技术策略。企业应重视以下方面技术应用。一是格式管理技术。我国档案行业标准《版式电子文件长期保存格式需求》(DA/T47—2009)作出了明确规定:支持真实性、格式透明、不绑定软硬件、格式自包含、格式自描述、固定显示、持续可解释、持续可用、可转换、易存储。《电子文件归档与电子档案管理规范》(GB/T 18894—2016),规定了不同类型文件的格式要求。企业在实施格式管理策略时,应在已有标准和实践基础上,开展格式注册管理,明确规定所接收的归档文件格式类型、非标准格式转化为标准格式的流程和技术要求,以及格式转换的质量控制。由于格式本身处于动态变化之中,加之电子档案本身覆盖的业务范围广泛,信息类型多样,因此企业宜定期发布数字档案长期保存格式推荐指南。二是迁移技术。迁移技术是数字保存领域应用最为普遍且相对成熟的技术策略。目前,主要有物理迁移(存储介质迁移)和逻辑迁移(文件格式迁移)两种方式,企业需要结合自身情况制定合理的迁移管理策略。另外,由于目前还有大量非标准格式的电子文件存在,数据格式尚处在自我发展阶段,缺乏必要的整合,软件系统也是类似情况,因而建立迁移管理中心,集中应对旧有信息的迁移工作,在成本控制、技术保障方面很有优势,便于对类似数据库系统、多媒体信息、地理信息系统等复杂文件的迁移提供服务。三是封装技术。封装技术通过将元数据和内容直接关联打包为一体的形式,实现数字档案自包含、自描述和自证明,成为数字档案安全管理较为有效的一种技术手段。目前,较典型的几种封装结构或模型有VEO(VERS Encapsulation Object)封装包、METS(Metadata Encoding and Transmission Standard,数据编码和传输格式)封装、XML封装。我国制定了行业标准《基于XML的电子文件封装规范》(DA/T 48—2009),《电子档案移交与接收办法》规定“一般采用基于XML的封装方式组织档案数据”。四是面向未来搭建长期保存工具与服务体系。目前,相关机构开发出档案接收、档案存储与数据管理、档案存取、保存规划等方面各类软件工具并提供有关支持服务。企业可选择性引进使用,面对众多的软件工具,有必要建立长期保存工具统一管理模块,开展工具的注册和备案管理。

5.协同治理:打造企业数字档案长期保存共赢生态。数字档案长期保存是一项系统工程,从企业内部看,涉及档案部门、业务部门、数据管理部门等多个主体;从企业外部看,涉及国家档案行政管理部门、社会研究机构、各类相关企业等。因此,建立各参与主体间的良性互动机制,打造企业数字档案长期保存共赢生态,是企业数字档案长期保存可持续发展的有效途径。可从以下方面开展合作:一是数字档案资源长期保存合作体系的构建、政策的制定。二是数字档案长期保存前后端业务活动的协调,特别是提前介入数字档案的产生、流转过程,参与业务信息系统的设计。三是数字档案长期保存标准规范的制订。为保证数字档案长期保存业务标准的适用性,文件形成部门、档案部门、技术部门、利用者、政府等多方主体应共同参与,在进行充分调查的基础上制定数字档案长期保存标准与规范。四是技术研发。开发具有国产自有知识产权的管理软件和硬件。

参考文献

[1]祁天娇. 美国数字档案资源长期保存战略的分析与启示[J]. 档案学研究,2019(1):108-113.

[2]钱毅. 基于OAIS 的数字档案资源长期保存认证策略研究[J]. 档案学研究,2018(4):72-77.

[3]肖秋会,高婷. 电子文件长期保存格式标准研究[J]. 信息资源管理学报,2017(2):71-76.

[4]刘越男,杨建梁. 面向电子文件保存的统一元数据模型的构建[J]. 中国图书馆学报,2017(2):66-79.

[5]钱毅. 数据态环境中数字档案对象保存问题与策略分析[J]. 档案学通讯,2019(4):40-47.

猜你喜欢

数字档案
数字档案建设
广西南宁以“数字档案”提高税务稽查效率
数字档案生态链信息流转效率提升策略研究
数字档案安全性保护的影响因素分析
研究数字档案信息安全保障体系
一种安全灵活的数字档案压缩与加密方案
构建数字档案信息安全保障体系的研究
数字档案信息安全防护对策分析2
数字档案信息安全防护对策分析
浅谈数字档案信息资源建设