APP下载

电子文件单轨制管理模式下档案数据保全研究

2022-02-03高珊

档案天地 2022年1期
关键词:哈希区块

高珊

一、关于电子文件单轨制与单套制概念辨析

“轨”与“套”常被人混淆,现加以辨析。“轨”侧重整体性、系统性[1],指文件全生命周期的运行状态。若始终以一种形式运行流转,则称为单轨,若运行过程某时出现另一种形式,则称为多轨或混轨。“套”则是指归档时及归档后的文件状态,以归档节点作为分水岭,如果仅以一种形式归档及保存,则称单套制。从时间段来说,轨的时间段长于套的时间段。二者的区别在图1中显而易见。

电子文件单轨制是指电子文件自生成、流转、归档、利用及销毁等过程仅以电子文件的方式,不再生成其它载体形式的档案管理方式。电子文件单套制是指归档、保存时仅以电子文件这一种方式。随着大数据、区块链、云计算等新兴信息技术的发展和各类无纸化辦公系统的普及,大多文件产生时即为电子文件,且仅以电子的形式进行流转、归档、保存及利用,独立电子文件管理成为必然趋势,与之对应的档案管理模式为电子文件单轨制。

二、电子文件单轨制管理模式重点问题——档案数据保全

2019年12月在主题为“从数字化到数据化:电子文件管理的纵深发展” 的第十届中国电子文件管理论坛中,国家档案局领导明确指出,认可电子档案法律效力的《〈档案法〉修订草案》已获得国务院审议通过,下一步将沿着“标准先行、试点推进、稳步推进、风险可控”的路线推行电子文件单轨制管理。2021年1月,《中华人民共和国档案法》正式施行,第三十七条规定:电子档案应当来源可靠、程序规范、要素合规。电子档案与传统载体档案具有同等效力,可以以电子形式作为凭证使用。电子文件的法律凭证地位正式得到保证。

电子文件单轨制管理模式有保持电子文件的原生性,节省人力物力等诸多优势,但档案管理过程中的风险也不容忽视。档案数据因与载体分离,无法通过辨识载体或存储介质的状态来分辨电子文件的真伪,“冷备份”无法做到对数据状态的实时监测;档案数据存在于各类业务系统中,保存环境是动态的技术环境,易受病毒攻击,易被篡改,操作不当易丢失;特定技术环境下生成的档案数据的解析及封装依赖于软硬件环境的变化。以上等因素导致电子文件的“四性”难以维持。档案数据的锁定与固化、存证与保全,是急需解决的问题。

国际数据组织联合会认为,数据保全是在需要的情况下长期访问数据所需的一系列托管活动,广义来说,就是在超出媒体故障或技术变化的限制范围内,保持对数据的访问可行所需的所有操作[2]。电子文件单轨制管理模式下的数据保全,要求技术人员在档案数据形成、流转、归档及保存各个环节进行全程管理,从档案数据生命早期开始进行持续的实时监控,采取相关技术手段固化档案数据,对档案数据的原生环境的升级改变进行持续跟踪管理,适时进行档案数据迁移,以使数据长期可读、可用。

三、档案数据保全相关技术

(一)全程监控数据生成及运行环境

电子文件单轨制管理模式下,档案部门的监管职责应延伸到电子文件创建前期,指导归档部门做好电子文件创建及流转环境安全管理。

使用局域网进行物理隔离[3],专机专用,重视漏洞排查、补丁安装、防火墙设置等软硬件维护,监控系统运行日志。采用抑源法、屏蔽法和噪声干扰法等技术手段,防范电磁泄漏造成的信息失密,为原生电子数据的生成流转提供安全、稳定的物理环境。压实主体责任,严控服务器及业务系统的访问权限,对流转过程进行全面持续的监控和跟踪记录[3],提高电子文件的安全系数。

为便于电子文件归档及后期利用,各业务系统应与档案系统统一接口规范、元数据及存储格式标准,做到无缝衔接。业务系统设计建设时,档案部门应介入沟通并给予指导,规避后期电子文件线上归档、利用的诸多问题。

(二)档案数据的固化与保全

运用哈希函数进行运算加密,对档案数据进行内容固化是保障电子文件“四性”的重要手段。哈希函数又称散列函数, 哈希运算具有单向性、不可逆、输出位数固定、高灵敏性、抗碰撞性等特点。以算法SH256为例,对任一文件进行哈希运算都会得到一个64位的十六进制的字符串,又称哈希值、数字摘要、数字指纹。对文件的任何微小改动都会导致哈希值变化,且不同文件运算后哈希值相同的概率几乎为零,因而哈希算法广泛应用于各类检验机制。

1.实时预警、修复的三角模型比对法

苏大苏航数据保全中心在数据保全系统采用三角模型比对法,可有效解决数据在保管过程中丢失无法恢复、被篡改无法溯源的问题[4]。电子文件的微小变化都将造成哈希值变化,因而可靠存储文件的哈希值就足以锁定电子文件的内容信息。

三角模型比对法原理:将归档的文件一式多套备份,不定期进行抽查,对其中一套进行哈希运算得到哈希值与原哈希值进行比对,若一致则此套未被篡改,若不一致则继续对下一套进行哈希值的计算与对比。若这套一致,则用这套数据对上一套数据进行修复;若哈希值比对结果仍然不一致,则需取另一套进行计算比对。可见,原哈希值的存储情况关系到档案数据的安全与稳定。可将电子文件的原哈希值上传至第三方可信时间戳服务中心或区块链,以确保档案数据的原始性及完整性。三角模型比对法可实现对档案数据的实时监测、实时预警、实时修复、实时保全[4]。

2.可信时间戳技术用于档案数据的保全及验证

戴艳清在《时间戳技术在档案数据管理中的应用》[5]中认为,档案数据应包含档案内容信息的数据、档案管理运行过程中产生的实时数据、统计数据、元数据及其他数据的集合。时间戳技术与档案管理的紧密结合,可提供对档案数据真实性、完整性的保障。应选择可信的、权威的时间戳服务机构DTS(Digital Time-stamp Service),时间来源也应绝对精确。国家授时中心是我国唯一的法定时间源。时间戳技术运用了哈希运算和非对称加密算法。存往第三方服务机构的是档案数据的哈希值不是档案数据本身,由哈希值无法推算出原数据文件,因此即使哈希值在传输过程被截获亦不会影响原档案数据的安全性及完整性。

档案数据保全过程如下:对档案数据进行哈希运算提取哈希值(数字指纹、数字摘要),将哈希值上传时间戳服务中心申请时间戳[6]。将下载的时间戳文件及时间戳认证证书与档案数据一起打包进行固化、保全。验证过程如下:从时间戳文件提取哈希值,将档案数据使用相同的哈希运算计算出新的哈希值,将两个哈希值对比,相同则表示档案数据未被篡改(见图2)。

3.区块链技术用于档案数据的保全与验证

2016年工信部发布的《中国区块链技术和应用发展白皮书》对区块链作出定义:区块链是块链式分布式数据存储、点对点传输、共识机制、加密算法、利用智能合约来编程操作数据的计算机技术新型应用模式,具有防篡改、可追溯、去中心化等特點[7]。由于采用分布式帐本多点记帐,任一节点对数据的修改必须征得大多数节点的同意,且对数据的修改全程留痕可追溯,因此应用于档案数据保全中可用来验证电子文件的真实性。档案数据固化与验证过程与时间戳技术有些类似。将归档文件的原始哈希值上传区块链后,对电子文件再次哈希运算算出哈希值,将区块链中的哈希值与新算得的哈希值比对,一致则表明文件真实未被篡改。国内已有多家通过了工信部区块链标准测试的服务公司,可提供成熟的区块链应用体系。在电子文件长期保管中使用区块链技术,可守护国家的数字记忆。

4. CA认证、数字签名技术用于档案数据的保全与验证

基于非对称加密算法和数字摘要综合应用的数字签名技术是保障档案数据迁移过程中安全性及完整性的重要方法。为防数据传输中被窃听,引入CA认证(Certificate Authority),提供更为真实、可靠的验证。CA向通过审核的用户签发数字证书。数字证书中含有密钥及证书所有者的识别信息、权威机构的签字等,通过识别传送信息的真伪,可实现对证书持有者身份及接收信息真实性的验证。

非对称加密体系的密钥分为公钥与私钥。私钥只有密钥拥有者自己知道,公钥则是公开的。对于发方私钥签名加密的数据,收方可用发方的公钥解密;发方用收方公钥签名加密的数据,收方可以用自己的私钥解密。例如,收方收到发方带数字签名的消息M(包含数字签名、电子原文、发方公钥),为了验证消息M的真实性,首先需从CA获取发方的数字证书,并利用CA公钥验证该证书的真伪,证书为真则发方可信。而后,用发方的公钥验证消息M的真实性。验证过程如下:收方用发方的公钥解密数字签名,析出数字摘要。同时对电子文件原文进行哈希运算得到新的数字摘要,若摘要相同则发方发送的电子文件都为真。验证过程见图3。

(三)格式登记系统保障文件长期可用

随着软硬件的更新及新型文件格式的涌现,档案数据存在着因读写环境的升级带来的失读风险。进行归档文件格式管控,收集文件格式信息,追踪文件格式变化[8],保证档案数据长期可读,也是档案数据保全的重要内容。

2016年国家颁布了GB∕T 33190-2016 《电子文件存储与交换格式版式文件》,规定电子文件可采用OFD(Open Fixed-layout Document)版式文件,打破了诸多部门电子公文格式不统一的状态,可更为方便地进行电子文档的存储、读取以及编辑,在版式文档范畴内反映了行业管理要求,提供了足够的扩展性,成为业内常用技术规范。

电子文件格式登记系统是对电子文件格式数据进行描述、识别、记录、保存,并通过相关机制确定相应的文件格式信息,并对电子文件进行识别、转换、展示和保存的系统。电子文件格式登记系统使用户能够在信息技术不断更新的情况下,实现对电子文件的识别、解码、迁移。国外文件格式登记系统有若干种,PRONOM是英国国家档案馆早期开展的项目,目前版本是PRONOM6.2。电子文件进入系统后,可进行格式识别,确定打开文件所需的软件,并能进行风险评估、元数据提取、迁移路径规划、验证等[8],从而保证了电子文件持续保存过程中长期可用。

结语

除以上探讨内容外,信息隐藏技术、量子通信技术等新兴技术也为档案数据保全提供了更多可能,能够有效降低电子文件单套制引发的社会记忆丢失风险,使档案数据内容得以固化保全,档案数据的原始性、真实性、凭证性得以有效保障和发挥,为电子文件单套制管理模式的推行起到了保驾护航的作用。

参考文献:

[1]黄琳. 单套制电子文件管理模式的辨析与思考[J]. 档案与建设,2020(11):5.

[2]周烁奇. 单套制环境下档案数据保全研究[D].苏州:苏州大学, 2020.

[3]王婧逸. 数据保全视角下电子文件单轨制管理模式研究[J].档案与建设,2020(2):4.

[4]陈恬,余亚荣,张照余,毕建新等. 基于数据保全思想的科学数据全流程管理研究[J].档案与建设,2020(12):4-9.

[5]戴艳清, 胡于恬. 时间戳技术在档案数据管理中的应用[J].北京档案,2021(5):4.

[6]余亚荣, 张照余. 基于可信时间戳服务的电子档案证据取证和验证方案设计[J]. 档案管理, 2020(1):3.

[7]聂云霞,肖坤,何金梅. 基于区块链技术的可信电子文件长期保存策略探析[J].山西档案,2019(4):76-82.

[8]周祺, 张照余. 国外电子文件格式登记与管控项目研究[J].浙江档案,2020(5):28-32.

作者单位:中国海洋大学档案馆

猜你喜欢

哈希区块
哈希值处理 功能全面更易用
“双料”工具 让哈希值处理更便捷
Windows哈希值处理不犯难
文件哈希值处理一条龙
“真伪”立辨比较文件的哈希值
蚂蚁区块链已落地超过40个场景
百度推出“区块链操作系统”BBE平台
区块链产业发展速度放缓
2027年全球GDP的10%将被存储在区块链上
Unicorn正式上线区块链浏览器UIC—Explorer