APP下载

基于链上链下的电子文件可信管理系统模型

2022-03-27杨海杰石进卢明欣

档案管理 2022年2期
关键词:电子文件区块链信任

杨海杰 石进 卢明欣

摘  要:探讨区块链、分布式存储技术在电子文件可信管理中的适用性。梳理电子文件管理方式的演进,以维护电子文件真实性、可靠性、完整性、可用性为目标,构建一种基于链上链下的电子文件可信管理系统模型,并依据电子文件可信管理的目标对模型进行评价。区块链、分布式存储技术在电子文件可信管理领域具有可行性,本文提出的模型能够基本满足电子文件可信管理的要求,且具有访问控制、加密存储、高效检索等优势。为应用区块链技术实施电子文件可信管理提供了一种参考。

关键词:区块链;分布式存储;电子文件;信任

分类号:G273.3

Abstract:  This paper aims to discuss the applicability of blockchain and distributed storage technology in the trusted management of electronic files.This paper firstly reviewed the evolution of electronic archive management. Then with the goal of maintaining the authenticity, reliability, integrity, and availability of electronic archives, a model of a trusted management system for electronic archives based on on-chain and off-chain was constructed. and based on the model is evaluated by the target of credible management of electronic archives. It has been found that it is feasible to apply blockchain and distributed storage technology to the field of trusted management of electronic archives. The model proposed in this paper can basically meet the requirements of trusted management of electronic archives, and has access control, encrypted storage, and efficient retrieval and other advantages. This paper has provided an application model of blockchain technology in the trusted management of electronic archives.

Keywords:  Blockchain; Distributed storage; Electronic archive; Trust

隨着信息化发展,电子文件逐渐替代传统纸质文件,成为社会信息资源的主要载体,[1]电子文件的可信管理也成为档案管理领域的研究热点。国内外学者关于电子文件可信管理的研究多集中于政策策略、管理策略,很少有研究从技术角度提出行之有效的电子文件可信管理系统模型,因此现有研究不能很好地满足各类系统环境下电子文件管理的可信要求。目前,具有去中心化、不可篡改等特性的区块链技术以及具有高并发性、高可用性、高扩展性的分布式存储技术在电子文件管理领域具有重要应用价值,本文引入这两种技术,提出一种基于链上链下的管理系统模型,这对从技术角度完善电子文件可信管理具有积极推动作用。

1 相关研究现状

由于电子文件在产生、传输、存储过程中依赖计算机等电子设备,通常以光、电或数字信号等形式存在,失去了传统文件载体的固化和束缚,天生具有易修改、易伪造的特征,[2]“可信”问题随之而来。国内外诸多学者对电子文件的“可信”问题进行了深入的探讨和研究,一般认为可信电子文件是指具备真实性、可靠性、完整性和可用性的电子文件,[3]真实可靠完整可用的“四性”则是电子文件可信管理的目标。[4]

为了实现电子文件可信管理,在电子文件管理的初期,我国推行“双套制”的过渡性措施,[5]要求在存储电子文件的同时也存档对应的纸质文件,通过纸质载体天生具有的固化属性降低电子文件管理风险。随着信息技术的提升和实践管理经验的积累,人们逐渐意识到附加的纸质文件不仅无法保障文件内容的真实性,还会增加文件的存档成本。对此不少学者[6-8]提出电子文件管理不应该依赖纸质文件,而要从电子文件自身寻找策略,呼吁施行“单轨”“单套”,即无纸化、独立的电子文件管理方式。

在这一阶段,电子文件管理主要应用文件固化、哈希值校验、可信时间戳、区块链等防篡改技术。[9]相比起数字签名、哈希值、时间戳等单项技术,集成了分布式存储、共识机制、多种密码算法的区块链技术具有去中心化、时序数据、集体维护、可编程和安全可信等特点,[10]可以方便地验证数据的真实性,保证数据不被恶意篡改,在保障电子文件真实性上具有显著优势。[11]

将区块链技术引入电子文件可信管理领域的相关讨论不少,这是学界和业界急需解决的问题。[12]Lemieux团队在应用区块链管理交易文件时对区块链的可信管理能力进行了分析,认为区块链技术作为维护可信数字记录的长期解决方案存在限制,[13]刘越男[14]认为区块的技术特性与电子文件的管理目标具有一致之处。张珊[15]、白茹花[16]认为防止文件被篡改是电子文件管理的重要目标之一,区块链技术在电子文件管理上具有适用性。李高峰等[17]承认区块链技术融入电子文件管理能够解决传统管理方式中存在的诸多问题,但由于当前实现区块链电子文件管理的环境条件不成熟,“为了区块链而区块链”的做法存在一定的缺陷和风险,从研究走向实用仍需要长期探索。

在学界讨论电子文件管理应用区块链技术的适用性的同时,也有学者提出了一些具体的应用模型和框架,其中保障真实性是应用区块链技术实现电子文件管理的热点研究方向。石进等[18]提出一种将电子文件摘要信息存储在区块链上来保证电子文件真实性的系统模型。从维护电子文件的完整性的角度出发,Kalis[19]指出数据上链前进行盖戳处理,方便及时判断原始数据是否遭到恶意篡改。Permatasari等人[20]使用以太坊和智能合约技术开发的集成星际文件系统(IPFS)能够有效避免电子文件伪造。为了兼顾完整性和可用性要求,王平等[21]提出可以将文件信息全部存储在区块链上,但这种方式导致区块中存储的数据量过大,一定程度上会影响区块链的运行性能,增加数据访问和存储的压力。本文从可信电子文件的“四性”出發,兼具对区块链系统的性能考虑,提出一种采用链上链下相结合的方式来实现电子文件的可信管理方案,将电子文件摘要、密文索引等重要信息提交给区块链管理,即放在“链上”,保证重要信息的真实可靠性;将加密电子文件、加密密钥存储于“链下”的分布式数据库中,保证信息的完整;借助密码学原理实现了更为安全高效的电子文件访问控制,保证信息的可用性。基于链上链下的电子文件可信管理模型,既能降低区块链上存储全文数据在加密、传输时的资源消耗,又能保证文件信息的完整性。

2 相关技术背景

2.1 区块链技术。区块链起源于2008年“中本聪”提出的比特币,[22]是比特币的底层实现技术。比特币最初设计目标为通过密码学原理替代信任保证,解决电子现金支付系统过度依赖可信第三方的问题。以比特币为例,区块头中保存当前区块的元数据,通过保存在其中的前驱区块的哈希值,将区块按生成时间顺序依次链接,形成链式结构。这种链式结构极大地增加了恶意修改或伪造区块数据的难度,使区块链具备可追溯、防篡改的特性。[23]

2.2 分布式数据库。分布式数据库是通过网络对物理上分散的独立数据库进行管理控制,形成的逻辑上集中的数据库。[24] 与传统集中式数据库相比,分布式数据库具有易扩展、高并发以及稳定的特点。易扩展指分布式数据库可以通过增加系统中存储节点线性扩展存储容量,增加存储节点只需要将新的数据库服务器通过网络接入系统,基本不会对系统中其他存储节点产生影响。高并发和稳定性有赖于分布式数据库合理的冗余机制,通过在不同节点上存储数据副本,多个读数据请求可以由不同的数据库服务器并发响应,一个服务器出错,其他服务器也可以代替响应。

2.3 基于属性加密技术。基于属性的加密技术可以解决一对多场景下公钥密码体制灵活性不足的问题,公私钥不是一一对应,而是一个公钥对应多个私钥,仅通过一次加密即可实现向多个接收者的可靠传输。[25]加密者根据消息和目标接收者的特征信息制定一套以属性表示的访问策略,只有属性符合访问策略的接收者才能解密消息。属性密码将一对一加解密机制拓展为一对多,实现了细粒度非交互的访问控制机制,[26]可以解决私密数据共享问题,在分布式存储、云计算等领域具有显著应用前景[27-29]

3 基于链上链下的电子文件可信管理模型

电子文件共享的前提是对电子文件进行安全存储与管理。在大数据时代,分布式存储结构凭借其良好的扩展性、容错性和存储性能,能够满足海量、复杂、多类型数据资源的存储需求,[30]因此本文通过分布式存储技术对电子文件进行存储。但在分布式存储时,电子文件数据会被切片并存放在不同硬盘上,在这过程中数据完整性、机密性存在被破坏的风险。区块链技术通过密码学的原理能够有效保证数据真实不被篡改,从根本上防止了恶意篡改与非法、非授权访问,非常适用于电子文件的分布式存储管理。

3.1 电子文件数据的存储架构。本文设计了一种基于区块链的分布式电子文件安全存储模型,架构如图1所示,实现了电子文件数据的可信、去中心化管理。

模型主要包括以下实体:

(1)分布式数据库系统。将电子文件保存在分布式数据库中,为了保障电子文件中的个人隐私、商业机密等信息,通常将电子文件以密文的形式存储到数据库中。由于密文检索对象为不能直接使用基于明文关键词的检索技术,[31]需要对电子文件数据进行预处理,建立密文索引。

Step 1 生成电子文件的元数据。参考电子文件统一元数据模型,[32]提取电子文件的技术环境、责任者、业务和法规等关键词,构建关键词集合K=(K1,K2,…,Kn),作为电子文件的元数据。

Step 2 构建倒排索引。根据电子文件的元数据构建密文关键词集合EK=(EK1,EK2,…,EKn),建立密文关键词EK到电子文件F的映射,每个密文关键词都对应着含有该关键词的电子文件地址,倒排索引结构如图2所示。

密文检索功能由数据记录节点与分布式数据库之间的代理来实现。数据记录节点请求存储电子文件时,代理通过内置的关键词加密方案将明文关键词转化为密文关键词,并维护更新倒排索引表。数据记录节点请求查找电子文件时,代理将输入的检索词加密后再通过索引表检索。

(2)区块链系统。各业务部门从接入层通过本地数据记录节点参与到区块链网络,如图3所示,为了保证分布式数据库中保存的电子文件的可信性,数据记录节点在接收到电子文件所有者发起的电子文件存储请求时,将电子文件的元数据与摘要打包成一个交易记录保存在新生区块体中,向系统中的其他数据记录节点发起区块共识。本文讨论的电子文件可信管理模型是基于联盟链建立的,出于系统性能的考虑,共识机制选取实用拜占庭容错(PBFT)共识算法,主节点通过投票产生。

此外,本文对区块头进行字段扩展,用于保存电子文件数据预处理时生成的密文索引,如图4所示。

(3)密钥生成中心。作为授信的第三方机构,不参与区块链的共识,只负责向电子文件所有者与使用者分发基于属性的加解密密钥,处理电子文件共享的访问权限问题。

3.2 电子文件的存储。本文借助区块链不可篡改的性质保障电子文件数据的安全存储。为确保区块链系统运行时的性能,区块体中只放入电子文件密文的摘要,文件以密文形式保存在分布式数据库中,使用者可以通过区块链中的摘要信息验证所请求的电子文件的真实性,如图5所示。

电子文件数据的采集存储具体过程如下:

(1)属性加密初始化操作。可信的密钥生成中心基于属性加密机制产生公共参数和主密钥,其中公共参数对系统公开,主密钥由密钥生成中心保存。

(2)所有者对电子文件加密。所有者使用简单的对称加密算法对电子文件明文加密生成密文。

(3)所有者对对称密钥加密。根据密钥生成中心产生的公共参数,以及所有者制定的访问策略树,对步骤(2)中使用的對称加密算法的密钥进行属性加密生成属性加密对称密钥。

(4)所有者发送存储请求消息。所有者使用自己的私钥对电子文件密文的摘要进行签名,与密文、步骤(3)生成的属性加密对称密钥、电子文件元数据一起打包为存储请求消息,发送给本地记录节点。

(5)本地数据记录节点验证存储请求消息。本地数据记录节点使用所有者的公钥对密文摘要进行解密,并与计算的密文摘要对比,如果数据安全有效,则将电子文件密文与属性加密对称密钥打包,连同电子文件元数据一起发送给代理。

(6)代理更新倒排索引表。代理根据加密方案对电子文件元数据进行加密生成加密元数据,将步骤(5)生产的数据包上传到分布式数据库中,构建并更新全局的倒排索引,向本地数据记录节点返回加密元数据。

(7)本地数据记录节点广播存储响应消息。本地数据记录节点向其他数据记录节点发送包含加密元数据、密文摘要等信息的存储响应消息。

(8)数据记录节点生成新区块。数据记录节点收集一定时间内的存储响应消息,将其中的加密元数据、密文摘要整合成数据集合,结合从代理处获取的倒排索引表,生成新的区块。

(9)数据记录节点发起区块共识。本文探讨的电子文件可信管理系统的应用场景基于联盟链,其中的节点基本可信,为了避免工作量证明等共识算法不必要的资源消耗,本文选取PBFT共识算法进行区块共识。其中主节点通过投票选举产生,系统中的其余数据记录节点作为从节点。

为保证数据库数据与区块链记录信息的一致性,避免由于共识失败导致的数据库中存储着电子文件但区块链上没有相应存储记录的问题,如果多次共识失败本地数据记录节点需要通知代理删除此前存储在数据库中的文件,并删除倒排索引表中对应的信息,最终向所有者返回存储成功与否的结果。

至此,电子文件以密文方式存储于分布式数据库,并在区块链上保存了文件的摘要信息,完成了电子文件的安全存储。

3.3 电子文件数据的共享。电子文件常常需要在多主体之间共享,如图6所示,本文通过属性加密算法实现了对电子文件的授权访问控制,借助区块链不可篡改的性质保证电子文件的真实可靠性。

(1)使用者生成解密私钥。使用者向可信的密钥生成中心请求获取公共参数和主密钥,使用自身的属性集与主密钥通过属性加密算法生成唯一解密密钥。(2)检索分布式数据库。使用者输入电子文件的关键词组合向本地数据记录节点发起检索请求,本地数据记录节点转发请求给代理,由代理对检索关键词加密并使用倒排索引表查找文件存储地址,在分布式数据库中获取目标电子文件密文与加密对称密钥的信息包后返回给本地数据记录节点。(3)使用者验证电子文件密文的真实性。使用者对电子文件密文计算摘要,与保存在区块链中的文件摘要信息比对,若一致说明从分布式数据库中获取的电子文件密文真实可靠,否则说明电子文件被篡改。(4)使用者解密电子文件密文。本地数据节点继续将信息包返回给使用者后,使用者使用属性密码的解密密钥对加密对称密钥进行解密时,只有当使用者的属性集合符合所有者设定的访问策略时,才能成功解密得到对称密钥。使用者接着利用上一步得到对称密钥,调用对称算法的解密算法对电子文件密文解密得到电子文件明文。

至此,使用者通过访问策略验证获取到了真实有效的目标电子文件,实现了电子文件的安全共享。

4 评价

根据国家标准《电子文件归档与电子档案管理规范》(GB/T18894—2016)[33]中对真实可靠完整可用四性的定义,下面依次从这四个角度评价该电子文件可信管理模型,如图7所示。

4.1 真实性。真实性强调电子文件自生成后没有被篡改或破坏。在本文提出的模型中,电子文件所有者对文件明文的加密操作是由本人完成的,且发生在文件进入该可信管理系统之前,因此原始文件指的是所有者提交的电子文件密文,保障应该也是电子文件密文的真实性。电子文件密文的摘要在文件存储时,连同加密元数据一起保存在区块体中,使用者在获得电子文件密文信息后只需要将自己计算的摘要与链上记录的摘要进行验证,根据区块链不可篡改的性质即可保证从数据库中获取的文件密文具有真实性。

4.2 可靠性。可靠性指电子文件反映的内容要与事实相符,不能违背歪曲。本文的可信管理系统模型是基于联盟链提出的,进入系统的节点必须通过注册和身份验证,一定程度上可以避免恶意节点通过伪造身份进入系统,上传虚假信息扰乱共识流程,保证系统整体处于安全状态。而且文件所有者在提出存储请求时,本地数据记录节点需要对存储请求签名才能向系统广播,如果判断某个文件的可靠性存疑,系统可以通过区块链上的签名信息、时间戳等找到最初发起存储请求的数据记录节点,将其标记为恶意节点,从系统中删除。

区块链不能完全保证电子文件的内容一定与事实相符,本文只是提出可以通过审查、监管和惩罚措施降低电子文件所有者伪造、扭曲文件内容的可能性。保证电子文件可靠性的一种解决方式是将文件涉及的各方都加入区块链系统,通过智能合约的方式生成原始电子文件,但这种方式只适合单一类型且内容具有规范结构的文件管理系统,不适用本文讨论的多种类电子文件管理方案。

4.3 完整性。完整性要求电子文件的内容信息齐全且没有破坏,完整性是保障真实性的一种方式,[34]本文提出的电子文件可信管理模型就是通过保障电子文件密文的完整性来实现真实性的,前文评价真实性时已经具体阐述,这里不再赘述。

4.4 可用性。电子文件要能够被检索、呈现和理解,易用性则在此基础上提出了更高的要求,要求检索、呈现的过程要尽量简洁迅速。为了处理满足海量电子文件存储和查询的性能,本文提出使用分布式数据库代替传统的集中式数据库存储电子文件信息,但分布式数据库也带来了更复杂的安全问题,[35]尤其是电子文件中敏感信息的泄露问题。本文通过电子文件上传数据库前对内容加密的方式保证数据安全,也根据电子文件元数据构建倒排索引表,索引表的更新维护由专门的部件代理执行,且在区块头扩展字段中保存生成区块时刻的索引表,保证索引表信息的真实可靠,进而保证可以通过索引表准确检索到目标文件。而且倒排索引具有查询速度快、空间占用少的特点,[36]不仅可以满足可用性,也能满足易用性。

参考文献:

[1]李泽锋.电子文件可信管理关键问题分析[J].档案学研 究,2012(06):52-55.

[2]冯惠玲.论电子文件的风险管理[J].档案学通 讯,2005(03):8-11.

[3]黄永勤.可信电子文件的内涵及管理研究——国际电子文 件管理研究的新聚焦点[J].浙江档案,2014(07):12-15.

[4]王平,李沐妍,刘晓春.区块链视角下文件档案管理可信生 态的构建[J].档案学研究,2020(04):115-121.

[5]冯惠玲.走向单轨制电子文件管理[J].档案学研 究,2019(01):88-94.

[6]沈欣瑜.电子档案“单套制”背后的电子文件管理思想转 变[J].档案管理,2017(06):33-36.

[7]沈东芳,聂二辉.电子文件管理的题中之义电子文件管理 的题中之义:本应无纸[J].档案与建设,2017(01):12-15.

[8]苏君华,刘芳.被异化的谨慎——对“双套制”管理的问 题分析及策略选择[J].档案学通讯,2015(04):100-104.

[9]赵屹.电子文件防篡改技术发展对档案管理的影响及启示 [J].档案学研究,2019(06):77-85.

[10]袁勇,王飞跃.区块链技术发展现状与展望[J].自动化学 报,2016,42(04):481-494.

[11]刘越男.区块链技术在文件档案管理中的应用初探[J].浙 江档案,2018(05):7-11.

[12]李沐妍.文件档案管理领域区块链技术应用研究综述[J]. 图书情报知识,2021,38(04):72-80+71.

[13]Lemieux,V.L.(2016).Trusting records:is Blockchain technology the answer?[J].Records Management Journal,2016,26 (02):110-139.

[14]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探 索及未来发展[J].档案学通讯,2018(06):44-53.

[15]张珊.区块链技术在电子档案管理中的适用性和应用展 望[J].档案管理,2017(03):18-19.

[16]白茹花.基于区块链技术的电子档案信任體系建设[J].档 案管理,2018(05):28-29.

[17]李高峰,马国胜,胡国强.现阶段区块链技术在档案管理中不可行分析[J].档案管理,2018(05):30-32.

[18]石进,薛四新,赵小柯.基于区块链技术的电子文件真实性保障系统模型研究[J].图书情报知识,2019(06):111-119.

[19]Kalis R,Belloum A.Validating Data Integrity with Blockchain[C].2018 IEEE International Conference on Cloud Computing Technology and Science(CloudCom).IEEE,2018:272-277.

[20]Permatasari I,Essaid M,Kim H,Ju H.Blockchain Implementation to Verify Archives Integrity on Cilegon E-Archive[J].Applied Sciences,2020,10(07):2621.

[21]王平,李沐妍,姬荣伟.基于区块链技术的电子文件可信保护框架研究[J].档案学研究,2019(01):101-107.

[22] NAKAMOTOS S.Bitcoin:A peer-to-peer Electronic Cash System[EB/OL].[2019-10-29].http://bitcoin.org/bitcoin.pdf.

[23]曾诗钦,霍如,黄韬,刘江,汪硕,冯伟.区块链技术研究综述:原理、进展与应用[J].通信学报,2020,41(01):134-151.

[24]李川.分布式数据库查询策略优化的研究[D].西安电子科技大学,2012.

[25]王生玉,汪金苗,董清风,朱瑞瑾.基于属性加密技术研究综述[J].信息网络安全,2019(09):76-80.

[26]冯登国,陈成.属性密码学研究[J].密码学报,2014,1(01):1-12.

[27]宋衍.基于属性的云存储访问控制与密文搜索研究[D].北京交通大学,2018.

[28]张宇.云计算环境下属性密码机制应用研究[D].武汉大学,2015.

[29]陈杰.基于属性的分布式存储安全访问控制技术[D].华中科技大学,2012.

[30]陈臣.一种基于新型存储的数字图书馆分布式大数据存储架构[J].现代情报,2015,35(01):100-103.

[31]杜瑞忠,李明月,田俊峰,吴万青.基于倒排索引的可验证混淆关键字密文检索方案[J].软件学报,2019,30(08):2362-2374.

[32]刘越男,杨建梁.面向电子文件保存的统一元数据模型的构建[J].中国图书馆学报,2017,43(02):66-79.

[33] GB/T 18894-2016,电子文件归档与电子档案管理规范[S].北京;中华人民共和国国家质量监督检验检疫总局,2016.

[34]张宁.浅析电子文件的原始性与真实性[J].档案学通讯,2003(01):43-46.

[35]刘义理.分布式数据库安全框架研究[D].同济大学,2006.

[36]代万能.倒排索引技术在Hadoop平台上的研究与实现[D].电子科技大学,2013.

猜你喜欢

电子文件区块链信任
嘤嘤嘤,人与人的信任在哪里……
从生到死有多远
电子文件检查归档移交备份存储机研究
浅谈电子文档与纸质文档在保护技术上的差异
档案管理中电子文件的存储探究
区块链技术的应用价值分析
浅谈电子文件的全过程管理
“区块链”的苟且、诗和远方
基于区块链技术的数字货币与传统货币辨析
用“区块链”助推中企走出去