APP下载

基于区块链技术的异构档案数据安全管理研究

2022-11-25林明香曲强

档案管理 2022年6期
关键词:区块链技术安全管理

林明香 曲强

摘  要:早期的档案数据量有限,数据类型单一,安全问题较为简单。随着大数据盛行,档案数据量呈指数级增长,其安全管理问题日益复杂且紧迫。本文分析了现有的异构档案数据现状及存在的问题,分析了区块链技术在异构档案数据中的应用,构建异构档案数据安全存储模型及说明其实现路径,并详细分析区块链技术对异构档案数据场景应用。

关键词:区块链技术; 异构档案数据; 安全管理

Abstract: The amount of archival data in the early days was limited, the data type was single, and the security problem was relatively simple. With the prevalence of big data, the volume of archival data has grown exponentially, and its security management issues have become increasingly complex and urgent. This paper analyzes the present situation and problems of existing heterogeneous archival data and the application of blockchain technology in heterogeneous archival data, constructs heterogeneous archive data security storage model and explains its implementation path, and finally illustrates the application of block chain technology to heterogeneous archive data in detail.

Keywords: Blockchain technology; Heterogeneous archive data; Security management

1 引言

1.1 异构档案数据的特点对安全管理的要求。对于档案数据的概念,是仁者见仁智者见智。2021年,夏天、钱毅将档案数据表述为“档案数据指档案机构收集保存的各种数据形式的记录,既包括电子档案的内容数据、传统载体档案的数字化副本,也包括管理和利用过程中产生的各类元数据”。[1]异构档案数据是指由来自不同渠道、具有不同存储格式、具有独特数据特征的信息资源构成的数据集合。[2]异构档案数据包含五个方面的特点:第一,其计算机组成的异构性。每台计算机不同的物理特性决定了其不同的存储体系架构。第二,其操作系统的异构性。操作系统如ios、Windows、MacOS X等,系统中的数据来源多样性,存在如何将其数据进行统一管理的问题。第三,其数据格式的异构性。不同的工具软件和信息存储平台包含不同的数据格式,包括二维表格存储数据、TXT、CXV、XLS等。第四,其数据存储地点的异构性。许多“三跨”科研项目或大集团的档案数据来自全国甚至全世界分散保存和管理。第五,其数据逻辑模型的异构性。目前各单位(企业)的底层逻辑都大不相同,导致信息集成时的数据不一致等问题。

1.2 当前异构档案数据安全管理现状。关于异构档案数据的安全管理研究,国内外都有不同程度的研究,我们国内尚处于探索阶段,现有的研究主要集中在异构档案数据的数据库整合、安全共享等方面。王雪萍(2012)從档案异构数据库出发,分析档案异构数据库的特点、档案异构数据库整合和服务集成的基本原则,其实现技术包含元搜索引擎技术、数据仓库技术、网络技术、数据挖掘技术。[3]王兰成(2009)提到异构档案数据具有数据库系统异构性、数据平台的异构性和语义的异构性,并通过XML等技术实现数据的集成。[4]龙飞斐(2017)从多源异构数据的质量角度展开探索,提出建立囊括系统开发、数据检测、过程管理、数据存储和数据传输的信息技术保证体系。[5]以上三个共同点是均未提到运用区块链技术。国外对区块链技术在档案领域的研究相对早一点,如加拿大学者Victoria Lemieux(2016)认为区块链技术是一种文件档案管理技术,并分析了区块链在电子文件准确性、可靠性、长期保存方面的作用,提出了将区块链技术作为可信档案保存的理论评估框架。[6-9]2016年英国政府发布了一份名为《分布式账本技术:超越区块链》的报告,将区块链列入英国国家战略并分析将区块链应用到知识产权、金融等领域。[10]Lemieux(2017)等提出了一种新的数据模型,通过利用web原理和技术来记录事务处理的过程,为日后判定数字档案存取记录真实性提供了便利性。[11]但国外对区块链技术在异构档案数据中的应用也暂未体现。

1.3 异构档案数据安全管理存在的问题。异构档案数据安全管理存在的问题主要表现在以下几个方面:一是异构档案数据库缺乏安全风险管控和等级管控;二是异构档案数据信息孤岛。三是异构档案数据申请和共享利用等关键行为的可靠存证问题。四是异构档案数据具有重要的凭证价值和参考价值,如何保证异构数据存储的唯一性和完整性。由于当前档案管理技术不完善,这对数字档案管理的机密性提出了很高要求。

2 区块链技术在异构档案数据管理中的适用性分析

区块链技术包含哈希运算、数字签名、共识算法、智能合约、P2P网络等基础技术。这些技术相对成熟,具体应用主要体现在以下几个方面:

2.1 区块链用于异构用户身份和数据验证。区块链中的数字签名技术能够保证异构档案数据流转的真实性、完整性和保密性验证。在区块链网络的每个节点中都有公钥和私钥两个不同的密码。节点在发送交易时,首先利用私钥对交易内容进行签名,在节点收到广播后,先对交易中附加的数字签名进行完整性校验和消息发送者身份合法性校验。[12]

2.2 区块链用于异构档案数据的唯一性和备份管理。档案数据形成者通过汇交节点电脑发出数据上链存证请求,系统依据共识算法,产生唯一的审核节点。审核节点将档案数据运算成哈希数值,并连同时间戳、数字签名打包成区块广播到全网络,为后台机器运算提供基础,排除人工干预,且存储量小,方便成本控制。

2.3 区块链用于异构档案数据的分布式存储和防篡改。哈希算法是区块链的基础技术之一,它能够从数据结构层面保证区块链上的档案数据具有不可篡改特性。对异构档案数据形成各个区块,再通过哈希算法得到一个个哈希数值,这些哈希数值能唯一标识对应的区块,且哈希数值无法反推原来的内容。如果要确认区块是否被篡改,利用哈希算法重新计算一遍,对比哈希数值即可得出答案。这项技术的实现,能够清晰记录每条数据产生、流通、保存、使用等全过程,有效保证了异构档案数据的可追溯性、唯一性和完整性。

2.4 区块链加速异构档案数据共享利用。区块链中的信任机制主要通过智能合约相关技术实现。智能合约是以数字形式定义的承诺,包括合约参与方可以在上面执行这些承诺的协议。[13]通过区块链和智能合约的有效配合,可以实现异构档案数据有偿使用及顺畅交易。

在区块链中的P2P网络中,所有交易及区块的传播并不要求发送者将消息发送给所有异构档案数据节点,而是发给异构档案数据附近节点,这些附近节点收到消息后会按照一定规则转发到其附近节点,通过一传十、十传百的方式,将消息发送给所有节点。

3 异构档案数据安全存储模型的建立

3.1 异构档案数据存储方案。异构档案数据存储在一定的数据库中,而事务日志是记录操作人操作的日志,是数据库的重要组件。通过抽取档案数据库事务日志及电子文件,针对不同的档案数据尺寸设计数据粒度感知的安全存储模型,并提出联盟链、私有链和IPFS(InterPlanetary File System,星际网络文件系统)集群相协同的数据存储方案,实现异构档案数据的安全存储。

互联网建立在HTTP协议上,但HTTP是中心化管理,速度慢,效率低,成本高。因此出现了IPFS(星际网络文件系统),它是一个分布式的web,点到点超媒体协议,目标在于实现数据的永久存储、清除网络上的重复数据,并获取存储在网络中节点上的数据地址。当用户上传一份档案数据到IPFS网络时,会得到一个基于档案数据内容计算的哈希数值,若档案数据内容被修改,同时会改变档案数据的哈希数值,因此哈希数值是档案数据真实完整的重要保障。当用户从IPFS上下载档案数据时,只需要提供档案数据的哈希数值,IPFS会根据档案数据的哈希数值从分布式哈希表中找到档案数据存储节点,并从该节点取回档案数据且验证后提供给用户。

3.2 异构档案数据安全存储模型的技术路径。第一步,档案数据的抽取。例如不同档案馆或同一个科研机构会会设置多个外溢机构,孵化机构。每个机构都有各自独立的档案数据库。在档案数据库完成内容更新等操作后,新增的内容会详细地记录到日志表或日志文件中。通过区块链中间件在本地开启监听程序,并与档案数据库建立客户端连接,解析事务日志并抽取档案数据。抽取的档案数据包含两个属性:一是整体属性即包含标题、标识、上传用户、所属单位;二是原始文件属性即版本、类型、哈希数值、存储地址、原始数据解密密钥、描述、更新时间。

第二步,档案数据加密及存储。区块链中间件使用密钥对档案数据库操作日志进行非对称加密,并将加密后的档案数据存储到私有区块链网络。对于新增档案数据的操作,可以通过抽取解析日志中的存储路径,然后获取档案数据并存储至IPFS网络。

第三步,档案数据分布式存储。按照尺寸和容量大小,将档案数据分为大小粒度。將小粒度的档案数据直接存储至联盟区块链上,将大粒度的档案数据分布式存储至IPFS网络。对于档案数据尺寸和容量的考量,美国国家能源研究科学计算中心和太平洋西北国家实验室分别做了一些研究,结果表明有一半左右的档案数据小于64KB。

模型由数据抽取模块、事务日志存储模块和档案数据存储模块组成,模型整体框架图如图1所示。

图1 三种类型区块链实现路径

4 异构档案数据安全管理应用场景分析

中国科学院深圳先进技术研究院(简称“深圳先进院”)是中国科学院、深圳市人民政府及香港中文大学三方共建的科研机构,同时下设多个外溢机构和孵化机构。深圳先进院主要产生以科研档案为主的各类档案,包含图表、图片、音视频、仿真模型、科研数据等内容。2016年,深圳先进院就开始探索应用区块链技术解决档案数据共享难、追溯难及协同难等问题,并先后获得了中国科学院档案馆、广东省档案局、国家档案局等项目支持。深圳先进院试行以64KB为分界点,64KB以上存储到联盟区块链上,64KB以下存储至IPFS网络中。

4.1 用户安全管理,是异构档案数据安全管理的前提

用户安全管理包括用户注册、用户信息审核、用户信息修改、用户信息存储及注销用户。[14]异构档案数据的用户身份和权限设置,是开展异构档案数据集成、协同共享等工作的前提。例如深圳先进院将本单位用户的身份信息通过哈希生成唯一的加密后的数据存入区块链中,外溢机构不需要深圳先进院共享实际的用户档案数据,只需要与其有关联的用户基本信息,通过哈希计算和区块链查询两个步骤即可身份确认,由此建立快速的可信数字身份体系。用户登录过程中,需在系统输入用户ID和系统密钥,客户端立即比对输入信息与区块链中存储信息的一致性,若是信息不匹配则显示登录失败,进一步强化档案数据安全。

4.2 区块链数据共享平台,是异构档案数据安全管理的底层架构。建设异构档案数据区块链数据共享平台,把各机构中结构化和非结构化的档案数据集成一个大型数据库。区块链数据共享平台包括中间件客户端、后台服务、区块链系统及IPFS星际文件系统。中间件客户端面向档案管理员,提供可视化的操作界面;后台服务则用于支撑客户端操作的反馈,同时对接本地数据库、区块链和IPFS系统,是三者数据流通的枢纽;区块链系统安全存储档案数据;IPFS系统分布式存储档案数据。[15]

4.3 档案数据安全采集,是异构档案数据安全管理的基础。科研人员的科研过程分为四个阶段,每个阶段都产生相应的档案数据。尤其是“跨学科、跨领域、跨专业”项目资料多且来源主体多元。在档案数据采集、存储及利用过程中,需要采用数据溯源安全方式即在档案数据中添加参数如加密密钥、时间戳、校验等控制权限,维护档案数据主体权益并包含档案数据安全。[16]另外,可通过反向查询和标注的方式,多维度溯源档案数据的真实性和有效性。例如在科研准备及立项阶段,科研申请及批复时会产生申请书、可行性报告、课题调研、分析报告、开题报告及论证文件等。区块链技术可以提供一整套追溯科研档案数据来源的解决方案,从而实现科研数据的真实性认证。同时,区块链技术可参与构建一个分布式科研数据库,建立科研数据审核机制,解决科研数据移交审核中的主观性强,版本多样性等问题。

4.4 档案数据分享和获取,是异构档案数据安全管理的目的。利用区块链加密技术实现异构档案数据分析和获取,实现档案数据的链上授权,用户无须借助其他渠道将授权信息发送给接收者,一定程度上保护了档案数据授权安全,避免授权信息泄露,同时,档案数据的分享和获取操作行为在区块链上有永久痕迹,区块链的所有节点都是该数据的记录者,记录不可篡改,便于追溯。

区块链技术利用区块形成哈希指针链存储档案数据,[17]利用密码学原理保障数据存储及传输安全,利用共识算法及加密算法避免数据伪造或篡改,这些安全特点对异构档案数据意义重大。主要体现在以下几个方面:首先,区块链技术的应用打破了异构档案数据孤岛现象,提高了数据的流通效率;其次,其所有信息都是经过多方共识、可信的、不可篡改的,简化了传统档案数据利用中冗长的数据审查、确认等工作,使得档案数据利用成本大幅减少。区块链的应用也在一定程度上优化业务工作流程,减少操作步骤和人员投入,提高工作效率。最后,通过智能合约可实现对异构档案数据共享的监管,交易记录透明监管,能实时查看交易合规检查和真实性甄别。

虽然区块链技术备受人们青睐,但是并不意味着区块链技术无所不能,例如区块链技术与异构的源头数据的真实性和准确性无关,对于同一个内容的数据,谁第一次上传到链上,系统/平台就会判定版权属于谁,[18]其逻辑是否清晰、内容是否属实,系统/平台是否可靠等方面存在局限性,需要我们足够重视。

*本文系国家档案局科技项目“面向档案系统的区块链中间件构建研究”(编号:2020-X-10)的科研成果之一。

参考文献:

[1]夏天,钱毅.面向知识服务的档案数据语义化重组[J].档案学研究,2021(02):36-44.

[2]孔媛媛,张舒,王爱.大数据背景下档案信息服务体系构建方法探析[J].档案建设,2021(05):59-62.

[3]王雪萍.浅谈档案异构数据库整合与服务集成的技术实现[C].档案与文化建设:2012年全国档案工作者年会,2012:421-425.

[4]王兰成.XML Schema异构档案数据库信息整合与检索技术[J].中国档案,2009(11):62-63.

[5]龙飞斐.多源异构的城建档案数据质量管理的探讨[J].城建档案,2017(07):13-14.

[6]Lemieux V L.Trusting records:is Blockchain technology the answer?[J].Records Management Journal,2016,26:110-139.

[7]Lemieux VL.Blockchain for Recordkeeping;Help or Hype[J].Social Sciences and Humanities Research Council of Canada Knowledge Synthesis Report,October,2016.

[8]Lemieux V L.In blockchain we trust? Blockchain technology for identity management and privacy protection[C]//Conference for E-Democracy and Open Government.2017:57.

[9]Lemieux V L.Blockchain and distributed ledgers as trusted recordkeepingsystems[C]//Future Technologies Conference(FTC).Vol.2017.

[10]孙毅,范灵俊,洪学海.区块链技术发展及应用:现状与挑战[J].浙江档案,2021(03):44-46.

[11]吴功才.区块链技术在学生档案管理中的应用研究[J].中国工程科学,2018(03):27-32.

[12]华为区块链技术开发团队.区块链技术及应用[M].清华大学出版社,2019.

[13]李琼.区块链技术在信息文档管理中的应用研究[J].科技资讯,2022(08):22-24.

[14]张雪媛,都平平,雷镭.基于区块链技术的科学实验数据管理研究[J].情报杂志,2022(06):1-8.

[15]冯政鑫,唐寅,韩磊,吴锡,彭静.基于区块链的敏感数据安全共享方案[J].信息安全研究,2022(04):364-373.

[16]丁海斌,赵锦涛.档案数据集成情景下的应用场景研究——以公路建设项目档案管理系统为例[J].浙江档案,2022(04):45-50.

[17]曲强,林益民.区块链+人工智能 下一个改变世界的经济新模式[M].中国人民邮电出版社,2019年:71.

[18]颜阳,王斌,邹均.区块链+赋能数字经济[M].机械工业出版社,2018.

(作者單位:林明香 中国科学院深圳先进技术研究院;曲强 中国科学院深圳先进技术研究院,华为云区块链实验室华为技术有限公司 来稿日期:2022-08-03)

猜你喜欢

区块链技术安全管理
利用区块链技术开展国际结算的探讨
区块链技术对我国绿色金融发展的影响分析
基于区块链技术的我国央行数字货币的前路展望
区块链技术在电子档案管理中的适用性和应用展望
区块链技术发展现状及其潜在问题文献综述
浅谈“一带一路”下区块链技术在金融领域的应用
论加强建筑施工安全管理的措施
浅谈现代汽车检测技术与安全管理