APP下载

面向政府数据开放共享的双链存储模型与案例应用研究

2023-05-27刘海鸥周颖玉张静等

现代情报 2023年6期
关键词:区块链

刘海鸥 周颖玉 张静等

关键词: 政府数据开放共享; 数据要素; 双链存储; 案例应用; 区块链

DOI:10.3969 / j.issn.1008-0821.2023.06.013

〔中图分类号〕D63 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 06-0130-09

政府数据开放共享作为政府信息公开、政务服务输出、保障公众知情的基础性环节, 日益成为推动社会数字化发展的重要源泉[1] 。政府数据开放共享实现了数据要素价值的深度释放, 有助于激发数字产业活力、促进社会进步, 同时推动健康繁荣的大数据产业生态的形成。作为新一代信息通信技术的重要演进, 区块链为数据要素的管理和价值释放提供了新思路, 区块链的分布式数据管理、信息存证溯源等技术特性与创新模式, 非常契合当前共建共治、可信共享、安全可控的数字政府发展要求,为实现政府数据多方维护、促进跨部门业务协同、提高政务服务效率提供强有力的技术支撑。但是,海量政府数据的开放共享在释放数据潜在价值的同时, 也使各共享平台面临巨大的数据存储压力, 数据存储空间的不断减少使政府数据共享效率不断放缓, 如何满足数据存储需求成为当前政府数据共享迫切需要解决的关键现实问题。因此, 本研究面向政府数据开放共享构建了双链存储模型, 在应用区块链技术搭建政府数据开放共享系统的同时, 通过“链下扩容” 的方式将数据共享与数据存储分链进行, 以“链上服务, 链下存储” 的形式满足海量政府数据的共享需求并释放区块链上的大量存储空间, 为政府数据提供可靠的数据存储保障, 并最大程度地发掘数据深层价值。

1相关研究进展

区块链的分布式共识、防篡改、可追溯等[2] 技术优势促进了其在政府数据开放共享中应用与拓展,Franciscon E A 等[3] 和杨文霞等[4] 分别从区块链的共识、控制以及和ROMA 技术相结合等视角, 论证了将区块链引入政府组织管理及数据共享的可行性, 为有效提高政府部门的服务效率与水平提供参考。Hao Y 等[5] 则从隐私安全的层面出发, 在研究中分析了政府数据开放共享中企业和公众信息公开的风险, 基于区块链的超级账本构建了政府数据开放共享的隐私保护框架, 并对其优势进行了详细探讨。张楠等[6] 将区块链技术中的智能合约嵌入到公共管理领域, 基于跨部门协作理论设计了多层次、宽领域的数据共享分析框架, 探索了区块链技术赋能下政府跨部门协作的新模式, 并围绕智能合约的运行机制展望了政府数据开放共享的未来前进方向。區块链在政府数据开放共享的应用中展示出其契合性与可行性, 但区块链的分布式节点网络又给大量政府数据的开放共享带来了数据存储方面的挑战。

双链存储模式的提出则为进一步改善数据共享中的存储性能提供了新思路。一方面, 有学者将区块链类型中的公有链、私有链、联盟链两两结合,通过不同区块链种类的优势互补提高系统内部的可扩展性与存储性能[7] , 不仅减轻了单个区块链的存储压力, 而且提高了链上档案资源的管理与共享效率; 另一方面, 双链存储还可以通过区块链和非区块链结合实现, 在区块链上进行扩展构建链下存储数据库, 通过链下扩容减少区块链的存储压力和高频访问压力, 如孙知信等[8] 、吕建富等[9] 、王童等[10] 学者在研究中采用了链上链下相结合的存储模式, 将海量数据资源分散存储, 通过链下扩容构建完整的权限控制生态, 在减轻区块链数据存储压力的同时增加了区块链的可扩展性, 提高了区块链系统运行的效率。随着双链存储研究的不断深入, 双链结构的整体性逐渐加强, 刘炜等[11] 以双链结构为基础架构, 提出了基于DPoS 共识算法的传染病数据共享模型, 结合链下IPFS 系统增加了数据共享的存储空间, 该共享模型满足了海量医疗数据的存储与安全共享需求, 同时体现了双链存储模式实际应用的进一步优化与提升。

综上所述, 政府数据开放共享领域已有一定的研究基础, 少数学者尝试将区块链这一新兴技术引入政府数据开放共享的研究范畴, 从应用可行性、隐私安全性和共享模式创新等方面进行了初步的探索与研究, 为本文提供了重要的思维启迪与内容借鉴, 但已有研究还存在可拓展的研究空间。①海量、多源、碎片化的开放政府数据给区块链系统的运行造成巨大压力与链上空间的过度占用, 鲜有文献考虑数据存储量急剧增大引发的区块链运行速度与数据共享效率下降、更新不及时、资源损耗大等一系列区块链弊端问题, 如何在应用区块链技术优势的同时减轻区块链的存储负担等问题仍需深入探讨与突破; ②现有文献在区块链应用于政府数据开放共享领域方面的研究大多从现状分析、模型构建、仿真实验等理论层面出发, 而有关区块链技术在实际应用中的可行性研究尚浅, 区块链这一新兴技术的现实基础以及社会公众的接受度仍需进一步研究与探索。因此, 亟需构建一个满足开放政府数据存储要求与传输效率的共享模型以扩展区块链系统的存储能力, 通过链下扩容的方式减轻链上的存储压力, 提高开放政府数据上链、数据传输和数据开放的效率, 同时通过实际案例分析体现模型的应用优势与现实可行性。针对这一问题, 本文将区块链技术应用到政府数据的开放共享领域, 构建了面向政府数据开放共享的双链存储模型, 并对案例应用进行分析研究, 以期通过本研究为其他省市政府数据存储性能的优化与提升提供启示与借鉴。

2面向政府数据开放共享的双链存储模型构建

链下通道隔离通过将复杂的计算和高频率的交易转移至链外进行, 仅在链上存储计算或交易的最终结果, 通过链下计算和链上存储相分离的方式拓展区块链的计算和存储能力[12] , 该方式为破解当前政府数据开放共享过程中的存储难题提供了参考与思路。因此, 本文面向政府数据开放共享过程构建了双链存储模型, 基于区块链设计了政府数据共享平台, 同时通过链下扩容的方式构建了链上链下两个存储数据库, 以“链上服务, 链下存储” 的方式实现海量政府数据的安全共享, 同时减轻区块链系统的存储压力。

2.1双链存储模型

1) 基于区块链的链上存储。区块链的密码学算法、共识机制、智能合约等技术保障其链上系统的安全性, 在不同数据区块之间实现可靠连接, 为政府数据的链上安全存储提供技术支撑。本研究基于区块链自身的区块特性, 将政府数据的标识性编码存储至区块中, 通过索引区块的连接构成链上存储数据库, 由区块头负责前后区块的连接并确保数据信息的不可篡改与可追溯性; 区块体中则录入由链下数据库自动生成的标识性编码, 该编码信息可以涵盖政府数据的所属类别、信息上链时间、关键词摘要等, 基于区块链的链上存储模型, 如图1 所示。这种存储方式将少量、关键的有效信息上链,释放了区块链系统中大量的存储空间, 为区块链系统中政府数据共享的高效运行提供了可能。

2) 基于NFS 的链下存储。在链下存储中, 区块头的重要政府数据仍保存在区块链的分布式账本中, 其他数据则由链下存储系统负责, 两个存储库之间通过唯一的标识性编码建立关联。网络文件系统(Network File System, NFS)可以在原有环境下扩充新资源、上传新数据, 同时对数据所需的存储空间进行最小化处理, 具备高性能、可灵活配置等优点。政府数据在上链之前需要先经过加密处理, 加密后的完整数据将直接传输至链下存储系统, 同时按照系统预设规则自动生成该份数据的唯一标识性编码, 并将该编码自动返回至链上区块链存储系统; 编码中涵盖政府数据的关键信息, 数据请求者在申请获取数据时可通过关键信息进行索引查询。链下分布式存储节点主要由區块链节点和非区块链节点两部分构成, 通过一些具有足够存储能力的节点同时负责链下的分布式存储系统, 缓解了区块链系统上的存储压力, 减少了上链数据统一打包发送给区块链所有节点的存储冗余问题, 基于NFS 的链下存储模型如图2 所示。

2.2面向政府数据开放共享的双链存储模型构建

面向政府数据开放共享的双链存储模型主要由共享参与者、链上区块存储、链下NFS 存储、监管中心构成, 通过加密文件上传、索引信息上链、链上搜索返回链下存储等过程, 实现政府数据在双链中的关联与存储, 将“链上服务”和“链下存储”相结合, 既释放了区块链上大量的存储空间, 弥补了区块容量有限的缺点, 又保障了数据存储安全与隐私,大幅提高了数据共享效率, 模型架构如图3 所示。

1) 共享参与者。政府数据共享过程中的参与者可大致分为数据提供者与数据访问者, 包含政府组织、企业组织、公众以及科研人员等。其中, 政府组织既是数据提供者、相关政策的制定与维护者、政府数据共享平台的建设者, 同时也是数据访问者, 政府组织在收集不同部门的数据并进行共享的同时, 也需要申请访问其他组织的相关数据, 以提高政府办事效率, 并与其他共享参与者保持及时有效的沟通。企业组织可以通过访问政府数据开放共享的数据, 对企业所处行业及市场前景进行有效评估, 有助于企业转型, 同时也可以利用大数据分析客户需求进而提供更为精准、个性化的产品与服务。公众则是政府数据开放共享的最终落脚点, 无论是政府组织提供政务服务, 还是企业组织为客户提供精准服务, 均由公众做出最后评判。科研人员在政府数据共享中则处于价值发现者、促进者、改善者的角色。研究发现数据共享中的不足, 通过理论与实际分析给出合理建议, 供数据提供者和访问者以及平台建设者更好地优化政府数据共享过程,打造良好的数据共享生态。

2) 联盟链。由联盟链实现政府数据开放共享平台以及链上数据存储库。链上各节点的加入需要预设准入机制, 主要由政府数据开放共享过程中的参与者组成, 如政府组织中的各部门节点、企业组织中的各部门节点、公众以及政府数据共享领域内的相关科研人员, 通过多节点参与共同维护区块链数据共享平台。而链上数据存储库主要包含政府数据的关键索引信息, 如数据所属类别、数据生成时间、数据关键词组等信息, 当数据访问者发出数据请求时, 可以通过数据索引信息在联盟链上进行搜索查看, 减轻了联盟链上的数据存储压力, 保证了政府数据共享中的安全, 同时也实现了有限参与主体之间的实时共享。

3) 网络文件系统NFS。模型中选择网络文件系统NFS 作为链下存储系统, 在数据提供者上传数据时需要先将加密后的政府数据存储至链下数据存储库, 当数据访问者在链上搜索数据完毕并发出下载请求时, 由链上系统反馈至链下存储, 链下存储数据库则根据具体请求, 在链下进行查询相关的数据加密文件并提交至链上共享系统, 由数据访问者的访问密钥自行解锁加密文件, 并获取政府明文数据, 保证数据共享的存储安全。

4) 监管中心。政府数据共享平台中主要由监管部门负责各参与者的注册信息审核, 完成账户验证并生成单个共享请求执行的初始化参数, 同时要以第三方监管中心的身份负责监督并管理联盟链上各节点以及链下数据存储系统的合法化运行, 确保政府数据共享进程按照预设共享规则有序开展。

系统模型运行时的具体实现过程如图4 所示。

3双链存储模型的案例应用研究

济南市基于区块链技术的“泉城链” 平台旨在促进政府数据的开放共享, 提升济南市的政务服务水平与效率。“泉城链” 基于区块链的共识机制对数据进行层层筛选, 经链上代表节点与其他节点的多重共识与验证审核后才能将数据上链, 上链后的开放政府数据可以来自个人、企业、机构等权属者账户, 再由权属者从链上授权给数据请求方使用。该平台通过区块链技术实现了“链上” 数据的安全保障, “链下” 数据则通过“制度+管理+技术” 实现全方位保障, 以“政府数据上链+个人链上授权+数据链下存储+全程追溯监管” 的模式,推动开放政府数据跨部门、跨行业、跨区域的安全共享与协同治理。基于此, 下面将通过本研究构建的模型对“泉城链” 平台开展实证分析, 在验证该模型构建合理性与应用可行性的同时, 也为“泉城链” 平台的进一步优化与完善提供新思路。

3.1模型在“泉城链”中的共享流程分析

模型在“泉城链” 中的共享流程分析可分为用户注册阶段、数据上链阶段、数据加密存储阶段与数据解密共享阶段, 具体流程如下所述。

1) 用户注册阶段。数据共享中的参与主体在“泉城链” 客户端发出用户注册命令, 区块链系统将立即触发初始化算法并产生主密钥和通用参数,由监管中心以第三方授权机构的身份对用户注册信息进行核实与验证, 确认信息无误并审核通过, 该过程由非对称加密算法生成其唯一的公私密钥对。根据用户在“泉城链” 平台注册时填写的身份属性, 区块链通过解析其用户身份特征匹配其独有的属性集合, 并通过密钥分发算法生成基于用户属性的私钥。最后, 模型将“泉城链” 平台中生成的公钥、私钥、属性私钥、数字证书等通过安全信息通道传输至用户账户进行保存。在“泉城链” 平台中, 用户经信息审核、验证并注册成功后成为链上的区块节点, 以用户公钥和数字签名对其账户身份进行标识。

2) 数据上链阶段。“泉城链” 平台由各节点达成共识后生成新的区块, 将预共享政府数据信息录入到新区块中并在联盟链上启动共识机制。对“泉城链” 平台中数据共享的参与主体进行投票, 选出前50 名为代表节点负责生产新的区块, 代表节点收到封装开放政府数据的交易后在全链进行广播, 当链上其他节点收到数据上链请求后, 需先判断请求发出的节点是否为代表节点, 经确认是代表节点后, 链上其他节点将对请求中的开放政府数据进行审核, 验证该请求的合法性, 若超过2/3 个节点认为该开放政府数据可以通过审核, 则共识达成, 即代表节点认为新区块可以被创建, 开放政府数据将成功上链并录入“泉城链” 平台; 若经验证该数据上链请求不是代表节点发出或者审核通过的节点数量未达2/3 时, 则主体间的共识失败, 新的区块无法被创建。

3) 数据加密存储阶段。当“泉城链” 平台中的政府数据成功通过上链请求之后, 进入本文模型中的双链存储阶段。首先, 需要将完整的政府数据加密后存储至链下NFS 系统, 按照模型中的预设规则自动生成该份数据的唯一标识性编码; 其次,将该编码返回至“泉城链” 平台的链上存储系统,同时将数据的关键信息, 如数据所属类别、数据采集时间、数据关键词组摘要等信息一并录入链上存储库; 最后, 该份预共享的政府数据在“泉城链”平台中实现了分链加密存储, 双链存储系统之间通过唯一的标识性编码建立关联, 释放了“泉城链”平台中的存储空间, 提高了“泉城链” 平台运行的速度与效率。

4) 数据解密共享阶段。当数据访问者在“泉城链” 平台上发出数据请求时, 平台首先启动链上数据存储系统的关键词搜索, 通过搜索数据关键信息并预览完毕后发出数据下载申请, 此时该申请将通过区块链内置的智能合约一键触发该数据的唯一标识性编码, 并将该编码返回至链下数据存储系统, 链下存储系统将根据该编码输出完整的政府加密数据。当数据访问者收到加密的政府数据时, 需要使用用户注册时分发的私钥对该数据进行解密,在“泉城链” 平台上则体现为需要用户输入相应验证码, 通过验证后即可获取完整的政府数据。面向政府数据开放共享的双链存储模型在“泉城链”平台中的运行流程如图5 所示。

3.2模型在“泉城链”中的价值分析

面向政府数据开放共享的双链存储模型具备传统区块链技术的优点, 同时也在一定程度上规避了传统区块链资源损耗大、更新速度慢、存储空间不足等弊端。通过该模型在“泉城链” 平台中应用的流程分析, 面向政府数据开放共享的双链存储模型在该案例中的应用优势体现如下:

1) 链上信息不易篡改, 各环节数据操作实时跟踪溯源。区块头中的哈希散列值和链式时间戳赋予“泉城链” 防篡改和可溯源的特征, 开放政府数据中的数据所属部门、数据采集时间、数据关键词组等索引信息存储在区块体上, 通过发起数据请求启动“泉城链” 平台, 链式时间戳将按照数据的采集、上链、存储、共享等顺序依次连接区块并完成数据操作记录, 各环节的数据操作与使用痕迹可进行实时查询与溯源。此外, 链上的数据修改命令至少需要全网51%的节点达成共识才可以下达。本文提出的模型通过联盟链实现, 联盟链本身对节点数量的限制保证了链上数据共享的参与主体是有限的, 使“泉城链” 平台上的用户注册与资质审核更加严格, 提高了“泉城链” 中节点生成的门槛,让51%节点的篡改共识更难达成。

2) 链上链下协同存储, 保障数据存储稳定与共享安全。面向政府数据开放共享的双链存储模型采用“链上服务, 链下存储” 的服务模式, 将该模型应用到“泉城链” 平台, 可以将海量的开放政府数据的详细信息、敏感数据存储在链下存储数据库中并生成存储地址, 将该地址、数据关键词组摘要和索引信息上传到链上区块, 以存储地址为中间节点与链下存储数据库建立关联。该模型在“泉城链” 平台中的应用可以提升平台的存储性能, 通过链下扩容的方式增加平臺的可扩展性, 有助于更多的市场、社保、税务等政务大数据实现链上政务服务[13] 。此外, 通过将开放政府数据的详细信息与敏感数据存储在链下可以有效抵御链上系统的恶意攻击, 在减轻“泉城链” 平台存储压力的同时保障数据的共享安全。

3) 节点分权控制数据, 多元主体协同治理与融合互联。“泉城链” 致力于将数据资源归还于公众, 通过精准授权使其拥有数据资源的控制权, 数据提供者可以自主控制上传共享的数据, 在本文提出的数据共享模型中, 第三方监管中心仅介入用户注册的资质审核过程, 在数据访问控制过程中, 用户则不再依赖于第三方, 数据共享过程中的各参与节点有权自主控制数据请求申请和达成访问共识。该模型在“泉城链” 平台中实现了多元主体之间的数据协同治理, 既可以在各开放政府数据部门内部实现数据的查询、监督、决策等职能, 又可以满足外部企业、公众个人等的数据访问请求, 提高组织内部决策水平和政务服务水平, 充分挖掘开放政府数据的价值, 利用区块链的分布式信任网络, 推动数据平台、共享平台、管理平台的融合互联。

4双链存储模型对其他省市政府数据存储的启示

面向政府数据开放共享的双链存储模型以区块链作为关键底层技术支撑, 实现了政府数据在区块链系统中的安全流通, 同时通过链下扩容的方式实现了上链数据的分层存储与分权控制, 减轻区块链系统存储压力。本研究构建的双链存储模型, 将政府数据的详细信息与敏感数据存储在链下, 不仅可以有效抵御链上系统的恶意攻击、保障数据的共享安全, 而且提升了区块链系统的存储性能, 也为其他省市的政府数据存储提供一定的借鉴与启示。

4.1推进区块链赋能的政府数据共享与存储进程

区块链作为新兴信息技术之一, 以其去中心化、分布式网络、可信溯源等技术特性赋能政务服务、供应链金融、乡村治理等多个场景的应用。在政府数据共享领域, 区块链技术的应用可以提升各省市政府政策制定、科学决策实施、公共服务供给的智能化與科学化水平, 为企业、公众提供高效的政务服务, 推进政府数据治理的高质量发展。本模型的构建与应用分析为其他省市的政府数据存储提供了参考。一方面, 本研究在已有研究的基础上继续拓展区块链赋能的场景应用, 将区块链技术作为政府数据共享过程中的关键底层技术, 持续优化政府数据共享的效率提升与价值实现; 另一方面, 双链存储模型的提出进一步拓展了区块链赋能政府数据共享的存储空间, 在区块链分布式节点共识保障多元主体参与的前提下, 推动多领域、多层级、多部门的政府数据上传到共享区块链中, 秉持多元主体参与、海量数据共享的政府数据治理理念, 积极推进政府数据共享, 提升政府数据存储能力, 为实现海量政府数据存储与开放共享提供技术保障。

4.2深化以链下扩容为导向的数据分层存储方案

开放共享环境下区块链、云存储等技术的蓬勃发展为政府数据共享、数据可信存储、数据有效溯源等开辟了新的发展机遇, 逐渐形成以数据为中心的第四代数据密集型科学研究范式。海量异构数据对数据存储库提出更高要求与现实挑战, 针对这一问题, 本研究提出了面向政府数据开放共享的双链存储模型, 以“链上服务” 和“链下存储” 相结合的形式, 为其他省市推进政府数据共享进程提供了数据存储方案。“链下存储” 通过将区块链中海量政府数据转移到链下存储系统, 通过“链下扩容” 的方式缓解区块链系统的存储压力, 提升系统运行速度与共享效率, 解决区块链存储不可扩展的问题。在其他省市的政府数据存储过程中, 也可以将大量原始数据存储至非区块链的链下数据库中, 同时按照一定的规则自动生成该原始数据的可识别编码并返回至区块链系统, 通过该唯一标识建立区块链与链下数据库的联系, 实现海量政府数据的分层存储, 减少区块链系统中的存储消耗, 在保障政府数据完整性和真实性的同时, 显著减轻区块链节点的存储压力。

4.3重视政府数据安全存储与隐私风险可控平衡

激活数据要素的潜在价值, 更大程度地释放政府数据资源所蕴含的经济社会价值, 是发展数字经济、数字社会和数字政府的重要目标之一[14] 。但无门槛、非定向的开放政府数据带来了泄露隐私信息、威胁社会安全等潜在危险, 政府数据开放利用与信息隐私安全之间的悖论仍需重视与解决。本研究面向政府数据开放共享提出的双链存储模型, 不仅扩大了区块链系统的存储空间, 提升了政府数据共享效率, 而且在平衡政府数据安全存储与隐私风险可控方面也为其他省市的政府数据存储提供了思路。该模型将完整的一系列数据信息隔离后分别存储至链上和链下, 海量的敏感数据信息被存储至链下存储数据, 自动生成唯一编码后返回至区块链系统, 只在链上节点存储少量数据。当区块链系统遭受网络恶意攻击时, 不会影响链下数据库, 降低了大量政府数据遭遇隐私泄露的风险, 链上链下存储库之间通过唯一编码进行关联, 保证了数据的真实性与完整性, 而区块链系统遭受攻击时, 链上非正常状态下无法通过编码启动链下数据库, 兼顾了数据的安全性与隐私性。

5结语

作为推进数字中国高质量发展的关键底层技术之一, 区块链充分发挥信任机制搭建、价值高效流转方面的作用, 与诸多领域、诸多产业彼此促进,成为社会经济发展、服务水平提升的新引擎、新动能。将区块链技术的创新应用贯穿到数字政府建设中, 持续推动政府数字化转型, 努力实现政府决策科学化和公共服务高效化, 是建设人民满意的服务型政府的重要推动力。本文面向政府数据开放共享提出的双链存储模型, 将政府数据分链存储, 海量政府原数据与敏感信息存储在链下数据库中, 按照一定规则自动生成唯一编码返回至区块链系统, 不仅减轻了区块链的存储压力, 而且降低了数据共享中的隐私泄露风险。通过模型在“泉城链” 平台中的案例应用开展实证分析, 论证了模型的理论合理性与现实可行性, 该模型的提出与成功应用也为其他省市的政府数据存储提供了借鉴与启示。需要指出的是, 区块链技术应用虽已拓展至多个领域,其分布式共识也与数据共享的本质高度契合, 但仍存在诸多不足, 如尚未建立统一的区块链应用标准, 缺乏完善的共享数据的规章制度, 尤其是政府数据开放共享过程中的用户隐私保护问题[15] , 将成为下一步的研究重点与努力方向。

猜你喜欢

区块链
基于区块链技术的海上散装液体化学品运输安全监管方法
区块链技术的应用价值分析
“区块链”的苟且、诗和远方
用“区块链”助推中企走出去