APP下载

区块链技术在录音录像类电子档案存证中的应用与启示——以英国国家档案馆ARCHANGEL项目为例

2021-11-27陈栩杉国防大学政治学院

浙江档案 2021年9期
关键词:哈希完整性录音

陈栩杉/国防大学政治学院

录音录像类电子档案是指具有查考和利用价值并归档保存的录音类电子文件和录像类电子文件,是经数字录音设备和数字摄像设备形成的依赖计算机等数字设备阅读、视听、处理,可在通信网络上传送的数字音频文件和数字音视频文件[1]。与文书类电子文件、照片类电子档案相比,录音录像类电子档案具有物理结构复杂、管理要求特殊等特点[2],这对维护其真实、完整、可用、安全的管理目标提出了更高的要求,如何确保录音录像类电子档案的真实性和完整性更是成为促进资源开发利用和长久保存工作有效实施的关键。

随着区块链应用于电子档案管理的理解不断深入,档案学界、机构、企业围绕应用价值[3—8]、路径模式[9—11]、模型系统[12—16]、行业实践[17—20]等方面展开了理论研究和应用实践。从国内研究现状看,档案行业对区块链技术的认识和理解从“争先恐后”到“并不必然使用”,从应用前景展望到模型架构设计再到落地实践探索,可谓是由浅入深、由点及面、初具形态,但仍以典型项目、典型场景的试点为主,应用对象类型主要面向文书类电子文件及其管理系统,缺乏针对录音录像类电子档案特点设计的、基于区块链技术的管理模式、模型系统等研究,还没有成熟的实验结果,存在众多问题亟待探索和解决。

与此同时,英国国家档案馆等机构主导的ARCHANGEL项目借鉴联盟链的技术框架,结合深度神经网络模型,开发出基于音视频内容的哈希算法,用于计算录像类电子档案的内容哈希值,该值上链后可作为验证档案完整性的重要依据,在应对录像类电子档案管理过程中可能出现的合理转换(如格式转换、迁移等)和非法篡改(如删除音视频帧、替换头像等)均有较好效果。因此,本文在分析该项目针对录像类电子档案完整性验证的基本思路、技术架构与流程的基础上,论述了应用区块链技术实现我国录音录像类电子档案存证的启示与思考。

1 ARCHANGEL项目的总体思路及其针对录像类电子档案实现的功能

ARCHANGEL项目由英国国家档案馆、英国萨里大学、开放数据研究所等机构联合开发,旨在建立一个确保电子档案长期完整性的去中心化平台,用于在档案管理和开放利用过程中验证电子档案的来源可信性和内容真实性,增强数字时代档案机构权威地位和用户信任程度。需要注意的是,这里的“完整性”是指档案内容的真实性且未经非授权的更改或破坏,包含档案学领域中“真实性”和“完整性”的两层含义。

1.1 项目总体思路

项目的总体思路是基于区块链技术建立一个分布式平台,由多个档案机构负责管理维护。

每个档案机构在档案移交进馆时,将原始档案存证信息(即原始档案哈希值)、档案文件名或全局唯一标识符(Global Unique Identifier,GUID)、标识哈希算法的唯一标识符(如SHA-256)、附加元数据(如档案管理员的注释、移交时间、版本信息等)、专用哈希算法代码或模型的哈希值(可选)等写入区块链。上述信息组合构成区块链上的一个新区块,加入链尾,并依托网络对新区块进行一致性检测,形成共识。

用户利用GUID或哈希值搜索、识别所需的区块,通过计算所需利用档案的哈希值,并与存储在区块中的原始存证信息进行比较,从而验证该档案的完整性。整个验证过程是独立的、透明的、可重现的,任何人在任何时间都能完成。

1.2 项目实现的录像类电子档案完整性验证功能

1.2.1 基本思路

录像类电子档案与一般的文本类电子档案相比,由于其物理结构和管理要求具有特殊性,并不适合采用与文本类完全一致的处理方式,其原因主要有两个方面。

一是录像类电子档案的文件存储容量相较于一般文本类电子档案要大得多,录像类电子档案的处理过程显然需要消耗更多内存,对计算机等设备的硬件要求较高,在相同硬件条件下运算速度比一般文本类要慢得多。

二是出于保密和隐私保护等目的,录像类电子档案的原始内容并不会上链,上链的只是原始档案的哈希值,如果采用SHA-256等标准哈希算法,就会造成用户利用档案时计算的哈希值与链上的哈希值出现不一致的情况。比如,以OAIS模型描述的信息包括提交信息包(Submission Information Packages,SIPs)、档案信息包(Archival Information Packages,AIPs)、传播信息包(Dissemination Information Packages,DIPs)等。当用户利用时,AIPs(看作是原始记录)与DIPs有可能不一致,因为档案提供利用时通常会使用不同格式的副本(如为了降低文件下载容量,一个MXF格式的视频档案会转换成MPG4格式)。同时,由于原始档案的文件格式面临过时风险,有可能需要迁移至新的格式。这些都会造成无法向用户证明提供利用的档案与馆藏原始档案一致。

因此,ARCHANGEL项目考虑定制开发一种新的哈希算法,该算法应具备一个特性,即文件格式的转换对最终的哈希值没有影响,但对内容的更改会产生截然不同的哈希值。这样做,一是能给用户提供正确的验证依据,二是能防止档案内容的篡改,三是能帮助档案管理人员确保档案格式的转换或迁移工作已成功完成,避免由于软件原因导致转换过程中部分内容被截断或丢失。

1.2.2 技术架构与流程

在验证录像类电子档案完整性的技术架构中,项目采用了“链上+链下”混合的存储策略。链上多个档案机构共同维护两个哈希值,一是录像类电子档案内容的哈希值,由定制开发的专用哈希算法生成;二是专用哈希算法代码的哈希值,由SHA-256算法生成。链下各个档案馆分别存储录像类电子档案的原始文件和各个视频片段的档案内容编码。链上和链下数据依赖唯一标识符(Unique Identifiers,UID)进行对应关联。

同时,为了进一步降低计算资源的消耗、提高区块更新速率,项目采用了权威证明(Proof of Authority,PoA)的共识机制,利用档案机构的法律地位和声誉建立起基于权威共识的验证机制,以牺牲部分去中心化来实现高吞吐量、可持续性和可扩展性。授权节点的访问密钥是预先进行分配和授权的,所有区块是由授权节点通过多数共识定期封装,新的节点通过现有授权节点的多数共识被授予访问权。

在具体实现过程中,项目设计了一个深度神经网络模型,用于提取录像类电子档案中音视频流的时序内容哈希值(Temporal Content Hash,TCH)。该模型经过训练后,即使视频内容中出现很小的帧损坏(人脸、场景替换等)或时间不连续(拼接、截断等),都会产生不同的TCH值;但若仅是视频编码格式的转换,则会产生几乎相同的TCH值。可见生成满足需求的TCH值并根据该值判定录像类电子档案完整性是关键环节,其流程主要分为以下几个步骤。

第一,将录像类电子档案的数字音视频文件拆分成多个视频片段,对每个片段中的音频流和视频流分别提取对应的特征序列。第二,利用深度神经网络模型(如CNNLSTM),对每个视频片段的特征序列进行训练,得到该片段的音频流TCH值和视频流TCH值。在训练过程中,除了将原始文件作为训练数据之外,还要将相同文件经过格式转换后的样本数据纳入训练数据集,以便得到判定视频是否被篡改的门限值。第三,将每个视频片段的唯一标识符、模型代码哈希值、音频流TCH值、视频流TCH值、门限值等上链。第四,用户根据提供的训练模型代码,计算得到所需验证视频片段的音频流TCH值和视频流TCH值,与链上存储的对应TCH值比较,若差异超过门限值,则认为待验证的视频片段被篡改了。

2 ARCHANGEL项目对录音录像类电子档案存证的启示

2.1 立足管理需求探寻技术与管理融合的最佳路径

ARCHANGEL项目突破了传统电子档案管理的信任模式,将基于机构的信任转变为基于技术的信任,不可否认从技术角度上看,该项目拥有一个复杂且设计精密的技术结构,但即使再完美的系统也存在缺陷,其根源与技术、管理之间冲突息息相关,主要表现在透明与隐私、安全与速度这两个方面。在透明与隐私冲突的层面,开放和透明是基于区块链验证档案完整性的核心,如果失去了透明性,区块链就无法履行职责,但档案本身的保密性和隐私安全使得这种透明性往往成为其应用在档案管理上的一个局限因素,上链内容不可删除或更改的优点反而可能带来国家、社会、单位、个人隐私安全泄露的风险。在安全与速度冲突的层面,基于区块链的数据结构要求每个被添加或更改的区块都需要解决哈希难题,以极高成本保证数据不被操纵或伪造,但这大大降低了新数据上链的速度,与档案管理环节、活动对速度和可扩展性的要求形成对比。因此,如何选择一个平衡两类冲突的折中方案,是立足电子档案管理根本需求,找到技术与管理结合最优路线的关键。ARCHANGEL项目选择上链的内容只包含档案文件名、唯一标识符、档案内容哈希值、算法唯一标识符、算法代码哈希值、附加元数据等信息,部分情况下甚至文件名都不上链提供,最大程度避免了隐私和敏感信息的泄露。同时,选择将新区块写入的权限和共识过程只授予预先选定并被确定为可信任的档案机构节点,通过写入权限的限制放宽了区块链创造信任的条件,以隐藏的中心化属性换取各类应用所需的高处理速度、高延展性和低成本投入需求。

2.2 下沉管理粒度完善档案真实性验证的可信机制

国家档案局从2017年起陆续发布了《录音录像档案数字化规范》(DA/T 62—2017)、《录音录像类电子档案元数据方案》(DA/T 63—2017)、《录音录像档案管理规范》(DA/T 78—2019)等行业标准,在主题内容、责任者、业务背景、编码标准、关键技术参数、知识产权管理等元数据层面以及归档范围、收集、整理、著录、存储备份、转换迁移等实体管理层面进行了统一规范,为档案馆(室)开展录音录像类电子文件归档与电子档案管理实践提供了切实可行的支撑和作业标准指南。但从各项标准规范的内容来看,其出发点基于规范、指导录音录像类电子文件、电子档案、实体档案管理工作,描述、管理对象是以卷、件为单元,因此其管理粒度仍处于案卷级、文件级粒度,还未下沉到档案内容特征层面的属性描述。这就造成如果需要对档案的真实性进行验证,本质上依赖的还是机构信任,档案机构和档案管理人员在标准规范的约束下对档案来源、内容的真实可靠性负责,即使此时将相关元数据、管理流程信息上链,也无法完全保证档案内容的真实性,且备份转换、格式迁移等操作带来的不同版本重复上链操作,也会增加管理工作的复杂程度和用户的验证难度。ARCHANGEL项目针对录像类电子档案设计的专用哈希算法,将管理对象粒度细化至音视频流特征粒度,并基于特征直接生成档案内容哈希值,形成档案内容存证信息,且这种存证信息不会随格式迁移变化,能够保证正常管理工作的合规合法性,这相当于在案卷级、文件级层面之下又增加了一道内容特征级,三层式的管理粒度涵盖了从高维语义信息到低维信号特征的“三保险”,弥补了档案内容信息的验证手段,构成了自顶向下的、多维细粒度的档案真实性验证机制。

2.3 增强管理协同建立多机构共赢的互信平台

管理协同就是把局部力量进行合理排列组合,来完成某项工作和项目。录音录像类电子档案相较于一般类的电子档案,无论是收集范围还是收集要求都更具有独特性。比如,录音录像类电子档案记录的大多是本地区政治、经济、文化、体育与社会事业等重大活动,本地区地理概貌、城乡建设、名胜古迹、自然风光、民风民俗和人物宣传等题材,本单位工作活动、重要会议、外事活动、重点工程、重要人物等主要职能和基本历史面貌,较少涉及其他地区或单位的文件收集和流转。而且录音录像类电子档案的声音影像质量、归档格式、技术参数、存储备份结构方式等均有较大差异,更容易在各个档案机构之间形成“信息孤岛”“应用孤岛”“资源孤岛”。因此,录音录像类电子档案的管理协同就是将封存在各个档案机构中的信息、业务、资源进行时间、空间和功能结构的重组,解决档案机构作为传统可信中心机构存在的分布式环境、多主体交互、主体间信任度低问题,实现信息协同、业务协同、资源协同,产生一种具有“竞争—合作—协调”的能力。ARCHANGEL项目展示了数字档案机构的协作本质,依托档案机构权威地位和彼此馆藏信任的方式,通过分布在多个独立档案机构的区块链平台,利用PoA的权限机制保证“链下资源的来源可靠”和“链上资源的共识维护”,跨越机构之间的边界建立起一种全新的互信方式,对降低单个档案机构信任风险、提升机构间档案信息整合效应提供了共赢的解决方案。

3 值得进一步思考的问题

一要试点出台法规标准,明确管理流程中各部门、各单位的责任分工。在现有电子档案全程管理过程中,每一个环节、每一项活动通常都有相应的标准规范予以支持,如综合性标准、元数据标准、管理系统标准、保存标准等,对实施具体管理工作提供了依据。区块链的引入将用户对档案机构的信任部分转移到对技术、协议的信任,系统完备性所产生的技术依赖在一定程度会导致档案机构、档案管理人员责任的缺失,因此需要在战略层面、宏观层面出台具有指导意义的法规标准,厘清区块链系统与档案机构之间的责任边界,对形成部门、档案部门、信息化部门和保密部门的责任分工予以明确。

二要扩大应用场景,充分发挥区块链应用价值。从区块链本身的技术特征以及它能够存储各种数据的特点进行分析,可以发现其应用场景包括存在/非存在证明、时间证明、身份证明、作者证明、顺序证明等[21]。从包括ARCHANGEL项目在内的现有区块链与档案业务结合的案例来看,前4个应用场景均有涉及,也就是对单个文件的存在与否、时间戳、身份信息、版权信息等都能进行验证,但顺序证明的应用鲜有见到。顺序证明适用于证明事件发生的先后顺序,在资源按照同一标准进行分配时尤为重要,笔者认为顺序证明可用于同一全宗、案卷内录音录像类电子档案的管理,即在验证单个档案完整性的基础上进一步验证全宗和案卷的完整性,从横向和纵向两个层面考虑档案完整性的验证机制,这在档案整理、移交等典型场景下判断是否有缺漏、篡改等时颇为重要。

三要在平台中融入科学的奖励机制,提升档案机构和用户的使用兴趣和接受度。区块链在技术上的不尽成熟和法律地位的不确定性,都会使档案机构、用户不能够信任区块链。目前的应用优势如保证档案完整性、提升机构公信力、资源相互支撑等,大多是针对机构的,但这些优势是否足以抵消档案机构耗费的各类成本,需要思考。此外,用户因为权限受限无法加入共识过程,也就无法得到相应工作量的奖励,这会降低用户加入平台的想法。因此,需要设计公平公正的奖励机制,进一步激发用户参与的动力。

猜你喜欢

哈希完整性录音
总装前完整性质量管控方法在岸边集装箱起重机制造中的应用
酶可提高家禽的胃肠道完整性和生产性能
哈希值处理 功能全面更易用
Funny Phonics
Windows哈希值处理不犯难
funny phonics
文件哈希值处理一条龙
Listen and Choose
Listen and Color
巧用哈希数值传递文件