APP下载

新技术环境下电子照片档案内容真实性问题研究

2021-11-28安徽大学

浙江档案 2021年11期
关键词:真实性图像检测

顾 伟/安徽大学

真实性是档案的重要属性,确保档案的真实是档案全生命周期管理的重要内容,无论是纸质档案还是电子档案,保障档案真实性始终是档案学研究的重要方向。对不同的档案载体来说,唯一的变化是对档案真实性的研究重点和关注内容。纸质档案管理时期,档案真实性重点关注档案形成过程的真实和档案信息内容的真实;而在电子档案管理时期,由于电子档案对前端业务系统和计算机系统的依赖性,档案的原始记录性难以保证,业务系统既能形成电子文件,也能修改甚至删除电子文件。计算机系统拥有最高权限,可以越过任何屏障,从系统底层任意改动电子档案,因此电子档案的真实性难以保证。保障电子档案的真实性是一个涉及环境认知、制度规范、人员素质、管理活动、技术系统等多种因素的综合性问题[1],只有做到“来源可靠、程序规范、要素合规”才能确保电子档案的真实性。

电子照片档案是常见且常用的原生电子档案,相对于其他电子档案,从数据形式上来说,电子照片属于多媒体数据,数据结构有自身特点;从档案利用上来说,电子照片直观性强、传播速度快、传播范围广;从篡改行为上来说,篡改电子照片档案的技术手段多、方式多、成本低;从篡改检测上来说,人们对电子照片档案真实性鉴定需求相对较多,但有效检测手段较少。本文针对电子照片档案内容真实性问题进行研究,在现有研究基础之上,分析电子照片档案内容真实性的现实需求,给出相应的技术解决方案。

1 既有研究:基于档案学和计算机学科的已有研究成果分析

1.1 档案学领域电子照片档案内容真实性研究成果分析

以中国知网全文数据库为检索对象,将检索条件设置为“电子照片/数码照片+真实性”,同时将“中图分类号”设置为“G270”或“G271”,并去除关联度较弱的文献,可以检索出强相关的研究论文52篇。

以时间为序,分析这些文献可以发现:不同阶段的电子照片档案内容真实性研究各有研究重点。2010年之前,档案工作处于纸质档案管理向电子档案管理的过渡阶段,该阶段的电子照片档案的研究侧重于分析纸质照片与电子照片档案管理方法的不同[2]以及电子环境下照片档案的管理特点、原则和要求[3],电子照片档案的真实性问题初步得到学者关注,研究内容主要集中于分析“图像档案被人为修改的状况和原因”,并从数码照片造假事件入手[4],分析如何评估数码照片的真实性以及由此给档案管理工作带来的启示[5]。2011年至2015年,学者们开始具体分析电子照片的各种特性,提出了基于前端控制思想的“一致性”保真策略[6],并对电子照片真实性鉴定的可行性进行研究,提出了电子照片真实性鉴定的总体框架和检测手段[7]。在这一阶段,国家档案局颁布了行业标准《照片类电子档案元数据方案》,为电子照片档案真实性提供保障。2016年至2020年,学者们偏重对电子照片档案真实性问题整体解决框架的构建和多样化技术方案的研究,提出了基于计算机技术的电子照片档案真伪鉴定方法[8],对各种电子照片真实性的检测方法进行了比较[9],并从电子档案“四性”检测的角度[10],提出了电子档案真实性的检测内容和实现方式[11]。

可以看出,电子照片档案真实性问题的研究是随着档案信息化建设的开展而开展的,是一个由浅到深的研究过程,经历了从管理向技术的变化。

1.2 计算机领域图像真实性研究成果分析

以中国知网全文数据库为检索对象,将检索条件设置为“图像真实性+被动认证”,同时将“中图分类号”设置为“TP39”,可以检索出强相关研究论文644篇。

仍以时间为序,研读这些文献可以发现:在计算机领域,对图像真实性的研究时间较早,可以追溯到20世纪90年代初,研究内容侧重于从技术层面对图像真实性检测算法进行研究。10多年来,计算机领域对图像真实性的研究也是一个由浅到深、由点到面、由粗到细的过程。检测方法可以分为主动检测和被动认证两大类[12],用于满足不同场景下图像真实性检测需求。早期的研究通常是采用主动检测方法验证图像真实性,即在不影响用户体验和实际使用的前提下,向图像数据冗余区域加入人眼不可见的脆弱信息来验证图像真实性[13]。所谓“脆弱”可以理解为“一碰就碎”,当图像被攻击或篡改时,部分图像像素值必然发生改变,与此相关联的是,嵌入图像的“脆弱”信息也会随之发生部分变化。因此,可以通过检测“脆弱”信息的一致性来判断图像的真实性。这种方法的缺点是不可逆地破坏了图像的原始性,所以在后期的研究中,学者们开始采取被动认证的方式检测图像真伪。首先建立图像的各种数据模型,并分析待检图像的相关性特征,将二者进行比较,从而实现图像真伪判定。再后来,有学者将主动和被动的这两种方法相结合,提出了可恢复场景下图像真实性鉴别方法,即采用主动嵌入的方法检测图像真伪,同时也可以将嵌入的信息无失真地删除。

1.3 已有研究成果的不足

电子照片档案内容真实性问题的研究本质上是一个跨档案和计算机两个学科的综合性研究,在既有研究中,档案人侧重从档案业务的视角研究保障电子照片档案内容真实性的管理、制度、人员等非技术性因素,忽略了电子照片档案的“电子”属性;从事计算机研究的学者着重研究篡改电子照片的各种方法以及有效检测这些篡改操作的技术手段,不会考虑电子照片的“档案”属性。这就产生了问题:一方面,档案人不能站在计算机防伪研究的角度,提出结合档案业务需求的电子照片档案保真技术要求,让计算机领域的学者去研究解决方法。另一方面,计算机领域的学者对电子照片保真所做的研究是一种共性研究,虽然可能对医学、军事等领域的电子图像做过具体研究,但是没有专门针对电子照片档案的数据特点提出电子照片真实性保护的解决方案,也没有对电子照片档案保真典型应用场景进行专门分析。因此,他们缺乏应有的背景知识,不能针对电子照片档案管理中的业务痛点提出合理的技术方案。我们应该从档案专业的角度提出计算机领域的业务需求,也应从计算机技术的角度回应档案人的技术需求。

2 现实需要:电子照片档案内容保真需要解决的问题

2.1 收集环节:严把电子照片档案收集入口关

档案收集是档案管理的第一步。在收集阶段做好电子照片真实性鉴定工作是确保电子照片档案真实性的重要业务节点和关键环节。在这一阶段,我们首先应对电子照片形成过程的真实性进行鉴定,做好电子照片的身份认证和完整性认证,检查电子照片责任者、形成时间等相关信息是否正确,以及结构、背景信息是否缺失。接着还要对电子照片内容的真实性进行检测,包括两个方面:一是检测电子照片元数据内容的真实性;二是判断电子照片形成之后是否被人为改动。

根据《照片类电子档案元数据方案》,电子照片元数据包括很多项内容,其中与电子照片真实性有关并可以依靠技术手段进行检测的元数据分为两类:一类是反映电子照片来源的元数据,如编号为M43(捕获设备)的容器型元数据及其子元数据,可以利用计算机领域的照片来源检测方法进行检测。不同型号成像器材物理介质存在差异,这种差异会反映在电子照片成像特征上,通过分析能够区别电子照片来源的特征,即可实现对电子照片来源的检测[14]。另一类是反映电子照片自身属性的元数据,如编号为M54(图像参数)的容器型元数据及其子元数据,这些元数据的值不仅相互之间有限制关系,而且与电子照片EXIF信息也有关联性。单纯修改元数据的值而不改动电子照片的数据信息,必将引起二者之间的矛盾。因此,研究它们之间存在的关联关系可以检测元数据的真实性。

改动电子照片内容的操作有多种方式,既有复制—粘贴、重压缩、图像模糊和图像拼接等有实际内容篡改的操作,也有如亮度、对比度调整等无实质内容改动的润饰操作。从档案角度来说,其中任何一种操作都是对原始记录性的破坏,都应该尽可能地去发现。从电子照片角度来说,其中任何一种改动都会留下痕迹,破坏电子照片的图像特征和统计特性。因此,可以在具体分析电子照片各种统计特征的基础上,综合运用各种图像处理算法,通过比较电子照片与图像模型之间的一致性判定电子照片内容的真实性。

2.2 管理环节:确保电子照片档案保管过程始终真实

在档案管理环节,电子照片档案保真的业务需求相对简单,重点要确保电子照片档案在保管过程中“始终如一”,不论是电子照片的内容还是元数据信息都要做到始终不变。现实情况是照片档案的保管期限大多为长期或永久,而电子照片具有脆弱性,即使它们发生了改变也很难被人发现。因此,在这一阶段应该采取技术手段及时发现这种改变。发现电子档案是否有改动的技术方法较多[15],各种方法的优缺点和应用场景不尽相同,这里我们建议采用哈希值校验技术来检查电子照片档案的真实性,原因有三:一是哈希值校验技术简单、有效、易于实现,且使用范围广;二是哈希值长度固定且占用的存储空间少,电子照片数量越多,这种技术在空间存储上的优势体现得就越明显;三是哈希算法能够保证哈希值的唯一性,在某些场景中可以作为每幅电子照片的标识符,有利于照片的区分和利用。

2.3 利用环节:快速简便地实现电子照片档案真实性的检测

在档案利用过程中,一旦电子照片档案被分发或传播,其真实性就难以得到保障,既存在第三方篡改电子照片内容的可能性,也存在档案利用者断章取义地扭曲电子照片本意的可能性。因此,与前两个环节相比,档案利用环节应更加注意电子照片档案真实性和完整性的检测。在检测的过程中要做到:一是检测方法便捷、有效,能够快速得到检测结果,以利于档案利用场景下电子照片真实性的实时鉴定。二是检测方法独立性要强,在检测过程中,尽可能做到没有任何辅助信息的帮助也可以完成鉴定,这样有助于提高检测方法的适用性。三是检测方法不仅能检测电子照片的真实性,还要能检测电子照片的完整性。在档案利用过程中,对电子照片任意的裁剪虽没有改动照片内容,但改变了照片所要表达的含义,这就破坏了电子照片的完整性,也是对电子照片真实性的破坏,因此好的检测方法应能够实现电子照片完整性检测。

3 技术实现:与新一代人工智能技术的有机结合

3.1 基于内容取证方法的电子照片来源鉴定和内容真实性鉴定技术

内容取证方法本质上是一种“盲检测”技术,是利用电子照片自身信息来判断照片内容真实性、完整性和原始性的方法,它适用于在档案收集环节进行电子照片来源鉴定和内容真实性检测的场景。

对电子照片来源进行鉴定的基本思路是根据电子照片的成像机理,找出能够代表电子照片唯一性的特征属性,从而判定电子照片的来源。通常的技术方法有两种:一是从成像器件硬件设备的层面,提取成像器件固有缺陷引起的异常像素点信息,对电子照片来源进行取证和鉴别。二是立足电子照片本身,使用同一部相机拍摄大量照片,利用深度神经网络进行训练,提取电子照片的特征;再将待检测照片的特征与由该相机拍摄的照片特征进行比对,从而判定待检照片是否来自该部相机。

电子照片内容篡改方式有多种,常见的篡改方式一般都有相对应的检测方法。如,检测电子照片复制—粘贴篡改操作的代表性方法有基于尺度不变性的检测技术[16],检测图像拼接操作的代表性方法有基于双相干特征的检测技术,检测模糊润饰操作的方法有基于马尔科夫方法的检测技术和基于灰度共生矩阵的检测技术。需要指出的是,能够检测出电子照片所有篡改方式的通用方法并不存在,但每一种篡改方式所对应的检测方法也不是完全孤立的,相互之间是可以印证的。电子照片内容篡改检测问题较为复杂,我们应该从全局角度,利用各种检测方法综合判断电子照片是否发生篡改。

3.2 基于哈希值校验方法的电子照片一致性判别技术

哈希值校验方法基本思路是输入电子照片,利用散列算法将电子照片变为固定长度的散列值。不同电子照片散列值是不一样的,即使存在哈希冲突的情况,也可以利用开放寻址法、再散列法等方法处理冲突。同时,哈希算法是一种单向不可逆算法,不可能通过散列值倒推原始数据,其安全性是可以保障的。常见的哈希算法有MD5算法和SHA-1算法,它们的散列值长度分别为128位和160位。换句话说,一幅电子照片可以利用长度较短且位数固定的散列值来代表,如果电子照片发生了变化,它的散列值将随之发生改变,由此可以判别电子照片在存储过程中是否发生改动。

3.3 基于数字水印方法的电子照片真实性检测技术

数字水印方法是一种主动保护方法,与内容取证方法不同的是,它是在电子照片中主动嵌入数字水印,通过检查数字水印的一致性和完整性判断电子照片是否发生过更改,这适用于档案利用过程中电子照片真实性保护。

常见的水印技术是一种人眼可见的明水印,将明水印嵌入电子照片中,既是对电子照片原始性的破坏,也影响了用户的利用体验。为不破坏电子照片原始记录性,也不影响用户的利用体验,我们提出了将不可见的可逆水印嵌入电子照片的思路。“不可见”指人眼视觉上的不可见,目的在于不影响用户体验;“可逆”指可恢复,即可以将嵌入水印后的电子照片无损恢复成未嵌入水印状态的原始电子照片,确保电子照片在利用过程中不受到任何破坏[17]。

在电子照片档案利用环节,我们选用的基于不可见可逆水印的电子照片真实性保护方法应尽可能简单、有效,如直方图移位方法和差值扩展方法等,这些方法不仅独立性强,不需要辅助信息的帮助就可以完成电子照片真实性检测,而且水印信息提取过程简单,检测的实时性较高;同时,在水印嵌入的强度选择上,应以嵌入水印后的电子照片视觉质量不降低为标准;在水印嵌入位置上,嵌入算法应能保证所有水印信息尽可能均匀分布在整幅电子照片上,以达到检测电子照片完整性的目的。

4 结语

由于电子照片具有脆弱性和篡改不易察觉性,鉴别电子照片档案真实性较为困难,尤其是图像编辑技术的发展,各种图像改动方式更加隐蔽和多样,电子照片档案真实性鉴别变得更加复杂。在我国,电子照片档案内容真实性保护研究还处于初期阶段,还有大量研究工作有待开展。我们一方面应该加强理论研究,另一方面也应深入实际业务工作,准确把握业务环节的关键点,切实解决电子照片档案真实性保护中的难点问题。

猜你喜欢

真实性图像检测
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
Van lier真实性原则对英语教学的启示
必修二 Modules 1—6综合检测题
“整式的加减”检测题
“整式”检测题
名人语录的极简图像表达
趣味数独等4则
雕塑真实性的探讨