APP下载

档案数字化存储格式的选择

2021-11-27韩李敏浙江省档案馆

浙江档案 2021年9期
关键词:数据格式纸质成果

韩李敏/浙江省档案馆

档案数字化扫描完成以后,如何保存和利用,存在一个数据格式选择的问题。

1 国标规定的数据存储格式

国家标准《纸质档案数字化规范》(DA/T 31—2017 )第9章设立“存储格式”一节,专门规范档案数字化成果保存和利用的数据格式。

9.5 存储格式

9.5.1 纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定。

9.5.2 纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为OFD、PDF等其他格式。

9.5.3 同一批档案应采用相同的存储格式。

“存储格式”一节表达了四层含义:第一,档案数字化成果坚持“存用分离”的原则,即数字化成果的数据格式实行存储格式与利用格式相分离的方式。第二,长期保存的数据格式为“TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定”。第三,利用时的数据格式,“可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为OFD、PDF等其他格式”。第四,“同一批档案应采用相同的存储格式”。

2 存用分离的原则

档案数字化与一般的图书资料数字化最大的区别就是其数字化成果实行存用分离的原则,即档案数字化完成后,一般要形成两种以上不同格式的数据,一类数据用于长期保存,一类数据投入实际使用。

为什么要形成两类不同用途和格式的数据?这是档案的特点所决定的。档案是一种文献,具有普通文献的共有特征,同时它又是一种历史凭证,具有法律凭据的价值。作为凭据,档案数字化成果应当能够最大限度地保持档案的原始面貌。《纸质档案数字化规范》中这方面的要求是十分具体而明确的。国标规定要求扫描“参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌”,“为最大限度保留档案原件信息,便于多种方式的利用,宜全部采用彩色模式进行扫描”,扫描的分辨率要求设置在200dpi以上(2005年的《纸质档案数字化技术规范》要求不低于100dpi),“如文字偏小、密集、清晰度较差时,建议扫描分辨率不小于300dpi”。如此高标准下形成的扫描图像,质量好、清晰度高,还原成纸质打印输出时,复制件的真实性强。但是,这样的扫描图像,文件容量一般都非常大,这是毋庸置疑的。

对于实际投入利用的档案数字化成果,必须考虑利用的方式和环境。档案数字化成果一般都需要借助网络投入实际的使用。而作为网络利用,无论是内部局域网还是政务网或公众互联网,都受网络带宽和浏览速度的制约。数字化成果单个文件容量太大,势必影响网络的浏览速度和存储空间占用率。为此,用于网络等实际应用的数字化成果必须在原来保存的基础上进行压缩处理。图像的压缩,说到底主要就是两种方式,一是缩小幅面,二是降低画面质量。这两种压缩方式都与“最大限度保持档案原貌”相抵牾。图像压缩有个致命的缺陷就是“不可逆性”,解压缩后的图像是无法还原压缩前原始面貌的,压缩会对原始图像的清晰度、色彩等产生损害。为此,国家标准明确规定,档案的数字化采用存用分离的原则,不要随意将利用的数据格式用作长期保存,以免影响档案历史凭证价值的发挥。

档案数字化成果在数据格式的应用上采用存用分离的原则也是与国家的数字化战略相适应的。我国实施档案数字化战略,一是为了确保档案安全,通过数字化形成档案副本,保证档案的长治久安;二是适应信息化发展,满足人们通过网络等形式利用档案的需求。既要满足长期保存的需要,又要满足眼前网络等利用的需要,最佳的策略,就是在数字化成果的存储上实行存用分离的原则。

有人认为“存用分离”原则并不适用于所有档案。比如《干部人事档案数字化技术规范》(GB/T 33870—2017)就明确规定:干部人事档案数字化只釆用JPEG格式存储,并未实施存用分离。实际上《干部人事档案数字化技术规范》与《纸质档案数字化规范》并不矛盾。人事档案数字化成果目前主要用于保存和系统内传输,并不存在“网络浏览”等利用需求,所以它只要求保留存储格式是合理的。将来如果有网络利用等需求出现,再完善利用格式。

3 长期保存的数据格式

《纸质档案数字化规范》明确作为长期保存的数据格式为“TIFF、JPEG或JPEG2000等通用格式”。那么,这三种通用格式有何不同,数字化工作中我们该如何选择?

TIFF是我们用得最多、最普遍的长期保存数据格式,它是早在1980年代中期各桌面扫描仪厂商共同商定采用的一个公用的统一的扫描图像文件格式。TIFF可以包容黑白图像、彩色图像等。其最大特点是使用“LZW”(无损压缩)的选项,这是一种减小文件大小的无损压缩技术,对原始图像的损害程度最小,被广泛应用于对图像质量要求较高的图像存储与转换。它的结构灵活、包容性大,已成为图像文件格式的一种标准,绝大多数图像系统都支持这种格式。对于黑白二值扫描的图像,比如大幅面的工程图纸等,传统的方法采用TIFF(G4)格式保存(2005年的《纸质档案数字化技术规范》曾予推荐)。实践证明,在同等压缩比的条件下,对于黑白图像的压缩,TIFF(G4)的效率要远远高于JPEG的压缩效率。

JPEG格式是日常用得较多、较普遍的长期保存数据格式。JPEG文件的扩展名为.jpg或.jpeg,是一种最为优秀的图像压缩格式。其压缩技术十分先进,它用有损压缩方式去除冗余的图像和彩色数据,在获取极高压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像质量。对于彩色图像的压缩,JPEG比TIFF效率要高得多,即使采用类似于TIFF接近无损的最优级压缩,JPEG的压缩比也可达到5:1,可以节约大量的存储空间和存储成本。

JPEG格式适用于黑白图像、彩色图像。JPEG格式具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,方便在图像质量和文件大小之间找到平衡点。实践中,人们最难把握的是压缩的最佳平衡点在哪里,即该选择多少的压缩率,既满足不影响图像质量又得到最佳压缩效果。为此,人们利用Photoshop软件进行了实验。在Photoshop软件中以JPEG格式储存时,提供11级压缩级别,以0—10级表示。其中0级压缩比最高,图像品质最差;10级接近于无损压缩,压缩比最低,图像质量最佳。人们经过多次实验比较,发现JPEG采用第8级压缩时,获得的存储空间与图像质量兼得的比例最佳。因此,可以称JPEG图像质量与文件大小的最佳平衡点约在压缩率达80%的位置。

为避免压缩过度、影响图像质量,《干部人事档案数字化技术规范》明确规定:采用JPEG格式存储,“压缩率≥80%”。这个“压缩率≥80%”的参数设定,大约就是参照了Photoshop软件的实验成果。

JPEG2000是国家标准认可的长期保存数据格式。JPEG2000作为JPEG的升级版,其压缩率比JPEG高约30%左右,同时支持有损压缩和无损压缩。JPEG2000格式有一个极其重要的特征,即能实现渐进传输,先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。JPEG2000特别适合于超大规模彩色图像的扫描,比如地图等。JPEG2000在图书馆系统应用得比较多,国外的日本国立公文书馆等也有很好的应用,但在国内的档案系统,目前应用的单位还很少。

4 以网络浏览为主的利用型数据格式

作为长期保存的数据都有一个共同的特点,就是容量大。一般16K页面的纸质档案,采用200dpi以上分辨率彩色扫描,形成的图像经LZW(无损压缩)的TIFF格式保存,一般每个画幅在6—10M左右;若用JPEG格式保存,一般也在1M以上。如果以50页一个文件计,形成的扫描件最小的也在50M以上。这么大容量的文件,实现网络浏览利用等是不现实的,会严重影响浏览的速度和系统的工作效率。

要让扫描形成的数字化成果能够投入网上利用,比如通过单位内部的局域网提供利用,或者通过网站向社会提供利用,都必须对TIFF或JPEG格式的数据进行转换,形成文件大小合适、便于网上利用的数据格式。

PDF是目前档案部门应用最多的网上利用数据格式,PDF文件能显示文字、图片、矢量图等,是目前公认最佳的文献数据格式。

PDF的优点如下。一是一致性。在所有可以打开PDF的机器上,展示的效果是完全一致的,不会出现段落错乱、文字乱码这些排版问题,可以把版式文档原汁原味地发送给读者。因此在印刷行业,绝大多数用的都是PDF格式。二是不易修改。已经保存之后的PDF文件,与图片一样,不能进行重新排版,具有防篡改的特征。三是安全性。PDF文档可以进行加密,包括文档打开密码、文档权限密码、文档证书密码等加密形式,通过加密达到信息防扩散等目的。四是不失真。PDF文件中,使用了矢量图,在文件浏览时,无论放大多少倍,都不会导致使用矢量图绘制的文字、图案的失真。五是压缩容量。为减少单个PDF文件容量,PDF格式支持各种压缩方式,包括jpeg(DCT)、jpeg2000(jpx)等。

将扫描的图像文件制作成PDF文件,一般都通过相应的软件来完成。用户可以根据自己使用的网络带宽,设定每个PDF文件容量的最大值,然后由软件对扫描图像采用JPEG等方式进行压缩(若需实行全文检索的,在压缩前还要进行OCR识别),最终转换成PDF文件。

OFD是国家标准认可的档案数字化成果网络利用数据格式。2016年,国家标准GB/T 33190—2016《电子文件存储与交换格式文书类版式文档》(简称OFD)正式发布。以同款软件对OFD与PDF做比较,OFD的描述能力更强,功能、性能不相上下,各有千秋,文件体量更加小巧,占用内存更少。但是,由于OFD标准出台时间不长,所以全国应用范围还很小,档案部门也只有极个别的单位在进行试验。其推广应用前景如何,最终有待时间检验。

5 档案数字化存储格式的选择及简短结论

档案数字化成果存储格式的选择应坚持存用分离原则,不要混淆存储格式与利用格式,更不能盲目地以利用格式代替存储格式。对于只用于长期保存暂时没有网络利用等需求的档案,如人事档案、涉密档案等,可以只采用存储格式加以保存,暂时不需要将其转换成PDF等利用格式。各级档案馆在接收机关单位的档案数字化成果时,务必注意数据格式的选择,且保证接收的数字化成果为原始的长期保存数据,而不是那些经过PDF再转换还原的过度压缩的图像数据。有的单位移交的数字化成果虽然数据格式符合标准,但是每个画幅的容量只有几百K甚至几十K,这样的数据大都存在过度压缩的可能性,有的就是将PDF等格式的数据再转换形成的,一般都无法满足长期保存的质量要求。

存储格式选择TIFF还是JPEG,主要还是取决于档案本身。对于同一批次的档案,应采用相同的存储格式,但是对于不同性质的档案,可以选择不同的存储格式。例如,浙江省档案馆在数字化过程中,一般的纸质档案数字化,选用的是TIFF(LZW)格式存储;而在《黄埔军校同学录》等专题档案数据库的建设中,因为以图片扫描为主,就选择了JPEG格式存储。

长期保存的存储格式数据,由于其容量超大,且一般很少使用,所以在存储方式和存储载体的选择上,宜采用离线存储或近线存储的方式,存储载体宜选用磁带和光盘,以节约存储成本。

PDF是目前档案数字化成果网上浏览利用最普遍的数据格式,该格式的数据也能还原成JPEG等图片格式,但是还原形成的图片与用作长期保存的图片,存在巨大的差异,二者不能相互替换。OFD等格式数据为国家标准所认可,有可能成为将来档案数字化成果存储和网络利用的发展方向,应引起高度重视,密切关注其软件开发和在档案部门的应用情况。

猜你喜欢

数据格式纸质成果
验收成果
为什么要读纸质书
数说中国—东盟经贸合作成果
2018数博会4大成果
MIT—BIH心率失常数据库的识读
一张图看懂“论坛成果清单”
基于RFID的户外广告监管系统的设计与实现
电子疲劳
一种融合多业务的信息化系统框架研究
独立书店浪漫的纸质生活