APP下载

数字保存的格式管理

2019-11-28

海峡科技与产业 2019年7期
关键词:文档数字标准

李 淳

中国北方车辆研究所,北京 100072

格式是为了存储数字信息而使用的特殊编码方式,是对数字对象的内容信息进行交换和表示的一种重要标准,也是一个数字对象能否被有效使用的重要因素。数字保存必须考虑格式问题。

随着信息技术的发展,各种新格式不断涌现,进行有效的格式管理,了解格式本身完整的标识信息,选择有效的格式,才能保证数字内容的可持续性。

1 数字保存的格式选择原则

1.1 所选格式适用于多种环境

格式能在不同环境下使用,即能在不同操作系统、不同软硬件平台上使用,不受平台的限制。可以减少管理程序与管理费用,便于资源共享。这类格式兼容性强,更便于数字内容从一种载体介质转移到另一种载体介质,或从一种数字平台转换到另一种数字平台。可以降低文件长期保存中因迁移而带来的数据丢失风险。

1.2 所选格式支持从专用环境向通用环境迁移

在许多新的应用领域,经常会使用特有的专用格式。由于特定需求,一些通用格式也被改为不通用的专用格式。如果这些文件数据支持从专用环境中迁移出来,就有利于文件的长期保存,特别是元数据及系统文件的完好保存。

1.3 所选格式标准化程度较高

标准化的主要目的就是能够尽可能地兼容不同的产品。选用标准格式可以保证数据的易传性与共享性,减少文件保存过程中数据丢失的风险。

1.4 所选格式被用户广泛支持

被用户广泛使用的格式,即使暂时不是标准,因为其主导了市场,已形成事实标准,其他的应用系统与数据也会以它为规范,以达到兼容的目的。厂家也更可能为该格式的更新提供迁移路径,最大限度地保证新旧版本之间的兼容性,从而降低长期保存中数据丢失的风险。

1.5 所选格式可扩展性强

文件在长期保存过程中,环境数据、元数据等都有可能发生变更。这就要求所选格式形成的文档,在不干扰文件内容真实性、完整性的前提下,能够支持信息的扩展或变更。

1.6 所选格式能够记录文件处理过程

理想的文件格式要能够记录下该文件内容的所有变动状况,如文件创建者、何时创建、文件大小、变更记录等。这些信息详细揭示了文件的处理情况。

2 数字保存的推荐格式

在长期保存的实践活动中,不同的组织机构为指导内部的数字保存过程,根据自身的需求和特点,形成了比较成熟的格式规范。这些推荐格式具有一定的指导意义,值得借鉴。

2.1 FDA 格式规范

美国佛罗里达数字档案项目(Florida Digital Archive,FDA),针对文本、图形图像、声音视频、程序、电子表格等形式的数字内容,推荐详细的存储格式。

2.2 美国国会图书馆格式规范

美国国会图书馆格式规范研究文本和音乐作品、静态图像作品、音频作品、运动图像作品、软件和电子游戏、数据集/数据库这六大类内容的格式和相关标准。推荐使用可持续的格式,遵循一定的技术标准,数字保存才更可靠,也更节约成本。

2.3 UK Data Archive 格式规范

UK Data Archive 拥有英国最大的社会科学和人文科学的数字研究数据馆藏,其格式规范支持数据的共享、重复利用和保存。数字内容使用标准格式进行保存,有利于数据的解读、交换和传递。保证数字资源长期保存最稳妥的方法就是将数据转换成标准格式。

3 数据保存的重要格式

文件格式品类繁杂,数量众多,各有特点、优势和适用场合。在长期保存中有几种代表性格式。

3.1 PDF/Archive (PDF/A)

PDF/A 一直是业内的重要标准,可长期安全地保存文件,还可始终如一地显示文件效果。PDF/A 创建速度快,文档体积小,支持数字签名,独立于软硬件、可进行可靠的数据交换,易于更新、搜索,保存成本低,长期持续可靠,是电子文件长期保存最理想的文档格式之一,被广泛用于保存文本数字对象。

3.2 JPEG

联合图像专家小组(Joint Photographic Experts Group,JPEG),其系列格式具有较好的压缩率,失真率较低,图像品质好,存储容量小,传递和呈现速度快,支持广泛,有一定的技术优势,是长期保存中主要的图像保存格式之一。

3.3 TIFF

标签图像文件格式(Tagged Image File Format,TIFF)是一种主要用来存储照片和艺术图的图像文件格式,广泛应用于对质量要求较高的图像的存储与转换。通过在文件头中包含的“标签”,它能在一个文件中处理多幅图像和数据。标签能够标明图像的基本几何尺寸,定义图像数据的排列。

TIFF 结构灵活,适应性强,压缩损失率低,能可靠、高质量地存储图像,已成为图像文件格式的一种标准,绝大部分图像系统都支持这种格式,是保存图像时的首选格式之一。

3.4 MPEG

MPEG 是标准的视频压缩编码技术。主要利用具有运动补偿的帧间压缩编码技术,减小时间冗余度;利用DCT 技术,减小图像的空间冗余度;利用熵编码,减小信息统计冗余度。这几种技术的综合运用,大大增强了压缩性能。

MPEG 文件具有高压缩比,容量小,节约保存空间和成本,失真率低,可以较完整地记录声音和视频,是长期保存中保存音频和视频的理想格式,得到了广泛的应用[1]。

4 数字保存的格式工具

数字保存的格式工具主要功能包括文件识别和格式验证。文件识别是判定一个数字对象预定格式的过程;格式验证是鉴别一个数字对象是否符合格式的语法和语义规则的过程。

4.1 DROID

数字记录对象识别(Digital Record Object Identificaition,DROID)是英国国家档案馆开发的免费应用软件,使用存储在PRONOM 中的登记信息实现格式的自动识别。文件首先被读进内存,然后通过一个循环完成文件与内部登记信息的匹配,并把匹配的内部登记信息及其相关格式记入结果列表中,再根据文件的扩展名,即外部登记信息,做进一步的分析处理。

DROID软件工具能够自动识别200多种文件格式,记录文件类型、版本、大小、修改时间等,能够及时发现文件格式的风险,提高数字格式的可持续性,支持数据容量缩减,节约存储成本[2]。

4.2 Fido

数字对象格式识别工具(Format Identification for Digital Objects,Fido)是使用Python 编写的开源命令行应用程序,是使用PRONOM 格式签名的识别工具。识别结果按照PRONOM 兼容的持久唯一标识符PUIDs进行报告。Fido 覆盖了PRONOM 数据库的所有格式[3]。

4.3 MET

元数据抽取工具(Metadata Extraction Tool,MET)由新西兰国家图书馆开发。它从一系列不同格式的数字文件(包括PDF、图像、声音、Office等格式)中,抽取保存元数据,并将这些元数据以标准格式XML 输出,供长期保存使用。该程序打开的所有文件都为只读,保证了原始文件的完整性。该工具只读取文件头部信息,所以整个抽取过程速度很快[4]。

4.4 JHOVE2

JHOVE2 由加利福尼亚数字图书馆、Protico、斯坦福大学开发,是在著名的JHOVE 工具上改进的一个开源软件,受到美国国会图书馆的国家数字信息基础设施和保存项目的资助。JHOVE2 的功能包括识别、特征提取、评估和策略[5]。

4.5 FITS

文件识别工具集(File Information Tools,FITS)是哈佛大学图书馆开发的信息系统开源软件,是一些外部工具的包装器。除了具有识别的功能,还可以用于特征提取和验证。FITS 将所有的本地输出转换成通用格式FITS XML。

4.6 Apache Tika

Apache Tika 是Java 语言的开源工具集,利用现有的解析类库,从文档中探测和抽取元数据和结构化文本内容。主要功能包括侦测文档的类型、字符编码、语言等其他现有文档的属性,并在此基础上提取结构化的文字内容[6]。

5 小结

格式管理贯穿数据保存生命周期的各个阶段,是数字保存的重点问题。目前,格式管理越来越受到重视,但是存在的问题仍然有待进一步探讨和研究。

猜你喜欢

文档数字标准
2022 年3 月实施的工程建设标准
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
忠诚的标准
美还是丑?
答数字
基于RI码计算的Word复制文档鉴别
数字看G20
一家之言:新标准将解决快递业“成长中的烦恼”
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat