APP下载

长久保存数字资源的文件格式互操作探析

2017-01-28张容李勇文

山西档案 2017年6期
关键词:开源工具对象

文 / 张容 李勇文

文件格式是一组语义和句法规则,用以控制抽象信息与数字形式表达间的映射,便于信息的存储及最终的检索和利用。依据定义,电子记录非天生的人类可读,某种形式的文件格式编码信息只能经由特定组合的软硬件系统方能处理及提供理解。在信息技术飞速发展的今天,文件格式信息的可访问性显得愈发重要。文件格式的结构技术信息,以及支持它们的软件产品,理所当然地成为数字资源长期保存的先决条件。

一、数字资源长期保存中的文件格式问题

在日常学习、工作中需要保存的数据类型多种多样,数据的格式各不相同,因此个人用户或数字对象长期保存机构都可能遇到以下问题:老版本的存档文件,用现在的应用程序无法正确打开;杀毒软件可能将一些特殊格式文件视为病毒;有的应用环境对文件名大小写敏感;一些专用格式的文件再也找不到应用程序打开。为解决上述问题,文件格式的互操作逐渐进入了人们的视野。文件格式互操作主要指一种格式的文件要有兼容其它格式文件的能力,即可以无信息丢失地完成格式间的转换。同时,它要满足一个软件不需要任何其它应用程序、插件、解码器、专有附加条件等即能打开一个相应格式的文件。

二、文件格式互操作解决方案概述

基于目前的理论与实践方法,文件格式互操作解决方案包括选用开源代码标准文件格式、文件格式登记、利用文件识别工具。这三种手段的配合使用,可在很大程度上解决文件格式的互操作问题。

(一)文件格式识别工具

通常情况下,用户通过文件的扩展名来识别文件类型,并选用相应的应用程序对文件内容进行读取。用户从网络搜索文件格式识别小程序来识别后缀名被更改或无后缀名的文件,或从网络查找后缀名不熟悉文件的打开程序。这就是简单意义上的文件格式识别。文件格式识别工具用于对文件格式信息的识别、表征和验证,提取技术信息和标签信息,并将识别出的格式信息导出至通用文件,为其它系统或工具复用。最典型的文件格式工具有DROID、JHOVE等。文件格式信息被识别为文件格式的迁移和转换提供了基础,进而可以实现文件格式的互操作。

(二)文件格式注册系统

文件格式登记广泛应用于数字资源长期保存活动中,以确保数字资源保存机构能够维护文件格式定义、格式属性、软件迁移路径等信息。这些信息是长期保存过程中需要保存的技术性元数据信息。文件格式登记系统能对数字文件格式的属性进行描述、标识、记录和保存,支持信息系统通过公开和规范的机制去发现所需要的文件格式信息,进而识别、解析、转换、表现和保存相应文件[1]。目前,诸多数字对象保存项目建立了技术登记体系,如PRONOM、UDFR、PlanetsCore、MIME MTR等。

三、常用文件格式识别工具的比较

国外一些数字保存机构或软件公司推出了众多的文件格式识别工具,用来获取不同格式数字对象的技术元数据信息和标签信息,比较典型的工具有DROID、JHOVE、FITS等。

(一)DROID

DROID是英国国家档案馆开发的一个文件格式识别工具,目前已被广泛应用于文化遗产机构、各级政府部门以及其它公共服务机构,同时被嵌入了众多的商业或开源数字保存软件中。目前DROID能识别超过1400种格式的文件,在识别文件格式的同时,DROID还提取诸如文件大小、最后修改日期以及文件路径等信息。这些信息显示在它的图形化用户界面上,可使用过滤条件予以分析,或导出至CSV文件。开源DROID可运行于任何操作系统,仅需预装Java 1.7或1.8标准版。首次运行时,它会自动生成一个新的配置文件,添加待识别的单独文件或文件夹里的多个文件后,即可运行配置文件,可将识别出的相关信息保存至后缀名为droid的文件,也可导出至一个CSV文件。

(二)JHOVE

JHOVE最初是由安得烈·W·梅隆基金会资助,JSTOR和哈佛大学图书馆协作开发的电子档案倡议项目,目前由开放保存基金会维护。通过JHOVE,人们可对数字对象的特定格式实现识别、验证和特征化。这三种能力为文件格式互操作提供了可能。用户可从官网下载安装包,程序支持Windows、Mac OS、Linux等操作系统,在安装前需预装1.6及之后版本的JAVA程序。识别、验证和特征化由JHOVE的模块实现,转换结果由文本、XML、音频等输出处理程序控制。JHOVE提供的模块包括AIFF、ASCII、BYTESTREAM等。针对每个模块,均提供了简介、范围、有效性、信息表达、附加文件格式信息等方面的内容。

(三)FIDO

FIDO(Format Identification of Digital Objects)作为开放保存基金会产品之一,是识别数字对象文件格式的命令行工具。目前软件最新版本是v1.3.4。它可运行于任何操作系统平台,除Python 2.7外不需要其它运行条件。缺省情况下,FIDO通过conf/formats.xml和conf/format_extensions.xml两个文件装载格式信息,附加格式信息由-loadformats命令行参数予以确定。如果不只一种文件格式需要识别,则用逗号将-formats参数进行分隔。FIDO的输出受控于matchprintf和nomatchprintf两个参数,每一个输出结果均为包含格式化信息的字符串。

(四)FITS

FITS最早由哈佛大学图书馆创建并用于数字仓库的长期保存,现由哈佛大学的OpenScholar提供技术支持。它作为一个封装器,调用不同的开源格式识别工具并管理输出结果,从这些开源工具得到的输出结果被转换成一种通用格式,与另外的格式相比较并合并成一个简单的XML输出文件。FITS可运行于Windows、Mac OS X以及*nix等操作系统平台,由JAVA语言编写,与JAVA 1.7或更高版本兼容。当前FITS的最新版本是2017年5月30日发布的1.1.1版,封装的工具包括DROID、JHOVE、Apache Tika、Exiftool等。

(五)Jpylyzer

Jpylyzer是一个JP2(JPEG 2000 Part 1)图像验证和属性提取工具。它的开发得到了SCAPE项目、开放保存基金会和荷兰国家图书馆KB项目的资助。该软件运行于安装了Python脚本程序的Windows或Debian(Linux 核心)操作系统,目前最新程序版本是2016年1月6日发布的1.17.0版本,提供了1个位置参数、7个可选参数,输出结果指向标准输出设备如xml文件。

(六)Apache Tika

Apache Tika受Apache软件基金会资助,始于2007年3月,最新程序版本是2017年7月12日发布的1.16版。Tika是一个内容分析工具套件,实现从超过1000种不同类型的文件中检测和提取元数据及文本信息。所有这些文件类型通过一个简单接口进行解析,使得Tika在搜索引擎的索引、文件格式的内容分析与转换等方面发挥作用。

(七)ExifTool

ExifToo是独立的Perl库,结合一个命令行程序,用以读、写和编辑各种文件格式的元信息,支持不同的文件格式如EXIF、GPS、IPTC等。它支持Windows、Mac OS X 和Linux等操作系统,目前程序的最新版本是2017年7月7日发布的10.59版。ExifTool具有强大、快速、灵活、可定制的文件格式识别能力。针对不同文件格式和JPEG元信息,它能提供读、读写、读写及创建功能支持。

(八)MediaInfo

MediaInfo是MediaArea开源软件公司的产品之一,为音频和视频文件提供最相关的技术和标签数据统一揭示。该软件可运行于各种平台。目前Windows平台的最新程序版本是0.7.97。MediaInfo数据揭示包括容器、视频文件、音频文件、文本文件、章节内容等对象,对不同对象可识别出不同的技术和标签信息。MediaInfo的查看结果以文本、CSV、HTML等形式导出,提供图形化用户接口,多语言显示。

四、常用文件格式注册系统简介

数字保存的技术注册是用来描述数字对象的技术依赖性,存储、发现和传递与数字格式相关的表示信息,在数字对象的标识符和格式编码描述之间建立起明确的关系,确保文件格式能够被长久的识别[2]。目前已出现了一些有影响力的文件格式注册登记系统,如PRONOM、UDFE、MIME MTR等。

(一)PRONOM

PRONOM由英国国家档案馆数字保存部开发,目前最新版本为6.2版。PRONOM源于如何有效获取存储在数字档案中电子文件的可信赖技术信息。它的开发旨在解决文件格式信息获取问题,并逐步得到了广泛应用。PRONOM支持对象迁移时保留所有记录的原始格式,同时聚焦电子记录的自动转换迁移路径。PRONOM唯一标识符,简称为PUIDS,能为文件格式提供持久的唯一的明确的标识符,从而允许人或自动化的代理程序明确地识别和共享一个数字对象的标识符和编码格式。PRONOM提供的查找功能包括简单查找、文件格式、PUID、软件、供应商、生命周期、迁移路径等。

(二)其它文件格式登记系统

GDFR(Global Digital Format Registry)由哈佛大学图书馆开发。该项目已经结束,但其数据模型、格式分类、格式模型及关系仍对文件格式登记有重要借鉴价值。UDFR(Unified Digital Format Registry)是美国国家数字信息基础设施保护计划的一部分,旨在通过开源、语义实现及社区支持平台等形式,寻求对两个已存登记系统PRONOM和GDFR的功能和属性实现统一。Planets项目由欧盟资助,旨在解决核心数字保存面临的挑战,对不同对象类型(格式)及其属性的相关技术信息提供一个可以检索的数据库,以及可能应用于这些对象类型的数字保存执行工具。MIME MTR (MIME Media Types Registry)是IANA提供的媒体类型及子类型文件格式登记和注册系统(参见RFC2046),媒体类型的登记步骤可参考RFC6838、RFC4289和RFC6657。IANA提供的登记类型包括应用文件、音频、字体、示例、图像、消息、模型、多媒体类型文件、文本、视频等10类,同时为每一种类型的不同格式提供了相应的模板和参考。

五、结语

解决数字资源长期保存中的文件格式互操作问题需重点关注两方面:文件自身的互操作能力和文件格式识别工具的有效使用。文件自身的互操作能力包括数据交换能力、兼容性、稳定性、可伸缩性、标记的兼容性和可扩展性、对不同存储技术的适用性等。为了有效使用文件格式识别工具,要认真比较研究识别工具能识别文件的种类和数量、识别效率、识别结果准确率、导出文件的便利和通用、操作的友好性、批量文件识别能力等因素。同时,要对国外文件识别工具进行汉化和二次开发,以利于汉语环境下的使用。

[1]梁娜,张晓林.数字文件格式登记系统[J].图书情报工作,2005(11):81-84.

[2]刘振.数字长期保存中的技术注册应用研究[J].情报科学,2017(2):126-129+149.

猜你喜欢

开源工具对象
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
波比的工具
判断电压表测量对象有妙招
波比的工具
五毛钱能买多少头牛
2019开源杰出贡献奖
准备工具:步骤:
攻略对象的心思好难猜
“巧用”工具
大家说:开源、人工智能及创新