APP下载

电子文件格式长期保存策略

2015-05-30徐萌

2015年24期
关键词:电子文件

徐萌

摘要:电子文件格式登记系统是电子文件格式长期保存的重要方式之一,文章通过对电子文件长期保存格式的介绍上,着重分析了开发电子文件格式登记系统的必要性及其成功案例,包括PRONOM,MIME MTR,GDFR,UDFR,并对电子文件格式登记系统的未来发展做出了展望。

关键词:电子文件;长期保存;文件格式;格式登记系统

电子文件长期保存是国内外公认的电子文件管理的难点之一,国内学术界目前的研究和实践主要集中于采取软硬件载体转换、文件备份、格式转化等被动管理的方式①。而电子文件存在形式是特定格式的,因此,格式管理是电子文件管理的源头,电子文件的长期保存、可读取首先要保证电子文件格式的长期保存、可读取。

一、电子文件格式的长期保存

文件格式是一种电脑计算机用语,指计算机为了存储信息而使用的对信息的特殊编码方式,用于识别内部储存的资料。但通常我们认为格式就是指文件的類型,如PDF、JPEG等,这样的理解只能满足日常的应用。为了保证电子文件的长期保存,文件格式还包括文件版本、压缩算法、比特流编码、软硬件运行环境等更特殊、粒度更细的表示信息②。

(一)电子文件长期保存格式

目前,电子文件格式种类繁多,五花八门。由于电子文件产生于不同的应用软件、不同的硬件设备、不同的信息类型、不同的运行环境、不同的操作系统等,会产生类型不一的电子文件格式,电子文件证据保留工作将遭遇困难。

为了维护电子文件的有效性、真实性和完整性,各国国家档案馆在接收电子文件时会从源头上限定接收的文件格式类型,选择一些利于长期保存的文件格式,例如英国公共档案馆公布的《电子文件管理、鉴定和保护指南》明确规定可以接收的文件格式主要有PostScript,TIFF,SGML、PDF等③。我国《电子文件归档与管理规范》(GB/T 18894-2002)规定文字型电子文件的通用格式为XML、RTF、TXT;扫描性电子文件的通用格式为JPEG,TIFF;视频、多媒体电子文件的通用格式为MPEG、AVI;音频电子文件的通用格式为WAV、MP3。

(二)电子文件长期保存格式的特征

刘家真认为电子文件长期保存格式应该具有下列特征:能在不同的环境下使用,通用而非专用,支持数据从专用格式的环境中移出,被业界和用户广泛支持,可扩展,可真实完整地被用户读出并理解,无论何时何地用户所查到的文件信息都与该文件最初情况完全一致,具有自身的可证明性和可评价性④。

我国档案行业标准《板式电子文件长期保存格式需求》(DA/T47-2009)明确规定了档案系统对电子文件长期保存格式的需求:支持真实性、格式透明、不绑定软硬件、格式自包含、格式自描述、固定显示、持续可解释、持续可用、可转换、易存储。

二、电子文件格式登记系统

电子文件格式登记系统是指能对数字文件格式的属性进行描述、识别、记录和保存,支持信息系统通过公开发行和规范的机制去发现所需要的文件格式信息,进而识别、转换、展示和保存相应文件的系统⑤。电子文件格式登记系统保存了各种常见的文件格式以及创建、运行和迁移这些文件格式的软件的相关技术信息。通俗地讲,电子文件格式登记系统就是给文件格式“上户口”。

(一)电子文件格式长期保存的必要性

1、文件格式生命周期缩短

虽然各国档案馆在接收电子文件时都严格规定了电子文件接收格式,但由于文件格式具有生命周期,信息技术发展速度越快,文件格式生命周期就越短。当前新技术的飞速发展使得一些文件格式在较短的时间内就遭到废弃或被取代,文件格式的生命周期越来越短。所以,即使是电子文件长期保存格式,我们也无法确保几十年或几百年后它是否还适合长期保存。当这些格式被废弃或被取代后,以这种格式保存的无数的电子文件就会面临无法读取的危险。

2、特殊文件格式受专利保护

在一些专门领域,会形成很多特殊的、专门的格式,一些特定的电子文件只能通过这种格式才能被解码并显示、读取,而这种格式又只能通过特殊的软硬件设备才能有效地运行。但由于这些格式为某单位私有或受专利的保护,因此未向社会公开。当这些电子文件向档案馆移交时,由于档案馆并没有支持此格式运行的软硬件设备,所以以这种特殊的专门格式保存的电子文件在档案馆中就成为“死档”。另外,当这种格式由于更新换代遭到废弃时,因为没有关于此格式的相关信息,所以当用户需要利用这份文件时却不能读取它,使其失去利用价值。

3、历史文件格式未及时转换

传统的档案鉴定原则没有涉及电子文件格式的鉴定,因此早期的一些电子文件在向档案馆移交时并没有进行格式的鉴定和转换,从而使得档案馆中保存了大量的以不利于长期保存的格式存在的电子文件。由于文件格式的更新换代和软硬件等设备的不断升级,以及对传统电子文件格式的忽略,一些特定格式的电子文件就同样面临成为“死档”的危险。

因此,针对这些问题,最有效的办法就是建立一个电子文件格式登记系统,把文件格式及与其相关的软件、技术等信息一并登记,以便电子文件格式及电子文件的长期保存和查询。

(二)电子文件格式登记系统的功能

1、防止格式过时带来的信息损失

电子文件格式登记系统能跟踪文件长期保存由于格式过时可能造成的潜在信息损失,当文件有可能出现过时的情况时,系统的查询和自动提醒系统能够帮助我们得到应当转换的格式,然后利用系统提供的转换工具和服务直接转换。

2、持久维护文件格式的描述信息

电子文件格式登记系统支持对文件格式的公共描述以及这些描述信息的持久维护,从而在被保存对象、保存技术与保存环境的不断变化中能识别、解析、迁移、转换和保存各种格式的数字资源⑥。

(三)电子文件格式登记系统的成功案例

1、PRONOM⑦

PRONOM是提供关于电子文件长期保存所必需的关于文件格式、软件产品和其他技术要素等方面的公正、权威信息的在线技术登记系统。它最初是英国国家档案馆为支持其自身的电子文件接收与长期保存而开发的,现在已经发展成为通过网络向所有人开放的资源库,它保存了软件产品信息与产品可读写的文件格式信息,包含格式的标式信息、环境信息、保存规划信息与其他技术参数,而且个人还可以通过在线方式提交新的文件格式到PRONOM。

PRONOM网站与英国国家档案馆网站的整体风格一致,简洁美观,而且使用非常方便简单,无需专门培训;PRONOM运用权限控制,采用用户名和密码限制特定人员进入管理系统,安全可靠;PRONOM的主系统和公共系统能够支持超过100名用户同时利用系统,性能强大;在检索方面,PRONOM支持七种检索方式:简单检索、格式名称/扩展名检索、PUID(PRONOM永久唯一标识符)检索、软件名称检索、组织名称(格式开发组织)检索、生命周期检索(即在某一个日期被支持的文件格式、软件名称)、迁移路径检索等。

2、MIME MTR⑧

MIME MTR(多用途网际邮件扩展协议媒体类型注册,Multipurpose Internet Mail Extensions Media Types Registry)是目前最多被使用的格式登记系统,由IANA(互联网数字分配机构Internet Assigned Numbers Authority)管理维护,提供关于Internet上传输文件的类型和格式的权威、标准的定义信息、编码信息、参数信息等。

MIME MTR主要登记关于MIME文件的属性信息,目前共有9种媒体类型,分别是应用文件、音频、示例、图像、信息、模型、多媒体类型文件、文本、视频。每个媒体类型还有子媒体类型。登记的格式属性包括MIME类型名称、MIME子类型名称、编码要求、必备参数、可选参数、发布说明、安全要求、联系人、互操作要求、所支持的应用等。

MIME允许在线登记,用户可以通过浏览的方式来查看文件类型和类型定义。如果用户要了解相应的格式,链接的格式信息可以被用来定义文本,获得查验和解读格式技术参数。

3、GDFR⑨

GDFR(全球数字格式登记系统,Global Digital Format Registry)在美国哈佛大学主持下建立,是为了提供持久的存储、发现、利用文件格式表征信息的分布式服务。它将文件格式解释成一种稳固的以位序列编码的信息模型,本质上是一种可交换的正式的知识表达,具体的内容流与属性可以通过一定的表示信息来说明。不管哪一种文件格式,都可通过某个格式分类体系注册于某个格式登记系统,用唯一的标识符来标记这三种文件格式。

GDFR建立了特有的格式对象数据模型,包括四类属性:特征属性、一般描述属性、操作属性、管理属性。每个格式的基本属性包括:标识符、别名、分类、关系、创建者、所有者、维护者、工具、状态、定义说明、签名、来源和注释等。

GDFR主要提供四类服务:管理服务,发现新格式和弃用格式,评审、发布新格式,修改、删除废弃格式;检索服务,依照检索请求提供特定格式的描述信息,向特定的存储库推送登记的格式信息;表示服务,确定并验证特定电子文件的格式;中介服务,转换格式,提取特定格式的电子文件中的元数据。

4、UDFR⑩

由于GDFR和PRONOM的格式登记不是由同一地区主导,具有一些局限性:PRONOM是英国国家档案馆的一个部门来承担的,所以协作相对容易,但是它的实施范围不够广;而GDFR是由哈佛大学领导,多个机构共同参加的项目,它的沟通不够充分,技术性也没有PRONOM好。这种情况下,国家IT和档案领域相关专家认识到建立一种全球统一的文件格式登记系统是有必要的。

UDFR(统一数字格式登记系统,Unified Digital Format Registry)由美国加州大学内容管理中心带头研发,加州数字图书馆提供资金支持。它融合了GDFR和PRONOM的优点,数据来源于MIME和PRONOM。2009年4月正式成立,2012年7月投入生产使用。UDFR是一个开源的、基于语义可用平台的系统,该系统是为了收集、长期管理和传播与人们利益相关的具有重要意义的文件格式属性。

UDFR登记的格式属性包括文件格式、字符编码、压缩算法、标识符、外部签名、内部签名、MIME类型、代理商、软件包、软件过程、知识产权报表、关系等。

三、电子文件格式登记系统的未来发展

数字档案馆在不断发展进步,而电子文件格式登记系统也必将面临新的挑战,在接受挑战的过程中,电子文件格式登记系統将会向着一个新的方向发展:第一,加强国际合作,从单一的或独立的格式登记系统发展成为分布式联合服务系统,如UDFR,这就把维护管理登记系统的重担和责任分摊到多个承担者身上;第二,从被动的格式登记系统发展为主动的监测系统,不断指引用户去主动、规范、及时地在线提交格式技术信息和格式变化信息;第三,从单一的公告版式系统发展到智能的格式识别系统,支持通过分析软件对格式进行自动标识、验证、属性描述和转换等功能;第四,与其他登记系统有机连接,支持对复杂信息环境下多层次和多样化对象的无缝识别、验证和转换。当实现以上这些功能时,电子文件格式登记系统将作为一个公共服务机制,为电子文件的长期保存提供有力的支撑。(作者单位:山东科技大学)

注解:

① 闫晓创.国外电子文件格式登记系统研究[J].浙江档案,2013(3):15-18

② 李泽锋.基于OAIS电子文件管理系统体系研究[M].上海:中国出版集团,2010:120-121

③ 鞠晓岚.英国电子文件向档案馆的移交[J].中国档案,2004(7):44-45

④ 劉家真.文件保存格式与PDF文档[J].档案学研究,2002(2):46-51

⑤ 梁娜,张晓琳.数字文件格式登记系统[J].图书情报工作,2005(11):80-84

⑥ 梁娜,张晓琳.数字文件格式登记系统[J].图书情报工作,2005(11):80-84

⑦ The National Archives.The technical registry PRONOM[EB/OL].[2013-12-22].http://www.nationalarchives.gov.uk/PRONOM/Default.aspx

⑧ INAN.MIME Media Types.[EB/OL].[2013-12-22].http://www.iana.org/assignments/media-types/media-types.xhtml

⑨ GDFR.[EB/OL].[2013-12-22].http://hul.harvard.edu/gdfr/documents.html

⑩ UDFR.[EB/OL].[2013-12-22].http://www.udfr.org/.

参考文献:

[1]闫晓创.国外电子文件格式登记系统研究[J].浙江档案,2013(3):15-18

[2]李泽锋.基于OAIS电子文件管理系统体系研究[M].上海:中国出版集团,2010:120-121

[3]鞠晓岚.英国电子文件向档案馆的移交[J].中国档案,2004(7):44-45

[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2):46-51

[6]梁娜,张晓琳.数字文件格式登记系统[J].图书情报工作,2005(11):80-84

[7]The National Archives.The technical registry PRONOM[EB/OL].[2013-12-22].http://www.nationalarchives.gov.uk/PRONOM/Default.aspx

[8]INAN.MIME Media Types.[EB/OL].[2013-12-22].http://www.iana.org/assignments/media-types/media-types.xhtml

[9]GDFR.[EB/OL].[2013-12-22].http://hul.harvard.edu/gdfr/documents.html

[10]UDFR.[EB/OL].[2013-12-22].http://www.udfr.org/

猜你喜欢

电子文件
图像电子文件的归档格式及其转换研究
电子文件检查归档移交备份存储机研究
浅谈电子文档与纸质文档在保护技术上的差异
档案管理中电子文件的存储探究
浅谈电子文件的全过程管理
浅谈交通运输部门档案管理中的信息化建设
国内外电子文件管理标准的对比研究
“新詹金逊主义”管窥
从詹金逊的鉴定观看电子文件的前端控制