APP下载

浅议地方志文献数字化技术规范建设

2015-04-11赵海良

黑龙江史志 2015年20期
关键词:志书要素数据库

赵海良

(浙江省人民政府地方志办公室 浙江 杭州 310012)

地方志缘起于何时,学术界一直争议颇多,各学者也是众说纷纭。《山海经》《周官》《史记》等各类古籍均被认为是方志之起源。刘纬毅所著《中国地方志》一书更是详细列举了多种关于方志起源的说法。不管方志起源于何时,有一点是众人公认的,就是中国地方志历史悠久,地方志文献卷帙浩繁、种类繁多、内容丰富。各类地方志文献不仅仅是记载某一时期某一地域的自然、社会、政治、经济、文化等方面情况或特定事项的书籍文献,更是地方历史文化的积淀。而如何合理利用地方志资源,充分发挥其“存史、资政、教化”的作用,是地方志工作者面临的难题。

现代信息技术的迅猛发展,改变了人们传统的通过纸质文献来获取信息、传播信息的方式。据调查,以互联网为代表的信息化手段,已成为人们获取信息的主要方式[1]。地方志文献的数字化建设也日益被重视,全国各地方志工作机构,都在建设自己的“文献数据库”、“省情数据库”,“自20世纪90年代以来,我国地方志网络建设在各地逐步开展起来。据有关方面统计,目前全国已建地情库(网)省级7个,市级63个,县级154个。在建地情库(网)省级4个,市级21个,县级54个。筹建地情库(网)省级2个,市级28个,县级42个”[2]。同时,随着新一轮修志工作的深入开展,信息化已成为重要的手段,以作者所在的浙江省为例,为《浙江通志》编纂工作专门开发了编纂信息系统,从资料收集一直到审稿均在网上完成,这些信息化的手段为地方志文献的数字化建设提供了基础。

一、地方志文献数字化技术规范现状

地方志文献资源的数字化,不是简单的将志书通过技术化手段放在计算机上进行浏览,其本质是对方志文献资源利用手段的深度开发,这需要全国方志工作者的共同努力,但目前各地方志工作机构的数字化建设都是“各自为战”、“单打独斗”,没有统一的标准。

(一)文献存储格式不统一

目前数字化后的地方志文献资源存储格式种类繁多,有常见的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等较少见的格式。这些不同格式的文件格式,往往都需要各自专门的阅读器才能进行浏览,相互之间难以兼容。即使同一种文件,也因编码风格的不同,导致无法兼容。例如txt格式的文件,既有用ANSI编码的,也有用Unicode、UTF-8编码的。不同的编码风格导致了即使看上去是同一种文件类型,也无法实现资源共享。

(二)文献数字化程度不统一

地方志文献种类繁多,时间跨度大,既有旧志古籍,又有通志、年鉴,既有繁体字,又有简体字、异体字。这导致各地对地方志文献的数字化程度不一样,有的在数字化的过程中,简单的将地方志文献数字化成全文格式,这样方便于做志书的全文检索,但无法有效展示志书的原貌,有些因为技术经费等原因,将部分难以数字化,或者数字化技术要求高的旧志古籍简单的做成图片格式,这样做虽然保留了志书的原貌,但无法做志书的全文检索。

(三)存储数据库不统一

各类完成数字化的地方志文献资源,需要一个专门的数据库来存储。而目前数据库软件种类繁多,有免费开源的数据库软件,例如MySQL,有需要付费的数据库软件,例如Oracle、MS SQL Server等,各地因为经费、数据库容量、技术难度等各方面情况不同,所采用的数据库软件也不尽相同。

(四)全文检索平台不统一

地方志文献资源数字化后,如何将其有效的利用起来是关键,志书的全文检索是重要的手段之一,其可以将存储于数据库中整本志书的任意内容快速准确的查找出来。但目前各地的全文检索平台也各自为用,有自己开发的、有购买第三方平台的,虽然各全文检索平台的技术实现大同小异,但底层数据的存储方式却截然不同,这为不同检索平台的数字资源共享带来了障碍。

以上几个地方志文献数字化关键技术规范的不统一,已然成为全国方志资源信息共享,自动化网络系统建立,文献资源广泛传播的重要阻碍。

二、地方志文献数字化技术规范建设思路

在地方志文献数字化技术规范的建设中,存储格式、数字化程度、数据库软件、全文检索平台等几个要素,看似毫无关系,其实是密切相联系的,一个要素技术规范的建设,涉及其他几个要素。这几个要素之间,即相互支持,又相互制约。

(一)数据存储格式规范的建设

地方志文献数字化后,该存储为何种格式,这是数字化规范建设的关键,上文提到过,在存储格式上,有常见的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等较少见的格式。每种格式都有其特点,各有优劣,对于数据存储格式的标准,笔者认为不能一刀切的说一定要采用某一种格式,而是应该根据所要数字化的地方志文献的类型来选择。

对于新编志书,年鉴等可以采用txt、doc等格式,因为此类文献基本都是当代所编,无需对文献外观原貌进行真实还原,只需确保文献内容准确无误即可,且当代所编志书基本都有电子版本,无需繁琐的数字化过程,即节约成本又节省时间。

对于文献原貌保存要求较高,不需要全文检索的旧志古籍,可以采用图片、pdf或者DjVu格式。但长久以来,图像类文件都有一个清晰度与文件大小之间的平衡关系,就是如果要保证文字和影像的清晰效果,就必须要用较高的分辨率来进行扫描,其所得文件往往十分巨大,需要占用很大的存储空间。想要减小文件的大小,就不得不降低分辨率,这也意味着图像质量和可辨性得不到保证。pdf又称便携文件格式,是由Adobe公司所开发的独特的跨平台文件格式,其主要特点是会忠实地再现原稿的每一个字符、颜色以及图象[3]。DjVu是由AT&T实验室自1996年起开发的一种图像压缩技术,已发展成为标准的图像文档格式之一,国际上大量应用实例已证明,DjVu可替代PDF成为网络传输扫描文档、数码照片、图像文件的主流技术[4]。相对于pdf格式,DjVu格式即保证了文件的清晰度,又可以减少文件的大小,例如一份60页A4大小公司报告用PDF格式来发布,其大小大概在4MB左右,而扫描之后以 DjVu格式保存,其文件大小则不超过 800K[5]。

对于文献原貌保存要求较高,同时又要进行全文检索的部分旧志古籍,可以采用双层pdf格式。所谓双层pdf是指将文献扫描成jpg、png等图像格式,然后加工输出为双层(图象层和文字层)PDF文件。双层PDF文件其图文位置上下一一相对应,既可以完整保留原始版面效果,又可以通过下层的文字信息支持选择、复制、全文检索等功能。双层pdf相较于单层图片形式的pdf文件,其主要优点是可以提供全文检索功能,但工序是最为繁琐的。

(二)数据库软件的规范建设

相对于数据存储格式的五花八门,数据库软件的选择性就比较单一,目前主流的数据库软件基本就 MySQL、Oracle、MS SQL Server三分天下,其中MySQL和Oracle同属于甲骨文公司,MSSQL Server属于微软公司。各有各的优点和缺点,且最重要的是,存储在这三种数据库中的数据,可以通过技术手段互相导入和导出。但实现这一功能的前提,就是文献数字化后存储在数据库中的字段需统一。所谓字段,可以理解为对文献的一种描述要素,例如作者为一个要素,出版社为一个要素,出版时间为一个要素,将所有要素集合在一起,就可以详细的描述一本文献。同时,当我们提供准确、详细的要素后,即可以快速的定位一本文献。北京大学数字图书馆研究所曾专门对中文元数据标准做过研究[6],参照其研究成果,笔者认为地方志文献的要素(字段)设计规范,可以如表1所示。

表1 地方志文献的要素(字段)设计规范

规范、统一的要素设计,是不同数据库数据互导的关键,以上设计规范,只是笔者本人粗略的设计,如何借鉴中文图书电子数据的要素设计规范,制定一套符合地方志文献特色的要素规范,需要全国方志工作者的共同努力。

(三)全文检索平台的规范建设

地方志文献数字化一个重要的目的是为了更加方便的“用志”,而志书的全文检索平台,是最便捷的手段。一套优秀的检索平台,不仅需要提供全库或分库、单本图书的全文检索功能,同时还需提供基于文章标题、文章内容、作者等的智能分项检索功能。同时由于方志文献的特点,需要满足大字符集支持。

目前全文检索平台种类很多,有地方志工作机构自己研发的,也有专门软件公司研发的,常见的有清华同方异构统一检索平台、CALIS统一检索平台、TRS资源整合门户、复鑫跨库检索平台、天宇异构资源统一检索平台等[7]。因为利益、技术整合难度等各方面原因,全文检索平台的标准是最难统一的。对于此项规范的建立,应遵循以下几个原则:

1.开放性

在全文检索平台的标准的制定过程中,应首先考虑采用已经成熟的、被用户广泛接受的开放标准。此举既可以有效避免无用的重复劳动,又能保证较高的技术水平。

2.实用性

地方志数字化后,最终还是需要给人“用”,全文检索平台是“用”的关键手段,系统在开发的时候,应注重实用性,易用性,在满足基本基础上,应根据地方志文献的自身特点,设置符合实际需求的功能。

3.前瞻性

科技的发展日新月异,同样,全文检索平台在制定的过程中,也应充分跟上时代的步伐,为以后新技术的支持提供预留的接口。

三、结束语

近些年来,图书馆界的文献数字化标准制定工作在一定程度上受到了重视。从2002年开始,由科技部委托国家科技图书文献中心协调中国科学院文献情报中心、中国科学技术信息研究所、国家图书馆、中国高等教育文献保障系统管理中心、北京大学图书馆、上海图书馆等21家单位联合进行了图书文献数字化的相关标准规范研究[8]。作为与地方志工作部门类似的档案部门,很早就注意到了档案文献数字化标准建设的重要性,相继出台了《电子文件归档与管理规范》《纸质档案数字化技术规范》《缩微胶片档案数字化技术规范》等规范性的文件。但目前在全国的方志系统内尚未形成一个统一的强制性文献数据化的标准,一些信息化建设走在前列的省份已经建设成了规模庞大的文献数据库,形成了自己的一套数据库标准。国务院办公厅于2007年1月发布了《关于进一步加强古籍保护工作的意见》,文件明确指出:“进一步加强古籍整理、出版和研究利用、制订古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库”,对全国地方志志工作机构而言,建立一套全国性的地方志文献资源数字化标准,已经是迫在眉睫的事情。

[1]《中国互联网络发展统计报告》2014年7月.

[2]《中国新编地方志二十多年辉煌成就》,《中国地方志》.2006年第6期.

[3]百度百科,http://baike.baidu.com/view/15963.htm?fr=aladdin.

[4]百度百科,http://baike.baidu.com/view/69557.htm?fr=aladdin.

[5]梁民,王北.《DJVU格式与PDF格式的比较》,《电脑知识与技术》.2009年第1期.

[6]肖珑,陈凌等.《中文元数据标准框架及其应用》,《大学图书馆学报》.2001年第5期.

[7]胡娟.《数据库统一检索平台的功能比较》,《现代情报》.2005年第4期.

[8]周琳结.《我国古籍书目数据库建设标准规范探讨》,《图书馆建设》.2010年第2期.

猜你喜欢

志书要素数据库
自治区地方志办公室召开特色志书编纂专题会议
试论地方志书质量与市场的关系
情系志书藏古今
志书图片的放置原则
数据库
数据库
数据库
数据库
2015年8月债券发行要素一览表
2015年6月债券发行要素一览表