APP下载

古籍数字化三论

2020-03-23王建国

卷宗 2020年2期
关键词:数字化技术大数据

摘 要:中国大陆近30年的古籍数字化积累了大量的经验,港台及国外古籍数字化的实践经验亦可作为当前古籍数字化的重要参考。古籍数字化运作的几个基本问题应重点解决,其最终成果的管理、效用分析是这一重要工程的组成部分。展望未来,数字化古籍在大数据时代,需要与时俱进,明确定位、创新发展。

关键词:古籍数字化;数字化技术;大数据

古籍数字化是一项地域范围宽、时间跨度大、涉及行业广的工程,近30余年的理论研究和实践探索,积累了宝贵的经验,也从中发现了不少问题,进一步做好古籍保护工作,推进数字化的发展,需要将古籍数字化视为一项系统性工程,需要将历史经验教训、当前社会发展需求以及日新月异的科技的有机结合。

1 古籍数字化基础论

1.1 20世纪80、90年代以来的理论探索、实践摸索

20世纪90年代末,史睿在《论中国古籍数字化与人文学术研究》中提出,古籍数字化理论问题比技术问题更为重要。此后,更多的研究者关注数字化理论问题。这其中包括概念问题、目标选取问题、管理问题、运作问题等,而尤以概念问题为重。

古籍数字化概念的探索始于21世纪初。2000年,李运富首次在《谈古籍电子版的保真原则和整理原则》中提出了古籍数字化概念。此后,一些专家学者在此基础上不断补充、修正,如潘德利、彭江岸、乔红霞、刘琳、毛建军等专家学者,对古籍数字化概念进行了深入探讨,尤其是2009年毛建军的《古籍数字化的理论与实践》一书的出版,标志着古籍数字化理论雏形的形成。[1]

综合各家研究,基本认为古籍数字化是“从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作”。[2]随着大量研究文章的出现,甚至专著成果的推出,概念问题愈发明晰,成熟。

大陆地区古籍数字化有多年的实践经验。较有代表性的是上海图书馆古籍全文数字化建设。1996年,上海图书馆与长江计算机集团合作,采用引进与开发并举的模式,建立了“古籍影像光盘制作检索系统”,将古籍善本以图像形式扫描,全文录入计算机,有些古籍藏书单位,进行了古籍书目数据库、索引数据库的尝试建设,如山东、南京、浙江等省图书馆。

古籍数字化是传统古籍整理的数字技术延伸,它具有古籍整理学和数字技术相结合的跨学科特征,理论经验结合社会现实的需要,使之必将成为未来古籍整理的主流和发展方向。[3]

1.2 日韩、欧美的古籍数字化

1)日韩中文古籍数字化,日本收藏着大量的中文古籍,其古籍数字化起步早,数量可观。代表性的有国立国会图书馆的书目数据库,收录清代以来中文文献约25万种;东京大学图书馆的“珍贵汉籍全文数据库”;东洋文化研究所“汉籍善本全文影像资料库”;京都大学人文科学研究所全国汉籍协议会的“全国中文古籍书目数据库”等。

韩国收藏中文古籍,也较为丰富,其数字化工作注重长远规划、系统开发。国立汉城大学图书馆“奎章阁古籍扫描全文阅览系统”,是其数字图书馆建设的重要项目,按四部法对古籍进行数字化系统建设。

2)欧美国家的中文古籍数字化,1978年,美国人运用计算机编制了《朱熹大学章句索引》、《王阳明传习录索引》等,成为中文古籍数字化的开端。至1998年,开始实施“国家数字构建储存计划”,由此迈向数字化时代。

至2010年美国哈佛大学哈佛学院图书馆与中国国家图书馆启动“哈佛大学哈佛燕京图书馆藏中文善本特藏资源库”网站,资源库为中国国家图书馆在国际合作史上规模最大且历时最长的文献数字化项目。该数据库资源可按照书名、著者、出版信息、分类等多维度进行检索和分类浏览,书目信息为中英文对照,提供全部书影的阅览。随着数字化工作的持续展开,资源库将不断得到更新.

1.3 21世纪初的中国大陆古籍普查工程

全国古籍普查是摸清全国古籍存藏状况,建立古籍总帐日,开展古籍保护的基础工作,在“全国古籍普查登记平台”上建立全国古籍普查基本数据库,由地方单位编寨出版馆藏古籍登记目录,形成《全国古籍普查登记日录》,完成普查登记后,普查成果形成《中华古籍总目》分省卷,国家古籍保护中心在些基础上统编出版《中华古籍总目》。

2007年初,全国古籍保护工作会议召开后,拉开了古籍普查工作的序幕。此次普查,是近百年来对存世古籍的全面清点,不仅包括单位藏书,而且涵盖了私人藏书机构,同时得到国家的政策和资金支持。通过全国古籍普查登记,建立国家珍贵古籍名录及“全国古籍重点保护单位”,发现了不少古籍新品种或新版本。截至2019年11月,全国已有24省完成古籍普查登记工作,全国古籍普查完成总量260余万部另1.8万函,2315家收藏单位完成古籍普查登记工作;“全国古籍普查登记基本数据库”累计发布217家单位古籍普查数据77万条7,44万册。

基础工作至关重要,过往的经验教训都是宝贵的财富。古籍普查对于摸清家底、进一步保护文化遗产、深入研究传统文化,具有不可估量的意义。然而,古籍普查过程中的种种问题,尚需规范职业秩序、完善普查制度、明晰权责利,确保古籍资产的安全和普查的成效。

2 古籍数字化运作论

2.1 古籍数字化学科建设、标准体系

1)古籍数字化学科体系。数字化技术引入古籍整理领域,是个必然的趋势,但正是在实践中发现了许多问题,迫切地需要深化古籍数字化研究,需要建立相应的学科体系。

随着古籍数字化技术的成熟,其理论体系相对愈显薄弱。葛怀东认为,“古籍數字化不能只着眼于数字技术,也不仅仅是市场运作,它更加深刻的内涵在于数字技术所承载的内容,这需要通过学科建设这一途径来完善相关理论体系”,他撰文对古籍数字化的学科性质、归属和研究对象进行了探讨。[4]

2)标准规范体系。当前,古籍数字化缺乏国家专门机构的宏观调控和管理,各出版单位各自为政,在数字化版本、分类、字库、检索、影像等诸多方面缺乏统一规划,存在技术参数不统一、古籍资源共享困难、出版质量难以保证等一系列问题。

近30年的古籍数字化实践,已经形成百余种古籍数据库,但开发理念五花八门,质量上参差不齐,标准上各自为政。譬如作为普查、数字化的基础工作之一,古籍数字化的著录规则目前仍存在问题,20世纪80年代颁布、90年代重新修订的《中国文献编目规则·古籍著录规则》,在题名、著者、卷册、文献形态等方面提出了规范,但并不完善,细节还不到位。因而相关的古籍数字化产品质量良莠不齐,导致数字古籍的权威性、准确性有所欠缺,直接影响了古籍应用的学术效果。

古籍数字化面临如何选择和应用标准规范的问题,文献单位应与数据厂商加强交流、合作,关注国际数字化标准建设的进展,在国家宏观指导下,加快推进数字化资源建设的标准进程。

2.2 古籍数字化技术

1)数字化模型。李玉海、宋艳辉提出的古籍数字化模型,从数据描述、传输、应用三个层次构建了古籍数字化的过程,[5]这一模型从古籍文献的特殊性出发,结合行业规范,运用现有的技术,基本能解决古籍数字化过程中出现的问题,有一定的借签意义。

2)数字化技术手段。汉字字符集编码,汉字的数量约有十万左右,常用者三五千,余者为生僻字、避讳字、异体字等。古藉数字化字符编码,通用的有GKB国家规范,总码超过150万,为古籍整理提供了统一的信息平台。其次是ISO/IEC信息技术——通用多八位编码学符集,与Unicode在字符编码上保持一致,字符位置、名字相同,且同步更新。第三个为Unicode,它是一种在计算机上使用的字符编码,能够满足跨语言、跨平台进行文体转换、处理的要求。

检索功能尚需深度开发。目前的古籍数字化成果,尤其是全文检索功能单一,只能固定检索海量数据,却无法智能检索和生成新数据。从单一检索向多元检索、定向检索向关联检索、静态检索向动态检索的转变是古籍数字化需要努力的一个方向。检准率的提高,也有很大的空间。

存储格式繁多。数字化古籍常见的文件格式,有txt、doc、hind等格式,也有exe、pdf、ebk、peb、pdg、nlc等格式,此外还有位图形式、多媒体形式的数字化古籍。众多的存储格式,形同散沙,不利于古籍数字化规模化运作,也不利于有效开发利用古籍。故而,作为古籍普查和保护的发起人,国家吉籍保护中心有必要联合各藏书单位、各出版单位及相关企业共谋发展大计,规范行业标准。

2.3 古籍数字化开发模式:国家引导,合作开发

1)国家引导、自主开发。早期阶段,大陆书籍数字化处于缺乏宏观管理和调控的状态,各单位自行选题,独立运作,阻碍了古籍数字化的进展。至2007年,国务院办公厅指出“制订古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库”。2008年,全国古籍保护工作会议上提出“要制定古籍数字化标准,加快古籍数字化工作,逐步为公众提供古籍全文数字化阅莫服务”。21世纪初,十一五文化发展纲要提出了8项数字出版工程,古籍数字化乃其中之一,由此打破了古籍数字化各自为政、重复建设的混乱局面。

2015年中国古籍保护协会成立,虽名为民间组织,但依托政府,沟通社会,加强各行各业交流与合作,必将进一步推进古籍保护事业的发展。

2)合作开发。国内、国际合作开发中文古籍数字化资源,利用中国丰富的古籍资源优势,利用国外资金和技术支持,从而实现优势互补,共同研发。

3 古籍数字化成果论

3.1 古籍数字化成果管理

1)成果形式。数字化古籍,从应用服务层面看,按媒介可分为两大类:光盘版和网络版;按数字化对象,基本上亦可分为两大类;书目数字库、全文数字库。书目数据库,具有较高的查全、查准率,便于情报检索。全文库包含原文信息,检索彻底、数据封闭,备有知识库的全文库更可推理并理想式检索。

2)网络化数字化古籍,是未来古籍数字化成果管理、研发的发展方向。目前,各收藏单位的书目数据库建设进度不一,但均为古籍数字化的基础性工作。随着网络移动终端的井喷式发展,网络技术的日新月异,空间距离缩小为零,为古籍数字化成果的网络化,提供了极大的推动力。

古籍数字化可以尝试区域合作,建立地区联合数据库,条件时机成熟建立全国性数据库,从而丰富古籍文献资源,扩大使用范围。

3.2 古籍数字化成本效益分析

古籍文献受众面较窄,缘于其本身的特性;繁体字和文言文让大部人望而生畏,仅古籍相關研究人员及古籍爱好者使用,数字化古籍以图书馆、科研院所等小众对象为主,商业价值小、利益空间受限。同时,古籍数字化的前期投入巨大。古籍数字化难度较大,其文字、图像不易识别,且需要释读、校勘、注解方可普及使用。

建立古籍数字化的成本效益分析机制,成为深化古籍数字化工作的重要手段。不计成本的数字化,尤其是公益性古籍数字化,必将遭到淘汰;而不分析效益的吉籍数字化,也无法反馈其质量,无法实现其初衷。对于公益性古籍数字化工程、项目,适合采用第三方评估方案,全面衡量其总投入、其社会效益和经济价值,建立并完善相应的衡量指标体系、评估制度。

3.3 古籍数字化成果在大数据时代的革新

信息技术进入新的发展高峰閉,云计算、移动互联、物联网、社交网络的涌现和不断成熟,一切来的这么突然,却又让信息化生态环境、人类经济和社会组织与运作模式悄然发生着变化。尤其是云计算,这是新型的计算模式和基础架构管理方法,对商业环境和产业链而言,云计算意味着新的商业机会和商业模式。

21世纪第二个十年,云计算向“大数据”趋势发展。数字化古籍首先数量上规模大,数十亿字的大型数据库,汇总更丰富的信息,从而资源更多、更全面、更准确;其次,由于更多技术层面的支持可以实现功能更强大,古籍的自动识别、标点、检索、排版、分析,各种数据的输入和转换,适应专门机构的特殊需求和跨学科研究的高级需求。

基于“云计算”、“大数据”背景下的衍生产品开发,有专家提出开发数字化古籍的“衍生品”:以古籍的数字文本、图片、视频等为基础进行的再开发,由此制成的新产品。其优势在于,扩大了数字化古籍的受众面,因其可以面向特定阅读人群,甚至是大众读者;其次,这种方式摆脱了古籍资料或稀有文献获利的单一模式,利用个性化服务提供附加业务、增值服务,从而拓展赢利空间,提高商业价值。

对文献资源的需求趋势在云端,未来十年将有大量数字内容落在云缩,建立精于支持多设备、安全且低成本的云计算技术的古籍数字化,有计划、分阶段的整合为“大数据”成“海量数据库”,提升其内在价值,从更深层次挖掘数字化成果,或将成为古籍数字化新的发展方向。

参考文献

[1]周迪,宋登汉.中文古籍数字化开发研究综述[J].图书情报知识,2010(6):45-46.

[2][3]毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007,(4):82-83.

[4]葛怀东.古籍数字化的学科建设[J].中国科技信息,2012,(1):156-157.

[5]李玉海,宋艳辉.面向数字图书馆的古籍数字化模型构建[J].图书馆学研究,2008.

作者简介

王建国(1977-),男,山东郯城人,中国社会科学院图书馆,馆员,研究方向:历史文献学,方志学,图书史等。

猜你喜欢

数字化技术大数据
广播电视发射机数字化改造
数字化技术在房地产档案管理中的运用
大数据环境下基于移动客户端的传统媒体转型思路