APP下载

中文古籍数据库建设现状与使用推广

2012-04-12河南师范大学图书馆白新勤

河南科技 2012年7期
关键词:典藏书目古籍

河南师范大学 图书馆 白新勤

中文古籍数据库建设现状与使用推广

河南师范大学 图书馆 白新勤

中华浩瀚的古籍文献历时三千多年,其历史之悠久,数量之繁多,内容之丰富,世所罕见。在这些珍贵的典籍中,蕴含着中华民族特有的精神价值、思维方式和创造能力,它们既是中华民族文化传承的见证,也是人类文明的瑰宝。如今,对中文古籍文献进行开发利用,充分汲取前人的智慧,能够促进中国特色社会主义建设的发展,具有重要的历史价值、文化价值和现实意义。

随着现代科学技术的进步,中文古籍文献资源依托计算机信息技术平台实现了数字化生存,为中文古籍文献的保护、开发、利用提供了新的方式和途径。我国从20世纪80年代中期开始尝试古籍文献数字化的研究及实践工作,目前已建成一批具有一定规模、被多数图书馆采购利用的中文古籍数据库,如《中国基本古籍库》和《瀚堂典藏》等。本文,笔者从中文古籍文献收录、检索利用方面对这些中文古籍数据库进行探讨,期望能助图书馆的中文古籍数据库采购和读者的使用以一臂之力,并对“古籍数据库进高校”工程提出一己之见。

一、中文古籍数据库的基本特征

为了在计算机环境下较好地实现利用功能,中文古籍数据库需要具备一些基本特征。首先,应该实现文本字符的数字化。即汉字是以编码而不是以图形的方式储存在计算机中。其次,具有基于超链接设计的浏览阅读环境。应该包括正文相关内容之间的链接、正文与注释之间的链接、不同注释之间的链接、正文与相关知识和资料之间的链接、原文与在线词典的链接、典籍内容与相关网站的链接等,它是中文古籍数据库的优势体现。第三,具有强大的检索功能。主要包括关键词(主题词)检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索等。第四,具有研究支持功能。即能够提供有关中文古籍内容本身科学、准确的统计与计量信息,提供与中文古籍内容相关的参考资料、辅助工具,这些信息、资料或工具是古籍内容的增值或补充。因此,中文古籍数据库不是简单地对中文古籍文献的数字化,而是对中文古籍文献的“传承、保真”,同时又是经过深层次整理所形成的能够方便使用和进一步开发利用的数据库产品。

二、《中国基本古籍库》和《瀚堂典藏》的基本情况

1.《中国基本古籍库》。《中国基本古籍库》先后被列为北京大学重点科研项目、全国高等院校古籍整理研究工作委员会重点项目和国家重点电子出版物十五规划项目。它是由北京大学教授刘俊文任总策划、总编纂、总监制,北京爱如生数字化技术研究中心开发制作,于2006年10月完成的大型中文古籍数据库。其收录的是先秦至民国历代名著、各学科基本文献、有拾遗补阙意义的特殊著作等,涵盖这一历史阶段的全部中国历史与文化,内容量相当于3部《四库全书》。其所用版本均经专家严格筛选,符合“完本、现存最早之本或晚出精刻精钞精校本、未经删削窜改之本”3条标准。总计收录典籍1万种,版本12 500个、20万卷,全文17亿字。根据中国古籍多版本、多尽寸、多样式、多字体的复杂情况,采用完全支持Unicode国际编码的数据格式,对典籍的全文进行数字化处理和标准排版,达成尽寸、版式、字体统一,并采用大容量的复排页面显示。另外,通过其独有的工具包,用户可以使用典籍提要、作者通检、版本速查、常用字典4种工具,为研读古籍提供了必要的帮助,排除了古籍研究的疑难和障碍。其中,版本速查可查询1万种典籍的现存版本及藏所;常用字典可查询1万个常用字的发音和释义。通过古籍版本信息的查询与利用,用户不但可以对不同版本进行比较,还可以实现各版本古籍馆藏地的查询。

《中国基本古籍库》的系统架构为客户端服务器模式,即Client/Server方式,服务器和客户端为微软系列服务器和客户机操作系统,客户端需要安装《中国基本古籍库》专用软件。因此,该数据库美中不足的是读者在初次使用时必须安装客户端专用软件,并且每次使用都必须从客户端软件进入,即使有相关使用说明,也不能使人们很快地掌握使用方法。另外,《中国基本古籍库》是一个已经完全建成的数据库,其数据内容不会再有更新,并且对于图书馆来说,购买方式是买断形式,价格较昂贵。

2.《瀚堂典藏》。《瀚堂典藏》是北京瀚堂典藏科技有限公司推出的集成性巨型中文古籍数据库,是古籍数字化制作中涌现出的后起之秀。该数据库系采用国际Unicode标准7万汉字之超大字符集,以图文对照的数字图书馆高新技术形式和档案夹分类的书目树模式,完整保存典籍文献,并可以方便查询、研究、阅读和推广。《瀚堂典藏》以小学工具类数据和出土文献类数据为核心,逐步纳入大量传世文献,并以此为基础建设各种专题文献库。其种类涵盖历代字书类书的小学工具、类书集成库,以及出土文献、敦煌文献、古典戏曲、古本小说、佛教和道教文献以及中医药文献库等。目前,古籍总量已达万余种,并在持续增加中。该数据库采用Unicode扩展技术,基本解决了生僻汉字在计算机平台上无法录入、显示、编辑的难题,使计算机可以处理的汉字种类的总量达到7万字。它是目前中国内地唯一在微软平台上支持超大字符集、进行自然语言全文检索、实现编辑功能的中文古籍文献数据库,差错率能够控制在万分之一以内。

《瀚堂典藏》数据库的系统架构为服务器/浏览器模式,即B/ S方式,基于大字符集下的XML数据格式,无需下载任何客户端,即可在通用浏览器上进行阅读和编辑,全部实现了文本化对照阅读。对于图书馆购买来说,方式比较灵活,既可以包库使用,也可以部分买断使用(小学工具除外),而且系统的数据在不断地更新,古籍资源也是在逐步增加的。不过,《瀚堂典藏》的研读功能欠缺,不具备研读所需的辅助工具。

三、《中国基本古籍库》和《瀚堂典藏》的检索功能分析

1.《中国基本古籍库》。《中国基本古籍库》检索技术先进、设计实用,不仅有分类检索、条目检索、全文检索、高级检索4条检索路径,而且还有模糊检索、关联检索等多种检索方法,以及平均0.2秒的神奇速度,可以进行全方位快速海量检索。

(1)分类检索。分类检索可以通过库、类、目的树型结构进行定向检索。

(2)条目检索。《中国基本古籍库》分为哲科库、史地库、艺文库、综合库以及20个大类和100多个细目,用户可以按具体条目来查询。条目检索方法既可以提供书名、时代、作者、版本、篇目检索,也可以在几个检索字段中同时检索。

(3)全文检索。全文检索通过输入任意字、词或字符串进行爬梳检索,可用任意字、词或字符串对1万种书中所有的相关信息进行检索。

(4)高级检索。高级检索是在检索结果中进行二次检索,或组合字词进行逻辑检索,或综合选项进行关联检索,它可排除大量无用信息,达到精确检索。

在检索结果的使用方面,查询后可直接得知相关检索结果数,并可直接链接到文中的相关处,也可以一页一页编辑打印。但是,其浏览功能不提供图文对照,所检索到的内容需要从所在卷的首页开始翻找。其具有版式设定、字体转换、背景颜色、版本对照、放缩控制、标点批注、阅读记忆、分类搜集、下载编辑和原文打印共10个研读功能,可以轻松实现从检索、阅读到校勘、标点、注释、编辑、下载和打印的系列操作,改变了传统中文古籍文献使用研读的手工方式。

2.《瀚堂典藏》。《瀚堂典藏》检索途径分为使用“目录树”和使用“检索范围”。

(1)使用“目录树”检索。《瀚堂典藏》数据库系统主页面左侧的“目录树”有上万片“树叶”,11 000种典籍与近代报刊可自由勾选组合,灵活跨库任意检索、图文对照浏览,点击节点内容可以查看单一书目简介。它可以实现浏览分库下的子库及书目介绍,即点击“书目树”右边的“+”可以展开分库,浏览该分库下的子库,再点选书库或书目名称,可以在主页面查看相关介绍;选择特定的书库或书目进行搜索,通过点击书库文件夹或书目图标右侧的复选框,勾选要搜索的书库或书目,在搜索框中输入关键字进行搜索,并可以在13个分库中任意勾选书目,实现横跨分库的内容搜索。

(2)使用“检索范围”检索。在条目检索框中输入检索词,可以选择出处、标题、书目、全文进行检索。其中,“出处”是指书目索引中的一个域,通常包含了该书目在“目录树”中的位置和该书目所含章节目录等信息。因此,在“出处”中搜索,可应用于查找书库名称、书目名称、章节标题、字典部首等搜索需求。“标题”通常包含了字书字头、辞书词条、诗歌标题、出土文献编号等信息。利用书目搜索,不但可得到所有书名与搜索关键字相关的书目,还可查找到一本书在目录树中的位置。在“全文”中搜索包含了以上出处、标题和书目3个域和“内容”部分,即在最大范围内搜索。同时,还可以对检索结果进行二次检索,检索方式分为绝对精准、精准与模糊检索。仅单一字书类数据库,有笔画数法、拼音法、组字法、拆字法等7种以上的检索方法,并且能够单独或组合使用。该数据库还可以进行长字符串的模糊检索,该检索方式可以进行自然语言切分,有较高智能性,同时系统支持二次检索、人工分词检索。

四、对实施“古籍数据库进高校”工程的思考

随着一批中文古籍数据库的建成,其建设中存在的技术瓶颈问题,如光学字符识别(OCR)以及古籍文献众多的繁体字、异体字、通假字、避讳字的计算机编码问题等已经基本解决。但中文古籍数字化涉及版本、断句、校对、造字等特殊问题,要将卷帙浩繁、门类众多而分布于各处的古籍文献进行全文数字化,建立中文古籍数据库群,仍是一项长期的系统工程,需要许多单位及诸多专家学者联手合作才能完成。

但是,就目前中文古籍数据库建设情况来看,进行中文古籍文献数字化的方式方法多种多样,其中有公司、有以科研项目形式进行研制建设的学校、研究机构,也有两者的联合;有的数字化古籍文献数量很多,有的只有很少一部分。由于进行大规模的古籍文献数字化投入较大,所以其推向市场的价格一般都很高,例如《中国基本古籍库》价格在百万元之上,对于高校图书馆来说采购存在一定的困难。那么,如何解决中文古籍数据库进高校的问题呢?《中华再造善本》进校园的事例值得借鉴。为了继承和传播中华民族优秀传统文化,促进和扩大古籍善本的学术研究,基于我国现存的珍善本古籍亟待抢救、保护和合理开发利用,2002年5月,国家财政部、文化部联合实施了《中华再造善本》国家重点文化一期工程,聘请文史专家挑选最珍稀的中文古籍版本,影印复制出版了具有中国传统古籍特色的《中华再造善本》。这套再造善本依托具有珍贵馆藏的国家图书馆,具有整理影印中文古籍等各种稀见历史文献专业出版特色的国家图书馆出版社出版发行。其中,从2002年起实施至2007年完成的工程一期出版的《唐宋编》和《金元编》,共758种1 394函8 990册,二期明清时代的选目也已初步完成选目556种,两期总为1 300余种,规模十分可观。工程一期国家共投入2亿元人民币,书籍每套总售价330多万元。为增进大学生对中华民族传统文化的认识和了解,推动中华文明的传承和发展,国家教育部实施了《中华再造善本》进校园计划,以1亿元人民币的总价、每套100万元的价格订购了原售价330多万元的一期《中华再造善本》100套,为全国100所普通高校各配备一套《中华再造善本》。笔者所在学校图书馆是获赠单位之一,这项活动被誉为全校师生的福祉。参照《中华再造善本》出版发行以及其进院校的成功模式,对于中文古籍数据库进高校来说,也可以采用国家投资,整合目前的各类数据库,把它们综合到一个平台上,并由政府部门统一采购,为符合一定条件的高校进行配备,必将对中华民族文化的传承和社会主义先进文化的建设发挥巨大作用。

猜你喜欢

典藏书目古籍
推荐书目《初春之城》
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
典藏
往来·典藏
我是古籍修复师
典藏
典藏阁
本刊邮购书目