数字化背景下古籍整理展望

2016-02-13张文玥西南大学汉语言文献研究所重庆400715

唐山师范学院学报 2016年1期

张文玥（西南大学汉语言文献研究所，重庆 400715）

数字化背景下古籍整理展望

张文玥
（西南大学汉语言文献研究所，重庆 400715）

摘要：目前中文古籍整理的方式方法逐步走向数字化。在此背景下，展望古籍数字化在理论和实践层面的发展方向，分析其发展过程中需要面对的变革迅速、资源整合、版权、参与主体等问题，以期古籍数字化的理论建设得到进一步完善，数据库建设在职能化、智能化上能够进一步深入。

关键词：数字化；中文古籍；古籍整理；资源整合

一、古籍数字化

古籍是一个民族历史和思想的载体[1]。对它们的利用和保护，是古籍整理工作的重心所在。如今，用数字化手段进行古籍整理已经不新鲜。早在1988年，曹书杰先生对采用新技术整理古籍的新方法进行了初步分析[2]。1997年刘炜先生则正式使用了“古籍数字化”这一术语[3]。“古籍数字化”，是从利用和保护古籍的目的出发，采用计算机技术，将常见的语言文字或图形符号转化成能被计算机识别的数字符号，从而支撑古籍文献书目数据库和古文全文数据库，用以揭示古籍文献信息资源的一项系统性工作[4]。可以说这是古籍整理范畴的一个问题。

计算机硬件和互联网技术的发展是重要的技术变革，将此种新方法新手段应用到中文古籍的研究中，无疑能够推动学术的进步。而数字化在现阶段已经不仅作为古籍整理的一种手段，在一定程度上也成为古籍整理的大背景。

二、古籍数据库建设

（一）职能化

楼宇烈先生从使用者的身份出发将中文古籍数据库分为版本库，专题库和普及库三种，分别对应着为了保护古籍，为专业研究者提供古籍数据和为一般读者提供最基本额古籍读本这三种职能[5]。这三种数据库并不是平行的概念，而是涵盖了不同年代不同质量，不同主题不同载体，不同用途不同目标人群的多个层次。为此，有必要按照这三个大类的方向进行具体的细致的建设，做好职能的区分，塑造多层次的立体化中文古籍数据库网络。

1. 版本库

2. 专题库

主要是为了向研究者提供研究资料，这也是我们建设数据库的重要意义所在。除了按照主题分类（如中医古籍、农业古籍、宗教经籍）和体裁分类（如地方志、家谱）等进行建设，笔者认为有两个专题尤需重视：一是出土文献数据库。出土文献相对于传世文献，“更为真实地保留着当时的面貌，具有极强的文献真实性（authenticity）”[7]，具有重大的文化价值。此外，它们更含有巨大的文物价值，所以，建立专门的出土文献数据库，不但有利于传承文化信息，开放研究资料，更有利于它们的保护。而且，出土文献的时间跨度极大，载体多样，从商代甲骨，到周代青铜器，到战国秦汉简帛，到历代碑刻，无疑值得细加分化和详加考究。仅以简帛数据库而言，就将是一个巨大而艰难的工程，已有学者进行过相关讨论，如张显成的设想之一便是建设以图版和释文为主要组成部分的电子文字数据库[7]；二是少数民族古文献数据库。中国是一个多民族国家，虽然汉族占主体地位，但中华文化的辉煌离不开不同民族的碰撞与交融。而我们对汉族经典文献的重视虽然必要，但也绝不可忽视少数民族古籍文献，尤其在如今汉族趋于西化、少数民族趋于汉化的情况下，少数民族文化和文献的保护更是尤为紧迫。以云南纳西族为例，纳西东巴文作为世界上唯一还活着的象形字，其研究意义不言而喻，但纳西族东巴文的载体——各种经书，有相当一部分尚未得到彻底的整理，在现今的整理过程中，我们应紧跟潮流，及时进行数字化，建立纳西东巴文（经书）数据库。最早对纳西东巴文字进行计算器处理的当属云南啄木鸟计算机工作室杨晓辉开发的“东巴象形文字计算器处理系统”软件。虽说纳西东巴文的数字化已有一定进展，但继续大胆设想、踏实建设仍是我们要不懈努力的。

3. 普及库

主要是面向普通读者，以普及古典知识，传承中华文化。所以，我们需要注意以下几个方面：一是降低阅读障碍。版本库和专题库在整理未覆盖到位的情况下可以暂缓断句标点和文字的通俗化（古体字变今体，异体字变通行字等）等工作，毕竟它们的使用者多为具有一定古文阅读修养的研究人员，但普及库却一定要进行，甚至对文言文内容进行今译。二是形式更加多样。在电子计算器普及、移动终端泛滥的当代，开发相应阅读软件，让古籍数据以第三方应用软件（Application）等形式面向手机、平板计算机开放，将极其有利于传统文化的普及。除此，还可扩展古籍文献的有声化工作，如锺华先生，长期致力于“中国古典文学全文朗读”，已经完成了《汉书》《三国志》《封神演义》《儒林外史》等多部古典文献的朗读工作，并开放在网络上无偿提供下载，目前可下载的有1 000多小时[8]。三是数据分析。中文古籍本身是一个巨大的数据信息库，同时，利用各种电子设备浏览古籍数据的阅读者们，利用古籍书目数据库和全文数据库进行检索的用户们，他们在操作过程中留下的数据信息也十分庞大，在一定权限内，收集这些动态数据，并用云计算（Cloud Computing）对这些数据进行分析，以向潜在读者推荐相关的文献资料，既有利于达到普及的初衷，又可减少读者的时间成本提高其学习效率[9]；四是从学术到公益和从公益到商业。中文古籍的数字化，首先受益的是学术研究，在此基础上强化普及库的建设，进行文化的宣传，则很大程度上是一项公益性事业，有赖于国家的支持和志愿者的奉献。此外，我们还要致力于挖掘中文古籍数据库的经济价值，推进商业性运作，树立市场意识、销售意识、品牌意识。这也是促进中文古籍数据化整理可持续发展的途径之一。

（二）智能化

人工智能（Artificial intelligence）是计算机应用的一个重要分支，通过使计算机具有智能化的功能，来达到模拟人类的某些智能行为的目的[9]。人工智能使计算器模拟人类思维，延伸人脑功能，在多种学科领域都有广阔的发展前景。具体到中文古籍数字整理的智能化，也可以大大节省人力资源，提高工作的效率和准确性。它可以分为自动化处理和自动化分析两大方面。

1. 文献的自动化处理

一是字体转换。包括繁简转换、古今字转换、异体字转换、不同书体的转换等，它的实现前提之一是字库的健全，这也是一个庞大的工作，需要文字学理论和字形收集整理工作的支撑，而且，鉴于中文字形、词义的复杂性，自动化处理的错误非常难免，所以一定的检查工作也是需要的。二是自动标点（断句）。现有相关研究多集中在中医古籍和农业古籍等专业特征明显的主题上。标点涉及到我们对中文语言结构的认知，需要对古籍文献的语法特征、关联词、同义语标识、反义复合词等进行梳理，先做到断句。且标点一定意义上反映的是古籍文本内容的逻辑，有时专家尚且不能轻易判断，所以这也必定成为自动化处理的一大难点。三是自动校勘。在20世纪90年代初，国内便有研究人员开始探索使用计算器进行中文自动校对[10]，由于自动分词问题是个难点，所以现在的处理还十分简单。期盼今后可以在简单上下文匹配的基础上，进一步延伸到词切上下文匹配、自然语言理解上下文匹配。四是自动编纂。主要包括自动分词、自动文摘、篇章分割和段落检索等几个方面[11]，我国古书命名的方式十分多样，而隐括内容为名者较少，且古代学者的作品多为文集，其内容包罗万象而少有内部编目，即便有编纲目也几无统一标准，十分随意，急需整理。而这是一个非常庞大的工作，若能采用自动编纂技术，将减轻很多负担。除以上四个方面外，文献的自动化处理还有很多方面可以探讨，如自动翻译、主动注释、自动纠错等等，足以专门做一番论述，在此就不再一一说明了。

权责发生制，又称“应收应付制”或“应计制”，指以取得收取款项的权利或支付款项的义务为标志来确定本期收入和费用的会计核算基础。凡是当期已经实现的收入和已经发生的或应当负担的费用，不论款项是否收付，都应当作为当期的收入和费用；凡是不属于当期的收入和费用，即使款项已在当期收付，也不应当作为当期的收入和费用。

2. 文献的自动化分析

现在计算器只能进行字符简的简单比较，尚不能完全模仿人的逻辑。人具有主观能动性，可以对客体进行分析作出判断，虽然我们在努力编写算法，设计应用程序，赋予计算器一定的逻辑分析能力，以解放人力，帮助中文古籍整理，初衷虽好，前途虽亮，但却需要具体的庞大的基础准备工作，并要仰赖技术的进步。现阶段下，我们可以初步藉助计算器对中文古籍进行字频、用韵的统计，并探索用典、语句（语言结构）等方面的自动化分析。而主要难点是如何设计合理的算法，即程序编辑问题。程序编辑问题除了涉及电子语言的转化和软件的建设外，其基础为语言的梳理。在现阶段，我们还是要着力进行准备工作，完善语料，充实数据，为程序的编写提供素材。

四、中文古籍数字化整理面对的挑战和要求

（一）变化的挑战

1. 跟进信息

信息时代的特点除了信息量上的庞大外，还表现在信息更迭速率的迅速上。所以，面对不断在更新的信息，中文古籍数据库也要及时进行更新。不过鉴于中文古籍资源总体上是稳定的，所以需要跟进的主要为出土文献的新发现新材料。

2. 跟进技术

中文古籍的数字化整理的产生无疑是源于计算器和电子信息技术的发展。在短短几十年里，计算器脱去了神秘高科技面纱，飞入寻常百姓家，信息技术更是变更了我们的生活状态，不敢想象以后还会发生什么，不论如何，中文古籍的数字化整理都要、也会紧跟技术的革新，不断完善。

3. 跟进政策

我国政策的发展总体宏观上具有连贯性，但微观政策的变化也会对我们产生一些影响。例如，《文学遗产》2014年第6期发表的郑永晓先生《加快“数字化”向“数据化”转变》一文尙可检索维基百科，并引用其对“大数据”一词的解释[12]，但2015年国内网络环境下已经无法在线使用维基百科。

（二）资源整合的挑战

几十年来，中文古籍数字化整理工作是参差发展的，首先是开发主体的不同：大学研究机构，馆藏机构，私营企业，乃至私人个体；还有地域的不同，不同开发主体，在不同的地域不同的时间，采取不尽相同的标准和技术，导致了中文古籍数字化整理质量的参差不齐，也给研究者和使用者带来了很大不便。所以，这要求我们进行资源的整合。

在国内范围中，我们有必要强化古籍数字化控制主体的地位[13]，以促进中文古籍数字化整理工作有序、高效的进行；在国际范围内，我们有必要增进不同地区不同国家的交流合作，协商统一的标准，以方便研究者和使用者的检索和查阅。

（三）版权与壁垒的挑战

随着数字化的发展，不少著作被整本扫描、公布在网上，虽然在一定程度上便利了大家获取数据，但这种版权意识的淡漠长远来看是不利于学术发展，也不利于中文古籍数字化整理的市场化的，所以，保护版权十分重要。首先，我们观念上就应该重视版权问题；其次，保护智力成果的法律法规也需要完善；另外，还可以从技术层面，在电子书和数据库的制作中加入保护程序。

但另一层面上，保护版权不能成为独占材料、垄断资源的借口。直面这一挑战，努力在保护和开放中寻找平衡，既尊重智力劳动成果，又避免学术壁垒的产生，才能更长远的维护学者权益，促进学术发展。

（四）人的挑战

首先，显而易见，是建设者的挑战。面对浩浩荡荡的数字化浪潮，如果更好地融入并促进中文古籍文献的整理工作，是一大挑战。其次，是使用者的挑战。数据库的建立和数字化检索的完善，对研究和阅读中文古籍的用户们而言，大家都平等地使用数据库，而在同一起跑上如何更深一步，进行有价值的研究，将是随之而来的挑战。所以，未来的用户需要在组织和架构信息，拣选和分析信息等方面，更努力地发挥自己的能动性。

[参考文献]

[1] 朱成林,袁曦临.中国古籍的数字化导读研究[J].图书馆建

设,2014（11）:50-55.

[2] 曹书杰.古籍整理与电子计算机应用研究的思考[J].古籍整理研究学刊,1988（1）:44-49.

[3] 刘炜.上海图书馆古籍数字化的初步尝试[J].图书馆杂志, 1997（4）:33-34.

[4] 毛建军.古籍数字化理论与实践[M].北京:航空工业出版社, 2009:6.

[5] 楼宇烈.汉文化数据库不同层次的实用需求[J].北京:古籍整理出版情况简报,2003（8）:2-6.

[6] 杜泽逊.文献学概要[M].北京:中华书局,2008:104-105.

[7] 张显成.简帛文献学通论[M].北京:中华书局,2004:3.

[8] 白云出岫.中国古典文学全文朗读[EB/OL].http://weibo.co m/baiyuncx？from＝profile＆wvr＝6,2015-12-01.

[9] 林闯,苏文博,等.云计算安全:构架,机制与模型评价[J].计算器学报,2013（9）:1765-1766.

[10] 杜瑞芝.数学史辞典[M].山东:山东教育出版社,2000:538-541.

[11] 常娥.古籍自动校勘和编纂研究[M].合肥:安徽师范大学出版社,2012:41-56.

[12] 郑永晓.加快“数字化”向“数据化”转变[J].文学遗产,2014, （6）:141-148.

[13] 王立清.中文古籍数字化研究[M].北京:国家图书馆出版社,2011:106.

（责任编辑、校对：郭万青）

The Expectation of Ancient Books’ Arrangement under Digitalization Background

ZHANG Wen-yue
（Research Institution of Chinese Language Documents, Southwest University, Chongqing 400715, China）

Abstract:At the information and network age, the arrangement of ancient books is on the way of digitalization. Under such background, the developmental direction of the digitalization of ancient books is discussed from the perspectives of theory and practice. The problems in its development such as the great change, resource integration, copyright, participate subject and so on are discussed. As a result, it is hoped that the theory of the digitalization of ancient books can get further development and improvement and that the database can also get further development both in its functions and capacity.

Key Words:digital; Chinese ancient books; the arrangement of ancient books; resource integration

作者简介：张文玥（1992-），女，浙江杭州人，硕士研究生，研究方向为汉语言文字学。

收稿日期：2015-07-30

DOI：10.3969/j.issn.1009-9115.2016.01.012

中图分类号：G255.1

文献标识码：A

文章编号：1009-9115（2016）01-0045-03