APP下载

字料库理论与实践的创新和发展
——评柳建钰《字书字料库的理论、实践与应用》

2022-03-08陈正正

关键词:字书汉字理论

陈正正

(河南大学 黄河文明与可持续发展研究中心,河南 开封 475000)

引 言

“字料库”概念是由李国英、周晓文最先在《字料库建设的必要性与可行性》一文中提出并明确定义的。该文是一篇对字料库建设与研究具有先导性意义的文章,竖起了字料库建设与研究的第一面大旗。这个概念提出的背景是21世纪汉语的信息化已经做得比较充分,而汉字的信息化还需要急迫发展。相比起已经趋于成熟的汉语语料库和汉语语料库语言学,利用计算机技术来整理和研究汉字的工作整体来说仍然比较薄弱,与当下汉字整理、考释、研究等工作的要求仍有相当的距离。而阻碍汉字数字化以及古籍整理现代化的根本原因除了汉字自身的复杂性因素外,还包括受计算机编码体系以及计算机语料库处理字形方式的限制。(1)周晓文:《关于社会用字调查的研究》,《中国文字研究》(第十四辑),大象出版社,2011年版,第168页。所以我们要建设保持文字原形、统一整理的汉字平台字料库,来解决这一问题。

柳建钰的《字书字料库的理论、实践与应用》是第一部探索汉字字料库理论的专著,该书首次对字料库的理论进行了系统思考,对字书字料库的实践经验作了初步总结,并展示了字料库应用的现状与前景,是对字料库理论和应用十多年的发展进行了一次全面总结,从理论建构、实体建设、本体应用三个方面推进与发展了字料库研究的相关内容。

作者在著作中贯彻了字料库研究的一些理念,并取得了重要成果。在理论上,该书论证了汉字字料库作为汉字学与计算机信息科学交叉融合后的崭新事物,其利用数据库类聚材料并加以系统整理的思路和方法可以为后人借鉴;在实践上,作者设计了操作界面简单直观、学术性强、系统功能高度集成的字料库实体,并且收录了60余本字书,加工完成的数据达200多万条,这些具有客观性、真实性、规模化、多功能、高度结构化的字书汉字数据信息,为学术界进一步整理相关材料做好了基础性、奠基性的工作;在应用上,作者利用字料库展开了疑难字考辨、字书汉字层积流变调查、通用规范汉字构形属性调查等工作,利用大数据和云平台进行汉字学研究,体现了科研生态的创新变化。这足以证明:字料库的研究与设计能够为汉字研究提供新思路与新方法,为当前的汉字整理研究提供大量真实可靠的资料,字料库是汉字学研究值得信赖的一种全新工具。

一、理论创新

针对语言文字信息化的时代任务,我们需要建设相关的字料库、语料库与概念库。李国英指出:“信息化时代是以字处理的数字化为前提,汉语信息的处理依赖于汉字的数字化。没有汉字的数字化就没有汉语的信息化,汉字及其衍生物的数字化是一切汉语信息数字化的基础。”(2)李国英:《汉字整理工作的现状与发展趋势》,北京师范大学“全国汉语言文字学高级研讨班”2010年发言。基于此,李国英、周晓文提出了“字料库”的理论概念,认为必须建立统一的汉字整理平台和保持文字原形——字料库(3)李国英、周晓文:《汉字整理工作的现状与任务》,云南师范大学学报(哲学社会科学版),2008年第3期,第12页。。而“字料库的核心工作是在确定汉字基本单位的定义的基础上,解决字单位的认同、别异问题,聚合同一汉字的不同变异形式,离析同一形体的不同汉字,以字为基本单位,建立个体字符属性备注完备、整体序化编排的汉字库藏。”(4)李国英:《字书字料库的理论、实践与应用·序》,中华书局,2021年版,第2页。

面对这样一个新生事物,如何在理论上准确界定相关概念,并且帮助科研工作者弄明白字料库究竟是什么,了解字料库的建构及其价值,以及在汉字学等学科体系中处于什么位置,是字料库研究首先需要解决的问题。

在理论篇中,作者分别定义了字料、字料库、字书、字书字料库等相关概念,他认为字书字料库是指:“专门收集和加工历代字书中的真实汉字字料,是在大规模历代字书文本基础上生成的真实的汉字刻写形态的有序集合,是利用计算机对字书汉字形体进行各种分类、统计、检索、综合和比较等研究的基础,它能为汉字学及其他相关学科研究提供高度结构化的字书数据信息。字书字料库中的字料以传世文献中的字书为主要文本载体,以出土文献中的字书为辅助载体。”(5)柳建钰著:《字书字料库的理论、实践与应用》,中华书局,2021年版,第46页。这段话阐明了“字书字料库”的几个核心特点:第一,要对前代字书进行计算机数据库加工,实现研究平台从纸本向数字化数据库的过渡,要建设功能强大且方便实用的研究平台;第二,要提供“结构化”的字书信息,这就要对字书的内在体例做深入挖掘,有针对性利用字书的信息,将纷繁复杂的材料从无序转变为有序;第三,在材料上要类聚真实、海量的字书信息,在类聚中发现问题,借助类聚来研究问题。作者的如上定义不仅在理论上使字书字料库有了一个相对清晰的界定,更突显了一种新颖独特的研究思路和方法。以往的研究,基本借助的是个人研究经验的总结,重视经验式的推论,而现在的研究应该依靠类聚海量的数字化材料,将智能OCR、智能古籍标点交给计算机处理,让学者有更多的时间来进行专业的研究和理论思考,这种研究方式无疑将会成为新时期一种全新的占主流地位的模式。

作者理性划分了字料库汉字学的四大部分:处于核心圈的是“字料库驱动”的汉字学研究,处于核心圈之外的是“基于字料库”的汉字学研究,第三圈是应用字料库汉字学研究,最外层是字料库在其他学科领域中的应用研究。这种分层非常清晰,前两者是理论研究,后两者是应用研究。在理论研究部分,“字料库驱动”的汉字学研究依托的是“生字料库”,研究方法是自下而上的归纳法,完全由字料数据直接到达理论层面。这一类的研究,针对的是崭新的材料,对部分生字料进行观察、类聚、描写和统计分析,得出部分结论,或者证实假设,或者修正已有结论;“基于字料库”的汉字学研究依托的是“熟字料库”,采用自上而下的演绎法。先有理论,然后用字料数据去验证它。除此之外,作者还介绍了“字料库汉字学”采用的定性与定量相结合、共时与历时相结合、实证与内省相结合、学科知识综合交叉等诸多方法,这些都是建立字料库汉字学体系完整理论架构的重要成果,可以帮助我们超越以往单个、具体的研究所得出的微观结论,得到一批有统计数据基础的、更符合语言文字事实的,也相对全面、深入且科学的结论。

我们可以清晰地看到:研究手段的变化带来了新的研究模式,在大规模资料汇聚和便捷查询工具的支持之下,学者可以得到海量原始资料查询结果。面对海量的资料,依靠传统的阅读无法驾驭,必然会提出新的研究问题,或者发现原有研究问题存在争议之处。这一新工具的出现,不仅能够推动传统语言文字学重新审视其研究方法,也会发展出新的研究视角和研究领域。

正如作者所言:“字料库这种跨学科的实践研究,是对科学汉字学理论体系的丰富和发展,能够有效指导当前及未来的汉字整理研究实践工作,并且蕴含了一种全新的、科学程度更高的汉字整理研究方法和思路。”(6)柳建钰著:《字书字料库的理论、实践与应用》,中华书局,2021年版,第64页。整体来看,作者的理论总结基本是从汉字整理研究和字料库建设实践过程中得来的,既总结了历代及当前汉字整理研究的相关经验,也充分借鉴语料库理论及语料库语言学发展的宝贵经验,其理论思考是清晰的,理论概念是准确的,为汉字研究提供了新的思路与方法。

二、实践创新

在字书字料库建设之前,虽然已经出现了一些字料库及“类字料库”的单机或网站系统,但还没有一个功能完整、能公开使用并被学界广泛认可的字料库系统。作者提出:“汉字学界迫切需要一种全新的工具,为字书汉字整理与汉字学研究搭建一个具有科学性、综合性的数字化平台,提供具有代表性、大规模、高度结构化的字书汉字字料,方便学者突破个人认知范围和资料获取能力的最大限度,将海量字料信息所蕴涵的显性和隐性汉字学信息按照研究需要抽取出来,从而提高研究结论的创新性、科学性和可靠性。”(7)柳建钰著:《字书字料库的理论、实践与应用》,中华书局,2021年版,第48页。

在设计上,作者一方面吸纳了现有相关字料库与“类字料库”的研究成果,吸收了前人的字形搜集与归类信息;同时尽最大努力借助借助现代化科技手段来设计研发字料库。“汉字的数字化包含汉字形体数字化和汉字知识数字化。汉字形体数字化指汉字字形的存储编码、输出编码、输入编码等;汉字知识数字化指汉字形、音、义以及汉字字形之间关系等知识的数字化。”(8)周晓文、李国英等:《BNUZLK字料库系统的建构与应用》,《民俗典籍文字研究》(第十三辑),2014年第1期。作者注重字书字料属性库的建设,将字料库中字料标注分为基本属性信息标注(基础)、汉字构形信息标注(核心)、汉字字际关系信息标注(重点)三大部分。这样就可以让原先冰冷的语言文字事实转化为方便使用语言文字知识。不仅完成了汉字形体的数字化,也实现了汉字知识的数字化。

在操作上,作者尤其重视“字际关系”的属性标注。现代语言学强调关系论,认为具体的语言文字都在关系之中存在。赵诚说:“现代语言学在思维形式上也有一个非常明显的特征,即认为任何事物的价值不仅存在于事物本身,还存在于事物与事物之间的关系之中。就语言现象而言,任何一个字、词、句所具有的或表现出来的价值,不仅存在于该字词句本身,还存在于和其他的字词句所形成的关系之中。有时候,某些价值在关系中就存在,离开了那种关系就因之而减弱甚至消失。所以,在这种思维形式的支配下,产生了另一种研究方法,即不仅研究某一语言现象本身,还研究某一语言现象与其他有关的语言现象之间的关系。”(9)赵诚:《传统语文学向现代语言学的发展(一)——兼论黄侃的学术贡献》,《古汉语研究》,1998年第2期。章黄以来的语言文字研究特征之一,就是在关系中把握语言文字特点,“方法上以关系论为主导,归纳了汉字的属性关系、表达关系和演变关系。”(10)李运富:《章太炎黄侃先生的文字学研究》,《古汉语研究》,2004年第2期。以前的研究,很少将字际关系作为独有的理论范畴,也很少将字际关系作为一个独立的重要研究对象。作者将字际关系设定为异体关系、同源关系、同形关系、分化关系、本借关系、繁简关系、正讹关系等七大类型,不仅在类型上全面照顾了字际关系的主体内容,而且对字际关系的标注做出了可操作性的定义,还结合现阶段已有的研究成果进行了部分字际关系的标注。这样经过标注的相关文字材料,能够作为一个基础汉字资源库,为语言文字考释、古籍整理以及相关研究服务。

作者设计字书字料库以及标注相关属性的过程,实则是对字书原始材料重新加工整理与科学研究的过程。以往的研究既没有汇集过如此大量的字书,也很少在明确的理论指导下,为如此海量的字书做过专业的属性标注。对大量字书文本进行处理之后,我们完全可以从字书体例挖掘的数据结构出发,展开基于大量真实文本进行对比研究,在提取字头的基础上,勾勒出古代字书收字累增和变异的整个发展历程,探索汉字的形、音、义、用的历史变化。

从理论上来讲,字书字料库可以把所有的字书汉字材料类聚在一起,进行相关的语言文字属性标注,其他相关研究都可以以字料库为基础展开,这样做,起码从材料的容量和穷尽性上,较以往的个案式、做卡片的研究手段更具优势。

整体来看,通过设计字书字料库,作者为我们建构了一个重要的语言文字研究平台。字料库建设不仅是语言文字信息化的基础性工作,也是信息时代语言文字学本体研究及数字汉字学奠基性的基础工作。字书字料库在标注原则上是明确的,在功能上是清晰的,设计的相关界面简洁大方,非常便于操作,完全可以成为汉字学研究和知识普及的一个重要参考工具。

三、科研创新

字料库给汉字学研究带来的是一种前所未见的科研生态创新。李国英说:“互联网、大数据、云概念、智能化等技术的参与促使科研手段发生了重大变化,同时也正在改变包括语言文字研究在内的科研生态。”(11)李国英:《字书字料库的理论、实践与应用·序》,中华书局,2021年版,第1页。原先的材料考据的过程,多是通过个别语言文字知识,来达到释读未知的语言文字信息的过程;而有了建构好的字料库,我们就可以实现“材料积累—准确考释—材料积累”可持续正向循环。研究平台也从纸本转移到数据库,研究者可以利用前人的考释成果与相关研究结论,实现海量数据的快速提取;也可以将自己的考据成果的核心结论填充到字料库中,进一步完善与丰富字料库内容。这有利于形成科研工作与字料库建设的互动,将考据成果用于新一轮的研究工作之中,最大可能避免自己考据的随意性,实现计算机工具和人智力劳动紧密结合。

比如,有些字的考据可能存在多种结论,那么哪种可能性更为确凿?这需要更加丰富的数据信息与更完整的证据链条作支撑。比如“”字,张涌泉认定为“”讹俗字。作者利用字料库字形“甬”字结构的相关变体,找到了中介字形“”,并且借此与“角”进行了字形俗讹脉络的沟通,进一步证实了“”为“通”的俗写字形,从而否定了“”为“”讹俗字的说法。这样的考据拥有了更多的证据(比如《篆隶万象名义》的直接证据,再如形体演变可以参考“悀”“”之间形体平行的例证),考据结果更加具有说服力。

除了具体的字词考辨,作者还利用字书字料库的字书汉字层积流变状况进行调查研究。字书层积流变是一个学术界基本的共识,大家都清晰地知道,后代的字书是在前代字书基础上增加、修改与删定得来的,但是对于具体的实际情况,我们的认识还模糊不清,有待进一步的考察与研究。作者通过详细的数据对比,得出了几点结论:第一,从东汉到明代以前,字书收字数量基本保持上升趋势,至金代《改并篇海》达到最高峰;第二,有明一代,收字数量呈起伏不定状态,整体来看则呈现下降趋势;第三,从清代到现代,收字数量又重新开始保持上升趋势,而且上升幅度较大。这样的结论,避免了传统研究中简单地认为字书收字一直在不断增加的模糊认识。这些研究都说明,在大数据理念指导下,基于字料库的汉字学研究将具有不可替代的价值。

《通用规范汉字表》是现阶段最新的汉字规范标准,是新中国成立以来汉字规范的总结、继承和提升,也是信息化时代汉字规范的新起点和新发展。作者利用字书字料库,对通用规范汉字的构形属性进行系统的调查研究。得出如下基本结论:《通用规范汉字表》8105字在构形方面具有严密的系统性,构件组合时以层次结构为最主要的模式,构件组合层级数以2层居多。所拆分出的直接构件共16073个,去重后共1926个,基础构件共552个;去重后的直接构件中示音构件数量最多,其次是记号构件。表义构件不仅参构次数多,而且可归纳性和系统性很强;义音合成是现代汉字最主要的构形模式;记号字半记号字大量出现,与表意字、形声字形成了三分现代汉字天下的局面;左右结构和上下结构是现代汉字最重要的两种结体方式。这些成果有助于我们准确认识通用规范汉字的基本构形属性,为《通用规范汉字表》的学习研究和贯彻落实提供了宝贵的第一手资料。

通过以上分析我们可以看到,字料库的使用已经推动了语言文字科研生态的重要变化:用数据库类聚的视角观察、描写、比较和考据材料。正如作者所言:“字料库是一种崭新的汉字学研究工作,它能为汉字学研究提供客观、丰富、高效的第一手数据。”(14)柳建钰著:《字书字料库的理论、实践与应用》,中华书局,2021年版,第295页。字料库带来了可重复、可验证的科学方法,避免了汉字学研究过程中猜测性成分,为解决多种争论提供了更加可靠的思路。

四、修改完善之建议

以上三个方面是作者的主要贡献。当然,《字书字料库的理论、实践与应用》一书还有进一步完善的空间。

书中有些表述还值得商榷,比如把字形类化列入字形分化的范畴,并且包括涉上字类化(默认)、涉下字类化。(15)柳建钰著:《字书字料库的理论、实践与应用》,中华书局,2021年版,第219页。但是涉上下字在学理上更多属于“同化”,与分化字的产生动因并不相同。(16)孙建伟:《从聚合与组合视角看汉字的“类化”与“同化”现象》,《内蒙古社会科学(汉文版)》,2016年第1期。另外,引用的前人某些说法还需要讨论与斟酌。如通假字部分引用王海根《古代汉语通假字大字典》,认定“新”为“兴”之通假,并引证清代《郑清之传》为例证(17)柳建钰著:《字书字料库的理论、实践与应用》,中华书局,2021年版,第271页。。但近代没有古之用例很多谈不上什么通假,中古以后的很多材料,字与字之间读音意义很接近,文字使用混用非常普遍。若均认定为通假,就有点泛滥。通假字的限定范围内容限定在上古更为合适。

字料库本体建设也还有很多工作可以进一步展开。比如,就收录字料的广度来说,应该进一步扩大字料的搜集范围,把佛经敦煌写卷、碑刻文献、契约文书等近代汉字原始字形搜罗进去,这样有利于凸显字书收字与文献真实用例的差异,并找到两者之间的结合点。因为字书收字毕竟打上了编纂者个人的理念,与真实的文字使用情况未必契合。沟通语篇文字与字书文字,收录文字真实的较早的文献用例,这样可以激活使用状态下的文字,为汉字断代尤其是常用汉字断代提供一个相对可靠的参考样本。在字书辗转传抄过程中产生了大量疑难字,这些疑难字只有字书的注音与训释,如果能找到其文献真实用例,无疑将对这些疑难字的考辨提供重要佐证材料。

五、结 语

整体来看,柳建钰《字书字料库的理论、实践与应用》就字料库及字书字料库相关问题做出了探索性的尝试。他至少充分证明了以下两点:一方面,作为崭新的研究工具和研究方法,字料库能够孵化新思维,探索新方法,大大提升学者们研究和处理汉字材料效率和准确度;另一方面,字料库创造了人文研究的全新环境,研究平台实现了从纸本文献到分门别类的数字文献的转变,在推动全汉字整理研究工作走上信息化大道的过程中,字书字料库发挥了无可替代的作用。《字书字料库的理论、实践与应用》一书在字料库研究的理论建构与实践应用方面做出了很大努力,阐释了字料库作为一种新的汉字学研究手段的创新性,验证了字料库作为一个独立汉字学研究平台的可行性。字料库不仅可以为汉字研究搭建长期发展的科研平台;也可以作为语言文字的推广普及平台,它不仅可以胜任语言文字学相关本体的研究任务,其应用价值还能延伸到文献学、历史学、辞书学等研究领域。我们认为,字书字料库的研究模式和研究思路符合当前学科研究交叉化、大数据化的发展大趋势,《字书字料库的理论、实践与应用》一书所展示出的理论和方法,值得汉字学及其他相关学科借鉴与参考。

猜你喜欢

字书汉字理论
坚持理论创新
神秘的混沌理论
理论创新 引领百年
相关于挠理论的Baer模
大型字书疑难字新考
无字书图书馆(节选)
汉字这样记
汉字这样记
雁字书
祖昌教孙读“无字书”