APP下载

方块白文文献数据库

2019-02-15韦韧

科技与创新 2019年1期
关键词:白文白族方块

韦韧



方块白文文献数据库

韦韧

(中国社会科学院民族学与人类学研究所,北京 100081)

白族是一个有着悠久历史和丰富文化的少数民族。方块白文是古代白族在长期使用汉语文的过程中,用来记录广泛使用的白语,仿照汉字创制的一种民族文字,是一种既借用汉字又自造拼合字的意音文字。针对方块白文情况复杂、信息量大等问题,在充分吸收已有研究成果的基础上,在普通语言学、普通文字学、比较文字学、汉字构形学理论指导下,借鉴汉字整理的方法,设计和建立了方块白文数据库,并以方块白文材料《云龙白曲残本》为例,详细介绍利用数据库技术研究方块白文的初步成果,以及方块白文数据库在中国少数民族语言文字研究创新中所起到的巨大作用。

方块白文;数据库;《云龙白曲残本》;白族

白族是一个有着悠久历史和丰富文化的少数民族。白族自称“僰”“僰子”“僰尼”,均是“白人”之意。别称比较多,不仅不同民族对白族称呼不同,连同一个民族对分布在不同地区的白族也有不同的称呼。纳西族称澜沧江边上的白族为“那马”,称大理和丽江的白族为“勒布”。傈僳族则称怒江边丘的白族为“勒墨”,称大理白族为“腊本”。洱海地区及其附近汉族称白族为“民家”。新中国成立后,1956-11,大理白族自治州建立时,根据广大白族民族意愿,确定族名为“白族”。白族是我国西南山区人口较多的少数民族,根据2010年民族统计年鉴,全国白族总人口有190多万人,主要聚居在云南省的大理白族自治州和昆明、楚雄、丽江等地州市,少数散居在贵州省毕节、六盘水、江陵等地市、湖南省张家界市及湖北省鹤峰县。

方块白文是古代白族在长期使用汉语文的过程中,用来记录广泛使用的白语,仿照汉字创制的一种民族文字,是一种既借用汉字又自造拼合字的意音文字。方块白文的历史文献以碑刻、有字瓦片和经卷的批注浮签为主,近现代方块白文文献以祭文、白曲曲本、大本曲曲本为主。有部分碑刻内容已被释读出来,但还有一些,由于年代太久远,与现代白语差异巨大,还有待破译。建立方块白文数据库,可以利用数据库的优势,整理、分析方块白文,破解存疑文献。

1 方块白文数据库建设的总体思路

1.1 必要性和可行性

我们已经进入数字化时代,数字化技术的运用也早已成为科学研究的一个必要有效手段。早在20世纪90年代,汉语言研究就已开始使用数据库技术,有一部分少数民族语言研究也引入数据库技术,建立了一系列少数民族语言数据系统。方块白文由于之前收集的材料较少,目前还没有建立方块白文材料数据库,相比较其他少数民族的语言研究,稍显滞后。因此,迅速建立一个方块白文数据库是非常有必要的,数据库的建立既可以加大方块白文材料的整理速度和准确度,又可以使方块白文的资源共享,减少工作中的重复浪费,提高工作效率。开展方块白文数据管理关键技术的研究,也为方块白文语言数据和元数据存储提供了坚实的技术基础,同时也是满足少数民族语言信息快速检索与少数民族语言研究的需要。研究开发方块白文数据库系统对抢救和挖掘白族非物质文化遗产也具有非凡的意义。

语言学的材料一般都很庞大,信息多面,必须考虑采用有效的手段进行组织、存储和管理,并在此基础上能够充分、有效地实现语言数据共享和数据发布。其中语言数据存储是数据查询检索、管理、共享发布的基础,开展存储构建技术的研究,解决语言数据高效、安全存储问题,为数据的有效集中、高效查询、管理、快速传输提供基础,是迫切需要的。

在语言学的研究中常需要对数据进行索引、搜索、排序、抽取和分组等操作,数据库在这些问题上都很容易实现,并且能形成一个数据库管理系统。因此,用数据库进行方块白文的处理是合适的。

数据库的建设和方块白文文字整理研究思路是相辅相成、互相促进的关系。在最初建立数据库时,方块白文文字整理研究思路还不明晰,数据库的结构也很简单,只是根据材料来源的特点,设计了描述方块白文形音义的几个字段。在大量输入和接触方块白文材料后,逐渐总结出方块白文的特点,摸索出研究的一些规律,由于方块白文字符的类型不同,各类型有自己的特点,需要分别建立数据表,设计能够反映其特性的数据库字段,以求尽量全面地描述出材料的不同信息。建立合成字数据库又单独增加了示音构件、表义构件、标示构件3个字段。因此,数据库是进行方块白文文字整理研究的重要手段,研究方法的进展也必定会反映在数据库上。

1.2 数据库的选用

Oracle Database是关系数据库的一种,支持关系对象模型的分布式,面向Internet计算,它提供安全的、开放的和科学的信息数据管理方法。由一个Oracle DB和一个Oracle Server实例组成保障了Oracle数据库具有数据自治性并且能提供很好的数据存储机制,方便了用户的使用和操作,提高了信息管理的效率。Oracle数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。 Oracle还提供了丰富的数据类型,可以用准确的数据类型和合理的数据长度来定义数据类型,这样不但可以降低数据冗余而节省系统存储空间,还可以提高信息系统的检索效率。

1.3 数据库建设与方块白文研究的关系

方块白文情况较复杂,提供的信息涉及较多方面,设计和建立方块白文数据库是一项消耗巨大精力的工作。在具体操作过程中需要不断地研究和解决问题,如果考虑不周到或有疏忽遗漏,会给后面的研究工作带来不可预计的后果,因此,数据库的建设既是基础又是关键,是方块白文文字整理研究的重要基础。

数据库的建设和方块白文文字整理研究思路是相辅相成、互相促进的关系。

1.4 数据库建设的总体方法和阶段

总体方法是根据方块白文的不同类型和特点,分别建立结构不同的数据表,尽量全面地反映各种方块白文的不同信息,以达到分析每一个字形都可以调动多方面信息的效果。一个信息量充足完善的数据库需要一个长期建立的过程,必须不断地完善和补充数据库。

数据库建设主要分为4个阶段,依次是数据库结构设计和建立、数据录入、数据校对和数据整理。对方块白文进行语言学的大量分析处理没有先例,在进行方块白文数据库的建设时,是摸索前行的,4个阶段交叉推进。比如录入、校对数据时,需要不断地验证数据库的结构设计是否可以充分地展示材料各方面信息,并适当加以改进;同样,在录入和校对时也要根据碰到的新情况、新问题对数据的整理步骤和方法进行调整。需要说明的是,在数据录入时,作者对方块白文材料已有一些粗略的思考并进行一定的分析,但全面、细致的分析是在数据库完全建立后才进行的。因此,建立方块白文数据库不是遵循一般数据库建设的4个阶段逐步计划进行,而是基本按照4个阶段建立数据库的顺序,但在4阶段中不断交叉互进。

1.5 建设步骤流程

数据库建设步骤流程如图1所示。

图1 数据库建设步骤流程图

2 《云龙白曲残本》材料的数据库建设

方块白文到底有多少,目前尚不得而知。已发现的文献多以文学作品形式存在,分布范围广,搜集和整理的工作较为艰巨。因此,为了尽快建立一个方块白文样本库,选取的第一份材料一定是可以直接用于研究且学界认可的资料。

目前,已发现并整理的方块白文文献形式包括碑刻、大本曲、“吹吹腔”剧本、宗教经文、祭文。选取的第一份建库材料,《云龙白曲残本》是中国科学院少数民族语言调查第三工作队白语小组于1958年在云南省云龙县宝丰乡搜集而来,后由中国社会科学院民族学与人类学研究所研究员徐琳先生保存下来。现由美国马里兰州圣玛利大学傅京起老师收藏。目前曲本已释读出版(见《中国白族白文文献释读》),可以直接用于研究。曲本中的文字除使用白族一般运用的汉字音读、训读、借词外,大量使用汉字或汉字部首构造表音兼表意的合成字,合成字在整本曲本中出现较多,远多于其他已释读方块白文文献。这些合成字是我们分析白文的重要基本材料,这也是选取《云龙白曲残本》作为第一个建库材料的重要原因。

2.1 数字化

在数字化《云龙白曲残本》文献原文时,基本采用紫光华宇拼音输入法v6.7,遇到超出输入法所支持的字符,使用逍遥笔手写识别软件和方正超大字符集。如果字符不在上述两种输入法所支持的字符集内,则使用Windows自带的TrueType造字程序进行造字。

考虑到使用的广泛性和通用性,论文作者在数字化材料时,将《中国白族白文文献释读》中白曲的注音音标转写为潘悟云、李龙开发的云龙国际音标输入法4.0版。

2.2 建立数据表

数据库的一个显著优点在于能够容纳海量数据,并方便管理。这一优点体现在建库者能够建立关系清楚明晰的数据库表。

2.2.1 建立语言材料元数据表

元数据是描述数据及其基本属性的数据,相当于所有数据的管理中心,为将来数据的使用和管理提供方便。

元数据表字段共6个,分别是材料名称、对应的汉字形字表表名、对应的拼合汉字形字表表名、建库时间、材料收集人和材料来源。

2.2.2 建立全字表

全字表字段共7个,分别是曲序号、句序、白字、音、义和句直译。

2.2.3 建立图文对照表

图文对照表字段共2个,分别是字形和对应的图片。

2.2.4 建立汉字型方块白文字表

汉字形方块白文字表字段共13个,分别是曲序号、句序、字形、字形分析、构形模式、声、韵、调、对应汉字、双音词义、句直译和句意译。

2.2.5 建立拼合汉字形方块白文字表

拼合汉字形方块白文字表字段共15个,分别是曲序号、句序、字形、声、韵、调、对应汉字、双音词义、字形分析、示音构件、表义构件、标示构件、构形模式和备注。

依据数据库,统计得出作品总字数7 241字,使用的单字1 307个(包括异体字),其中,汉字字形的单字828个,拼合汉字的单字479个。数据库条数共计2 815条,条数指的是每一个在《云龙白曲残本》中以不同的形音义出现的字,我们都作为一条。比如“阿”在数据库中以不同的音义出现了9次,在统计使用的单字时,算作1个方块白文,数据库中算作9个方块白文。我们这样处理就是要全面地反映方块白文的面貌。只有这样,才能全面考察方块白文文字系统,使研究结论更加准确。

依据方块白文数据库,借鉴现有汉字研究的理论方法,采用结构功能分析法对方块白文的字体类型进行分析,方块白文分成借用字和自造拼合字两种类型。借用字是白文借用汉字。以字符构件具有的功能属性,即白文字符与汉字字符的形音义对应关系为标准,可分为全借字、音读字、训读字、记号字四类。自造拼合字是借用字进入白语言语音系统后,白族仿造汉字构字原理创制。从字符功能角度看,分为7类:音义拼合字、会义拼合字、双音拼合字、标音拼合字、标义拼合字、标示音义拼合字、记号拼合字。

3 总结

本文介绍的是方块白文原始语料数据库的建设,以这些原始语料数据库作为方块白文研究的基础,在对方块白文进一步的分析研究中,会不断生成新的数据库表,可以用于各方面的研究。数据库将形成方块白文语料库,并最终建立方块白文研究系统。该系统将为白族语言研究提供坚实的服务基础,并为其他汉字系少数民族文字的数据库建设提供相关的技术探索。作者对方块白文的信息处理已经解决了基本的编码、造字、录入、排版、部分史料数据库建设方面的技术问题,但是与实际需求还有一定的距离。根据现有基础和应用需求,下一步应该开展的工作包括:①尽快制订方块白文字符标准,把它纳入国家和国际标准体系。②出版方块白文字典和开发方块白文和汉文翻译系统。由于方块白文字形复杂,各方言区和各个使用者书写的方块白文不统一,导致目前能够阅读方块白文的人越来越少,方块白文文献的收集、整理任务越来越艰巨,因此,编辑方块白文字典和研究开发方块白文和汉文翻译系统的工作迫在眉睫。

感谢傅京起教授提供原件资料,王锋研究员提供白语方言调查词表用于作者论文创作!

[1]徐琳,赵衍荪.白语简志[M].北京:民族出版社,1984.

[2]《中国少数民族语言简志》编委会,《中国少数民族语言简志丛书》修订本编委会.中国少数民族语言简志丛书修订本·卷贰[M].北京:民族出版社,2009.

[3]张锡禄,甲斐胜二.中国白族白文文献释读[M].桂林:广西师范大学出版社,2011.

[4]王宁.汉字构形学讲座[M].台北:三民书局,2013.

[5]宋继华,王宁,胡佳佳.基于语料库方法的数字化《说文》学研究环境的构建[J].语言文字应用,2007(01):132-138.

[6]李奕琳.借音壮字研究思路与数据库建设[D].南宁:广西大学,2006.

[7]刘连芳,顾林,黄家裕,等.壮文与壮文信息处理[J].中文信息学报,2011,25(06):175-182.

[8]柳长青,杜建录.网络下的西夏文及西夏文献处理研究[J].宁夏社会科学,2008(05):113-115.

[9]王成平.彝语言语料资源数据库的设计与共享的实现[J].中文信息学报,2016,30(01):129-132.

[10]刘连芳,海银花,那顺乌日图,等.壮、蒙古、维、哈、柯、朝语信息处理研究进展[J].广西科学院学报,2018年,34(01):18-26.

2095-6835(2019)01-0022-03

G250

A

10.15913/j.cnki.kjycx.2019.01.022

韦韧(1982—),女,博士,助理研究员,主要研究领域为民族语文信息化。

〔编辑:张思楠〕

猜你喜欢

白文白族方块
有多少个方块
中国白族文化的海外展演与传播研究
谜题方块
云南省鹤庆县白族本主庙及演剧活动考论
爱的旅程
中国云南大理白族女子头饰文化研究
有序数方块
白族
十个骨灰盒
怪僻的游客