APP下载

中医古籍数字化生僻字的处理

2014-12-11高晶晶

中国中医药图书情报 2014年3期
关键词:生僻字数字化

摘要:中医古籍数字化生僻字的处理是一项基本而又关键的技术,目前普遍存在缺字的现象,给中医古籍的阅读和研究造成障碍。本文分别从字符集、字库、输入法等方面,分析了集内字缺字产生的原因和解决方案,并探讨了集外字的处理方法。

关键词:中医古籍;数字化;生僻字

doi: 10.3969/j.issn.2095-5707.2014.03.009

Investigation of Digitization of Rare Words Processing in Ancient Traditional Chinese Medicine Literature

Gao Jingjing

(Institute of Traditional Chinese Medicine of Zhejiang Province, Hangzhou Zhejiang 310007, China)

Abstract: Digitization of rare words processing in Ancient Traditional Chinese Medicine(TCM) literature is a basic and key technology. The prevailing phenomenon of missing words creates obstacles to reading and research of ancient TCM literature. The article analyzed the cause of missing words, offered solutions, and discussed processing methods of missing words out of the character set from the aspects of character set, font, and input methods.

Key words: ancient TCM literature; digitization; rare words

中医古籍承载着祖国医学数千年文明的绵延,是中医学传承、发展、创新的源头活水。中医古籍数字化,可以通过全文录入与网络共享,解决中医古籍作为一种不可再生资源而存在的借阅困难、容易损伤的问题,对比传统的手工检索,又极大地提升了查询的效率,使中医古籍得到了更广泛和更有效的利用,近年来颇受重视,发展迅速。在数字化进程中,对生僻字的处理直接影响到古籍阅读的质量和检索的效果,目前存在的问题主要是缺字现象。对于传统的纸质版发行与单机版的数字化,缺字可以通过自己造字或图片替代的方案解决。但是对于全文网络版数字化,使用自造字会在通用性上受到限制,而图片替代则导致检索困难,其解决方案需要进一步的研究与探讨。

1字符集与编码

字符集是各种文字和符号的集合,如包含英文字母的ASCⅡ字符集、包含简体中文的GB2312字符集、包含繁体中文的BIG5字符集等。计算机要准确地处理各种字符集文字,需要对字符进行编码,以识别和存储各种文字。随着中文信息处理技术需求的不断发展,国家标准总局发布了一系列的“信息交换用汉字编码字符集”。但由于各国文字都有自己的字符集编

基金项目:浙江省科技计划项目(2011F10019)

作者简介:高晶晶,主治中医师,研究方向:中医古籍数字化整理。E-mail: gaojingjing1012@163.com

码,不同编码体系之间码位重叠,相互引起冲突,在Web等多语言环境中就会造成无法使用或出现乱码。

Unicode作为国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,也称统一码、万国码,实现了跨语言、跨平台的文本转换及处理。Windows、Linux等主要操作系统及.Net、Java等主流编程语言都提供对Unicode编码的支持。目前,Unicode字符集包含了7万余汉字,并且仍在不断地扩充中[1]。所以从理论上讲,只要在字符集中存在的字符,就可以被显示,而集外字符,则形成缺字现象。但事实上,很多中医古籍数字化系统的集内字亦存在大量缺失,一方面是因为采用相对较小的字符集编码存储汉字,另一方面主要还是由于字库与输入的缺失造成的。

2字库与显示

字形是字符呈现的形状,按照一定的编码顺序以矢量或点阵等方式存储在字库中,不同的字库表现出不同的字体。以Windows操作系统为例,当计算机需要显示一个字符时,首先识别该字符被存储的数值代码,然后将此代码转换为Unicode编码,再根据此编码到指定的字库中寻找对应的字形,最后将字形显示在屏幕上。如果字库中没有该字符对应编码的字形,则以缺字的符号显示。如常用的“宋体”、“楷体”、“黑体”等字库,其编码范围都在Unicode码位的4E00~9FBF区2万余汉字内,因此对于20000~2A6DF等区域的汉字就不能进行显示,而“方正超大字符集字体”、“海峰超大字符集字体”等支持Unicode超大字符集的字库就可以正确显示7万多汉字。

应用网络版中医古籍数字化系统的用户,其计算机上不一定装有支持超大字符集的字库,因此即便是服务器上的文件系统都使用Unicode字符集编码存储,在用户的计算机上仍然不能显示相应的字符而表现为缺字现象。这个问题可以通过提供相应字库下载的方法得到解决。

3输入方式的选择

在确定字符集编码存储方式和选择正确字库后,仍然会有大量的缺字现象出现在各种古籍数字化项目中,主要原因在于输入阶段的不可控性。因为中医古籍的数字化进程,是一个长期、大型的多人协作项目,无论是通过人工打字,或是OCR软件识别,都会存在录入与校对人员素质的参差不齐,使得一些不常见到、难以辨认音义的生僻字被直接忽略,或是做上标记等待后续处理。而通用的输入法,如搜狗、百度、紫光等,并不支持4E00~9FBF区以外的汉字输入,所以在古籍数字化处理过程中,就会出现很多所谓打不进去的字。因此,当碰到一个难以输入的字符时,可以换用一些支持Unicode超大字符集的输入法,如逍遥笔、海峰五笔等,也可以使用一些在线工具,如汉典网、书同文巧笔等。虽然输入方式的选择本属于细枝末节,但这一环节对于古籍全文录入的质量控制,却有着至关重要的影响,不可轻忽。

通过上述步骤,正确使用字符集、字库和输入方式后,中医古籍数字化中常见的缺字现象,如“白”、“胀”、“痛”、“咀”、“虫”、“解”、“虫”等属于Unicode字符集CJK统一表意符号扩展A、扩展B区的生僻字,都可以正确地输入、显示与检索,大大减轻了数字化系统对缺字处理和管理的难度。

4集外字的处理

由于任何字符集与字库的收字范围都有一定的限度和时间性,故对于超出现有Unicode字符集的字符,需要有缺字处理方案,能够既满足现阶段实际应用,又可以随着字符集的扩充而自动替换。遗憾的是,下列所述4种缺字处理方案,都有各自的不足,需要进一步完善。

4.1使用私用区造字法

Unicode在基本面E000~F8FF私用区、辅助面F0000~FFFFD增补私用A区、100000~10FFFD增补私用B区,设置了13万余码位,用于集外字的造字编码。这个方法在提供所造字字库的情况下,能够与文中其他字符无差别地显示所造汉字,并支持检索,因此很多商用古籍数字化项目都使用这种方法。但如果用户同时使用多个数字化项目,并需要对这些项目的数据进行利用整合,则会引起私用区编码的冲突,产生张冠李戴的字形显示,或对同一字符重复编码,造成混乱。在互联网模式下,私用区造字法存在通用性上的不足。

4.2图片替代法

使用插入集外字符的字形图片,可以得到正确的显示,也可以进行数据整合,是一种较为简易快捷的方法。但存在难以检索、字体格式与文中其他字符难以保持无差别显示的不足,限制了此法的应用。

4.3自然语言描述法

使用在规定标记内自然语言描述集外字符的方式,如{左足右行}、{上山左下弓右下殳}等,一般用于生僻字输入的预处理阶段,可以粗略地满足输入、显示和检索的需求。但这只是一种非正式、非常规的替代方案,毕竟在显示上与原字符存在差距,而且自然语言在描述上有较大的随意性,故检索的不确定性也随之增加。

4.4动态组字法

Unicode在2FF0~2FFB区定义了12个表意文字描述符,使用这些标准化的描述符序列对汉字的构造进行说明,解决了自然语言描述法的不规范性,并可利用动态组字软件输出所描述字符的字形。动态组字法[2]可以解决集外字的输入、显示与检索,但需要额外的软件支持,并且字形与原字符也存在一定的差距。

上述的几种方案都存在着某些局限性,目前尚没有一种很好的方案可以综合解决集外字的缺字问题,需要根据不同的应用环境灵活选择。

5研究支持功能

通过以上几种方法,基本可以满足以阅读和一般检索为主的中医古籍数字化系统的需求。但由于生僻字的难读、难懂,且存在大量的异体字、俗体字等字形变化,给研究者造成阅读和理解的障碍,所以还需要一定的研究支持功能,完成对生僻字的音义注释、异体俗体字间的相互转换,做到可以索引并重复使用,避免重复注释的繁琐劳作和遗漏。这些功能可以通过字词间的动态映射表完成。

总之,中医古籍数字化建设中,生僻字的处理是一项基本而又关键的技术,需要前期输入的改进与后期研究功能的支持,需要进行不断的完善,使中医古籍数字化规范化发展,使中医古籍作为中医药知识宝库,更好地发挥指导临床和新药研发等社会效用。

参考文献

[1]Unicode协会.Unicode 5.0标准[M].孙伟峰,李德龙,译.北京:清华大学出版社,2010:365-389.

[2]肖禹,王昭.动态组字的发展及其在古籍数字化中的应用[J].科技情报开发与经济,2013,23(5):118-122.

(收稿日期:2014-02-28,编辑:魏民)

猜你喜欢

生僻字数字化
生僻字里识青铜
揭示数字化转型的内在逻辑
数字化起舞
学习生僻字
高中数学“一对一”数字化学习实践探索
生僻字
中国民族语言的标准与数字化
高中数学“一对一”数字化学习实践探索
歌曲《生僻字》传承汉字文化
多一些《生僻字》这样的网红歌曲