《论语》中古注疏语料库的建设

2017-01-28孙尊章徐凌

山西档案 2017年5期

关键词：注疏单元格语料

文 / 孙尊章徐凌

《论语》中古注疏语料库的建设

文 / 孙尊章徐凌

古代汉语语料库的研究，还有很大的发展空间。专题小型语料库的建设，能够为研究带来极大的便利。建设思路可包括：对电子文本进行校对；将语料进行分离，剥离不需要的语料，将需要的语料进行分类；对语料进行加工，包括分词和词性标注。

论语；中古；注疏；语料库

随着计算机的普及和信息技术的发展，科研工作中越来越多地使用到了语料库，这为我们的研究带来了极大的便利。语言的研究应基于语言事实来展开。因此，它需要占有尽可能详尽的语料。传统的语言学研究，靠人工来收集、分析语料，耗时太大，枯燥且易出现错误。汉语史研究中语料库的使用，能够使我们的研究建立在坚实的语料基础上，使我们的研究更有说服力。

但相对于现代汉语和外语而言，古代汉语语料库的建设还处于较弱的位置。我们在从事《论证》中古注疏研究时，建设了一个《论语》中古注疏的小型语料库，主要包括《论语》正文、何晏注及皇侃义疏。现将建设思路略作解析，以就正于方家。

一、电子文本的校对

首先，选用已有的电子版本进行校对。已有的电子版本大多较粗糙，不仅有大量的错别字，甚至存在大段缺失的情况。因此，我们先使用善本对它们进行了校对。

我们选取的底本是中华书局1998年出版的四部要籍注疏丛刊《论语》。此本选用的是清同治十二年粤东书局据《知不足斋丛书》本刻《古经解汇函本》。

参考的校本有以下两种：

其一，《儒藏》精华编104册经部四书类《论语义疏》。此本原为1923年日本大阪怀德堂的排印本，由武内义雄据日本国内多种古抄本合校而成，其特点是保持了抄本皇侃《义疏》的体式，而不像根本逊志刻本那样将皇侃《义疏》的体式完全比照中国习见的注疏体式作过改动。

其二，《儒藏》精华编281册出土文献类《唐写本论语集解》。20世纪初以来，敦煌及吐鲁番等地出土了唐人写何晏《集解》单行本60多件，同时还有白文《论语》、《论语郑氏注》和《论语皇侃义疏讲经提纲》。此本既以《集解》写本为底本和校本对校，并以白文《论语》、《论语郑氏注》及有关刊本为参校本，并参考《论语皇侃义疏讲经提纲》进行整理与研究，也有一定的参考价值。

在语料整理过程中，我们还参考了清吴骞撰《皇氏论语义疏参订十卷附录一卷》，《续修四库全书》第153册，经部·四书类等。

二、语料的分离

我们在将文本进行了多次校对之后，得到了一个错误尽可能少的《论语》中古注疏语料。在这个基础上，将语料进行分离。把语料中的四种类型分别用不同的颜色标上。黑色，包括注疏用语、注中全部引用《论语》原文的话、疏中全部引用《论语》原文或何注的话。这部分是不列入研究范围的、需要剥离的语料；橙色，属于《论语》正文；红色，属于何晏注；蓝色，属于皇侃疏；再利用POI技术对文档进行分享操作。POI技术中的HWPF介面的主要功能是读写Word，完成提取Word正文文本、批注、Word总页数、总页数等一系列操作，功能强大且易用。借助它，我们可以方便地将正文、何注和皇疏分别分离到三个word文档中。同时去除文档中的标点，得到了纯净的文本。方法如下：

POI下载解压后，首先将POI中操纵Word有关的包导入项目中，然后创建一Java类，在类中导入java.io包中的File、FileInputStream类，poi包中的Now、HWPFDocument、CharacterRun和Range等类。

三、分词和词性标注

我们分别将三个文档，用“MyTxtSegTag分词和词性标注工具”进行初步的分词及词性标注。不过，这个软件对繁体字无法识别，必须先将语料转化为简化字之后再操作。另外，这个软件对古代汉语语料的分词和词性标注错误较多。用它操作完毕后，还必须进行详细的人工校对。

完成分词和词性标注后，我们将得到的内容，转入excel表格中，何晏注和皇侃疏各建立一个excel表格。每一个词及其词性标注内容，都占用一个单元格，每一行只存放一个词。

在何晏注和皇侃疏这两个excel工作薄中，分别建立以下工作表：

（1）原文：这是直接从word中转换到excel表格中的内容。

（2）排序后：这个表里面的数据，是将所有数据按音序排列后的内容。

（3）去除重复后：将排序后的数据，通过excel表格“筛选”中的“高级筛选”功能，勾选“选择不重复的记录”，并设置“将筛选结果复制到其它位置”，在“复制到”里面选择B1单元格。由此去除重复的记录，即词形和词性都完全相同的记录，只保留一个。

（4）按音节排序：将去除重复记录后的数据，再一次按音节排序。

（5）去除被释词：在前面的词性标注中，已经将所有被释词等不需要列入统计的语料，用“bj”进行了标注。在此表中，删除所有带有“bj”字段的单元格。它的方法有许多，下面提供两种办法。其一，点击“编辑”菜单，选择“查找”功能，在“查找内容”框中输入“bj”，并点击“查找全部”，再在查找结果框中全选，然后在工作表上点右键，选择“删除”，在弹出的对话框中选择删除“整行”。其二，点击“编辑”菜单，选择“替换”功能，在“查找内容”框中输入“*bj”，“替换为”框中不输入任何数据，并点击“全部替换”。这样，所有带被释词的单元格，都变成了空白单元格。之后，我们再将所有空白单元格删除。它的方法是：选定需要去除空白单元格的列，再点击“编辑”菜单，选择“定位”功能，在“选择”下面的内容中，选择“空值”，（如图）然后右键点击工作表，在弹出的菜单中选择“删除”，并选择“下方单元格上移”。

说明：“*bj”，表示带有字符“bj”的单元格的所有内容。

（6）单音词：将“去除被释词”工作表中的数据导入到此表中，再在B1单元格里输入“=LEN(A1)”，填充至Bn单元格。在C1单元格输入“=MID(A1,2,1)”，填充至Cn单元格。

说明：“=LEN(A1)”的目标是，在B1单元格中返回A1单元格的字符数。

“=MID(A1,2,1)”的目标是，在C1单元格中返回A1单元格中的第2个字符的内容。

若B1单元格显示的是3，表明A1单元格的字符数是3个，那么A1单元格里面的词肯定是单音词。若B1单元格显示的是4，表明A1单元格的字符数是4个，那么A1单元格里面的词有可能是单音词，也有可能是复音词。因为在标注词性时，有些词的词性是用两个字母来标注的，如助动词，用的是vu，再如人名，用的是nh。这就需要第二步的判断。

若C1单元格显示的是“/”，表明A1单元格的第二个字符不是汉字，而是汉字和词性标注之间的符号“/”，那么A1单元格里面的词肯定是单音词。若C1单元格显示的不是“/”而是汉字，则表明A1单元格的第二个字符是汉字，说明A1单元格里的词是复音词。

以上数据得出后，再进行“排序”中的“自定义排序”操作，设置“主要关键字”为“列B”，“次要关键字”为“列C”，“第三关键字”为“列A”，都使用“升序”排列。这样，所有B列为3的，或B列为4同时C列为“/”的数据，都排在了前面。这些全部是单音词。保留这些数据，删除其它，就得到了单音词表。

（7）双音词：将“去除被释词”工作表中的数据导入到此表中，再在B1单元格里输入“=LEN(A1)”，填充至Bn单元格。在C1单元格输入“=MID(A1,3,3)”，填充至Cn单元格。得出数据后，再按前面的办法，继续进行“排序”中的“自定义排序”操作。所有B列为4同时C列为汉字而非“/”的数据，或B列为5同时C列为“/”的数据，都排在了前面。这些全部是双音词。保留这些数据，删除其它，就得到了双音词表。

（8）三音词：将“去除被释词”工作表中的数据导入到此表中，再在B1单元格里输入“=LEN(A1)”，填充至Bn单元格。在C1单元格输入“=MID(A1,3,3)”，填充至Cn单元格。

得出数据后，再按前面的办法，继续进行“排序”中的“自定义排序”操作，内容同上。所有B列为5同时C列为汉字而非“/”的数据，或B列为6同时C列为“/”的数据，都排在了前面。这些全部是三音词。保留这些数据，删除其它，就得到了双音词表。

（9）四音及以上词：除了刚才所列的“单音词”、“双音词”及“三音词”三类之外的所有其它“去除被释词”工作表中的数据，都归入此表。于是，我们得到了“四音及以上词”的数据。

（1 0）单音词词类统计：将“单音词”工作表中的数据导入此表。再在B1单元格里输入“=MID(A1,3,2)”，填充至Bn单元格。之后用“排序”里面的“自定义排序”功能，设置“主要关键字”为“列B”，“次要关键字”为“列A”，都使用“升序”排列。

(1 1)双音词词类统计：将“双音词”工作表中的数据导入此表。再在B 1单元格里输入“=MID(A1,4,2)”，填充至Bn单元格。之后用“排序”里面的“自定义排序”功能，设置“主要关键字”为“列B”，“次要关键字”为“列A”，都使用“升序”排列。

（12）双音词结构分析统计：将“双音词”工作表中的数据导入此表。按照对双音词结构判断的标准，对除专有名词在外的所有双音词进行结构分析。之后再将它们排序，分析统计双音词的结构。

（13）词语使用频率统计：将“原文”工作表中的数据导入此表。先去除被释词（方法同上），再在B1单元格里输入“=COUNTIF(A:A,A1)”，填充至Bn单元格。之后用“排序”里面的“自定义排序”功能，设置“主要关键字”为“列B”，“次要关键字”为“列A”，都使用“升序”排列。

通过以上步骤，建立起《论语》中古注疏语料库后，我们可以更好地统计分析《论语》中古注疏语言的情况，提高语言研究质量。在词汇研究中，这可以快捷地统计词汇的使用频率、单音词和复音词的基本信息，以及词语搭配的规律。在语法研究中有了这个语料库作为坚实的基础，可以高效地统计双音词的结构，对《论语》中古注疏语料的词类进行穷尽性研究。

[1]四部要籍注疏丛刊本.论语[M].北京:中华书局,1998.

[2]北京大学《儒藏》编纂中心.论语义疏[M].北京:北京大学出版社,2007.

[3]北京大学《儒藏》编纂中心.唐写本论语集解[M].北京:北京大学出版社,2007.

[4](梁)皇侃.论语义疏[M].北京:中华书局,2013.

[5](清)吴骞.皇氏论语义疏参订十卷附録一卷[M],上海:上海古籍出版社,1996.

[6]黄青云,裴冬菊.POI在Word文档不同颜色文本分离中的应用研究[J].南昌工程学院学报,2014(3).

江西省高校人文社科项目“《论语》汉魏六朝注疏词汇研究”(项目编号：YY1524）、国家社科基金重大项目“汉语词汇通史”（项目编号：14ZDB093）、江西省社会科学规划项目“六朝至宋《论语》四种注疏词汇比较研究”（项目编号：17YY07）的阶段性成果。

（责任编辑：虞志坚）

孙尊章（1979-），男，广东梅州人，博士，江西农业大学人文与公共管理学院教师，研究方向：汉语史。

徐凌（1977-），女，河南鹿邑人，四川大学文学与新闻学院博士研究生，江西农业大学人文与公共管理学院教师，研究方向：汉语史。

G256；H13

1005-9652（2017）05-0174-03