APP下载

基于句子匹配的《黄帝内经》异文自动发现研究

2015-01-10

科技视界 2015年35期
关键词:刊本异文黄帝内经

谢 靖

(南京中医药大学经贸管理学院信息管理系,江苏 南京210023)

0 引言

异文是指古代同一文字材料在流传过程中出现的文句互异,中医古籍文献中存在大量异文,对其中因通假、古今、异体字而造成的异文进行对比分析有助于中医古籍文献的学习与研究。我国异文研究历史悠久,古人对经传的注疏中就发掘了许多异文,近现代也有不少学者系统研究中国古籍的版本异文:李索以抄成于南北朝至初唐时期的写卷《春秋经传集解》与以宋刻本为底本的传世本相比勘的异文为研究对象,对敦煌写卷《春秋经传集解》进行了对比研究[1];秦淑华通过词语异文考察了《史记》与《战国策》的异文情况,为研究先秦时期的中国史学文献提供了支持[2];俞绍宏等通过敦煌写本《诗经》异文中的隶定古文异文,研究其先秦古文字的隶定形式的手写形,展现中文古籍中的正字异体[3]。自20世纪90年代以来,随着计算机技术的发展,学者们提出了一系列利用信息技术进行异文研究的方法:常娥等描述了中国古籍自动校勘系统的设计及实现,并进行了实际勘校[4];肖磊等提出了基于句珠相似度的古籍异文版本自动识别算法,能够在异文句珠中不断地去掉最长同文,并输出异文结果[5]。

本研究旨在通过句子匹配算法,对中医古籍文献的经典《黄帝内经》进行不同版本的异文自动识别。通过自动化的异文比对,实现对中医古籍文献异文的快速提取,为中医古籍文献异文研究及中医古籍文献智能化信息处理研究做有益探索。

1 数据来源与收集整理

文章以《黄帝内经》中的《素问》作为研究对象,展现句子匹配算法在中医古籍文献异文自动发现工作中的实际效果。对于《黄帝内经》的异文研究,一直是中医文献学家的关注热点:郝娟、沈澍农将《灵枢经》《黄帝内经太素》异文根据形成原因和形音义联系归纳为八种基本类型,并进一步分析例释[6];李怀芝以《素问》、《灵枢》、《太素》、《甲乙经》为对象,进行了文句互异对比[7]。文章在参考前人研究基础上,利用句子匹配算法,对《黄帝内经》中《素问》各版本异文做自动识别。

1.1 《黄帝内经》中《素问》各版本的成书年代

《素问》汉晋传本:不存世。但《脉经》有部分引文、别传本《甲乙经》中有载文。南北朝传本:也不存世。但《黄帝内经太素》的底本为北朝传本,王冰次注本祖本,全元起注本为两个不同的南朝传本。隋唐传本:现存杨上善《黄帝内经太素》、王冰《黄帝内经素问》,在敦煌卷子中目前发现两个单篇别抄本。宋金元:《重广补注黄帝内经素问》。宋金元的刊本情况:北宋刊本原本目前未见、南宋刊本有理宗绍定年间刊本,原本也未见。但明代顾从德本是翻刻宋本。金刊本,北京图书馆有原本残卷。元刊本有两种,胡氏古林书堂刊本与不明具体年代的残卷本。明传本:明英宗《正统道藏》本、明宪宗成化十年熊氏种德堂刊本、山东布政司刊本、赵府居敬堂刊本、吴悌本、顾从德家传宋本翻刻本、历城儒学校谕田经校本、绣谷书林周曰校(周对峰)刊本、吴勉学《医统正脉》本、潘之恒《黄海》本、詹林刊本。清刊本:清刊本很多,而且有不少的《素问》、《灵枢》合刻本,合刻本著名的佳本有金陵本,京口文成堂本,分刻本有京口遵仁堂本;近现代,主要有郭霭春先生编著的《黄帝内经素问校注语译》等。

1.2 《素问》版本异文的文本特点

在考察各版本《素问》的文本基础上,文章发现各个版本大同小异,具体来说有以下几个方面特点:

(1)篇章结构大体相同,因此应该以篇章为单位进行处理,以免异文配对发生跨越篇章界限的错误。有时某个版本可能多出一些篇章,对于多出的篇章,不加比较就好了。

(2)各版本同一篇章的句子基本对应,且句子个数相近,因此原则上可以根据标点分割句子,逐句进行比较。但是标点系后人所加,各个版本的断句或有不同。当然,完全忽略这些标点也不可取,可能导致篇章范围内的异文配对错误。文章的做法是先按标点分割句子并隐去所有标点,接着寻找两版本之间相似度最大的句珠配对,然后在句珠中发现异文。

(3)大多数句珠的文本是完全相同的,只需关注那些文本不完全相同的句珠。文章的基本方法是从句珠中去掉相同文字,遇到异文时再向后搜索相同文字以确定异文的右边界并输出异文,如此循环直至句珠遍历完毕。

1.3 实验数据及整理

在众多的《黄帝内经》的版本中确定四个比较有影响力的《素问》版本:郭霭春版的《黄帝内经》(以下简称郭本),胡氏古林书堂《新刊黄帝内经灵枢》刻本(以下简称胡本),熊宗立种德堂以《黄帝素问灵枢集注》元本为底本重刻的版本(以下简称熊本)以及《重广补注黄帝内经素问》(哈佛燕京图书馆藏中文善本古籍特藏,以下简称重广本)。对这四个版本的素问以整句的形式进行电子化,文章主要针对的是非异体字形式的异文自动识别,因而将本次实验的黄帝内经素问版本通过统一字体,防止异体字出现。

2 基于句子匹配的《素问》异文识别

2.1 《素问》中的句子匹配

文章从信息处理角度将异文定义为:句珠中完全不同的两个子串。允许其中一个子串是空串,但不能都是空串。例如,“春必病溫:春必溫病”不是一个异文,因为其中含有相同子串“必”,需分解为“春:溫”和“溫:春”两个异文。

按照这个定义得到的异文绝大多数是单字对单字,也有些是空串对单字、空串对多字、单字对多字、多字对多字,等等。例如:

(1a)此所謂氣之標,蓋南面而待之也。(重广补素问68)

(1b)此所謂氣之標,蓋南面而待也。(熊本素问68)

(2a)今時之人,年半百而動作皆衰,時世異耶?(郭本素问一上古天真论)

(2b)今時之人,年半百而動作皆衰者,時世異耶?(重广补素问一上古天真论)

(3a)故病有五,五五二十五變,及反其傳化。(熊本素问19)

(3b)故病有五,五五二十五變,反其傳化。(郭本素问19)

(4a)岐伯曰:亢則害,承乃制,制則生化,外列盛衰,害則敗亂,生化大病。

(熊本素问68)

(4b)岐伯曰:亢則害,承乃制,制生則化,外列盛衰,害則敗亂,生化大病。

(胡本素问68)

从文字语言学角度来看,(1)中的异文都应该是“衰:衰者”,按本节的定义,这个异文是“衰:*”(*为异文字符),因为简单的字符串匹配并不能确定应把“衰者”看做一个词还是把“衰”看做衍文。类似地,(2)中的异文应是“*:反其傳化”,这里被当做是一处。可以考虑在本节异文发现算法的基础之上用统计方法得到更具语言学或文献学意义的异文数据。

2.2 基于句子匹配的《素问》异文匹配算法

文章中异文配对算法的基本思想是:比对并去掉两个序列的共同前缀,使得异文出现在串首,然后从两个序列的串首开始搜索相同子串。与“异文”相对,相同子串可称之为“同文”。同文之前的便是异文。如果句珠中有多处异文,则重复上述过程。

搜索同文时可能存在多个解。例如:

(5a)岐伯曰:陰陽之氣,高下之理,大小之異也。(熊本素问70)(5b)岐伯曰:陰陽之氣,高下之理,太少之異也。(郭本素问70)

此时同文有许多解,例如位置11:11上的“理”(不包括标点符号排序),依此得到异文“大:太”;位置 14:14 上的“之”,依此得到异文“小:少”,等等。其中同文最长的是最优解,因为同文越长,则左边的文字差异就越可靠。对于这个例子来说,位置11:11是最优解,因为从这个位置上开始的同文“岐伯曰:陰陽之氣,高下之理,太少之異也。”最长,由此得到异文“大小:太少”。

如果存在多个最长同文,则选择位置之差最小者。为便于观察,将例(6)重列于下:

(6a)岐伯曰:亢則害,承乃制,制則生化,外列盛衰,害則敗亂,生化大病。

(熊本素问68)

(6b)岐伯曰:亢則害,承乃制,制生則化,外列盛衰,害則敗亂,生化大病。

(胡本素问68)

去掉共同前缀之后变为:

(6a’)則生化,外列盛衰,害則敗亂,生化大病。(6b’)生則化,外列盛衰,害則敗亂,生化大病。

搜索到最长同文“化,外列盛衰,害則敗亂,生化大病”,左边是“則生:生則”。如前所述,其中含有同文“化”,不符合我们的定义,需要递归调用异文发现算法来处理。对此,向后搜索最长同文时有三个解,长度均为 1,即 2:2(“化”)、1:3(“則”)和 3:1(“生”),其中第一个解同文位置之差为0,故确定第一处异文“衛:蔡”。去掉共同前缀之后,可得到第二处异文“則:生”。

2.3 《素问》异文匹配实验结果

根据上一节列出的基于句子匹配的《素问》异文匹配算法思想,文章对四个版本的《素问》进行了异文自动匹配,相关结果如下表1。

表1 异文匹配实验结果

从《素问》的4504个句子中,共得到四版异文263例。以上数据进一步表明,郭霭春版素问与胡版素问的差异最大,重广补素问与郭霭春版素问的差异最小。这个结果表明,基于句子匹配的异文自动识别可以发现中医古籍文献版本异文中完全不同的两个子串,有助于中医古籍版本的自动化研究。

3 结语

本文以中国古籍文献中的异文为研究对象,以《黄帝内经·素问》为实例,通过基于句子匹配的异文识别算法,探索了中医古籍文献的异文自动识别。相关实验表明,对于古籍版本中的不同子串识别(非异体字异文识别)研究,基于句子匹配的思想具有较好的识别效果,能够对比出不同版本的差异,为版本研究提供有力信息支持。

[1]李索.敦煌写卷《春秋经传集解》异文研究[M].北京:中国社会科学出版社,2007.

[2]秦淑华.《史记》与《战国策》的异文研究[J].汉字文化,2002(4):42-43.

[3]俞绍宏,李索.敦煌写本《诗经》异文中的隶定古文释例[J].古籍整理研究学刊,2015(3):34-37.

[4]常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007(2):83-88.

[5]肖磊,陈小荷.古籍版本异文的自动发现[J].中文信息学报,2010(5):50-55.

[6]郝娟,沈澍农.《灵枢经》《黄帝内经太素》传本与史崧传本之异文例释[J].江西中医药大学学报,2006(3):17-19.

[7]李怀芝.《素问》《灵枢》《太素》《甲乙经》异文例释[J].山东中医药大学学报,2008(3):226-227.

猜你喜欢

刊本异文黄帝内经
Instructions for Authors
Screening influencing factors of blood stasis constitution in traditional Chinese medicine
Network Biological Modeling:A Novel Approach to Interpret the Traditional Chinese Medicine Theory of Exterior-Interior Correlation Between the Lung and Large Intestine
谈《红楼梦》第三十四回的一处异文——读红零札
Mathematical Analysis of the Meridian System in Traditional Chinese Medicine
从刊本到手稿——王建中钢琴作品《山丹丹开花红艳艳》研究(上篇)
安大简《诗经·召南·小星》异文考辨
明代戏曲刊本插图的非叙事与图像重构
《太上洞渊神咒经》异文考辨
西夏文刊本《三才杂字》残页考