APP下载

国内甲骨文数据库的比较研究

2022-06-26芳,赵

漯河职业技术学院学报 2022年2期
关键词:资料库拓片甲骨

张 芳,赵 娜

(中国文字博物馆,河南 安阳 455000)

2019年11月,习近平总书记致甲骨文发现和研究120周年的贺信中指出,殷墟甲骨文的重大发现在中华文明乃至人类文明发展史上具有划时代的意义。甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉,值得倍加珍视、更好传承发展。新形势下,要确保甲骨文等古文字研究有人做、有传承[1]。

甲骨文出土于河南安阳殷墟,距今3000多年。发现甲骨文120年以来,先后出土甲骨约15万片以上。经过几代甲骨学者的搜集、整理和研究,出版了一批工具书,内容丰富、数量繁多。“互联网+”时代的到来,对甲骨文数据库的建设和利用提供了更多技术支持,也提出了更高的要求,一大批专家学者致力于将现有的甲骨学资料信息化处理,形成类似《说文解字》的集大成者,方便学者快速查找资料、掌握学科发展动向,从而为甲骨学研究提供便利,更好促进汉字文化传播。据《甲骨学一百年》记载,武汉大学于1985年着手将甲骨文输入电子计算机。关于古文字信息系统处理的设计于1988年也取得了突破性的成果[2]。

甲骨文数据库,就是采用计算机技术,将甲骨文字、与甲骨文研究相关的资料等转化为数字化形式进行存储和组织的数据库。目前,甲骨文的数字化主要包括以下几个方面:(1)对甲骨拓片的图像进行去噪处理;(2)通过计算机技术复原甲骨拓片的字形;(3)将甲骨文点阵字形转换成计算机可识别和处理的轮廓字形;(4)实现甲骨文字的编码输入、手写输入和识别,使甲骨文字能够在计算机屏幕上显示出来;(5)甲骨文的考释和缀合;(6)甲骨文研究相关文献资料的数字化。

梳理近几十年的甲骨文数据库建设成果,主要有三种类型。一是甲骨文字库,即甲骨文字形的数字化,包括甲骨文字的输入、输出及释义;二是甲骨文资料库,即对现有甲骨资料如照片、图片、摹本等的收集、录入和检索;三是甲骨文研究文献数据库,即对甲骨文相关研究文献的收录、整理和利用。这些数据库各有千秋,为促进甲骨学研究和发展发挥了重要的作用。为了在“互联网+”时代充分利用现代科学技术传播传承汉字文化,本文通过网络调研和文献调查,选取6种国内甲骨文数据库,进行比较研究,从而为甲骨文研究者提供使用参考,为数据库的进一步发展提出合理建议。

一、国内现有甲骨文数据库概述及样本

(一)香港汉达古籍数据库检索系统——甲骨文资料库

香港中文大学中国文化研究所古文献数据库中心从1996年开始研发制作,全库包括甲骨文资料库、金文资料库、竹简帛书资料库、先秦两汉资料库、魏晋南北朝资料库、中国传统类书资料库、中国古代词汇资料库[3]。

(二)拓片典藏知识暨网络应用——甲骨文拓片数据库

台湾历史语言研究所从2004年开始建设,主要收录史语所收藏的甲骨文拓片,包括考古发掘甲骨拓片、购藏所得甲骨拓片,共计4万余件[4]。

(三)“甲骨世界”数据库

中国国家图书馆研制[5]。

(四)花园庄东地甲骨检索系统

华东师范大学中国文字研究与应用中心研制。该系统收录内容为中国社会科学院考古研究所编著的《殷墟花园庄东地甲骨》(2003年版),提供全文检索[6]。

(五)瀚堂典藏数据库

由北京时代瀚堂科技有限公司开发[7]。

(六)殷契文渊

是在中国社会科学院学部委员、甲骨学殷商史研究中心主任宋镇豪指导下建立的一个甲骨文知识共享平台,包括“三库一平台”——甲骨字形库、甲骨著录库、甲骨文献库、甲骨文知识服务平台[8]。

(七)台湾成功大学甲骨文全文影像资料库

台湾成功大学“甲骨文全文检索与全文影像系统”建构计划始于1995年,原计划名为“世界甲骨学数据库建构计划”,由文学系甲骨学研究室、图书馆、资讯工程研究所联合执行。该系统主要是将学习甲骨文与研究甲骨文的重要征引资料《甲骨文合集》(十三册)、《殷墟甲骨刻辞类纂》(上、中、下三册)及《殷墟甲骨刻辞摹释总集》(上、下册)汇整输入,进行全文检索与全文影像处理,以方便甲骨学界、其他学科领域以及初学者快速取得所需数据,进而推动学术的向前发展。甲骨文全文影像数据库收录甲骨文书目及影像数据41 956条,可通过分类、关键词及拓片影像等进行检索。目前,台湾成功大学的甲骨文合集释文库和甲骨文献集成电子数据库都因缺少后期的管理和维护已经停止更新和使用[9]。笔者在查找资料过程中发现,台湾成功大学甲骨文全文影像资料库需要学校师生的账号密码通过成功大学图书馆进入,因此无法访问。

(八)甲骨文资料数据库

由首都师范大学黄天树教授与河南大学王蕴智教授共同研制。收录海内外甲骨著录与缀合材料32种,系统录入甲骨原片近8万片,刻辞15.73万余条,原文和释文共计约340万字,是大数据、云平台支持下甲骨文字考释研究的重要基础[10]。

(九)甲骨文图文资料库

由安阳师范学院韩江苏教授课题组开发建设。该数据库由甲骨文图片库、释文库、原形文字库三个数据库组成,收录《甲骨文合集》《英藏》《补编》等9种甲骨著录,共计72264片甲骨[10]。

二、国内现有甲骨文数据库比较

综合考虑数据库实际使用及访问情况,本文选择上述前6种甲骨文数据库进行比较。

(一)数据库基本情况比较

截止到2020年12月,对上述前6种数据库的基本情况进行统计比较,统计字段包括收录数据类型、产品类型、收录数量、更新情况、使用成本和移动端应用情况,具体如表1所示。

表1 国内6种甲骨文数据库的基本情况比较(数据截至2020年12月11日)

1.收录数据类型

数据库收录的数据类型包括甲骨实物图像、甲骨拓片图像、甲骨著录书籍和文献,其中超过半数以上的数据库都收录有甲骨拓片,而收录甲骨实物图像的数据库较少。

2.产品类型

6种甲骨文数据库中,有4种为图像加释文的资料库,可见这种类型的数据库更受开发者青睐,使用人群较为广泛,而甲骨文字形库只有一家,可见甲骨文字形的精准数字化仍是一个难点。

3.收录数量

收录数量需要从甲骨片数和文献数量两个维度进行比较。根据数据库公布的数据,《殷契文渊》目前收录的甲骨片数和文献数量都是最多的,但是各数据收录的内容又均有其特色。

汉达甲骨文资料库收录九部甲骨著录书籍,卜辞数量多至67 683片,包括《甲骨文合集》《甲骨文合集补编》《小屯南地甲骨》《苏、德、美、日所藏甲骨》《怀特氏收藏甲骨文集》《殷墟花园庄东地甲骨》《东京大学东洋文化研究所藏甲骨文字》《英国所藏甲骨集》《天理大学附属参考馆甲骨文字》。

拓片典藏知识暨网络应用——甲骨文拓片数据库从2004年开始建设甲骨文拓片数字典藏,分为考古发掘甲骨拓片和购藏甲骨拓片两类,包括史语所收藏的甲骨文拓片、考古学门库房收藏的9000余张《善斋藏契》拓片和史语所傅斯年图书馆收藏的18册甲骨文拓片,总数超过45000张。

“甲骨世界”数据库收录的是中国国家图书馆馆藏的甲骨,不仅收录有甲骨拓片,更有高清甲骨照片,具有无可比拟的优势。

4.更新情况

从时间范围来看,大部分数据库都能保持数据持续更新,确保数据库能够正常运行,花园庄东地甲骨检索系统2008年5月之后没有更新数据。

5.使用成本

在6种数据库中,花园庄东地甲骨检索系统、殷契文渊“甲骨世界”数据库支持免费使用,“甲骨世界”数据库注册后即可免费查看高清大图,香港汉达古籍数据库检索系统、拓片典藏知识暨网络应用可以免费检索信息,获取信息则需要收费,这对个人用户来说还是非常友好的。瀚堂典藏数据库是典型的商业数据库,需要付费使用。

6.移动端

手机移动网络已成为目前获取信息的一种主流方式,开发移动端可以突破IP及硬件的限制,支持用户随时随地访问,目前6种数据库尚未开发APP功能,有4种数据库支持手机网页版浏览,但功能不及电脑端丰富。

(二)检索功能比较

数据库的初衷是为了用户更便捷地查找信息,提高检索效率,因此检索功能是检验数据库功能的一个重要方面[11],本文从检索方式、检索字段和检索结果显示3个方面进行比较。

1.检索方式

国内甲骨文数据库的检索方式比较详见表2。(1)快速检索。快速检索只有一个检索框,不限定字段、词位及词频,系统将在全文中进行检索匹配。在快速检索框中输入检索词,点击“快速检索”即可,体现智能检索优势,操作便捷,检索结果兼顾检全和检准。(2)高级检索。高级检索支持多字段逻辑组合,并可通过选择精确或模糊的匹配方式、检索控制等方法完成较复杂的检索,得到符合需求的检索结果,提高检索效率。(3)专业检索。专业检索可以按照用户实际需要选择检索字段,借助字段间关系运算符和检索值限定运算符构造复杂的检索式[12]。这种方式可以有效提高检准率,但专业性较强,一般用于图书情报专业人员查新、信息分析等工作。本次参与比较的6种数据库均不提供专业检索。(4)二次检索。二次检索功能能有效提升检索效率,提高检准率。

表2 国内6种甲骨文数据库的检索方式比较

2.检索字段

检索字段是对收录数据的特征进行的描述。检索字段越准确、越丰富,则检准率和检全率越高。6种甲骨文数据库设置的检索字段如表3所示,可以看出根据收录的数据类型不同,甲骨拓片、甲骨实物、甲骨文献所选取的检索字段存在较大区别。

表3 国内6种甲骨文数据库的检索字段比较

3.检索结果

检索结果的显示和处理也是衡量数据库检索功能的一个重要指标。本文从检索结果显示、检索结果排序、检索结果保存、检索结果对比4个方面进行比较,详见表4。(1)检索结果显示。数据库的检索结果分为显示内容和显示图片两个方面,显示的内容越丰富,用户所获得的信息越多,大部分数据库都能较为完整地设置字段,尽可能完整地揭示甲骨信息。经过比较,大部分数据库收录的是甲骨拓片和摹本图片,少部分数据库有实物照片。(2)检索结果排序。当检索结果较多的时候,从中找出所需数据也极其耗时耗力,通过结果排序和筛选功能可以有效提高用户获取所需资源的效率。从表4可以看出,“甲骨世界”数据库、殷契文渊有排序功能,但排序字段较为单一。(3)检索结果保存。检索结果是否可以保存和下载直接关系到数据库的利用效果,基本所有的数据库均支持检索数据的复制和图片下载,香港汉达古籍数据库检索系统——甲骨文资料库和拓片典藏知识暨网络应用——甲骨文拓片数据库的部分输出功能需要付费使用。(4)检索结果对比。检索结果对比在开展学术研究时更能提高工作效率,目前,仅拓片典藏知识暨网络应用——甲骨文拓片数据库可选择拓片和实物进行影像比对,其他5种数据库均不具备此功能。

表4 国内6种甲骨文数据库的检索结果显示比较

三、国内甲骨文数据库建设现状

通过对国内6种甲骨文数据库进行比较研究,对我国甲骨文数据库建设情况得出如下结论。

(一)数据库建设各自为政

目前甲骨文数据库的建设大都根据本机构自有资源进行建设,如香港汉达古籍数据库检索系统——甲骨文资料库、拓片典藏知识暨网络应用——甲骨文拓片数据库、“甲骨世界”数据库、花园庄东地甲骨检索系统,尚未形成完整的甲骨学数据规模,只有殷契文渊数据库致力于将国内现有甲骨文相关资料进行全部收录,但目前也只收录了甲骨拓片的著录资料,缺少甲骨实物图片。

(二)数据库存在重复建设现象

由于甲骨文数据库建设初期各建设单位处于自建状态,缺乏沟通和协作,因而在收录内容上存在相同的部分,数字资源的重复建设造成了资源的浪费。如汉达甲骨文资料库和殷契文渊数据库均收录有《甲骨文合集》《小屯南地甲骨》《英国所藏甲骨集》《甲骨文合集补编》《怀特氏收藏甲骨文集》《天理大学附属参考馆甲骨文字》《殷墟花园庄东地甲骨》《苏、德、美、日所藏甲骨》《东京大学东洋文化研究所藏甲骨文字》中的甲骨拓片。

(三)数据库的检索功能有待加强

这6种数据库中只有2种数据库提供二次检索,没有一种数据库提供专业检索。根据使用情况,检索字段的设置还可以更丰富一些,检索结果的显示和筛选功能有待进一步加强。

(四)数据库更新维护相对滞后

数据库建成之后,维护和更新需要的人力、物力成本较高,特别是随着计算机技术和网络技术的飞速发展,数据库的相应技术也需要更新,但由于建设单位资源有限,大部分数据库在完成一期建设之后内容更新过于缓慢,影响了数据库的使用。

(五)收录资料的权威性不够

虽然各数据库在建设过程中尽量追求学术的严谨性,但仍存在收录资料权威性不被认可的现象。一方面,由于甲骨文字的研究处在不断地发展变化中,各专家之间对某些甲骨文字的认识存在学术争议;另一方面,信息技术的发展尚不能完美解决甲骨文字的信息化问题,图形化的甲骨文字与实物之间的差距还有待进一步缩小。如沈建华认为,汉达文库的网站字表中缺失了372个甲骨字头,直接影响到有关字条下的所有卜辞内容,而原形和隶定字的转换等问题上也还存在错误[13];门艺认为,甲骨世界有些隶定字在网页上显示不出来,只能利用代码,而这些代码则不见一个统一的说明[9]。

四、甲骨文数据库建设展望

(一)确定目标,规划好数据库

理想的甲骨文数据库是一个庞大的系统,因此在建立之初,要做好调研和规划,明确建设目标。甲骨文数据库的建设,是为了适应时代特征,弥补使用甲骨文工具书的不足,提高查找资料的效率,促进甲骨文研究。因此,一个完整的甲骨文数据库应包括如下资料:(1)甲骨著录资料,即出土甲骨文原始的材料,包括甲骨文拓片、照片、摹本等原始资料的数字化采集;(2)甲骨文研究文献资料,如关于甲骨文研究的学术论文、著作、视频资料等;(3)甲骨文字库,即对存世甲骨文字进行立体扫描,采集三维数据,进行微痕分析,找出甲骨文字的数据规律;(4)甲骨文缀合资料库,对已有甲骨文字的字形进行数据采集和计算,将海量数据进行保存,分析规律,为甲骨文缀合和鉴定提供数据参考。

(二)整合力量,做好资源配置

甲骨文研究资料繁多且分散,现有数据库收录内容也存在同样的问题,在查找资料时往往需要查找多个数据库,因此,为了充分体现数据库快速查找资料的特性,应该将所有的甲骨文研究资料集合在一个平台上,实现一站式查找,这就需要建设者站在全局高度,对现有的甲骨文研究资料进行汇总,做好统筹规划,合理进行资源配置和分工。可采取以下两种开发形式:(1)建立一个统一的数据库,所有内容集中到一个数据库进行建设,由专家组对内容统一把关,采用统一的数据标准进行建设,这种方式的优点是数据库内容整合性较好;缺点是数据量大,建设周期长。(2)将数据库分成多个子库由擅长的研究机构进行建设,通过设立可兼容的数据标准,待建成后兼容到一个数据平台,通过一个平台同时检索多个子库,并将检索结果统一到一个界面显示,通过连接跳转到相应子库获取详细信息,这种方式的优点是多个子库可同时建设,建设周期短;缺点是需要进行后期数据整合,使用中需要访问多个数据库,影响检索和使用速度。

(三)集中优势力量,建设高标准数据库

为保证数据的统一性,避免数据库重复建设,在数据库建设中应实行标准化管理,将现有的数据标准进行整合,制定出与国际数据标准接轨、符合甲骨文数据特点且具有前瞻性的统一的数据标准,通过使用相同或可兼容的数据标准及信息处理、访问与传输技术,从而实现数字资源的标准化,控制数字资源质量,实现各数据库之间的信息资源共享[9]。为充分利用现有成果,实现资源最大化利用,可在现有较为成熟的数据库的基础之上制定统一标准,整合其他现有数据库的资源,实现现有成果的最大化利用。例如,在建立甲骨拓片数据库时可以参考台湾历史语言研究所“拓片资料库管理系统”设计的拓片 Metadata[14],数据标准应具有层级性、扩充性、整合性、互通性、国际性、便捷性特色。

1.层级性

将拓片基本资料分为拓片资料、原器资料、影像资料,层级分明便于资料分类、著录等工作。

2.扩充性

在设置元数据时应设置有特殊字段,以便为了满足日后扩充的需要。

3.整合性

数据标准的设计应考虑和图书馆、博物馆和研究机构资料库的字段设计,符合各类机构的保存、编目、流通、出版、展示和研究等典藏目的。

4.互通性

数据标准的设计应可以实现各研究机构数据库之间的数据互通,实现信息共享。

5.国际性

在数据标准设计时应考虑未来国际间资料库之间交流数据的需要,尽量使采用的数据标准可以和国际性的元数据标准相兼容。

6.便捷性

数据标准的设计是为了日后检索时更加快捷地检索出所需信息,因此在设计时应根据使用者的习惯充分考虑检索字段的设置需求,帮助使用者更快更准获取信息。

(四)严格把关,确保数据库建设质量与速度

1.注重数据库的权威性

甲骨文研究专业性强,准确性与权威性是数据库的生命。因此,在数据库建设过程中应成立专家组,对资料的著录、甲骨释文等专业内容进行严格把关,确保录入数据的准确性和权威性,高质量完成数据库建设。

2.把握数据库建设的时效性

当前国内很多机构都在进行甲骨文数据库的建设,争抢甲骨文字专家这个重要的资源已成为一个关键性的问题,只有尽快与专家建立合作关系,建设成可投入使用的数据库,才能真正占领甲骨文数据库的高地。

3.注重数据库的实用性

为了保证数据库的建设更符合使用者的需求,在建设过程中,应充分与专家学者沟通,了解研究需求和普及需求,有针对性地提供数据支持,如针对甲骨缀合工作提供相关软件及数据支持,针对研究需要提供文献引用分析等,充分发挥计算机技术对学科发展的促进作用。

(五)合理解决知识产权问题

建立一个大而全的甲骨文数据库,必然涉及多家单位收藏的甲骨文资料,将这些资料数字化的过程中要做好收藏单位、建设单位、数据库所有者之间的知识产权划分以及由此产生的经济纠纷,并平衡好知识产权保护与用户使用感受之间的关系。

取得版权有两种方式:(1)和现有的数据库内容提供者协商一次性取得相应数据的版权,所有版权集中到一个数据库出版商,整合到一个平台提供给用户使用;(2)版权仍属于现有的数据库内容提供者,采用可兼容的数据标准,通过一个平台进行检索,在用户使用数据时根据使用的数据库内容协商合理分配收入。

(六)注重数据库维护和管理

数据库的建设是一个庞大的工程,后期的维护包括数据库日常使用维护、数据库技术与计算机技术同步升级、数据库内容定期更新、数据库使用情况分析等,需要专人专门管理以及庞大的资金支持,确保数据库的正常运行和价值发挥:(1)在建设初期做好前期建设成本的预算,同时也要做好后续维护与管理费用的预算,确保建设资金的稳定投入;(2)为提高数据库的时效性和使用效率,增强数据库的竞争力,要注重紧跟甲骨文研究成果发展步伐,密切关注搜集最新研究成果,对数据库内容及时补充和更新,使之更加全面和准确。

(七)加大对数据库的宣传和推介

为提高甲骨文数据库的利用率,数据库除了应兼具专业研究及普及教育的双重功能,既能满足专业人员查找资料、科学研究之需要,又能为大众提供权威的甲骨文入门资料,还应适应时代要求,做好宣传和推介,应从以下几方面入手。

1.根据不同用户需求制订宣传推介计划

针对甲骨文专业研究人员,应注重其科学研究方面的功能介绍;针对大众,应注重甲骨文识别、甲骨文输入法等功能的介绍,引起大众对甲骨文的学习兴趣,提供一个甲骨文百科全书查阅平台。

2.数据库平台应设置互通板块

甲骨文数据库平台可以打造一个让专家学者足不出户开展学术交流的平台,通过互联网技术实现头脑风暴,增进学科间的交流。同时,可以设置一个开放文献版块,在保护作者的知识产权的前提下,将甲骨学最新研究成果通过网络发布,与传统出版渠道相比可大大缩短出版的时间,提高时效性,有效促进学科交流。

3.丰富数据库推介渠道

宣传和推介数据库的渠道包括各高等院校、甲骨收藏机构、中小学以及网络渠道等。目前,征集评选甲骨文释读优秀成果已经得到社会广泛关注,甲骨文数据库可以作为参考资料提供给社会公众。

综合以上研究,本文的不足之处有两个方面:一是在进行国内甲骨文数据库比较时选取的数据库样本较少,由于部分数据库尚未公开使用,本文只选取了6种国内甲骨文数据库,在反映目前甲骨文数据的建设情况方面相对来说具有局限性;二是本文选取的比较指标具有普遍性,缺乏针对甲骨文数据库的特性进行甲骨文专业研究功能方面的深入比较和研究。

甲骨文数据库是甲骨学科在“互联网+”时代的新发展,对整合现有甲骨学研究资料、促进甲骨学科发展和汉字文化传播具有积极的意义。在建设甲骨文数据库的过程中许多研究机构进行了有意义的探索,如何紧跟时代发展步伐,将新技术运用到甲骨文数据库的建设中,建设一个学者信服、内容齐全、使用方便的甲骨文数据库,促进汉字文化繁荣发展,值得我们每一个汉字工作者深思。

猜你喜欢

资料库拓片甲骨
《韦洽墓志》拓片
五代南汉李纾墓志拓片
基于内容与协同过滤的GitHub学习资料库推荐
字溯甲骨∙文承龙韵
国家社科基金重大项目“‘古今字’资料库建设与相关专题研究”成果鉴定会顺利召开
北宋《曲行殷墓志》拓片
拓片制作中的用墨技巧
施工企业技术资料库的建立与完善
说甲骨新缀所见的“南孟”与“奠子方”
甲骨释字四则