APP下载

藏医药古籍文献抢救性收集整理及数据挖掘模式研究

2016-01-26佳张艺邓都降拥四郎成都中医药大学四川成都637西南民族大学四川成都6004

中国民族民间医药 2015年4期
关键词:收集古籍数据挖掘

聂 佳张 艺邓 都降拥四郎.成都中医药大学,四川 成都 637; .西南民族大学,四川 成都 6004

藏医药古籍文献抢救性收集整理及数据挖掘模式研究

聂佳1张艺1邓都2降拥四郎1
1.成都中医药大学,四川成都611137; 2.西南民族大学,四川成都610041

【摘要】目的:通过对藏医药古籍的收集、整理及挖掘,厘清藏医药学术渊源、学术流派及成就,为藏医药文化保护与传承研究提供借鉴.方法:以西藏、青海、四川等几大藏族聚居区的藏医学院、图书馆、藏医院及民间个人收藏为主要收集对象,走访关键人物、田野调查等收集藏医药古籍文献资料,整理、核对相关信息,规范术语,建立数据库,探索数据挖掘方法.结果:共收集藏医药古籍410部,涉及藏医、藏药、及综合藏医药类知识,分别建立藏医药古籍书目数据库、图片数据库等,并根据古籍类属特点分别确立聚类、关联规则等数据挖掘方法研究模式.结论:利用现代计算机技术手段对藏医药古籍进行整理及挖掘研究,不仅可实现对藏医药古籍的原生性保护,也使其中蕴含的精髓得到科学体现.

【关键词】藏医药;古籍;收集;整理;数据挖掘

Collection,collation and mining rescue research of Ancient Tibetan medicine books

NIE Jia1Zhang Yi1Deng Du2Jiang-Yongsilang1
1. Chengdu University of Traditional Chinese Medicine,Chengdu 611137,China;
2. Southwest university for Nationalities,Chengdu 610041,China

Abstract:Objective Clarify the Tibetan medicine academic origin,academic schools and achievement,provide reference for the protection and inheritance of Tibetan medicine culture based on the ancient Tibetan medicine books collection,collation and mining.Methods In Tibet,Qinghai,Sichuan and other major Tibetan inhabited areas of the Tibetan Medical College,library,hospital of Tibetan and folk personal collection as the main collection object,collecting visited key figures,field investigation of ancient Tibetan medicine books of literature,sorting,checkthe related information,standardized terminology,establish database,to explore the methods of data mining.Results There are 410 ancient books collection of Tibetan medicine,Tibetan medicine,Tibetan medicine,and relates to the comprehensive knowledge of Tibetan medicine,Tibetan medicine ancient books bibliographic database are established,the picture database,and respectively established clustering,association rules data mining method to study the mode according to the characteristics of the genus in ancient books.Conclusions On ancient Tibetan Medicine Books Collation and mining research using modern computer technology,not only can realize the primary protection of Tibetan medicine books,also make which contains the essence to get the scientific embodiment.

Key words:Tibetan Medicine; Ancient Works; Collection; Arrangement; Excavate; Pattern

1 研究背景

1. 1意义藏医药学是藏族文化的重要组成部分,对研究藏族社会的发展具有极其重要的价值.民族医药古籍文献作为民族医药文化的集中体现,具有鲜明的地域性与民族性.藏医药古籍文献资料记载了历代名医专家重要而丰富的临床医疗经验和精辟的理论,整理发掘其中的藏医药学文献资源,是后人在从事临床医疗、教学和科研工作中可供学习与借鉴的宝库.

1. 2研究现状

1. 2. 1藏医药古籍特色显著,保护、研究形势紧迫藏医药古籍既有文物价值又具学术特色,其以藏文、古藏文记录为主,民族特色鲜明、内涵丰富、种类齐全、蕴藏量巨大.如四川甘孜州是藏医药的发祥地之一,南派藏医药的故乡,当地绚丽多姿的康巴文化具有鲜明的地域特色,其中甘孜州南派藏医药、德格印经院、噶玛噶孜画派唐卡等典型代表进入了第一批国家级非物质文化遗产项目[1-3].据初步统计,目前国内先后抢救挖掘藏医药古籍文献2000多部(函),整理出版800多部,完成《藏医药经典文献集成丛书》( 100部),《藏医药大典》( 60卷),《四部医典唐卡大详解》( 18卷)等重大古籍文献整理出版工程.目前在藏医药古籍整理中,尝试引入包含普查和典型调查在内的田野调查法、藏医药文献藏文特色数据库,以及藏医古籍信息化平台等新思路.但由于版权保护、文化信仰等原因,藏医药古籍产生的即时经济效益和社会效益并不突显,加之藏族聚居区生活条件艰苦、科研经费匮乏、古籍存储条件简陋、古籍保护专门人才缺乏等等,很多古籍仍处于“尘封”状态.随着南派藏医药非物质文化传承人唐卡·昂翁降措等大家的去世,精通古藏文和藏医药专家的减少,整理研究队伍更是人才匮乏,因此,藏医药古籍保护研究工作刻不容缓[4-5].

1. 2. 2藏医药古籍研究有待深入挖掘藏医药古籍是不可再生的知识资源,若保护措施不力容易破损或老化,目前,许多科研机构虽都意识到了保护古籍的重要性,加大投入对其修复和扫描数字化,用缩微技术或者电子扫描的方式

制作成电子版本,从而代替传统的纸质文本保护中医药古籍纸本,但是数字化程度均比较初浅,主要停留在通过扫描进行数字化的录入阶段,只是对古籍文献资源进行汇集和扫描,未对资源进行深入数据挖掘和开发利用,未能揭示潜在的知识和内容价值,其中所蕴含的巨大而宝贵的信息资源没有得到有效利用[6-7].

2 藏医药古籍的收集、整理

2. 1确定调研对象以西藏、青海、四川等民族大学图书馆、藏医院、藏医学院、印经院、藏传佛教寺庙等藏医药古籍代表性收藏单位以藏医民间个人等所收藏的藏医药古籍为调研对象,广泛收集,核定版本.

2. 2确定调研规范参照中华古籍保护计划制定的文献古籍普查规范,以及古籍定级等相关标准,研究制定藏医药古籍调研的项目、数据采集规范标准,并制定相关数据汇交方案.

2. 3文献征集通过实地调研、检索、访谈等方式,结合参考《中国少数民族古籍总目提要》、《藏医药经典文献集成》等对纳入调研范围的对象进行调研,采集相关数据,并适时汇交.

2. 4数据汇总进行项目交流汇总,对全部调研数据进行整合、校对,厘清历代藏医药代表人物姓名、著作及著作所藏地.

2. 5编目在四川省民族医药文献书目课题前期工作以及各地文献整理情况梳理汇总的基础上,系统开展调研,编纂410部藏医药古籍文献目录,包括书名、语言类别、著者等基本信息,如表1.

表1 已编藏医药古籍文献目录举例

2. 6古籍扫描、图片处理①根据扫描仪、古籍数字化平台特点,参考国家标准,拟定古籍图像扫描规则,图片编号和文件夹命名方法;根据确定的书目,进行扫描古籍;扫描过程中,记录文献的页码和破损情况.②为便于古籍数字化平台识别,须按照平台要求对扫描的古籍图片逐页地进行黑白转化、倾斜度调整.③为下一步对古籍进行源数据著录,构建相关数据库,待古籍图片的逐步扫描和处理完成后,将已转化的图片上传至服务器.

3 藏医药古籍挖掘研究

3. 1藏医药古籍文献书目数据库采用目前流行的C/S与B/A/S多层结构设计,以J2EE技术架构构建藏医药古籍数字化应用平台,基于古籍数字化应用平台,以确定的书目为研究对象,参照《中国少数民族古籍总目提要》、《藏医药经典文献集成》等工具书,根据国家相关标准制定藏医药古籍源数据著录标准,完成所有书目的源数据著录;随着源数据的完成,构建藏医药书目数据库.厘清历代藏医药著作,信息包括书名、版本类型、著者姓名、籍贯等基本信息.该库对研究藏医药学术渊源、学术流派及传承关系、学术特色及成就具有重要参考价值.

3. 2藏医药古籍图片数据库在整理已收集藏医药古籍书目的基础上,通过扫描、加工处理,将收集的藏医药古籍的主要信息页面扫描,转化为既能为古籍数字化应用平台所识别又可供电子阅览的图像格式,构建藏医药古籍图片数据库,用于存储和交流检索、查阅,实现对资源的再生性保护,为后期研究奠定基础.

3. 3数据挖掘模式研究

3. 3. 1显性信息将书名、著者、疾病、症候、方剂、药物等基本字段导入Access表后,建立基本数据表,参考《藏医学》、《藏药学》等工具书,进行规范,采用频数统计方法,实现显性信息的挖掘.

3. 3. 2隐形信息对于隐性信息的研究,由于其具有隐含性、未知性等特点,以Access基本数据表为来源,利用数据挖掘相关方法揭示出其潜在的价值信息,能够更好地为临床、科研服务.数据挖掘方法众多,其中聚类分析方法又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法.关联规则方法是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系[8].根据所收集的藏医药古籍情况,按藏医、藏药等不同分类属性分别采用聚类、关联规则等挖掘方法实现藏医疾病治疗中诊断、处方规律等显性化、可视化.

4 结论

利用计算机技术手段对藏医药古籍进行整理及挖掘研究,不仅可实现对藏医药古籍的原生性保护,也使其中蕴含的精髓得到科学体现.目前,藏医药古籍研究尚未有统一的术语规范标准,在对其进行数字化研究过程中,需充分结合藏医药理论体系和藏医药文化特点,参考相关国家标准,才能真正实现藏医药古籍知识的现代化传承与利用.

参考文献

[1]周毛.浅谈藏学研究文献的馆藏建设及利用[J].中国藏学,2009,( 4) : 124-127.

[2]冯岭.藏医古籍文献数据库研究[J].中医研究,2010,13 ( 1) : 77 -78.

[3]邓都.甘孜南派藏医药[J].中国藏学,2011,( 4) : 138-145.

[4]蔡景峰.民族医学古文献概述[J].中国民族医药杂志,1998,4 ( 4) : 3-5.

[5]冯岭,黄福开.从民族文化保护和发展角度看民族医药古籍整理[J].中国民族医药杂志,2009,15 ( 8) : 9-10.

[6]张菽晖.略论民族古籍及其翻译问题[J].广东技术师范学院学报,2004,( 5) : 62-65.

[7]帝玛尔·丹增彭措.晶珠本草[M].上海:上海科技出版社,1986: 18.

[8]陈伟.使用垂直数据格式挖掘频繁项集[J].微型机与应用,2011,30 ( 18) : 6.

收稿日期:( 2014. 12. 26)

作者简介:聂佳( 1981-),女,在读博士,助理研究员,主要研究方向:民族医药文献.

基金项目:科学基金资助项目,国家社会科学基金:四川南派藏医药古籍文献的抢救性挖掘整理及数据库研究( No13XTQ012).

【文章编号】1007-8517 ( 2015) 04-0001-02

【文献标志码】A

【中图分类号】R29

猜你喜欢

收集古籍数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
中医古籍“疒”部俗字考辨举隅
探讨人工智能与数据挖掘发展趋势
关于版本学的问答——《古籍善本》修订重版说明
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
西藏大批珍贵藏文古籍实现“云阅读”
我是古籍修复师
软件工程领域中的异常数据挖掘算法
城市规划档案的收集与利用策略分析
巧用物理“秘籍”,帮助学生练功