APP下载

基于WEKA的AECOPD中医辨证数据挖掘研究

2018-10-31李治殷云霞杨艳

数字技术与应用 2018年6期
关键词:辨证分型数据挖掘

李治 殷云霞 杨艳

摘要:以WEKA数据挖掘平台为挖掘工具,对收集到的AECOPD病案数据展开辨证分型相关研究,建立分型模型,为AECOPD在中医证候学上的研究提供有效的参考依据,也表明决策树分类方法在中医诊断领域中的应用具有重要价值。

关键词:WEKA;数据挖掘;AECOPD;辨证分型

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2018)06-0086-02

1 引言

在中医学领域运用数据挖掘技术,可以加速了解各种疾病与症状之间的相互关系、各种疾病的发生发展规律、考量各类治疗方案的诊疗效果。从数据挖掘角度来看,中医的辨证分型过程可以看成是一个分类问题[1]。本课题以慢性阻塞性肺疾病急性加重期(AECOPD)的中医辨证临床病案数据为研究对象,对分类方法在该疾病中医诊疗中的数据挖掘应用展开分析研究。

2 算法研究

分类和预测是数据挖掘中非常重要的方法,具有描述数据、构建模型并预测未知数据发展趋势的功能。数据挖掘中分类的方法有很多,如决策树、神经网络、贝叶斯网络等[2]。

决策树算法属于贪心算法的一种,采用自上而下、分而治之的递归方式来构造一棵决策树。它递归地将数据拆分成若干子集,决策树一般由决策节点、叶子、分支三部分组成。位于最上端的节点称为根节点,它是决策节点的开始,树中的每个节点是根据输入属性来标记的,代表一个问题或决策,每个分支形成一个新的决策节点或叶子,代表一种可能的分类结果,在对决策树进行遍历的过程中,不同的节点上会产生不同的分支,每一条从根节点到叶节点的路径就是一条规则,利用若干个变量判断所属的类别,这就是利用决策树来进行分类的过程[3]。表1是部分血瘀证诊断情况的数据,包括3个条件属性(舌下静脉曲张,脉涩,舌质青紫)和一个分类属性(是否患血瘀证)。图1是一棵根据血瘀证中医诊断情况数据建立的决策树模型。内部所有节点用椭圆形表示,树叶节点用圆角矩形表示。

通常,一棵决策树从根到叶节点的每一条路径都对应着一组属性测试的合取(Conjunction)规则,整棵决策树就对应着这些合取规则的析取(Disjunction)表达式。对于构建的每一棵决策树,都可以提取出IF-THEN形式的分类表达规则。根据图1的血瘀证决策树分类模型,提取出的分类规则,举例如下:

IF舌下静脉曲张=“无”AND脉涩=“无”,THEN诊断结论=“非血瘀证”。

IF舌下静脉曲张=“轻”AND舌质青紫=“中”,THEN诊断结论=“血瘀证”。

……

由此可以更加直观地看到,决策树的内部节点(非叶节点)是属性或属性的集合,一棵决策树自上而下在内部节点进行属性的比较,并由属性判定从该节点向下的分支,最终在叶节点得到结论。

3 应用实例

本课题以WEKA数据挖掘平台为挖掘工具,采用决策树相关算法对收集到的400余例AECOPD病案数据展开辨证分型相关研究。WEKA(Waika to Environment for Knowledge Analysis)是由新西兰怀卡托大学开发的开源数据挖掘平台。WEKA是由JAVA语言實现的,可以运行在目前所有的操作系统中。

作为一款开放的数据挖掘工作平台,数据挖掘用户可使用Weka平台执行数据预处理,分类,回归,聚类,关联分析等任务。同时,它具有很强的兼容性和扩展性,用户可以在WEKA系统中封装个性化的算法,实现数据处理及算法性能评估的目的[4]。

3.1 中医数据的预处理

中医临床诊断中的症状、辨证都是用文字去表述,缺乏统一的标识,同时,由于受到中医望、闻、问、切4种诊断方法的限制,医生因其个人表述习惯的不同而使得病案记录常存在对于同一症状用不同术语表述的情况。针对这些特点,课题进行病案数据预处理的相关流程主要为:

在中医专家的指导下,对出现频率极低、不影响分型的症状属性进行了消减,同一部位的症状属性进行了合并,此外,根据出现频率的高低,对病案数据中的辨证证型进行了筛选,选出了出现频率较高的证型。数据规约后,部分数据如表2所示。

通过对收集医案的所有症状归类、统计、预处理,对照中医名词委颁布的《中医药学基本名词术语》对症状的名称的规定进行规范,得到了用于研究本课题的基本症状统一名称。此外,为满足数据挖掘进行数字化运算和分析的要求,还需要对各症状、症状表现及证型按照统一的字符或符号进行标准化编码,如Nadai表示纳呆,F表示食欲正常,T表示食欲不振,Tanre表示痰热郁肺,Tanyu表示痰瘀阻肺,Tanzhu表示痰浊阻肺等。

3.2 实验过程及结果

利用WEKA平台将数据首先进行预处理,将数据转化为.arff文件。由于WEKA平台要求训练数据和测试数据具有完全一致的属性格式,包括属性列出的顺序,所以利用UltraEdit软件将训练样本和测试样本进行比对,以保证数据属性格式完全一致。这些准备工作完成之后,将数据载入WEKA平台(图3),再选取相关算法,采用10折分层交叉验证法作为验证方法,运行平台,建立模型(图4)。

4 结语

课题以收集到的AECOPD中医病案数据展开基于WEKA平台的辨证分型研究。首先对数据中症状和辨证两维属性进行了数据预处理,然后利用新西兰怀卡托大学开发的WEKA数据挖掘平台建立了分型模型,为AECOPD在中医证候学上的研究提供了有效的参考依据,同时也表明决策树分类方法在中医诊断领域中的应用具有重要价值。

参考文献

[1]陈克龙,樊永平.数据挖掘中的分类算法及其在中医证候学中的应用[J].中华中医药杂志,2011,26(3):469-473.

[2]牟冬梅,冯超,王萍.数据挖掘方法在医学领域的应用及SWOT分析[J].医学信息学杂志,2015,36(1):53-57.

[3]张棪,曹健.面向大数据分析的决策树算法[J].计算机科学,2016,43(6A):374-378.

[4]程斐斐,王子牛,侯立铎.决策树算法在Weka平台上的数据挖掘应用[J].微型电脑应用,2015,31(06):63-65.

Abstract:The Syndrome differentiation and classification for the cases of Acute Exacerbation of Chronic Obstructive Pulmonary Disease(AECOPD) is based on the WEKA data mining platform,building the model of TCM syndrome differentiation.Some meaningful reference is Provided to the symptomatology studies of TCM,and indicating the Importance of Decision tree classification in Diagnosis of TCM.

Key words:WEKA;data mining;AECOPD;syndrome differentiation and classification

猜你喜欢

辨证分型数据挖掘
基于并行计算的大数据挖掘在电网中的应用
膝骨关节炎中医证型与常见临床指标之间的关系研究
急性脑梗死辨证分型与ADC、Hcy及hs—CRP的相关性研究
肺癌辨证分型与病理标本色象相关性研究
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究