APP下载

基于关联规则的中医肺癌数据挖掘应用研究

2016-05-25刘广

科技视界 2016年12期
关键词:关联规则数据挖掘肺癌

刘广

【摘 要】收集治疗肺癌的中医药临床文献作为实验数据,运用关联规则技术对中药包含的化学组分进行频繁项集的挖掘,发现了治疗肺癌最主要的药物以及药物之间的依赖关系,对临床肺癌治疗有着重要的作用。

【关键词】数据挖掘;关联规则;肺癌;药物关系

五千年的历史传承下来的中医学是我国宝贵的民族遗产,中医学理论在漫长的临床医疗实践中获得了大量的信息,挖掘出其中一些隐藏的珍贵经验,以此作为临床中医学诊疗的参考依据,保证对症下药,药到病除[1]。数据挖掘能够发现隐藏在海量数据中的潜在知识,是现在最活跃的研究应用领域。关联规则是数据挖掘中的一个重要研究分支,它侧重于寻找数据之间的微妙联系和依赖关系,因此,运用数据挖掘中的关联规则进行中医药领域研究是可行的[2]。

1 关联规则在中医药领域中的发展程度

关联规则技术被提出仅仅20多年时间,许多专家学者对关联规则数据挖掘算法的研究极其关注和重视,与之有关的文献报告的数量也呈现不断上升的趋势,其应用于中医学、中药学领域更只不过近10年左右。这和关联规则技术的特点是息息相关的,它可以通过挖掘频繁项集,得到事务属性之间的关系,应用于中医学、中药学中,能够发现证候、病症以及药物之间,或者方剂配伍中的关系和规律[3]。所以,它无可厚非地成为了中医及中药领域研究中必不可少的应用工具之一。

但总体上讲,关联规则技术在中医和中药研究方面还处于起步阶段,直到2002年应用于中医药领域的文献才第一次出现,进行相关开发研究的机构比较少,主要集中在成都中医药大学、北京中医药大学、中国中医科学院广安门医院。所以关联规则技术在中医药领域的挖掘中还存在众多的问题。比如,方剂学方面,首先,关联规则是基于数据库进行挖掘的,数据库中的数据质量直接会影响到关联规则的结果质量。虽然我国已经建立了众多比较全面的方剂数据库,但是由于方剂数据自身的原因,依然会存在药物名称不统一的问题,大部分的数据是模糊的,数据缺失与冗余并存的问题,尤其在古代文献中更为突出,如何排除数据库中的这些噪声,使整理后的数据更能符合关联规则技术的挖掘的要求已经成为一个大的问题。再比如,在传承和研究老中医医药技术的问题上,也与方剂学方面有着类似的问题,会由于时间太久远或者用药名称不统一的问题导致数据不完整、缼失,从而影响挖掘结果,甚至是得不到正确的结果,那么那些宝贵的经验也得不到传承[4]。然而无论怎样,它已经为中医及中药知识的发现打下了基础,因此,随着数据挖掘技术的发展与提高,专家学者对关联规则技术的大量投入与研究,在不久的将来,关联规则会在中医及中药领域创造出辉煌,带给我们意想不到的惊喜。

2 实验数据来源

肺癌原发于支气管黏膜与肺泡,是经常提到的恶性肿瘤,是威胁人类生命的可怕疾病。伴随着环境污染的不断恶化加重,空气质量越来越不好,人们患肺癌的几率呈现上升趋势,给人们的生活与健康带来了严重的影响。此次实验以治疗肺癌的中医药临床文献为基础,结合中药药理实验数据,实验数据源包括《中医临床诊疗文献数据库(肺癌))》和《中药药理实验数据库》,运用关联规则技术挖掘研究治疗肺癌组分中药的新方法,得到有价值的结果。在这1120篇临床文献中,光是治疗肺癌的方剂大约有875篇,占了大部分文献,其中被关注和报道最多的是自拟方,即医生根据病人的不同病症和情况开出的处方,自拟方一共有296篇,这正是中医辨证论治的个体化诊疗特色的体现[4]。目前,中药治疗肺癌主要是“固本”和“驱邪”。用药以抗癌和增强细胞免疫功能为主,辨证论治注重全面调节人体整体功能,同时结合个体差异。

3 关联规则挖掘结果

表1和表2分别是中药包含的化学组分中支持度和置信度出现频次最高的前10位,从中可以看出支持度最高的二项组合前4组是麦冬总皂苷和南沙参多糖、Beta-谷甾醇和南沙参多糖、太子参多糖和南沙参多糖,麦冬多糖和南沙参多糖,实验结果表明在全部同类型的二项组合中它们出现的频次最高。置信度最高的一组是D-甘露醇和肉苁蓉多糖,实验结果表明D-甘露醇出现的时候,肉苁蓉多糖一定出现。另外,还可以看出,20组结果中有13组是包括抗癌活性的化学组分,有6组是具有调节免疫力作用的化学组分,这与中医治疗肺癌主要采取“驱邪”和“固本”的原则相符,用药上以抗癌与增强免疫能力功能为主也是相符的。其他化学组分具有抗炎、抗氧化、酶抑制等作用,都是偏向西医治疗的理论[5]。根据药理作用化学组分,二项组合可以大体上分成两种:一种是化学组分药理作用相同,它们组合在一起加强了药理作用;另一种是化学组分药理作用不同,这样的组合药理作用互相补充。通过关联规则挖掘出的以上结果表明关联规则技术对于中医肺癌的治疗有着重要的作用与影响,它可以发现一些隐含的信息,从信息中了解药物之间的微妙关系,能更好的利用药物进行合理的配伍,达到更有效、更有益的结果[6]。还能发现症状与药物之间的联系,能够对症下药,达到高效率的治疗效果,不至于盲目用药,这样肺癌的治疗率才能呈现上升趋势,更多的人能够健康生活。因此,关联规则技术在临床疾病治疗以及中医药领域也是重要的、有价值的,它让临床在疾病治疗和用药上更有依据和参考价值,可能会有些偏差,但大体上是可以信任的[7]。我们应该更加深化和关注关联规则技术,让此技术在临床医学上有更大的作用和发展。

4 结论

经过本次实验的研究,数据挖掘技术可以进行中医药大量数据的分析,应用数据挖掘中的关联规则技术,方便于发现中医药海量数据中隐藏的药物之间的关系,通过这样的实验研究可以为中医肺癌临床诊断提供参考价值和诊疗依据,进而使疾病的治疗效果更好,可以对症下药,也避免了药物的浪费。但是,关联规则技术在中医药领域的研究还处于初级阶段,有很大的提升空间,应该更加深入的开展此项研究,让其在中医药领域发挥更大的作用。相信在不久的未来,关联规则技术在中医药领域的重要影响,会越来越突出,发挥出更大的作用。

【参考文献】

[1]姚美春,袁月梅,艾璐.数据挖掘及其在中医药现代化研究中的应用[J].北京中医药大学学报,2002(8):56-60.

[2]于长春,贺佳等.数据挖掘技术在医学领域中的应用[J].第二军医大学学报,2003(15):123-128.

[3]沈斌.关联规则技术研究[M].中国:浙江大学出版社,2011:256-275.

[4]T.M.Mitchell.Machine Learning and Data Mining[J].Communications of the ACM,1993(12):67-73.

[5]雷蕾,崔蒙,秘仲凯.关联规则挖掘在治疗肺癌组分中药发现中的应用研究[J].中国中药杂志,2010(16):165-170.

[6]谢含.数据挖掘在中医药文献研究中的应用[J].中医药信息,2005(6):24-28.

[7]马金刚,胡志帅,等.基于关联规则挖掘的方剂配伍规律初步研究[J].中国实验方剂学杂志,2013(7):351-353.

[责任编辑:汤静]

猜你喜欢

关联规则数据挖掘肺癌
中医防治肺癌术后并发症
对比增强磁敏感加权成像对肺癌脑转移瘤检出的研究
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
microRNA-205在人非小细胞肺癌中的表达及临床意义
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究