APP下载

基于CiteSpace的中医药数据挖掘研究现状与发展趋势分析*

2021-11-22昱,杨

中医药导报 2021年4期
关键词:发文中医药大学数据挖掘

李 昱,杨 涛

(南京中医药大学,江苏 南京 210023)

中医药文化拥有几千年的历史,数据量巨大且复杂多样,其中蕴含的规律及经验浩如烟海,仅凭人工归纳则缺乏科学性、客观性、全面性。如何利用新时代的科技优势进行守正创新即成为迫不及待的问题。随着信息技术的发展,数据挖掘这一研究领域逐渐成为热点。数据挖掘是指从海量数据中,通过算法提取隐含在其中、潜在有用的信息[1]。数据挖掘技术在中医药数据处理中展现了广泛的应用前景。越来越多的学者利用数据挖掘开展中医药研究。如赵舒蒙等[2]利用复杂网络分析古医籍中针灸治疗恶心呕吐腧穴配伍规律;张洪源等[3]利用数据挖掘和整合药理学探讨中药桃仁治疗冠心病的分子机制;陈曦等[4]利用医案解构探讨名老中医经验数据挖掘现状;赵小萱等[5]利用数据挖掘研究中医古籍中崩漏气血亏虚证用药规律等。为更好地展现中医药数据挖掘研究的发展脉络,本研究借助CiteSpace科学文献计量软件,对2010—2019年有关中医药数据挖掘研究领域的文献进行可视化分析,以期为进一步推进中医药数据挖掘研究提供参考。

1 资料与方法

1.1 数据来源 本研究数据来源于中国知网(CNKI),采用专业检索,设置检索条件:SU=(“数据挖掘”+“数据处理”+“数据分析”+“知识发现”+“聚类”+“关联规则”+“因子分析”+“复杂网络”+“决策树”+“回归分析”+“贝叶斯”+“神经网络”+“支持向量机”+“随机森林”+“K-Means”+“Apriori算法”+“K-邻近”)AND(SU=“中医”+“中药”+“中医药”+“方剂”+“针灸”),设置检索时间范围为近10年(2010年1月1日至2019年12月31日),共检索到6 113篇相关文献(检索时间为2020年2月12日),其中会议通知228篇,学位论文3 216篇,期刊论文2 669篇。

1.2 文献筛选 为保证文献研究结果的一致性与科学性,纳入主题符合检索式、内容符合中医药数据挖掘的文献,排除会议通知和学位论文及内容不符合中医药数据挖掘的文献。共获得1 860篇有效文献。

1.3 数据处理 CiteSpace是由美国德雷塞尔大学陈超美研发,并在Java环境下运行的信息可视化软件,基于共引分析理论和寻径网络算法等,对某领域的样本文献进行计算,通过分析绘制的可视化图谱探寻该学科演化的潜在动力及其发展的前沿趋势[6]。

本研究采用CiteSpace 5.6.R2软件内置功能,将从中国知网上导出的文献经格式转化后,通过CiteSpace 5.6.R2对中医药数据挖掘相关文献进行作者合作网络分析、机构合作网络分析、关键词共现网络分析等。借助可视化图谱,分析中医药数据挖掘研究领域发展演化的过程。

为保证结果的准确性,对纳入的1 860篇文献所属机构及关键词进行规范化去重处理,对于具有相同含义而表述不一的情况进行统一。如“浙江中医药大学第二临床医学院”规范为“浙江中医药大学”,“广州中医药大学第一附属医院骨伤科”规范为“广州中医药大学第一附属医院”等,“中医传承辅助平台”与“中医传承辅助系统”统一为“中医传承辅助系统”等。

2 结 果

2.1 发文量分析 对纳入的1 860篇文献按照发表年限进行统计,2010—2014年这一阶段虽然发文量有微小波动,但整体处于平缓增长趋势。2015—2019年这一阶段发展迅速,发文量快速增长。中医药数据挖掘这一研究领域引起越来越多的学者关注,已经成为国内研究的一个热点。使用OriginPro软件对目前发文情况使用三阶多项式进行曲线拟合,拟合后R平方为0.968 5,模型拟合优度较高。图1中虚线为拟合曲线,根据趋势线预测2020年发文量将突破500篇。

图1 论文发表时间分布图(虚线为拟合曲线)

2.2 作者合作网络分析 应用CiteSpace 5.6.R2软件对中医药数据挖掘研究相关文献的作者合作网络进行共现分析,设置时间跨度为2010—2019年,时间切片为1,选择节点类型为“Author”,其他参数按默认值设置。图谱中节点大小代表作者出现的频数,节点之间的连线代表作者合作的强度。

作者合作网络中共有节点591个、连线1 109条,网络密度为0.006 4。由表1及图2可知,发文量较多的作者为刘健、忻凌、郭锦晨、任玉兰,分别发表文献31、28、24、24篇。根据普赖斯定律,核心作者的发文量计算公式为MP=0.749 Npmax(Npmax为同一主题中最高的发文量)[7],根据公式计算得MP为4.17,因此该领域的核心作者共有56位。表1详细列举发文量前20位的核心作者。图谱中大多为散落的结点及较为独立稳定的合作小团队,然而团队内部合作紧密,不同团队之间的合作较为微弱。以高产作者刘健、宋倩、郭锦晨、忻凌、周巧等为核心的团队连线密度较大,合作次数较多,已形成合作较为成熟的团队。

表1 作者列表(发文量前20 位)

图2 作者合作网络图

2.3 研究机构分析 应用CiteSpace 5.6.R2软件对中医药数据挖掘研究相关文献的研究机构合作网络进行共现分析,设置时间跨度为2010—2019年,时间切片为1,选择节点类型为“Institution”,其他参数按默认值设置。图谱中节点大小代表机构出现的频数,节点之间的连线代表机构合作的强度。

研究机构合作网络中共有节点391个、连线391条,网络密度为0.005 1。表2详细列举发文量≥21的研究机构,选取发文量≥21的研究机构形成共现图如图3所示。研究机构主要是中医药大学及其附属医院。广州中医药大学、北京中医药大学、山东中医药大学及中国中医科学院为该研究领域的高产机构,发文量分别为116、97、80、77篇。其次是成都中医药大学、南京中医药大学、安徽中医药大学、天津中医药大学,发文量均超过40篇。图中拥有紫色外环的节点通常在图谱中起到连接不同聚类的“中介”作用。以广州中医药大学、北京中医药大学、中国中医科学院为核心的研究机构具有突出的辐射带动作用,形成以这些机构为中心的学术共同体。

表2 研究机构列表(发文量≥21)

图3 研究机构共现图谱(发文量≥21)

2.4 研究热点分析

2.4.1 关键词共现分析 关键词是全文内容的核心描述和高度凝练,基于关键词进行可视化分析,是掌握该研究领域热点话题的有效途径。运行CiteSpace 5.6.R2软件,设置时间切片为1,选择节点类型为“keyword”。在Thresholds参数设置模块,设置阈值分别为(2,2,20)(4,3,20)(4,3,20)。在Pruning模块下,选择Minimum Spanning Tree及Pruning sliced networks。得到结果如图4,图中的节点越大,表明该关键词出现的频数越高,越受关注。若图谱中的节点呈现紫色外围,则表明该节点的中介中心性较大,在图谱中发挥重要桥梁作用。图谱中共有节点133个、连线219条,网络密度为0.024 9。其中出现频数≥20的关键词共有24个(见表3)。其中数据挖掘为出现频数最高的关键词,出现频数为816。高频关键词主要与证候研究、规律探究、名医经验及技术术语相关,如用药规律、配伍规律、关联规则、聚类分析等。根据CiteSpace 5.6.R2运行显示的各关键词的中心度,列举出中心度≥0.05的关键词如表4所示。关键词中心度较大的有用药规律、文献研究、聚类分析、关联规则等。这些关键词代表目前该研究领域的热点话题,在用药规律、名医经验挖掘、配伍规律等方面通过聚类分析、关联规则等手段辅助进行研究。

表3 关键词列表(频数≥20)

表4 关键词列表(中心性≥0.05)

图4 关键词共现图谱

2.4.2 关键词聚类分析 关键词聚类分析可以帮助迅速了解该研究领域的分布情况及研究前沿。在关键词共现的基础上,选择“Timeline View”及“Keyword”,对主要关键词进行自动聚类,得到中医药数据挖掘时间线图谱。结果如图5所示,共得到12个聚类。CiteSpace使用模块值Q和平均轮廓值S作为判断绘制效果的依据,如果Q>0.3,说明图谱结构合理,如果S>0.5,说明网络的同质性合理,如果S>0.7,则说明是可信的[6]。由图5可知,Q=0.592 6(>0.3),S=0.744 5(>0.7)。表明该聚类图谱的绘制效果是较为合理可信的。

图5 中医药数据挖掘关键词时间线图谱

关键词聚类的情况见表5,通过对聚类标签内包含的关键词及相关文献进行分析,共归纳出以下6个研究热点。

表5 关键词聚类情况列表

(1)证候分布规律研究:辨证论治是中医治疗的核心,针对不同证候采取不同的方药治疗。根据疾病发生的病位、病性证素特点,总结归纳出多种证型,从而施行分型论治。

(2)名老中医用药规律及学术思想传承:名老中医的辨证思维、临床经验是中医药事业传承创新的原动力,亦是理论知识与临床疗效结合的成功案例。继承和推广名老中医的学术思想,有利于推动中医药事业的发展,培养新一代中医药人才[8]。

(3)针灸选穴配穴规律研究:挖掘针灸治疗的研究文献,遵循脏腑辨证、经络辨证、病因病机论治、随症取穴等规律[9],从而把握针灸临床治疗的选穴规律,为针灸治疗的配伍选穴提供了参考依据,并有效提高临床疗效。

(4)中药组方规律和微观机制研究:应用关联规则、复杂网络等,开展中药配伍研究,从而为临床治疗提供参考。将中药理论与现代临床医学将结合,从分子水平探究中药四气五味与中药功效的相关性及药性理论的现代科学内涵,结合临床数据,分析药物与临床指标的关联[10]。

(5)中药注射剂安全性评价研究:分析中药注射剂的成分,探讨不同中药注射剂的共性成分[11],探究中药注射剂相关不良反应的关联因素,总结不良反应的防治措施及合理用药对策[12],能够更好地为中药注射剂的临床用药安全提供参考。

2.4.3 关键词突现分析 突现关键词是指在某一阶段突发的高频关键词,在某些程度上可以反映该研究领域的热点演变状况,预测研究趋势。关键词突现分析表明,利用数据挖掘开展中医证候研究投入时间较长,作为热门话题一直持续至2015年。医案古籍资源中蕴含多重信息,自2011年开始深度挖掘医案资源至2016年。自2014年开始开展名老中医经验挖掘及治疗思路梳理,持续至2017年。2017年至今,中医药规律探究逐渐成为研究主流话题,众多学者深入研究配伍规律、用药规律、选穴规律等,预测未来几年这一研究方向仍会继续作为研究热点,引发中医药数据挖掘研究的热潮。(见表6)

表6 中医药数据挖掘关键词突现分析表

3 讨 论

国内许多科研单位及高等院校对于数据挖掘的研究起步较晚,初期阶段发文量增速较为平缓。而随着信息技术的发展成熟及科研单位、医院信息系统的日趋完善,2015—2019年发文量增长迅速,中医药数据挖掘这一研究领域引起越来越多学者的关注。中医药传承创新的战略地位愈加凸显[13]。随着中医药科技政策蓬勃发展,中医药事业深入改革创新。预计未来几年将迎来发文量突增阶段,数据挖掘技术在中医药领域的应用也会越来越广泛。使用OriginPro软件对目前发文情况使用三阶多项式进行曲线拟合,由趋势线预测2020年发文量将突破500篇。

通过对中医药数据挖掘研究相关文献的作者及研究机构合作网络进行共现分析,本研究结果表明,团队分布较为分散,作者之间仍需要进一步加强学术交流,且团队合作仅局限于机构合作,如刘健、忻凌、郭锦晨均来自安徽中医药大学,缺少跨学校之间的合作。广州中医药大学、北京中医药大学、中国中医科学院等研究机构开展中医药数据挖掘研究相对持久、稳定,促进形成高产作者群体。这些机构具有突出的辐射带动作用,形成以这些机构为中心的学术共同体。同时同一地域内的研究机构合作更为紧密,如“广州中医药大学”“广东省中医院”等,呈现一定集中趋势。因此跨地域的研究机构之间的学术合作研究需要进一步加强。

中医药数据挖掘研究领域的热点话题主要集中于应用数据挖掘的各类算法探究证候分布规律、名老中医用药思路、方剂配伍规律等,中医药规律探究逐渐成为研究主流话题。对于这些规律的挖掘主要采用关联规律、聚类算法等方法,数据挖掘的其他算法如集成学习、表示学习、深度学习等仍应用较少。数据挖掘技术的算法较丰富,但在中医药领域的应用仍然较为狭窄[14]。研究者应拓展视野,全方位关注各种先进技术和研究方法,从研究的个性化需求出发,探索最优化的研究方法,从而提升中医药数据挖掘的创新水平。

数据挖掘技术较复杂,需要具备专业知识的人才来实现。因此,医学院校要积极顺应信息化时代的发展,完善人才培养模式,开设信息技术相关专业,大力推进医学信息化及学科的交叉融合。发挥学科优势,不同学科领域的人才及研究机构加强合作,才能使中医药数据挖掘得到更好的创新与发展。

4 结 语

本研究利用CiteSpace软件对中国知网2010—2019年收录的中医药数据挖掘相关的1 860篇文献进行了科学计量分析,从发文量、作者及机构合作、研究热点等多角度进行分析和讨论。近10年中医药数据挖掘发文量逐年递增,形成了一大批合作较为成熟的学术共同体,研究的热点集中于中医证候研究、名老中医的临证经验及用药思路等诸多方向,呈现交叉融通、繁荣发展的景象。然而,大多数研究局限在机构内部,跨组织、跨区域的研究有待进一步加强,采用的挖掘方法有待进一步提升,应当围绕中医数据特点,选用或设计相应的特色方法。

猜你喜欢

发文中医药大学数据挖掘
陕西中医药大学附属医院肾病二科简介
《江中中医药大学学报》简介
探讨人工智能与数据挖掘发展趋势
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
基于并行计算的大数据挖掘在电网中的应用
中医药大学本科生流行病学教学改革初探
一种基于Hadoop的大数据挖掘云服务及应用
湖北中医药大学
基于GPGPU的离散数据挖掘研究