APP下载

基于ATERDE和专家经验的混合DGC智能导诊算法

2022-03-21旷珊珊白梅娟郭赵斌路巍霍振宇侯帅

计算机时代 2022年3期

旷珊珊 白梅娟 郭赵斌 路巍 霍振宇 侯帅

摘  要: 针对医院人工导诊效率和精确度较低的问题,提出了一种基于ATERDE(Automatic threshold Elites Regeneration Differential Evolution)和专家经验的混合DGC(Data Gravitation Classify)智能导诊算法。采用一种基于自动阈值的ERDE算法(ATERDE),以选出最优的客观权重矩阵;将ATERDE算法与专家经验融合,构建包含主客观信息的属性重要度权重矩阵;最后提出一种兼顾全局引力与局部引力的DGC算法,以减少数据不平衡对分类结果的影响。实验结果表明,该方法平均分类精度达到87%以上,精确度有明显的提升。

关键词: 混合权重; 专家经验; 数据引力; 智能导诊

中图分类号:TP39          文献标识码:A     文章编号:1006-8228(2022)03-36-05

Abstract: Aiming at the problem of low efficiency and precision of hospital manual triage, a hybrid Data Gravity Classification (DGC) intelligent triage algorithm based on Automatic Threshold Elites Regeneration Differential Evolution (ATERDE) and expert experience is proposed. ATERDE algorithm is used to select the optimal objective weight matrix;an attribute importance weight matrix containing subjective and objective information is constructed by integrating ATERDE algorithm with expert experience; finally, a DGC algorithm considering both global gravity and local gravity is proposed to reduce the influence of data imbalance on the classification results. The experimental results show that the average classification accuracy of this algorithm reaches more than 87%, it is significantly improved.

Key words: hybrid weight; expert experience; data gravitation; intelligent triage

0 引言

隨着全民医疗意识的提高,就医人数逐年递增。2018年国家统计局公布全国就医人次达到了83.0802亿人次,2019年增长至87.1987亿人次,并且这个数据每年还以加速的趋势增长[1]。有相关统计数据显示,患者因为挂错号而退号的比例高达46%[2]。如果能够降低患者挂错号的数量,将能极大地提高医院的就诊效率和患者的就医满意度[3]。

1 国内外研究现状

针对上述问题,一些学者开展了相关研究工作,采用专家经验知识的方式对患者就医进行了导诊[4]。FatemeMoghbeli使用Mamdani模糊算法,根据患者的初始生命体征和医生的知识对患者进行分诊 [5]。然而经验知识可使用的场景有限,并且容易受到专家水平因素的影响。

随着人工智能的兴起与发展,不少学者采用机器学习算法对患者进行分诊[6]。北京协和医院的刘晓颖和TangKenneth强调了智能分诊的必要性和重要性[7-8]。马钰以辅助诊疗的结果为基础,将Skyline查询和局部范围内基于协同过滤的评分方式结合,提出了一种面向智能导诊的个性化推荐算法[9]。单一机器学习的方法需要大量的训练数据,然而实际能够获取的医院病例数量有限,因此近年来一些基于少量数据样本的数据引力算法逐渐兴起。

针对上述模型所存在的问题,有学者采用混合预测模型的方法来预测科室分类[10]。韩金亮利用改进离散Hopfeild神经网络和医疗专家系统的病情诊断混合算法,对医疗服务行业中病情给出良好的诊断结果[11]。但是这些算法仅仅是将两种算法的结果进行并行预测和分诊,并没有将专家知识模型和数据模型进行更加有机的融合。目前基于专家知识和机器学习的算法已经在一些领域取得良好的预测效果,但是在智能分诊领域尚未见到关于串行的混合模型的研究。

针对上述问题,提出了一种基于ATERDE和专家经验的混合DGC智能导诊算法。首先提出了一种基于自动阈值的ERDE算法(ATERDE),以选出最优的客观权重矩阵。其次将ATERDE算法与专家经验融合,构建包含主客观信息的属性重要度权重矩阵。最后提出一种兼顾全局引力与局部引力的DGC算法,以减少数据不平衡对分类结果的影响。

2 相关算法研究

2.1 DGC(Data Gravitation Classify)算法

将数据空间中的每一个样本比作一个数据粒子,通过类比物理学中的万有引力,比较不同数据类别对目标的数据引力来进行分类[12],引力计算公式如下:

2.2 ERDE算法

ERDE(Elites Regeneration Differential Evolution)算法是一种基于精英重生的差分优化算法,其主要思想是基于初始种群进行变异,交叉,选择操作,产生新一代种群,并使用柯西分布和高斯分布概率模型对精英解周围的可选个体进行采样,在其附近选择一个新的个体,通过判断新个体和上一代精英之间的适应度,将适应度大的个体保留下来作为下一代的精英种群。当迭代次数满足最大迭代次数时停止迭代,得到最终的精英群体[14]。

3 本文提出改進的算法

3.1 ATERDE算法

本文在种群迭代至后期时,对经过交叉变异的个体适应度进行自动阈值判断,如果不大于阈值,则重新进行交叉变异,直到满足大于阈值的条件,再进行新一代精英的更新。从而保证再迭代后期精英质量得到进一步提高。

3.4 算法步骤

根据领域专家医生得到症状-科室专家经验权重矩阵,根据数据集中的数据利用ATERDE算法得到客观权重矩阵,利用黄金融合算法将两个矩阵进行融合,计算每个科室对待预测病例的全局引力和局部引力并进行融合,选取引力最大的科室作为待预测病例的预测科室。算法步骤如图1所示。

算法步骤:

输入:病例数据集[X={X1,X2,…,XQ}],待预测病例[X*={x*1,x*2,…,x*N}],其中[Q]为数据集中病例总数量,[N]为症状总数量。

输出:待预测病例的科室分类结果。

Step 1:为病例数据集[X]中每个病例数据分配质量[M={M1,M2,…,MQ}]。

Step 2:根据专家经验知识,运用AHP算法获取专家经验权重矩阵[W]。

Step 3:利用ATERDE算法生成客观权重矩阵[W']。

Step 4:运用黄金分割思想将两组权重矩阵融合,得到最终的科室-症状权重矩阵[W'']。

Step 5:根据数据引力公式计算每个科室对目标病例X*的全局引力[Fglobal(X*,c)]。

Step 6:计算每个科室中,与目标病例相似度最高的K个病例对目标病例的局部引力[Flocal(X*,c)]。

Step 7:根据公式⒃计算每个科室对目标病例的X*最终引力:

[FfinalX*=FglobalX*,c+FlocalX*,c]  ⒃

Step 8:输出对病例X*引力最大的科室,作为X*的预测科室。

4 实验

4.1 数据说明

本文选取了四个国内知名的医疗资源网站,采用Python爬虫技术对其数据进行获取,并利用数据挖掘和中文医疗命名实体识别技术,将对应的症状及科室信息挖掘出来,作为算法模型的数据库,其相关信息如表1所示。

表1  数据信息表

[数据编号 症状数 科室数 数据量 数据来源 数据集1 79 9 978 好大夫在线 数据集2 103 11 2076 寻医问药网 数据集3 136 13 1879 丁香园 数据集4 122 11 1023 39健康网 ]

4.2 实验结果

实验采用K近邻算法KNN、数据引力算法DGC、加权数据引力算法DGC+与基于ATERDE和专家经验的混合数据引力算法ATERDE+DGC四种算法,分别在四个数据集上采取十折交叉验证作为各模型的评估算法进行了20次交叉验证,对每个算法的ACC指标进行评估,实验中设置万有引力常量G=9.8,局部最近邻数据个数K=5。

采用KNN、DGC、DGC+和ATERDE+DGC四种算法在四个数据集上的ACC结果如图2和表2所示。

根据实验结果可以看出,DGC算法的准确率高于KNN算法,这是因为KNN算法只考虑了距离目标最近的几个样本,而DGC算法则计算了每个类中的数据样本,增加了样本数量。而DGC+算法在DGC算法的基础上,进一步考虑了属性权重对分类效果的影响,从而得到了更高的精度。本文提出的ATEDE+DGC算法,通过融合专家经验和客观数据对属性权重进行优化,同时综合考虑全局引力与局部引力,在DGC+的算法上,得到了更高的精度。

5 结束语

为解决人工导诊效率低和降低患者寻找科室错误的情况,本论文提出了一种基于ATERDE和专家的数据引力混合导诊算法。本文提出的方法与KNN、DGC和DGC+算法相比,取得了较好的预测效果。本文的研究结果表明,混合模型能够融合专家权重法良好的鲁棒性和ATERDE方法良好的学习性能的优势。本文的研究内容能够为智能导诊的混合模型预测奠定良好的理论基础,也能为其他领域的混合模型预测奠定重要的理论基础。

参考文献(References):

[1] 国家统计局.中国统计年鉴[M].北京:中国统计出版社,2020:3-12

[2] 徐雪珍,陈建萍,顾跃英,等.门诊挂错号患者经历和心理体验的质性研究[J].护理与康复,2015,14(3):211-213

[3] Xusong Bu, Lin Lu, Zhan Zhang, et al. A General Outpatient Triage System Based on Dynamic Uncertain Causality Graph[J]. IEEE Access,2020,PP(99):1-1

[4] Moghbeli F, Langarizadeh M, Kiavar M, et al. Expert Triage System in Cardiology Emergency Department[J]. International Journal of Computer Science and Network Security,2018,18:100-104

[5] Jiang H, Mao H, Lu H, et al. Machine learning-based models to support decision-making in emergency department triage for patients with suspected cardiovascular disease[J].International Journal of Medical Informatics,2021,145:104326

[6] 刘晓颖,田丽源,高健,等.人工智能在急诊分诊决策中的应用现状[J].护理研究,ISTIC PKU,2020,34(14):2490-2494

[7] Jonathon S, Peter S, Girish D. Artificial intelligence and machine learning in emergency medicine[J].Emergency Medicine Australasia Ema,2018,102

[8] Tahayori B, N Chini-Foroush, Akhlaghi H. Advanced natural language processing technique to predict patient disposition based on emergency triage notes[J]. Emergency Medicine Australasia,2020,78

[9] 马钰,张岩,王宏志,等.面对智能导诊的个性化推荐算法[J].智能系统学报,2018,13(3):352-358

[10] Mccullough C L, Novobilski A J, Fesmire F M. Prediction of adverse outcomes of acute coronary syndrome using intelligent fusion of triage information with HUMINT[C]// Defense & Security Symposium.2006,1

[11] 李勇,黄俊.一种混合医生推荐算法的研究[J].信息通信,2018(2):67-70

[12] Peng L, Bo Y, Chen Y, et al. Data gravitation based classification[J]. INFORMATION SCIENCES,2009,179(6):809-819

[13] Aguilera J, González-Gurrola LC, Montes-Y-Gómez M, et al. From Neighbors to Strengths- The k-Strongest Strengths (kSS) Classification Algorithm[J]. Pattern Recognition Letters,2020,136

[14] Deng L B, Zhang L L, Fu N, et al. ERG-DE: An Elites Regeneration Framework for Differential Evolution[J]. Information Sciences,2020,539

[15] Cano A, Zafra A, Ventura S. Weighted Data Gravitation Classification for Standard and Imbalanced Data[J]. IEEE Transactions on Cybernetics,2013,43(6):1672-1687

[16] 李蕊,李躍,徐浩,等.基于层次分析法和专家经验的重要电力用户典型供电模式评估[J].电网技术,2014,38(9):2336-2341

3712501908239