APP下载

基于机器学习法的急诊留观患者分流研究*

2021-08-20陈旻洁董恩宏孙晓凡赵旭霁丁粉华张斌渊

中国卫生质量管理 2021年6期
关键词:收治决策树准确率

——陈旻洁 范 颖 董恩宏 孙晓凡 赵旭霁 丁粉华 张斌渊*

急诊滞留指需要住院的急诊患者不能在合理时间内(通常不超过6 h)入住专科病房,它会带来一系列医疗质量及患者安全管理问题[1-2]。我国有的医院存在急诊滞留持续时间较久的问题,急诊科医生通常会对滞留患者进行治疗,有些患者甚至会因未等到住院床位而完成治疗离院[3]。上海三级医院承担了全市40%的急诊人次,急诊业务量平均每年以10%以上的速度增加,急诊普遍存在人满为患、入口无序、急诊不急、出口不畅、滞留压床等情况[4-5]。

上海某大型三甲综合医院门急诊量常年位居全市前三,年急诊量超过40万人次,单日高峰接收120救护车可达70班次。该院急诊科下辖预检分诊、台面急诊、急诊抢救区、急诊留观区、急诊重症监护病房、急诊病房等6个部分,其中急诊留观区是关键功能区。本研究利用机器学习法(BP神经网络和CART分类决策树),建立急诊留观区滞留患者流向预测模型,了解患者分流情况,通过对知情人访谈提出建议,为探索更有效的急诊医疗服务体系提供参考。

1 资料与方法

1.1 资料来源

从该院急诊一体化信息系统提取2018年7月1日-2020年6月30日急诊留观区患者滞留资料,对数据进行核查、清洗和预处理,删除不符合逻辑及主要变量有缺失的样本,得到有效数据共12 018例。数据包括入区日期、入区时间、性别、年龄、交费类型、接诊科室、所有诊断、去向等。

1.2 机器学习模型

1.2.1 BP神经网络 人工神经网络(Artificial Neural Network,ANN)是模拟生物神经系统对信息运算的一种数据处理方法。其优势在于同时具备处理、记忆、自学、预测等能力,可以捕获因变量与自变量之间复杂的非线性关系。本研究选择了其中的误差反向传播(Back Propagation,BP)模型,它是多层神经网络模型,激活函数为Sigmoid函数:f(x)=1/[1+exp(-x)]。其学习过程分信号正向传播和误差反向传播。当信号从输入层正向传入时,经过隐藏层处理到达输出层,当输出层信号与期望输出信号不符时,会把误差反向传播给输入层。反向传播中形成的误差信号作为修改各单元权重的依据。在正向与反向传播不断进行中,权重值不断调整,当输出信号误差减少到可接受范围或达到规定学习次数时停止学习[6-8]。

1.2.2 CART分类决策树 分类与回归树模型(Classification and Regression Tree,CART)是一种非参数的分类和回归方法。CART算法处理的变量类型包括离散和连续两种,当处理离散变量时,所构造的决策树是分类决策树;当处理连续变量时,所构造的决策树是回归决策树。CART分类决策树以基尼指数进行节点纯度衡量。假设有K个类,样本点属于第K类的概率为kp,则概率分布的基尼指数定义为:

CART算法生成的决策树,除具有高效性、易用性以及较强的鲁棒性外,还具有以下优势:一是对连续变量直接处理无需事先离散化;二是可以对属性空值进行处理;三是对决策属性和条件属性的分布无要求;四是不需要建立非线性模型,可以根据决策树图直观地做出决策分类,提取知识规则。由于生成的是二叉简单树,计算和评估时效率较其他算法高[9-11]。

1.3 研究方法

通过SPSS 20.0软件对数据进行变量变换、派生、正态性检验、离散化处理、描述性分析和单因素分析。对正态分布计量资料采用均数和标准差进行描述;对偏态分布计量资料采用中位数和四分位数间距IQR进行描述;对计数资料采用相对数进行描述。计数资料的组间分布采用卡方检验进行分析。

筛选出组间差异有统计学意义的指标,结合专家访谈,遴选机器学习的输入变量,应用机器学习算法(BP神经网络和CART分类决策树)建立拟合预测模型,分析急诊留观区患者流向的主要影响因素。拟合模型过程和评估在SPSS modeler 18.0软件中实现。

2 结果

2.1 描述性分析结果

12 018例急诊区留观患者流向为收治病房2 541例,医嘱离院8 835例,医嘱转院120例,死亡522例。对连续性变量(年龄)进行正态性检验(Kolmogorov-Smirnov法),P<0.001,说明年龄呈偏态分布。年龄中位数为66岁(四分位数间距IQR为23)。以流向为模型因变量,对年龄和诊断个数进行最优离散化分组。急诊留观患者基本情况见表1。

2.2 单因素分析结果

进一步对急诊患者留观区流向的影响因素进行卡方检验,结果显示,性别、年龄、交费类型、诊断个数、首诊科室、入区季节、疾病谱、入区班次的差异有统计学意义(P<0.01),见表1。急诊留观区中各变量分类为“男性”“60岁~<80岁”“入区班次为夜班”“夏季”“医保患者”“神经内科”“神经系统疾病”“诊断个数为3~4个”的患者收治病房的比例较高。

表1 急诊留观患者基本情况与流向的影响因素分析

2.3 预测模型结果

抽取数据的70%作为训练库,30%作为测试库,最终纳入训练库的共有8 340条记录,纳入测试库的共有3 678条记录。将筛选出的单因素有统计学差异的8个变量作为输入变量建立BP神经网络数据流和CART决策树数据流。BP神经网络得到一个输入层为9个神经元、隐藏层为1层、输出层为10个神经元的模型。CART分类决策树得到一个5层的决策树模型,分别为流向、疾病谱、首诊科室、诊断个数、年龄。

BP神经网络的预测准确率训练库为77.01%、测试库为77.51%,CART分类决策树的预测准确率训练库为76.93%、测试库为76.7%。急诊留观区患者流向的影响因素变量在建模中的重要程度排序见表2。BP神经网络和CART分类决策树模型预测变量的相对重要性排序虽不一致,但影响模型预测性能排在前4的变量均是“疾病谱”“诊断个数”“年龄”“首诊科室”。这4个变量亦是CART分类决策树图的各非叶子节点判断的特征依据标签。

表2 急诊留观区患者流向的影响因素变量在建模中的重要程度排序

3 讨论

3.1 模型应用性良好

本研究使用准确率对模型的泛化能力进行评价,BP神经网络和CART分类决策树模型的分类准确率均达75%以上。BP神经网络的预测准确率高于CART分类决策树的预测准确率,同时BP神经网络的测试库准确率高于其训练库准确率。影响因素和流向是非线性关系,BP神经网络分类模型对非线性映射关系的处理较决策树分类模型好。决策树对数据具有分割能力,生成规则规模小,能较好地处理噪声数据,容错能力强,鲁棒性强,决策树与神经网络存在较大互补[12]。使用BP神经网络与CART分类决策树模型相结合的方法,拟合效果良好,可供今后急诊留观分流相关研究参考。

3.2 急诊留观患者流向的影响因素原因分析

本研究发现,急诊留观患者医嘱转院的总体比例较低,急诊留观患者收治病房的主要影响因素是疾病谱、诊断个数、首诊科室、年龄。进一步结合知情人访谈认为,疾病谱为神经系统及循环系统的收治入院比例相对较高,可能在于该院心内科、神经内科和神经外科为强项专科,吸引患者较多。多系统疾病或诊断个数超过4个的留观患者,收治病房比例较低,可能由于患者存在跨科复杂疾病,各专科对疾病诊断、治疗方法、处置能力等存在差异,导致急诊滞留。80岁及以上患者收治病房比例较低,可能由于人口老龄化,高龄患者基数较大,常伴有多种基础性疾病以及一些非典型病症如认知功能障碍,往往病情重、预后差、预期住院时间长,故导致滞留急诊。肿瘤及合并症、血液系统的收治病房比例较低,可能由于急诊留观患者多为肿瘤晚期患者和慢性血液病需输血患者,易导致滞留急诊。

3.3 多学科协作优化床位内部分配和收治机制

本研究还发现,该院急诊的多系统疾病患者比例高,而收治病房比例低。由于三级医院增加额定床位数不易,结合上海市开展的DRG试点工作,对医院现有专科床位收治情况分析评估,缩减部分慢性病或医疗风险相对较小的科室床位,打破临床专科划分,设置多发急危重症病种的公共病区数,増加重症监护床位数,优化全院专科床位配置,试点设立若干公共大内科、大外科病区床位,以及增加重症监护室床位数,可能是解决急诊留观滞留问题的思路之一。另外,目前国内缺乏统一的病情评估标准[13],建议医院可在胸痛中心、卒中中心、颅脑创伤中心基础上,优化急诊急危重症病种救治流程,建立优先入院标准,通过建设急诊住院需求信息系统,制定床位分配优先级,以确保医疗质量和患者安全。

3.4 加强互联网+医疗联合体协作,改善院外分流措施

针对外部因素的优化策略,主要在于加强医疗联合体协作,改善院外分流措施。在急诊留观患者中,部分患者为急性期过后、疾病终末期(如肿瘤晚期)或无手术指征,无需在三级医院急诊滞留。此类患者可能未找到下级接收医院,或是不信任其医疗能力,自愿长时间滞留在三级医院急诊留观区。针对此类患者,医院应加强医联体合作,与二级医院、老年护理院、康复医院、社区卫生服务中心加强协作,完善双向转诊机制,通过开展现场、远程专家查房以及远程会诊等加强联系,从而有效分流该类急诊留观患者。随着互联网+医联体建设的发展[14],医联体医院的医疗质量可保证同质化,实现患方院外分流。

3.5 不足与展望

本研究是一项单中心研究,使用BP神经网络与CART分类决策树模型相结合的方法,拟合效果良好,可为今后急诊留观分流相关研究提供思路。值得一提的是,急诊收住院不仅与疾病谱有关,可能还与疾病严重程度、即将接受的治疗方式(如手术、药物等)、医院绩效考核方案、医保费用政策合理性、医患关系等因素有关。囿于本研究条件,相应变量参数无法获取,这将有待于今后进一步深入研究。另外,样本医院存在学科特色与其他综合医院不一致的情况,研究结果可能存在偏倚。我国不同地区、不同规模的医院均可能出现急诊滞留状况,未来可开展多中心研究,以提高急诊医疗资源运转效率。

猜你喜欢

收治决策树准确率
新型冠状病毒肺炎定点收治医院应急病房筹建策略
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
新型冠状病毒肺炎流行期间急腹症患者收治与防控体会
宁夏定点医院收治68例确诊新型冠状病毒感染肺炎患者临床症状分析
全院病床统筹收治模式下的绩效核算方法初探
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
高速公路车牌识别标识站准确率验证法