APP下载

随机森林在医院感染预测中的探讨

2016-12-23王健祖晓玲王常武李立平

科学中国人 2016年18期
关键词:决策树分类器样本

王健,祖晓玲,王常武,李立平

1秦皇岛市第一医院;2燕山大学信息科学与工程学院

随机森林在医院感染预测中的探讨

王健1,祖晓玲2,王常武2,李立平1

1秦皇岛市第一医院;2燕山大学信息科学与工程学院

目前,医院感染已经成为医疗行业最突出的焦点问题。由于医院感染相当不容易控制,一旦发生,将会对患者的预后和转归造成较大的影响,不仅会加重患者的经济负担,还会给社会带来巨大的经济损失,严重时甚至会导致患者残疾或死亡。--《某大型综合医院医院感染预警预测——以血液病患者为例》针对医院感染的监测,国内相关软件公司推出了医院感染预警系统,通过对患者的医嘱信息、检查检验结果、电子病历等相关数据的抓取,结合预先设置的规则,对存在医院感染风险的患者预警。但是,预警系统只是对医院目前感染情况的反映,且准确性与预先设置的规则紧密相关。本文应用随机森林算法,通过对算法的训练,达到了对医院感染的预测目的,让医院感染科工作人员变治疗为预防性干预,避免或减少潜在感染的发生,减少患者痛苦,减轻患者费用负担,具有较大的社会效益和经济效益。

医院感染;预测;随机森林

注:本文系秦皇岛科技支撑课题课题编号201401A088。

1 研究目的

对于每棵树而言,对其所使用的训练集都需要从总的训练集中放回采样出来的。这就表示,总的训练集中的有些样本会不至一次地出现在一棵树的训练集中,可能多次出现,也可能从未出现过。在训练每棵树的节点时,其所使用的特征将会从所有特征中按照一定比例随机实行无规律、无放回地抽取的,假设总的特征数量为M,这个比例可以是sqrt(M),1/2sqrt(M),2sqrt(M)。

通过医院医疗过程中产生的数据,对随机森林算法进行不断的训练,找到一个适用于预测医院感染的模型,提高了医院对感染的控制能力,减轻患者治疗痛苦和经济压力。

2 研究方法

随机森林是一种集成机器学习方法,它首先需要利用节点随机分裂技术以及随机重采样技术,来建构出多棵决策树,然后再通过投票的方式得到最终分类结果。其中RF还具有分析复杂相互作用分类特征的能力,所以其对于噪声数据和存在缺失值的数据都具有相当好的鲁棒性。同时,其还具有较快的学习速度,它的变量重要性度量被视为是高维数据的特征选择工具。随着科技的不断发展,其目前已经被广泛应用于各种分类、特征选择、预测以及异常点检测问题之中[2,3,4,5],并取得了一定的成果。

2.1 随机森林的数学定义

定义1随机森林[3]可以看成是由一组决策树分类器,如:{h( X,θk),k=1,2,…,K}所组成的集成分类器。在这组决策树分类器中,{θk}用来表示服从独立同分布的随机向量,K则用来表示随机森林中决策树的个数,X代表给定的自变量,每个决策树分类器将通过投票的方式来获得最优的分类结果。

随机森林的生成过程:

1)首先,采取bootstrap方法从原始训练数据集中有放回地随机抽取K个新的自助样本集,然后再根据这些自助样本集构建K棵分类回归树,同时还会将每次未被抽到的样本组合在一起,形成K个袋外数据(Out-of-bag,OOB);

2)如果设定其有n个特征,就需要在每一棵树的每个节点处随机抽取m try个特征,同时要满足m try≤n,然后开始计算每个特征蕴含的信息量,在其中选择一个最具有分类能力特征的进行节点分裂;

3)要保证每棵树最大限度地生长,不做对其做任何剪裁;

4)需要将所生成的多棵树组成随机森林,然后再利用随机森林对新的数据进行分类,最后按树分类器的投票多少来确定分类结果。

定义2边缘函数(Margin Function)

其主要用来表示平均正确分类数所超过平均错误分类数的程度,它们之间的余量值越大,则最终的分类预测越可靠。

2.2 随机森林的性能指标

随机森林分类性能受内外两方面因素影响,从外部因素看,主要来自训练样本的情况,包括训练样本的正负类样本分布,即训练样本的平衡;训练样本的规模,即样本的大小、样本的变量个数及变量的类型。从内部因素看,主要包括单棵树的分类强度和树之间的相关度。衡量随机森林性能的主要指标有2种,一是分类效果指标,二是泛化误差。

2.2.1 分类效果指标

定义5随机森林算法的分类准确率

式中∶TP所代表的是正确分类的正类;TN所代表的是负类的样本数量;

FN所代表的是错误分类的正类;FP所代表的是负类的样本数量。

2.2.2 泛化误差

这是一个反应泛化能力的指标,当泛化误差越小时,代表其学习性能越好,反之则代表其学习性能性能越差。在随机森林算法中,使用OOB估计泛化误差[1]。

2.3 算法描述

本文所采用的是由Mahout提供的随机森林法,通过采用随机森林算法可以对未知变量进行分类,同时还可以计算分类正确率。具体过程如算法1所示。

算法1随机森林算法RF

训练阶段:

输入:训练数据集D,决策树个数N,选择特征值属性个数M,特征属性集S。

输出:N棵决策树,即随机森林R。

步骤∶

1.初始化

1.1 读入训练数据集D,决策树个数N,选择特征值属性个数M,特征属性集S。

输出结果,迭代执行,直至所有的决策树构建完毕。

测试阶段:

输入:未分类数据集x,随机森林R。

输出:x的标签Y。

步骤∶

1.初始化

1.1 读入未分类数据集x,随机森林R

2.For each decision tree Ti

2.1 Ti为x进行分类,得到标签Yi

2.2 End For

输出结果

计算频数最大的Yi,并输出

3 实验与分析

本文搜集数据共30500条,其中5000例为院内感染,25500例为非感染。本次实验的硬件配置为Intel Core2.33GHz的CPU,4GB内存,500G硬盘的PC机。

4结论

1.本文采用了随机森林算法预测医院院内感染现状,并进行了实验,得到了较好的预测结果。

2.该方法具有很好地普适性、扩展性,能很好地容忍噪声、不易过拟合、需调节参数较少等优点。

3.实验结果表明,随机森林对医院院内感染能够进行有效的分类识别,它可以为医生辅助决策提供有力的基础保障。

[1]Breiman L.Random forests[J].Machine Learning,2001,45(1)∶5-32.

[2]Strobl Carolin,Boulesteix Anne-Laure,Kneib Thomas,et al. Conditional variable importance for random forests[J].BMC Bioinfor⁃matics,2008,9(1)∶1-11.

[3]Reif David M,Motsinger Alison A,McKinney Brett A,et al. Feature selection using a rand om forests classifier for the integrated analysis of multiple data types[C],IEEE Symposium on Computational Intelligence and Bioinformatics and Computational Biology,2006∶171-178.

王健,秦皇岛市第一医院,信息管理处工程师,硕士研究生学历,主要从事医院软件项目管理、质量控制,信息标准化研究等。

祖晓玲,燕山大学信息科学与工程学院,硕士研究生;

王常武,燕山大学信息科学与工程学院,教授;

李立平,秦皇岛市第一医院,信息管理处助理工程师。

猜你喜欢

决策树分类器样本
学贯中西(6):阐述ML分类器的工作流程
用样本估计总体复习点拨
基于朴素Bayes组合的简易集成分类器①
基于动态分类器集成系统的卷烟感官质量预测方法
简述一种基于C4.5的随机决策树集成分类算法设计
一种自适应子融合集成多分类器方法
规划·样本
随机微分方程的样本Lyapunov二次型估计
决策树学习的剪枝方法
决策树在施工项目管理中的应用