APP下载

集成学习算法在疾病预测中的应用研究

2020-07-18丁伟民

科学大众 2020年5期
关键词:堆栈随机森林

摘 要:文章分析了3种集成学习框架,在3个疾病数据集上对3种典型的集成学习算法进行比较,结果表明:基于Stacking的集成算法在疾病预测方面表现良好。

关键词:集成学习;随机森林;堆栈

近年来,众多学者将集成学习应用到医疗诊断中,以提高疾病预测的准确率,如苗丰顺等[1]提出了一种新型的Boosting算法,预测糖尿病患者。王荣政等[2]应用集成学习,识别血糖异常个体。本文应用3种不同的集成学习算法,对3种疾病机型进行分类预测,以比较3种算法在疾病预测方面的性能。

1    3种集成学习框架

集成学习的主要方法有提升(Boosting)、装袋(Bagging)和堆栈(Stacking)。Boosting是一类能够将弱学习器转化为强学习器的算法,它在训练当前学习器之前通过给予被先前学习器错误标记的样本更高的权值,让当前学习器在先前学习器的错误样本上有更好的表现。Bagging随机抽取(有放回)数据集里的样本M次,训练得到M个学习器,然后用投票的方法集成。Stacking通常是一个两层结构,选择训练多个不同类型的基础分类器来生成元级数据,然后应用元级数据训练形成元分类器。近年来,学者发现Stacking在集成学习方面表现了良好的性能。

2    数据集合评价准则

实验在3个公共数据集上进行,包括:肝脏疾病数据集(Hepatitis)、皮肤疾病数据集(Dermatology)和乳腺癌数据集(Breast-w),如表1所示。

实验采用查全率、查准率和F1值3种方法衡量集成算法的性能。查准率表示为判定为阳性的实例中实际阳性实例的比例,查全率表示分类器正确预测的阳性实例的比率,F1值表示查全率和查准率的调和均值。

3    实验与分析

实验基于WEKA平台进行,选择集成算法AdaBoostM1和Bagging,并构建Stacking-RF(Randomforest作为元分类器,NaiveBasye,SimpleLogistic和J48作为个体分类器)。

数据集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查准率分别为0.831,0.781和0.842。數据集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查准率分别为0.276,0.926和0.978。数据集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查准率分别为0.953,0.956和0.961。数据集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查全率分别为0.839,0.806和0.852。数据集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查全率分别为0.503,0.923和0.978。数据集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查全率分别为0.953,0.956和0.961。数据集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的F1值分别为0.833,0.785和0.845。数据集Dermatology,AdaBoostM1,Bagging和Stacking-RF的F1值分别为0.350,0.923和0.978。数据集Breast-w,AdaBoostM1,Bagging和Stacking-RF的F1值分别为0.953,0.956和0.961。

数据集Hepatitis,Stacking-RF在查全率上优于AdaBoostM1 1.5%,优于Bagging 5.7%。在查准率上,优于AdaBoostM1 1.3%,优于Bagging 7.8%。在F1值上优于AdaBoostM1 1.4%,优于Bagging 7.6%。同样,在Dermatology和Breast-w两个数据集上,Stacking-RF均优于另外两种集成算法。因此,从实验效果上,可以看出Stacking集成算法在疾病预测方面展示了良好的性能。

4    结语

首先,本文分析分析了3种集成学习框架;其次,在3个疾病数据集上对3种典型的集成学习算法进行了比较,结果表明,基于Stacking的集成算法在疾病预测方面表现良好。

[参考文献]

[1]苗丰顺,李岩,高岑,等.基于CatBoost算法的糖尿病预测方法[J].计算机系统应用,2019(9):215-218.

[2]王荣政,廖贤艺,陈湘萍,等.基于集成学习融合模型的血糖预测[J].医学信息学杂志,2019(1):63-66,88.

作者简介:丁伟民(1979— ),男,汉族,山东潍坊人,讲师,硕士;研究方向:计算机应用技术。

猜你喜欢

堆栈随机森林
基于SpringBoot结果集序列化过滤插件的研究与实现
Stacking算法在医疗健康数据中的应用研究
基于生成语法的句子理解机制
Windows栈缓冲区溢出攻击原理及其防范
缓冲区溢出安全编程教与学
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于随机森林算法的B2B客户分级系统的设计