APP下载

机器学习算法在糖尿病预测中的应用

2019-09-10贺其赵岗菊云霞周薏岚李敏董琪赵凯

关键词:决策树机器学习糖尿病

贺其 赵岗 菊云霞 周薏岚 李敏 董琪 赵凯

摘 要:在很多领域利用机器学习的方法对数据进行分析、预测、判断具有非常重要的现实意义。将机器学习的算法应用到医学领域成为了研究的热点之一。糖尿病是多发病症,对是否患有糖尿病做出有效预测,意义重大。论文采用机器学习算法预测糖尿病,利用微软的Azure machine learning作为实验平台。采用了神经网络、逻辑回归、决策树、贝叶斯、支持向量机五种机器学习算法进行了预测,预测正确率分别是0.854,0.787,0.952,0.779,0.781。结果显示决策树预测效果最佳。在决策树预测的基础上对预测方法做出改进后,实验结果表明正确率提高了0.002。

关键词:机器学习;糖尿病;决策树;Azure machine learning

中图分类号:TP181;R587

文献标识码: A

科技不断进步与发展,大数据时代已经到来,面对各种纷繁复杂,基数巨大的数据,如何在其中提取挖掘出最有价值的信息,为企业、团体或个人决策提供科学的依据显得尤为重要。最近几年,机器学习受到了企业、学校、学术研究机构的广泛关注。机器学习[1-3](Machine Learning, ML)是一门跨越多个领域的交叉学科,涉及统计学、概率论等多门学科,机器学习算法是从已有数据中分析挖掘获得规律,并利用这些规律对未知数据做出预测。利用机器学习的算法对数据做处理、分析、预测可以应用到很多领域。文献[4]中阐述了机器学习方法在金融领域的应用。文献[5]介绍机器学习这一智能化探索型数据分析手段为处理地理学中普遍存在的高维非线性噪声数据提供了方法支撑。文献[6]研究了支持向量机算法在翻译风格研究中的应用。文献[7]介绍了机器学习方法在水文地质中的研究。

在医学领域应用机器学习算法,可以有效节约各种人力、物力、财力,提高医生的看病效率,缓解就医难的问题。糖尿病作为多发病和严重的慢性病,患病率呈现逐步上升的趋势。并且一直以来是受到医学界、研究机构的广泛关注。世界卫生组织发布的《全球糖尿病报告》[8],指出全球糖尿病患者人数已达到4.22亿人,这些患病的人主要集中在中低收入国家。

糖尿病分为1型糖尿病和2型糖尿病,患者罹患2型糖尿病的占大多数。利用机器学习算法对2型糖尿进行预测的研究比较多[9-13]。糖尿病可能导致多种并发症包括视力减退、中风、心脏病发作,这将会给患者的身心健康造成严重伤害。糖尿病也会给患者及其家庭带来较重的经济负担。

我们选用了神经网络、逻辑回归、决策树、贝叶斯、支持向量机五种机器学习算法进行了预测,如图1是机器学习算法预测糖尿病的过程。五种方法比较,实验结果显示决策树预测的更好,所以我们重点选用了决策树进行预测,并根据数据特性选用合理的方法标准化数值特征。

1 决策树

在机器学习算法中,决策树是非常重要的算法之一,决策树也被叫做判定树。根据不同的特征点信息对给出的数据集进行划分,最终结果得到的是一棵树。每个划分集存放在相应的子树里。决策树的决策过程是从决策树的根节点开始的,待测数据与决策树中的特征节点进行比较,依照比较结果选择相应的分支。决策树的学习过程如下:首先是特征选择,从给定的训练数据的特征点中选择其中一个作为节点的分裂选择标准。其次是决策树的生成,要依据所选标准,从上到下递归地生成对应的子节点,一直到数据集不可再分则停止生成。最后是对树剪枝,决策树很容易产生过拟合,针对这种情况需要通过剪枝来解决这一问题。

1.1 决策树的基本算法

决策树的基本算法如下[14]:

1.2 划分选择

从决策树的算法中,希望决策树分支节点所包含的样本应尽可能地属于同一个类别,即节点纯度越来越高。信息熵是用来评价样本集合纯度的最常用指标。

1.3 剪枝处理

在决策树学习过程中,由于节点划分过程不断地重复,会造成决策树分支过多,这时会导致训练样本学的过于好,产生过拟合。采取的措施是通过主动去掉一些分支,来降低过拟合的风险。

决策树剪枝分为预剪枝与后剪枝两种。决策树学习中,对每个节点在划分前首先进行估计,如果当前节点的划分不会使决策树泛化性能得到提升,则要停止划分,把当前节点标记为叶子节点。后剪枝是先从给定的训练集中生成一棵完整的决策树,随后自底向上对非叶节点进行检查,如果这个结点对应的子树替换为叶子结点能带来泛化性能的提升,则使用叶子结点替换它。后剪枝决策树通常比预剪枝决策树保留了更多的分支,后剪枝决策树欠拟合风险小,泛化性能上表现更优秀。

2 实验及结论

我们的样本选用了15000条记录的数据集,共有11个特征点,分别是其中10500个(70%)用作训练集,4500个(30%)用作测试集。所选用的机器学习工具为微软的Azure Machine Learning[15]。

预测正确率(Accuracy)=真阳性+真阴性/真阳性+真阴性+假阳性+假阴性,正确率是接近真值的程度。越接近1越好。预测精度(Precision)=真阳性/真阳性+假阳性,分散程度越接近1越好。召回率(Recall)=真陽性/真阳性+假阴性,越接近1越好。曲线下面积(AUC)能够体现模型性能的优劣。如表1是对预测结果的评估。如图2是ROC曲线显示了真阳性率与假阳性率之间的曲线变化率。曲线越是靠近左上方,表明算法的预测效果越好。在5种机器学习方法种预测效果表现好的依次排名分别是决策树,神经网络,逻辑回归,支持向量机,贝叶斯。在所有5种方法预测的基础上,我们根据要预测的目标,剔除了病人编号和医生两个特征点。对于一些特征近似正态分布我们采用了均值方差作标准化,而对远离正常值的则采用MinMax标准化。

3 总结

人工智能和大数据分析领域日益引起广泛的关注,而机器学习是其中重要的理论依据和工具之一。在论文中分别采用了神经网络、逻辑回归、决策树、贝叶斯、支持向量机等机器学习算法预测糖尿病,几种方法比较结果表明决策树预测的准确度和精度更加准确,更加有效,下一步我们将采用更加多样的糖尿病方面的数据集,对我们的方法进行印证。我们坚信机器学习方法将会更广泛地应用于医疗领域,对于人们治疗各种疾病起到积极的作用。

参考文献:

[1]张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报(自然科学版),2016,23(2):10-18.

[2]余明华,冯翔,祝智庭.人工智能视域下机器学习的教育应用与创新探索[J].远程教育杂志,2017,35(3):11-21.

[3]Peter Flach.机器学习[M].北京:人民邮电出版社,2016:9-10.

[4]孙存一,龚六堂.大数据思维下的利率定价研究——以机器学习为视角的实证分析[J].金融理论与实践,2017(7):1-5.

[5]张郴,黄震方,张捷,等.基于机器学习的南京市旅游地个性及其文化景观表征[J].地理学报,2017,72(10):1886-1903.

[6]詹菊红,蒋跃.机器学习算法在翻译风格研究中的应用[J].外语教学,2017,38(5):80-85.

[7]强玲娟,常安定,陈玉雪.机器学习算法反求水文地质参数[J].煤田地质与勘探,2017,45(3):87-90.

[8]世界卫生组织全球糖尿病报告[DB/OL]. http://www.who.int/diabetes/zh/.

[9]G Luo.Automatically explaining machine learning prediction results: a demonstration on type 2 diabetes risk prediction[J]. Health Information Science& Systems,2016,4(1):1-9.

[10]HsinYi T, PeiYing C, ChiaYu S E. Predicting diabetic retinopathy and identifying interpretable biomedical features using machine learning algorithms[J].BMC Bioinformatics, 2018, 19(S9):195-205.

[11]T Zheng,W Xie, L Xu,et al. A machine learning-based framework to identify type 2 diabetes through electronic health records[J].International Journal of Medical Informatics,2017,97:120-127.

[12]N Yuvaraj, KR Sripreethaa.Diabetes prediction in healthcare systems using machine learning algorithms on Hadoop cluster[J].Cluster Computing,2017(1):1-9.

[13]蘇萍,杨亚超,杨洋,等.健康管理人群2型糖尿病病发风险预测模型[J].山东大学学报(医学版),2017,55(6):82-86.

[14]周志华.机器学习[M].北京:清华大学出版社,2016:73-74.

[15]千贺大司,山本和贵,大泽文孝.微软Azure机器学习实战手册[M].北京:中国人民大学出版社,2017.

(责任编辑:曾 晶)

猜你喜欢

决策树机器学习糖尿病
简述一种基于C4.5的随机决策树集成分类算法设计
跟踪导练(一)(5)
决策树学习的剪枝方法
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
Ending teen smoking
决策树在施工项目管理中的应用
视力改变与糖尿病等