APP下载

基于大数据的脑卒中复发预测模型的构建

2019-07-29陈莉平宋立冉

物联网技术 2019年6期
关键词:分类器预测算法

陈莉平 宋立冉?

摘 要:我国临床资料表明脑卒中具有较高的复发率,采用风险预测模型及时对脑卒中患者进行智能化的复发风险筛查,识别脑卒中高复发人群具有重要意义。文中提出基于脑卒中患者数据建立脑卒中大数据应用平台,通过采集和集成脑卒中患者的数据,提取导致脑卒中复发的重要危险因素,在此基础上,采用基于机器学习的集成学习框架在平台的数据分析层构建脑卒中复发风险评估模型。目前已开发了脑卒中复发预测模型的原型系统,脑卒中平台业务管理人员可利用平台的预测模型对脑卒中初患人群进行复发风险预测。

关键词:脑卒中;复发;大数据;机器学习;集成学习算法;危险因素;预测模型;原型系统

中图分类号:TP274 文献标识码:A 文章编号:2095-1302(2019)06-00-05

0 引 言

脑卒中是由脑血管病变发展到一定程度导致的,具有较高发病率、致残率和死亡率,已成为当今世界严重危害人类健康和生命安全的重大疾病。中国卒中协会2015年首次发布的中国卒中报告显示,目前我国脑卒中发生率正以每年8.7%的速度上升[1],每年死于脑卒中的患者达到130万,脑卒中在我国已成为第一位死亡原因[2]。因此,若能及时采用有效的风险评估工具对患者进行复发危险因素筛查,识别高复发风险患者,提高高危患者的风险意识并积极控制危险因素,对降低脑卒中复发率、致残率和死亡率有重大意义[3]。目前在临床上用于筛查及预测脑卒中复发风险的工具较多,但均是基于外国人群研发的评估模型。在国内也有学者采用回顾性队列研究方法,通过对脑卒中患者进行随访,构建复发的预测模型[4],但是选择的样本量偏少,在实际应用中对临床决策指导意义不大。随着大数据处理技术的出现,医疗及健康数据也不断增加,医疗、健康、卫生等领域也进入了大数据时代[5],当前已有采用大数据对患者慢病进行危险因素评估和个性化干预的研究出现[6]。基于以上几点,我们对脑卒中国内外复发风险评估模型的应用情况进行了详细分析,研究并初步建立了脑卒中大数据平台,并以此为基础构建脑卒中复发预测原型系统,以期在临床上帮助医生对高复发风险患者进行早期、准确、快速地识别,同时帮助患者和家属将患者病情转化成积极有效的二级预防干预,这对减少脑卒中的复发具有现实意义。

1 基于大数据模型构建需求

1.1 国外评估模型

针对脑卒中患者的复发风险评估,当前临床主要采用ABCD评分系统、Essen量表和SPI-II量表等评测工具,其提出的时间较早,且都是基于外国人群研发的评估模型。随着国人生活方式的改变和生活节奏的加快,卒中患者有年轻化的趋势,基于不同的人群组,各危险因素的赋分权重是否合理尚未被证实,因此,针对国人来说,这些模型的预测作用较为有限,进一步建立和完善适合国人的脑卒中预测风险评估模型,发现新的危险因素具有重要意义。

1.2 本土评估模型

国内学者主要采用回顾性队列研究方法构建脑卒中复发的预测模型,将符合脑卒中诊断标准,且首次卒中,并在一定时间内入院的患者作为研究对象,研究过程如下:

(1)记录患者个人信息、既往史、家族史、生活习惯、入院时的临床量表评分、入院几小时内的血压检测结果、入院几天内的实验室检查结果;

(2)设计患者随访量表,包括患者出院后用药、血压、血糖、血脂和康复情况;

(3)随访采用电话随访和信访等形式,以患者发病时间为起点,患者脑卒中复发,失访或死亡为终点;

(4)运用统计学方法进行建模和验证。构建这类模型所采用的样本较少,不具有代表性,且样本来源仅限于研究者所选定的地区,覆盖面较窄,所构建的预测模型在实际应用中对临床决策指导意义不大。

1.3 卒中患者数据存储存在的问题

在当前我国脑卒中防治体系中,不同机构会间接或直接涉入到对同一患者的治疗和康复管理过程中,并对患者在院前、院中、院后各个治疗阶段和康复过程中产生的数据各自存储。在数据来源和记录方面,不同机构所采用的记录类型和规则也不同,从而导致数据的共享极度困难,更无法自动从卒中患者完整的数据信息中挖掘出有价值的预测模型。因此,迫切需要构建腦卒中大数据平台,采集和集成脑卒中患者数据(患者个人信息,临床特征、既往史、家族史、生活习惯、实验室数据、住院诊疗情况,卒中后二次复发等信息),基于这些信息构建用于国人脑卒中复发预测的评估模型,并将达到一定成熟度和预测性能指标的模型自动地对系统新采集进来的既往脑卒史患者实施及时和有效的筛查是建立脑卒中大数据管理分析平台的现实需求。

2 脑卒中健康大数据管理平台构建

2.1 平台的功能架构

采用Hadoop作为基本的分布式执行架构,构建脑卒中大数据平台,并在该架构上配置R与Spark等分析工具,形成集脑卒中患者数据采集、存储、分析、模型学习、风险预测等应用服务系统。平台功能主要由患者卒中后五年内数据采集与存储管理系统、基于机器学习的数据分析系统和脑卒中复发预测应用服务等构成。数据采集与数据存储系统主要对来自不同机构患者的数据进行采集、异构数据的集成、数据存储、数据加密和权限认证等;数据分析系统对大数据进行分析和处理,筛选脑卒中复发危险影响因素,并在此基础上部署机器学习算法,通过对危险因素元组数据集进行训练学习,以构建脑卒中复发风险评估模型;应用服务系统主要基于训练完成的复发风险评估模型自动、快速对新集成的卒中患者的复发风险进行预测、预警和识别,为决策支持、科研应用、健康服务和智能辅助诊断提供应用支持,功能架构如图1所示。数据分析与机器学习算法部署是平台的核心,包括构建算法学习接口,调用R平台机器学习算法库等。

2.2 脑卒中大数据管理

脑卒中大数据管理服务主要解决平台脑卒中大数据采集、读取、存储、集成及安全性等问题,为后期的数据建模、分析及预测提供稳定、及时和智能化的支持。

2.2.1 数据采集  脑卒中患者大数据管理平台实现以脑卒中患者为采集对象,利用数据接入及导入工具对分散在基地医疗机构、社区卫生中心、保健机构、体检机构、医院等不同脑卒中数据源所在的各级机构中的患者信息进行采集和集成,最终形成一个研究型和结构化的卒中患者病历信息库。采集内容涉及患者个人信息、既往史、家族史、实验室数据、住院诊疗数据、阶段性随访数据、体检数据等。数据导入针对脑卒中各类异构数据源提供可兼容的异构数据采集接口,实现对不同来源,不同机构下的SQL Server Oracle,MySQL,PostgreSQL等多种关系数据库数据的数据导入;在数据采集策略上,支持全量、批量、实时数据的接入及导入;在离线数据获取方面,支持HDFS,FTP,文本文件等日志类数据文件;也可对Flume,Kafka等流式数据实现实时入。

2.2.2 数据存储与管理

在平台数据的存储和管理端,针对数据集成后患者信息的保密性和涉及患者隐私的数据安全性制定管理策略,同时保证能对集成后的数据执行高效的数据部署、读写和存储,平台所采用的技术集中在以下方面:

(1)数据脱敏。在应对数据安全性的策略上,平台对集成的患者个人信息中的姓名、社保卡号、出生日期、身份证号、家庭住址、联系方式、家族病史、个人病史等,根据不同信息的隐私保密程度和后期使用要求,采用重要信息遮蔽、混合屏蔽、确定性屏蔽等方式进行去隐私化处理。针对其他重要数据信息,根据数据的类型,采用数据变形、数据范化等抽象处理策略,在保证用户数据安全的同时,更好地保留数据特征及关联关系,以服务于下一步数析。

(2)数据高效存储。针对结构化数据库数据,就诊记录、病程记录、住院记录等文本半结构化数据,图像及影像非结构化等异构数据进行集成后,在数据的存储策略上,平台采用基于Hadoop架构下的(HDFS)分布式文件系统等技术实现数据的存储,根据不同的数据类型,采用分布式存储方式将数据部署在集群各DataNode中,并由DataNode对这些数据进行统一管理,形成一个具有广阔扩展能力、在不同地点部署及同步处理能力、可管理海量级别数据文件,消除传统数据存储中存储元数据困扰的分布式数据存储系统。

2.3 脑卒中大数据分析

疾病风险预测的构建思想,通常是把人群中临床事件发生前收集的相关危险因素信息与最终是否发病等临床结果建立联系,以形成风险预测评估模型[7-8],在脑卒中大数据平台数据分析层,基于风险预测评估模型的这种实现思想,结合集群的分布式处理功能,以R为分析工具,利用其灵活和易于使用的脚本语言,对脑卒中大数据经过预处理后的数据进行深入分析,提取脑卒中患者复发的重要影响因素,在平台的数据分析层部署基于机器学习的集成学习算法以构建脑卒中复发风险评估模型,用于脑卒中管理业务中脑卒中复发高危人群的识别。

2.3.1 数据预处理脑卒中患者的管理数据来源广泛,数据形式多样,涉及种类较多,为了实现脑卒中大数据的挖掘和分析,平台对患者数据中的性别、年龄、冠心病、房颤、收缩压、舒张压、甘油三酯、同型半胱氨酸、低密度脂蛋白、高密度脂蛋白、C-反应蛋白、血糖、总胆固醇、吸煙史、饮酒史、二次卒中情况、体力活动、脂蛋白、体重指数、尿酸、高血压家族史、糖尿病家族史、高血压病史、糖尿病病史、卒中家族史等涉及脑卒中危险因素的相关数据进行清洗、插补缺失值、规范数据格式、不合理样本去除等操作,并将常规脑卒中影响因素作为建模变量进行赋值,使数据格式和质量符合建模的要求,数据处理后的结果见表1所列。

2.3.2 脑卒中危险因素重要属性筛选将平台上脑卒中大数据集群中经过数据预处理后的脑卒中危险因素数据集进行随机采样,并根据数据集中危险因素的数据类型(分类属性或数值属性),采用不同的单因素分析方法对影响脑卒中复发的显著性因素进行筛选。具体筛选方式:将患者的性别、高血压病病史、糖尿病病史、冠心病病史、房颤史、吸烟史、饮酒史、体力活动、高血压家族史、卒中家族史、糖尿病家族史等具有分类属性的变量与卒中复发史进行卡方检验;将年龄、同型半胱氨酸、收缩压、舒张压、甘油三酯、低密度脂蛋白、高密度脂蛋白、C反应蛋白、血糖、总胆固醇、体重指数、尿酸等具有连续属性的变量在二次卒中组和非卒中组间进行独立样本T检验。通过单因素分析,最终获取各个集群中具有显著意义的脑卒中影响指标,并基于显著性指标形成脑卒中元组数据集,用作后续的数据分析及建模。

2.3.3 脑卒中复发风险学习模型部署

机器学习是一种能够赋予机器学习的能力以及完成编程无法完成的功能的方法,通过利用学习算法对数据进行训练,并将满足性能要求的模型对数据进行范化预测,该方法已成功被运用在健康管理、疾病风险预测等领域[9]。因考虑到平台所集成的卒中数据量级,卒中患者在卒中后五年内具有很高的复发率,各个数据维度基本不存在严重的稀疏性,数据在集成学习前也已做过预处理,因此在针对平台数据学习算法的部署上,机器学习集成算法应用场景较多,将决策树作为基分类器,在大部分分类器上的AdaBoost[10]器集成学习算法框架。该框架能基于多个学习器创建一个较强学习器,相比其他学习框架,集成学习不会对数据过度拟合,可显著降低泛化错误率,具有更强的容错和抗扰动能力,在达到同等性能的情况下,所用学习时间最短。算法原理如图2所示。

在算法的执行端,平台结合数据集群的分布式处理功能,以R为分析工具,调用其内置的AdaBoost集成学习算法库,对平台上经过处理后分布存储的脑卒中元组数据集进行学习和建模,学习算法如下:

具体的学习方案:

(1)从脑卒中指标数据集中随机抽取75%的样本数据集用来训练模型,余下25%的数据作为测试集用以评估模型的性能;

(2)对训练数据集的权值分布进行初始化处理,每一个训练样本初始赋予相同的权重;

(3)第一个分类器尝试使用决策树对训练数据建模,并根据预测结果调整其在下一个分类器训练数据中样本的权重,如果在上一个分类器的预测中,一个卒中复发/无复发被执行错误分类成无复发/复发,那么在下次分类器的训练样本采样过程中,该错误样本就会被赋予较高的权重,以使其能够以较高的概率被抽中纳入到本次分类器,反之,降低上次被正确预测样本的权重到本次分类器,以提高样本被正确分类的概率,再用调整权重后的样本对下一个分类器进行训练,从而依此迭代训练数据集。具体的迭代次数取决于十折交叉验证的结果;

(4)在各类分类器的训练过程结束后,加大分类误差率小的分类器的权重,使其在最终的分类函数中起决定作用,降低分类误差率大的分类器的权重,并最终将多个训练得到的分类器组合成决策型强分类器;

(5)随着平台上新卒中患者数据的不断采集,更新训练集并重复以上过程,直到模型的预测性能不再提高为止。

3 脑卒中复发预测原型系统

目前已完成脑卒中数据平台的初步搭建,实现了脑卒中患者数据的采集和存储,集成了多达上万例脑卒中患者数据,平台在对当前脑卒中患者数据进行预处理后,从脑卒中影响因素中筛查得出,患者的年龄、高血压、甘油三酯、冠心病、高血压家族史、体重指数、总胆固醇、同型半胱氨酸、高密度脂蛋白等指标是导致脑卒中复发的前9项显著性影响因素,影响脑卒中复发的前9位因素重要性对比如图3所示。

平台执行已部署完成的AdaBoosting机器集成算法,针对当前平台上万例脑卒中患者数据,将脑卒中元组数据集中的7 000例用作脑卒中复发风险评估模型构造的训练数据集,将剩下的3 000多例数据作为模型的测试集,运用准确率、敏感性、特异性、Kappa、Auc等指标参数和ROC曲线来评估平台当前模型的预测性能。

当前模型性能参数包括准确性:0.83,灵敏度:0.85,特异性:0.81,阳性预测度:0.93,阴性预测度:0.81,Kappa:0.66,Auc=0.88。准确性为0.83,表明平台当前所采集和集成的数据集训练得到的预测模型能够对脑卒中患者是否复发的预测准确性达到83%;灵敏度为0.85,说明患者被正确分类的比例达到85%;阳性预测度为0.93,意味着模型在预测时,患者极有可能像阳性才会预测为阳性,其可以仔细定位到阳性患者,同时忽略非阳性患者,说明模型不太容易因无意义的噪声而减弱其预测准度;Kappa达到0.66,也表明脑卒中患者是否复发的预测结果与其实际结果之间达到不错的一致性。当前预测模型的ROC曲线如图4所示,图中ROC曲线离45°的分类器基准线距离较远,ROC曲线下面积Auc达到0.88,说明分类器分类效果良好。

4 结 语

本文对脑卒中患者大数据的应用需求进行了分析,并采用大数据技术对卒中患者在治疗过程中相关医疗记录进行集成和存储,已初步完成了脑卒中数据平台的搭建,并在平台的数据分析层部署了脑卒中重要危险因素筛查和基于机器学习AdaBoost学习算法。根据平台原型从当前采集到的数据筛查结果来看,年龄、高血压、甘油三酯、冠心病、高血压家族史、体质指数、总胆固醇、同型半胱氨酸、高密度脂蛋白等指标是导致脑卒中复发的显著因素。从算法针对7 000多例脑卒中患者数据训练出的结果来看,模型具有较好的泛化能力(准确性:0.83,灵敏度:0.85,特异性:0.81,阳性预测度:0.93,阴性预测度:0.81,Kappa:0.66,Auc=0.88),當前数据所建立的模型能够对脑卒中初次患病后的人群进行复发风险预测。随着采集和接入更多的卒中患者数据,模型可达到更为准确的预测效果。根据未来平台应用者使用需求深度的增强,可在平台上部署其他数据分析算法,以对卒中数据做更深层次的挖掘,为决策支持、科研应用、健康服务和智能辅助诊断提供更加准确的参考依据。

参 考 文 献

[1]廖美容,周义杰,苏丹.自拟中经2号方治疗中风急性期的疗效评价[J].右江医学,2013,41(4):573-575.

[2] WU X,ZHU B,FU L.Prevalence,incidience,and mortality of stroke in the Chinese island populations:a systematic review[J].PLoS One,2013,8(11):67-69.

[3] PADHUKASAHASRAM B,HALPERIN E,WESSEL J,et al.Presymptomatic risk assessment for chronic non-communicable disease[J].PloS one,2010,5(12):96-99

[4]安雅臣,王玉浔,张江,等.缺血性脑卒中复发预测模型的构建[J].中国康复理论与实践,2013,19(3):210-213.

[5]潘惊萍,张子武.医疗卫生大数据探索[J].中国卫生信息管理杂志,2016,13(4):187-189.

[6] STEINBERG G B,CHURCH B W,MCCALL C J,et al.Novel predictive models for metabolic syndrome risk:a“big data”analytic approach[J].The American journal of managed care,2014,20(6):211-218.

[7]邓乃扬.支持向量机-理论、算法与扩展[D].北京:科学出版社,2009.

[8]刘建平,程锦泉.应用分类树模型构建缺血性脑卒中发病风险的预测模型[J].中国慢性病预防与控制,2012,20 (3):257.

[9]宗慧,赵韡.应用机器学习算法构建心梗患者风险预测模型[J].中国数字医学,2016(4):36.

[10] ALFARO E,GAMEZ M,GARCIA N.Adabag-an R packages for classif-ication with boosting and bagging[J].Journal of statistical software,2013(54):1-35.

猜你喜欢

分类器预测算法
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
一种改进的整周模糊度去相关算法