APP下载

随机森林与支持向量机在预测乌鲁木齐农村老年人养老服务需求的应用研究*

2022-09-14新疆医科大学护理学院830011

中国卫生统计 2022年3期
关键词:需求预测问卷养老

新疆医科大学护理学院(830011)

樊琼玲 张雪莲 杨 菲 曹雪梅 朱红梅 由淑萍△

【提 要】 目的 探讨随机森林(random forest,RF)和支持向量机(support vector machine,SVM)算法在农村老年人养老需求服务预测中的应用价值。方法 运用分层整群抽样对乌鲁木齐1652名农村老年人进行问卷调查,采用RF算法和SVM算法构建模型预测农村老年人的日常生活照料、医疗保健服务、精神慰藉服务和休闲娱乐服务等四类养老服务需求,通过准确率、特异度、召回率和ROC曲线进行模型评估。结果 日常生活照料、精神慰藉服务需求中RF模型ROC曲线下面积更大;医疗保健服务需求中SVM模型的ROC曲线下的面积更大;休闲娱乐服务需求中两个模型的ROC曲线下面积相等。结论 RF算法和SVM算法构建的老年人养老服务需求预测模型,各有其优势,在养老事业的精准预测工作中有一定的价值。

《2019年国民经济和社会发展统计公报》提示,我国老年人数量已超过2.5亿,约占我国总人口18.1%[1]。2015年到2050年,我国老年人口将持续增长,至2050年老年人口预计达4.98亿[2]。随着我国老龄化加剧和经济发展,老年人的养老服务需求越来越大,养老服务需求种类也越来越多样化。对未来不同类别养老服务的需求和趋势进行分析,对促进养老事业的精细化管理、有效解决养老服务的民生问题具有重要意义。目前,我国对老年人养老需求预测的关注度不足,尚未发现适合模型。近年来,机器学习在经济、医疗等行业中展现了深度数据挖掘、资源配置等优势[3-4]。随机森林(random forest,RF)、支持向量机(supprt vector machine,SVM)等机器学习算法能否在构建老年人养老服务需求预测模型中具有较好的性能尚未知。因此,本研究基于乌鲁木齐农村老年人的养老服务调查数据,探索RF算法和SVM算法在乌鲁木齐农村老年人养老服务需求预测中的应用价值。

对象与方法

1.研究对象

2019年1月至2020年6月,采用分层整群抽样方法,第1阶段:随机抽取乌鲁木齐县为调研区域;第2阶段:乌鲁木齐县下辖三镇三乡,根据各乡镇人口比例,在各层内随机抽取具有代表性的行政村,每个镇各抽取7~8个村,每个乡各抽取3~4个村,一共抽取36个村;第3阶段:在每个抽中的行政村内,按照简单随机抽样抽取≥60岁的常住老年人40~50人。共计发放1700份问卷,回收有效问卷1652份,有效回收率97.2%。

2.资料收集

调查问卷参考苟晓玲[5]的《安州区居家养老服务问卷调查表》并自行修订而成《乌鲁木齐农村居民养老服务问卷调查表》,问卷的第一部分为一般资料(包括年龄、性别、民族、文化程度、婚姻状况、子女个数、子女关爱情况、居住状况、月收入水平、自评自理能力和身体健康状况);第二部分为养老服务需求(包括日常生活照料、医疗保健服务、精神慰藉服务、休闲娱乐服务等4项)。经检验,该问卷克朗巴赫值为0.87,具有较好的信度。

3.调查方法

经统一培训的调查小组包括5名学生,1名少数民族翻译,以面对面访谈法进行调查。收集问卷的人员按照统一的指导语向老年人解释题目。调查结束当天每小组对当天问卷进行复核,剔除有漏项、错项及逻辑性错误问卷,讨论当天调查中的问题,总结相应解决方案,控制调查员偏倚。

4.统计分析

采用Python 3.7软件和scikit-learn机器学习包进行分析。本研究将1652个样本集分为两部分:训练集70%(1156人)和测试集30%(496人)。具体建模过程如下:

(1)进行数据预处理:根据统计学知识,对数据进行标准化处理,自变量赋值见表1。

(2)RF模型构建:经过网格搜索后确定最优算法模型,树的棵数ntree设置为200,最大深度为6层,计算每个节点的基尼不纯度(Gini impurity)和子节点的基尼不纯度的下降,作为各自变量的重要性得分并进行排序。

(3)SVM模型构建:分别比较了四种核函数,线性核函数,多项式核函数,gamma取值分别为0.5和0.1的高斯核函数(径向基函数),经过网格搜索比较后,选取预测结果更佳的 gamma 值为0.5的高斯核函数,作为SVM模型的核函数。

表1 赋值表

(4)模型的评估与比较:采用三个机器学习的常用指标,包括准确率、特异度和召回率,基于测试集数据对RF和SVM模型对老年人各项养老需求的预测效果进行了评价。还应用ROC曲线和曲线下面积AUC值对模型的效果再进行评价。

结 果

1.一般资料

入选研究对象共计1652例,平均年龄为(67.3±10.7)岁,包含男性797例,占48.2%,女性855例,占51.8%;汉族607例,占36.7%,少数民族1045例,占63.3%。

2.RF模型的影响因素重要性排序

四类养老服务影响因素的重要性排序如图1所示。各类养老服务需求中评分较高的前3项分别为:日常生活照料需求为自评自理能力、年龄、自评健康状况;医疗保健服务需求为自评健康状况、自评自理能力、年龄;精神慰藉服务为子女关爱、子女个数、婚姻状况;休闲娱乐服务为自评自理能力、每月收入水平、文化程度。

图1 RF模型中四类养老服务需求的影响因素重要性排序

3.RF模型及SVM模型的预测结果

采用Python的scikit-learn库中RF模块,构建RF模型,通过gamma 值为0.5的高斯核函数建立模型,将养老服务需求的选择结果作为因变量,其他变量为自变量。RF模型及SVM模型预测结果可见表2。

表2 测试集中RF和SVM模型分类预测结果

4.两个模型的评估与比较

RF模型和SVM模型的准确率、特异度和召回率见表3。在日常生活照料、医疗保健需求、精神慰藉服务需求中,RF模型的AUC值分别为0.75、0.69、0.64,SVM模型的AUC值分别为0.74、0.67、0.63,RF模型的预测效果稍优于SVM模型;在休闲娱乐服务需求中,两模型的AUC值均为0.85,其预测效果相近,见图2。

表3 RF模型和SVM模型的准确率、特异度和召回率(%)

图2 四类养老服务需求预测的ROC曲线图

讨 论

随着老龄化加剧,建设养老产业、精准预测养老需求已是我国重要民生问题。基于科学模型算法得出的老年人养老服务需求预测,可更好地对养老服务的建设和推广提供依据,促进相关配套政策和设施的制定。

目前,我国的老年人养老服务需求预测侧重于对失能老年人的养老服务需求或护理需求。周元鹏等[6]通过比例测算法,结合日常生活活动能力,计算不同年龄、不同功能障碍等级的老年人口比例来预测居家养老服务的需求规模。乡汝浩等[7]通过国际人口预测软件PADIS-INT预测老龄化进程,以失能率为基础,结合失能老人的入住意愿和我国实际情况,对未来医养结合养老服务需求进行预测。于欢[8]通过灰色理论模型以老年残疾人居家养老总数与各项需求百分比的成绩计算出各项预测需求总人数。由于老年人口总量预测的影响因素众多,各因素间关系复杂,几个指标难以完全解释清楚,且老年人口数据具有历史不完整、信息不全等特点,传统预测模型无法较好地实现对养老服务需求的预测。

机器学习技术具备强大的特征识别分类及预测的能力,提供了从不同数据推断数据项之间重要联系的可能性[9]。一部分机器学习算法已应用于临床工作中,已被证明比传统方法能更准确预测结局[10-11]。RF算法由Leo Breiman[12]于2001年提出,该算法以“袋装法”整合多棵决策树,是一种较为实用的集成学习法。与logistic回归相比,RF算法通过随机特征选择了样本误差,比单一测试样本进行拟合的logistic模型结果更有说服力[13]。SVM算法是以统计学理论为基础,以结构风险最小化为原则,在小样本条件下拥有较好的推广和泛化能力[14]。通过核函数,SVM算法可以将线性不可分的数据转化为线性数据。

RF模型和SVM模型在老年人养老事业预测方面的研究,目前仍较少。吴帅等[15]以RF模型对老年人的居住偏好进行预测表明,老年人的特征数据可以较好地预测其居住偏好。本研究通过构建RF模型和SVM模型,对乌鲁木齐农村老年人的日常生活照料、医疗保健服务、精神慰藉服务和休闲娱乐服务四类养老服务需求进行预测并评价两个模型的性能。结果表明,RF模型和SVM模型各有优势。因本研究对象为乌鲁木齐农村老年人,模型在其他特征人群中是否适用,需进一步求证。

综上,本研究基于RF算法和SVM算法构建的模型对乌鲁木齐农村老年人养老服务需求均有较好的预测能力,各有优势。实际工作中,我们可结合不同情况,选择合适模型预测老年人的养老服务需求,为养老事业提供参考。

猜你喜欢

需求预测问卷养老
养老生活
浅谈需求预测在企业中的应用
基于BP神经网络的济南市物流需求预测
基于灰色模型对上海市电力需求预测分析研究
养老更无忧了
以房养老为何会“水土不服”?
养老之要在于“安”
问卷大调查
问卷你做主