APP下载

基于数据挖掘的重大疾病保险客户风险预测及细分

2023-01-28辛凯琪汤金凤辽宁大学金融与贸易学院

上海保险 2022年11期
关键词:疾险细分决策树

辛凯琪 汤金凤 辽宁大学金融与贸易学院

一、引言

根据我国第七次人口普查结果,我国人口老龄化程度进一步加深,已经接近深度老龄化。通常,老龄人口随着年龄增大,身体各项机能开始退化,从而发生重疾的可能性会增大。2020年11月,中国保险行业协会与中国医师协会联合发布《重大疾病保险的疾病定义使用规范(2020 年修订版)》,优化了重疾分类,并且引入了轻度疾病的分类,扩大了重疾险承保范围。伴随着重疾险保障范围的扩大,也会增加经营重疾险的保险公司面临的赔付风险。外部环境的变化给经营重疾险的保险公司带来挑战,保险公司在承担较高赔付风险后其经营效益和偿付能力势必会受到影响。然而,机遇与挑战并存,这一形势下,保险公司如能适应外部形势变化,采取适当的应对策略,则可以化挑战为竞争力。

为了增强经营的稳健性和竞争性,保险公司需要对投保重疾险的客户进行风险预测并作出客户细分。本文的重点即聚焦投保重疾险的客户风险评估。重大疾病的内涵包含三个方面特征:治疗费用高昂、治疗周期长、发生后会严重影响家庭经济状况。该险种创立的初衷是,当一个人遭遇重大疾病时,由医生来挽救其身体,由保险来保证其在经济上不遭受毁灭性打击,以免发生人走财空或人在财空的悲惨结果。保险公司作为经营这一风险的主体,势必要根据客户自身的身体特征、经济特征以及消费特征等作出风险预测,并且有针对性地进行产品设计与营销,以保证其充足的赔付能力。

当下,重疾险产品同质化严重,各保险公司的重疾险产品所承担的责任差异不大,主要依靠与其他产品相结合来提升自身竞争力,如豁免保费权益、年金权益、健康打卡等方式。未来,商业保险公司若要增强自身竞争力,应当聚焦于责任的细分。由于不同群体面临的风险不同,保险公司可通过对客户自身风险及其个体特征的精准定位,更加有针对性地开发产品,以满足投保人多样化的投保需求,同时提高自身经营的效益。因此,进行客户风险评估及细分,对于商业保险公司具有重要的实践意义。

本文以A 保险公司的客户基础信息为例,运用logistics 回归分析和决策树算法,分析影响重疾发生可能性的主要因素以及各因素间的交互作用,最后对经营重疾险的保险公司提出有关精准营销的合理建议。

二、理论基础及研究方法

(一)理论基础

客户细分理论最早由美国学者史密斯于1956年提出,他以客户的多样化需求为细分标准,按照每一类客户特征制定营销策略。随后Jennifer Drayton在1987年进一步提出以地理、人口、心理或行为等特征划分不同市场,并通过采取针对性营销策略提高营销效率。后来这一理论不断完善发展。我国学者綦欣德(2013)在过往静态描述性模型的基础上,引入了多维度细分、动态性细分和预测性细分视角。随着计算机技术的进步以及大数据发展,诸多学者开始将数据挖掘模型引入客户细分领域。赵萌、齐佳音(2014)运用RFM模型对客户终身价值进行评估,并以此作为客户细分的依据。原慧琳、杜杰等(2021)将改进K-means 算法引入客户细分领域,找出了客户细分的科学路径。

根据前人研究可以看出,客户细分理论基本原理是,根据客户的文化观念、经济收入、消费习俗、生活方式等的不同细分新的类别,企业根据客户的不同类别制定品牌推广战略和营销策略,将资源针对目标客户集中使用。客户细分中通常要考虑三方面的因素:内在属性、外在属性及消费者行为。内在属性通常包含客户的年龄、性别、收入等;外在属性包括地域属性、环境属性等;消费者行为包含消费频率、消费额等。只有充分考虑影响客户消费的诸多特征,才有可能对客户实施精准划分。

客户细分在实际操作中应当包含以下流程:1.确定需要收集的数据以及如何收集;2.将不同类别的数据整合在一起,以便于寻找其内在关联;3.选择算法或模型对数据进行分析,将此分析结果作为客户细分的基础;4.将分析结果传达至企业各部门与层级,使其能够完成细分后所要达到的目标。

该理论在现代企业营销中的应用极其广泛,在保险领域的价值更是至关重要。保险产品作为一种无形的商品,在营销过程中更加依赖对于客户特征的精准把握,在此基础上,才能让营销人员选择恰当的营销途径、有针对性的保险产品满足客户需求。

(二)研究方法

在对庞大的客户数据进行分析的过程中,国内外学者采取了诸多数据挖掘的方法。数据挖掘是从大型数据库中提取数据驱动的信息。通常,在保险领域应用的数据挖掘方法包括分类、聚类、回归、关联等方法。Marisa S.Viveros(1996)利用关联规则对医疗保险信息数据进行挖掘,发现不同病理学医生的相互组合会产生意料之外的效果。管绍贤(2008)研究了决策树方法在保险客户风险分析中的作用,采取决策树C4.5算法,首先计算每个属性的信息增益率,得到根节点,最后对得到的决策树进行修建,从而得到风险分析模型。刘晓葳(2013)采取logistic回归、决策树模型、Aprior算法对保险公司所提供的客户数据进行综合挖掘,首先对比logistic回归与决策树模型的准确性,随后用Aprior 算法进行验证,最终得到风险贡献矩阵。过往学者数据挖掘方法大致可分为三类:1.分类算法,包含决策树、神经网络等方法,主要适用于对客户进行分类;2.回归算法,包含线性回归与非线性回归,此类算法主要目的是做预测;3.关联规则,包含Apriori、FP-growth 等,主要目的是发现关联性。

通过对过往学者数据挖掘方法的比较以及本研究所拥有的数据特点,本文决定采取logistic 回归对重疾发生的影响因素进行分析,该模型虽然考虑到了主效应的影响,但是并未考虑交互效应,因此,还需要引入决策树模型,进行因素间交互效应的分析。

三、数据准备与描述性统计

(一)数据来源与处理

本研究以A 保险公司主力产品的37 万条相关保单承保数据和理赔数据样本作为数据源。数据内容为该公司所承保的重大疾病保险的客户资料,客户分布于全国各个城市。

依据研究目标,发现原始数据存在赋值不规范、存在缺失值及个别变量相关性低等问题,建模分析前首先对原始数据做预处理。具体采用以下方法:(1)相关分析,去除与理赔无关或相关性较小的变量。本文剔除原始数据库中的保单生效年月、省级行政机构、市级行政机构、保障年限、出险日期、理赔日期等六个变量。(2)缺失值处理,剔除缺失值过多的变量。(3)为了更加科学地预测客户风险,依据客户保单年限,本文从2018年统计年鉴查询了人均GDP、人均可支配收入两项指标,从梅斯医学借鉴了各省份医疗水平排名,用以体现地区经济发展水平、居民收入水平、医疗水平等级。(4)变量重新赋值与分类。对各变量统一重新赋值,去除不同量纲。(5)数据平衡化处理。经过对变量的初步分析,发现变量存在非平衡性特征,从未发生理赔事件的客户有361368例,占总数的97.49%。为保证分析准确性,对数据做重抽样平衡处理。本文采取过采样法,抽取17224条数据,处理后从未发生理赔与曾发生过理赔行为的客户分别占总数的51.03%和48.97%。

▶表1 变量名称选取及赋值情况

(二)描述性统计

1.因变量

本案例以重疾险是否出险作为因变量,重疾险出险的范围包括保险公司经办的特定重大疾病,如恶性肿瘤、心肌梗死、脑溢血等。当被保险人达到保险条款所约定的重大疾病状态后,保险公司根据保险合同约定给付保险金。本文从数据库中抽取变量中发生理赔的占49%。

2.自变量

内在属性:从性别角度看,女性发生重大疾病概率高于男性;从年龄段看,16—25岁人群中,出险人群远低于未出险人群,可见在这一年龄段发生重疾概率较低;在26—35岁人群中,发生重疾人群与未发生重疾人群几乎相等;在36 岁以上人群中,出险人数已经超过未出险人数。由此得出初步结论,随着年龄增加,重疾发生率也在增加。

外在属性:城市线、人均可支配收入、人均GDP 反映出在地区经济发达且收入相对较高人群中,生活于新一线城市和二线城市的出险人数远远高于一线、三线、四线和五线城市;医疗水平排名反映出在医疗水平较发达地区,参保人数远高于医疗水平欠发达地区,且重疾发生率也高于欠发达地区。

消费者行为:基本保额段、缴费年限、保单件数反映出,在这些因素下,重疾发生与否未呈现出显著的差异。因此,假设基本保额段、缴费年限、保单件数不同不会对重疾发生产生显著影响;而在出险年龄方面,可以看出,出险年龄主要集中在34—45 岁,其次是26—33 岁、46 岁以上、18—25 岁;重疾险理赔中,重症占到90%以上,而轻症、中症的发生比例偏低。

四、基于数据挖掘的客户风险的识别与分类

(一)单因素分析

在对数据进行预处理后,选取显著性水平为0.05时的单因素分析发现,被保险人性别、投保年龄段、城市线、缴费年限、人均可支配收入、人均GDP、医疗水平排名对于重疾的发生有影响,且具有统计学意义。本文对于上述因素展开多因素logistic回归分析。

(二)多因素分析

根据上述单因素分析,选取是否发生理赔为被解释变量,被保险人性别、投保年龄段、城市线、缴费年限、人均可支配收入、人均GDP、医疗水平排名作为解释变量,进行二元logistic回归分析。

1.共线性诊断

对显著变量进行共线性诊断,若VIF≥10,则表明变量间存在严重的共线性。经过对模型进行共线性检验,发现模型中七个变量的VIF 值均集中在1.0~1.9 之间,远低于10。因此,认定变量间无共线性存在,可以进行多因素二元logistic回归。

2.多因素logistic回归

本文采用SPSS24.0 进行数据分析,对于上述检验通过的被保人性别、投保年龄段、城市线、缴费年限、人均可支配收入、医疗水平排名、人均GDP进行二元logistic 回归。为避免编码数值的影响,将投保年龄、城市线、人均可支配收入、人均GDP、医疗水平排名设置为哑变量,结果如表2所示。

将是否理赔作为因变量进行二元logistic回归发现,被保险人性别、投保年龄段、城市线、缴费年限、人均可支配收入、医疗水平排名是影响是否索赔的显著性因素。被保险人性别反映出,女性重疾赔付率比男性高,这一分析结果与上文描述性统计结果一致;投保年龄段反映出,投保年龄较高人群重疾赔付率也会增大,这一结果与上述描述性统计结果相符;城市线数据反映出,发达地区重疾发生率高于欠发达地区;缴费年限反映出缴费年限较长的客户重疾赔付率较高;人均可支配收入反映出,收入增加带来重疾赔付率减少;医疗水平反映出,医疗水平欠发达地区重疾赔付率较高;人均GDP 反映出,发达地区重疾赔付率较高。

▶表2 二元logistic回归分析结果

3.决策树分析

将是否进行重疾赔付的影响因素进行CRT 算法分析,规则如下:(1)因变量为是否理赔,自变量为logistic回归中分析出影响较大的被保险人性别、投保年龄段、城市线、缴费年限。(2)最大树深度为3,父节点中最小个案数100,子节点中最小个案数50,如果节点上的样本量达不到此要求,则该节点为终末节点,不再进行分割样本。(3)验证方式为拆分样本,选取50%样本作为训练样本,其余50%为检验样本。

针对研究问题,选取发生理赔的客户特征样本较多的节点分析,尤其是“是否理赔”=1 的情况。对符合要求各叶节点信息汇总生成图1。

▶图1 决策树分析图

根据叶节点向根节点的推进方式可以发现,根据投保年龄数据,可以看出投保年龄越高发生理赔的概率越高。节点1 中,26岁以上人群发生理赔者达到3907人,占比达到54%,远高于16—25 岁人群中的21.5%。进一步结合城市线数据,对比节点9 和节点10 发现,年龄增加带来的重疾发生率在三、四、五线城市尤为显著,35 岁以上人群重疾发生率比26—35 岁人群高了14.4 个百分点。根据城市线数据可以看出,在各个年龄段,发达地区的重疾发生率都要高于欠发达地区,这一现象的出现印证了上文描述性统计中分析的发达地区人口保险意识较强,投保人数多,且发达地区生活压力大导致该地区人口健康问题严重的结论。根据被保险人性别数据可以看出,女性重疾发生率要远高于男性重疾发生率,这一现象着重体现在低龄人群中,由此可以推断低龄女性身体健康状况值得引起人们关注。缴费年限主要反映了被保险人的经济状况信息,低收入者通常愿意购买缴费年限较长的重疾险产品,以减轻每年的保费负担。由该数据可以看出,选择较长缴费年限的人群发生重疾概率要高于选择缴费期较短的人群,从侧面反映了高收入人群的重疾发生率偏低。

(三)两个模型的比较分析

以logistic 回归模型与决策树模型的预测值作为状态变量,分别绘制ROC 曲线,如图2 所示,logistic 回归的ROC 曲线位于决策树ROC 曲线上方,且logistic 回归的ROC 曲线更加光滑,可见,logistic 回归效果好于决策树。同时,根据表3 所示,logistic 回归的ROC 曲线下面积为0.726,决策树的ROC 曲线下面积为0.662,这一结果表明两模型的诊断效果都比较好,且可以通过显著性检验,因此,本文分别借鉴logistic回归的主效应与决策树模型的交互效应展开分析。

五、结论与建议

(一)结论

本研究显示,决策树和logistic 回归都表明投保年龄段、城市线、被保险人性别、缴费年限是与重疾险理赔关联最紧密的因素,结合ROC曲线评估效果,可以看出logistic回归预测效果较优,在借鉴其分析的主效应同时,为使分析更加全面,本文结合决策树表现出的交互效应对影响重疾险理赔与否的因素进行全面的分析。

▶图2 logistic回归与决策树模型的ROC图

▶表3 logistic回归与决策树模型分类效果比较

年龄越大的人群,随着自身身体机能的退化、生活压力的加大,发生重大疾病的可能性也随之上升。通过上述分析也可以看出,26岁以上保险客户发生重疾概率是26岁以下客户的两倍之多,同时低龄客户在总客户数中占比最大,表明保险公司在客户选择方面,比较愿意针对低龄客户提供更优惠的费率,进而吸引年轻客户加入重疾险。

城市线代表了地区发达程度。根据上文的logistic回归分析,本文发现发达地区重疾赔付率远高于欠发达地区,这表明发达地区中产阶级存在较大生活压力,身体健康状况值得担忧。结合决策树分析结果可以看出,在不同年龄段下,这一结论仍然成立,在高龄人群中,这一结论尤其显著。

性别对于重疾赔付率影响也比较显著,logistic 回归表现出女性发生重疾的概率高于男性,决策树中不同年龄段、城市线的居民也在一定程度上表现出女性重疾发生率高于男性这一现象,且在发达城市尤其明显。

缴费年限越长的客户通常意味着自身收入可能相对偏低或者选择了较高的保额,这一类客户自身的风险状况可能偏高,logistic 回归表明选择缴费期间在20—30 年间的客户风险远高于选择10—19年的客户;结合决策树中的交互效应也可以看出,在不同年龄段、城市线以及性别下,缴费期较长客户发生重疾赔付的比例都高于缴费期较短的客户。

同时,上述分析也体现出人均可支配收入、医疗水平排名、人均GDP 会影响重疾赔付,但是影响效果相对较小。通过logistic回归分析可以看出人均可支配收入与重疾赔付率呈负相关关系,医疗水平排名与重疾赔付率呈正相关关系,人均GDP与重疾赔付率呈正相关关系。在一线与新一线城市的26—35 岁人群中,人均可支配收入较高者出现重疾比例较高,这一现象的出现表明,在大城市中,刚参加工作的青年人面临着巨大的压力,压力让这一人群的健康风险也在增加;一线与新一线城市的36 岁以上居民,生活在医疗条件较好地区的居民重疾发生率高于较差地区,考虑到交互效应,可能是由于较大的年龄带来自身疾病风险的增加;一线与新一线城市的女性当中,人均GDP 较高地区的女性发生重疾赔付可能性要高于人均GDP 较低地区,这表明在发达城市中,女性所承担的压力正在增加,女性承担了照顾家庭以及工作双重压力,发达城市中女性健康状况需要引起人们的关注。

(二)建议

1.基于年龄差异的产品定价策略

根据统计分析结果,低龄人口重疾发生率相对较低,在制定营销策略时,应当针对年龄在25 岁以下人群制定更加有吸引力的产品与营销策略。在产品定价方面,考虑到这一群体中有一大部分为学生或者是刚步入社会的职场新人,他们的收入水平相较于社会总体水平而言较低,可以制定较低的费率,在缴费年限上适当延长。同时,数据也显示,重大疾病的发生逐渐出现低龄化趋势。长期以来,民众普遍认为重大疾病主要发生在60 岁以上的群体,但近年来,随着低龄人群的重疾发生率提升,重大疾病呈年轻化趋势,且这一趋势在加剧,需要引起社会的关注。年轻人即使保费预算有限,也可以从较短保障年限、较低保额的产品入手,再逐步为自己增加保障。

2.基于地区差异的欠发达地区推广策略

保险作为金融行业的重要组成部分,在发展过程中往往主要集中于发达地区与城市。本文实证研究表明,经济发达城市相比于经济欠发达城市,癌症的地区发生率更高;但心脑血管类疾病,例如脑中风后遗症,则一般是欠发达城市的发生率会高于发达城市。究其原因,对于医疗水平更高的发达城市来说,消费者有更充裕的资金和更好的医疗资源去降低严重后遗症的发生。这给欠发达地区人群的投保提供了一个启示,投保时可优先选择带有轻、中症责任,且包含脑中风后遗症的重疾险。保险公司在重疾险发展策略中,应当关注三、四、五线城市的客户,这些地区客户的增加对于保险公司经营效益会产生巨大的贡献潜力。保险公司可以通过开展三、四、五线城市的保险分公司业务、增加代理人数量等手段,提高这类地区的重疾险覆盖率。

3.基于性别差异的女性健康问题

考虑到性别对于重疾险的影响,保险公司在产品设计与营销时应当考虑到性别差异。本文研究的样本群体均在60岁以下,根据保险行业的经验数据,男性和女性在60岁之前患重疾的概率有所差异,其中,男性约为16%,女性约为14%,男性风险高于女性。然而本文研究发现,女性重疾发生概率高于男性,这一现象在一、二线城市尤其显著,因此,可以认为在发达地区的女性开始承受更多的压力。保险公司在设计与销售产品时,不能根据过往大范围的经验数据盲目定价,应当考虑到地区发展程度为女性带来的风险,针对一、二线城市的白领女性,在核保时应当更为严谨,体检单等核保项目应该作为费率制定时着重考虑的因素。

4.基于经济差异的低收入人群健康监测

鉴于低收入人群风险较高这一分析结论,保险公司一方面要对被保险人普及定期体检的必要性,并加大对其体检和健康评估的力度,收集被保险人更为全面的健康信息,建立更为详实的个人电子健康档案;另一方面,保险公司可以通过加强与医疗服务机构之间的合作,并利用当下大数据的优势,建立被保险人身体健康信息动态监管系统,从而降低公司的长期赔付风险和经营效率。

5.基于协同销售的保险营销团队建设

根据客户细分理论,在进行客户细分分析后,为了使其细分结果能够得到有效落实,保险公司需要建立专业成熟的团队,上下一心,向着客户细分目标努力。首先,在保险公司内部,从上层领导到基层营销人员,人人都应该明确其主要目标客户群体,并且建立协同一体的行动方略。其次,保险营销方式和渠道的选择,应当以客户群体类型特征为重要参考。由于年轻人群体是重疾险销售中的优质客户,加之当今社会数字化程度如此之高,重疾险营销应当加大线上销售渠道的投入。最后,在代理人团队建设中,要注重代理人团队成员的个人能力培养,基层营销人员是实现客户细分的一线团队,这一团体的建设决定了前期客户细分战略能否落实。

猜你喜欢

疾险细分决策树
重疾险选定期还是终身?
深耕环保细分领域,维尔利为环保注入新动力
网红重疾险聚集四大卖点 考察保险公司服务水平很有必要
决策树和随机森林方法在管理决策中的应用
一年期重疾险成新晋“网红” 要砸了长期重疾险的饭碗吗
基于决策树的出租车乘客出行目的识别
1~7月,我国货车各细分市场均有增长
基于模糊关联规则和决策树的图像自动标注
整体低迷难掩细分市场亮点
基于肺癌CT的决策树模型在肺癌诊断中的应用