APP下载

大数据在保险客户理赔分析中的应用

2020-06-18蔡述建杨杉四川大学锦城学院

数码世界 2020年4期
关键词:赔款险种金额

蔡述建 杨杉 四川大学锦城学院

1 引言

保险行业的迅速发展,车险、人身意外险、寿险等等渐渐成为人们的另一消费对象,要保证该行业的持续发展,数据的充足性和数据分析的技术渐渐成为了关键因素。保险是一种保障机制,在大数据技术的帮助下,能利用保险公司收回的客户数据来度量、预测未来应该往哪个方向发展。通过数据分析,预测未来客户购买保险险种的倾向,从而对险种中的项目进行调整,对价位进行调整。在互联网还还没到来之前,保险行业的数据仅仅来源于平时的经验数据,局限性太大。互联网的普及,带来了大量数据,这些数据为保险公司的相关产品提供了改进和发展的方向。例如通过分析投保的数据,来分析客户投保的方向转向了哪,聚焦于客户,实现定向营销。基于大数据分析技术实现对客户精准服务,提供高质量的售后服务,留住老客户。另外,保险公司可以分析历史数据,对保险欺诈的显著特性及其取值区间进行分析, 以此建立预测模型,考察各类理赔案件的风险程度, 对可能出现的欺诈行为进行实时的监控与防范。

根据赔付的数据分析问题,其数据中主要包括客户号、赔付金额、费用类型、保费、总保费、婚姻状况、购买险种性别、年龄等等。分析这批数据中不同费用类型对于赔付金额是否有具有显著性差异。使用SPSS Statistics 中的单因素方差分析,分析理赔数据中不同费用类型与赔付金额之间的关系,通过不同费用类型对赔付金额的显著性差异比较,得出不同费用类型对赔付金额的影响进行排序,得到哪种类型对赔付金额的影响最大。

采用SPSS Modeler 中的决策树建模,分析理赔数据中,设置自变量为险种,赔款金额,总保费,年龄,性别,因变量为费用类型,研究这五个字段的人群会分别因为哪些原因来进行理赔,得出结论后,根据此类型的人群的规则定义,向此类人群推销其他类型的保险险种,实现保险公司利益最大化。

2 数据准备及预处理

大部分数据通常是不完整的、不一致的、极易受到噪声(错误或异常值)的侵扰的。因为数据库太大,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的挖掘结果。就像厨师要做美味的鱼,如果不将鱼进行去鳞等处理,一定做不成我们口中美味的鱼。

处理一:由于原始的理赔数据集中显示:赔款时间、职业、过去三年平均年收入三个类别数据各自的值都是脱敏数据,所以通过分析得出这三类数据为无效数据,将其删除;

处理二:费用类型数据为了符合软件分析变量要求,我组将其分为三大类数据:分别将癌症定义为数字1、疾病定义为数字2、意外定义为数字3;

处理三:在理赔数据中,赔付金额值为0 情况多种,并且未告知投保分数,所以将赔付金额数据列为0 的数据筛选出并删除;其赔付金额大于保额数据同理未告知情况特殊性,所以通过IF 函数将其赔付金额大于保额的数据筛选出并将其删除;

处理四:为了更好得用于决策树模型的构建,将所有年龄分为三类:分别将20 岁以下定义为数字1(青少年)、21-55 岁定义为数字2 即(成年人)、56 岁以上定义为数字3(老年人)。

清洗完数据后剩余数据为131656条

3 数据分析

3.1 费用类型与赔付金额方差分析

3.1.1 理赔原因的单因素方差分析

之所以我们使用方差分析的方法来对理赔金额和费用类型进行分析,是因为我发现客户的费用类型有很多,而且赔付的金额更是大相径庭,因此我将费用类型作为因子,将赔款金额作为因变量进行分析,从而得出二者之间是否存在显著性关系。我们希望他们之间是存在显著性关系的,所以可以根据不同费用类型的用户来修改险种项目或是跟进客户。

由上图,显著性为0.0 小于α=0.05,拒绝原假设,证明不同费用类型对赔付金额有显著性差异,方差不具有齐次性,所以观察图中Tamhane 方法。

方差分析结果图(1-癌症 2-疾病 3-意外)

由上图我们可以发现,三种不同费用类型之间的理赔金额的确存在着显著性的差异。费用类型-1 明显高于费用类型-2,平均约高11123.08 元,且明显高于费用类型-3,约高9824.41 元;费用类型-3明显高于费用类型-2,约高了1298.67 元。对此,可以将其排序为1>3>2(疾病>意外>癌症)。

3.2 理赔原因探究--决策树分析

出于想找出不同费用类型人群的各个特征,我们采用了决策树来进行建模。使用SPSS MODELER 建模,将险种,赔款金额,总保费,年龄,性别字段设置为输入,费用类型设置为目标,从而形成规则集。

上图是通过建模之后得到的决策树结果图,得出客户购买的大部分险种的费用类型是意外险。少部分客户购买的F01、F05、F06、FS1、S46、S51 是疾病类型的保险。F07 险种中,总保费不大于15.28元的,赔款金额大于466.85 的费用类型是意外保险,不大于466.85中的总保费不大于7.060 的费用类型是意外险,总保费在7.060 和8.980 之间的,并且是男性的客户也是购买的意外类型,女性客户中赔款金额不大于20.700 的人群购买的也是意外类型保险,赔款金额在20.700 到35.400 之间的是疾病类型,大于35.400 的是意外类型;总保费在15.28 到17.380 之间的是意外类型,大于17.380,且总保费小于18,年龄不大于37,总保费不大于17.800 的是疾病类型,大于17.380 中赔款金额不大于540.730 的也是疾病类型,赔款金额小于540.730 中年龄不大于33 的选择的意外类型,小于33 的选择的疾病类型。其他规则以此类推。

4 结论及建议

4.1 结论

①1-癌症平均赔款金额最高,但数量最少(0.7%)

②2-疾病平均赔款金额最低,数量最为庞大(81.3%)

③3-意外平均赔款金额高于2-疾病,数量较大(18%)

建议一:疾病类型的理赔人群最为庞大,价格也低,这类保险应该不用分年龄性别等等,在平时的日常生活中都可以投一份这样的保险,既是对自己保障也不会花费太多额外的金钱。

建议二:在赔付金额方面来看,3-意外类型不仅仅赔付金额高,而且占比也不少,由于意外事件是不确定性的,所以针对此类保险,也务必投保。

建议三:对于1-癌症这一类来说,重大症状保险和寿险应该是最好的两个选择,如果说身体状态不是很好的话,建议为他/她投保。

4.2 规则结论

① 对于第一种费用类型,如果险种是S50、赔款金额在25000到40000 之间、总保费大于2600 且年龄小于45 的费用类型就是癌症类的。

② 若险种是S70、总保费大于30000,年龄大于58 切不大于62岁的也是癌症类型。

③若总保费在42.220 到45.680 之间的女性,年龄不大于57 的就是疾病类型。

④若险种是F09,赔款金额大于43.350 且总保费不大于72.500的就是疾病类型。

⑤若险种是S51且赔款金额在25000 到94354.200 之间,总保费不大于134.630 的女性,是意外类型。

⑥若险种是F09,赔款金额小于54.530 且总保费不在240 到112.500 之间,年龄在47 到55 之间的人选择的费用类型是意外型。

针对这些规则,我们可以通过使用捆绑险种形成套餐给投保人以更多的选择,投保人也可以根据这些数据之间的关联性,联系到自身的角度进行投保。

4.3 结语

大数据分析可以为企业提供诸多便利。以保险公司为例,不同的公司之间都存在竞争力,要增加公司的营业收入,则需要更多的客户,了解他们的需求,以便于给予他们不同的险种。通过了解他们的客户号,所购买的险种,理赔的方向,将其整合为一个个单独的客户ID,并且需要整合传统数据源和数字数据源来理解客户的行为。二是提供个性化服务:大数据分析的应用给企业带来了基于客户个性进行互动的机会。海量数据中所包含的信息有很多,而对于企业来说最具价值的就是有关于消费者的相关信息。如果可以搜集到更精准的消费者信息,就可以为他们进行个性化的定制服务,从而做到比消费者本人还了解自己,使用户感觉受到重视。

对于保险行业来说,并不是每个人都需要,对此以下是对实现精准销售保险的一些建议。减少中介环节,保证客户信息的真实性和有效性,既有利于保险数据的收集和分析,又有利于保险公司的精准营销;引进人才,优化推荐算法,如此一来,将数据库等等建立起来提高服务效率;加强各方面的监督,防控安全隐患,隐私数据是不能作为广告和任何其他用途的,应该合理控制使用数据的底线;完善平台的布局,保险公司应该长期的与互联网公司进行合作,实现人才互补的目的。

猜你喜欢

赔款险种金额
新形势下财产保险公司险种结构优化调整思考
田地被淹蔬菜减产 排水不当赔款六千
创新农业保险 助力乡村振兴
带投资的多险种复合风险模型及其破产概率的研究
纵观晚清赔款史
探讨农民工参加社会保险出现的问题及解决对策
立案
成交金额前10名营业部买入的前3只个股
一周资金净流出金额前20名个股
一周资金净流入(流出)金额前20名个股