APP下载

基于LightGBM算法的简易险潜在客户挖掘应用

2022-08-31樊晓唯蒋林岑刘向东

电脑知识与技术 2022年17期
关键词:机器学习

樊晓唯 蒋林岑 刘向东

摘要:本文以某金融机构的一类保险产品——简易险为例,详细阐述LightGBM算法在金融产品目标客户挖掘中的应用。经过参数优化和动态调整阈值,最终将目标用户的预测准确率从原始的比例0.41%提升到14.96%,并且获得了22.84%的召回率。同时,该模型可针对营销活动和营销资源的情况,实时调整概率阈值,从而调整营销目标的输出规模,对业务营销推广提供了积极的指导价值。

关键词:机器学习;LightGBM;分类预测

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2022)17-0017-02

1引言

近年来机器学习被广泛应用于金融产品领域,如投资组合管理优化、贷款和保险承保、风险管理,及市场营销中的潜在目标客户挖掘等场景[1]。本文以某金融机构的一类保险产品——简易险为例,详细阐述LightGBM算法在金融产品目标客户挖掘中的应用。

简易险是一种小面额、免体检、适合一般普通工作者的综合意外险保险。其保险责任主要为人身意外保险附加交通意外伤害保险、财产意外保险等[2]。随着近几年的发展,简易险业务已在全国形成一定规模,但是与传统金融业务相比,简易险业务仍处于较小规模,占金融总收入比例不高。然而,简易险业务保障属性突出,符合未来发展趋势,且市场空间巨大,是一类具有发展前景的产品。

本文探讨了一种基于机器学习的潜在目标客户挖掘方案,利用该金融机构的历史数据,基于LightGBM算法构建简易险潜在客户挖掘模型。

2 LightGBM算法

LightGBM是 Light Gradient Boosting Machine 的缩写,本质上也是一种Boosting算法,由微软提供,是一种免费开源的分布式梯度提升框架。LightGBM与在此之前的XGBoost原理类似,都是对GBDT的高 效实现。两者都采用損失函数的负梯度作为当前决策树的残差近似值,以此来拟合新的决策树[3]。但是在很多方面,LightGBM都优于XGBoost,比如:更快的训练速度、更低的内存占用、更高的模型准确率、并行计算、可直接支持离散特征作为输入等。

LightGBM 算法主要使用了两种新技术,第一种是基于梯度的单侧采样 (GOSS) ,以此减少算法输入数据量;第二种是互斥特征捆绑技术 (EFB),将互斥的特征捆绑成一个特征,从而降低特征维度;除此之外,LightGBM还采用直方图方法对连续特征进行处理,将连续特征离散化到多个分箱中,进一步提高分裂时的搜索速度[4]。

3基于LightGBM的简易险潜在客户挖掘模型

为了更好地发展简易险业务,本节基于LightGBM算法,运用金融客户历史数据,研究建立能挖掘简易险潜在客户的模型。建模目的在于,在庞大的存量金融客户群体中,找出最具有简易险购买潜力的客户,并且可根据营销资源的情况,动态调整目标客户规模。

3.1 特征选取

为应用LightGBM挖掘潜在简易险客户,首先对目标客户做一个基本范围限定,即:截至2020年底金融总资产大于100元的客户,共计468万客户。为更好地评估本次模型挖掘的效果,选取2020年客户的属性及行为特征作为输入,将预测结果与2021年的真实简易险购买数据进行对比验证。部分重要的特征说明如表1所示。

3.2 模型训练

依照上一步特征筛选出的数据,训练集和测试集数据的比例设定为3:1。对离散型特征变量进行预先配置,LightGBM算法参数主要如下:目标函数objective设置为二分类、迭代次数设置为200、学习率设置0.01、叶子节点数设置32、树最大深度设置为6、 L2正则化系数为0.001、自动平衡正负样本设置为True。最终训练得到预测模型。

params = { 'objective': 'binary', 'metric': {'binary_logloss', 'auc'}, 'num_iterations': 200,

'learning_rate': 0.01, 'num_leaves': 32, 'max_depth':6, 'bagging_fraction':0.8,

'feature_fraction':0.8, 'lambda_l2': 0.001, 'is_unbalance': 'true' }

3.3 模型评价

在机器学习的分类任务中,经常使用混淆矩阵(Confusion Matrix)来作为评价模型好坏的指标,混淆矩阵有两行两列,分别对应预测数据和真实数据的分类情况[5]。在本案例中由于正样本较少,且挖掘的目的是尽可能提升模型的准确率,所以通过选择不同的分类阈值,来控制预测出的正样本的数量和准确率。表2显示的是当LightGBM分类概率阈值设置为0.96时模型的混淆矩阵。

由表2可计算得出:简易险客户预测的准确率为14.96%,召回率为22.84%。相比原始数据目标占总体样本比例仅为0.41%,有大幅度的提升。模型的F1值,由公式可得出:

[F1_Score=2×准确率×召回率准确率+召回率=2×0.1496×0.22840.1496+0.2284≈0.18 ]

当概率阈值不同时,结果也会有一定差异,本模型求解了概率阈值0.5到1.0之间的各种情况,分别计算准确率、召回率、F1值,以及输出的预测目标客户的数量,来进行综合对比。从图1可以看出,当概率阈值取0.96时,F1值最高。

与此同时,从图1中可以看出不同的概率阈值对应的准确率与回收率的关系,如果需要更高的准确率,可适当提高概率阈值;如果想要收获更多的预测目标客户和较高的召回率,则可以适当降低概率阈值。本文提供了一种可动态调整的分类模型目标输出方案。

3.4 模型对比

为了验证此模型具有相对优势,笔者选用同样的训练数据集与测试数据集进行了传统的决策树二分类模型训练与XGBoost模型训练以作比较,准确率、召回率、F1值结果如表3所示。

不难看出,传统的决策树在这类稀疏目标预测上性能非常不理想,无论准确率还是召回率都远低于LightGBM和XGBoost;LightGBM和XGBoost对比,准确率和召回率都有小幅优势,更重要的是,LightGBM的模型训练时间只有XGBoost的五分之一,效率优势巨大。因此可以说,LightGBM模型在简易险潜在客户挖掘中取得了优良的效果。

4结束语

本文的重点内容是应用LightGBM算法对满足一定条件的金融存量客户进行建模,挖掘出简易险产品的潜在目标客户。经过参数优化和动态调整阈值,最终将目标用户的预测准确率从原始的比例0.41%提升到14.96%,并且获得了22.84%的召回率。该模型可针对营销活动和营销资源的情况,实时调整概率阈值,从而调整营销目标的输出规模,对业务营销推广提供了积极的指导价值。

参考文献:

[1] 毛子林,刘姜.基于机器学习方法的信用风险评估综述[J].经济研究导刊,2021(23):117-119.

[2] 安真,杨帅.新发展格局下邮政消费金融转型发展研究[J].现代金融导刊,2021(8):53-55.

[3] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017(30): 3146-3154.

[4] 王思宇,陳建平.基于LightGBM算法的信用风险评估模型研究[J].软件导刊,2019,18(10):19-22.

[5] Visa S, Ramsay B, Ralescu A L, et al. Confusion matrix-based feature selection [C]//Proceedings of The 22nd Midwest Artificial Intelligence and Cognitive Science Conference 2011, Cincinnati, Ohio, USA, 2011.

收稿日期:2022-02-10

基金项目:2020 年度江苏省工业软件工程技术研究开发中心开放基金项目(ZK20-04-02)

作者简介:樊晓唯(1988—),女,江苏苏州人,讲师/工程师,研究方向:职业本科教育、人工智能、机器学习、深度学习、计算机视觉;蒋林岑(1986—),女,江苏南通人,讲师/工程师,研究方向:职业本科教育、人工智能、大数据、数据清洗;刘向东(1971—),安徽芜湖人,男,副教授/工程师,研究方向:职业教育、人工智能、机器学习、计算机视觉、知识图谱。

猜你喜欢

机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究