APP下载

数据挖掘技术在银行客户提升中的应用研究

2021-06-28牛亚琴卢苗苗

电脑知识与技术 2021年10期
关键词:银行业数据挖掘

牛亚琴 卢苗苗

摘要:随著金融行业竞争愈加剧烈,加之互联网金融的快速发展,银行业利差不断收窄、波动剧烈,使其正面临着全方位的挑战。如何更有效地进行精准营销在很大程度上决定银行是否能在激烈的竞争中脱颖而出。该研究将80%预处理后数据作为训练集,20%的数据用于验证集,利用数据挖掘技术中的 Logistic回归和XGBoost两种客户提升模型分别对存量客户数据进行了比对分析。通过对比两种模型的ROC和Lift曲线后发现XGBoost模型提升客户数量更多、预测准确率较高。

关键词:银行业;数据挖掘;客户提升

中图分类号:TP311       文献标识码:A

文章编号:1009-3044(2021)10-0205-02

Abstract: With the fiercer competition in the financial sector and the rapid development of Internet finance, the banking industry is facing comprehensive challenges due to the narrowing and drastic fluctuation of interest rate spreads. How to carry out precision marketing effectively determines whether it can stand out in the fierce competition. In this study, 80% of the pre-processed data was taken as a training data, and 20% of the data was used for a validation set. Through data mining techniques, two customer improvement models including Logistic regression and XGBoost were used for comparative analysis of the existing customer data. By comparing the ROC and Lift curves of these two models, it was found that the XGBoost model can simultaneously improve the number of the customers and the accuracy of prediction.

Key words: banking industry; data mining; customers improvement

随着大数据时代来临,越来越多行业利用数据挖掘技术锁定目标客户群,从而进行精准营销,降低经营成本,提升整体效益。对公业务是商业银行的经营基础和利润效益的主要来源,对公业务的发展直接影响商业银行经营状况与资产质量,因此对公业务营销能力的提升首当其冲。本文通过比对XGBoost和Logistic回归两种算法,寻找影响客户提升的主要因素。一方面可以帮助银行找出具有提升空间的潜在客户,并有针对性的为用户提供其感兴趣的服务和产品,推动用户的价值成长;另一方面可以帮助银行确定影响客户提升的主要因素,通过调整市场和产品战略来改善这些因素,进一步提升银行的竞争力。

1数据挖掘技术

数据挖掘是发现暗藏的、未被发现的知识的行为,是指从海量的、随机的数据中抽取那些隐含的、有利用价值的知识的过程[1]。数据挖掘是对数据库技术的一种深层次的应用,提高了信息资源的使用价值和效率,更好地解决日益复杂多变的决策问题,进一步提高决策的准确性和可靠性[2]。数据挖掘的过程可以分为定义问题、分析数据、数据收集及预处理、建立模型、模型评估及模型应用等六个阶段。

2 数据抽取、数据探索以及数据预处理

以我国北方A银行为例,该行存量对公客户中,年日均小于10W以下的客户数量在全行对公客户中占比65%,具有相当大的提升空间。通过技术分析手段可从未提升客户中发掘有潜力的客户进行针对性营销,从而提升客户活跃度,增加银行业绩。确定好客户提升价值模型后,即可对某A银行历史数据中抽取数据进行探索和预处理,主要包括客户号、开户时长、基本账户标志、近6-12个月AUM日均余额、交易金额等属性。

2.1 数据探索

银行的数据主要存放于ODS数据库和数据仓库中,银行数据仓库80%的数据来源于ODS系统,而ODS数据库中的数据来源于不同交易系统,通过数据抽取、加载过程完成系统内数据更新。

2.2 数据预处理

在信息大爆炸的当今社会,银行业同样顺应时代潮流需要对客户信息进行高效处理。客户的信息数据根据具体情况需要存储在不同操作系统(如Linux、IBM AIX)的数据库中,但是数据库的种类较多,包括Oracle、Sybase以及DB2等。因此,在数据抽取(Extract)、转换(Transform)、加载(Load)时不可避免地会出现一定程度的数据质量问题。为得到准确客户信息,需对海量数据进行有目的性的清理,最大限度保证预测模型的准确性,为客户提升提供数据质量上的保证。数据清洗是对“脏数据”的处理,是解决对象识别问题、减少错误和不一致性的必要过程。目前已存在成型的数据清洗框架模型,如Bohn模型,Trillium模型和AJAX模型,根据其结构特点,可从源数据层、ODS层和数据仓库层对数据进行清洗。本文中的清洗方法是通过ETL工具Datastage实现。具体清洗过程如下:

1)源數据层清洗:当数据从银行外部源数据文件和源数据库中抽取到ODS系统时对数据进行清洗称为数据模式清洗。造成数据模式问题的主要原因是属性之间缺乏完整性约束和数据库设计不合理。

2)ODS层清洗:数据加载到ODS系统后对数据行清洗,为清洗数据实例。“脏”数据通常在属性值中以“脏”数据的形式出现:即异常值、空值、错误值和拼写错误等。

3)数据仓库层清洗:上述两步清洗完成后,数据将从ODS系统加载到数据仓库中。从数据库中提取数据,可能会提取重复记录,这一步的清洗工作是清除重复的记录。

3 模型构建

数据预处理后,根据本次数据挖掘的要求,利用客户的历史信息来建立客户提升模型,判断其是否为可提升用户是一个二分类问题。客户提升模型常用的算法有Logistic回归模型、决策树模型、神经网络模型、XGBoost模型。按照可解释性和以往经验,本研究选择Logistic回归模型和XGBoost模型进行比较,然后选择冠军模型进行预测,生成潜在提升客户名单,为对公基础户、有效户提升,提供精准营销支持,为银行业绩增长需求提供有力数据支撑。根据银行存量客户数,分析年日均小于10w以下的客户数量,通过分析构建模型从年日均小于10w以下的客户中发掘有潜力的可以提升的客户。将预处理后的数据中选择80%的数据作为训练数据,20%的数据用于验证集。通过数据验证两种算法构建的模型,输出模型训练结果,用验证集数据验证模型训练结果的准确性。通过验证集的预测结果输出预测概率,通过ROC曲线的AUC值评估模型效果,利用Lift提升度曲线评估预测效果。

4 实验结果

4.1 ROC曲线

图1为Logistic和XGBoost模型的ROC曲线,ROC曲线离左上角越近的点预测准确率越高。该方法简单、直观,可观察分析学习器的准确性,并可用肉眼做出判断。利用ROC曲线下方面积(AUC值)评估模型优劣,AUC取值越高模型越准确。Logistic模型AUC取值为0.76,XGBoost模型AUC取值为0.85。

4.2Lift曲线

Lift曲线衡量的是与随机抽样模型相比,模型的预测能力“变好”了多少,lift曲线越平滑,模型的效果越好。图2表示logistic和XGBoost模型的Lift曲线,由图可知,logistic模型随着数据急剧减少,XGBoost模型减少的相对缓慢。

5结束语

建立有效的客户价值提升模型对银行决策可以提供有力的技术支撑,采用数据挖掘的方法寻找潜在的提升客户,从而为企业提供更好的营销策略是非常有效的手段。本文采用Logistic回归算法和XGBoost算法进行分析预测,经过实验模拟与数据验证,使用ROC曲线和Lift曲线对比,综合两种评估指标发现XGBoost模型提升客户数量更多、预测准确率较高,最终选择XGBoost模型为最终模型。

参考文献:

[1] 段薇,马丽,路向阳.基于信息增益和最小距离分类的决策树改进算法[J].科学技术与工程,2013,13(6):1643-1646,1652.

[2] 许惠君,李彩林,刘晓安.数据挖掘技术在水库调度中的研究与应用[J].计算机与数字工程,2006,34(9):61-63.

【通联编辑:代影】

猜你喜欢

银行业数据挖掘
河北省银行业协会
河北省银行业协会
办理银行业务须谨慎
银行业对外开放再定位
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
河北省银行业协会
基于GPGPU的离散数据挖掘研究
给银行业打气