APP下载

数据挖掘技术在商业银行潜客营销中的应用

2021-12-02南京审计大学信息工程学院江苏省审计大数据实验室陈子阳

农银学刊 2021年4期
关键词:数据挖掘商业银行特征

■南京审计大学信息工程学院 江苏省审计大数据实验室 陈子阳

随着区块链、大数据、人工智能等信息技术的不断发展,商业银行电子化建设由移动互联网的3.0时代逐步走向数字化、智能化的4.0时代。以机器学习为代表的人工智能技术在金融数据中的应用成为了商业银行数字化转型道路上必备的核心竞争力。数据挖掘技术正在推动银行业以大量数据构建算法模型和加强分类管理,实现决策制定效果的改善,根据麦肯锡全球研究所的数据,数据挖掘技术可以为银行业创造超过2500亿美元的价值。

一、数据挖掘是商业银行数字化转型的必要技术

商业银行作为现代化国家的重要产业支柱,其金融主体业务的发展不仅影响到国泰民安,亦对整个金融产业稳健发展起到关键作用。我们生活在一个信息爆炸的时代,金融行业在数据化变革中展现了更多的变化。一是可变化性,展示了数据维度的持续上升,数据从原有的一维数据结构发展到现在的多维扩展结构。二是准确性,展示了高度信息化的社会环境对信息质量控制的严格和精准。三是脆弱性,展示了数据来源不规范、数据存在基础问题时难发现、破坏大的特点。四是可视化,展现了人们对于信息处理方式的巨大变革,以人为核心的信息发展观正在逐步形成。随着数据化给社会各行各业带来的迅猛发展,金融数据化是中国发展的必然趋势。

数据时代用其独特的方式冲击着人们的生活,商业银行在面临考验之际,也对其创新能力、信息技术能力提出了重大考验。以往传统的对于客户信息进行挖掘分析的方式已不能满足当今社会用户对金融服务的客观需求,依靠专家和一线工作人员的主观判断也充满了巨大不确定性。原有维护客户关系的方式也在日新月异的社会发展中出现捉襟见肘的困境。如何通过数据化分析、机器学习算法提高对客户的辨识度,及时发现重要客户,了解客户服务的痛点难点成为了商业银行个人业务发展的重要方向。随着大数据时代的到来,商业银行只有不断探索发现,走在数据时代的前沿,才能拥抱数字化时代,获得更长足的发展。

二、商业银行个人客户业务面临的挑战

商业银行仍是广大居民理财的主要渠道,需要持续加大储蓄存款产品的创新力度,结合代发、建工、商户等不同客户群体、不同场景需求,推出款式多样、收益灵活的理财产品,以契合人民群众对财富配置多元化的需求。2020年,银行理财市场持有理财产品的投资者达4162万人,较2019年增长86.85%。个人投资者是理财市场绝对主力,个人投资者占全部投资者数量的99.65%,个人投资者持有的理财产品占全部投资者持有总额的87.50%。个人投资者偏重于净值型、低分类、短期限的理财产品。但是,当前商业银行在人工智能与大数据方面的应用主要侧重于人脸识别、风险控制、智能投顾、反洗钱等领域,面对个人消费业务的数据分析技术仍不够充分、深入。因此,面对如此广阔的消费市场,如何将其与人工智能结合,如何通过人工智能技术提高综合营销能力、拓展维护客户关系、对客户信用违约提前预警等方面的研究和应用,都成为了非常重要的研究方向。

另一方面,面对日益复杂的经济社会情况,如何提高客户经理服务客户效率,减少人力资本投入,形成批量化、数据化的处理基层服务模式已成为商业银行营销体系中的重要议题。商业银行通过收集的各类信息,对客户进行消费能力、资产净值进行评估预测,以达到提高营销效率,减少人力资本损耗的效果。随着万物互联时代的到来,商业银行可以获得更多更广的数据分析维度,为商业银行的综合数据分析提供了更广泛的可能。同样,多样化、复杂化的信息数据也对传统的营销方式提出了挑战。如何识别数据中可能存在的错误、如何分析归类出不同数据类别,如何更好地描绘客户画像等,都成了重要的研究角度。

商业银行传统的营销方式是以分支行客户部分为数据统计节点,通过简单的数据筛选提供资产总量排名靠前的白名单客户进行推荐,但是如何找到主要资产存放他行的高净值客户一直是传统营销方式的重难点。通过尝试运用不同的机器学习方法,研究机器学习方法对商业银行高潜在客户的挖掘能力,为商业银行营销拓展“提档升级”提供了新的思路,也提出了更高的挑战。

三、商业银行客户营销中的数据挖掘模型构建

在商业银行个人客户模型构建的过程中,首先要了解数据的整体情况,了解原始数据表单的结构组成,然后再对数据进行处理缺失值、特征编码、数据标准化、数据降维等处理。随后将清理好的数据放入数据挖掘模型,做进一步的模型优化和参数调优。目前,主流实验大都是以在机器学习算法使用中较为便捷的Python语言作为数据处理工具。

(一)数据来源和数据结构

商业银行的项目开发可以由个人金融等部门提出项目需求,建立潜在贵宾客户的精准挖掘模型,商业银行科技部门协同开发,对贵宾潜力客户挖掘模型进行营销测试与优化完善。

数据平台由众多原始数据和中间数据组成。其中,原始数据包括客户基本信息、存款明细、理财、基金、保险、国债、贵金属、第三方存管、负债等原始工作库数据组成;中间数据由系统根据原始数据按固定期限和固定的分类标准进行梳理得到,如某类资产平均值、最高值,或是交易总额、平均交易额;按时间维度分类又为日均、月均、季均、年均等。又如,当日手机商业银行累计登录次数、当月跨行转账交易总笔数、当季度客户流入总额、当年累计基金赎回总额等。

资产管理规模(AUM)是金融行业衡量客户实力的重要指标,私人银行业务是商业银行面向高净值人群提供的以财富管理为核心的综合金融服务。模型通过选取数据,集中个人金融资产客户总行级汇总数据,选取任意一个月月均AUM超过一定级别且客户号不在私行客户名单中的客户作为目标客户,选取其中在后续期间转变为私行客户的数据,将之标记为1,其他未成为私行客户的将之标记为0,形成数据标签。

(二)数据统计和数据处理

描述性研究(Descriptive Study)是指通过对于数据的深入分析,通过建立不同地区、时间节点、人物年龄、或是地理位置物体性质等特征,进而描述数据分布的具体情况,在此基础上形成对数据集的整体概念,从而进一步开展数据处理和数据分析工作。

通过数据结构分析和数据描述性统计,实现对数据集的构成达到一定程度了解,通过对特征变量分布等的分析,发现数据中存在的一些错误情况,了解到数据可能存在数据缺失、数据噪声、数据不一致、数据冗余、数据集不均衡、离群点/异常值、数据重复等问题。根据数据存在的不同问题,可以采用删除指定特征、缺失数据补全、不平衡数据处理等方法实现对数据的处理工作。删除指定特征是指,在数据预处理过程中有一些数据特征需要被删除,典型的需被删除的特征包括无用特征数据和严重缺失数据。缺失数据补全是指在数据存储过程中,因为某些原因造成数据局部缺失,可以按照一定规则补全。不平衡数据处理是指通过一定方法解决数据集数据不平衡的问题,常用的主要有欠采样、过采样、特征选择法三种方式。

其他需要使用的数据处理方法还有:(1)类别特征one-hot编码。如果仅按照原有存储数据的格式,在进行模型训练时,可能因为特征的数值绝对值影响模型的扫过,比如:编码901和899属于两种完全不同的类别,但是其数值距离则较短。为了解决此类问题,我们用one-hot编码处理解决。(2)连续型特征标准化。数据标准化也称为数据归一化处理。所有需要标准化的数据都按照一定的比例进行标准化和缩放。随后将所有数据的值都统一在[0,1]的范围内。(3)金额类连续变量对数变化。对数变换是一种常用的数据变换方法,其目的是使数据的表述更接近于我们想要的假设,因为大多数经济数据都是倾斜的,比如收入和GDP,而且大多数都是右倾斜的。因此,在建立经济模型,解决异方差问题时,采用对数可以在一定程度上缩小较大值和较小值的差距,形成正常分布数据,从而更好地进行统计推断。

(三)评估模型和评价指标建立

通过python等编程语言工具,调入以机器学习和神经网络算法为主的数据挖掘模型,可以实现对于数据集输出结果的预测。常见的机器学习算法主要有逻辑回归算法、决策树算法、随机森林算法、XGBoost(Extreme Gradient Boosting)算法等。逻辑回归算法是机器学习中的常见算法之一,属于多重变量分析范围,一般用于二分类问题,是社会学、数理统计、医疗临床、心理研究、金融数学等统计实验研究的常见方法。决策树算法是一种用来对数据实现分类和回归功能的机器学习方法,根据输出结果的连续性和离散性的不同,它可以分为回归分析树和分类树。随机森林算法是一个适用度非常广泛的数据挖掘算法,以集成学习的方式构造多棵决策树,通过训练数据不同、训练偏好不同构造出偏向不同角度的决策树,通过投票的方式决定整体对于数据的分析判断结构,实现对数据的多维度分析,提高决策成功率。XGBoost也是集成学习算法的一种,通过将弱分类器强化为强分类器,可以提高算法准确度。神经网络模型以围棋算法阿尔法go为典型代表,通过构造大量简单神经元互相连接,从而形成高复杂度的算法模型。

模型的评价指标是分析模型效果的重要依据。处理数据分布不均衡的数据集,除了使用正确率来评价模型效果之外,还可以引入混淆矩阵来分析,使用召回率、F1score、KS值和AUC值来评价算法效果,以了解不同机器学习算法在本数据类别上的应用情况。召回率在金融客户信息挖掘中是非常值得重视的概念,它标识了商业银行识别重要客户的能力,在面对客户识别的过程中错误地把普通客户识别为私行客户仅仅是降低了商业银行的工作效率,但是如果没有成功识别出私行客户,那就会直接面对商业银行盈利能力的损失。准确率代表的是商业银行能够在客户服务的名单中确实是值得服务的私行客户的成功率,换言之,准确率越高,则客户经理的工作效率越高。

(四)特征重要性度量和参数调整

模型参数调整是优化算法模型的重要工程,算法构造过程中遇到了诸多问题,如数据信息复杂、分类不明显、数据不平衡、需要降低特征维度等。通过选取重要性靠前的特征,重新构建特征向量种类,着手对具体参数调优,可以实现对模型的重构和优化,提高各类算法模型效率。

客户信息数据集中特征数量极高,存在大量无用重复的特征,需引入特征重要性度量概念,筛选出较为重要的特征。通过以XGBoost和随机森林为代表的算法,我们可以使用特征重要性度量计算模型中不同特征的权重情况,并以此进行排序计算每一个特征的权重属性,我们根据已有的实验数据统计,了解特征属性权重值较高的特征情况。

以XGBoost模型为例,算法包含了对特征选择部分的内容,使用其树模型的特点给与不同特征以重要性打分,并对此进行特征重要性排序。算法在构建树的过程中,对于每层均选择对其整体收益最大的特征作为分支的评价指标,所以当特征xi在树的分割次数中出现最多时,则说明此特征可以给树模型带来最大的分类收益。由于机器学习算法训练结果不具备唯一性,统计情况仅作参考,测试数据实验结果如图1。

图1 特征重要性度量

通过对数据的特征重要性进行度量,可以在高维数据集中找到判断客户是否为高潜力客户的主要特征。如图1可见,“当季同名转账流出最大金额”这一关键维度的重要性极高,数据中存在对银行服务不满意、有重大资金调动需求等原因需要同名账户转账的客户。具备该类特征的客户往往极具维护价值,商业银行应重点了解此类客户的转账原因,解决客户痛点,并关注其他重要特征维度,实现对重要客户的长期维护和对潜在客户的重点营销。

(五)模型输出结果

通过输入商业银行需要预测的客户样本,模型最终输出结果是对实验数据的分类判断,输出数据以0和1作标识,其中标记为1的是系统认为具备营销潜力的客户名单。商业银行应及时准确地将名单下发至网点,由网点行长和个人客户经理主动出击,以拜访、电话、赠礼等形式和客户沟通,可以及时发现客户的真实资金需求,通过银行自身平台和工具满足客户,从而实现对潜在客户的产品营销。通过这种方法可以实现远高于日常营销维护的工作效率,提高网点业绩,这是商业银行面对大数据时代的有利手段。

四、总结

本文通过商业银行数据挖掘技术在个人客户数据上的构建,尝试了解不同客户数据类别在机器学习算法中的特征重要性度量,模型结果显示同名划转金额、跨行转账金额等多种数据类别对商业银行识别高净值客户有着重要参考价值。通过建立数据分析模型,导入客户数据,可以输出营销客户白名单,进一步提高个人金融部门的工作效率。

人工智能和数据挖掘技术的不断发展带动了各行各业的模式变革,商业银行在面对信息化潮流时更应与时俱进,不断改进自身,积极从以下三个方面探索:

一是提高数据信息广度。数据的收集不应仅着眼于银行体系内部,用户在衣食住行等方方面面的信息都可以进一步提高客户的评价精度,优化模型结果。

二是提高模型算法深度。要不断探索数据算法中更适用于客户分析的模型方式,优化模型构建系统,探索神经网络等算法模型在银行业的应用。

三是数据流实时分析。模型实时更新数据,通过数据流识别发现重要客户的踪迹,实现随时发现随时营销,提升营销效率。

使用人工智能等新兴技术,不仅可以提高商业银行的资产管理水平和客户服务能力,而且有利于提高综合运营能力,更好地抓住客户服务需求。如何运用机器学习、人工智能算法更好地服务营销,是当今商业银行不可或缺的重要研究议题。

猜你喜欢

数据挖掘商业银行特征
改进支持向量机在特征数据挖掘中的智能应用
离散型随机变量的分布列与数字特征
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
商业银行资金管理的探索与思考
“商业银行应主动融入人民币国际化进程”
抓特征解方程组
不忠诚的四个特征
关于加强控制商业银行不良贷款探讨
软件工程领域中的异常数据挖掘算法