优质代发客户识别模型的研究与应用

2020-01-18李琦

电子技术与软件工程 2019年24期

文/李琦

国内金融行业的竞争日渐加剧以及外资银行的大量涌进，国内的银行转型在不断的加快和深入，在金融产品同质化严重的行情下，服务的个性化、差异化显得尤为重要，做好客户群体的细分，对于不同的客户群体进行分层，根据客户群体的个性化需求推出差异化的服务，已成为各大银行网点寻求发展的必经之路。近年来，各个企业开始致力大额客户行为轨迹研究，得出虽然大额客户对企业的贡献很大，对企业的业绩的贡献影响程度也很高，但随着互联网的兴起，大额客户的忠诚度也越来越低。而相对大额客户，代发客群的稳定性更强，且无需过多的维护，研究代发客群经营模式，做好批量大众客户服务营销，提升代发客群的粘度，这对于银行网点发展有着重要的作用。代发业务是我省邮政金融的一项重要的源头性业务，代发单位的维护也是夯实存款的基础性工作，同时，代发是一种批量获取客户数据的最有效且最捷径的方法，着力拓展代发业务，精准掌握代发客户需求，对我省邮政金融业务发展有着重要的意义，因此，实现对代发客户的精准识别，有效提升代发客户群体对企业的价值，是我们目前技术支撑业务发展的一个重要课题，经过3年多的探索，我们找到了一个可靠的新思路和方法--利用贝叶斯网络算法设计的优质代发客户识别模型来为企业识别优质代发客户，并对此类客户进行专项维护和营销管理，有效提升客群的价值。下面，主要从识别模型的具体实现过程对项目进行阐述。

1 技术实现过程

本项目首先通过数据清洗和有效的数据预处理方法对数据进行处理，然后采用贝叶斯网络算法从大量数据中学习知识、提取知识，其具体过程如图1所示。

2 贝叶斯网络算法介绍

贝叶斯网络主要是描述一组随机变量所遵从的联合概率分布，并通过一组条件概率来指定一组条件独立性假设，其代表的是一个关于X的概率分布，分解过程如下：

代发客户是否属于优质代发客户其影响因素具有不确定性，并且毫无固定性，在情况不确定或数据不完整时，贝叶斯网络推理算法就变得更为便捷和准确。即使缺少其中某一输入变量仍然不会影响模型的精确性。同时贝叶斯网络还允许学习变量之间存在因果关系，在以往的数据建模中，都需要剔除变量之间的因果关系，而贝叶斯方法具有因果和概率语义，可以用来学习数据中的因果关系。从而对客户进行分类和行为预测。

3 数据清洗

我省累计签约代发客户数量已达1280万户，但是存在很大一部分客户只是临时性的代发，并且部分客户存在关键信息不全以及一人多卡等问题，通过系统分析近4年的代发交易数据，清洗身份证信息不全、身份证信息不正确、一人批量开多卡，一卡多种类代发协议签订等情况的客户数据，并统计中间业务办理的批量代发流水，将近一年未有代发交易的客户剔除，且签约时间距离计算日期超过一年，交易次数少于5次的客户进行剔除，得到较为高质量的数据。

4 代发客户标签化

在批量代发流水中得到近4年有效代发客户的代发次数以及代发明细，统计每一笔交易的业务码和摘要的次数，并结合代发签约信息所对应的每个客户签约的业务码，对客户进行标签化，实现了896.3万客户标签化。其中标签种类主要为：社保类、烟草类、财政补贴类、公益类、工资类等。并且针对客户资产情况进行资产星级评定，一星到八星分别代表客户资产星级，数字的大小代表资产星级的高低，例一星表示该客户资产星级较低，八星表示该客户资产星级较高。

5 客户指标数据的选取

依据过去的研究成果和我省代理金融业务的现实情况、资深业务人员的经验加上我们对模型变量的初步探索，通过与业务部门相关人员的讨论，最终将客户基本信息、客户交易信息、业务基本信息作为建模的输入变量。其中这些指标主要为：年龄、性别、代发标签、资产星级、是否购买理财、是否购买保险、定期余额、活期余额、总资产、年均余额、年均代发金额、本月代发金额、累计代发金额这13个指标作为输入变量。

图1

6 数据预处理

本项目的数据有定性型数据和定量型数据，而定量型数据中既有离散型数据又有连续型数据，且连续型数据的上下幅度很大,比如代发金额宽度在[1107,43189]，年龄层级别也分布不均，对于这种不平衡的数据就需要进行预处理。

本项目重点在对定量数据进行离散化处理，主要采用熵最小离散化方法进行离散化处理。输入变量中年龄X1、定期余额X7、活期余额X8、总资产X9、年均余额X10、年均代发金额X11、本月代发金额X12、累计代发资金X13为定量型数据，且取值范围较大，需要对这8个变量进行离散化处理。

对于定性数据转换成数字表示，采用{1，2}代表其取值{否，是}等类似转换。同时，由于贝叶斯网络算法是通过计算属性间的条件概率、后验概率建模的，这种方法固有的特性使得贝叶斯分类器不擅长处理连续型以及数量过多的离散型数据。数目过多的离散型数据如客户年龄等，其取值从18到90不等，而且代发集中年龄在30-50岁之间，代发的金额也从1000-10000不等，对于个别类别稀疏，条件概率或后验概率会出现较多的1值和0值，这些极端的情况会误导真实的分类。所以将这些连续型的变量也进行离散化处理。

数据规模的大小直接影响分类器的选择，数据规模落实到具体问题中即为属性性数量、属性取值范围、属性的关联属性数量等呈正相关。属性数量越多、属性取值越多、属性关联越复杂，对于分类器所需要的样本量就越大，本项目数据含13个指标，其中3个类别属性，2个定性属性，8个定量属性，数据规模较大，而K2算法的分类器能够巧妙利用先验知识，极大减少了搜索空间与计算量。

我们采用K2分类器，并且针对定量型变量，采用 EMD对其进行离散化处理，避免变量取值分布极端、取值过多等误导真实的分类模型或不利于知识的提取。同时采用ROC曲线评价分类器的好坏，AUC(Area Under the ROC Curve)作为分类器性能的指标。

7 数据建模与应用

通过给定的代发客户训练数据，建立贝叶斯网络的拓扑结构(有向无环图DAG)和结点的条件概率分布参数，在给定贝叶斯网络的拓扑结构和结点的条件概率的分布后，再使用该网络，计算未知代发客户的条件概率和后验概率，从而达到是否为优质代发客户分类的目的。并在我局自主开发的湖南邮政金融辅助系统每月对优质代发客户资产情况以及代发情况报表展示，并不定期的筛选客户进行专项营销活动。

8 应用情况

本文以我省金融业务关注的代发客户价值提升为研究点，选取了可能影响客户价值的13个指标，在研究方法上，将统计学检验方法与数据挖掘方法、优化建模方法和业务经验进行有效结合，实现了统计学与应用实践的融合、定性分析与定量建模方法的统一，获得了优质代发客户识别的目标，很好的解决了业务中遇到的实际问题。

优质代发客户识别模型在我省邮政金融业务领域应用后，2018年全年代理金融网点代发客户留存率较上一年提升11.43%，网点针对代发客户的年均维护率达75.5%，平均每个网点都借助系统全年开展了一次专项营销活动，发展最好的地市，平均每个网点全年开展了3次活动，代发客群总资产留存率为13.81%，目前依靠该模型有效识别优质代发客户月度最高达到18万户，为我省邮政代理金融网点余额提升做了很大的贡献，同时，也进一步加深了网点营销人员对代发客户的特征了解，为后期代发客户群管理和营销活动开展积累了宝贵的经验。