APP下载

基于联邦学习的个人信用风险评估研究

2021-05-04代文许文彬

商业文化 2021年5期
关键词:信用风险数据安全联邦

代文 许文彬

在银行业领域,个人信用风险评估模型是重要的贷款审批工具,个人信用风险评估模型是银行利用自身数据与外部数据集中在同一台机器上训练出来的模型。而随着民众对个人隐私和数据安全的重视,法律法规要求的提高,为避免发生数据泄露,银行理论上不能将生产环境的数据脱离生产环境,原来的传统的线下联合建模方式需要将生产数据出库,存在数据泄露等不合规的风险。本文从数据安全的角度,提出基于联邦学习的个人信用风险评估模型构建的方式。研究表明,基于联邦学习的个人信用风险评估模型构建方式在训练得到同样效果的模型的前提下,能够更好地保护数据,避免数据泄露。

引 言

风险管理中心是银行业重要的核心部门,其主要职能是保障放贷资金的安全回笼,关系整个银行的资金安全,个人信用风险评估模型是风控管理中心重要的贷款审批工具。随着大数据技术和机器学习发展,可以用于构建个人信用风险评估模型的特征越来越多,训练模型的技术也越来越成熟。因此,个人信用风险评估模型的稳定性也就越来越强,效果越来越好。在审批贷款申请阶段,银行会优先使用个人信用风险评估模型进行审批。

数据泄露的问题时有发生,如2018年3月份Facebook上超5000万用户信息在用户不知情的情况下,被政治数据公司“剑桥分析”获取并利用,2018年11月汇丰银行(HSBC Bank)部分客户的个人和财务信息泄露等事件,相关法律法规对数据安全的要求也是越来越高。传统的多家公司联合训练模型的方式是各家将数据导出,并集中到一台各家都有读写权限的机器上进行模型训练。该方式将数据导出生产环境,存在数据泄露的风险。鉴于此,本文从数据安全的角度考虑,提出一种基于联邦学习的个人信用风险评估模型的构建方式。

联邦学习场景分类

联邦学习是2016年由谷歌提出的理论概念,联邦学习(Federated Learning)是一种加密的分布式机器学习技术,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作。

联邦学习根据用户交集和特征空间的差异可以分为横向联邦学习、纵向联邦学习和迁移联邦学习。

横向联邦学习

两个或多个数据集的用户特征重叠较多而用户重叠较少,并且各方拥有同一含义的标签时,将数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练,如图1。横向联邦学习训练得到的模型参与方都可以使用,有助提升各方的模型效果。

例如:两家不同银行的留学贷产品,该产品的用户特征重叠较多,并且用户重叠较少,这两家银行可以使用联邦学习的方式合作建模,这样做可以增加训练模型的样本量,提升模型质量。

纵向联邦学习

两个或多个数据集的用户重叠较多而用户特征重叠较少,并且至少有一方拥有标签时,将数据集按照纵向(即特征维度)切分,并取出各方用户相同而用户特征不完全相同的那部分数据进行训练,如图2。纵向联邦学习可将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。

例如:两个不同机构,一家是某地的银行,另一家是同地方电商。两家公司的交集较大,同时,银行的特征与电商用户的浏览与购买历史所能提取的特征交集较小。该银行可以与该电商公司使用纵向联邦学习的方式联合建模,该电商公司为该银行的模型提供特征从而改善模型。

迁移联邦学习

两个数据集用户与用户特征重叠都较少时,不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况,如图3。

比如有两个不同机構,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。

猜你喜欢

信用风险数据安全联邦
部署推进2020年电信和互联网 行业网络数据安全管理工作
工信部:2021年初步建立网络数据安全标准体系
我国国有商业银行信用风险管理研究
基于模糊层次分析法的农户信用风险评级研究
基于模糊层次分析法的农户信用风险评级研究
数据安全政策与相关标准分享