基于大数据的实时风控体系构建探究

2022-06-07黄健文苏丽裕匡磊怀

数字通信世界 2022年5期

黄健文，丁奕，苏丽裕，闫宇，匡磊怀

（中移互联网有限公司，广东广州 510000）

0 引言

在业务平台发展前期，针对“薅羊毛”及“订单流转”典型风控场景，尚可依赖简单业务规则，以此来发现异常账户。但随着业务量的扩增，各大网上知名商城优惠劵等优质权益的引入以及用户规模的快速增长，导致刷单交易与欺诈手段也随之增加，原先的风控策略已逐渐无法满足业务的需求，给业务安全运营带来了严峻挑战。因此，如何改进现有的风控方案，满足业务发展的需求是一个重要且急迫的课题。

目前行业内已有很多成熟的风控方案，在一些电商平台或者金融行业有类似的应用场景。电商平台[1]通过发放优惠券的方式吸引客户，羊毛党通过各种刷单手段薅走大量的优惠券；金融行业[2]的用户信贷风险评估。对此，在大数据、人工智能技术的加持下，基于多种维度的数据，这些平台构建了很多非常优秀的风控体系[3][4][5][6][7]，并且在更为先进的风控系统中，融入了流计算、生物识别、自然语言处理等先进前沿技术，这可以有效提高数据处理能力以及实时决策计算能力。

借鉴于此，依托大数据平台，结合业务实际场景，改进原有的风控策略，打造了一套集业务数据快捷接入融合处理、数据安全稳定传输与存储、智能决策应对，多位一体的风控方案，形成了业务平台特定场景下的规则引擎[8]与机器学习模型结合的实时运营风控系统。

1 项目技术分析

对标互联网业界先进的实时计算技术，风控系统以Kafka+Flink+Redis+ES为核心技术架构，从数据处理、风控决策、业务应用、风险应对四个层面入手，打造数据能够实时汇聚处理、实时输出、实时决策的风控能力，以支撑业务风控处理的高时效性。这套规则与模型结合的风控系统实时动态、安全可靠、稳定高效，可以有效提升风险控制效率和精确度，将风险控制在合理的范围内，为业务平台业务提供风险分析决策。系统整体功能架构如图1所示。

图1 风控系统整体功能架构

1.1 分层概述

（1）数据处理层。能够完成高效的风险控制得益于多维数据的融合。实际业务中，数据是分布在不同的业务数据库中，要想高效的利用数据，首先是将多业务的数据融合起来，再在融合数据的基础上做处理。基于大数据平台，Flink+Kafka流式计算技术，可以快速地将所需数据汇聚起来，并完成相应的处理过程。

（2）风控决策层。该层分为模型管理和规则管理。规则管理是对规则的上线、下线、修改等操作，以及相应指标的计算与监控。这里构造了大量的复杂规则，这些规则都依赖于Redis存放的指标。模型管理主要完成模型开发、训练、部署、迭代等流程。模型利用了样本用户大量的基础属性、行为等数据构造的弱特征进行开发训练，最终模型开发完预测的结果就是用户的风险概率。通过规则和模型的共同决策判别的方式，增加了该风控系统的健壮性。

（3）业务应对层。该层主要完成风控的应用场景管理。业务平台有多个不同的场景。场景不一样，相应的风险应对措施也有所不一样。做好场景管理，也是做好风险应对措施管理。

（4）风险应对层。针对不同场景有不同应对措施。目前有通过、拦截、人脸识别、短信验证等一系列措施，分别应用在不同的场景中。

1.2 关键技术

（1）实时数据采集。Kafka是一个分布式、支持分区的、多副本的，基于Zookeeper协调的分布式消息系统。它可以实时地收集用户的活动数据，以时间复杂度为O(1)的方式提供消息持久化能力，以满足各种需求场景。

（2）实时数据处理。Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算，支持高吞吐、低延迟、高性能的分布式处理框架。在风控系统中，它可以实时地消费Kafka的日志数据，完成相应指标的计算。

（3）指标缓存。Redis是一款内存高速缓存数据库，高性能的（key/value）分布式内存数据库，基于内存运行并支持持久化的NoSQL数据库。与传统数据库不同的是，Redis的数据是存在内存中的，所以读写速度非常快，因此可以存放用户实时指标计算判断数据。

（4）分布式计算。分布式计算是一种计算方法，和集中式计算是相对的。数据处理的过程需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。

（5）缓冲池技术。采用缓冲池技术，缓和不同I/O设备间速度不匹配的矛盾，提高CPU和I/O设备之间的并行性，降低I/O设备间建立连接的性能开销，同时通过容错机制确保缓冲池稳定。

2 规则与模型

风控系统的核心是规则与模型。在规则上，基于用户的实时行为数据，计算实时规则指标，如针对用户IP地址和设备，统计用户在一定周期内的IP地址数和设备数，一旦用户某指标超过设定的阈值，风控系统就会介入干预防范。此外，完善规则监控系统与管理系统，实时监控规则线上表现，并针对实际情况及时对规则阈值调整、上线和下线。

在模型上，基于用户基础属性、业务行为等数据，通过特征组合与衍生方法，构造多维度用户特征，对用户特征使用了数据标准化、独热编码等多种数据处理方法，并进行了数据分箱、交叉验证、特征选择等特征工程方法[9]，构建了逻辑回归、决策树、随机森林[10]等多个分类器，根据精准率和召回率对比分析性能，测试验证，表1列举了几个模型具体表现。

表1 模型评估指标

通过指标对比分析，逻辑回归模型的表现更加稳定，并且逻辑回归模型的可解释性更强，部署简单，计算高效，存储占用小，因此选择使用逻辑回归做为判别模型。

其实逻辑回归的过程就是面对一个分类问题，通过算法模型构造损失函数，利用梯度下降法迭代求解出最优的模型参数，最后测试模型的性能。逻辑回归还可以获得各个特征因子的参数，它直观地反映了各个特征对模型的影响程度。假设风控样本的数据背后的映射关系是线性的：

若g使用sigmoid函数，可以将此函数的值域映射到[0,1]这个区间内：

损失函数：

通过梯度下降算法或者牛顿法就可以对上述损失函数优化，优化的目的就是要找到一个方向，参数朝这个方向移动之后使得损失函数的值能够减小，也就是找到最佳的参数。这些最佳参数就可以反映各个风控因子的影响程度。

3 项目成效

传统的风控策略非常依赖于有经验的数据分析人员，分析人员通过设置大量的规则做风险判断，侧重于数据。但是人的计算能力是有限的，对整体的把控能力也是有限的，因此判定规则也不足以应对所有场景。另外，规则是容易被打破的，某些规则一旦被一些有意图的用户摸索到，有可能就会造成平台与合作客户的重大损失，直接影响平台的正常运营与声誉。

基于规则引擎和机器学习模型的业务风控系统，在保证大量规则的基础上，利用用户大量的特征构建的风险控制模型，有效地弥补了规则判断的局限性，提高了判别精确度。该风控系统覆盖了覆盖业务平台登录、消费、活动等多个场景，日均监控订单数据量超过百万。风控系统自上线至今，识别出来累计超过几十万条可疑订单记录，而且目前业务尚未收到有关投诉反馈，侧面反映风控系统的识别精度较高，这些可疑订单的用户基本都属于高危用户。针对可疑刷单行为，风控系统及时处理判断，果断采取相应措施进行拦截或者进行短信验证、图片验证、人脸识别、活体识别、指纹识别等验证，有效地稳定了平台秩序，守护权益营销活动的正常开展，大力保护了消费者的权益。

4 结束语

通过探索和实践，该实时风控系统目前已经具备良好的用户区分度，可以在决策阶段清晰地做出高精确的用户风险类别的判断。然而，对抗黑产欺诈是一个长期持续的过程，未来的黑产手段也会层出不穷，很多规则策略也会逐渐失效，模型精度也会逐渐下降。而且随着平台业务的持续发展，用户量级的增加，需要计算处理的数据量也会随之增加，如何保证未来模型和规则的稳定是需要面临的大问题。同时，风控模型要随着线上运行结果不断迭代优化，需要丰富更多的用户特征来保障模型长期稳定运行，管控好数据处理流程以及特征工程，保证数据准确计算，正常反馈特征给模型输出。做好规则管理，随时可以监控规则的拦截量和拦截效率，有利于运营人员及时反馈给分析人员做调整，形成事前防范、事中拦截、事后稽核的通用风控能力。■