APP下载

基于图数据库与机器学习的业务安全风控平台

2020-03-07

网络安全技术与应用 2020年2期
关键词:黑产高斯分布分值

(中国移动通信集团浙江有限公司 浙江 310000)

1 引言

随着互联网服务的快速发展,越来越多的业务服务从传统的线下渠道迁移到在线、实时的平台上。业务方为了培育市场,在运营和推广方投入大量资金,取得巨大的经济效益和用户体验。但是,这也给互联网“黑色产业”提供了滋生的土壤,各类风险问题层出不穷。不法分子不仅批量在线申请号卡、以团伙形式进行薅羊毛行为,同时利用办理的号码进行套利、诈骗等危害社会行为。此类行为对中国移动造成营销资金的损失,也对企业形象产生不良影响。

2 用户业务行为数据处理

首先将对用户的属性信息及历史行为数据,利用规则匹配、统计分析等方法进行用户业务行为特征刻画,形成高度概括的自然特征和行为特征,为异常行为识别和基于图数据库异常“黑产”群体识别分析提供基础数据支撑。其次,将用户行为数据、标签、特征等数据,输入到多模型融合的异常识别评分模型中计算用户风险评分,通过分值将用户的风险进行量化,为实时风控平台和业务系统提供风险判断依据,同时根据风险评分表中的异常用户,基于图数据库异常“黑产”群体识别分析。

3 基于机器学习的异常行为识别

提取上述所有用户信息特征,采用算法模型计算各业务行为的异常分值,业务行为分值会远远高于正常页面的分值。分别使用如下算法模型进行计算:GMM(高斯混合模型)、Local Outlier Factor(局部异常因子算法)、Isolation Forest(孤立森林),生成最终异常用户业务行为分值表。通过添加阈值使每一个算法都有决策权,最终通过组合模型管用的投票机制选择异常。

3.1 高斯混合模型(Gaussian Mixed Model,GMM)

高斯混合模型也是一种常见的聚类算法,与kmeans 算法类似,同样是使用了EM 算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布(通常称为正态分布)的当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。如果只用一个高斯分布来拟合图中的数据,就会出现一个椭圆(二倍标准差的高斯分布)。但是可以直观的来看,数据明显分为两簇,因此只用一个高斯分布来拟合是不合理的,需要推广到多个高斯分布的叠加来对数据进行拟合。

3.2 局部异常因子检测(Local Outlier Factor )

局部离群因子通过计算一个数值score来反映一个样本的异常程度。一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。

(1)设定k值,对指定点A找到最邻近k个点;

(2)计算A点到这些点的欧式距离记为,其中最大距离为A点可探测距离:

(3)求出局部可达密度:

(4)同样的方法对其他点的进行计算,算出局部异常因子:

(5)最终设定阈值,输出异常点。

3.3 Isolation Forest(孤立森林算法模型)

孤立森林属于一种无参数的非监督算法,他是一种侦测异常十分有效的组合算法,底层用的是决策树。

(1)建立n个决策树模型;

(2)随机抽取样本数据输入这n个模型进行训练(随机按最大最小切割),切到指定异常数据比例为止;

(3)利用n个决策树进行投票,求出异常系数;

(4)Isolation Forest 结果如图1。

图1 孤立森林算法结果

3.4 多模型融合机器学习算法利用上面三个模型做组合模型处理

通过GMM、Local Outlier Factor、Isolation Forest 算法构建多模型融合的一种无监督机器学习模型。这种多模型融合的机器学习算法,综合了GMM、Local Outlier Factor、Isolation Forest 算法模型之间的优点,具有以下优点:首先,从统计的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险;第二,从计算的方面来看,GMM 算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能很糟糕,而通过GMM、Local Outlier Factor、Isolation Forest 多次运行之后进行结合,可降低陷入糟糕局部极小点的风险,特别是Isolation Forest对内存要求低,且处理速度快,具有线性时间复杂度,因为是ensemble的方法,所以可以用在含有海量数据的数据集上面;第三,从表示的方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似。本文通过GMM、Local Outlier Factor、Isolation Forest 算法构建多模型融合。

4 基于图数据库的群体识别模型

基于某次注册业务推广活动的相关数据,注册推广页面,出现多个账号推广注册并获取积分成功后,向同一手机号码兑换积分的现象,疑似出现黑产薅羊毛现象。为了明确目前面临的安全风险,并在此基础上,寻求整体、可靠和完善的解决方案,基础架构组对注册页面进行了安全检测,并根据电子渠道后台的数据信息进行多维度分析,同时利用外部黑产情报库进行数据比对,发现此次活动推广,存在明显的黑产“薅羊毛”特征:攻击者利用(或者伪造)大量终端和代理IP,在活动中注册大量的账号,借此获取积分后兑换优惠券。

基于此次注册业务推广活动的相关数据,我们发现本次营销活动,存在明显的黑产薅羊毛特征:攻击者利用(或者伪造)大量终端(利用IMEI标识)和代理IP,在活动注册大量的账号,然后获取积分后兑换优惠券。设计图数据库的Schema 与数据导入。

5 总结

本文分析了电子渠道存在的业务安全风险问题,尤其是从事“黑产”活动的用户行为,不仅损害了电子渠道本身的利益,同时也危害了正常用户的业务活动体验以及正常市场秩序。就上述问题,本文创新性地提出一种基于图数据库与机器学习的业务安全风控平台,可以很好地保障电子渠道中的业务安全,一方面通过使用GMM、Local Outlier Factor、Isolation Forest算法构建多模型融合的一种无监督机器学习模型,有效识别电子渠道中存在的异常“黑产”行为用户;另一方面,基于图数据库识别出异常“黑产”群体,以群体的视角发现异常“黑产”,可以发现更多从事异常活动的账户,做到以点带面的效果。

猜你喜欢

黑产高斯分布分值
芍梅化阴汤对干燥综合征患者生活质量的影响
养号黑产愈演愈烈
悄悄告诉你:统计这样考
谁是科创板创值全能冠军
腾讯发布:《2018上半年互联网黑产研究报告》
150万网络黑产从业者 正盯着你的个人隐私
新技术能帮助消灭黑产吗?
在航集装箱船舶摇摆姿态的概率模型
改进的自适应高斯混合模型运动目标检测算法
改进RRT在汽车避障局部路径规划中的应用