APP下载

互联网金融欺诈预测的特征工程方法研究

2022-10-22

技术与市场 2022年10期
关键词:特征选择欺诈类别

孟 萌

(中国人民大学信息学院,北京 100089)

0 引言

2012年提出“互联网+”,2017年又发布了《新一代人工智能发展规划》,表明在2030年之前将人工智能赋能城市建设、公共卫生、自动驾驶、政务司法和社会信用体系。《国务院关于印发社会信用体系建设规划纲要(2014—2020年)的通知》阐述了提高全社会信用意识和信用水平、改善经济运行环境的目的。除了国家战略方向的驱动力,人们生活的线上化也促使金融企业改变原有风控模式。人工智能技术如“换脸”使欺诈现象更隐蔽,这加大了应对欺诈团伙和黑产的压力,传统的人工风控手段需要借助金融科技做出更迭。特征工程的加持令简单模型得到不错的评价指标,复杂的分析技术只能在结构化数据集上提供边际性能收益,这是常见分类任务如欺诈检测、信用评分中经常遇到的问题[1]。

1 特征工程的分类

1.1 特征转换和衍生

特征工程包括数据预处理、离散数据的编码、连续数据的分箱、数值的归一和标准化、对数据分布的转换、特征衍生等。数据预处理包括数据集成、格式统一、缺失数据处理等。常用编码方法有one-hot编码,每个类别变量取值的编码数目和类别变量不同取值数目相同且属性数据彼此之间距离相等,适合非排序类离散特征的编码;另一编码方式是标签编码,数值之间存在数量关系,适合排序类离散特征编码。最大、最小归一化和z-score标准化等线性变换并不会改变数据的分布,但是两者都可以弱化量纲的影响,以欧式距离作为相似度度量的算法例如k-means、KNN对量纲是敏感的,逻辑回归、神经网络这类算法利用梯度下降优化目标函数求解参数时可以起到加速收敛的作用。对连续变量做Box-Cox变换可以让偏态分布接近正态分布,以利用正态分布的良好特性。特征衍生是对特征进行数值和逻辑运算以增强特征预测能力。

1.2 特征选择和提取

对属性变量编码和特征衍生都会增加特征维度,特征选择是从特征集合中去除不相关特征和冗余特征的过程,特征个数为n个选择可能性为2n。特征选择过程包括搜索特征子集、评价特征子集、判断是否满足终止标准、验证特征子集是否有效四个步骤。每次增减特征时候都需要评价函数进行评价,直到满足评价指标。如图1所示。

图1 特征选择框架

特征搜索策略分为全局最优搜索法、序列搜索、随机法。穷举法试图穷举每个特征空间子集是否符合评价函数,当特征较多时复杂度相当高。序列搜索分为前向搜索、后向搜索和双向搜索,每次加入一个得分最高的特征是前向搜索,每次得分最低的特征被删除是后向搜索,加入m个特征到已选特征集并删除n个特征为双向搜索[2]。随机法主要包括遗传算法、粒子群算法等[3],随机法是近似全局最优解并且平衡了穷举法和序列搜索法的优缺点。根据机器学习算法是否参与特征选择过程分为过滤法、包装法、嵌入法[4]。过滤法根据特征排序或者搜索策略进行选择,特征排序的评价指标包括皮尔逊相关系数、fisher分数,主要删除相关性小的特征。搜索策略包括CFS、mRMR、马尔科夫毯,可以删除冗余特征。嵌入法是指特征选择嵌入到学习算法中进行,典型的是决策树类算法;另一类典型的是应用L1和L2正则项作为损失函数的算法:最小二乘回归方法Lasso、基于L1正则的SVM。封装法搜索策略和算法训练迭代进行且模型性能指标作为特征选择的评价指标,常见算法有支持向量机、k近邻,稳定性较差,具体选择结构和算法有很大关系。表1从3个维度展示了3种方法的区别。

表1 特征选择方法

过滤法的特征评价指标在没有学习算法参与选择的情况下一般是基于统计学和信息论对特征进行排序。评价指标包含对单个特征和整个特征集的评价,Kira Rendel[5]提出的特征选择过滤方法RELIEF为每个特征赋予和类别标签关联程度相关的权重,此方法适合删除不相关特征但对冗余特征无效。Koller D[6]研究了一种基于交叉熵的有监督评价指标,算法试图以一种保持类的条件概率尽可能接近原始分布的方式来消除特征。传统信息论方法将特征相关性和冗余性分割判断无法判断整个特征子集的组合效应。董红斌等[7]将数据融合领域中的关联信息熵理论应用到特征选择中,基于该方法度量特征间的独立和冗余程度。

特征提取是指对特征重新组合获得反映事物本质的少量特征的过程,可以减少维度灾难的影响使基于距离和密度的算法有效。主分成分析(PCA)是一种无监督的线性降维方法,将数据做标准化处理后计算出协方差矩阵和特征值,将特征值从大到小排列并保留较大的特征值N,高维特征空间转换成新的N个特征向量构成的特征空间。线性判别分类器(LDA)是一种监督学习的线性降维方法,也是数据集的每个样本有类的别输出,PCA是不考虑样本类别输出的无监督线性降维技术。

2 互联网金融欺诈预测的特征工程

互联网金融领域内的欺诈具有一定伪装性,特征难以表征;非欺诈和欺诈类别占比严重不平衡,分类器难以学习到准确的决策边界;欺诈类别的误判和漏判导致财务成本更高。基于以上问题,可以在特征工程阶段解决问题,而不是算法层面解决问题。

2.1 风险特征构造方法

2.1.1 交易类数据的特征构造

特征构造是对原始特征进行聚合或者转换构造出新的特征。信用卡原始特征主要有交易ID,交易类型,验证模式,接入模式,时间,金额,地点,商户代码和群体,持卡类型,发卡行,卡号,持卡人手机号,性别,年龄。Baesens B等[8]根据最近性、频率、货币(RFM)原理创建一些相关特征,再根据无监督异常检测方法检测出欺诈模式。最近度衡量事件发生的时间,频率统计单位时间内特定事件的数量,与货币价值相关的特征衡量交易的强度。例如频率特征和货币特征:一个用户在过去Tday内通过某种渠道或者验证方式向某类商户支付一定金额的频率,如果出现了和之前消费习惯不同的模式意味着欺诈的可能性较高。最近性特征是指2种行为模式之间的时间间隔的对数转换分数,和其他时间相关的特征比如某个特殊时间点消费的行为。

2.1.2 信贷类数据的特征构造

对于信贷数据而言,信用数据包括人口统计特征、单位信息、家庭信息、历史逾期情况、设备信息、社交信息、收入和负债情况、消费水平和习惯等。信用数据的特征构造主要有以下几种方法,聚合处理是对特征做描述性统计,特征组合分为线性组合(对特征做加减变换)、多项式展开(对特征做相乘处理)、加权组合(对特征做加权运算)、决策树方法(对特征做逻辑运算)。特殊的,对于和时间相关的特征,可以统计不同时间段的滑动窗口下的特征、计算特征之间的时间间隔或者计算不同时间粒度下的聚合特征。

2.1.3 自动化和基于图的特征构造

自动化特征工程领域中提到的特征组合方法AutoCross将特征类型(类别特征、数值特征、时间序列等特征)作为输入并输出特征生成器。其使用散列技巧来提高特征生成的速度,与基于深度学习的方法相比占用的计算资源显著减少[9]。欺诈行为有一定的伪装性、聚众性、多变性,基于图特征进行特征提取,利用标签传播的半监督算法对节点进行预测。Zhao P[10]等人仅仅利用标签传播算法对节点是否为欺诈节点做概率判断从而进行特征提取。

2.2 不平衡类别的特征工程

对于欺诈检测这类任务常见问题是少数类别占比极低,分类模型处理类别均匀分布时算法和评价指标才不失其意义。常用方法一是欠采样:删除训练集中非欺诈性样本,缺点是会删除有重要特征的非欺诈样本。有选择的欠采one-sided selectio算法删减非稀有类样本中的噪声样本冗余样本和离决策边界较远的边界样本,争取保留非稀有类别的特征。另一种方法是过采样:复制训练集中的欺诈性样本,缺点是没有增加新的欺诈特征。有选择的过采样SMOTE算法是利用每一个稀有样本类的K近邻中随机的非稀有样本类的特征和稀有类特征的差值生成稀有样本。

2.3 不平衡成本的特征工程

欺诈类别被误判为非欺诈的成本是远高于非欺诈类别的误判成本,所以基于成本不平衡的任务,大部分解决方法是加入成本敏感学习(CSL),代价敏感学习主要思想是增加错误分类权重,可以在损失函数中增加错误分类样本的惩罚权重,让分类器更好地学习少数类别的特征。成本敏感决策树(CSDT)算法使用了新的分割准则,计算了每个树节点的成本。成本敏感逻辑回归(CSLR)算法将原来的损失函数中变为了成本敏感函数的目标函数。基于数据抽样的特征工程方法没有基于成本敏感学习的方法效果好,因为欠采样和过采样实际上是改变了数据的分布[11]。

3 结语

互联网金融的智能风控技术不仅包括结构化数据的挖掘技术,也包括非结构化数据挖掘技术CNN和RNN等,文章论述了结构化数据的特征工程效用、一般的特征工程方法,然后基于互联网金融风控领域的欺诈特征难以表征和不平衡类别、不平衡成本等问题,简述了领域内特征工程的方法。

猜你喜欢

特征选择欺诈类别
欺诈的民法规制
一起去图书馆吧
欧洲网络犯罪:犯罪类型及比例
简析基于概率预测的网络数学模型建构
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
防范信用卡申请业务欺诈风险的中美对比
选相纸 打照片