Logistic 回归模型的一种改进弹性网估计

2022-07-01蒋仕旗戴家佳

数学理论与应用 2022年2期

蒋仕旗戴家佳

(贵州大学数学与统计学院,贵阳550025)

1 引言

Logistic 回归是一种解决分类问题流行且有效的方法.对于某一分类问题,它的解决效果和解释能力取决于拟合模型的变量及其对应的参数估计值,故对它而言,有效估计参数和选取变量是十分重要的.在现有的方法中,能同时有效解决Logistic 回归这两方面问题的方法是正则化法[1],该方法考虑在优化的损失函数上添加一个惩罚项来估计参数,同时通过将部分参数直接压缩为零来间接选取重要变量,其中弹性网(Elastic net)[2]是该方法的突出代表之一.

Elastic net[3]通过联合Lasso 和Ridge 来一并估计参数和间接识别(剔除)重要变量,但它具有两大不足:第一,缺乏oracle 性质[4],即选取出的变量不具有一致性;第二,缺少自适应分组效应[5,6],即它没有考虑具有强相关关系的变量对响应变量的具体影响[7].为克服Elastic net 的第一个不足,Ghosh[4]将Adaptive lasso[8]和Ridge 两者结合起来,建立Adaptive elastic net 方法来使选出的变量具有一致性. 然而,使Adaptive elastic net 具有oracle 性质的自适应系数向量W1是不易正确设置的,它一般由参数的初始估计和常数δ确定. Algamal 和Lee[9,10]指出若W1设置不对,则Adaptive elastic net 在选择变量时存在偏差且具有较差的拟合表现. 为此,可使用Ridge 估计量及其标准误差之比去表示W1. 当变量的方差表现出对估计具有重要影响时,也可将变量的标准差设置为W1.此外,W1也可由变量的类间平方和(BSS)与类内平方和(WSS)之比刻画[11].这些方法均可改善Adaptive elastic net 的变量选取功能,提高Logistic 回归的预测表现[12]. 为解决Elastic net 的第二个缺陷,Jia 等人[5]依据Elastic net 估计量的绝对值大小,通过赋予参数不同的Lasso 和Ridge 惩罚,提出了Partly adaptive elastic net. Partly adaptive elastic net 在Logistic 回归上取得了良好的预测效果[6],但它在给予参数惩罚约束时没有考虑参数对应变量的取值范围,这可能会抹杀一些取值极端的重要变量.另外,在求取Logistic 回归的参数方法中,还存在Van 等人[13]提出的先对参数进行分组后对各组参数进行不同Ridge 惩罚的Generalized ridge. Generalized ridge 具有自适应分组效应,并且其含有的Adaptive ridge 也享有自适应分组效应,能成功用于估计Logistic 回归和线性回归的参数[14,15]. 但Generalized ridge 不拥有选取变量的功能且适用情形较窄.

综合现有解决Elastic net 不足的方法,可知Adaptive lasso 和Adaptive ridge 分别拥有oracle 性质,自适应分组效应,故可通过结合这两者去同时避免Elastic net 现存的两大缺陷,这种组合惩罚可称为双重自适应弹性网(Double adaptive elastic net).

Tan[16]指出在Elastic net 惩罚中,加入变量的相关系数有助于改善Elastic net 在分组效应上的表现. 故在双重自适应弹性网中,Adaptive ridge 可用变量的相关系数来刻画. 在一些严格的假设条件下,双重自适应弹性网享有oracle 性质和自适应分组效应,这确保了它能一起有效解决Logistic回归的参数估计和变量选取问题,并提高Logistic 回归的拟合表现,这在模拟和实例研究上得到了验证.

2 统计方法

考虑一般的Logistic 回归模型[17]:

其中πi=P(yi= 1|X=Xi),Xi= (1, xi1, xi2, ··· , xip)T,β= (β0, β1, β2, ··· , βp)T,yi ∈{0,1},i=1,2, ··· , n.β可通过最小化负的对数似然函数L(β)所得,其中

欲使估计而得的ˆβ含有oracle 性质, 自适应分组效应和选取重要变量等特性, 可通过组合Adaptive lasso 和Adaptive ridge 惩罚来解决, 这种惩罚可叫双重自适应弹性网(Double adaptive

elastic net),其估计β的公式为

为求解式(2.1)中的β,可吸取Reid 和Tibshirani[19]使用坐标梯度法和牛顿法求解β的做法来求取,式(2.1)可重写为

由于λ1h−1(t)W1可能存在小于零的系数,以致其难以把某些无关变量对应的参数压缩到零.故可抹去h−1(t),式(2.3)可改写为

步骤1:产生β的初始解;

步骤2:计算g(t), h(t);

步骤3:由式(2.4)去计算β(t+1);

步骤4:重复步骤2 和步骤3 直至收敛.

3 统计性质及其证明

此小节给出Double adaptive elastic net 具有的一些性质及其证明.

3.1 Oracle 性质

C1I(β0)是一个正定矩阵;

C2 存在一个含有β0的开集Ω,使得对于任意的β ∈Ω,存在函数M(·),满足

且对任意的p维向量u,有E(M(X)(XT u)3)<∞;则Γn(u)−Γn(0)=A1+A2+A3,其中

对于A1,由Taylor 展开式可知,

再由中心极限定理可知,

由大数定律可知,

故

由条件C2可知,

故

由式(3.1),式(3.2),式(3.3)和Slutsky 定理可得

再由式(3.4),式(3.5)和式(3.6)可知,对于任给的u,

从而

3.2 自适应分组效应

4 模拟及实例分析

为有效评估并比较Double adaptive elastic net,Elastic net 及其部分改进法的性能,本节分别在一组模拟例子和实例上进行实验.实验的评价指标选用F1, Accuracy, AUC;实验的训练集量:测试集量=3:1.

4.1 模拟研究

为检验Double adaptive elastic net 是否能有效避免Elastic net 在自适应分组效应上的不足,可使用具有自适应分组效应的模拟数据来进行评估(检测). 然而,公认且能代表具有自适应分组效应的数据并不常见,但它可参考[2]和[4]中模拟数据3 的设置去生成.模拟数据3 是一个公认并具有分组效应的数据,与之相反,只需将模拟数据3 中重要变量所对应的参数设置不尽相同即可得到具有自适应分组效应的模拟数据,即此类数据可通过模型

表1和表2分别展示了Double adaptive elastic net 和一些正则化法在变量存在中度(高度)相关关系,重要变量存在自适应分组效应情形上的预测表现. 表1和表2表明,Double adaptive elastic net的表现优于原始的Elastic net,与表现最好的Partly adaptive elastic net 相当且随着样本量n的增大而变得更好,这暗指Double adaptive elastic net 具有解决选取重要变量存在自适应分组效应问题的能力.同时,也发现由于Double adaptive elastic net 可视为以Adaptive elastic net 为载体的改进法,故它的预测精度绝大程度上仍然受制于参数β的初始估计ˆβ∗. 若ˆβ∗不是β的一个优良估计,则Double adaptive elastic net 的预测精度是较差的.

表1 各方法在具有自适应分组效应的中度相关情形上的性能比较

表2 各方法在具有自适应分组效应的高度相关情形上的性能比较

4.2 离婚成因研究

为研究离婚成因,Yöntem 和İlhan[20]收集了一个由170 对夫妻在54 个离婚测量指标(DPS)上的得分表现所构成的数据集DPD.在数据集DPD 上,响应变量为Class,其中Class=1 表示离婚,Class= 0 表示未离婚. 54 个测量指标x1, x2, ··· , x54的取值均从{0,1,2,3,4}中获取,绝大部分特征间具有强相关关系(这可由图1来说明). 因而,Double adaptive elastic net 和一些Elastic net改进法是适合探索影响离婚的主要因素(特征). 各方法的预测精度如表3所示.

图1 各特征与其他特征的ρ 高于0.8 的占比,其中表示占比为0.8 的等高线

表3 各方法在DPD 上的预测精度比较

由表3可知,Double adaptive elasic net 识别出了41 个影响离婚的特征,高于表现最好的Elastic net 和其他方法选取出的特征数,但它的表现与Elastic net 是相同的,也能很好解决离婚预测问题.

5 总结

本文通过加权组合Adaptive lasso 和Adaptive ridge,提出了同时享有oracle 性质和自适应分组效应的双重自适应弹性网(Double adaptive elasic net),并使用模拟和真实数据评估了它对Logistic回归的提升表现.评估结果表明,在含有自适应分组效应的中度(高度)相关情形上,双重自适应弹性网的提升效果不弱于现有的弹性网及其改进法,具有良好的预测精度. 然而,双重自适应弹性网的应用范围可能是较窄的,这是因为使它拥有oracle 性质的自适应系数向量W1是难以确定的. 尽管双重自适应弹性网的W1可由参数β的初始估计ˆβ∗来确定,但当ˆβ∗不是一个优良估计时,该方法的表现是较差的. 于是,未来可将双重自适应弹性网中W1的确定作为下一步的研究方向,以完善并推广双重自适应弹性网的性质和适用领域.