APP下载

高维回归中基于组块3×2交叉验证的调节参数选择

2015-02-13李济洪陈萌萌杨杏丽

关键词:组块高维维数

李济洪, 陈萌萌, 杨杏丽

(1.山西大学 计算中心,山西 太原 030006;2.山西大学 数学科学学院,山西 太原 030006)



高维回归中基于组块3×2交叉验证的调节参数选择

李济洪1,2, 陈萌萌2, 杨杏丽2

(1.山西大学 计算中心,山西 太原 030006;2.山西大学 数学科学学院,山西 太原 030006)

将组块3×2交叉验证方法用于高维回归中的调节参数选择.首先通过ISIS方法把模型的维数降低到样本个数以内,然后使用AENET方法对降维后的模型进行进一步的降维和参数估计,使用组块3×2交叉验证方法选择最佳的调节参数.综合考虑模拟实验中各种调节参数选择方法(AIC、BIC、EBIC、HBIC、5折交叉验证、组块3×2交叉验证)的EMSE值、方差以及计算复杂度,结果表明基于组块3×2交叉验证的方法是有其优势的.

调节参数选择;组块3×2交叉验证;EMSE准则

1 引 言

近年来,高维数据在生物信息、图像处理、金融管理等实际应用领域中频繁出现,因此如何处理和分析高维数据成为急需解决的问题.研究人员发现虽然高维数据的维数很高,但对响应真正起作用的只有很少数的一部分,文献中称为变量的稀疏性,所以如何进行合理的变量选择成为解决高维问题的重要步骤.为了解决高维情形的变量选择问题,学者们提出了许多基于正则化的方法,包括LASSO、adaptive LASSO、SCAD、Elastic Net、adaptive Elastic Net等[1-5].但无论是哪个方法都面临着正则化参数的选择问题,文献中也称其为调节参数选择.在变量选择中,调节参数控制了惩罚水平,如何选择一个恰当的调节参数直接影响着变量选择及其整个模型的结果.传统的调节参数选择方法中,信息准则(包括AIC和BIC等)和标准的K(K=5,10)折交叉验证被广泛地应用.但是在高维问题中,即使是具有选择一致性的BIC方法也不能一致地识别出具有稀疏特性的真模型.为此,研究人员做了很多努力来改进BIC信息准则使得它能用于高维稀疏回归中.Wang[6]提出了MBIC(a slightly modified of the Bayesian Information)方法,他们证明了MBIC在数据维数是发散的但小于样本量的情形能保证一致地识别出真模型.进一步,Wang[7]提出了适用于数据维数大于样本量情形(数据维数随着样本量以多项式阶增长)的EBIC(extended Bayesian Information)方法.Wang[8]对EBIC方法进行了改进提出了HBIC(high dimensional Bayesian Information)方法,并证明了即使是数据维数随着样本量以非多项式阶增长情形其方法也具有调节参数选择的一致性.

在交叉验证方面,学者们也做了广泛的研究,实际应用中也提出了多种形式的交叉验证方法,包括:留一交叉验证,标准K折交叉验证、RLT(Repeated Learning Testing)交叉验证、5×2交叉验证等[9-13].特别地,文献[14-15]在分析已有交叉验证方法优缺点基础上提出了一种新的交叉验证方法——组块3×2交叉验证,并验证了它在语料划分、模型选择、泛化误差估计和算法性能对照中的优越性[14-17].为此,考虑将组块3×2交叉验证方法用于高维回归中的调节参数选择.

2 高维回归模型及其调节参数选择准则

2.1 高维回归模型及其记号

设(x1,y1),…,(xn,yn)为独立同分布的样本观测,且

(1)

其中xi=(xi1,…,xip)T∈Rp,εi~N(0,δ2).进一步,令Y=(y1,…,yn)T为响应向量,X=(x1,…,xn)T为对应于列Xj=(xij,…,xpj)T的设计矩阵.

注意:不失一般性,假定数据是被中心化的,所以截距项不包含在回归函数中.本文中,维数p是样本量n的函数,即p=pn.

当p>n或p>>n时,文献[18]指出通过如下两步来进行变量选择:

(S1) 首先应用ISIS(iterated Sure Independence Screening)方法把超高的维数p降到小于样本个数的一个维数d,d

(S2) 通过基于正则化的变量选择方法来进一步进行变量的选择.这里采用文献[5,8]中的AENET(adaptive Elastic Net estimator)的方法,见下式:

(2)

2.2 AIC(Akaike information criterion)信息准则

AIC信息准则是最早在经典线性模型中被提出的一种用于权衡模型的拟合度和模型的复杂度的模型选择方法,它具有如下形式:

(3)

2.3 BIC(Bayesian information criterion)信息准则

BIC信息准则起源于使用Bayes方法进行模型选择,它等价于选择具有最大后验概率的模型.

(4)

同样选择最小BIC值的调节参数来作为最优的调节参数估计;和AIC方法相比,BIC方法是渐近相容的,即当样本量趋于无穷时,BIC选择正确模型的概率趋向于1.

2.4 EBIC(extended Bayesian information criterion)信息准则

BIC信息准则是传统回归分析中最广泛使用的变量选择准则,然而在高维情形,BIC方法往往过于激进,常常选择过多错误的变量.基于此,文献[7]提出了一个适用于大p小n情形变量选择的扩展的Bayes信息准则族,可表示为:

(5)

这里,当γ=0时,就得到了传统的BIC方法.并且他们证明当p=O(nα),α>0时,在一定条件下EBIC就能一致地识别出真模型.

2.5 HBIC信息准则

在超高维(log(p)=O(nk),0

(6)

2.6 标准K折交叉验证

标准K折交叉验证是除了信息准则之外另一类最常用的调节参数估计方法,它通过数据重用来估计泛化误差,选择具有最小交叉验证估计的调节参数值,即

(7)

其中

2.7 组块3×2交叉验证

文献[14-15]在分析已有的标准K折交叉验证、5×2交叉验证[11-13]方法优缺点基础上提出了一种新的交叉验证方法——组块3×2交叉验证,同样通过对其最小化可以进行调节参数选择,即选择使下式达到最小的调节参数值

(8)

表1 组块3×2交叉验证Table 1 Block 3×2 cross-validation

3 实验对照

本节通过模拟实验把组块3×2交叉验证方法和其他常用的调节参数选择准则AIC、BIC、EBIC、HBIC方法以及标准K折交叉验证方法进行了对照.

3.1 实验设置和度量准则

为了进行方法的对照,给出均方误差的平均值(EMSE)作为评价指标:

(9)

在这里考虑EMSE以及它的方差.

3.2 实验结果

从表2和表3,可以看到传统的调节参数选方法AIC、BIC和5折交叉验证在五种维数情形都具有较大的EMSE值,EBIC方法在γ较小时EMSE值几乎是γ较大时的两倍甚至更大,HBIC方法在两个γ情形都具有较小的EMSE值.在小维数情形,组块3×2交叉验证和EBIC0.75、HBIC1.25方法有相似的EMSE值,如在p=200时,它们分别是2.000、1.990和1.948,在p=400为2.607、2.853和2.712.在大维数情形,HBIC1.25方法有最小的EMSE值,然后是EBIC0.75和组块3×2交叉验证方法.

表2 p=200,400时各调节参数选择方法的EMSETable 2 Tuning parameter selection methods on p=200 and p=400

在度量调节参数选择方法性能的时候, 我们不应该仅仅考虑其均值本身, 还应该考察它的方差. 表1和表2表明无论是小维数还是大维数情形, 我们的方法的标准差都是最小的. 组块3×2交叉验证方法的EMSE的标准差比除了HBIC1.25外的所有方法都至少减小了大约一半, 比HBIC1.25方法减小了大约百分之三十. 如 =1 000情形, 组块3×2交叉验证的标准差1.678比HBIC1.25的2.462减小32%. 进一步, 如果考虑EMSE的1标准差区间的话, 我们方法的区间长度在所有情形所有方法中都是最短的, 见表3. 例如, 在 =5 000的情形, AIC, BIC,HBIC0.25, EBIC0.5,EBIC0.75,EBIC1,EBIC1.25,5折交叉验证, 组块3×2交叉验证的区间长度分别是8.652, 8.652, 7.707, 5.770, 4.726, 4.726, 4.041, 5.195, 2.285.

表3 p=1 000,2 000,5 000时各调节参数选择方法的EMSETable 3 Tuning parameter selection methods on p=1 000,p=2 000 and p=5 000

然而, 无论是EBIC还是HBIC方法, 都存在着一个超参数γ的选择问题,不同的γ值选取将得到完全不同的结果.从某种意义上说,这相当于把一个参数的估计转化为了一个新参数的估计,并没有从真正意义上解决这个问题,同时增加了计算的复杂度.但组块3×2交叉验证方法不存在这样的问题,且它比传统的不需要超参数选择的AIC、BIC和5折交叉验证有显著小的EMSE性能.综合考虑,在进行高维回归下的调节参数选择时,我们的方法是可比的,是有其优势的.

表4 各调节参数选择方法的EMSE的1标准差区间Table 4 Standard deviation range of the tuning parameters selection methods' EMSE

[1] TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,Series B,1996,58:267-288.

[2] ZOU HUI.The adaptive lasso and its oracle properties[J].Journal of the American Statistical Association,2006,101:1418-1429.

[3] FAN J,LI R.Variable selection via nonconcave penalized likelihood and its oracle properties.Journal of the American Statistical Association,2001,96:1348-1360.

[4] ZOU H,HASTIE T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society,Series B,2005,67:301-320.

[5] ZOU H,ZHANG H.On the adaptive elastic net with a diverging number of parameters[J].The Annals of Statistics,2009,37:1733-1751.

[6] WANG H,LI B,LENG C.Shrinkage turning parameter selection with a diverging number of parameters[J].Journal of the Royal Statistical Society,Series B,2009,71:671-683.

[7] CHEN J,CHEN Z.Extended bayesian information criteria for model selection with large model spaces[J].Biometrika,2008,95:759-771.

[8] WANG T,ZHU L.Consistent tuning parameter selection in high sparse linear regression[J].Journal of Multivariate Analysis,2011,102:1141-1151.

[9] NADEAU C,BENGIO Y.Inference for the generalization error[J].Machine Learning,2003,52:3,239-281.

[10]BENGIO Y,GRANDVALET Y.No unbiased estimator of the variance of K-fold cross-validation[J].Journal of Machine Learning Research,2004,5:1089-1105.

[11]DIETTERICH T.Approximate statistical tests for comparing supervised classification learning algorithms[J].Neural Computation,1998,10:7,1895-1924.

[12]ALPAYDIN E.Combined 5×2 cv F test for comparing supervised classification learning algorithms[J].Neural Computation,1999,11:8,1885-1892.

[13]YILDIZ O.Omnivariate rule induction using a novel pairwise statistical test[J].IEEE Transactions on Knowledge and Data Engineering,2013,25:2105-2118.

[14]李济洪,王瑞波,王蔚林,等.汉语框架语义角色的自动标注研究[J].软件学报,2010,30(4):597-611.

[15]WANG Y,WANG R,JIA H,AND Li J.Blocked 3×2 cross-validated t-test for comparing supervised classification learning algorithms[J].Neural Computation,2014,26(1):208-235.

[16]家会臣,靳竹萱,李济洪.Logistic模型选择中三种交叉验证策略的比较[J].太原师范学院学报,2012,11:87-90.

[17]李济洪,胡军艳,王钰.预测误差的组块3×2交叉验证估计[J].生物数学学报,已录用.

[18]FAN J AND LV J.Sure independence screening for ultra-high-dimensional feature space[J].Journal of the Royal Statistical Society,Series B,2008,70:849-911.

Tuning Parameter Selection Based on Blocked 3×2 Cross-Validation in High Dimensional Regression

LI Ji-hong1,2, CHEN Meng-meng2, YANG Xing-li2

(1.Computer Center,Shanxi University,Taiyuan 030006,China;2.School of Mathematical Sciences,Shanxi University,Taiyuan 030006,China)

In the traditional regression model,the information criterions (AIC,BIC) and standard K fold cross-validation can identify the true model consistently as the commonly used tuning parameter selection methods.However,these criterions tend to fail when meeting high dimensional data.Recent research shows that the 2-fold cross-validation has some advantages on the computation complexity,model selection and comparisons of models' performances,especially the blocked 3×2 cross-validation newly proposed in the literature.Thus,we apply the blocked 3×2 cross-validation to the tuning parameter selection in high dimensional regression.First,the model dimension is reduced to a scale with smaller than sample size by ISIS method.Then,the dimension reduced model is further to be reduced dimention and estimated parameters by AENET.And the tuning parameter is selected by using the blocked 3×2 cross-validation.Taking all factors into consideration of the EMSE values,variance and computation complexity of various tuning parameter selection methods (AIC,BIC,EBIC,HBIC,5-fold cross-validation and blocked 3×2 cross-validation) in simulated experiments,the blocked 3×2 cross-validation method is comparable.

Tuning parameter selection; Blocked 3×2 Cross-Validation; EMSE criterion

2014-10-08

山西省科技基础条件平台建设资助项目(20130910030101).

李济洪(1964-),男,山西长治人,博士,教授,主要从事统计机器学习、统计自然语言处理方面研究.

O212.1

A

1007-9793(2015)03-0027-06

猜你喜欢

组块高维维数
有向图上高维时间序列模型及其在交通网络中的应用
β-变换中一致丢番图逼近问题的维数理论
组块理论的解读及启示
融入注意力机制的越南语组块识别方法
实值多变量维数约简:综述
组块构词法研究
高维洲作品欣赏
基于矩阵模型的高维聚类边界模式发现
陆丰7-2油田导管架平台上部组块低位浮托安装关键技术
基于随机森林算法的高维模糊分类研究