APP下载

迭代的稳健超高维变量筛选

2018-03-21何晓群马学俊

统计与决策 2018年1期
关键词:因变量位数正态分布

何晓群,马学俊

(1.安康学院 数学与统计学院,西安 725000;2.中国人民大学 应用统计科学研究中心,北京100872;3.北京工业大学 应用数理学院,北京 100124)

0 引言

随着科学技术的发展,超高维数据越来越多出现在遗传、基因芯片、磁共振成像、信用评分等领域。由于计算成本、统计精度和算法稳定性等原因,传统的处理高维的方法表现并不理想。为此,Fan和Lv(2008)[1]基于Pearson相关系数提出SIS(Sure Independent Screening)。但SIS也存在明显的缺点:(1)不能刻画自变量和因变量非线性的关系;(2)对异常值比较敏感。这个问题最早由Garher和Guddat在讨论Fan和Lv(2008)[1]的SIS文章讨论中提出,即SIS对于模型假设和异常值(Outliers)不稳健。SIS自2008年提出,目前已从线性模型推广到广义线性模型、可加模型、变系数模型和模型释放(Model-free)等(Fan等2009,2010,2011,2014;Liu等2014)[2-6]。本文主要研究模型释放的超高维变量筛选。

模型释放不需要假设具体模型。Zhu等(2011)[7]提出SIRS研究了模型假设的释放,其通过离散化Y实现释放模型假设的效果。Li和Wei等(2012)[8]基于距离相关系数提出DC-SIS,该方法释放了模型的假设,并且也适合组变量的变量筛选。Li等(2012)[9]基于Kendall相关系数提出RRCS(Robust Rank Correlation Screening),该方法对于厚尾分布、离群点和强影响点具有一定的抵抗力。Shao和Zhang(2014)[10]基于鞅差距离(Martingle Difference Correlation)提出MDC-SIS方法。Ma和Zhang(2016)[11]基于分位数相关系数(Quantile Correlation)提出一种新的方法(QC-SIS)。如果不重要的自变量和重要的自变量高度相关,而其他重要变量和因变量的关系比较弱时,或者存在某一些自变量单独对因变量的影响不大,而他们联合起来对因变量影响比较显著;那么前面提到方法将不能胜任。Fan和Lv(2008)[1]提出迭代的SIS方法,即ISIS,但它不能解决自变量和因变量之间的非线性,且对异常值比较敏感。Zhu等(2012)[4]提出迭代的SIRS,即ISIRS。该方法可以解决非线性问题和异常值问题,但利用对数据的信息利用不充分。Zhong和Zhu(2014)[12]提出迭代(Iterative)的DC-SIS,即DC-ISIS。该方法对于异常值比较敏感。如何更加有效的利用数据,实施迭代稳健的超维高模型释放变量筛选方法是目前研究的热点和难点。

本文在Ma和Zhang(2016)[11]的研究基础上提出迭代(Iterative)的QC-SIS,即QC-ISIS。相比ISIS,提出的方法更稳健,并且可以刻画自变量和因变量的非线性关系。相比ISIRS和DC-ISIS,提出的方法更加有效。因为QC-ISIS充分利用了数据的信息,即不仅利用了因变量的离散信息和自变量信息,也利用了因变量的分位数信息。而DC-ISIS利用距离相关系数,对异常值不稳健。

1 方法

1.1 基于分位数相关系数的变量筛选

假设Y是因变量,X=(X1,X2,…,Xp)T是p维自变量。F(y|x)=P(Y|X=x)表示给定x下X1的条件分布。为了方便,作下记号:

A={k,F(y|x)依赖于Xk}

I={k,F(y|x)不依赖于Xk}

Ma和Zhang(2016)[11]利用分位数相关系数提出的QC-SIS是求下面集合:

={1≤k≤p,排在最靠前面的d个}

其中d=[n/log(n)]或n-1等([a]表示是a的整数部分),wk的定义是:

其中假设Xk已经标准化,即均值为0,方差为1。0<τ1≤τ2≤…≤τn<1是分位点,一般设

1.2 迭代的QC-SIS

与Zhu等(2011)[7]和Zhong和Zhu(2014)[12]类似,本文采用下面迭代算法:给定d。

第一步:利用QC-SIS得到选择前p1<d个自变量集合,记为1;对应的自变量集合记为XA1。第二步:使用下面方法得到新的自变量:

第三步:重复第二步可以得到3、4等,直到d=||1||+||2||+ … +||||。其中 ||H||表示H的条件数。或者说d=p1+p2+…+pL。

需要注意的是:

(1)d一般是事前给定的,如[n/log(n)]。

(2)QC-ISIS之所以可以解决重要变量和因变量的关系比较弱或者联合自变量变量筛选问题,因为第二步中对自变量进行了变换使得信息不会重复,即与是正交的,因为:

(3)L的选择具有一定的主观性。Zhu等(2011)[7]认为L=2且p1=d/2;Zhong和Zhu(2014)[12]建议L=2且p1=5。本文在模拟试验和实例分析中采用前一个准则。

2 Monte Carlo模拟

本文将通过数值模拟评价QC-ISIS的效果。设置d=[n/log(n)],n=200,p=2000,重复模拟1000次。为了评价QC-ISIS与ISIS、ISIRS、DC-ISIS以及它们的非迭代方法,使用如下指标:

(1)Bj表示给定d包含Xj被选中的比例。

(2)B表示给定d所有显著自变量全部被选中的比例。

例1:与Fan和Li(2008)[1],以及Zhu等(2011)[7]类似,考虑如下的线性模型:

其中β=2-U且U是来自于(0,1)区间的均匀分布。σ=0.5 ,X~N(0,Σ),Σ=(σij)。其中(1)σii=1,i=1,2,i≠j。ε来自于如下两种分布:标准正态分布和自由度为3的t分布。为了比较8种方法对于异常值的敏感程度,本文在自变量X1上随机添加r百分比例的异常值

从表 1和表 2,可以看出:(1)QC-SIS、SIS、SIRS和DC-SIS对于X1、X2和X3的效果很好,但对于X4均失效。而QC-ISIS、ISIS、ISIRS和DC-ISIS对X1、X2、X3和X4效果都很好。(2)对于自变量X1、X2和X3的识别,迭代的方法仍优于非迭代的方法。其主要原因是第一步没有选出的,往往第二步可能被选出。(3)SIS、DC-SIS、ISIS和DC-ISIS对异常值比较敏感,而QC-SIS、SIRS以及它们的迭代方法对于异常值有一定的稳健性。(4)无论是否存在异常值时,QC-SIS表现都很好,均优于其他方法。综合来看,QC-ISIS表现优于ISIS、ISIRS和DC-ISIS。

表1 例1正态分布下的模拟结果

表2 例1 t(3)分布下的模拟结果

例2:与Zhu等(2011)[7]类似,考虑如下的转换模型:

为了在自变量X1上随机添加r百分比例的异常值其设置与例1一样。

从表3和表4(见下页)可以看出:(1)SIS、DC-SIS以及它们的迭代算法不适合转换模型,对异常值比较敏感。(2)对于单个自变量的判断,QC-SIS优于SIRS。(3)对于迭代的算法,QC-ISIS显著优于ISIRS。而非迭代时,它们的差距不会超过5%,而迭代方法几乎超过10%。综合来看,对于转换模型,QC-ISIS最好,ISIRS其次,ISIS最差。

3 结论

本文研究了迭代的QC-SIS。它可以解决不重要的自变量和重要的自变量高度相关,而其他重要变量和因变量的关系比较弱;或存在某一些自变量单独对因变量的影响不大,而他们联合起来对因变量影响比较显著等问题。从模拟的线性模型和转换模型结果来看,QC-ISIS优于ISIS、ISIRS和DC-ISIS。

表3 例2正态分布下的模拟结果

表4 例2 t(3)下的模拟结果

[1]Fan J,Lv J.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society,Ser.B,2008,70(5).

[2]Fan J,Samworth R,Wu Y.Ultrahigh Dimensional Feature Selection:Beyond the Linear Model[J].Journal of Machine Learning Research,2009,(10).

[3]Fan J,Song R.Sure Independence Screening in Generalized Linear Models With NP-dimensionality[J].The Annals of Statistics,2010,38(6).

[4]Fan J,Feng Y,Song R.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Additive Models[J].Journal of the American Statistical Association,2011,106(494).

[5]Fan J,Ma Y,Dai W.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Varying Coefficient Models[J].Journal of the American Statistical Association,2014,109(507).

[6]Liu J,Li R,Wu S.Feature Selection for Varying Coefficient Models With Ultrahigh-dimensional Covariates[J].Journal of the American Statistical Association,2014,109(505).

[7]Zhu L,Li L,Li R,et al.Model-free Feature Screening for Ultrahigh Dimensional Data[J].Journal of the American Statistical Association,2011,106(496).

[8]Li R,Wei Z,Zhu L.Feature Screening via Distance Correlation Learning[J].Journal of the American Statistical Association,2012,107(499).

[9]Li G,Peng H,Zhang J,et al.Robust Rank Correlation Based Screening[J].The Annals of Statistics,2012,40(3).

[10]Shao X,Zhang J.Martingale Difference Correlation and Its Use in High Dimensional Variable Screening[J].Journal of the American Statistical Association,2014,109(507).

[11]Ma X,Zhang J.Robust Model-free Feature Screening via Quantile Correlation[J].Journal of Multivariate Analysis,2016,(143).

[12]Zhong W,Zhu L.An Iterative Approach to Distance Correlation-based Sure Independence Screening[J].Journal of Statistical Computation and Simulation,2015,85(11).

猜你喜欢

因变量位数正态分布
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
关于n维正态分布线性函数服从正态分布的证明*
连续自然数及其乘积的位数分析
生活常态模式
偏对称正态分布的若干性质
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛
正态分布及其应用
比大小有窍门