APP下载

基于TL1罚的稀疏主成分分析

2017-01-17任佳佳李海洋

纺织高校基础科学学报 2016年4期
关键词:贡献率方差个数

任佳佳,李海洋,张 倩

(西安工程大学 理学院,陕西 西安 710048)

基于TL1罚的稀疏主成分分析

任佳佳,李海洋,张 倩

(西安工程大学 理学院,陕西 西安 710048)

在稀疏主成分分析的基础上,用TL1罚替代稀疏主成分分析中的L1罚,提出TL1罚稀疏主成分分析,并给出TL1罚稀疏主成分分析的阈值迭代算法.最后,以蔬菜选择为例进行数值模拟,结果表明TL1罚稀疏主成分分析效果更优.

稀疏主成分分析;TL1罚;阈值迭代算法

0 引 言

主成分分析[1]是考察多个变量间相关性的一种多元统计方法,通过几个主成分来揭示多个变量间的内部结构,即从原始变量中导出几个主成分,使其尽可能多地保留原始变量的信息,且彼此间互不相关. 该方法被广泛应用于金融、经济、管理等领域[2-5]. 但通过主成分分析所得的每个主成分为所有原始变量的线性组合,使所得主成分难于解释,而解决实际问题时,有时只需考虑与主成分关系比较密切的一些原始变量. 为了凸显主成分和原始变量的关系,一些学者将稀疏性引入主成分分析. 2003年,Jolliffe受Lasso[6]的启发,将L1罚引入主成分[7],提出了模型

(1)

该模型实现主成分对原始变量的自动选择,保留与主成分关系密切的原始变量,剔除与主成分关系不密切的原始变量. 2005年,Zou[8]等将模型(1)中主成分的求解问题直接转化为Lasso回归问题,有效地把主成分的求解转化为线形模型的变量选择问题. 但当观测变量的个数远远大于样本的个数时,通过L1罚所得的解过于稀疏,导致大量信息被损失. 为了克服该缺点,Zou将“elastic net”惩罚结构引入主成分,提出了稀疏主成分分析[9]. 其模型为

(2)

其中,A是通过主成分分析得到的前k个主成分的系数组成的矩阵,βj为矩阵B中第j列.

稀疏主成分分析具有L1罚和L2罚的优点,能凸显所得主成分与原始变量的关系,并有效解决变量个数大于样本个数的优化问题. 在稀疏主成分分析中,L1罚是保证所得主成分系数稀疏,L2罚是为了克服当样本量小于变量个数时,所得的主成分系数过稀疏的缺点. 一些学者将稀疏主成分分析应用到综合评价、股票研究及其他方面[10-12],取得较好的效果. 然而,基于L1罚的优化问题仍存在至少两方面的不足:第一,数据之间可能存在很大的冗余难以去除;第二,无法区分稀疏尺度的位置,即会出现低尺度的能量转移到高尺度的现象,因而易出现高频震荡现象.

本文将TL1罚应用于稀疏主成分分析,即用TL1罚替代稀疏主成分分析中的L1罚,对稀疏主成分分析进行改进,以克服基于L1罚优化问题的不足,并给出优化模型.然后通过2-范数的性质把TL1罚稀疏主成分分析的求解进行转化.最后利用阈值迭代算法对优化问题(4)进行求解,并将该方法应用到蔬菜选择实例中,结果表明TL1罚稀疏主成分分析具有效果更优.

1 TL1罚稀疏主成分分析

(3)

其中,Yi是第i个主成分,λ1,λ2,a是参数.

利用2-范数的性质,TL1罚稀疏主成分分析可转换为

(4)

为了求解优化问题(4),利用文献[15-16]中提出的阈值迭代算法,给出该问题的阈值迭代函数,即

其中,

下面,给出TL1罚稀疏主成分分析的阈值迭代算法,具体步骤如下:

(1) 对原始数据进行主成分分析,并按方差累计贡献率提取k个主成分;

(2) 初始化:将第i主成分的系数初始为x0,给一个合适的a,ε,μ0;

(3) 计算zn=Bμ(xn)=xn+μAT(y-Axn),令λ2=λ0,μ=μ0;

(5) 重复步骤(3)~(4),当|xn+1(i)-xn(i)|<ε,或n>3 000时,停止迭代,输出xn+1.

2 数值模拟

对研究数据(2014年数学建模D题中常见蔬菜营养成分表中数据)进行处理,将蔬菜的种类作为样本,蔬菜中所含的各种膳食纤维的含量作为变量,分别进行主成分分析、稀疏主成分分析和TL1罚稀疏主成分分析.分析时,按方差累计贡献率的80%来提取主成分,提取主成分的个数为4. 在此基础上,利用阈值迭代算法对所提取的主成分进行稀疏主成分分析,得到稀疏主成分对应的系数矩阵及相应的方差贡献率,如表1所示.

表 1 稀疏主成分的系数矩阵和方差贡献率

稀疏主成分形式为

(5)

其中,Fi为第i个主成分,αi为第i个主成分的系数,i=1,2,3,4,x=(x1,x2,…,x16)′.

由表1和式(5)可知,稀疏主成分分析的稀疏性表现在稀疏主成分的系数上,系数中零的个数越多,稀疏主成分越稀疏.

由得到的稀疏主成分和方差贡献率,可以得到稀疏主成分分析的模型为

F=0.531F1+0.209F2+0.135F3+0.125F4.

利用TL1罚稀疏主成分分析的阈值迭代函数对主成分分析的主成分进行处理,得到TL1罚稀疏主成分对应的系数及相应的方差贡献率,如表2所示.

表 2 TL1罚稀疏主成分分析的系数矩阵和方差贡献率

TL1罚稀疏主成分的形式为

与表1相同,表2中主成分具有稀疏性,且零的个数越多,稀疏主成分越稀疏.由表1和表2可知,稀疏主成分分析和TL1罚稀疏主成分分析都具有稀疏性,且两者稀疏性基本相同,但在方差累计贡献率方面,TL1罚稀疏主成分分析略高于稀疏主成分分析.

根据所得的稀疏主成分和方差贡献率,可以得到TL1罚稀疏主成分分析的模型为

由上述所得的两种模型,根据常见蔬菜各种膳食纤维营养的含量,计算每种蔬菜的各主成分得分,再利用主成分分析(PCA)、稀疏主成分分析(SPCA)和TL1罚稀疏主成分分析(TLPCA)的主成分模型对已知的蔬菜主成分得分进行排序.结果如表3所示.

由表3可知,主成分分析、稀疏主成分分析和TL1罚稀疏主成分分析对蔬菜的排序结果相差不大.其中,排名前五的蔬菜均为蘑菇、榨菜、木耳、香菇和茄子.

表 3 3种分析方法的主成分得分排序

3 结束语

[1] 何晓群.现代统计分析方法与应用[M].第三版.北京:中国人民大学出版社,2004:115-141.

HE X Q.Method and application of modern statistical analysis[M].3 ed.Beijing:China Renmin University Press,2004:115-141.

[2] 李靖华,郭耀煌.主成分分析用于多指标评价的方法研究——主成分评价[J].管理工程学报,2002,16(1):39-44.

LI J H,GUO Y H.Principal component evaluation——A multivariate evaluate method expanded from principal component analysis[J].Journal of Industrial,2002,16(1):39-44.

[3] 侯圆圆,王礼李.基于主成分分析基础上的中国家庭蔬菜消费预测[J].统计与决策,2010(23):91-93.

HOU Y Y,WANG L L.Base on principal component analysis on the basis of Chinese family vegetable consumption forecast[J].Statistics and Decision,2010(23):91-93.

[4] 李莉,孙永霞.基于均值化主成分分析的雾霾环境分析与研究[J].计算机应用研究,2015,32(5):1373-1375.

LI L,SUN Y X.Haze environment analysis and research based on equalization of principal component analysis[J].Application Research of Computers,2015,32(5):1373-1375.

[5] 赵希男.主成分分析法评价功能浅析[J].系统工程,1995,13(2):24-27.

ZHAO X N.Analysis of the evaluation effect on the principal component analysis method[J].Systems Engineering,1995,13(2):24-27.

[6] TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society:Series B(Methodological),1996,58(1):267-288.

[7] JOLLIFFE I T,TRENDAFILOV N T,UDDIN.A modified principal component technique based on the LASSO[J].Journal of Computational and Graphical Statistics,2003,12(3):531-547.

[8] ZOU H,HASTIE T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B(Statistical Methodilogy),2005,67(2):301-320.

[9] ZOU H,HASTIE T,THBSHIRANI R.Sparse principal component analysis[J].Journal of Computational and Graphical Statistics,2006,15(2):265-285.

[10] 喻胜华,张新波.稀疏主成分在综合评价中的应用[J].财经理论与实践,2009,30(161):106-109.

YU S H,ZHANG X B.The application of sparse principal component analysis in comprehensive assessment[J].The Theory and Practice of Finance and Economics,2009,30(161):106-109.

[11] 周静.武忠祥.基于稀疏主成分的股票指数追踪研究[J].工程数学学报,2013,30(2):159-168.

ZHOU J,WU Z X.Research of tracking stock index with sparse principal component[J].Chinese Journal of Engineering Mathematics,2013,30(2):159-168.

[12] 沈宁敏,李静,周培云,等.一种基于稀疏主成分的基因表达数据特征提取方法[J].计算机科学,2015,42(6A):453-458.

SHEN N M,LI J,ZHOU P Y,et al.Feature extraction method based on sparse component for gene expression data[J].Computer Science,2015,42(6A):453-458.

[13] NIKOLOVA M.Local strong homogeneity of a regularized estimator[J].SIAM J Appl Math,2000,61(2):633-658.

[14] LYU J,FAN Y.A unified approach to model selection and sparse recovery using regularized least squares[J].Annals of Statistics,2009,37(6A):3498-3528.

[15] 常象宇,饶过,吴一戎,等.如何在压缩感知中正确使用阈值迭代算法[J].中国科学,2010,40(1):1-12.

CHANG X Y,RAO G,WU Y R,et al.How to correct use in compression perception thresholding iterative algorithm[J].Science in Chinese,2010,40(1):1-12.

[16] ZHANG S,XIN J.Minimization of transformedL1penalty:Theory difference of covex function algorithm,and robust application in compressed sensing[J].Cornell University Library,arXiv:1411.5735.

编辑、校对:师 琅

Sparse principal component analysis based on transformedL1penalty

RENJiajia,LIHaiyang,ZHANGQian

(School of Science, Xi′an Polytechnic University, Xi′an 710048, China)

TransformedL1penalty sparse principal component analysis was proposed by replacingL1penalty with transformedL1penalty based on sparse principal component analysis, and a thresholding iteration algorithm was given for transformedL1penalty sparse principal component analysis. Finally, taking vegetable selection as an example, the numerical simulation results show that transformedL1penalty sparse principal component analysis performs better.

sparse principal component analysis;transformedL1penalty; iterative thresholding algorithm

1006-8341(2016)04-0478-06

10.13338/j.issn.1006-8341.2016.04.011

2016-04-18

国家自然科学基金资助项目 (11271297);陕西省自然科学基金资助项目(2015JM1012)

李海洋(1975—),男,陕西省富平县人,西安工程大学教授,博士,研究方向为稀疏信息处理,量子逻辑及格上拓扑学.E-mail:fplihaiyang@126.com

任佳佳,李海洋,张倩.基于TL1罚的稀疏主成分分析[J].纺织高校基础科学学报,2016,29(4):478-483.

REN Jiajia, LI Haiyang,ZHANG Qian.Sparse principal component analysis based on transformedL1penalty[J].Basic Sciences Journal of Textile Universities,2016,29(4):478-483.

O 213

A

猜你喜欢

贡献率方差个数
怎样数出小正方体的个数
概率与统计(2)——离散型随机变量的期望与方差
一种通用的装备体系贡献率评估框架
怎样数出小木块的个数
最强大脑
怎样数出小正方体的个数
关于装备体系贡献率研究的几点思考
方差生活秀
揭秘平均数和方差的变化规律
方差越小越好?