APP下载

一种针对区间型数据的新主成分分析法

2016-07-22侯自盼李生刚

纺织高校基础科学学报 2016年2期

侯自盼,李生刚

(陕西师范大学 数学与信息科学学院,陕西 西安 710119)



一种针对区间型数据的新主成分分析法

侯自盼,李生刚

(陕西师范大学 数学与信息科学学院,陕西 西安 710119)

摘要:为了减少数据信息的损失,采用推迟区间型数据转换为数值型数据的方法,提出一种针对区间型数据的新的主成分分析方法.它和已有方法的区别在于协方差矩阵和相关矩阵的元素是区间数(从而相关的特征值和特征向量的元素也是区间数).最后用实例验证了该方法的优越性.

关键词:区间型数据;主成分分析方法;相关矩阵

0引言

主成分分析(PCA, Principal Component Analysis)是一种通过降维技术将多个变量化为少数几个主成分(即综合变量)的统计分析方法.传统的主成分分析方法是针对数值型数据样本的.而在实际中,由于观测误差、不确定判断和符号数据类型等原因,经常会遇到用区间数表示的样本观测值.近年来,许多学者对区间数据的PCA进行了研究,主要成果是基于顶点的PCA方法(V-PCA)[1-2]、基于中心点的PCA法(C-PCA)[1-2]、基于中点-半径的PCA法(MR-CPA)[3]、基于符号特征的PCA法(S-PCA)[4]和其他一些针对特殊类型的区间数的PCA法[5].这些方法的共同特点是尽早地将区间型数据数值化(即转换为数值型数据),造成一定的信息丢失.本文采用推迟区间型数据转换为数值型数据的方法对此加以改进:根据区间数的加减运算方法来定义区间矩阵的运算,依照区间矩阵的运算方法求区间型数据样本的协方差矩阵和样本相关矩阵,依据文献[6]的结果(即下面的定理1)求得样本协方差矩阵和样本相关矩阵的特征值和特征向量.由于该特征值也是区间数,因此贡献率的计算也重新定义,并由此得到了一种新的主成分分析方法.从理论方面可以看出,该方法在处理信息时尽量把所有的数据都考虑进去,避免数据信息的缺失.实例也证实了该主成分分析方法的有效性.

1基本概念与理论

1.1区间数的运算、排序及区间矩阵

称由实数组成的闭区间[x-,x+]为一个区间数;本文将闭区间[x,x]与实数x不加区分,因此将实数也视为区间数.称分量是区间数的向量X=(X1,X2,…,Xn)T为区间向量,称元素Aij是区间数的矩阵A=(Aij)m×n为区间矩阵.区间数的四则运算定义为[6]

[a,b]+[c,d]=[a+c,b+d],[a,b]-[c,d]=[a-d,b-c],

[a,b]×[c,d]=[min{ac,bd,bc,ad},max{ac,bd,bc,ad}],

由此可知,当c为实数时,

给定两个m×n区间矩阵

A=(Aij)m×n=([aij,bij])m×n,B=(Bij)m×n=([cij,dij])m×n,

其和、差运算定义为

A+B=(Aij+Bij)m×n=([aij+cij,bij+dij])m×n,A-B=A+(-B)=([aij-dij,bij-cij])m×n;

1.2区间矩阵的特征值和特征向量

1.3多元离散型样本协方差矩阵的性质

设X(1),X(2),…,X(n)为取自总体x=(x1,x2,…,xp)的n个样本,xij为第i个样本对变量xj的观测值(j=1,2,…,p),则样本矩阵可以表示为

定理2样本协方差矩阵S是半正定矩阵[7-8].

定理3R是半正定矩阵(即数据标准化不改变协方差矩阵的半正定性)[8].

证明因为var(Xi)>0(i=1,2,…,m;1≤m≤p),所以有

这时由定理2知R是半正定矩阵.

1.4主成分分析方法

2区间主成分分析方法

为区间样本矩阵.

X的协方差矩阵和相关矩阵分别定义为S=(sij)p×p和R=(rij)p×p,其中

下面将给出求主成分的两种方法,它们分别是从样本协方差矩阵和样本相关矩阵出发求解的.

2.1从样本协方差矩阵S出发求主成分

目前已有的区间主成分分析的思路是通过端点、中点把每一个样本想象成一个存在于空间中的超矩阵,把样本区间矩阵转化为普通的数值型数据,然后按照传统的主成分分析方法计算其样本协方差矩阵的特征值和特征向量,得到主成分.本文将先通过区间矩阵的运算求其样本协方差矩阵,然后利用定理1得到样本协方差矩阵的特征值和特征向量,进而得到主成分.已有方法得到的特征值和特征向量的分量是实数,而本文得到的特征值和特征向量的分量是区间数.已有方法求主成分的过程是按照传统的主成分分析方法计算的,所以贡献率、累计贡献率也是按照传统的计算公式得到,而本文中特征值是区间数,这里对贡献率、累计贡献率的计算公式是重新给出的.

2.2从相关矩阵R出发求主成分

2.3从R出发求主成分和样本排名的算法

取定α∈(0,1),算法步骤如下:

(4) 利用定理1求出rij的特征值和特征向量.

(8) 对选择的每一个主成分进行解释.

3实例分析

以文献[10]中的数据为例进行分析.区间样本数据如表1所示.

表 1 区间样本数据表

由于S中主对角线元素差异较大,因此从样本的相关矩阵R出发进行主成分分析.并由Matlab计算可以得到

由定理1可知,可以用Matlab[11-12]计算出特征值和特征向量,见表2.

表 2 相关矩阵R的前2个特征值和特征向量

这里从相关矩阵进行主成分分析.从表2可以看出,前2个主成分的累计贡献率已达到91.619%,而文献[10]中的累计贡献率只达到88.52%,因此可以考虑只取前面两个主成分,它们已能够很好地概括这组数据.

由于第一个主成分对所有变量都有近似相等的载荷,因此可认为是对所有变量的度量.而第二主成分在变量x3和变量x4上有较高的正载荷,而在变量x1和变量x2存在很小的正载荷,可以认为这个主成分是用于度量变量x3和变量x4在样本变化上占的比重.

4结束语

本文提出了一种针对区间数据的主成分分析方法,在求解主成分的过程中一直根据区间数的运算进行计算.将用该方法选取的主成分和利用V-PCA方法选取的主成分进行了比较,结合实例说明该方法的累计贡献率更高.

致谢:在本文的选题、定稿过程中,硕士研究生陈晔、鄂建伟、杨小燕以及本科生徐兴全、田鹏、任珍珍、李文灿、李文达、曹富媛、艾鹏程参加了讨论并且提出了有益的建议,在此一并致谢.

参考文献(References):

[1]CAZESP,CHOUAKRIAA,DIDAYE,etal.Extensiondel′analyseencomposantesprincipalesdesàdonnéesdetypeintervalle[J].RevuedeStatisqueApplique,1997,45(3):5-24.

[2]LAURONC,PALUMBOF.Principalcomponentsanalysisofintervaldata:Asymbolicdataanalysisapproach[J].ComputationalStatistics,2000,15(1):73-87.

[3]PIERPAOLOD,PAOLOG.Aleastsquaresapproachtoprincipalcomponentanalysisforintervaldata[J].ChemometricsandIntelligentLaboratorySystems,2004,70(2):179-192.

[4]PALUMBOF,LAURONC.APCAforinterval-valueddatabasedonmidpointsandradii[C]//NewDevelopmentsinPsychometrics,Berlin:Springer-Verlag,2003.

[5]GIORDANIP,KIERSHAL.Three-wayprincipalcomponentanalysisofintervalvalueddata[J].JournalofChemometrics,2004(18):253-264.

[6]陈塑寰,邱志平,宋大同,等.区间矩阵标准特征值问题的一种解法[J].吉林工业大学学报,1993,23(3):1-8.

CHENSuhuan,QIUZhiping,SONGDatong,etal.Amethodtosolvestandardegienvalueproblemofintervalmatrixs[J].JournalofJilinUniversityofTechnology,1993,23(3):1-8.

[7]MOORSERE.Methodandapplicationsofintervalanalysis[M].Pliladelphia:SIAM,1979.

[8]缪建群.多元离散型样本协方差阵的正定性[D].贵州:贵州大学,2006.

MIUJianqun.Thepositivedefinitenessofcovariancematricesofmultiplediscretesamples[D].Guizhou:GuizhouUniversity,2006.

[9]王学民.应用多元分析[M].上海:上海财经大学出版社,2009.

WANGXuemin.Appliedmultivariateanalysis[M].Shanghai:ShanghaiUniversityofFinanceandEconomicsPress,2009.

[10]李汶华,郭均鹏.区间主成分分析方法的比较[J].系统管理学报,2008,17(1):94-98.

LIWenhua,GUOJunpeng.Comparisonsofintervalprincipalcomponentanalysismethods[J].JournalofSystemsManagement,2008,17(1):94-98.

[11]陈仲生.基于Matlab7.0的统计信息处理[M].长沙:湖南科学技术出版社,2005.

CHENZhongsheng.StatisticalinformationprocessingbasedonMatlab7.0[M].Changsha:HunanScienceandTechnologyPress,2005.

[12]何正风.MATLAB概率与数理统计分析[M].北京:机械工业出版社,2012.

HEZhengfeng.MATLAB——Probabilityandmathematicalstatisticsanalysis[M].Beijing:MechanicalIndustryPress,2012.

编辑:武晖;校对:师琅

文章编号:1006-8341(2016)02-0184-06

DOI:10.13338/j.issn.1006-8341.2016.02.009

收稿日期:2015-09-14

基金项目:陕西省自然科学基金资助项目(2010JM1005);陕西师范大学研究生教学改革与研究项目(GERP-14-04)

通讯作者:李生刚(1959—),男,陕西省神木县人,陕西师范大学教授,博士生导师,研究方向为格上拓扑与拟阵.

中图分类号:O 212.4

文献标识码:A

A new principal component analysis method for interval data

HOUZipan,LIShenggang

(College of Mathematics and Information Science, Shaanxi Normal University,Xi′an 710119,China)

Abstract:To diminish loss of data, a new principal component analysis method for interval data is proposed by postpone the transformation from interval-type data to ordinary data. The method differs from existing methods in the location of factors (i.e. interval numbers) of the covariance matrix and the correlation matrix and thus their eigenvalues and eigenvectors. Examples are presented in the final part to illustrate the advantages of this method.

Key words:interval data;principal component analysis;correlation matrix

E-mail:shengganglinew@126.com

引文格式:侯自盼,李生刚.一种针对区间型数据的新主成分分析法[J].纺织高校基础科学学报,2016,29(2):184-189.

HOU Zipan,LI Shenggang.A new principal component analysis method for interval data[J].Basic Sciences Journal of Textile Universities,2016,29(2):184-189.