APP下载

关于二阶PLS-PM模型中权重估计算法的探讨

2011-03-09

统计与决策 2011年13期
关键词:区组二阶权重

赵 萍

(1.中国人民大学 统计学院,北京 100872;2.澳门大学 科技学院数学系,澳门 3001)

0 引言

二阶PLS-PM模型 (PLS Path Model)首先由H.Wold(1982)提出模型的基本设计。Lohmoller(1989)列出了各种外、内权重估计模式组合,以及得到的不同结果。2001年C. Guinot(2001)将PLS-PM模型与复数据表分析相结合构建二阶PLS-PM模型,并将其应用于法国女性的化妆品使用习惯中。王惠文(2004),鲜思东(2010),,叶明(2010),阮敬(2006),刘旭华(2008)将其应用于(在多个领域)建立综合评价指数,都采用了外部权重估计模式A及内部权重估计重心模式C对模型进行估计,结果是各个一阶潜变量均被赋予了相同的内部权重,各个显变量也被赋予了几乎“相同”的外部权重。正如王惠文在文中所指出,“在实际问题的评估中,代表不同概念的变量组其重要程度是不一样的,应该具有不同的权重”,并建议对此做进一步研究。为此,本文将着重对二阶PLS-PM模型在实际应用中的权重估计算法模式选择问题进行研究:首先讨论不同权重估计算法模式的统计意义,以便应用时能正确地作出选择。由于权重估计模式组合不同,模型的优化目标及作用不同,分析说明的问题也就不同,如果不能正确选择,导致结果可能与预期不符。其次,讨论各种权重估计模式组合下,模型不同的优化结果。然后,采用蒙特卡罗模拟方法证明,在二阶PLSPM模型中,采用模式A得到的权重有严重的趋同现象,不能很好地反映实际问题中的信息差别。而模式B得到的权重具有反映相对贡献的效果,具有实际应用价值。模式A估计的参数较稳定;模式B估计的参数稳定性不如模式A,但在一定条件下可以通过参数检验。

1 二阶PLS-PM模型简介

1.1 模型的基本设定

二阶PLS-PM模型由外部区组模型与内部递阶结构模型两部分组成 (详见 H.Wold 1982,,Lohmoller 1989,C. Guinot 2001)。假设对J个区组的显变量Xj={xj1,…,xjk,…xjkj}均有n个样本观测值,所有显变量xjk都是中心化的变量。每一区组显变量Xj的所有信息通过其一阶潜变量ηj来传递,即有外部区组模型①外部区组模型没有“构成型”模型,只有唯一的“反映型”外部模型(1)(H.Wold,1982),但在模型估计算法中,外部模型有模式 A(向外虚线表示)和 模式B(向内虚线表示)两种外部权重估计算法。使用模式B外部权重估计算法并不等于“构成型模型”。不可将模型和模型的估计算法相混淆。模型不同的权重估计模式决定了模型不同的优化目标。:

J个区组的一阶潜变量ηj之间并非完全独立,却又没有特定的因果关系,但存在公共结构/内在关联。设定内部结构模型,目标是用二阶潜变量ξ来概括/反映一阶潜变量ηj之间的公共结构/内在关联信息。内部递阶结构模型 (即一阶LVηj与二阶LVξ之间的模型)形式有两种选择。外散二阶模型(由二阶LVξ指向一阶LVηj)有J个内部模型关系;内收二阶模型 (由一阶ηj指向二阶ξ)有一个内部模型关系(H. Wold,1982)。如果二阶ξ为构成型LV,一阶ηj为其构成要素,而且我们的研究目标是用二阶ξ来概括一阶ηj(或通过一阶预测二阶ξ),应选择二阶内收结构模型:

图1 二阶pls-pm模型设定图(模型设定图用实线表示)

如果二阶ξ为反映型LV,一阶ηj为其反映指标,应选择二阶外散结构模型:

分别对(1)、(2a)、(2b)模型做条件期望假设。

1.2 权重估计算法的基本设定

辅助估计关系:H.Wold(1982)提出,重复使用MVs来估计二阶PLS路径模型,如图2所示。所有MVs都用两次,一次用作ηj的指标,一次用作ξ的辅助指标并放在ξ的后面。

图2 PLS-PM权重估计算法设定图(估计算法设定图用虚线表示)

二阶PLS-PM模型一方面可以直接求出各阶潜变量LVs得分估计值,并确定各个显变量MV对构建一阶LV的贡献及一阶LV对构建二阶LV的贡献;另一方面,二阶LV既对所有原始显变量的代表性最好,又可以由所有一阶潜变量进行解释,可以作为概括原始显变量信息的综合指标。然而,对同一个二阶外散/内收模型,有12种权重估计算法模式组合(外部关系与辅助关系有AA、AB、BA、BB,内部有C、F、P),不同的权重估计模式组合会得到不同的模型估计结果。

2 各种权重估计算法模式的统计意义及其选择原则

2.1 外部权重估计算法模式A、B的统计意义

每一个LV的外部权重估计有两种算法选择:模式A及模式B。外部权重估计算法模式的选择是模型估计的关键,它决定了模型的优化目标。下面对这两种算法模式A、B的统计意义进行较为详细的阐述。

为了得到潜变量LV的外部估计值,即一阶LV:Yj=(Xjwj) *和二阶LV:Y=(Xw)*,首先要对外部权重wj及w进行估计。模式A用简单回归系数Xj=wjZj来估计外部权重wj;模式B用多元回归系数Zj=wjXj来估计外部权重wj。其中Zj为一阶LV的内部估计值。

2.1.1 模式A

因为cov(Xj,Zj)=cov(wjZj,Zj)=wjvar(Zj)=wj,即权重等于协方差,算法模式A的权重只考虑每个MV与其LV的协方差关系,没有考虑MV与区组其他MVs的内部相关。

模式A的优化目标是,寻找ηj的估计值Yj达到条件最小化该区组每个MV的残差方差,在收敛的极限,所有MVs的残差方差联合最小化。即在其他参数给定的条件下,达到该区组LV对MVs的最佳预测,MVs为最佳预测子。因此,模式A多适用于因变量LV。

模式A中权重为简单回归系数,即以载荷作为权重(此时权重与载荷成比例)来估计LV值。由于载荷测量的是每个MV单独/独立反映潜在LV的能力;而每个MV的权重反映它对构建LV的贡献。因此,用模式A估计时,是以每个MV独立反映潜在LV的能力作为权重来构建LV的估计值。由于此时权重为每个MV对LV的独立的贡献,没有研究每个MV在LV中的相对重要性。因此,模式A多适用于反映型LV。

2.1.2 模式B

模式B的优化目标是,寻找ηj的估计值Yj达到条件最小化该LV的残差方差;即在其他区组参数给定的条件下,达到MVs对该区组LV的最佳预测,LV为最佳预测子。因此模式B多适用于自变量LV。

模式B中外部权重为多元回归系数,即以多元回归系数为权重来估计LV值。用模式B估计时,是以每个MV对LV的相对贡献作为权重来构建LV的估计值。权重反映一个区组中每个MV(相对于区组整体MVs)对LV的相对贡献。因此,在实际应用中,模式 B中每个MV的权重即为其相对重要性。需要指出,外部权重只代表该区组内的MVs间的相对重要性,不能与其他区组的权重进行比较。因构成型 LV中,MVs的作用取决于它预测其LV的能力。因此构成型LV多采用模式B估计。用模式B估计时,要求MVs之间不存在或存在较小的多重共线性。

2.2 内部权重估计算法模式C、F、P的统计意义

(1)重心模式C(Centroid),e.j=ej.=sign(corr(Yj.Y))=+1。重心模式C仅利用一阶LVs与二阶LV间的关联关系,赋予相同的内部权重,而不考虑相关的强度及因果关系。

(2)因子模式F(Factor),e.j=ej.=corr(Yj,Y)。因子模式F考虑各个一阶LV与二阶LV间的相关大小,内部权重为相关强度,但不考虑结构模型关系。

(3)路径模式P(Path),既考虑一阶LVs与二阶LV间相关强度,又考虑他们的结构关系。内收模型中内部权重e.j用Y对Y1,…,YJ的多元回归系数;外散模型中内部权重e.j用Yj对的简单回归系数,此时e.j=ej.=corr(Yj,Y),权重值等于因子模式F时的权重值,结果与采用因子模式没有差别.虽然三种内部权重估计模式的统计意义不同,但因为潜变量LV的值主要由外部权重加权得到,模型的参数值差别不大。

表1 不同的外部、内部权重估计算法模式组合

3 不同的外部、内部权重估计算法模式组合,得到不同的二阶PLSPM模型优化目标

由于不同的外部、内部权重估计模式,及不同的估计模式组合,将使得模型的优化目标和作用不同,因此分析说明的问题不同;如果不能正确选择,可能导致模型优化目标及应用结果与期望解决的问题不符。因此,以下对此进行说明。表2列出了所有系统的权重估计算法模式的组合及其应用结果。

组合#2是Lohmoller’s分组主成分分析采用外部模式A、辅助模式A及内部模式P情况下,得到所有X的第一主成分Y=(wX)*,各个区组Xj的主成分Yj=(wjXj)*。此时,二阶LV既是所有X的主成分(MVs的最佳预测元);也是所有一阶LV的主成分(解释最多的一阶LVs的方差);二阶潜变量一方面最大程度反映所有显变量所包含的信息;另一方面又与其他一阶潜变量之间有最强的相关性。

组合 #7 Carroll’s一般典型相关分析。采用外部模式B、辅助模式B及内部模式F情况下,得到Carroll’s一般典型相关分析结果即Yj与Y之间的相关平方和最大化:Max∑cor2(Yj,Y)。采用外部模式B、辅助模式B及内部模式C情况下,得到Horst’s一般典型相关分析结果 (SUMCOR标准),即Yj与Y之间的相关和最大化:Max∑cor(Yj,Y)。

组合 #1a:目前国内应用二阶PLSPM模型建立各种综合评价的文章中,都使用了组合#1a,即外部估计模式A及内部估计重心模式C。上文已经说明,采用内部估计重心模式C,仅考虑一阶LV与二阶LV的相关关系,使得各个一阶LV在二阶LV中均被赋予相同的权重值+1。以下将用蒙特卡罗模拟证明,采用估计模式A,外部权重也具有严重的“趋同性”,并解释了造成这种趋同性的原因。因此,这种权重估计模式组合并不能很好反映实际问题中的信息差别、不同的重要程度,从而赋予不同的权重。

组合 #4:适用于综合评价模型。模式B得到的权重具有反映MV对LV的相对贡献,反映不同数据信息的相对重要性,具有实际应用价值。采用外部模式B(辅助模式A)及内部权重模式P,得到最佳权重估计及最优综合评价结果,适用于构成型LV的综合评价模型。

4 蒙特卡罗模拟:比较两种外部权重估计模式A、B所得权重值

通过模拟说明,不同的外部权重估计模式,所反映的数据信息不同,模型估计结果不同。 外部权重模式A以载荷为权重,其权重值具有趋同现象,不能反映各个显变量对构建LV的相对贡献率;而模式B具有一定区别信息相对贡献率的能力。

表2 外部权重估计模式A、B所得权重值比较

内收二阶模型产生模拟数据:X的取值样本n=100,独立正态分布;三个一阶潜变量,每个分别有三个显变量;一阶潜变量的相关系数r=0.6,外部残差= 0.2,路径系数分别为0.2,0.3,0.5;二阶LV估计的辅助关系采用外部权重模式A。表2中,比较一阶LV外部权重模式A、B时的权重值。

模式A下同一区组MVs的权重仅仅在小数点第二位有微小差别,即模式A下权重具有“严重”趋同性。模式B下的权重区别程度较大,权重反映相对重要性,。模式A下模型的稳定性大于模式B的稳定性,但模式B下,模型也是稳定的,全部通过t检验。

造成模式A下权重具有“严重”趋同性的原因是,在二阶PLSPM模型中,每个显变量MV都使用了两次,一次在一阶LV区组中,一次在二阶LV区组重复使用。此时,对同一个显变量MV,在两个相关的潜变量LVs(一阶LV和二阶LV)中的两个“载荷”代表LVs间的结构系数,即协方差系数,不是LV的载荷系数,即不是MVs对LV的回归系数。由于同一个一阶LV区组内的各个MVs载荷均反映该LV与二阶LV的协方差系数,因而载荷取值严重趋同。由于权重估计模式A是以LV在MV中的“载荷”为权重由此权重也就会具有严重的趋同现象。

5 结论

研究结果表明,两种外部权重估计模式A、B及三种内部权重模式C、F、P具有不同的统计意义;尤其是不同的外部权重估计模式决定了不同的模型优化目标。模式A条件最小化区组每个MV的残差方差,LV为最佳预测元;模式B条件最小化LV的残差方差,LV为最佳预测子。模式A适用于反映型、因变量LV;模式B适用于构成型、自变量LV。模式A下的权重反映每个MV对LV的独立的贡献,模式B下的权重反映一个区组中每个MV(相对于区组整体MVs)对LV的相对贡献。

二阶PLSPM模型中,各种不同的估计模式组合下,模型的优化结果不同。采用蒙特卡罗模拟方法,证明了采用模式A得到的权重有趋同现象,不能很好地反映实际问题中的信息差别。而模式B得到的权重具有反映相对贡献的效果,具有实际应用价值。模式A估计的参数较稳定;模式B估计的参数稳定性不如模式A,但在一定条件下可以通过参数检验。外部权重模式B(辅助权重模式A)及内部权重路径模式P适用于估计二阶内收PLS-PM模型,外部权重及内部权重均为相对贡献率,从而达到最佳综合评价的目标。但需要事先对显变量MVs进行“因子分析”,消除或减轻多重共线性的影响,提高稳定性。此结论适用于构成型一阶及二阶潜变量。

[1]Wold H.Soft Modelling:the Basic Design and Some Extensions [J].System Under indirect Observation:Causality,Structure,Prediction,North Holland,Amsterdam,1982,(2).

[2]Lohmöller J.-B.LatentVariablesPath Modelingwith Partial Least Squares[M].Heildelberg,Physica-Verlag 1989.

[3]Guinot,C.,Latreille,J.,Tenenhaus,M.PLS Path Modeling and Multiple Table Analysis.Application to the Cosmetic Habits of Women in Ile-de-France[J].Chemometrics and Intelligent Laboratory Systems,2001,58.

[4]王惠文,付凌晖.PLS路径模型在建立综合评价指数中的应用[J].系统工程理论与实践,2004,10(10).

[5]鲜思东,杨春德.基于PLS的商业银行BSC绩效评价[J].统计与决策,2010,(10).

猜你喜欢

区组二阶权重
变化区组随机化及其SAS宏实现
如何正确运用方差分析
——平衡不完全区组设计定量资料一元方差分析
权重常思“浮名轻”
一类二阶迭代泛函微分方程的周期解
具非线性中立项的二阶延迟微分方程的Philos型准则
中医临床研究中区组设计应用现状的计量学分析*
二阶线性微分方程的解法
为党督政勤履职 代民行权重担当
一类二阶中立随机偏微分方程的吸引集和拟不变集
基于局部权重k-近质心近邻算法