关于二阶PLS-PM模型中权重估计算法的探讨

2011-03-09赵萍

统计与决策 2011年13期

赵萍

（1.中国人民大学统计学院，北京 100872；2.澳门大学科技学院数学系,澳门 3001)

0 引言

二阶PLS-PM模型（PLS Path Model）首先由H.Wold（1982）提出模型的基本设计。Lohmoller（1989）列出了各种外、内权重估计模式组合，以及得到的不同结果。2001年C. Guinot（2001）将PLS-PM模型与复数据表分析相结合构建二阶PLS-PM模型，并将其应用于法国女性的化妆品使用习惯中。王惠文（2004），鲜思东(2010),，叶明（2010）,阮敬（2006），刘旭华（2008）将其应用于（在多个领域）建立综合评价指数，都采用了外部权重估计模式A及内部权重估计重心模式C对模型进行估计，结果是各个一阶潜变量均被赋予了相同的内部权重，各个显变量也被赋予了几乎“相同”的外部权重。正如王惠文在文中所指出，“在实际问题的评估中，代表不同概念的变量组其重要程度是不一样的，应该具有不同的权重”，并建议对此做进一步研究。为此，本文将着重对二阶PLS-PM模型在实际应用中的权重估计算法模式选择问题进行研究：首先讨论不同权重估计算法模式的统计意义，以便应用时能正确地作出选择。由于权重估计模式组合不同，模型的优化目标及作用不同，分析说明的问题也就不同，如果不能正确选择，导致结果可能与预期不符。其次，讨论各种权重估计模式组合下，模型不同的优化结果。然后，采用蒙特卡罗模拟方法证明，在二阶PLSPM模型中，采用模式A得到的权重有严重的趋同现象，不能很好地反映实际问题中的信息差别。而模式B得到的权重具有反映相对贡献的效果，具有实际应用价值。模式A估计的参数较稳定；模式B估计的参数稳定性不如模式A,但在一定条件下可以通过参数检验。

1 二阶PLS-PM模型简介

1.1 模型的基本设定

二阶PLS-PM模型由外部区组模型与内部递阶结构模型两部分组成（详见 H.Wold 1982,，Lohmoller 1989，C. Guinot 2001）。假设对J个区组的显变量Xj={xj1，…，xjk，…xjkj}均有n个样本观测值，所有显变量xjk都是中心化的变量。每一区组显变量Xj的所有信息通过其一阶潜变量ηj来传递，即有外部区组模型①外部区组模型没有“构成型”模型，只有唯一的“反映型”外部模型（1）（H.Wold,1982），但在模型估计算法中，外部模型有模式 A（向外虚线表示）和模式B（向内虚线表示）两种外部权重估计算法。使用模式B外部权重估计算法并不等于“构成型模型”。不可将模型和模型的估计算法相混淆。模型不同的权重估计模式决定了模型不同的优化目标。：

J个区组的一阶潜变量ηj之间并非完全独立，却又没有特定的因果关系，但存在公共结构/内在关联。设定内部结构模型，目标是用二阶潜变量ξ来概括/反映一阶潜变量ηj之间的公共结构/内在关联信息。内部递阶结构模型（即一阶LVηj与二阶LVξ之间的模型）形式有两种选择。外散二阶模型（由二阶LVξ指向一阶LVηj）有J个内部模型关系；内收二阶模型 (由一阶ηj指向二阶ξ)有一个内部模型关系（H. Wold，1982）。如果二阶ξ为构成型LV，一阶ηj为其构成要素，而且我们的研究目标是用二阶ξ来概括一阶ηj（或通过一阶预测二阶ξ），应选择二阶内收结构模型：

图1 二阶pls-pm模型设定图（模型设定图用实线表示）

如果二阶ξ为反映型LV，一阶ηj为其反映指标，应选择二阶外散结构模型：

分别对（1）、（2a）、(2b)模型做条件期望假设。

1.2 权重估计算法的基本设定

辅助估计关系：H.Wold(1982)提出，重复使用MVs来估计二阶PLS路径模型，如图2所示。所有MVs都用两次，一次用作ηj的指标，一次用作ξ的辅助指标并放在ξ的后面。

图2 PLS-PM权重估计算法设定图（估计算法设定图用虚线表示）

二阶PLS-PM模型一方面可以直接求出各阶潜变量LVs得分估计值,并确定各个显变量MV对构建一阶LV的贡献及一阶LV对构建二阶LV的贡献；另一方面，二阶LV既对所有原始显变量的代表性最好，又可以由所有一阶潜变量进行解释，可以作为概括原始显变量信息的综合指标。然而，对同一个二阶外散/内收模型，有12种权重估计算法模式组合（外部关系与辅助关系有AA、AB、BA、BB,内部有C、F、P），不同的权重估计模式组合会得到不同的模型估计结果。

2 各种权重估计算法模式的统计意义及其选择原则

2.1 外部权重估计算法模式A、B的统计意义

每一个LV的外部权重估计有两种算法选择：模式A及模式B。外部权重估计算法模式的选择是模型估计的关键，它决定了模型的优化目标。下面对这两种算法模式A、B的统计意义进行较为详细的阐述。

为了得到潜变量LV的外部估计值，即一阶LV:Yj=(Xjwj) *和二阶LV:Y=（Xw）*，首先要对外部权重wj及w进行估计。模式A用简单回归系数Xj=wjZj来估计外部权重wj；模式B用多元回归系数Zj=wjXj来估计外部权重wj。其中Zj为一阶LV的内部估计值。

2.1.1 模式A

因为cov(Xj,Zj)=cov(wjZj,Zj)=wjvar(Zj)=wj，即权重等于协方差，算法模式A的权重只考虑每个MV与其LV的协方差关系，没有考虑MV与区组其他MVs的内部相关。

模式A的优化目标是，寻找ηj的估计值Yj达到条件最小化该区组每个MV的残差方差，在收敛的极限，所有MVs的残差方差联合最小化。即在其他参数给定的条件下，达到该区组LV对MVs的最佳预测，MVs为最佳预测子。因此，模式A多适用于因变量LV。

模式A中权重为简单回归系数，即以载荷作为权重（此时权重与载荷成比例）来估计LV值。由于载荷测量的是每个MV单独/独立反映潜在LV的能力；而每个MV的权重反映它对构建LV的贡献。因此，用模式A估计时，是以每个MV独立反映潜在LV的能力作为权重来构建LV的估计值。由于此时权重为每个MV对LV的独立的贡献，没有研究每个MV在LV中的相对重要性。因此，模式A多适用于反映型LV。

2.1.2 模式B

模式B的优化目标是，寻找ηj的估计值Yj达到条件最小化该LV的残差方差；即在其他区组参数给定的条件下，达到MVs对该区组LV的最佳预测，LV为最佳预测子。因此模式B多适用于自变量LV。

模式B中外部权重为多元回归系数，即以多元回归系数为权重来估计LV值。用模式B估计时，是以每个MV对LV的相对贡献作为权重来构建LV的估计值。权重反映一个区组中每个MV（相对于区组整体MVs）对LV的相对贡献。因此，在实际应用中,模式 B中每个MV的权重即为其相对重要性。需要指出，外部权重只代表该区组内的MVs间的相对重要性，不能与其他区组的权重进行比较。因构成型 LV中，MVs的作用取决于它预测其LV的能力。因此构成型LV多采用模式B估计。用模式B估计时，要求MVs之间不存在或存在较小的多重共线性。

2.2 内部权重估计算法模式C、F、P的统计意义

(1)重心模式C(Centroid)，e.j=ej.=sign(corr(Yj.Y))=+1。重心模式C仅利用一阶LVs与二阶LV间的关联关系，赋予相同的内部权重，而不考虑相关的强度及因果关系。

(2)因子模式F(Factor)，e.j=ej.=corr(Yj,Y)。因子模式F考虑各个一阶LV与二阶LV间的相关大小，内部权重为相关强度，但不考虑结构模型关系。

(3)路径模式P(Path)，既考虑一阶LVs与二阶LV间相关强度，又考虑他们的结构关系。内收模型中内部权重e.j用Y对Y1,…,YJ的多元回归系数；外散模型中内部权重e.j用Yj对的简单回归系数，此时e.j=ej.=corr(Yj,Y)，权重值等于因子模式F时的权重值，结果与采用因子模式没有差别.虽然三种内部权重估计模式的统计意义不同，但因为潜变量LV的值主要由外部权重加权得到，模型的参数值差别不大。

表1 不同的外部、内部权重估计算法模式组合

3 不同的外部、内部权重估计算法模式组合，得到不同的二阶PLSPM模型优化目标

由于不同的外部、内部权重估计模式，及不同的估计模式组合，将使得模型的优化目标和作用不同，因此分析说明的问题不同；如果不能正确选择，可能导致模型优化目标及应用结果与期望解决的问题不符。因此,以下对此进行说明。表2列出了所有系统的权重估计算法模式的组合及其应用结果。

组合#2是Lohmoller’s分组主成分分析采用外部模式A、辅助模式A及内部模式P情况下,得到所有X的第一主成分Y=(wX)*，各个区组Xj的主成分Yj=(wjXj)*。此时，二阶LV既是所有X的主成分（MVs的最佳预测元）;也是所有一阶LV的主成分（解释最多的一阶LVs的方差）；二阶潜变量一方面最大程度反映所有显变量所包含的信息；另一方面又与其他一阶潜变量之间有最强的相关性。

组合 #7 Carroll’s一般典型相关分析。采用外部模式B、辅助模式B及内部模式F情况下，得到Carroll’s一般典型相关分析结果即Yj与Y之间的相关平方和最大化：Max∑cor2(Yj,Y)。采用外部模式B、辅助模式B及内部模式C情况下，得到Horst’s一般典型相关分析结果（SUMCOR标准），即Yj与Y之间的相关和最大化：Max∑cor(Yj,Y)。

组合 #1a：目前国内应用二阶PLSPM模型建立各种综合评价的文章中，都使用了组合#1a,即外部估计模式A及内部估计重心模式C。上文已经说明，采用内部估计重心模式C，仅考虑一阶LV与二阶LV的相关关系，使得各个一阶LV在二阶LV中均被赋予相同的权重值+1。以下将用蒙特卡罗模拟证明，采用估计模式A,外部权重也具有严重的“趋同性”，并解释了造成这种趋同性的原因。因此，这种权重估计模式组合并不能很好反映实际问题中的信息差别、不同的重要程度，从而赋予不同的权重。

组合 #4:适用于综合评价模型。模式B得到的权重具有反映MV对LV的相对贡献，反映不同数据信息的相对重要性，具有实际应用价值。采用外部模式B（辅助模式A）及内部权重模式P，得到最佳权重估计及最优综合评价结果，适用于构成型LV的综合评价模型。

4 蒙特卡罗模拟：比较两种外部权重估计模式A、B所得权重值

通过模拟说明，不同的外部权重估计模式，所反映的数据信息不同，模型估计结果不同。外部权重模式A以载荷为权重，其权重值具有趋同现象，不能反映各个显变量对构建LV的相对贡献率;而模式B具有一定区别信息相对贡献率的能力。

表2 外部权重估计模式A、B所得权重值比较

内收二阶模型产生模拟数据：X的取值样本n=100,独立正态分布;三个一阶潜变量，每个分别有三个显变量;一阶潜变量的相关系数r=0.6,外部残差= 0.2,路径系数分别为0.2，0.3，0.5；二阶LV估计的辅助关系采用外部权重模式A。表2中，比较一阶LV外部权重模式A、B时的权重值。

模式A下同一区组MVs的权重仅仅在小数点第二位有微小差别，即模式A下权重具有“严重”趋同性。模式B下的权重区别程度较大，权重反映相对重要性，。模式A下模型的稳定性大于模式B的稳定性，但模式B下，模型也是稳定的，全部通过t检验。

造成模式A下权重具有“严重”趋同性的原因是，在二阶PLSPM模型中，每个显变量MV都使用了两次，一次在一阶LV区组中，一次在二阶LV区组重复使用。此时，对同一个显变量MV，在两个相关的潜变量LVs（一阶LV和二阶LV）中的两个“载荷”代表LVs间的结构系数，即协方差系数，不是LV的载荷系数，即不是MVs对LV的回归系数。由于同一个一阶LV区组内的各个MVs载荷均反映该LV与二阶LV的协方差系数，因而载荷取值严重趋同。由于权重估计模式A是以LV在MV中的“载荷”为权重由此权重也就会具有严重的趋同现象。

5 结论

研究结果表明，两种外部权重估计模式A、B及三种内部权重模式C、F、P具有不同的统计意义；尤其是不同的外部权重估计模式决定了不同的模型优化目标。模式A条件最小化区组每个MV的残差方差，LV为最佳预测元；模式B条件最小化LV的残差方差，LV为最佳预测子。模式A适用于反映型、因变量LV；模式B适用于构成型、自变量LV。模式A下的权重反映每个MV对LV的独立的贡献，模式B下的权重反映一个区组中每个MV（相对于区组整体MVs）对LV的相对贡献。

二阶PLSPM模型中，各种不同的估计模式组合下，模型的优化结果不同。采用蒙特卡罗模拟方法，证明了采用模式A得到的权重有趋同现象，不能很好地反映实际问题中的信息差别。而模式B得到的权重具有反映相对贡献的效果，具有实际应用价值。模式A估计的参数较稳定；模式B估计的参数稳定性不如模式A,但在一定条件下可以通过参数检验。外部权重模式B（辅助权重模式A）及内部权重路径模式P适用于估计二阶内收PLS-PM模型，外部权重及内部权重均为相对贡献率，从而达到最佳综合评价的目标。但需要事先对显变量MVs进行“因子分析”，消除或减轻多重共线性的影响，提高稳定性。此结论适用于构成型一阶及二阶潜变量。

[1]Wold H.Soft Modelling:the Basic Design and Some Extensions [J].System Under indirect Observation:Causality,Structure,Prediction,North Holland,Amsterdam,1982，（2）.

[2]Lohmöller J.-B.LatentVariablesPath Modelingwith Partial Least Squares[M].Heildelberg，Physica-Verlag 1989.

[3]Guinot,C.,Latreille,J.,Tenenhaus,M.PLS Path Modeling and Multiple Table Analysis.Application to the Cosmetic Habits of Women in Ile-de-France[J].Chemometrics and Intelligent Laboratory Systems，2001，58.

[4]王惠文，付凌晖.PLS路径模型在建立综合评价指数中的应用[J].系统工程理论与实践，2004，10(10).

[5]鲜思东，杨春德.基于PLS的商业银行BSC绩效评价[J].统计与决策，2010,（10）.