趙 萍
(1.中國人民大學 統(tǒng)計學院,北京 100872;2.澳門大學 科技學院數(shù)學系,澳門 3001)
二階PLS-PM模型 (PLS Path Model)首先由H.Wold(1982)提出模型的基本設(shè)計。Lohmoller(1989)列出了各種外、內(nèi)權(quán)重估計模式組合,以及得到的不同結(jié)果。2001年C. Guinot(2001)將PLS-PM模型與復數(shù)據(jù)表分析相結(jié)合構(gòu)建二階PLS-PM模型,并將其應(yīng)用于法國女性的化妝品使用習慣中。王惠文(2004),鮮思東(2010),,葉明(2010),阮敬(2006),劉旭華(2008)將其應(yīng)用于(在多個領(lǐng)域)建立綜合評價指數(shù),都采用了外部權(quán)重估計模式A及內(nèi)部權(quán)重估計重心模式C對模型進行估計,結(jié)果是各個一階潛變量均被賦予了相同的內(nèi)部權(quán)重,各個顯變量也被賦予了幾乎“相同”的外部權(quán)重。正如王惠文在文中所指出,“在實際問題的評估中,代表不同概念的變量組其重要程度是不一樣的,應(yīng)該具有不同的權(quán)重”,并建議對此做進一步研究。為此,本文將著重對二階PLS-PM模型在實際應(yīng)用中的權(quán)重估計算法模式選擇問題進行研究:首先討論不同權(quán)重估計算法模式的統(tǒng)計意義,以便應(yīng)用時能正確地作出選擇。由于權(quán)重估計模式組合不同,模型的優(yōu)化目標及作用不同,分析說明的問題也就不同,如果不能正確選擇,導致結(jié)果可能與預期不符。其次,討論各種權(quán)重估計模式組合下,模型不同的優(yōu)化結(jié)果。然后,采用蒙特卡羅模擬方法證明,在二階PLSPM模型中,采用模式A得到的權(quán)重有嚴重的趨同現(xiàn)象,不能很好地反映實際問題中的信息差別。而模式B得到的權(quán)重具有反映相對貢獻的效果,具有實際應(yīng)用價值。模式A估計的參數(shù)較穩(wěn)定;模式B估計的參數(shù)穩(wěn)定性不如模式A,但在一定條件下可以通過參數(shù)檢驗。
二階PLS-PM模型由外部區(qū)組模型與內(nèi)部遞階結(jié)構(gòu)模型兩部分組成 (詳見 H.Wold 1982,,Lohmoller 1989,C. Guinot 2001)。假設(shè)對J個區(qū)組的顯變量Xj={xj1,…,xjk,…xjkj}均有n個樣本觀測值,所有顯變量xjk都是中心化的變量。每一區(qū)組顯變量Xj的所有信息通過其一階潛變量ηj來傳遞,即有外部區(qū)組模型①外部區(qū)組模型沒有“構(gòu)成型”模型,只有唯一的“反映型”外部模型(1)(H.Wold,1982),但在模型估計算法中,外部模型有模式 A(向外虛線表示)和 模式B(向內(nèi)虛線表示)兩種外部權(quán)重估計算法。使用模式B外部權(quán)重估計算法并不等于“構(gòu)成型模型”。不可將模型和模型的估計算法相混淆。模型不同的權(quán)重估計模式?jīng)Q定了模型不同的優(yōu)化目標。:
J個區(qū)組的一階潛變量ηj之間并非完全獨立,卻又沒有特定的因果關(guān)系,但存在公共結(jié)構(gòu)/內(nèi)在關(guān)聯(lián)。設(shè)定內(nèi)部結(jié)構(gòu)模型,目標是用二階潛變量ξ來概括/反映一階潛變量ηj之間的公共結(jié)構(gòu)/內(nèi)在關(guān)聯(lián)信息。內(nèi)部遞階結(jié)構(gòu)模型 (即一階LVηj與二階LVξ之間的模型)形式有兩種選擇。外散二階模型(由二階LVξ指向一階LVηj)有J個內(nèi)部模型關(guān)系;內(nèi)收二階模型 (由一階ηj指向二階ξ)有一個內(nèi)部模型關(guān)系(H. Wold,1982)。如果二階ξ為構(gòu)成型LV,一階ηj為其構(gòu)成要素,而且我們的研究目標是用二階ξ來概括一階ηj(或通過一階預測二階ξ),應(yīng)選擇二階內(nèi)收結(jié)構(gòu)模型:
圖1 二階pls-pm模型設(shè)定圖(模型設(shè)定圖用實線表示)
如果二階ξ為反映型LV,一階ηj為其反映指標,應(yīng)選擇二階外散結(jié)構(gòu)模型:
分別對(1)、(2a)、(2b)模型做條件期望假設(shè)。
輔助估計關(guān)系:H.Wold(1982)提出,重復使用MVs來估計二階PLS路徑模型,如圖2所示。所有MVs都用兩次,一次用作ηj的指標,一次用作ξ的輔助指標并放在ξ的后面。
圖2 PLS-PM權(quán)重估計算法設(shè)定圖(估計算法設(shè)定圖用虛線表示)
二階PLS-PM模型一方面可以直接求出各階潛變量LVs得分估計值,并確定各個顯變量MV對構(gòu)建一階LV的貢獻及一階LV對構(gòu)建二階LV的貢獻;另一方面,二階LV既對所有原始顯變量的代表性最好,又可以由所有一階潛變量進行解釋,可以作為概括原始顯變量信息的綜合指標。然而,對同一個二階外散/內(nèi)收模型,有12種權(quán)重估計算法模式組合(外部關(guān)系與輔助關(guān)系有AA、AB、BA、BB,內(nèi)部有C、F、P),不同的權(quán)重估計模式組合會得到不同的模型估計結(jié)果。
每一個LV的外部權(quán)重估計有兩種算法選擇:模式A及模式B。外部權(quán)重估計算法模式的選擇是模型估計的關(guān)鍵,它決定了模型的優(yōu)化目標。下面對這兩種算法模式A、B的統(tǒng)計意義進行較為詳細的闡述。
為了得到潛變量LV的外部估計值,即一階LV:Yj=(Xjwj) *和二階LV:Y=(Xw)*,首先要對外部權(quán)重wj及w進行估計。模式A用簡單回歸系數(shù)Xj=wjZj來估計外部權(quán)重wj;模式B用多元回歸系數(shù)Zj=wjXj來估計外部權(quán)重wj。其中Zj為一階LV的內(nèi)部估計值。
2.1.1 模式A
因為cov(Xj,Zj)=cov(wjZj,Zj)=wjvar(Zj)=wj,即權(quán)重等于協(xié)方差,算法模式A的權(quán)重只考慮每個MV與其LV的協(xié)方差關(guān)系,沒有考慮MV與區(qū)組其他MVs的內(nèi)部相關(guān)。
模式A的優(yōu)化目標是,尋找ηj的估計值Yj達到條件最小化該區(qū)組每個MV的殘差方差,在收斂的極限,所有MVs的殘差方差聯(lián)合最小化。即在其他參數(shù)給定的條件下,達到該區(qū)組LV對MVs的最佳預測,MVs為最佳預測子。因此,模式A多適用于因變量LV。
模式A中權(quán)重為簡單回歸系數(shù),即以載荷作為權(quán)重(此時權(quán)重與載荷成比例)來估計LV值。由于載荷測量的是每個MV單獨/獨立反映潛在LV的能力;而每個MV的權(quán)重反映它對構(gòu)建LV的貢獻。因此,用模式A估計時,是以每個MV獨立反映潛在LV的能力作為權(quán)重來構(gòu)建LV的估計值。由于此時權(quán)重為每個MV對LV的獨立的貢獻,沒有研究每個MV在LV中的相對重要性。因此,模式A多適用于反映型LV。
2.1.2 模式B
模式B的優(yōu)化目標是,尋找ηj的估計值Yj達到條件最小化該LV的殘差方差;即在其他區(qū)組參數(shù)給定的條件下,達到MVs對該區(qū)組LV的最佳預測,LV為最佳預測子。因此模式B多適用于自變量LV。
模式B中外部權(quán)重為多元回歸系數(shù),即以多元回歸系數(shù)為權(quán)重來估計LV值。用模式B估計時,是以每個MV對LV的相對貢獻作為權(quán)重來構(gòu)建LV的估計值。權(quán)重反映一個區(qū)組中每個MV(相對于區(qū)組整體MVs)對LV的相對貢獻。因此,在實際應(yīng)用中,模式 B中每個MV的權(quán)重即為其相對重要性。需要指出,外部權(quán)重只代表該區(qū)組內(nèi)的MVs間的相對重要性,不能與其他區(qū)組的權(quán)重進行比較。因構(gòu)成型 LV中,MVs的作用取決于它預測其LV的能力。因此構(gòu)成型LV多采用模式B估計。用模式B估計時,要求MVs之間不存在或存在較小的多重共線性。
(1)重心模式C(Centroid),e.j=ej.=sign(corr(Yj.Y))=+1。重心模式C僅利用一階LVs與二階LV間的關(guān)聯(lián)關(guān)系,賦予相同的內(nèi)部權(quán)重,而不考慮相關(guān)的強度及因果關(guān)系。
(2)因子模式F(Factor),e.j=ej.=corr(Yj,Y)。因子模式F考慮各個一階LV與二階LV間的相關(guān)大小,內(nèi)部權(quán)重為相關(guān)強度,但不考慮結(jié)構(gòu)模型關(guān)系。
(3)路徑模式P(Path),既考慮一階LVs與二階LV間相關(guān)強度,又考慮他們的結(jié)構(gòu)關(guān)系。內(nèi)收模型中內(nèi)部權(quán)重e.j用Y對Y1,…,YJ的多元回歸系數(shù);外散模型中內(nèi)部權(quán)重e.j用Yj對的簡單回歸系數(shù),此時e.j=ej.=corr(Yj,Y),權(quán)重值等于因子模式F時的權(quán)重值,結(jié)果與采用因子模式?jīng)]有差別.雖然三種內(nèi)部權(quán)重估計模式的統(tǒng)計意義不同,但因為潛變量LV的值主要由外部權(quán)重加權(quán)得到,模型的參數(shù)值差別不大。
表1 不同的外部、內(nèi)部權(quán)重估計算法模式組合
由于不同的外部、內(nèi)部權(quán)重估計模式,及不同的估計模式組合,將使得模型的優(yōu)化目標和作用不同,因此分析說明的問題不同;如果不能正確選擇,可能導致模型優(yōu)化目標及應(yīng)用結(jié)果與期望解決的問題不符。因此,以下對此進行說明。表2列出了所有系統(tǒng)的權(quán)重估計算法模式的組合及其應(yīng)用結(jié)果。
組合#2是Lohmoller’s分組主成分分析采用外部模式A、輔助模式A及內(nèi)部模式P情況下,得到所有X的第一主成分Y=(wX)*,各個區(qū)組Xj的主成分Yj=(wjXj)*。此時,二階LV既是所有X的主成分(MVs的最佳預測元);也是所有一階LV的主成分(解釋最多的一階LVs的方差);二階潛變量一方面最大程度反映所有顯變量所包含的信息;另一方面又與其他一階潛變量之間有最強的相關(guān)性。
組合 #7 Carroll’s一般典型相關(guān)分析。采用外部模式B、輔助模式B及內(nèi)部模式F情況下,得到Carroll’s一般典型相關(guān)分析結(jié)果即Yj與Y之間的相關(guān)平方和最大化:Max∑cor2(Yj,Y)。采用外部模式B、輔助模式B及內(nèi)部模式C情況下,得到Horst’s一般典型相關(guān)分析結(jié)果 (SUMCOR標準),即Yj與Y之間的相關(guān)和最大化:Max∑cor(Yj,Y)。
組合 #1a:目前國內(nèi)應(yīng)用二階PLSPM模型建立各種綜合評價的文章中,都使用了組合#1a,即外部估計模式A及內(nèi)部估計重心模式C。上文已經(jīng)說明,采用內(nèi)部估計重心模式C,僅考慮一階LV與二階LV的相關(guān)關(guān)系,使得各個一階LV在二階LV中均被賦予相同的權(quán)重值+1。以下將用蒙特卡羅模擬證明,采用估計模式A,外部權(quán)重也具有嚴重的“趨同性”,并解釋了造成這種趨同性的原因。因此,這種權(quán)重估計模式組合并不能很好反映實際問題中的信息差別、不同的重要程度,從而賦予不同的權(quán)重。
組合 #4:適用于綜合評價模型。模式B得到的權(quán)重具有反映MV對LV的相對貢獻,反映不同數(shù)據(jù)信息的相對重要性,具有實際應(yīng)用價值。采用外部模式B(輔助模式A)及內(nèi)部權(quán)重模式P,得到最佳權(quán)重估計及最優(yōu)綜合評價結(jié)果,適用于構(gòu)成型LV的綜合評價模型。
通過模擬說明,不同的外部權(quán)重估計模式,所反映的數(shù)據(jù)信息不同,模型估計結(jié)果不同。 外部權(quán)重模式A以載荷為權(quán)重,其權(quán)重值具有趨同現(xiàn)象,不能反映各個顯變量對構(gòu)建LV的相對貢獻率;而模式B具有一定區(qū)別信息相對貢獻率的能力。
表2 外部權(quán)重估計模式A、B所得權(quán)重值比較
內(nèi)收二階模型產(chǎn)生模擬數(shù)據(jù):X的取值樣本n=100,獨立正態(tài)分布;三個一階潛變量,每個分別有三個顯變量;一階潛變量的相關(guān)系數(shù)r=0.6,外部殘差= 0.2,路徑系數(shù)分別為0.2,0.3,0.5;二階LV估計的輔助關(guān)系采用外部權(quán)重模式A。表2中,比較一階LV外部權(quán)重模式A、B時的權(quán)重值。
模式A下同一區(qū)組MVs的權(quán)重僅僅在小數(shù)點第二位有微小差別,即模式A下權(quán)重具有“嚴重”趨同性。模式B下的權(quán)重區(qū)別程度較大,權(quán)重反映相對重要性,。模式A下模型的穩(wěn)定性大于模式B的穩(wěn)定性,但模式B下,模型也是穩(wěn)定的,全部通過t檢驗。
造成模式A下權(quán)重具有“嚴重”趨同性的原因是,在二階PLSPM模型中,每個顯變量MV都使用了兩次,一次在一階LV區(qū)組中,一次在二階LV區(qū)組重復使用。此時,對同一個顯變量MV,在兩個相關(guān)的潛變量LVs(一階LV和二階LV)中的兩個“載荷”代表LVs間的結(jié)構(gòu)系數(shù),即協(xié)方差系數(shù),不是LV的載荷系數(shù),即不是MVs對LV的回歸系數(shù)。由于同一個一階LV區(qū)組內(nèi)的各個MVs載荷均反映該LV與二階LV的協(xié)方差系數(shù),因而載荷取值嚴重趨同。由于權(quán)重估計模式A是以LV在MV中的“載荷”為權(quán)重由此權(quán)重也就會具有嚴重的趨同現(xiàn)象。
研究結(jié)果表明,兩種外部權(quán)重估計模式A、B及三種內(nèi)部權(quán)重模式C、F、P具有不同的統(tǒng)計意義;尤其是不同的外部權(quán)重估計模式?jīng)Q定了不同的模型優(yōu)化目標。模式A條件最小化區(qū)組每個MV的殘差方差,LV為最佳預測元;模式B條件最小化LV的殘差方差,LV為最佳預測子。模式A適用于反映型、因變量LV;模式B適用于構(gòu)成型、自變量LV。模式A下的權(quán)重反映每個MV對LV的獨立的貢獻,模式B下的權(quán)重反映一個區(qū)組中每個MV(相對于區(qū)組整體MVs)對LV的相對貢獻。
二階PLSPM模型中,各種不同的估計模式組合下,模型的優(yōu)化結(jié)果不同。采用蒙特卡羅模擬方法,證明了采用模式A得到的權(quán)重有趨同現(xiàn)象,不能很好地反映實際問題中的信息差別。而模式B得到的權(quán)重具有反映相對貢獻的效果,具有實際應(yīng)用價值。模式A估計的參數(shù)較穩(wěn)定;模式B估計的參數(shù)穩(wěn)定性不如模式A,但在一定條件下可以通過參數(shù)檢驗。外部權(quán)重模式B(輔助權(quán)重模式A)及內(nèi)部權(quán)重路徑模式P適用于估計二階內(nèi)收PLS-PM模型,外部權(quán)重及內(nèi)部權(quán)重均為相對貢獻率,從而達到最佳綜合評價的目標。但需要事先對顯變量MVs進行“因子分析”,消除或減輕多重共線性的影響,提高穩(wěn)定性。此結(jié)論適用于構(gòu)成型一階及二階潛變量。
[1]Wold H.Soft Modelling:the Basic Design and Some Extensions [J].System Under indirect Observation:Causality,Structure,Prediction,North Holland,Amsterdam,1982,(2).
[2]Lohm?ller J.-B.LatentVariablesPath Modelingwith Partial Least Squares[M].Heildelberg,Physica-Verlag 1989.
[3]Guinot,C.,Latreille,J.,Tenenhaus,M.PLS Path Modeling and Multiple Table Analysis.Application to the Cosmetic Habits of Women in Ile-de-France[J].Chemometrics and Intelligent Laboratory Systems,2001,58.
[4]王惠文,付凌暉.PLS路徑模型在建立綜合評價指數(shù)中的應(yīng)用[J].系統(tǒng)工程理論與實踐,2004,10(10).
[5]鮮思東,楊春德.基于PLS的商業(yè)銀行BSC績效評價[J].統(tǒng)計與決策,2010,(10).