斯介生 李揚 肖宏偉 蔣遠營
摘要:近年來,PLS路徑模型在綜合評價領域有很多應用。文章針對該方法在綜合評價應用中的公認“優(yōu)勢”進行了分析,對這些優(yōu)勢進行了客觀的評價,并給出利用該方法進行綜合評價的建議。
關鍵詞:PLS路徑模型;綜合評價;審視
一、 引言
PLS路徑模型(PLSPM)是指基于偏最小二乘方法的結構方程模型,該方法最初提出是為了克服基于協(xié)方差分析結構方程模型(CB-SEM)很強的分布假定(R?觟nkk?觟. M and Evermann. J,2013)。在實際應用中,該方法在綜合評價中也有不少應用,特別是在滿意度綜合評價方面應用廣泛,在商學、管理學等社會科學中有重要地位。以致部分文獻將顧客滿意度模型等同于PLS路徑模型(梁燕和金勇進 2007)。近年來,我國學術界對于該方法的應用在綜合評價的研究也如雨后春筍一般出現(xiàn)了不少文獻(如:王惠文和付凌暉,2004;林盛,劉金蘭和韓文秀,2005;阮敬和紀宏,2006;鄒樹梁等,2008;劉旭華,2008;莫一魁和沈旅歐,2009;關子明等2009;葉明和張磊,2010;鮮思東和彭作祥,2011;區(qū)晶瑩等,2011;楊威和張拓紅,2012;王慶豐,2013)。根據這些文獻和綜合評價理論,可以將PLS路徑模型進行綜合評價的步驟歸納為:第一,確定評價目標,建立指標體系,收集數據;第二,實施綜合評價,具體為:①用迭代(包括一系列最小二乘回歸,線性運算和抽取平方根)得到潛變量的表達式,它們是可測變量的加權平均;②用通常的最小二乘得到潛變量之間的線性關系;③用通常的最小二乘得到潛變量與對應可測變量間的線性關系;④利用潛變量的估計值得到各種指數,進行綜合評價。第三,檢驗與評估綜合評價的結果。筆者查閱了近年來的相關文獻發(fā)現(xiàn),多數文獻指出PLS路徑模型進行綜合評價有著其他方法沒有的優(yōu)勢,具體可以歸納為四點:第一,克服多重相關性和共線性的影響;第二,相比CB-SEM,分布假定很弱;第三,樣本容量要求沒有CB-SEM高,適合小樣本情形;第四,是一種客觀的綜合評價方法。但是,目前沒有文獻在綜合評價框架下對這些優(yōu)點做出進一步的細致說明。筆者認為,PLS路徑模型并非為綜合評價專門設計的方法,并且這些優(yōu)點基本上是相對CB-SEM比較得出的,將它們直接移植到綜合評價領域,不甚嚴格,需要推敲。事實上,用于綜合評價的統(tǒng)計模型很多,但是很多學者對這些模型在綜合評價框架下的適用性進行了研究,例如,僅關于主成分分析就有很多文獻,如蘇為華(2000),王學民(2007),林海明和杜子芳(2013)等。為此,本文將對上述四大優(yōu)點在綜合評價框架下進行審視,提出并解答四個問題,即利用PLS路徑模型進行綜合評價時:
(1)有沒有樣本量的要求?
(2)有沒有針對樣本的分布假定要求?
(3)沒有多重共線性的影響了嗎?
(4)客觀性體現(xiàn)在哪里?
二、 問題的研究
為了對上述問題進行研究,我們首先概述PLS路徑模型的算法,然后根據概述回答問題。
1. PLS路徑模型算法概述。利用PLS路徑分析進行綜合評價,首先要分劃好可測變量的歸屬,一個潛變量對應一組可測變量。為此假設有Q個潛變量?孜1,…,?孜Q,第j個潛變量對應的可測變量為Xj=(xj1,…,xjpj)′,j=1,…,Q。則有xjh=?姿jh?孜1+?著jh(h=1,2,…,pj)或者?孜j=?撞■■wjh+?著j,前者為反映型(Reflective),系數為載荷;后者為反映型(Formative),系數為權重,選擇何種形式需要根據實際問題決定,這種反映可測變量與潛變量關系的模型為測量模型。其次要設定好潛變量與潛變量之間的關系結構,即?孜i=?撞■■?茁ij?孜j+vij。這部分模型稱為結構模型,模型中的系數為路徑系數。潛變量的得分(即潛變量的估計值)是進行綜合評價的關鍵,對其估計通過迭代實現(xiàn)。由三大步驟組成:
外部逼近:
Yj∝■wjhxjh
Yj是?孜j的外部逼近估計量,∝表示左邊是右邊的標準化,Wj=(wj1,…,wjpj)′是外部權重。
內部逼近:
zj∝■ejiYi
其中,i:i?圮j表示與第j個潛變量直接有關的潛變量的下標。eji是內部權重,有三種不同的形式(Tenenhaus M,2005)。
更新權重:
內部權重由潛變量間的結構決定,迭代過程中需要更新的是外部權重,當測量模型為反映型時,對于xjh,其新權重為以Zj為自變量,xjh為因變量的一元線性回歸系數,但由于Zj被標準化,因此有wjh=cov(xjh,Zj),當測量模型為構成型時,新的權重以Zj為因變量,與之對應的可測變量xjh為自變量的多元線性回歸的回歸系數,即
Wj=(Xj′Xj)-1Xj′Zj
上述步驟反復迭代,直到權重變化不大,就認為收斂,得到最終的權重估計值,潛變量的得分就是可測變量的加權平均值。
下面給出前面四個問題的解答。
2. 問題解答。
(1)問題1的解答。通過算法概述可以看出,PLS路徑模型的最終目的雖然是得到潛變量得分,但是其本質是得到權重的估計。而權重的估計通過一系列的最小二乘方法反復迭代得到,即迭代過程中本質上涉及到一系列的線性回歸模型。目前已有一些學者討論了PLS路徑模型的最小樣本量,這些研究的主要依據是算法中涉及最大回歸方程需要的樣本量作為PLS路徑模型的最小樣本量。例如,Chin. W.W(1998)認為其最小樣本量應該為最大結構方程中自變量個數的10倍。梁燕和金勇進(2007)從最大回歸方程、準確估計參數、準確估計R2三個角度研究認為,樣本量至少需要100,最好在230以上。但是這些研究都是從PLS路徑模型作為統(tǒng)計方法出發(fā)的。不能回答綜合評價需要的樣本量。
根據綜合評價的理論,綜合評價的目的在于科學決策(杜棟等,2008),首先要求評價結果能夠客觀反映世界的真實情況。這就要求樣本需要能夠具有普遍性,因此樣本量是否足夠不僅需要考慮PLS路徑模型本身,還需要考慮樣本是否具備代表性,過小的樣本量將帶來較大的誤差。其次,要求參與建模的統(tǒng)計模型能夠客觀地挖掘總體信息,達到樣本推斷總體的效果。這樣才能針對總體情形進行科學決策。為此,需要首先回答PLS路徑模型挖掘樣本的何種信息,可以證明(Dijkstra. T,1983),PLS路徑模型的權重估計是一個不動點估計問題,具體為:
反映型:Wj∝?撞i:i?圮jeji·SjiWi,其中Wj′SjjWj=1;
構成型:Wj∝S-1jj?撞i:j?圮ieji·SjiWi,其中Wj′SjjWj=1
其中,Sji為第j組可測變量與第i組可測變量的樣本協(xié)方差矩陣,Sjj是第j組可測變量的樣本方差矩陣。上述等式說明了兩點事實:
①對于權重估計的信息來自可測變量的樣本協(xié)方差矩陣,權重可以看成是樣本協(xié)方差矩陣的函數;
②PLS路徑模型挖掘樣本信息,是一種非參數方法。
這就意味著PLS路徑模型進行綜合評價、科學決策的前提是樣本協(xié)方差矩陣與總體協(xié)方差矩陣足夠接近,這與CB-SEM對樣本量的要求是相同的。因此,本文認為,在綜合評價框架下,所謂PLS路徑模型適合小樣本的說法并不合適,為了進行科學決策,樣本量越大越好。從樣本協(xié)方差矩陣接近總體協(xié)方差矩陣的角度考察,PLS路徑模型的樣本量要求不低于CB-SEM的樣本量要求。
(2)問題2的解答。由于PLS路徑模型的估計問題實質上是一個不動點問題,且估計方法為基于最小二乘的迭代算法,因此該方法本質上是一種非參數方法,從數學上而言,樣本是不需要分布假定的。目前文獻中通用的算法僅對其一階矩有約束(Vinzi.V.E et al.,2010),
E(?孜jh|?孜j)=E(?孜j|xj1,…,xjpj)=0
E(?孜i|?孜j)=■?茁ij?孜j
(3)問題3的解答。關于PLS路徑分析進行綜合評價可以消除多重共線性(多重相關性)的提法首見于王惠文和付凌暉(2004),其后又有若干文獻有類似提法。根據這些文獻的說法,“系統(tǒng)評估指標體系往往被分為若干個變量組,由每個變量組表達一個主題概念。在這種情形下,所建立的評估指數應能夠反映指標體系的層次性”,利用PLS路徑模型可以解決這些問題。事實上,這樣的做法類似層次分析法,不同的是前者利用可測變量間的線性關系結構作為賦權依據,后者依賴專家評分(寧祿喬,2006)。但是這不意味著利用PLS路徑模型就能解決多重共線性問題。我們指出,如果測量模型僅為反映型模型,且不考慮路徑系數,那么多重共線性確實可以得到解決。除此之外,還存在其他的多重共線性問題。
①測量模型中可測變量的多重共線性。這種情況發(fā)生在測量模型為構成型,或者混合型(構成型和反映型的混合)時。原因在于,同一組可測變量都刻畫一個潛變量,這些可測變量必然相關。
②結構模型中的多重共線性。當需要考察路徑系數時,如果結構模型中解釋變量多于一個,這種情況就需要引起注意。原因在于,得到潛變量得分估計后,需要通過最小二乘方法估計路徑系數,如果解釋變量多于一個,本質上就是潛變量之間的多元線性回歸。這時就會面臨多元線性回歸的多重共線性問題。
為了解決這些問題,需要對算法進行修正。Vinzi.V.E et al.,(2010)建議在迭代過程的權重更新階段和路徑系數估計階段用PLS回歸方法代替OLS方法。
(4)問題4的解答。由于PLS路徑模型進行綜合評價是通過對可測指標賦權,得到潛變量得分,從而進行綜合評價。因此討論其客觀性本質上關注的是權重的客觀性。在綜合評價框架下,計算權重大致可分為兩類,一是主觀權重,由專家判斷得到;另一類是客觀權重,由實際數據產生(杜棟等,2008)。通過其算法和評價步驟,我們認為PLS路徑模型并非完全的客觀評價方法。原因在于對可測變量的分組是主觀的。其客觀性體現(xiàn)在權重基于可測變量的方差-協(xié)方差結構,這是由權重的不動點性質決定的。根據數理統(tǒng)計知識,方差-協(xié)方差結構與變量間的線性關系有密切的聯(lián)系,因此可以認為PLS路徑模型挖掘了各變量間完全的線性關系(吳喜之,2013)。
同時需要指出,可測變量間的方差-協(xié)方差結構對權重關系密切,對可測變量的量綱處理將影響權重的客觀性。如果對可測變量進行標準化,使其均值為0,方差為1,則可測變量的方差-協(xié)方差矩陣退化為相關系數矩陣。這樣,可測變量本身的變異信息將不能被權重反映出來,權重僅反映變量之間的相關關系信息。為此,在對可測變量進行去量綱處理時,應該保留其本身的變異信息??梢圆捎妹蟿偻?992)的處理辦法。
三、 結論和建議
本文對PLS路徑模型應用于綜合評價時的幾個“優(yōu)點”進行了審視,指出①在綜合評價框架下,PLS路徑模型適合小樣本不能作為優(yōu)點看待,進行綜合評價時,樣本越大越好,使得樣本方差-協(xié)方差矩陣與總體方差-協(xié)方差矩陣充分接近。關于樣本量的要求,可以參考CB-SEM;②從數學上而言,PLS路徑模型確實不需要分布假定,只需要滿足幾個一階矩的約束即可;③對于測量模型為反映型時,如果僅考察潛變量得分,PLS路徑模型確實可以克服多重共線性。但是當測量模型為構成型或者混合型時,或者需要考察路徑系數時,該方法并不能克服多重共線性,需要對算法進行改進;④PLS路徑模型不是完全的客觀評價方法,需要對可測變量主觀分組,其客觀性體現(xiàn)在權重估計基于樣本的方差協(xié)方差信息。
對于使用該方法,除了已有文獻(如Tenenhaus M 2005)給出的建議之外,本文提出如下建議:
(1)應該根據實際問題,對可測變量合理分組,確定測量模型的類型,確定結構模型形式;
(2)在數據處理階段,應該保留可測變量本身的變異,例如可以用原始變量除以均值代替標準化;
(3)樣本量越大越好,不建議對小樣本進行綜合評價,從理論上而言,沒有意義;
(4)當需要考察路徑系數時,以及測量模型為構成型和混合型時,需要注意多重共線性的影響。
參考文獻:
1. 杜棟,龐慶華,吳炎.現(xiàn)代綜合評價方法與案例精選(第二版).北京:清華大學出版社,2008.
2. 關子明,常文兵,王薇.基于結構方程模型的銀行員工績效考核方法.經濟論壇,2009,(2):108-109.
3. 梁燕,金勇進.顧客滿意度模型的樣本量研究.統(tǒng)計研究,2007,(7):68-74.
4. 劉旭華.基于PLS通徑分析的上市公司財務指標綜合評價.數理統(tǒng)計與管理,2008,(4):695-700.
5. 林海明,杜子芳.主成分分析綜合評價應該注意的問題.統(tǒng)計研究,2013,(8):25-31.
6. 林盛,劉金蘭,韓文秀.基于PLS-結構方程的顧客滿意度評價方法.系統(tǒng)工程學報,2005,(6):653-656.
7. 孟生旺.用主成份分析法進行多指標綜合評價應注意的問題.統(tǒng)計研究,1992,(4):67-68.
8. 莫一魁,沈旅歐.城市公交系統(tǒng)公眾評價的偏最小二乘通徑模型.深圳大學學報(理工版),2009,(4):436-440.
9. 寧祿喬.PLS算法研究.天津大學學位論文,2006.
10. 區(qū)晶瑩,張淞琳,俞守華.基于偏最小二乘通徑模型的農民工信息能力綜合評價.農業(yè)系統(tǒng)科學與綜合研究,2011,(4):495-501.
基金項目:國家自然科學基金(項目號:11361019);廣西自然科學基金重點項目(項目號:2013GXNSFDA019001);中國人民大學科學研究基金項目“縱向邊際化隨機效應模型應用研究”(項目號:13XNF058)。
作者簡介:斯介生,中國人民大學統(tǒng)計學院博士生;李揚,中國人民大學統(tǒng)計學院副教授,中國人民大學統(tǒng)計咨詢研究中心副主任,中國人民大學經濟學博士,美國耶魯大學博士后;肖宏偉,國家信息中心經濟預測部助理研究員,中國人民大學經濟學博士;蔣遠營,桂林理工大學理學院副教授。
收稿日期:2014-08-11。