(蘭州財經(jīng)大學(xué) 甘肅 蘭州 730000)
主成分分析的思路是降維,通過對原始變量進(jìn)行線性變換,從而形成新的變量。新的變量從個數(shù)上遠(yuǎn)遠(yuǎn)少于原始變量,但是其包含的信息與原始變量相差不多。從理論上講,有多少個原始變量就可以提取多少個主成分,然而在線性變換之后,我們在降維和信息的保留上做出了權(quán)衡。目前在許多教科書以及實際研究工作中,對于主成分個數(shù)的保留有多種方法,如,特征值大于1,方差累計(信息保留)大于85%等等,它的優(yōu)勢在于簡單且對絕大多數(shù)情況都適用。但是這些方法是經(jīng)驗性的,沒有理論上的支持。
在主成分提取之后,我們還會遇到一個問題,就是提取后主成分的合理解釋。由于主成分是原始變量的線性組合,通常我們用系數(shù)向量中絕對值較大的變量對該主成分下定義,然而,實際中,是不是所有的數(shù)據(jù)在提取主成分后都能夠得到合理的解釋,絕對值較大是怎樣一個界限,負(fù)值系數(shù)該如何解釋,都沒有一個明確的規(guī)定。
關(guān)于樣本主成分得分排序的問題,目前常用的方法是利用主成分做線性組合,并以每個主成分的方差貢獻(xiàn)率作為權(quán)數(shù)構(gòu)造綜合評價函數(shù)。然而這種方法在實踐中不夠理想,最主要的原因是產(chǎn)生主成分的特征向量的各級分量符號不一致,很難進(jìn)行排序評價[1]。改進(jìn)的一種辦法是只取第一主成分構(gòu)造評價得分,前提是主成分系數(shù)全為正,也就是要求所有評價指標(biāo)變量都是正相關(guān)。但是這樣構(gòu)造的評價函數(shù)并沒有考慮提取的其它的主成分(當(dāng)主成分個數(shù)大于1時),結(jié)論是否可靠呢?
基于以上的思考,本文在參閱相關(guān)文獻(xiàn)的基礎(chǔ)上加之個人的理解,對上述問題分別進(jìn)行討論,然后找到相對合理且具有理論支撐的一套從主成分提取到最后綜合評價函數(shù)構(gòu)造的方法。
1.主成分個數(shù)應(yīng)當(dāng)如何選定?
2.主成分是否能夠有明確的解釋?
我們知道,主成分之間是不相關(guān)的,在X為正向的前提下,主成分中載荷較大的指標(biāo)變量同符號是相互促進(jìn)的關(guān)系,不同符號是相互制約的關(guān)系。主成分中有正有負(fù)是多個相關(guān)變量相互有機(jī)聯(lián)系在一起的正常表現(xiàn)。對于主成分合理的解釋直接關(guān)系到在綜合評價中構(gòu)造綜合評價函數(shù)對樣品進(jìn)行得分評價,因此,我們將主成分內(nèi)部變量的符號解釋成相互促進(jìn)或者相互制約,而對于非正向主成分本身,在正向化之后,綜合評價函數(shù)在方向上也應(yīng)當(dāng)是合理的。
3.如何構(gòu)造綜合評價函數(shù)使得樣品評價得分更加合理?
為了方便起見,本文采用《我國部分省、直轄市、自治區(qū)獨(dú)立核算的工業(yè)企業(yè)經(jīng)濟(jì)效益評價》數(shù)據(jù)[1],該數(shù)據(jù)涉及28個樣品,9項指標(biāo),x1到x9分別表示百元固定資產(chǎn)原值實現(xiàn)值(%)、百元固定資產(chǎn)原值實現(xiàn)利稅(%)、百元資金實現(xiàn)利稅(%),百元工業(yè)總產(chǎn)值實現(xiàn)利稅(%)、百元銷售收入實現(xiàn)利稅(%)、每噸標(biāo)準(zhǔn)煤實現(xiàn)工業(yè)產(chǎn)值(元)、每千萬時電力實現(xiàn)工業(yè)產(chǎn)值(元)、全員勞動生產(chǎn)率(元/人*年)以及百元流動資金實現(xiàn)產(chǎn)值(元)。
因為變量存在量綱不一致,我們從相關(guān)陣出發(fā)進(jìn)行主成分分析。由于指標(biāo)是正向的,因此首先,只需將X標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化后的變量間的相關(guān)陣。
我們發(fā)現(xiàn)x1與x2、x3、x6、x7、x8、x9具有高度相關(guān)性,可以通過主成分分析來進(jìn)行降維處理。
接下來,從成分矩陣中尋找簡單結(jié)構(gòu)。在SPSS中我們設(shè)定提取特征值為0,可以得出全成分矩陣。
表1 載荷頻數(shù)分布
現(xiàn)在我們要通過顯著相關(guān)來確定主成分的個數(shù)。由于樣本數(shù)較小,給定顯著性水平α=1%,查相關(guān)系數(shù)臨界值表,得r0.005(26)≈0.487。從成分矩陣中我們找到每列元素中絕對值最大的與0.487比較,當(dāng)?shù)趉+1列中絕對值最大元素小于0.487,則提取k個主成分。依據(jù)此,本例中,k=3,即提取3個主成分。在spss中主成分分析選項中我們固定提取3個主成分,得到方差貢獻(xiàn)表,提取的3個主成分共解釋了92.447%的總方差。
然后,我們通過成分載荷陣中Yj與X相關(guān)系數(shù)顯著性對主成分進(jìn)行解釋說明??梢钥吹剑琘1與x1、x2、x3、x6、x7、x8、x9具有顯著的正相關(guān)性(與0.487比較);Y2與x4、x5具有顯著的正相關(guān)性;Y3與x5具有顯著的正相關(guān)性。其解釋如下:
Y1:顯著變量為x1、x2、x3、x6、x7、x8、x9,反映了工業(yè)企業(yè)生產(chǎn)中資金投入與勞動力產(chǎn)出之間具有相互促進(jìn)的作用,作為第一主成分,還反映了投入產(chǎn)出是衡量企業(yè)經(jīng)濟(jì)效益的第一大要素;
Y2:顯著變量為x4、x5,反映了企業(yè)效益(銷售額)對利稅積極的影響,在衡量經(jīng)濟(jì)效益時同時也要考慮產(chǎn)出對國家的貢獻(xiàn);
Y3:顯著變量為x5,反映了企業(yè)收入對利稅貢獻(xiàn)的補(bǔ)充部分。
根據(jù)顯著性,我們分別對主成分命名:Y1為企業(yè)投入產(chǎn)出水平;Y2為企業(yè)效益對利稅的貢獻(xiàn)水平;Y3為企業(yè)效益對利稅貢獻(xiàn)的補(bǔ)充部分。通過特征值及成分載荷,我們得到標(biāo)準(zhǔn)化后的主成分表達(dá)式為:
根據(jù)表達(dá)式,三個主成分在衡量企業(yè)經(jīng)濟(jì)效益上都是正向的,無需正向化。因此我們直接構(gòu)造綜合評價函數(shù):
根據(jù)以上式子我們對樣品進(jìn)行成分得分和綜合評價得分(取綜合評價前10個城市得分):
城市Y綜合序Y1序Y2序Y3序上海5051704113840255浙江26824372-18227-00516天津2663374405390196北京2374282524210662江蘇22553943-28280169廣東09961826-13226-04324山東06270987-0361600412云南0278-00212242-14328福建02490518-05218-03523湖北020100359-031500411
對于得分中的負(fù)值,其反映的是企業(yè)在該成分中的相對水平。由于第一主成分對于原始變量信息解釋力最大,因此從上表我們也看出綜合評價得分排序與按照第一主成分排序差異不大。
根據(jù)得分,對所有28個城市做系統(tǒng)聚類,方法使用平均聯(lián)接法,從輸出的譜系圖上看到這28所城市在工業(yè)企業(yè)經(jīng)濟(jì)效益上分為4類:
第一類:陜西、新疆、吉林、四川、江西、內(nèi)蒙古、寧夏、青海
第二類:福建、湖北、山東、安徽、河北、河南、湖南、廣西、遼寧、黑龍江
第三類:貴州、甘肅、云南、山西
第四類:北京、天津、江蘇、浙江、廣東、上海
第一類在三個主成分得分上都偏低,說明是無論在企業(yè)的投入產(chǎn)出還是效益利稅水平上都相對落后;第二類在三個主成分得分上屬于一般水平;第三類雖然在第一主成分上的得分不高,但是相對來說,其銷售收入和產(chǎn)值利稅水平要高于其它城市;第四類在投入產(chǎn)出方面屬于領(lǐng)先水平。
結(jié)合綜合評價得分和主成分得分,我們對上海、浙江、云南三個地區(qū)進(jìn)行企業(yè)效益評估。上海在投入產(chǎn)出上得分7.04遠(yuǎn)高于其它地區(qū)排名第一,對生產(chǎn)的高投入換來高回報,說明上海企業(yè)無論在管理、運(yùn)營、產(chǎn)能、銷售方面都具備較高的能力和效率。在效益利稅方面,上海得分1.38,排名第四,說明上海企業(yè)在具備較高的經(jīng)濟(jì)利益的同時,對利稅做出的貢獻(xiàn)同樣處于領(lǐng)先地位。浙江在投入產(chǎn)出上得分4.37,排名第二,但是在利稅方面得分-1.82,排名27,這說明,浙江企業(yè)在經(jīng)濟(jì)效益較高的條件下,其產(chǎn)值和銷售對于利稅的貢獻(xiàn)還遠(yuǎn)遠(yuǎn)不足,因此,有效的提升產(chǎn)品利潤、監(jiān)管稅收是該地區(qū)的首要工作。云南在投入產(chǎn)出上得分-0.02,這說明云南較其他城市來說,投入產(chǎn)出基數(shù)和效率都不理想,然而云南在利稅方面得分2.4位于全國第2,說明其利潤率較高。
除此之外,我們還可以從聚類的結(jié)構(gòu)中發(fā)現(xiàn),企業(yè)經(jīng)濟(jì)效益和地域可能存在一定的相關(guān)性,但是從我們的數(shù)據(jù)中還無法獲知。西部地區(qū)總體經(jīng)濟(jì)效益偏低,中部地區(qū)經(jīng)濟(jì)效益略好,首都和東部沿海地區(qū)經(jīng)濟(jì)效益較好,同時貴州、甘肅、云南、山西四個地區(qū)雖然在投入產(chǎn)出上較為落后,但是它們的利稅水平較高,如何提高這些地區(qū)的投入產(chǎn)出水平,使其進(jìn)一步提高利稅貢獻(xiàn)應(yīng)該是需要深入研究的問題。
通過上面的內(nèi)容,我們有了完整的對于多指標(biāo)數(shù)據(jù)進(jìn)行主成分提取、分析和綜合評價的方法,這個方法對于指標(biāo)數(shù)據(jù)有一定的應(yīng)用條件,標(biāo)準(zhǔn)化、正向、成分矩陣或者旋轉(zhuǎn)后的因子載荷陣具有簡單結(jié)構(gòu),主成分與變量有顯著相關(guān)性。這也使得這種方法在對數(shù)據(jù)進(jìn)行主成分分析的時候存在一定的局限性,但是我們看到,即便如此,只要前提條件滿足的情況下,整個分析過程指標(biāo)的選擇、成分個數(shù)的選擇、成分的解釋命名方面都有理有據(jù)。同時這個方法對指標(biāo)變量的信息做了最大化的保留,使得在成分得分和綜合評價方面不會因為信息的大量遺漏而造成偏頗。
[1]多元統(tǒng)計分析第三版.何曉群.2004
[2]主成分分析綜合評價應(yīng)該注意的問題.林海明,杜子芳.統(tǒng)計研究2013.8
[3]因子分析應(yīng)用中一些常見問題的解析.林海明.統(tǒng)計與決策.2012.15
[4]多指標(biāo)綜合評價中主成分分析和因子分析方法的比較.王文博.統(tǒng)計與信息論壇.2006.9
[5]多元統(tǒng)計分析引論.方開泰,張堯庭.科學(xué)出版社1982