石 立,趙慧琴,林海明
(廣東財經(jīng)大學(xué) 華商學(xué)院,廣東 廣州 511300)
Spearman[1]在對學(xué)生智力的統(tǒng)計分析中,提出了因子分析。2004年,在紀(jì)念因子分析發(fā)表100周年之際,Cudeck等[2]認(rèn)為,因子分析是社會科學(xué)統(tǒng)計方面有重大影響的成功事件之一,是多元統(tǒng)計中價值無可估量的統(tǒng)計工具之一,是行為研究方法論的支柱之一,因子分析的應(yīng)用充滿活力,前景廣闊。迄今國內(nèi)外的文獻(xiàn):英國統(tǒng)計學(xué)家肯德爾[3]、著名統(tǒng)計學(xué)家張堯庭和方開泰[4]、美國統(tǒng)計學(xué)家Johnson和Wichern[5]、德國和比利時統(tǒng)計學(xué)家H?rdle和Simar[6]、國際著名統(tǒng)計學(xué)家Fan等[7]、Yacine等[8]、Kei等[9],使用了如下傳統(tǒng)模型:
因子分析模型設(shè)p維可觀測隨機向量x=(x1,…,xp)′,E(x)=μ,Cov(x)=∑,記公因子隨機向量f=(f1,…,fm)′和特殊因子隨機向量ε=(ε1,…,εp)′,要求:
x-μ=Lf+ε,
其中,L=(lij)p×m稱為因子載荷陣,lij稱為變量xi在公因子fj上的載荷,求L、f,使:
E(f)=0,Cov(f)=Im,E(ε)=0,Cov(ε,f)=0,
稱此為正交因子分析模型(注:該模型無優(yōu)化條件,下稱舊模型)。
舊模型的估計方法,公因子載荷陣L有:主成分法、主因子法、最大似然法等[5];公因子f有:1939年Thomson的回歸法、1948年Bartlett的加權(quán)最小二乘法等[3]。
著名統(tǒng)計學(xué)家方開泰[10]認(rèn)為,因子分析是多元分析降維的一種方法,因子有較鮮明的解釋,即因子分析的目的是降維并合理解釋變量。但舊模型和理論還是很不完善,從數(shù)學(xué)上看,還存在許多問題[4]。國內(nèi)外著名統(tǒng)計學(xué)家總結(jié)如下4個基本問題:
問題2 降維的方法還有主成分分析,在因子與主成分方面,白雪梅[11]認(rèn)為,對主成分象因子分析那樣實施方差最大化正交旋轉(zhuǎn),結(jié)果不是主成分,故對主成分再實施旋轉(zhuǎn)是錯誤的。閻慈琳[12]認(rèn)為,用主成分分析不合適時,用因子分析中方差最大的正交旋轉(zhuǎn)可能取得較好的效果,并給出了應(yīng)用實例。G S·馬達(dá)拉等[13]認(rèn)為,因子和主成分的理論關(guān)系與實際差異,是令人非常感興趣的問題,但他沒有解決此問題。
問題3f的解方面,M·肯德爾[3]認(rèn)為,m
問題4 優(yōu)良性方面,美國科學(xué)院院士、著名統(tǒng)計學(xué)家Anderson[14]討論了f估計的優(yōu)良性問題,并提出了無偏性、平均預(yù)報誤差準(zhǔn)則。但Johnson和Wichern[5]認(rèn)為,因子分析優(yōu)良性準(zhǔn)則尚未很好量化,即優(yōu)良性的量化是人們一直需要解決的問題。
據(jù)查,迄今對上述4個基本問題的關(guān)注較少,如Fan等[7]、Yacine等[8]、Kei等[9]。
x-μ=L*f*+ε*,
(1)
E(f*)=0,Cov(f*)=Im,E(ε)=0,Cov(ε,f*)=0
(2)
tr(L*′L*)達(dá)到最大。
(3)
tr是方陣的跡,tr(L*′L*)是因子f*解釋變量的方差貢獻(xiàn)。下稱此模型為新模型或模型L。
新模型特點:式(3)是新舊模型的不同之處,它改變了舊模型無優(yōu)化條件的狀況;新模型有可行解,改變了舊模型只有估計的歷史。這些成為解決上述4個基本問題的支點。
林海明[15]用張堯庭給出的標(biāo)準(zhǔn)化主成分法,求出了新模型的可行解:主成分法的因子載荷陣L*及其回歸的因子得分f*。以下介紹此方法。
主成分分析模型的解:設(shè)主成分Z=(z1,z2,…,zp)′,E(Z)=0,則
Z=U′(X-μ)
(4)
這里U=(u1,u2,…,up)=(uij)p×p,UU′=Ip,∑ui=λiui,Var(zi)=λi(i=1,…,p),λ1≥…≥λm≥…≥λp≥0。
標(biāo)準(zhǔn)化主成分法:式(4)左乘U,有:
X-μ=UZ=(u1,…,um)(z1,…,zm)′+(um+1,…,up)(zm+1,…,zp)′
(4)′
X-μ=L0f0+ε0
經(jīng)比較和驗證,這里的L0是因子分析主成分法估計的初始因子載荷陣,f0是用初始因子載荷陣L0回歸的初始因子(得分)[16]。
引理1(Weyl)[20]設(shè)∑和B都是n階實對稱陣,∑的特征值是λ1,…,λp,λ1≥…≥λp,B的特征值是v1,…,vp,v1≥…≥vp,若∑-B是非負(fù)定的,則λi≥vi(i=1,…,p)。
問題1解答:林海明[21]用新模型的可行解、德國數(shù)學(xué)家Weyl的引理1,求出新模型f*的解是:主成分法因子載荷陣L*回歸的因子得分f*,f*能降維、能較鮮明地解釋變量且不會遺漏變量解釋,即更好的因子分析模型是因子分析模型L,解決了問題1。
問題2解答:郭顯光[22]從SPSS軟件計算的角度,給出了初始因子載荷陣列向量與主成分系數(shù)向量的關(guān)系,但沒有給出因子與主成分的關(guān)系與計量上的差異。林海明等[23]應(yīng)用因子分析新模型及其解、主成分分析模型及其解,找到了因子與主成分的理論關(guān)系,設(shè)因子分析模型L的未旋轉(zhuǎn)因子解為初始因子,旋轉(zhuǎn)后因子解為旋轉(zhuǎn)后因子,則有初始因子等于標(biāo)準(zhǔn)化主成分;實際差異為方差和旋轉(zhuǎn)。因此,方差大于1的主成分取值范圍,較方差全為1的因子的取值范圍大,故二者計量不同,不可混淆,這解決了G S·馬達(dá)拉[13]沒有解決的問題2。據(jù)中國知網(wǎng)查閱,文[23]的結(jié)果被較多領(lǐng)域的研究論文引用,產(chǎn)生了較高的學(xué)術(shù)影響。
問題3解答:林海明等[24]在舊模型中,將非零特殊因子標(biāo)準(zhǔn)化并化簡舊模型,應(yīng)用新模型及其可行解,求出了舊模型公因子f的解,由此得出:公因子f含有方差貢獻(xiàn)大的公因子和多項互不相關(guān)的誤差項,不含互不相關(guān)的原始變量,這明確地證實了Johnson和Wichern、張堯庭和方開泰的觀點:公因子f不能降維且會遺漏變量解釋。突破了M·肯德爾認(rèn)為不可能求出因子分析模型解的問題3,說明了因子分析模型L是更好的。
問題4解答:林海明[25]在方開泰教授的指導(dǎo)和幫助下,用因子分析目的量化條件,建立了降維性、解釋性和擬合性的優(yōu)良性量化準(zhǔn)則,證明了因子分析新模型具有這些優(yōu)良性,說明了無偏性在因子分析中作用不大,主因子法、最大似然法不能達(dá)到這些優(yōu)良性。解決了Johnson和Wichern[5]認(rèn)為不幸的問題4。
自此,林海明等在方開泰教授、陳家鼎教授等的指導(dǎo)和幫助下,建立了因子分析改進(jìn)的模型:因子分析模型L,其改進(jìn)之處在于:解決了上述4個基本問題。上述4個問題的解決,得到了國內(nèi)較多研究者的引用,如朱建平等[26]將因子分析模型L及其應(yīng)用,寫入教育部高等學(xué)校統(tǒng)計學(xué)類專業(yè)教學(xué)指導(dǎo)委員會推薦用書、博雅·21世紀(jì)統(tǒng)計學(xué)規(guī)劃教材《應(yīng)用多元統(tǒng)計分析》。為了應(yīng)用因子分析模型L的結(jié)果,趙慧琴[27]給出了如何用SPSS軟件計算因子分析模型L的應(yīng)用結(jié)果。
3.1 主成分分析綜合評價的條件方面,主成分能解釋變量是主成分分析綜合評價推斷與評價的前提,劉樹梅等[28]認(rèn)為,主成分的具體涵義是什么,許多文獻(xiàn)沒有給予較為清楚的解釋,從而影響到結(jié)果的可信度。王學(xué)民[29]認(rèn)為,對主成分建立綜合評價函數(shù)的方法是錯誤的。林海明等[30]在正向變量標(biāo)準(zhǔn)化下,應(yīng)用因子分析新模型的解釋性及其初始因子載荷陣是變量與主成分的相關(guān)陣的關(guān)系,得出了主成分有具體涵義的條件(此稱為初始因子載荷陣較靠近簡單結(jié)構(gòu))。設(shè)p列初始因子載荷陣每行元素最大絕對值的平均數(shù)為b0,因子分析新模型的不同列旋轉(zhuǎn)后因子載荷陣每行元素最大絕對值的平均數(shù)最大者為bΓ,如果b0≥bΓ或b0≈bΓ,則主成分有具體涵義(如果此條件不滿足,則需要改用其它方法進(jìn)行綜合評價,如旋轉(zhuǎn)后因子分析)。解決了主成分能解釋(命名)的條件問題,并證明了主成分分析綜合評價函數(shù)y=α1F1+…+αmFm(αi=λi/p,λi是主成分Fi的方差)達(dá)到合理性條件為:①x= (x1,…,xp)′是正向、標(biāo)準(zhǔn)化的,②初始因子載荷陣較靠近簡單結(jié)構(gòu),③主成分F=(F1,…,Fm)′正向,④主成分F中的每個Fi與變量x中的一些變量顯著相關(guān)。據(jù)中國知網(wǎng)查閱,該論文結(jié)果被較多領(lǐng)域的論文引用,產(chǎn)生較大的學(xué)術(shù)影響。
3.2 對應(yīng)分析方面,對應(yīng)分析法的目的是將樣品與變量降維表示在低維圖中,從中得出變量之間、樣品之間、變量與樣品之間的關(guān)系。對應(yīng)分析早在1933年由Richardson和Kuder[31]提出。從20世紀(jì)30年代到20世紀(jì)70年代,許多著名的統(tǒng)計學(xué)家如Fisher[32],Maung[33],Guttman[34],Williams[35],Lancaster[36],Hayashi[37]以及文獻(xiàn)[38-43]等參與研究對應(yīng)分析模型和計算準(zhǔn)則,各自聲稱建立了一種新的統(tǒng)計方法,并冠以不同的名字,但這些方法的優(yōu)化準(zhǔn)則基本等價,計算結(jié)果基本一致,這在學(xué)科發(fā)展史上是較罕見的[44]。迄今國內(nèi)外流行的傳統(tǒng)對應(yīng)分析法是Benzécri[45](下稱B氏方法)在1970年提出的,它是對等性變換+R型因子分析+Q型因子分析的降維圖。但國內(nèi)外有專家質(zhì)疑,對等性變換是非線性變換,其改變了數(shù)據(jù)的特征,能達(dá)到對應(yīng)分析的目的嗎?如杜子芳[46]認(rèn)為:當(dāng)變量量綱不同時,對等性變換對數(shù)據(jù)陣中同一樣品的變量值相加的結(jié)果不可解釋(如某教室10張凳子+10張桌子=20的結(jié)果不可解釋),即B氏方法的對等性變換一開始就存在不可解釋的問題。在文中指出,二因素獨立時,對等性變換會把數(shù)據(jù)陣變?yōu)榱憔仃嚕f明對等性變換對數(shù)據(jù)陣的改變非常大,甚至不能解決問題。劉照德和林海明[47]在方開泰教授的指導(dǎo)和幫助下,根據(jù)對應(yīng)分析目的,建立對應(yīng)分析改進(jìn)模型,在變量標(biāo)準(zhǔn)化下,以因子分析新模型的因子f*建立坐標(biāo)系,用因子載荷陣L*表示變量、因子f*的樣品值表示樣品的圖。此圖稱為因子雙重信息圖。并證明了在變量標(biāo)準(zhǔn)化下,用主成分法的因子載荷陣L*及其回歸的因子f*作出的因子雙重信息圖是對應(yīng)分析改進(jìn)模型的解,能優(yōu)良地達(dá)到對應(yīng)分析目的,是更好的方法,并給出了實證。
3.3 因子分析綜合評價的條件方面。邱東[48]認(rèn)為,因子分析綜合評價要完成去量綱、去相關(guān)、定權(quán)數(shù)、降維這4項基本工作,在變量有一定相關(guān)時應(yīng)用比較理想。但王學(xué)民[29]認(rèn)為,對因子得分建立綜合評價函數(shù)的方法是錯誤的。而大量的綜合評價研究都用因子得分建立綜合評價函數(shù)。故有問題:因子分析綜合評價還需要哪些合理性條件?林海明等[49]在正向變量標(biāo)準(zhǔn)化下,應(yīng)用因子分析新模型的解釋性、降維性及其因子載荷陣是變量與因子的相關(guān)陣的關(guān)系,得出了因子有具體涵義的條件(此稱為因子載荷陣L較靠近簡單結(jié)構(gòu)):設(shè)p列初始因子載荷陣每行元素最大絕對值的平均數(shù)為b0,因子分析新模型的不同列旋轉(zhuǎn)后因子載荷陣每行元素最大絕對值的平均數(shù)最大者為bΓ,1)如果b0≥b?;騜0≈bΓ,則初始因子有具體涵義,此時用初始因子作綜合評價較合理;2)如果b04 因子分析新模型待拓展的研究
4.1 聚類分析拓展研究。任雪松[51]認(rèn)為,p個變量不相關(guān)、且有相同的方差時,使用歐式距離聚類才合適,效果也較好,否則有可能導(dǎo)致錯誤結(jié)論。我們認(rèn)為,聚類分析的結(jié)果,不能解釋同類樣品優(yōu)劣性的原因,不能提出更好決策的建議。故有問題:用新模型的因子樣品值作聚類分析,聚類分析效果何時更好?
4.2 判別分析拓展研究。判別分析有著許多重要的應(yīng)用,如吳世農(nóng)[52]的文獻(xiàn)等。我們認(rèn)為,判別分析的結(jié)果,不能解釋新樣品所在類別優(yōu)劣性的原因,不能對新樣品優(yōu)劣性提出更好決策的建議。故有問題:用新模型的因子樣品值作判別分析,判別分析效果何時更好?
4.3 結(jié)構(gòu)方程模型拓展研究?,F(xiàn)行的結(jié)構(gòu)方程模型中,測量方程參數(shù)的識別沒有優(yōu)化條件(侯杰泰等[53]),眾所周知,這不易得到優(yōu)良估計,甚至誤差較大,以致不能解決問題。故有問題:用新模型作為結(jié)構(gòu)方程模型的測量方程,結(jié)構(gòu)方程模型效果更好嗎?
4.4 回歸分析拓展研究。多元回歸分析時常出現(xiàn)多重共線性,模型需要修正(龐皓等[54])。將p個自變量用新模型的少數(shù)幾個因子替代,建立一個因變量與少數(shù)幾個因子的回歸模型,即因子回歸分析。故有問題:因子回歸分析效果何時更好?
傳統(tǒng)因子分析模型公因子存在不能降維、會遺漏變量解釋等缺陷,優(yōu)良性準(zhǔn)則沒有更好的量化。因子分析模型L解決了這些量化問題,具有能降維、能較清晰解釋數(shù)據(jù)、誤差較小的優(yōu)良性;解決了因子與主成分的理論關(guān)系與實際差異問題;拓展至主成分分析綜合評價中,找到了主成分能命名的條件等,拓展至對應(yīng)分析中,解決了傳統(tǒng)對應(yīng)分析較大改變數(shù)據(jù)的缺陷,較清晰地解釋了多元數(shù)據(jù);其拓展至因子分析綜合評價中,解決了因子分析綜合評價合理條件的問題。聚類分析、判別分析、回歸分析、結(jié)構(gòu)方程模型等都是較重要的多元分析方法,都需要較清晰的解釋多元數(shù)據(jù),以便更好地解決問題。故將因子分析模型L的教學(xué)與應(yīng)用普及化,并拓展研究至這些方法中,將產(chǎn)生更大的學(xué)術(shù)價值和應(yīng)用價值。