郭亞帆,杜金柱
(1.內(nèi)蒙古財經(jīng)學(xué)院 統(tǒng)計與數(shù)學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010051;2.內(nèi)蒙古財經(jīng)學(xué)院 教務(wù)處,內(nèi)蒙古 呼和浩特 010051)
經(jīng)典回歸與穩(wěn)健回歸方法的應(yīng)用比較研究
郭亞帆1,杜金柱2
(1.內(nèi)蒙古財經(jīng)學(xué)院 統(tǒng)計與數(shù)學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010051;2.內(nèi)蒙古財經(jīng)學(xué)院 教務(wù)處,內(nèi)蒙古 呼和浩特 010051)
本文首先給出基于傳統(tǒng)統(tǒng)計方法的經(jīng)典回歸方法中存在的一些不足,然后提出穩(wěn)健回歸方法的應(yīng)用并通過實(shí)證計算與經(jīng)典回歸進(jìn)行對比分析,最后對兩種回歸方法進(jìn)行應(yīng)用總結(jié),得出穩(wěn)健回歸方法在抵御數(shù)據(jù)中的離群值方面具有最小二乘回歸所無可比擬的優(yōu)越性的結(jié)論。但是由于穩(wěn)健統(tǒng)計方法通俗性比較差,使得經(jīng)典統(tǒng)計方法的地位始終無法動搖。因此,在實(shí)際運(yùn)用中,盡可能綜合使用經(jīng)典的和穩(wěn)健的統(tǒng)計方法,從而達(dá)到既能夠準(zhǔn)確掌握問題主體部分的信息,同時又不會忽略對非主體信息的充分挖掘。
穩(wěn)健統(tǒng)計;離群值;OLS回歸;穩(wěn)健回歸
統(tǒng)計學(xué)作為一門應(yīng)用性很強(qiáng)的工具性學(xué)科,其目的或任務(wù)是從眾多數(shù)據(jù)中挖掘有用的信息,然后得出有關(guān)這個領(lǐng)域的某些特征或結(jié)論,進(jìn)而用以指導(dǎo)實(shí)踐,來“創(chuàng)造”更好的數(shù)據(jù)。統(tǒng)計的結(jié)果一方面依賴于觀測數(shù)據(jù),另一方面依賴于對所研究總體某些特性的假設(shè),如分布形式,獨(dú)立性等等。穩(wěn)健統(tǒng)計學(xué)旨在克服當(dāng)數(shù)據(jù)顯著偏離假設(shè)時傳統(tǒng)統(tǒng)計學(xué)所面臨的一些困難,所針對的是統(tǒng)計學(xué)中一個普遍而實(shí)際的問題,這套方法無論是對科學(xué)研究還是對相關(guān)部門經(jīng)濟(jì)政策的制定都有著重要的理論意義和現(xiàn)實(shí)意義。
“穩(wěn)健”一次來源于英文“robust”,愿意是強(qiáng)壯、健康、堅韌、能經(jīng)受得住逆境的考驗,也有人用漢語諧音將其譯為“魯棒”。[1]穩(wěn)健統(tǒng)計實(shí)質(zhì)上就是傳統(tǒng)統(tǒng)計方法的穩(wěn)健化。我們知道,在應(yīng)用傳統(tǒng)的統(tǒng)計方法解決實(shí)際問題時,收集數(shù)據(jù)是進(jìn)行統(tǒng)計分析的基礎(chǔ)。然而在獲取數(shù)據(jù)過程中,往往會出現(xiàn)一些未被注意或難以覺察的意外情況。例如實(shí)驗或生產(chǎn)條件(包括原材料、實(shí)驗設(shè)備、工藝流程等)的突然變化,測量儀表的某種故障,操作人員在記錄和抄寫中的失誤等等,都會使數(shù)據(jù)出現(xiàn)或多或少地異常的數(shù)據(jù),我們稱之為異常值,或極端值、離群值(outlier)。①以上各種情況產(chǎn)生的異常值是不正常的,也就是錯誤的。實(shí)際數(shù)據(jù)中有時還會存在正常的異常值,即實(shí)實(shí)在在的數(shù)據(jù)。而且,如Hampel(1977)②指出,實(shí)際數(shù)據(jù)中含有10%左右的過失誤差(即通常所說的離群值)是常見的事。由于很多傳統(tǒng)的統(tǒng)計方法對離群值非常敏感,因此在傳統(tǒng)統(tǒng)計方法下,數(shù)據(jù)中含有少量離群值可能會對分析結(jié)果產(chǎn)生破壞性的影響,甚至導(dǎo)致完全錯誤的統(tǒng)計結(jié)論,這也就使一些經(jīng)典的統(tǒng)計分析變得毫無價值。在簡單的或者是一維數(shù)據(jù)情形下,我們可以利用一些準(zhǔn)則和方法識別出數(shù)據(jù)中的離群值,從而達(dá)到盡量使數(shù)據(jù)的實(shí)際分布與假定模型相吻合,以使經(jīng)典統(tǒng)計方法仍然具有比較理想的性能表現(xiàn)。但在高維情形,由于無法圖示和離群值之間的Mask效應(yīng)等原因,很難憑直覺或統(tǒng)計方法來判斷哪些數(shù)據(jù)是離群值。經(jīng)典的統(tǒng)計方法在這些場合將不再適用,它們需要穩(wěn)健化才能更好地反映真實(shí)情況。
傳統(tǒng)的線性回歸分析,是建立在最小二乘法的基礎(chǔ)之上的。最小二乘法要求誤差項是相互獨(dú)立、服從正態(tài)分布、以零為數(shù)學(xué)期望并有相同方差的隨機(jī)變量。當(dāng)實(shí)際的觀測值包含異常值時,誤差將不再服從正態(tài)分布,而是重尾分布(long-tailed distribution)。對這樣的數(shù)據(jù)作回歸分析時,回歸直線將是主體數(shù)據(jù)與異常值之間的一個妥協(xié),而與真實(shí)的回歸線相差較遠(yuǎn),也就是說,這樣估計出的參數(shù)是不準(zhǔn)確的。而穩(wěn)健回歸就能夠克服最小二乘回歸因離群值而失真的缺陷,得出更為接近實(shí)際值的估計。
上文已提及,離群值的出現(xiàn)既有主觀上的原因,也有客觀上的原因;既有正常的出現(xiàn),也有非正常的出現(xiàn)。實(shí)踐表明,不管是哪種情形,當(dāng)一個數(shù)據(jù)集中有10%或者更多的離群值時,我們就有應(yīng)該懷疑我們所處理的數(shù)據(jù)的分布形式。[2]在這種情況下,如果還利用我們基于理論分布的統(tǒng)計方法去處理問題,這顯然是不合理的,也是沒有意義的。換句話說,傳統(tǒng)的統(tǒng)計方法對實(shí)際分布與假定分布出現(xiàn)偏差很敏感。解決這一問題的方法有兩個思路:一是運(yùn)用合適的算法將數(shù)據(jù)中離群值識別并加以處理,之后再用傳統(tǒng)的統(tǒng)計方法來處理;二是采用對離群值不敏感的穩(wěn)健的統(tǒng)計方法來描述和說明數(shù)據(jù)。在實(shí)際運(yùn)用當(dāng)中究竟要采取哪種思路,這要看研究者的目的是什么。如果只想得出盡可能接近實(shí)際的結(jié)論,就用后一種思路;如果除此之外還想深入了解數(shù)據(jù)的分布形態(tài),那么采取第一種思路是必要的。因為離群值并不總是有害的,有相當(dāng)部分的離群值是代表了一些新的亮點(diǎn),如果對其“視而不見”,我們對好多重要信息就無法把握。當(dāng)然如果有必要,同時采用兩種方法是最佳的。
有關(guān)離群值的識別或檢驗問題,統(tǒng)計學(xué)界已經(jīng)做了許多積極有益的探討,尤其是對單個變量且樣本容量不大時,已有許多較好的檢驗方法,諸如:t-檢驗、Dixon檢驗、Grubbs檢驗、Nair檢驗、偏度-峰度檢驗等,而對多變量、樣本容量較大的情況,好的方法不是很多。但由于多變量情形在實(shí)際問題中應(yīng)用更為廣泛一些,所以本文以下將重點(diǎn)討論多變量數(shù)據(jù)中離群值對線性回歸的影響。
表1 20名學(xué)生的年齡(月)、身高(cm)、體重(kg)狀況表
在單變量數(shù)據(jù)中,離群值是以極大值或者極小值出現(xiàn)的,識別起來相對來說要容易一些。但在多變量數(shù)據(jù)中除了個別變量或所有變量有極端值以外,變量之間相互關(guān)系的不協(xié)調(diào)也會使相應(yīng)觀測量成為離群值。例如表1列出的20名學(xué)生的年齡、身高、體重狀況,表中第13號數(shù)據(jù),年齡:132(月),身高:132cm,體重:49kg。如果不考慮變量之間的關(guān)系,而分別分析各個變量,其在各自序列中都不算極端(20號數(shù)據(jù)體重為59kg,8號數(shù)據(jù)身高為134cm),但根據(jù)常理我們從直觀上看,該項記錄三個變量之間很不協(xié)調(diào),筆者利用統(tǒng)計軟件stata8.0中had imvo命令處理,結(jié)果顯示該項記錄的確為離群值。因此多變量數(shù)據(jù)離群值的識別要比單變量復(fù)雜得多,如果不加以處理,會嚴(yán)重影響變量之間包括相關(guān)關(guān)系在內(nèi)的各種關(guān)系。同樣還是上面的例子,如果按照原始數(shù)據(jù)計算身高與體重的相關(guān)系數(shù)為0.8147,去掉第13號數(shù)據(jù)再計算就躍升為0.9713。不僅如此,這樣的離群值還會影響相應(yīng)變量的回歸結(jié)果,導(dǎo)致不準(zhǔn)確或者完全錯誤的結(jié)論,進(jìn)而造成預(yù)測乃至決策的不準(zhǔn)確。本文利用呼和浩特市居民實(shí)際支出和人均可支配收入的調(diào)查數(shù)據(jù)作回歸分析,并比較在剔除離群值前后回歸結(jié)果以及各項檢驗統(tǒng)計量的變化情況。[3]
表2 可支配收入與實(shí)際支出剔除離群值前后回歸結(jié)果及穩(wěn)健回歸比較
首先利用原始數(shù)據(jù)對從1995年-2006年各年份的居民實(shí)際支出和可支配收入數(shù)據(jù)進(jìn)行普通最小二乘回歸分析,然后逐年剔除兩個變量中的離群值,之后用剩下的“干凈”的數(shù)據(jù)再次回歸。并列表比較。比較結(jié)果見表2。觀察表2可知,兩個變量離群值的數(shù)量與分別對單個變量識別的離群值的數(shù)量有了很大的變化,這說明多維變量離群值的檢測更多的是考慮變量之間的協(xié)調(diào)關(guān)系而非各個變量數(shù)值上的極端性質(zhì)。觀察剔除離群值前后回歸系數(shù)以及系數(shù)的t檢驗統(tǒng)計量和回歸可決系數(shù)R2我們發(fā)現(xiàn),以上兩項重要的檢驗回歸結(jié)果的統(tǒng)計量都有不同程度的改善和提高。特別是2001、2002和2003年三個回歸結(jié)果常數(shù)項為負(fù)值(分別為-986.6311、-1462.813、-367.4565),消費(fèi)傾向大于1(分別為:1.0657、1.1302、1.0557,但是t檢驗都卻能通過),已經(jīng)無法解釋其經(jīng)濟(jì)意義,有的常數(shù)項系數(shù)檢驗通不過,但是在剔除離群值之后的情況:對應(yīng)常數(shù)項(分別為:841.3361、1567.995、1913.855)和消費(fèi)傾向(分別為:0.7470、0.6512、0.6181)立刻得到質(zhì)的改變,系數(shù)檢驗都能通過,可決系數(shù)也得到很大的提高。對2006年回歸結(jié)果的影響也很大,常數(shù)項和消費(fèi)傾向分別由644.4799元和1.0115變?yōu)?776.189元和0.6275,可決系數(shù)由0.209變?yōu)?.5045。
通過以上分析我們可以看出多維變量數(shù)據(jù)中離群值對普通最小二乘回歸的影響之大遠(yuǎn)遠(yuǎn)超出我們的想像。對于以上四個年度的回歸結(jié)果,我們尚且尚有理論依據(jù)認(rèn)定這樣的結(jié)果肯定是錯誤的(即常數(shù)項必須為正,截距項不應(yīng)該大于1),進(jìn)而去尋找原因。有些情況我們并沒有先驗的知識去判斷所產(chǎn)生的結(jié)果是否合理,而是相反要根據(jù)結(jié)果去得出結(jié)論。這時如果不考慮離群值的影響,其危害性時可想而知的。
以上分析了多變量數(shù)據(jù)中離群值對經(jīng)典最小二乘回歸的影響,得出的結(jié)論是剔除離群值后的回歸結(jié)果有很大的改善。但是并不是在所有情況下都能夠把離群值識別出來,一是由于實(shí)際數(shù)據(jù)之間的關(guān)系往往很復(fù)雜,這給識別離群值增加了難度;二是雖然識別離群值的方法有很多,但每種方法都不是盡善盡美的,都有其處理不了或者處理結(jié)果不是很理想的情況。就本文提到stata軟件中基于Hadi距離的hadimvo命令,我們也不能保證其結(jié)果非常理想。因此利用不受極端值影響的穩(wěn)健回歸方法來處理實(shí)際問題最能夠保證結(jié)果的有效性,同時又免去了對處理離群值方法的選擇是否合適的考慮。表2后兩列是利用stata軟件所作的穩(wěn)健回歸的結(jié)果。
可見,穩(wěn)健回歸所得的系數(shù)與前面剔除離群值之后所得到的結(jié)果相差不大,t檢驗統(tǒng)計量卻又有比較大的提高,③這說明穩(wěn)健回歸結(jié)果是充分可信的,同時也反映了穩(wěn)健回歸在抵御離群值方面所具有的無可比擬的優(yōu)越性。
在科研和生產(chǎn)生活領(lǐng)域中,實(shí)際數(shù)據(jù)不符合理想化假定,或出現(xiàn)一些離群值都是無法回避的事實(shí)。如果忽視它們的客觀存在,就不能保證統(tǒng)計結(jié)果的有效性。穩(wěn)健統(tǒng)計學(xué)從理論上論證了經(jīng)典統(tǒng)計方法的不穩(wěn)健性,應(yīng)當(dāng)喚起我們對經(jīng)典統(tǒng)計方法缺陷的足夠重視。因此筆者認(rèn)為應(yīng)該改變過去那種籠統(tǒng)地套用傳統(tǒng)統(tǒng)計方法的習(xí)慣,將實(shí)際數(shù)據(jù)的預(yù)處理(包括數(shù)據(jù)的統(tǒng)計分布特征、離群值的檢驗和處理等)作為統(tǒng)計分析中必不可少的第一步。滿足應(yīng)用條件的數(shù)據(jù)才可以運(yùn)用經(jīng)典的統(tǒng)計方法處理,否則必定會得出錯誤的結(jié)論。
從前面的分析中我們不難看出,由于居民基本生活指標(biāo)數(shù)據(jù)中有離群值的存在,使得類似基于普通最小二乘法這樣的傳統(tǒng)回歸方法在處理這些數(shù)據(jù)時,其結(jié)果都不同程度地受到影響。而進(jìn)行穩(wěn)健回歸不必考慮數(shù)據(jù)的離群值問題,一次便可得到比較理想的結(jié)果,從而改進(jìn)了最小二乘法受極端值影響太大的缺點(diǎn)。但是,穩(wěn)健估計的運(yùn)算比較復(fù)雜,需要首先選取目標(biāo)函數(shù)(ρ函數(shù)),然后用迭代法求解。而目標(biāo)函數(shù)以及迭代初值的選取不僅直接影響到估計的穩(wěn)健性,而且涉及到一些較為復(fù)雜的問題,需要進(jìn)一步作較為深入的研究。盡管有專門的軟件可以計算和實(shí)現(xiàn)一些穩(wěn)健的統(tǒng)計方法,但是由于不同軟件的算法往往都根據(jù)不同的原理設(shè)計,其處理結(jié)果往往不能夠保持很好的一致性,這給實(shí)際運(yùn)用帶來一些不便。因此,要想用穩(wěn)健統(tǒng)計方法取代傳統(tǒng)的統(tǒng)計方法是很困難的,也是沒有必要的。而我們承認(rèn)經(jīng)典統(tǒng)計方法的缺陷,并非就意味著對其的否定。經(jīng)典統(tǒng)計方法作為一整套應(yīng)用性很強(qiáng)的工具,已經(jīng)滲透到經(jīng)濟(jì)及社會實(shí)際問題研究的各個領(lǐng)域,因此,盡管在一些情況下存在缺陷,但是由于穩(wěn)健統(tǒng)計方法通俗性比較差,在運(yùn)用過程中還有一些不確定性,使得經(jīng)典統(tǒng)計方法的地位始終是無法動搖的。所以,我們在實(shí)際運(yùn)用中,并不提倡單獨(dú)使用其中的一種,而是盡可能綜合使用經(jīng)典的和穩(wěn)健的統(tǒng)計方法,從而達(dá)到既能夠準(zhǔn)確掌握問題主體部分的信息,同時又不會忽略對非主體信息的充分挖掘。[4]
[注 釋]
① 國內(nèi)外大多數(shù)文獻(xiàn)中對這三個概念基本上不做區(qū)分,但筆者認(rèn)為,異常值和離群值應(yīng)該沒有區(qū)別,都包含有分析者的主觀認(rèn)識,而極端值就是事實(shí)的客觀描述,其中并沒有主觀成分。在不同的分析背景下,有的極端值有時被認(rèn)為是離群值或異常值,而有的極端值則不是.
② Hampel.F.R.Rejection rules and robust estimates of location:An analysis of some Monte-Carlo results.In“Transactions of the Seventh Pargue Conference and of the EuropeanMeeting of Statisticians”,1977,187-194.
③ Stata結(jié)果沒有給出可決系數(shù),這是因為R2是對線性回歸總體擬合效果的衡量,而穩(wěn)健回歸是一個非線性迭代的過程.
[1] R·L·奧特,M·朗格內(nèi)克.統(tǒng)計學(xué)方法與數(shù)據(jù)分析引論(第1版)[M].北京:科學(xué)出版社,2003.
[2] David C Hoaglin,等.探索性數(shù)據(jù)分析(第1版)[M]..北京:中國統(tǒng)計出版社,1998:165-178.
[3] 郭亞帆.穩(wěn)健統(tǒng)計基本理論及其在居民收入與支出指標(biāo)中的應(yīng)用研究[D].天津:天津財經(jīng)大學(xué)統(tǒng)計學(xué)院,2005.
[4] 孫憲華.穩(wěn)健統(tǒng)計在經(jīng)濟(jì)指標(biāo)中的應(yīng)用及其啟示[J].現(xiàn)代財經(jīng),2003,(12):36-38.
[5] 郭亞帆.穩(wěn)健統(tǒng)計及幾種統(tǒng)計量的穩(wěn)健性統(tǒng)計分析[J].統(tǒng)計研究,2007,(9):82-84.
C81
A
1004-5295(2010)04-0095-04?
2010-07-14
郭亞帆(1977-),女,內(nèi)蒙古土左旗人,內(nèi)蒙古財經(jīng)學(xué)院統(tǒng)計與數(shù)學(xué)學(xué)院講師,碩士,從事數(shù)量經(jīng)濟(jì)方法在區(qū)域經(jīng)濟(jì)中的應(yīng)用、農(nóng)業(yè)競爭力等方面的研究.
[責(zé)任編輯:高平亮]