張曉琴,牛建永,李順勇
(1.山西財經大學 統(tǒng)計學院,山西 太原 030006;2.山西大學 數學科學學院,山西 太原 030006)
當經典線性回歸模型的其它假設滿足而同方差假設不滿足時,稱這樣的模型為異方差模型。在截面數據中異方差性經常出現,當線性回歸模型出現了異方差時,會對模型的估計和檢驗造成不良后果。研究線性回歸模型主要是用于對模型進行估計和預測,而對模型進行估計和預測的前提是要確保模型具有一定的正確性和精確性。若對異方差線性回歸模型進行最小二乘(OLS)估計會導致模型的估計與預測的精度降低,這就需要對其異方差問題進行有效的處理。
傳統(tǒng)的處理異方差問題的方法主要有廣義最小二乘法(GLS)、可行廣義最小二乘法(FGLS)、Box-Cox變換法[1]等。近年來,國內外一些學者提出了處理異方差問題的不同方法如下:Su L等提出了使用局部多項式估計異方差多元線性回歸模型[2];何其祥等提出了用局部多項式回歸估計一元異方差線性回歸模型[3],這兩種方法均是使用局部多項式估計法估計模型的參數,雖然局部多項式估計具有一定的精確性,但在維數較高時帶寬矩陣的選擇是難點,因而此方法在多元模型中很難有效進行;Zhang等提出了用正交表法估計異方差線性回歸模型[4],此方法將廣義最小二乘和正交表法結合起來,模型估計結果具有一定的可靠性,但在用正交表法估計模型誤差項估計量的過程中,產生因變量值時未用到自變量的信息,因此該方法在精確性上有待改進;張荷觀提出了用分組兩階段估計方法對異方差線性回歸模型參數進行估計[5],此方法不受模型維數的限制,是通過分組的方法對自變量產生重復數據進而對模型進行估計,但這有可能造成樣本信息的損失,而且在多元線性回歸模型中此方法需要先判斷引起異方差最主要的自變量,而如何判斷引起異方差最主要的自變量目前還沒有比較有效的方法,因此分組兩階段估計方法具有一定的局限性;李順勇等提出了基于變量選擇和聚類分析的兩階段異方差模型估計[6],此方法把變量選擇和聚類方法與廣義最小二乘法結合起來,使模型估計具有一定的可行性,但在樣本較小的情況下使用聚類方法容易聚成單類情況,此時這種方法失效,因此該方法也有一定的缺陷?;谏鲜龇治?,本文擬提出一種新的異方差模型的兩階段估計,主要思想是把異方差一致協(xié)方差陣估計HC5m和廣義最小二乘估計法相結合,綜合使用樣本的全部信息,而且不受模型維數的限制,并將通過大量蒙特卡洛數值模擬和實證研究,對該方法和分組兩階段估計方法進行比較分析。
經典線性回歸模型一般形式為:
(1)
用矩陣表示為:
(2)
其中
當異方差模型的誤差項的協(xié)方差陣未知時,張荷觀使用分組兩階段估計方法對異方差模型進行估計。以式(1)為例,介紹此方法的主要思想和步驟。假設樣本數據(yi,xi1,xi2,…,xip),i=1,2,…,n滿足式(1),x(1)=(x11,x21,…,xn1)T是引起線性回歸模型異方差最主要的自變量,該方法的主要思想和步驟如下:
1.把自變量x(1)的觀測值x11,x21,…,xn1按由小到大進行排序,其它自變量和因變量與之原對應的關系保持不變。
(3)
對式(3)兩邊同時除以στ,則式(3)變成同方差線性回歸模型。
5.把στ的估計量Sτ帶到變換后的式(3)中,根據OLS法求出模型估計即為式(1)的估計。
1980年,White提出了異方差一致協(xié)方差矩陣估計量(HCCME)[7],該估計量稱為HC0:
在同方差和異方差的模型中,當誤差項的協(xié)方差矩陣形式未知的情況下,HC0估計是協(xié)方差陣Ψ的一致估計量,因此根據HC0估計進行模型的顯著性檢驗和回歸參數的顯著性檢驗,但HC0估計只適用于大樣本情況下,當樣本量比較小時則會產生較大偏差。實際上,HC0低估了模型參數估計的真實方差,使得quasi-t檢驗不再具有一定的精確性,一些學者對HC0估計量做了一些修正,這些修正方法統(tǒng)稱HCCMEs[8-13],包括:
ω=1,2,3,4,5,4m,5m,hi為帽子矩陣H的第i個主對角元素,i=1,2,…,n,及
i=1,2,…,n。且
張荷觀在兩階段估計方法中使用了分組方法使自變量產生重復數據,這有可能損失樣本信息,而且在多元線性回歸模型中進行異方差檢驗時采取把多元線性回歸模型的異方差檢驗變?yōu)閷γ總€一元線性回歸模型進行Cochran異方差檢驗。若所有一元線性回歸模型均不存在異方差,則可說明多元線性回歸模型不存在異方差(反之亦然),再比較存在異方差的一元線性回歸模型的Cochran檢驗臨界值大小,由最大的Cochran檢驗臨界值作為引起多元線性回歸模型異方差最主要的自變量;由于多元線性回歸模型并不等同于多個一元線性回歸模型的簡單相加,一般情況下會有多個自變量使模型出現異方差,因此使用分組兩階段估計方法對多元線性回歸模型進行估計的結果也就不具有一定的精確性。針對分組兩階段估計方法的局限性,本文提出了異方差線性回歸模型的兩階段估計,即基于異方差一致協(xié)方差陣估計。
綜合上述思想,下面給出該方法的具體步驟:
第一步,由異方差一致協(xié)方差矩陣估計量HC5m計算Σ5m,作為異方差線性回歸模型誤差項協(xié)方差陣Σ的估計。
本文將在一元和多元異方差線性回歸模型下,用大量數值模擬和實證分析比較本文提出的方法(簡記為M1)與分組兩階段法(簡記為M2)的優(yōu)劣,并選用如下三個衡量指標進行評價:
模型誤差項方差的平均絕對誤差[注]此評價指標進行的是橫向比較,即在相同的情況下不同方法間的優(yōu)劣比較。:
模型因變量預測值的平均絕對誤差[注]同上。:
決定系數R2:
本節(jié)數值模擬部分的r模擬重復次數為1 000次,其中M2的分組組數k的取值分別為3、6、10。
1.一元異方差線性回歸模型的數值模擬
假設一元異方差線性回歸模型為:
yi=β0+β1xi+εi(i=1,2,…,n)
(4)
在表1中的任何一種情況下,使用M1得出的參數估計值均非常接近真實值-1和4;而使用M2在x~P(6)、k=3情形下,估計值與設定值相差較大,說明在一元異方差模型中M1在模型的估計和擬合精度方面更具有一定的優(yōu)勢,原因在于M1綜合使用了全部的樣本信息。從圖1可見,在不同樣本量下使用M1得出的MAEΣ和MAEy均小于使用M2得出的結果,而使用M1得出的R2均大于用M2得出的結果。
圖1 在x~U(0,10)下MAE∑,MAEy、R2模擬結果比較圖
自變量的取值分布樣本量參數估計M1M2k=3k=6k=10x~U(0,10)n=30n=60n=90^β=^β0^β1()-1.015 44.005 2()-1.118 44.013 1()-0.974 93.989 9()-1.000 53.996 9()-1.006 84.001 8()-0.988 13.996 3()-0.967 43.987 9()-1.006 73.995 6()-0.996 13.998 1()-0.998 53.995 3()-0.983 93.992 9()-1.006 53.996 5()x~U(0,5)n=30n=60n=90^β=^β0^β1()-1.003 34.006 7()-0.982 94.379 8()-0.999 54.051 5()-0.998 53.994 8()-0.999 93.999 6()-0.988 84.445 2()-1.001 34.092 5()-0.998 64.0159()-1.001 74.001 6()-1.020 54.459 5()-0.999 74.101 4()-0.998 34.028 0()x~P(6)n=30n=60n=90^β=^β0^β1()-0.990 23.998 0()-2.878 84.330.3()-1.188 24.025 9()-0.927 33.989 0()-1.014 74.003 6()-3.434 14.435 6()-1.425 84.077 9()-1.115 14.019 3()-1.010 04.002 0()-3.581 34.436 8()-1.358 94.082 2()-0.993 93.996 9()
2.多元異方差線性回歸模型模擬
假設多元異方差線性回歸模型為:
yi=β0+β1xi1+β2xi2+β3xi3+εi
i=1,2,…,n
(5)
1)x1,x2,x3~U(0,10)
2)x1,x2,x3~N(10)
3)x1,x2,x3~Exp(1)
4)x1~U(0,10)x2~Exp(5)x3~P(3)
即樣本量n的取值和自變量x的取值分布共有12種組合。通過式(5)可以得到n個因變量y的樣本觀測值,分別用M1、M2對式(5)的參數進行估計,部分模擬結果如表2和圖2所示。
表2是在x1,x2,x3~Exp(1)與x1~U(0,10)、x2~Exp(5)、x3~P(3)情形下,使用M1、M2在不同的樣本量下模型參數估計的模擬結果;圖2是在x1~U(0,10)、x2~Exp(5)、x3~P(3)情形下,使用M1、M2在不同的樣本量下得出的MAEΣ、MAEy、R2的結果比較。
表2 多元線性模型參數估計模擬結果表
圖2 在x1~U(0,10)、x2~Exp(5)、x3~P(3)下MAEΣ、MAEy、R2的模擬結果比較圖
由表2可見,各種情形下的參數估計值均非常接近真實值-3、7、-0.1、4,但在多數情況下使用M2得出的參數估計值與真實值的偏離程度都比較大,這說明在多元異方差線性回歸模型中,M1在模型的估計和擬合精度方面同樣更具有一定的優(yōu)勢,原因同樣在于M1綜合使用了全部的樣本信息。
從圖2可見,在不同的樣本量下使用M1得出的MAEΣ、MAEy均小于使用M2得出的結果,使用M1得出的R2值均大于使用M2得出的結果;且M2方法的MAEΣ,MAEy值有隨樣本量的上升而下降的趨勢,而本文提出的M1方法的MAEΣ,MAEy值基本隨樣本量的上升而上升的趨勢,這種情況的產生有以下兩個原因:
第一,對MAEΣ,MAEy進行的是橫向間比較,即在相同情況下對不同方法間的優(yōu)劣比較,圖2主要是為了更直觀地說明兩種方法M1與M2間的優(yōu)劣;MAEΣ、MAEy實際上并不能很恰當地反應出每種方法間的縱向比較(也沒有必要),即在不同的樣本量下MAEΣ、MAEy值的大小比較沒有直觀的意義。
第二,從圖2可見,M2方法的MAEΣ、MAEy值雖然有隨樣本量的上升而下降的趨勢,但每種情況的變化幅度均較大;而M1方法的MAEΣ、MAEy雖然有隨樣本量的上升而上升的趨勢,但是均在同一個數量級下變化且變化的幅度比較小,說明M1方法比較穩(wěn)定,并且結果均小于M2方法的MAEΣ、MAEy的值。
本文實證分析分為一元和多元異方差線性回歸模型兩部分。為了更方便地比較M1與M2之間的優(yōu)劣,兩部分實證數據均使用張荷觀的數據。
1.一元異方差線性回歸模型實證分析。本數據是關于40戶家庭收入x(美元)與消費支出y(美元)的數據,建立線性回歸模型如下:
yi=β0+β1xi+εi(i=1,2,…,40)
(6)
經檢驗模型(6)存在異方差,使用M1、M2方法對模型(6)進行參數估計的結果見表4。
表4 一元異方差線性回歸模型估計實證分析結果表
從表4可以看出:使用M1得出的MAEy小于用M2得出的結果;除了在k=10情況下,使用M2得出的R2與用M1得出的R2非常接近外,其它情況均明顯小于用M1得出的結果;在模型參數估計方面,使用M1和M2得出的參數估計值符號均一致。綜上,在一元異方差線性回歸模型實證分析中M1比M2好。
2.多元異方差線性回歸模型實證分析。本數據是關于31個地區(qū)城鎮(zhèn)居民家庭消費性支出y與收入x1、食品支出x2及娛樂教育文化服務支出x3的數據,建立線性回歸模型如下:
yi=β0+β1xi1+β2xi2+β3xi3+εi
i=1,2,…,31
(7)
其中根據張荷觀提出的異方差檢驗法,模型(7)存在異方差,而且自變量x1是引起異方差的最主要因素。使用M1,M2對模型(7)的估計結果如表5所示。
從表5可以看出:使用M1得出的MAEy小于用M2得出的結果,用M1得出的R2大于M2得出的結果;在模型參數估計方面,使用M1得出的估計值除了常數項符號與用M2得出的相反外,其它模型系數估計值符號均一致,而常數項符號并不影響模型的精確性。由此得出,在多元異方差線性回歸模型實證分析中M1比M2好。
表5 多元異方差線性回歸模型估計實證分析結果表
本文將異方差一致協(xié)方差陣估計HC5m和廣義最小二乘估計法相結合,綜合使用全部樣本的信息,提出了一種新的異方差模型估計方法M1,改進了原有的兩階段估計方法M2。通過對一元和多元異方差線性回歸模型分別用M1、M2進行數值模擬,結果表明M1優(yōu)于M2;同時,對一元和多元異方差線性回歸模型分別在M1、M2下進行實證分析,結果同樣表明M1比M2效果好??梢?,本文提出的方法不受模型維數限制,不會造成樣本信息的損失,對模型的擬合更加精確。
本文討論的是假定誤差項的協(xié)方差矩陣為對角矩陣的情形,但在實際中還存在一些線性回歸模型誤差項的協(xié)方差陣形式更一般的情形(不是對角陣),而且誤差項的協(xié)方差陣里常常包含著未知參數。目前,對未知參數的估計還沒有確定的估計方法,因此筆者認為在這方面還有必要做進一步的探索性研究。