鄭紅艷,夏樂天
(河海大學 理學院,南京 210098)
經典線性回歸模型的一個重要假設就是回歸方程誤差項εi具有相同的方差,也稱方差齊性,其經典線性回歸模型可以表示為
假設有 n 組觀察值(yi,xi2,xi3,…,xik),i=1,2,…,n,則(1)式可表示為
用矩陣可表示為
其中Y是被解釋變量觀察值的n維向量,X是解釋變量的n×p矩陣,β為p維的未知系數向量,ε是n維的隨機誤差項向量。
如果在回歸模型(2)中,不管x取什么值,εi的方差都是同一常數,我們就說εi具有同方差性(也稱方差齊性)。然而,在現(xiàn)實中,人們發(fā)現(xiàn)有不少現(xiàn)象與方差齊性相違背。當方差齊性假定不滿足,也就是說誤差項εi的方差不等于一個常數,即
則稱誤差項εi具有異方差性。在模型(3)中,除誤差項具有異方差性外,其它基本假設都能滿足,則稱這種模型為異方差的線性回歸模型,簡稱異方差模型[1-2]。
特別是當討論橫截面數據時,異方差性通常是不可避免的。例如,當討論公司利潤與若干解釋變量的線性回歸模型時,大規(guī)模公司的利潤顯然比小規(guī)模公司的利潤有更大的波動性,又如,當研究家庭收入(解釋變量)和儲蓄(因變量)之間的線性回歸關系時,由于高收入家庭除了必要的家庭支出外剩余較多,隨意支配部分較大,因而,他們儲蓄多少的隨意性也較大,即儲蓄額的差異較大。
如果對異方差模型進行最小二乘估計(OLS估計),就會產生嚴重的錯誤[3]:參數估計量的方差不具有最小方差性;估計與預測的精度降低。因此,異方差性的檢驗具有重要的經濟意義。
常用的檢驗異方差的方法有很多。如果在同一條件下,存在重復試驗或重復觀察的話,統(tǒng)計學家已經提出了不少方差齊性的檢驗方法。譬如,巴特列特(Bartlett)檢驗等[4]。但是,在經濟問題中,很少存在這種數據,為此,經濟計量學家又提出了許多不同的方法,譬如圖示法、斯皮爾曼(Spearman)的秩相關系數檢驗法、戈德菲爾德-匡特(Goldfeld-Quandt)檢驗法等等,文獻[4]甚至還給出了一種不依賴于殘差的異方差檢驗方法。其中,戈德菲爾德-匡特檢驗法(簡稱“G-Q檢驗法”)是最為常用的方法之一。由于戈德菲爾德-匡特檢驗方法只適用于一個自變量[3],因此,本文給出了一種適用于多變量的異方差檢驗法,該法實質上就是一種推廣的G-Q檢驗法,它只需要對樣本數據進行若干次單變量G-Q檢驗,即可得到是否有“方差齊性”的推斷。
戈德菲爾德-匡特檢驗,簡稱G-Q檢驗,這種檢驗適用于大樣本。這種檢驗要求隨機項εi服從正態(tài)分布且εi無序列相關。檢驗的方法以F檢驗為基礎,它把隨機樣本分為三段,去掉中間一段。假定低樣本組的數據具有同方差性,設方差為,高樣本組的數據也具有同方差性,設方差為。然后比較高樣本組與低樣本組的方差是否相同。若方差相同,說明數據中不存在異方差;若方差不同,說明數據中存在異方差。
設 x為所考慮的解釋變量,檢驗原假設 H0:,備擇假設 H1:。
G-Q檢驗的步驟為:
(1)把觀察值按照解釋變量x由小到大的順序排列,對應的被解釋變量與解釋變量的對應關系不變。
(2)略去c個中心觀察值,c的大小約為樣本容量n的四分之一到三分之一,為了計算上的方便最好使n-c為偶數。
(3)剩下n-c個樣本觀察值分為大小相等的兩個樣本,第一個樣本包含的觀察值相應于解釋變量x的較小部分第二個樣本包含的觀察值相應于解釋變量x的較大部分。
(4)應用普通最小二乘法對每個樣本分別進行回歸,并計算出相應的殘差平方和ESS1和ESS2。
(5)選擇統(tǒng)計量
在H0為真時,F(xiàn)服從自由度為r1=(n-c-2k)/2,r2=(n-c-2k)/2的F分布。這里的k為回歸模型中參數的個數。如果選定顯著性水平α,那么可利用F分布的臨界值Fα(上側α分位點)進行顯著性檢驗。當F>Fα時,拒絕原假設H0,認為存在異方差性,當 F≤Fα時,接受原假設 H0,認為 εi方差齊性。
G-Q檢驗法對單個解釋變量來說,是一種方便、快捷檢測異方差存在性的方法。但對于多個解釋變量,這種方法在使用上有一定的困難。因此,本文對這種方法作進一步的推廣。
由于多元線性回歸模型的異方差檢驗實際上可以轉化為,對每個解釋變量對應被解釋變量的一元線性回歸模型的異方差檢驗,若所有一元線性回歸模型都不存在異方差,則可近似認為多元線性回歸模型或數據不存在異方差,反之,若出現(xiàn)有一個一元線性回歸模型存在異方差,則就認為原多元線性回歸模型或數據存在異方差。從而我們可以得到一種針對多變量的推廣的G-Q檢驗方法,即對每一個解釋變量采用單變量的G-Q檢驗方法,檢驗是否存在異方差。若其中有一個一元線性回歸模型存在異方差,則就認為原多元線性回歸模型或數據存在異方差。具體步驟如下:
(1)把觀察值按照解釋變量xi(i=1,2,…,n)由小到大的順序排列,對應的被解釋變量與解釋變量的對應關系不變。
(2)略去c個中心觀察值,c的大小約為樣本容量n的四分之一到三分之一,為了計算上的方便最好使n-c為偶數。
(3)剩下n-c個樣本觀察值分為大小相等的兩個樣本,第一個樣本包含的觀察值相應于解釋變量xi的較小部分第二個樣本包含的觀察值相應于解釋變量xi的較大部分。
(4)應用普通最小二乘法對每個樣本分別進行回歸,并計算出相應的殘差平方和ESS1i和ESS2i。
(5)選擇統(tǒng)計量
在 H0為真時,F(xiàn)i(i=1,2,…,n)服從自由度為 r1=(n-c-2k)/2,r2=(n-c-2k)/2的F分布。這里的k為回歸模型中參數的個數。如果選定顯著性水平α,那么可利用F分布的臨界值Fα(上α側分位點)進行顯著性檢驗。當存在Fi>Fα時,拒絕原假設 H0,認為存在異方差性,當所有 Fi≤Fα(i=1,2,…,n)時,接受原假設H0,認為εi方差齊性。
表1 31個地區(qū)城鎮(zhèn)居民家庭全年人均經濟數據
下面,我們以一個實例來驗證以上方法的可行性和有效性??紤]消費性支出(y)與收入(x1)、食品支出(x2)及娛樂教育文化服務支出(x3)的關系模型。收集2007年我國31個地區(qū)的城鎮(zhèn)居民家庭平均每人全年的消費性支出包括食品支出及娛樂教育文化服務支出,各地區(qū)城鎮(zhèn)居民平均每人全年家庭實際收入數據(單位:千元)如表1所示。
首先我們采用文獻[3]給出的方法,經過計算,可知表1中數據不存在異方差,這似乎有悖經濟學方面的理論。下面我們使用本文提出的方法,再次對數據進行檢驗。
對解釋變量x1按照從小到大的順序進行排序,對應的被解釋變量與解釋變量的對應關系不變。去掉排序后的中間9組數據,即c=9,n=31,k=2,就可得到兩個樣本,其樣本個數都是11,且第一個樣本包含的觀察值相應于解釋變量x1的較小部分第二個樣本包含的觀察值相應于解釋變量x1的較大部分。
對前11組數據進行回歸得到
其殘差平方和為1.2383。
對后11組數據進行回歸得到
其殘差平方和為5.7738。
檢驗統(tǒng)計量為
類似地,我們對解釋變量x2和x3進行以上處理,得到檢驗統(tǒng)計量 F2=4.87,F(xiàn)3=4.12。
查 F 分布表,得臨界值 F0.05(9,9)=3.18。 由于 Fi>3.18,i=1,2,3,所以接受備擇假設,即認為數據中存在異方差。
事實上,用本文中所給的方法對文獻[3]中的例子進行檢驗,也可以得到相同的結論。
在某些有關計量經濟的回歸模型中,假設誤差項具有方差齊性是不合理的。異方差的情況在截面數據中常常出現(xiàn).。對這種異方差模型進行最小二乘估計,會產生嚴重的錯誤,因此研究異方差的檢驗方法具有重要意義。
由于戈德菲爾德-匡特檢驗方法只適用于一個自變量,因此,本文給出針對多變量的G-Q檢驗方法,即對每個解釋變量進行異方差檢驗,從而判斷原模型的異方差性。通過實例我們還看出,本文所給的方法比文獻[3]中的方法適用更廣,也更簡便易行,即只要進行若干次的單變量G-Q檢驗就行了。
當然,異方差的檢驗除了上述敘述的方法外,還有很多的方法。文獻[3]給出了一種基于樣本主成分的推廣的G-Q檢驗方法,文獻[4]則給出了一種基于分組的異方差檢驗方法。如何根據實際情況選擇最好的檢驗方法是值得研究的。當然,最優(yōu)檢驗方法的選擇不是固定的,George G.Jude[7]等人認為,最優(yōu)檢驗方法的選擇還依賴于人們對可能的異方差形式的先驗認識。
[1]White H.A.Heteroscedasticity-Consistent Covariance Matrix Estimator and Direct Test for Heteroscedasticity[J].Econometrica,1980,(48).
[2]Park R.E.Estimation With Heteroscedastic Error Terms[J].E-conometrica,1966,(34).
[3]龔秀芳.戈德菲爾德-匡特檢驗的推廣[J].數理統(tǒng)計與管理,2005,24.
[4]張荷觀.基于分組的異方差檢驗和兩階段估計[J].數量經濟技術經濟研究,2006,(1).
[5]白雪梅.異方差性的檢驗方法及評述[J].東北財經大學學報,2002,(11).
[6]王正林等.精通MATLAB科學計算[M].北京:電子工業(yè)出版社,2007.
[7]姜詩章,王錦功.計量經濟學教程[M].吉林:吉林大學出版社,1989.