劉 明,黃恒君(蘭州財經(jīng)大學(xué) a.甘肅經(jīng)濟發(fā)展數(shù)量分析研究中心;b.統(tǒng)計學(xué)院 甘肅 蘭州 730020)
在計量經(jīng)濟學(xué)模型中,如果出現(xiàn)異方差問題,則會對模型的估計、檢驗及應(yīng)用帶來一系列不良后果,因而如何發(fā)現(xiàn)異方差是計量經(jīng)濟學(xué)建模過程中所關(guān)注的一個重要問題。計量經(jīng)濟學(xué)模型中異方差問題的本質(zhì)是隨機項的方差隨著個體的變化而出現(xiàn)了變化,基于這一本質(zhì),自20世紀50年代以來設(shè)計了諸多異方差的檢驗方法,這些檢驗方法因樣本數(shù)據(jù)和模型形式的差異而各有不同、各具特色,但都是基于總體模型的異方差理論并結(jié)合現(xiàn)有樣本信息而設(shè)計的,也都是根據(jù)樣本信息對總體異方差狀況進行推斷。在推斷過程中,如何將總體信息與樣本信息進行有效銜接是異方差檢驗設(shè)計的一個重要內(nèi)容。傳統(tǒng)的異方差檢驗方法整體上實現(xiàn)了總體信息與樣本信息進行有效銜接,但相關(guān)文獻對此并沒有給予清晰的表述;同時,也有檢驗方法對樣本信息的使用不夠到位,仍有進一步開發(fā)的空間,例如戈德菲爾德—匡特異方差檢驗(Goldfeld-Quandt Test,G-Q檢驗)?;诖?,本文擬結(jié)合G-Q檢驗針對異方差問題開展如下研究:
第一,闡釋異方差檢驗中幾個易被忽略的樣本與總體關(guān)系的問題,以更清晰地展示異方差檢驗的基本原理。本文將闡釋的問題是:模型樣本殘差的平方為什么可以用來表示隨機干擾項的方差?異方差為什么被假定為受解釋變量的影響或與解釋變量相關(guān)?這些問題看似簡單因而不容易被人們所關(guān)注,而且在國內(nèi)外已有的計量經(jīng)濟學(xué)文獻中鮮有對這些問題進行討論和闡釋,盡管這些問題在異方差檢驗中都是既定的觀點和做法。鑒于此,本文將論證之并展示其合理性,以使人們更容易理解現(xiàn)有異方差檢驗的思路,更重要的是為后文實現(xiàn)G-Q檢驗的改進做出準備。
第二,對G-Q異方差檢驗方法展開討論,并在多元回歸模型的基礎(chǔ)上綜合開發(fā)運用樣本信息,以實現(xiàn)對G-Q異方差檢驗方法的改進。首先,將討論G-Q檢驗中所用到的F檢驗是否必須是單側(cè)檢驗,這是后文中有關(guān)改進的G-Q檢驗所必須討論的一個問題;進一步,將傳統(tǒng)的一元線性回歸模型的G-Q檢驗方法向多元線性回歸模型推廣,實現(xiàn)該檢驗方法的改進,這是本文的重中之重。
本文研究設(shè)計的多元線性回歸模型的G-Q檢驗方法屬于檢驗設(shè)計的創(chuàng)新,解決了傳統(tǒng)G-Q檢驗不能實施或不便于實施多元回歸模型的異方差檢驗問題,而檢驗邏輯和檢驗統(tǒng)計量均遵循了原有的G-Q檢驗方法。
為保證研究的連貫性和完整性,首先對一般的異方差G-Q檢驗方法做簡單介紹[1]。G-Q檢驗是一種發(fā)展相對成熟的異方差檢驗方法,在國內(nèi)外的諸多計量經(jīng)濟學(xué)教科書中均有詳細介紹,它是1965年由Goldfeld和Quandt創(chuàng)立的。G-Q檢驗主要適用于檢驗遞增型的異方差,該檢驗用到的統(tǒng)計量是服從F分布的統(tǒng)計量,檢驗原假設(shè)為“隨機干擾項是同方差的”,備擇假設(shè)為“隨機干擾項存在遞增型異方差”,具體的檢驗步驟為:
第一步,按照解釋變量xi的觀測值由小到大的順序?qū)颖军c進行排列。
第二步,將排列在正中間的c個樣本點刪去,將剩下的n-c個觀測值劃分為容量相等的兩個子樣本,每個子樣本的容量分別為(n-c)/2,其中的一個子樣本是xi觀測值的較大部分,另一個是xi觀測值中較小的部分。
第四步,建立統(tǒng)計量:
可以證明
第五步,進行檢驗判斷,即對于給定的顯著性水平α確定相應(yīng)的臨界值Fα,若F>Fα則拒絕“隨機干擾項是同方差的”的原假設(shè),認為模型存在遞增型異方差;若F≤Fα則保留原假設(shè),即模型隨機項不存在遞增型異方差。
異方差的檢驗方法有多種,除了本文將要討論的G-Q檢驗之外,還有多種檢驗形式,這些檢驗方法一般都有各自的使用條件,具體可參見相關(guān)計量經(jīng)濟學(xué)教科書,這里不再贅述。在諸多的異方差檢驗方法中,一般都暗含著兩個基本假設(shè)條件,即模型殘差的平方序列是隨機項方差的估計以及異方差和模型解釋變量有關(guān)系(自回歸條件異方差檢驗沒有遵循這一假定)*需要強調(diào)的是:這是異方差檢驗過程中隱含的一個假定而不是異方差的定義,異方差的定義一般表述為“隨著個體的不同,隨機誤差項的方差不確定”,異方差的定義強調(diào)個體變化對隨機項方差的影響。當然,這種定義是在理論上的,現(xiàn)實中還是需要借助于樣本信息來識別異方差。。如何認識和理解異方差檢驗中的這兩個隱含的假設(shè)條件,是本文討論的第一組問題,也是后續(xù)研究的基礎(chǔ)。
考慮如下形式的計量經(jīng)濟學(xué)模型:
yi=α0+α1x1i+α2x2i+…+αmxm i+μi
(1)
其中隨機干擾項μi被要求滿足高斯假定,由此可知μi是一組獨立同分布的正態(tài)變量。通常情況下,認為μi的方差Var(μi)為參數(shù)σ2。如果給定一組樣本數(shù)據(jù),利用OLS法即可得到式(1)的樣本模型:
在檢驗異方差的G-Q檢驗方法中,一般假定隨機干擾項的異方差是由解釋變量引起的,至少是和解釋變量相關(guān)的,這一假定也是其他幾類異方差檢驗方法的基礎(chǔ),例如布羅斯-帕甘檢驗[2]、懷特檢驗[3]、帕克檢驗[4]以及國內(nèi)相關(guān)學(xué)者的研究成果等[5],但經(jīng)典文獻中并未提及假定異方差和解釋變量相關(guān)的原因,人們對于這一問題的一般理解是:解釋變量一般為已知的外生變量,因而假定異方差和解釋變量相關(guān),不僅有助于找到異方差的變動形式,還能為解決異方差問題提供基礎(chǔ)。誠然,確定了異方差和解釋變量之間的關(guān)系,無疑是為找到異方差問題的解決途徑而奠定了基礎(chǔ),但這并不能成為假定異方差和解釋變量相關(guān)的理由。筆者通過分析研究,認為至少存在如下兩個方面的原因使異方差和解釋變量相關(guān)這一假定是合乎現(xiàn)實的:
其一,模型的設(shè)定要求。如果模型(1)的異方差Var(μi)是由模型之外的因素所引起的,不妨假設(shè)為zi,即Var(μi)=f(zi),則必有:
Var(yi)=f(zi)
即模型外因素zi引起了被解釋變量yi的波動,亦即yi的變動至少部分上可以由zi解釋,這意味著模型(1)在設(shè)定過程中遺漏了重要的解釋變量zi,從而造成了模型的設(shè)定誤差,而模型的設(shè)定誤差在構(gòu)建計量經(jīng)濟學(xué)模型過程中是不被允許的。換言之,不可能存在模型之外的因素影響異方差,否則就會造成模型的設(shè)定誤差,即存在設(shè)定誤差的模型是不符合研究要求和實際需要的模型,此時模型本身就是錯誤的。
其二,個體異質(zhì)性的本質(zhì)屬性。個體異質(zhì)性是模型產(chǎn)生異方差的重要原因,對于純隨機因素造成的個體異質(zhì)性一般不會引起模型的異方差,因為純隨機因素對于每一個體產(chǎn)生的影響是相同的。一般情形下,個體的異質(zhì)性主要是由個體自身屬性決定的,而這些自身屬性就是由該個體的每一解釋變量體現(xiàn)出來。因此,由于個體異質(zhì)性所產(chǎn)生的模型異方差必然和解釋變量相關(guān)。
另外,數(shù)據(jù)的觀測誤差也可能造成模型的異方差。如果數(shù)據(jù)的觀測誤差屬于純隨機誤差,則一般不會造成異方差后果;如果觀測誤差屬于系統(tǒng)性誤差,則容易造成異方差,但這是由于數(shù)據(jù)質(zhì)量問題造成的,此時的異方差屬于樣本現(xiàn)象,不在本文議題之內(nèi)。
將目標對準異方差G-Q檢驗。傳統(tǒng)的G-Q檢驗是通過構(gòu)建F統(tǒng)計量而完成的異方差檢驗。事實上,G-Q檢驗的F統(tǒng)計量是通過下述路徑所構(gòu)造的:
即殘差平方和與對應(yīng)的隨機干擾項方差之比形成卡方分布,在獨立性條件下即可構(gòu)建F統(tǒng)計量:
綜上認為,G-Q檢驗可以按照不同的檢驗?zāi)繕藖磉M行,這些檢驗?zāi)繕税ā澳P褪欠翊嬖谶f增型異方差”、“模型是否存在遞減型異方差”以及“模型是否存在異方差”等,檢驗的統(tǒng)計量依舊都是F統(tǒng)計量,具體包括了“單側(cè)檢驗”和“雙側(cè)檢驗”兩種不同的檢驗判別模式。
對于多元線性回歸模型,實施G-Q檢驗時就會面臨這樣的一個問題:在對樣本點進行排序時應(yīng)該以哪一個解釋變量為依據(jù)?有人建議按每一解釋變量的順序?qū)颖军c進行多次排序,并進行多次檢驗,由此診斷模型的異方差性。誠然,這種處理方法是可靠的,可以通過這種方法檢測出模型是否存在異方差以及何種形式(遞增型或遞減型)的異方差,但進行多次的G-Q檢驗過于繁瑣,工作效率降低,因而不為人們接受。龔秀芳建議根據(jù)解釋變量的樣本第一主成分來對樣本點進行排序[6],但這種方法僅考慮了解釋變量之間相關(guān)性的信息,并沒有體現(xiàn)解釋變量與異方差之間的相關(guān)性,同時這種方法在操作起來也較為復(fù)雜。因此,筆者針對多元線性回歸模型的異方差G-Q檢驗的樣本排序問題,尋找可靠的排序依據(jù),并確保檢驗方法簡單易行。
第一,易于判斷遞增型或遞減型的異方差。針對模型(1),其樣本擬合結(jié)果為:
yi=α+βxi+ε
其樣本擬合值可表示為:
為論證第四部分中所提出的使用被解釋變量的擬合值作為樣本點的排序依據(jù),進而完成多元線性回歸模型的G-Q檢驗方法,并對此方法進行統(tǒng)計模擬實驗。
1.數(shù)據(jù)生成機制。設(shè)定3組樣本變量x1、x2、x3,全部是均值為0、方差為1的且服從正態(tài)分布的變量,樣本容量為201。考慮到3個變量間的相關(guān)性可能會對檢驗結(jié)果造成影響,因此在生成數(shù)據(jù)時額外設(shè)定了兩兩之間的皮爾遜相關(guān)系數(shù)。被解釋變量y的生成機制是:
y=100+x1+x2+x3+μ
其中μ為零均值的正態(tài)隨機誤差項,設(shè)定隨機項的形式為:
顯然,這類隨機項的形式極易產(chǎn)生異方差問題,且異方差和x2有關(guān),其中ξ為服從標準正態(tài)分布的、相互獨立的隨機變量。
2.異方差檢驗。設(shè)定變量x1、x2、x3兩兩之間的相關(guān)系數(shù)依次為0、0.1、0.2、0.3、0.5、0.7、0.8、0.9*事實上,為保證本文研究的嚴謹性,筆者擬合了皮爾遜相關(guān)系數(shù)為0、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95等12種情形,在不影響科學(xué)性的前提下,刪除了其中的部分擬合結(jié)果,以節(jié)約篇幅。另外,為簡化模擬過程,假設(shè)解釋變量之間的相關(guān)系數(shù)相同,這不會影響到模擬的科學(xué)性和有效性。,并按上述機制生成數(shù)據(jù),根據(jù)所生成的數(shù)據(jù)分別進行傳統(tǒng)的G-Q檢驗和本文設(shè)計的G-Q檢驗。檢驗過程中剔除樣本點的個數(shù)為41,并設(shè)定拒絕原假設(shè)的概率為10%,因而F檢驗的臨界值分別為F0.05(76,76)=0.684 048 535,F(xiàn)0.95(76,76)=1.461 884 571。為詳細展示檢驗結(jié)果,首先在各相關(guān)系數(shù)下僅生成一組數(shù)據(jù),這8組數(shù)據(jù)的G-Q檢驗結(jié)果如表1所示。
表1 模擬數(shù)據(jù)異方差G-Q檢驗結(jié)果表(1次模擬)
進一步,在每一個相關(guān)系數(shù)場合下進行了10 000次數(shù)據(jù)模擬實驗,并利用模擬數(shù)據(jù)進行了異方差檢驗,檢驗結(jié)果信息見表2。
表2 模擬數(shù)據(jù)異方差G-Q檢驗結(jié)果(10 000次模擬)
由表2可看出,當解釋變量之間不相關(guān)(相關(guān)系數(shù)為0)時,在10 000次模擬中,新檢驗方法和原檢驗方法所得出的檢驗結(jié)論不一致的次數(shù)達到2 480次,兩類檢驗結(jié)果的有效匹配率(相同的比率)僅為75.2%,相對較低。隨著解釋變量間相關(guān)性的增強,檢驗結(jié)論不一致的次數(shù)在減少,即檢驗結(jié)果的有效匹配率在增加;當相關(guān)系數(shù)為0.3時,有效匹配率就達到了87.66%,這種兩類檢驗結(jié)果的匹配率隨著解釋變量間相關(guān)系數(shù)的增加而增加;當相關(guān)系數(shù)為0.7時,這種匹配率就達到了96.62%。進一步,研究分析“原檢驗發(fā)現(xiàn)異方差時新檢驗失效次數(shù)”和“檢驗失效率”,這兩個數(shù)據(jù)直接反映了本文設(shè)計的檢驗方法的可靠性。不難發(fā)現(xiàn),雖然在解釋變量不相關(guān)時檢驗的失效率較高,達到了15.75%,但隨著解釋變量相關(guān)性的增強,檢驗失效率在快速下降;當解釋變量相關(guān)系數(shù)達到0.2時,擬合結(jié)果即顯示檢驗失效率降到了10%以下;當相關(guān)系數(shù)為0.5時,檢驗失效率降到了3.79%。另外,為比較兩類檢驗方法的綜合差異性,在相同的相關(guān)系數(shù)下所生成的10 000組隨機數(shù)據(jù)基礎(chǔ)上計算出了兩類檢驗方法各自的F統(tǒng)計量值,并計算了F統(tǒng)計量的平均離差平方和,即MSE。可見,隨著解釋變量間相關(guān)性的增強,MSE也在減小,即兩類檢驗方法的檢驗結(jié)論越來越接近。
1991年,美國環(huán)境保護署在發(fā)布的一份報告中給出了81輛汽車在每加侖汽油里程數(shù)(MPG)、發(fā)動機馬力(HP)、駕駛空間立方英尺數(shù)(VOL)、最高時速(SP)和車身重量(WT,單位為100磅)等方面的數(shù)據(jù)[7]404-406,構(gòu)建用于研究汽車行駛效率的回歸模型,模型形式設(shè)定如下:
MPGi=β0+β1HPi+β2VOLi+β3SPi+
β4WTi+εi
(2)
利用81輛汽車數(shù)據(jù)估計出的模型為:
1.252 8SPi-1.855 3WTi
通過使用Breusch-Pagan-Godfrey檢驗、White檢驗和Harvey檢驗(模型的其他檢驗信息略去)對此模型進行異方差檢驗,均發(fā)現(xiàn)模型存在異方差,檢驗結(jié)果如表3。
表3 模型異方差檢驗結(jié)果表
圖1 MPGi、擬合值及殘差平方序列圖
表4 新G-Q檢驗結(jié)果表
檢驗所用F統(tǒng)計量服從第一自由度和第二自由度均為25的F分布。由此可以看出,使用被解釋變量的擬合值對樣本進行排序,可以順利實施并完成G-Q檢驗。
[1] Goldfeld S M,Quandt R E.Some Tests for Homoscedasticity[J].Journal of the American Statistical Association,1965(6).
[2] BreuschT S,Pagan A R.A Simple Test for Heteroscedasticity and Random Coefficient Variation[J].Econometrica,1979(9).
[3] White H.A Heteroscedasticity Consistent Covariance Matrix Estimator and a Direct Test of Heteroscedasticity[J].Econometrica,1980,48(5).
[4] Park R E.Estimation with Heteroscedastic Error Terms[J].Econometrica,1966,34(10).
[5] 王佐仁,徐生霞.蒙特卡羅方法下線性模型的異方差性檢驗方法[J].統(tǒng)計與信息論壇,2016(11).
[6] 龔秀芳.戈德菲爾德-匡特檢驗的推廣[J].數(shù)理統(tǒng)計與管理,2005(1).
[7] 古扎拉蒂.計量經(jīng)濟學(xué)基礎(chǔ)[M].北京:中國人民大學(xué)出版社,2005.