郭雅靜,張曉琴
(1.河北建筑工程學(xué)院 數(shù)理系,河北 張家口 075024;2.山西財經(jīng)大學(xué) 統(tǒng)計學(xué)院,山西 太原 030006)
經(jīng)典的線性回歸[1]都是以隨機誤差項的同方差性為前提的,但在實際應(yīng)用中,隨機誤差項通常具有異方差性[2],這使得應(yīng)用普通最小二乘法得到的協(xié)方差陣估計不能保證其無偏性。因此,異方差的存在會對線性模型的分析造成影響。
隨機誤差項的協(xié)方差陣已知時常用廣義最小二乘法[3](簡記為GLS)來解決異方差問題。但多數(shù)情況下其協(xié)方差陣未知,為了估計隨機誤差項的協(xié)方差陣,學(xué)者們提出了極大似然估計法[4],Box-Cox變換法[5],貝葉斯估計法[6],兩階段最小二乘估計[7-9]等方法。
異方差一致協(xié)方差陣估計(簡稱HCCMES)的提出直接給出了參數(shù)向量協(xié)方差陣的一致性估計,例如,White[10]于1980年提出的HC0估計效果很好且應(yīng)用廣泛,但是僅限于大量樣本下使用。 為了解決小樣本下的估計,在HC0基礎(chǔ)上提出了HC1、HC2和HC3[11]3種估計。由于樣本中的杠桿點會影響檢驗效果,Cribari-Neto[12]等人提出的HC4估計很好地消除了高杠桿點的影響。隨后Cribari-Neto提出的HC5估計[13]和HC4m估計[14]分別解決了杠桿程度較高和較低情況下的估計問題。Li等[15]在2016年提出的HC5m估計將以上檢驗方法進行統(tǒng)一,并證明了其在檢驗中的優(yōu)越性。
2015年,Zhang等[16]基于正交表提出一種一種穩(wěn)定有效的異方差估計方法,稱為OR方法。隨后,提出的OR1方法[17]修正了OR方法中因變量的選擇以及容差選取的缺陷??紤]到在異方差形式未知的情況下[18-19],Carroll[20]提出的方差非參數(shù)估計具有較好的性質(zhì),本文在用正交表擴展后的模型中引入了方差的核估計[21-22],進一步改進了OR1方法,稱之為M-OR1方法。
本文的結(jié)構(gòu)如下:第1節(jié)對異方差模型[23]進行簡要的介紹。第2節(jié)介紹基于正交表的OR方法和OR1方法,并結(jié)合非參數(shù)方法提出了一種改進的OR1方法——M-OR1估計。第3節(jié)通過模擬實驗和實際應(yīng)用證明了M-OR1估計的優(yōu)越性。第4節(jié),進行了簡要的總結(jié)并給出進一步的研究方向。
假設(shè)自變量xi=(xi1,xi2,…,xip)和因變量yi(i=1,2,…,n)滿足如下線性回歸模型:
(1)
寫成矩陣形式為:
(2)
其中,
(3)
本節(jié)首先對已有的OR和OR1方法進行簡單介紹,其次,回顧了Carroll在1982年提出的核估計,最后,在OR1方法中引入核估計進而提出了改進的OR1方法。
Zhang等[16]首次提出了一種基于正交表的異方差估計方法(OR方法),具體步驟如下:
在異方差模型(2)中,假設(shè)有3個自變量,即p=3。
1) 在數(shù)據(jù)集(xi1,xi2,xi3,yi),i=1,2,…,n中,對每個給定的i,將xi1,xi2,xi3,yi分別看作一個因子,其容差分別取作Δ1xi1,Δ2xi2,Δ3xi3,Δyi,一般地,取Δ1=Δ2=Δ3=Δ=0.01或0.001。則可按正交表L9(34)將原來的每組觀測值(xi1,xi2,xi3,yi)(i=1,2,…,n)變?yōu)槿缦?個觀測值(具體展開步驟在2.3節(jié)給出):
2) 考慮回歸方程
(4)
考慮到OR方法在因變量的擴展中不能完全應(yīng)用原始數(shù)據(jù)且在使用正交表時容差選取有缺陷,張曉琴等[17]又對yik的產(chǎn)生及容差的取法進行了改進,即OR1方法。具體操作如下:
2) 每個因子xij(j=1,2,3)的容差Δj選取不同的值,取如下形式:
(5)
(6)
1)對于已有數(shù)據(jù)(yi,xi1,xi2,xi3),i=1,2,…n,先假設(shè)各隨機誤差項方差相同,由OLS估計得到如下回歸模型:
(7)
2)借助正交表
(8)
將原始數(shù)據(jù)展開,使得每一個樣本觀測值(xi1,xi2,xi3,yi)(i=1,2,…,n)變?yōu)?個觀測值:
(9)
其中,每個因子xij(j=1,2,3)的容差Δj按照OR1方法改進后的容差形式(即(5)式)進行選取。
(10)
(11)
方差的估計效果采用以下2個指標(biāo)進行評價,即方差的平均絕對誤差值:
(12)
與因變量的平均絕對預(yù)測誤差:
(13)
本節(jié)從隨機模擬和案例分析兩個方面,將M-OR1方法與之前的方法包括HC0,HC4,HC5,OR,OR1方法進行對比分析。
表1 5個自變量模型的方差平均絕對誤差值
從表1可以看出對于自變量的不同取值分布以及樣本容量的變化,M-OR1方法的MAEΣ值總小于HC0,HC4,HC5,OR和OR1方法。在樣本容量不是很大的時候,M-OR1方法總能給出協(xié)方差陣較好的估計。其次,M-OR1方法的MAEy值與先前的方法非常接近。更清晰的對比見圖1~圖4。
圖1 真實方差與基于HC0,HC4,OR與M-OR1估計得出的方差估計值的對比
圖2 真實方差與基于上述3種方法及M-OR1估計得出的方差之差的絕對值對比
圖3 真實因變量與基于HC0,HC4,OR與M-OR1估計的因變量估計值對比
圖4 真實因變量與上述3種方法及M-OR1估計的因變量估計值之差的絕對值對比
從表1可以看出,不論模擬實驗中自變量的取值分布如何變化,樣本容量作何改變,M-OR1方法的MAEΣ值總小于HC0,HC4,HC5,OR和OR1方法。在樣本容量不是很大的時候,M-OR1方法總能給出協(xié)方差陣較好的估計。其次,M-OR1方法的MAEy值與先前的方法非常接近。
采用本文提出的M-OR1方法對文獻[24]中的三大產(chǎn)業(yè)的實際案例進行分析。通過異方差檢驗確定該數(shù)據(jù)具有異方差性,采用M-OR1方法與HC4和OR1方法對方差進行估計,OR1方法和M-OR1方法均借助正交表L9(34)對觀測值進行展開并且采用改進后的容差(即式(5)),本例數(shù)據(jù)和分析結(jié)果見表3。
表3 實例分析數(shù)據(jù)及比較結(jié)果
表2 5個自變量模型的因變量平均絕對誤差值
續(xù)表3
基于正交表估計協(xié)方差陣的方法是近年來提出的新方法。在異方差形式未知的情況下,本文在已有的正交表方法中引入了非參數(shù)估計,即在利用正交表擴展后的模型中,用非參數(shù)的方法對各項方差給出了估計,在隨機模擬中,通過樣本容量以及自變量分布的變化說明了該方法的優(yōu)越性,同時實例分析也表明,本文所提出的方法比原有的估計方法對于協(xié)方差陣的估計更加準(zhǔn)確。不過,基于正交表進行異方差估計的相關(guān)方法在自變量的維數(shù)較低時比較有效,還可以對多個自變量的情況進行進一步的討論。