唐瑩瑩
(廣西師范大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,廣西 桂林 541006)
空間計量經(jīng)濟學(xué)是計量經(jīng)濟學(xué)的一個分支,以空間經(jīng)濟理論和地理空間數(shù)據(jù)為基礎(chǔ),以建立、檢驗和運用計量經(jīng)濟模型為核心,運用經(jīng)濟活動的空間自相關(guān)和空間不均勻性問題進行定量分析,研究空間經(jīng)濟活動或經(jīng)濟關(guān)系數(shù)量規(guī)律的一門經(jīng)濟學(xué)學(xué)科.
具有空間自回歸的SAR模型是最常用的也是最為基礎(chǔ)的模型,它通過空間加權(quán)矩陣將空間因素對經(jīng)濟現(xiàn)象的影響模式引入到模型中,且在被解釋變量中存在空間相關(guān)性,這為模型的估計和檢驗帶來了新的問題.
近年來,空間計量理論快速發(fā)展出現(xiàn)了誤差為空間自相關(guān)的空間自回歸模型,SARAR模型是一個存在混合的空間聯(lián)合模型,同時考慮了被解釋變量和誤差項的空間相關(guān)問題:
這個模型因Clif和Ord(1973,1981)的兩篇具有重要影響的文章而名,Anselin和Florax(1995)將其記為空間自相關(guān)誤差自相關(guān)(spatial autoregressive model with autogressive ditubances,SARAR)模型.當ρ=0時模型變成空間誤差模型(SEM),當λ=0時模型為空間自回歸模型(SAR);當ρ=0且λ=0時,為線性回歸模型.
在進行實際的空間計量模型擬合時,解釋變量之間完全不相關(guān)的情況很少見,因為問題本身的復(fù)雜性和涉及的因素可能比較多,很難在眾多解釋變量中找出一組互不相關(guān)又對被解釋變量有顯著影響的變量,不可避免地會出現(xiàn)所選解釋變量之間相關(guān)的情況.雖然多重共線性不影響系數(shù)的點估計,但會放大系數(shù)估計的方差,從而會導(dǎo)致降低的是參數(shù)估計的顯著性,更容易得到不顯著的結(jié)果;或者模型系數(shù)的符號可能有誤,與實際不符合;或者參數(shù)估計值的置信區(qū)間也變寬,難于評估各個解釋變量對被解釋變量的影響.在SARAR模型中,由于誤差為空間自相關(guān)而且因變量也為空間自回歸,所以自變量之間存在的多重共線性問題還會使得自變量對因變量的解釋產(chǎn)生干擾.
趙宇(2018)運用主成分估計去消除空間自回歸中自變量的多重共線性;[1]曹芳(2012)運用Lasso方法處理多元線性回歸的共線性問題;[2]郭雙(2015)對SAR模型通過ALasso方法篩選出不顯著的變量;[3]張元慶和陶志鵬(2016)對SAC模型變量選擇進行了貝葉斯準則的研究;[4]Lee(2004)闡述了SAR模型的極大似然估計量所具體的性質(zhì).
本文將解釋變量進行正交轉(zhuǎn)換為若干個互不相關(guān)的主成分,建立起被解釋變量對k個主成分作為新解釋變量,結(jié)合極大似然方法估計出SARAR模型關(guān)系,再利用關(guān)系式β=Φ1α1將k個主成分的參數(shù)轉(zhuǎn)換成原解釋變量的新參數(shù),去減少在有限樣本中減弱多重共線性對參數(shù)估計的影響.
主成分特征提取方法主要是通過降維去除自變量壓縮消除冗余.自變量們進行一個線性變換便得到線性無關(guān)的主成分,PCi=h1X1+h2X2+…+hnXn,其中hj是第j維度在第i個PC中的權(quán)重.首先找出總方差最大的PC,再找與第1個PC線性無關(guān)的而且能解釋最多方差的第2個PC,直到取得所有的n個PC.原先的n個維度通過線性變換,變成了新的n個線性無關(guān)的按方差解釋度排序的PC,最后根據(jù)累積解釋程度選取所需的PC.
空間計量經(jīng)濟模型參數(shù)的常用估計方法極大似然估計法的基本原理是:假定誤差項服從正態(tài)分布,繼而可推導(dǎo)因變量的聯(lián)合密度函數(shù),再通過最大化對數(shù)似然函數(shù)得到模型的估計參數(shù).Ord(1975)對空間滯后模型和空間誤差模型的極大似然估計法進行了概述,而 Anselin(1988)則在 Ord(1975)、Bates和White(1985)研究基礎(chǔ)上,進步推導(dǎo)了空間計量經(jīng)濟模型極大似然估計法和正則條件.
本文第一節(jié)簡單介紹了SARAR模型和在多重共線性的危害下提出所研究的問題,第二節(jié)給出了所采用方法的參數(shù)估計推導(dǎo),第三節(jié)和第四節(jié)同時通過大量的模擬實驗去驗證該方法具有有效性.
設(shè)Y為n×1階因變量,X是一個n×p階外生解釋變量矩陣,ε~N(0,σ2In),
其中ρ和λ表示空間因素對其中研究對象的影響程度,β為對應(yīng)p×1維自變量的參數(shù)向量.兩種空間加權(quán)矩陣W1和W2是n×n階的外生的空間權(quán)重矩陣,兩者可以相同也可以不相同;分別表示空間因素對研究對象的影響,W1Y為空間滯后效應(yīng),W2u為空間誤差效應(yīng).In為n階單位矩陣.
將SARAR模型(2)做如下變形:
其中,中心化的X的相關(guān)系數(shù)矩陣為XTX,設(shè)其特征根為λ1≥λ2≥…≥λp,XTX的標準化正交特征向量為p×p維的矩陣ΦT=(?1,?2,…?p),ΦΦT=Ip且ΦTXTXΦ=qTq=Λ,其中Λ=diag(λ1,λ2,…,λp);令q=XΦ,α=ΦTβ;由(3)得到:
則可以將原模型可寫成:
假設(shè)隨機誤差項ε~N(0,σ2In),參數(shù)集為θ=(αT1,ρ,λ,σ2);
模型(4)的對數(shù)似然函數(shù)為:
將(ρ,λ)和(ρ,λ)代入到lnL n(θ)得到最大化的中心化對數(shù)似然函數(shù):
通過Monte carlo模擬在不同的參數(shù)和情況下對模擬和效果進行比對.
設(shè)定W1和W2為相同的“rook”形式空間權(quán)重矩陣;取ρ=0.8,λ=0.5,^σ2=1;對于初始值β分別取三組不同的值:
(1)β1=(3,2.5,0,0,0)';
(2)β2=(3,2.5,10,2.5,3)';
(3)β3=(3,0,10,0,3)';
設(shè)定樣本數(shù)分別為225,400個,用于探究不同樣本量下的結(jié)果;每次情況模擬次數(shù)為1000次.其中,采用Box和Muller(1958年)給出了由均勻分布的隨機變量生成正態(tài)分布的隨機變量的算法生成標準正態(tài)偽隨機數(shù),再用Mc Donald和Galerneau(1975)的自變量生成方法產(chǎn)生具有多重共線性的變量x ij=.再者r的取值為0.99和0.999以保證生成的自變量是存在不同的多重共線性并以研究其在不同共線程度對模型的影響程度.
表中的βML是在原數(shù)據(jù)構(gòu)建SARAR模型的基礎(chǔ)上直接應(yīng)用極大似然估計方法估計出來的參數(shù)值,βPAC是對自變量進行主成分特征提取的基礎(chǔ)上利用極大似然估計方法得到的參數(shù)值.
表1 r=0.99時所求參數(shù)的均方誤差Tab.1 Mean square error of the required parameters when r=0.99
表2 r=0.999時所求參數(shù)的均方誤差Tab.2 Mean square error of the required parameters when r=0.999
通過對比表1和表2中呈現(xiàn)的參數(shù)均方誤差可以發(fā)現(xiàn),當r=0.99時,EMSE(βML)與EMSE(βPAC)之間的沒有很大的差距;但當r=0.999時,高度的多重共線性使得在直接使用ML方法估計出來的參數(shù)值與真實值有很大的誤差,而在自變量進行主成分特征提取后再進行ML方法的參數(shù)均方誤差要優(yōu)于前者.
本數(shù)據(jù)取自于Harrison和Rubinfeld(1978)收集的波士頓房價數(shù)據(jù),并由Gilley和Pace(1996)加以完善.數(shù)據(jù)中包含506個波士頓普查區(qū)的中心數(shù)房價以及可以潛在決定房價的20個解釋變量,選取業(yè)主自用住宅的價值平均數(shù)MEDV為被解釋變量,TAX、LSTAT、PTRATIO、log(CRIM)、RM 為解釋變量;W為506個區(qū)之間的“rook”形式空間權(quán)重矩陣,現(xiàn)構(gòu)造如下的SARAR(1,1)模型:
首先對5個解釋變量數(shù)據(jù)進行中心化處理,并計算相關(guān)系數(shù).建立這5個解釋變量的SARAR(1,1)方程,使用一般的極大似然估計的參數(shù)結(jié)果為βML.觀察到log(CRIM)的系數(shù)值為0.0821355且其P值大于0.05,根據(jù)直觀診斷法,log(CRIM)的系數(shù)可能有誤,與實際不符.在該模型中,由于解釋變量存在多重共線性會導(dǎo)致參數(shù)的解讀和顯著性并不理想.下面采用主成分估計對原解釋變量進行轉(zhuǎn)化.解釋變量的相關(guān)系數(shù)矩陣如下:
表3 5個變量的相關(guān)系數(shù)表Tab.3 Correlation coefficient table of five variables
對5個原解釋變量提取相互獨立的主成分,其相關(guān)系數(shù)矩陣特征根如下:
計算相關(guān)系數(shù)矩陣的特征向量如下:
圖1 碎石圖Fig.1 Crushed stone diagram
從特征根和碎石圖看,可以取前三個主成分作為新的解釋變量;這三個主成分累積奉獻率為91.04%,并使用極大似然估計方法建立MEDV對前三個主成分的SARAR(1,1)模型,得到的值并利用關(guān)系式得到MEDV對原來5個解釋變量的新參數(shù).
在SARAR(1,1)-PCA模型中,log(CRIM)的參數(shù)為負值,合理地解釋越低人均犯罪值對應(yīng)于越高的業(yè)主自用住宅的價值平均數(shù),其他參數(shù)的數(shù)值也發(fā)生了變化,表明了各變量對MED的直接影響.在對解釋變量進行主成分變換之后,消除解釋變量之間的多重共線性,使得模型更有意義.
表4 兩種方法求得的參數(shù)值Tab.4 Parameter values obtained by two methods
在建立SARAR模型并進行運用時,往往存在一定程度的多重共線性問題,如果解釋變量之間的相關(guān)程度不足以影響模型的質(zhì)量(即各個參數(shù)顯著性得到滿足時)就可以忽略;當出現(xiàn)較嚴重的后果又不能增加樣本量時,在不刪減變量下采用主成分特征提取與極大似然估計降低變量之間的相關(guān)程度,會使得模型更有效.