魏傳華,王韶郡,蘇宇楠
(中央民族大學(xué) 理學(xué)院,北京 100081)
近年來,空間數(shù)據(jù)分析與建模已經(jīng)成為地理學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)等多個學(xué)科的熱點(diǎn)問題。關(guān)于空間數(shù)據(jù)模型的介紹可參考Anselin等人的空間計(jì)量經(jīng)濟(jì)學(xué)類著作,以及Cressie等人空間統(tǒng)計(jì)學(xué)著作[1-6]??臻g數(shù)據(jù)的兩個最主要的特征是空間自相關(guān)性和空間異質(zhì)性。對于空間自相關(guān)性的刻畫,使用最多的是空間自回歸模型,該模型是由Ord在Whittle的研究基礎(chǔ)上得出的,一般記為[7-8]:
(1)
其中yi和xi=(xi1,xi2,…,xip)T分別是在第i個空間位置上的因變量和自變量觀測值,β=(β1,β2,…,βp)T是p維待估未知系數(shù),模型隨機(jī)誤差εi一般假設(shè)均值為0,方差為σ2。W=(wij)n×n為空間權(quán)重矩陣,用來刻畫觀測單元之間的連接關(guān)系,比如區(qū)域i,j之間如果相鄰,則wij=1,否則為0??臻g相鄰的定義有多種,可以根據(jù)兩個區(qū)域是否有共同的邊來界定,更為一般的定義是基于空間距離、經(jīng)濟(jì)距離以及復(fù)雜社會網(wǎng)絡(luò)中的關(guān)系等來確定。
對于空間異質(zhì)性的處理,目前使用最多的是Brunsdon等提出的地理加權(quán)回歸(Geographically Weighted Regression,GWR)方法[9]。GWR模型記為:
(2)
其中(ui,vi)是觀測點(diǎn)的地理位置,ui表示經(jīng)度,vi表示緯度;系數(shù)函數(shù)β(ui,vi)=[β1(ui,vi),β2(ui,vi),…,βp(ui,vi)]T是關(guān)于經(jīng)緯度的未知光滑函數(shù);其余符號與模型(1)的解釋相同。這類空間變系數(shù)模型利用局部常數(shù)方法或者局部線性方法可以得到各個觀測點(diǎn)上回歸系數(shù)的估計(jì)值,從而可以直觀描述某一具體系數(shù)函數(shù)隨所研究的地理空間位置的變化情況,展示了空間關(guān)系的非平穩(wěn)性,關(guān)于該模型的詳細(xì)討論可參考Fotheringham等的專著[10]。
對于空間自相關(guān)性和空間異質(zhì)性,現(xiàn)有研究大都是對二者單獨(dú)進(jìn)行考慮和設(shè)定,將這兩個因素同時考慮的研究相對較少?;诳臻g自相關(guān)設(shè)定和地理加權(quán)回歸方法分別在刻畫空間自相關(guān)性和空間異質(zhì)性上的有效性,如何將兩種建模方法結(jié)合起來處理兩種空間性質(zhì)引起了關(guān)注,在模型(1)、(2)的基礎(chǔ)上,可以得到如下的空間自回歸地理加權(quán)回歸模型:
(3)
Fotheringham等最早基于實(shí)際例子對這種建模方法進(jìn)行了簡單討論,但沒有進(jìn)一步對該模型的統(tǒng)計(jì)推斷等問題進(jìn)行研究。魏傳華等對該模型進(jìn)行了估計(jì)方法的討論,提出了profile極大似然估計(jì)和兩步估計(jì)方法,但是沒有對所提估計(jì)量的性質(zhì)進(jìn)行深入的理論研究[11]。Sun等基于局部線性光滑和profile極大似然估計(jì)對模型進(jìn)行了估計(jì),并給出了所提估計(jì)量的漸近性質(zhì)[12]。為了克服異方差性,Wei等基于Su的研究構(gòu)造了模型的半?yún)?shù)廣義矩估計(jì)(GMM)[13-14]。
(4)
我們將該模型稱之為空間變系數(shù)地理加權(quán)自回歸模型。對于模型(4),Geniaux和Martinetti在研究中提及了該模型,并針對包括該模型在內(nèi)的多類模型介紹說使用工具變量方法進(jìn)行估計(jì),但沒有對估計(jì)方法的細(xì)節(jié)進(jìn)行詳細(xì)介紹,而且該文中涉及的多類模型在模型形式上差別很大,需要深入討論[15]。除此之外,就筆者所知,目前還沒有針對性研究模型(4)的相關(guān)論文。需要指出的是,Wu等提出一類時空加權(quán)自回歸模型,其因變量和自變量是在某一時間、某一空間位置上的觀測值,具有時間和空間兩個屬性[16]。模型中自變量對應(yīng)的回歸系數(shù)和因變量滯后項(xiàng)對應(yīng)的參數(shù)都設(shè)定為時間和空間的光滑函數(shù),提出利用兩階段最小二乘估計(jì)和工具變量估計(jì)模型中的未知系數(shù)函數(shù)。Malikov和Sun提出了一類更為廣泛的變系數(shù)空間自回歸模型,其中滯后參數(shù)和回歸系數(shù)設(shè)置為一般的協(xié)變量而不僅僅是模型(4)中所用的經(jīng)緯度的光滑函數(shù),并對模型提出了局部GMM估計(jì),深入研究了所提估計(jì)量的漸近性質(zhì)[17]。模型(4)是Wu、Malikov等人所研究模型的特殊形式[16-17]。
作為空間自回歸模型和地理加權(quán)回歸模型的推廣,模型(4)能夠同時刻畫空間自相關(guān)性和空間非平穩(wěn)性,是一類非常有用的空間數(shù)據(jù)分析模型。關(guān)于該模型的針對性研究,目前僅僅在Geniaux和Martinetti的研究中簡單提及,對包括該模型在內(nèi)的多種模型只介紹說可以用工具變量方法估計(jì),但對于工具變量怎么選取以及怎么構(gòu)造估計(jì)量等沒有進(jìn)行討論[15]。針對這一半?yún)?shù)回歸模型,本文主要使用局部GMM方法對模型進(jìn)行估計(jì),該方法在Malikov和Sun的研究中是作為一類簡單估計(jì)方法進(jìn)行了介紹[17],此外Cai、Tran等人采用類似的估計(jì)思想對動態(tài)變系數(shù)面板數(shù)據(jù)模型進(jìn)行了估計(jì)[18-19]。本文對模型(4)這類復(fù)雜的空間變系數(shù)模型給出具體的估計(jì)步驟,并通過數(shù)值模擬考察不同設(shè)定下估計(jì)量的表現(xiàn),最后使用該模型分析了一個實(shí)際例子。
為方便介紹,模型(4)記為如下的矩陣形式:
Y=ρ(u,v)WY+M+ε
(5)
E[(WY)Tε]=E[(W(I-ρ(u,v)W)-1M)Tε+(W(I-ρ(u,v)W)-1ε)Tε]
(6)
即模型(5)中存在內(nèi)生性問題,因此不能直接采用一般變系數(shù)模型的估計(jì)方法。下面介紹局部GMM方法,首先,將式(5)改寫成如下形式:
(7)
(8)
進(jìn)一步可以得到:
(9)
Y≈Z(u,v)θ(u,v)+ε
(10)
前面提到,模型存在內(nèi)生性問題(空間滯后項(xiàng)存在內(nèi)生性),當(dāng)(I-ρ(u,v)W)-1存在時,有:
E(Y)=(I-ρ(u,v)W)-1M=(I+ρ(u,v)W+ρ2(u,v)W2+…)M
(11)
記R=(u,v),因此可以選擇WX,WR,W2X,W2R,…作為WY的有效工具變量。
E[Q(u,v)TKH(u,v)(Y-Z(u,v)θ(u,v))]≈03d×1
(12)
其中核函數(shù)的對角矩陣KH(u,v)=diag{k1(u,v),k2(u,v),…,kn(u,v)},記:
gn(θ)=Q(u,v)TKH(u,v)(Y-Z(u,v)θ(u,v))
(13)
則θ(u,v)的局部GMM估計(jì)為:
(14)
V(u,v)是一個3d×3d的正定加權(quán)矩陣,簡單計(jì)算后可以得到:
(15)
本節(jié)通過數(shù)值模擬方法考察空間變系數(shù)地理加權(quán)自回歸模型的局部廣義矩估計(jì)法在有限樣本下的表現(xiàn)。
考慮如下模型:
(16)
圖1 Rook鄰接示例
(a)直接選擇單位陣I,估計(jì)結(jié)果為:
Z(u,v)TKH(u,v)TQ(u,v)Q(u,v)TKH(u,v)Y
(17)
(b)一步LGMM估計(jì),參考Tran和Tsionas的做法,令V(u,v)=V0(u,v)=Q(u,v)TKH(u,v)Q(u,v),估計(jì)結(jié)果為[19]:
Z(u,v)TKH(u,v)TQ(u,v)V0-1(u,v)Q(u,v)TKH(u,v)Y
(18)
(19)
用均方根誤差作為模擬效果的評價指標(biāo)。對于每一個變系數(shù)函數(shù),分別計(jì)算其均方根誤差(RMSE):
(20)
表1 不同樣本量下的模擬結(jié)果
繪出200次模擬得到變系數(shù)均值曲面和變系數(shù)的真實(shí)值曲面。受篇幅限制,這里只展示一組圖片,即β1(ui,vi)的估計(jì)情況。
1.n=64時
圖2 n=64時,模擬均值曲面和真實(shí)值曲面
2.n=169時
圖3 n=169時,模擬均值曲面和真實(shí)值曲面
3.n=400時
圖4 n=400時,模擬均值曲面和真實(shí)值曲面
現(xiàn)將空間變系數(shù)地理加權(quán)自回歸模型的局部GMM方法下的參數(shù)估計(jì)效果和式(2)中的地理加權(quán)回歸模型以及式(1)中的空間自回歸模型下的估計(jì)效果進(jìn)行對比,取樣本量n=169。選擇因變量Y模擬r次的均方根誤差(RMSE)作為評價指標(biāo)。
(21)
分別進(jìn)行以下三組對比:
1.按照空間變系數(shù)地理加權(quán)自回歸模型形式生成數(shù)據(jù)
表2 模型估計(jì)情況對比
2.按照地理加權(quán)回歸模型形式生成數(shù)據(jù)
數(shù)據(jù)生成過程的具體設(shè)計(jì)如下:(1)自變量:xi1~N(5,12),xi2~N(1,42);(2)殘差向量:εi~N(0,0.252);(3)變系數(shù):
β1(ui,vi)=ui+vi,β2(ui,vi)=3cos(πui)。由表3可以看出,若真實(shí)模型為地理加權(quán)回歸模型,按照空間變系數(shù)地理加權(quán)自回歸模型的局部GMM方法進(jìn)行參數(shù)估計(jì)也能得到很好的結(jié)果。
表3 模型估計(jì)情況對比
3.按照空間自回歸模型形式生成數(shù)據(jù)
(1)自變量:xi1~N(5,12),xi2~N(1,42);(2)殘差向量:εi~N(0,0.252);(3)變系數(shù):ρ=0.75,β1=-2,β2=3。由表4可以看出,若真實(shí)模型為空間自回歸模型,按照空間變系數(shù)地理加權(quán)自回歸模型的局部GMM方法進(jìn)行參數(shù)估計(jì)能提高估計(jì)精度。綜上所述,本文所提出的模型包含了常見的空間自回歸模型和地理加權(quán)回歸模型,針對實(shí)際數(shù)據(jù)進(jìn)行分析具有廣泛的適應(yīng)性,不容易出現(xiàn)模型設(shè)定錯誤。當(dāng)然,實(shí)際數(shù)據(jù)分析中,空間滯后回歸參數(shù)和回歸系數(shù)是否隨著空間位置發(fā)生顯著變化需要通過假設(shè)檢驗(yàn)來檢驗(yàn),本文由于篇幅有限,不再討論。
表4 模型估計(jì)情況對比
收入和消費(fèi)之間關(guān)系的研究一直受到廣泛的關(guān)注,馬驪等曾進(jìn)行了城鎮(zhèn)居民消費(fèi)與收入關(guān)系的空間自回歸分析[20]。本節(jié)將在考慮地理位置的基礎(chǔ)上,利用本文提出的空間變系數(shù)地理加權(quán)自回歸模型展開研究。模型設(shè)為:
(22)
自變量x為標(biāo)準(zhǔn)化處理后的2020年各地區(qū)城鎮(zhèn)居民人均可支配收入,因變量y為2020年各地區(qū)城鎮(zhèn)居民人均消費(fèi)支出,數(shù)據(jù)來源于《中國統(tǒng)計(jì)年鑒2021》。工具變量的選取如上文所述。為了消除量綱的影響,將觀測點(diǎn)的位置坐標(biāo)(經(jīng)、緯度)進(jìn)行歸一化處理,記為u、v。
原始數(shù)據(jù)如表5和表6所示,可以看出,東部地區(qū)的城鎮(zhèn)居民人均消費(fèi)支出和人均可支配收入總體較高。
表5 原數(shù)據(jù)——各地區(qū)城鎮(zhèn)居民人均消費(fèi)支出基本情況 單位:萬元
表6 原數(shù)據(jù)——各地區(qū)城鎮(zhèn)居民人均可支配收入基本情況 單位:萬元
具體來看,城鎮(zhèn)居民人均消費(fèi)支出和人均可支配收入排名前六位的地區(qū)包括上海、北京、浙江、廣東、天津、江蘇(排名不分先后),這六個地區(qū)均屬于東部地區(qū)。
關(guān)于空間鄰接矩陣的設(shè)置,以地理上的接壤作為判定鄰近的標(biāo)準(zhǔn),由此得到鄰接矩陣(這里認(rèn)為海南和廣東鄰近),對鄰接矩陣進(jìn)行了行標(biāo)準(zhǔn)化處理,即得到空間權(quán)重矩陣W。
計(jì)算自變量和因變量的Moran’I指數(shù),得到對應(yīng)的P值均小于0.001,因此認(rèn)為其空間相關(guān)性均顯著。下面將空間變系數(shù)地理加權(quán)自回歸模型的局部GMM估計(jì)的參數(shù)估計(jì)效果和式(1)中的空間自回歸模型(SAR)下的估計(jì)效果進(jìn)行對比。在后續(xù)模型分析中,如不特別說明,提到的城鎮(zhèn)居民人均可支配收入(自變量)以及城鎮(zhèn)居民人均消費(fèi)支出(因變量)均為標(biāo)準(zhǔn)化后的數(shù)據(jù)。需要注意的是,在進(jìn)行空間變系數(shù)地理加權(quán)自回歸模型的局部GMM估計(jì)時,參考Malikov和Sun等的做法,選擇平滑參數(shù)h1=h2=n-1/6[17]。
根據(jù)表7可知,納入地理位置信息后,通過局部GMM方法估計(jì)后得到的因變量的均方誤差比直接對空間自回歸模型進(jìn)行估計(jì)得到的均方誤差要小,并且局部GMM方法估計(jì)得到的因變量的最小值、中位數(shù)、最大值和真實(shí)值的差距也更小??臻g變系數(shù)地理加權(quán)自回歸模型的局部GMM估計(jì)有效提高了估計(jì)精度。
表7 模型估計(jì)情況
由圖5可以看到,個別觀測點(diǎn)預(yù)測值和真實(shí)值間存在一定差距,但空間變系數(shù)地理加權(quán)自回歸模型的局部GMM估計(jì)下預(yù)測值和真實(shí)值間差距整體更小,大多數(shù)預(yù)測值在真實(shí)值附近。空間變系數(shù)地理加權(quán)自回歸模型的局部GMM下各ρ(ui,vi)和β(ui,vi)的估計(jì)情況如圖6所示。x、y軸分別表示u、v的取值,z軸表示對應(yīng)的系數(shù)函數(shù)變化值??梢园l(fā)現(xiàn),各變系數(shù)與變元(u,v)有關(guān)。ρ(ui,vi)的估計(jì)值大多為正,即某一地區(qū)的城鎮(zhèn)居民消費(fèi)支出大多受周邊地區(qū)正面影響;β(ui,vi)的估計(jì)值基本為正,意味著城鎮(zhèn)居民人均可支配收入對消費(fèi)支出有顯著的正面影響。
圖5 因變量預(yù)測值和真值對比注:·真值(黑色大點(diǎn))·預(yù)測值(灰點(diǎn)小點(diǎn))誤差線段。左圖局部右圖表示SAR。
圖6 變系數(shù)三維散點(diǎn)圖
結(jié)合表8和表9,觀察變系數(shù)ρ(ui,vi)的估計(jì)情況可以發(fā)現(xiàn),全國31個省份的人均消費(fèi)支出存在空間變化。ρ(ui,vi)的估計(jì)值在-0.057~0.382之間,除了廣西、云南、西藏,其余多數(shù)地區(qū)的城鎮(zhèn)人均消費(fèi)支出受到鄰近地區(qū)城鎮(zhèn)居民人均消費(fèi)支出的正向影響,消費(fèi)水平高的地區(qū)會拉動周圍地區(qū)的消費(fèi)水平。在不同地區(qū),ρ(ui,vi)估計(jì)值存在一定差異性,這表明城鎮(zhèn)人均消費(fèi)支出受周圍地區(qū)的影響程度并不完全相同,存在空間異質(zhì)性。
表8 各區(qū)域估計(jì)結(jié)果
表9 變系數(shù)估計(jì)情況
觀察變系數(shù)β(ui,vi)的估計(jì)情況可以發(fā)現(xiàn),全國31個省份的城鎮(zhèn)居民人均可支配收入對人均消費(fèi)支出總體呈正向的影響,總體來看,人均可支配收入高的地區(qū)消費(fèi)水平更高。同樣地,在不同地區(qū)β(ui,vi)估計(jì)值存在一定差異性,城鎮(zhèn)居民人均可支配收入對人均消費(fèi)支出的影響程度因地區(qū)而異。
表10 ρ(ui,vi)分區(qū)域估計(jì)情況
表11 β(ui,vi)分區(qū)域估計(jì)情況
分區(qū)域觀察變系數(shù)ρ(ui,vi)的估計(jì)情況(見表10)。總體來說,東北地區(qū)城鎮(zhèn)居民人均消費(fèi)支出受鄰近城市的影響程度更大。分區(qū)域觀察變系數(shù)β(ui,vi)的估計(jì)情況(見表11)。總體來說,相比西部地區(qū)和東北地區(qū),中部地區(qū)、東部地區(qū)城鎮(zhèn)居民人均可支配收入對消費(fèi)支出產(chǎn)生的影響更大。大多數(shù)位于東部地區(qū)的城鎮(zhèn)居民人均可支配收入和消費(fèi)支出均處于全國較為領(lǐng)先的地位,其對應(yīng)的β(ui,vi)估計(jì)值較大,可以合理推測,城鎮(zhèn)人均可支配收入較高的地區(qū),可支配收入對當(dāng)?shù)叵M(fèi)支出存在的正面影響程度也可能較高。
為了能夠同時刻畫空間自相關(guān)性和空間異質(zhì)性,本文研究了一類空間變系數(shù)地理加權(quán)自回歸模型,該模型是經(jīng)典空間自回歸模型和地理加權(quán)回歸模型的推廣。基于局部線性技術(shù)和局部GMM方法,構(gòu)造了模型中未知系數(shù)函數(shù)的估計(jì)量,通過數(shù)值模擬和實(shí)例考察了所提方法的有效性。實(shí)證研究了2020年城鎮(zhèn)居民人均消費(fèi)與收入關(guān)系,得到以下結(jié)論:一個地區(qū)的城鎮(zhèn)居民人均消費(fèi)支出大多受到鄰近地區(qū)居民消費(fèi)支出的正向影響,消費(fèi)水平高的城市也會拉動周圍城市的消費(fèi)水平;城鎮(zhèn)居民人均可支配收入對人均消費(fèi)支出總體呈正向的影響,總體來看,人均可支配收入高的地區(qū)消費(fèi)水平更高;城鎮(zhèn)人均可支配收入較高的地區(qū),可支配收入對當(dāng)?shù)叵M(fèi)支出存在的正面影響程度也可能較高。
本文重點(diǎn)研究了模型的局部GMM估計(jì)問題,如果對模型采用其他方法進(jìn)行估計(jì),比如采用工具變量兩階段最小二乘估計(jì)或者局部極大似然估計(jì)方法,都是值得探討的問題。此外本文沒有對所提估計(jì)量的理論進(jìn)行深入研究。對于在實(shí)際數(shù)據(jù)分析中非常重要的檢驗(yàn)問題沒有涉及,比如空間滯后參數(shù)與回歸系數(shù)是否為常數(shù),空間自相關(guān)性是否存在等檢驗(yàn),這都是需要進(jìn)一步研究的內(nèi)容。