婁 文
(南京理工大學(xué) 理學(xué)院,南京 210094)
在經(jīng)濟領(lǐng)域,研究地區(qū)房價與各種影響因素之間的關(guān)系有著較為重要的意義。何靜等[1]利用可加模型對北京市二手房房價數(shù)據(jù)進行分析并通過分位回歸方法對模型進行估計;周爾民等[2]根據(jù)江西省2005—2013年的房價數(shù)據(jù),采用逐步回歸分析法,建立多個房價回歸模型,并對模型進行診斷和檢驗;尹雯雯[3]研究了變系數(shù)誤差模型的核實方法在波士頓住房數(shù)據(jù)上的應(yīng)用。研究的加利福尼亞房價數(shù)據(jù)集包含20 640個觀測樣本, 其中響應(yīng)變量是中位房價(Median house value),協(xié)變量包括中位收入(Median income)、房屋中位年齡(Housing median age)、總房間數(shù)(Total rooms)、總臥室數(shù)(Total bedrooms)、人口(Population)、家庭(Households)、緯度(Latitude)和經(jīng)度(Longitude)。
在經(jīng)濟和醫(yī)療等領(lǐng)域,具有乘積扭曲結(jié)構(gòu)的測量誤差十分常見。entürk和Müller[18]在研究協(xié)變量和響應(yīng)變量都含有乘積扭曲測量誤差的線性回歸模型時,提出了協(xié)變量調(diào)整回歸(covariate-adjusted regression,CAR)。該方法通過建立回歸系數(shù)與變系數(shù)回歸模型之間的聯(lián)系,消除了乘積扭曲測量誤差給回歸系數(shù)估計帶來的影響,他們證明了利用協(xié)變量調(diào)整回歸獲得的回歸系數(shù)的估計量具有相合性,并用此方法分析了血液透析患者的纖維蛋白原水平與其他血漿蛋白水平(如轉(zhuǎn)鐵蛋白水平、銅藍蛋白水平和酸性糖蛋白水平等)之間的關(guān)系;Delaigle等[19]進一步討論了非參數(shù)協(xié)變量調(diào)整回歸的相關(guān)問題,在弱化了一些有關(guān)變量和扭曲函數(shù)的假設(shè)條件后,給出了更為靈活的非參數(shù)估計量,能夠在協(xié)變量和響應(yīng)變量期望為0或扭曲函數(shù)不滿足嚴格大于0的條件下對非參數(shù)部分進行估計。
本文利用單指標扭曲測量誤差模型對加利福尼亞房價數(shù)據(jù)進行擬合。由于單指標模型可以通過部分線性單指標模型退化得到,因此我們利用Zhang[20]提出的估計方法來進行模型估計。
參數(shù)回歸模型最大的特點在于假設(shè)模型的結(jié)構(gòu)是已知的,即響應(yīng)變量和協(xié)變量之間的函數(shù)關(guān)系是已知的,僅有有限個參數(shù)未知。在這樣的假設(shè)下,參數(shù)回歸模型的估計問題就等同于這有限個未知參數(shù)的估計問題。因此,諸如線性模型和廣義線性模型等參數(shù)回歸模型的估計方法相對簡單。參數(shù)回歸模型對模型結(jié)構(gòu)的假設(shè)除了給模型估計帶來了便利,還提高了模型被錯誤識別的風(fēng)險。如果模型與實際情況相符,那么做出的統(tǒng)計推斷則有著較高的精度。一旦模型與實際情況偏差較大,獲得的估計結(jié)果會很差。
非參數(shù)回歸模型沒有給出完全已知的模型結(jié)構(gòu),而是通過未知函數(shù)來構(gòu)建Y與X之間的關(guān)系,所以適用的范圍要比參數(shù)回歸模型廣泛。非參數(shù)回歸模型在協(xié)變量的維數(shù)是一維的時候,得到的未知函數(shù)的估計精度較高,而當(dāng)協(xié)變量的維數(shù)超過一維的時候,得到的未知函數(shù)的估計精度會隨著維數(shù)的增大快速下降。這是因為諸如N-W核估計法(Nadaraya-Watson)、局部多項式估計法(Local Polynomial)和B樣條估計法(B-Spline)等非參數(shù)估計方法(即光滑方法)的本質(zhì)是局部光滑,只有確保某一點的領(lǐng)域內(nèi)有著足夠多的數(shù)據(jù)點,才能得到未知函數(shù)在該點較為精確的估計。然而,隨著協(xié)變量維數(shù)的增大,一個局部領(lǐng)域內(nèi)的樣本個數(shù)占總的樣本個數(shù)的比例會越來越小,局部光滑所需要的數(shù)據(jù)點個數(shù)成指數(shù)倍增加,這就是所說的“維數(shù)禍根”(curse of dimensionality)現(xiàn)象。
半?yún)?shù)模型在保留非參數(shù)回歸模型優(yōu)點的同時對協(xié)變量進行降維,較好地解決了“維數(shù)禍根”問題。該模型能夠根據(jù)數(shù)據(jù)來確定模型的最終結(jié)構(gòu),能夠很好地解釋協(xié)變量與響應(yīng)變量之間的影響關(guān)系,能夠減小假設(shè)模型與真實模型存在偏離時的影響。經(jīng)過不斷地發(fā)展,半?yún)?shù)回歸模型的形式也越來越豐富,包括部分線性模型、單指標模型、變系數(shù)模型和單指標變系數(shù)模型等,這些模型都已經(jīng)廣泛地應(yīng)用于經(jīng)濟和醫(yī)療等領(lǐng)域。
在實際應(yīng)用中,能夠影響變量觀測準確度的因素有很多,例如測量儀器自身的準確度不足產(chǎn)生的誤差,使用測量儀器觀測時讀數(shù)產(chǎn)生的誤差和獲取各個樣本的外部環(huán)境條件存在差異產(chǎn)生的誤差等。如果忽略這些影響因素,默認變量的觀測值與其真實值之間不存在偏差,利用半?yún)?shù)回歸模型對含有測量誤差的變量進行統(tǒng)計推斷,那么推斷的結(jié)果將存在偏差,嚴重時可能與真實情況完全違背。目前,測量誤差影響觀測值的方式主要有兩類:一類被稱為可加結(jié)構(gòu)的測量誤差模型,顧名思義就是測量誤差以加和的形式影響真實值的觀測,如W=X+U(W是觀測值,X是真實值,U是測量誤差);另一類被稱作乘積結(jié)構(gòu)的測量誤差模型,即測量誤差以乘積的形式影響真實值的觀測,如W=XU(W,X,U的含義同上)。
隨著不斷深入的研究,測量誤差對于觀測值的影響方式越來越復(fù)雜,簡單的乘積結(jié)構(gòu)的測量誤差模型無法在某些復(fù)雜情況下進行有效的糾偏。因此,乘積結(jié)構(gòu)的測量誤差模型有了更為復(fù)雜的擴展形式,例如乘積扭曲結(jié)構(gòu)的測量誤差模型,W=Xψ(U) (W,X的含義同上,U是混淆變量,ψ是未知扭曲函數(shù)),乘積單指標扭曲結(jié)構(gòu)的測量誤差模型,W=Xψ(θTU) (W,X,U,ψ的含義同上,θ為未知的指標系數(shù))。在經(jīng)濟和醫(yī)療領(lǐng)域,諸多變量都具有乘積扭曲結(jié)構(gòu)的測量誤差。經(jīng)濟領(lǐng)域的房屋年齡和醫(yī)療領(lǐng)域的身體質(zhì)量指數(shù)(BMI)等通常被視作混淆變量。
根據(jù)加利福尼亞房價數(shù)據(jù)的特點,房屋中位年齡可能作為混淆變量影響其他變量的觀測結(jié)果。為了能夠讓模型盡可能地符合數(shù)據(jù)的實際情況,選擇單指標扭曲測量誤差模型對該數(shù)據(jù)進行擬合。
單指標扭曲測量誤差模型具有如下形式:
(1)
(2)E{ψ(U)}=1,E{φr(U)}=1,r=1,2,…,p。
假定式(1)是為了保證參數(shù)β0的唯一性。假定式(2)確保了乘積扭曲測量誤差問題的可識別性,即從均值的角度來看乘積測量誤差對變量無影響。這是一般情況下測量誤差問題都需要滿足的假定條件,其思想類似于經(jīng)典的加性測量誤差問題W=X+u中,假設(shè)E(u)=0來保證可識別性。
其中:
是核函數(shù),h1是帶寬。將響應(yīng)變量和協(xié)變量的觀測值與其各自對應(yīng)的扭曲函數(shù)估計值相除,獲得了校準后的變量:
利用條件絕對均值校準方法來對乘積扭曲測量誤差進行糾偏可以看作是在對真實模型進行估計前的數(shù)據(jù)預(yù)處理。根據(jù)響應(yīng)變量和協(xié)變量的觀測值,采用核光滑來得到扭曲函數(shù)的估計量,再通過簡單的相除運算得到響應(yīng)變量和協(xié)變量真實值的估計,即校準后的響應(yīng)變量和協(xié)變量。在進行模型估計的時候,使用校準后的響應(yīng)變量和協(xié)變量代替觀測到的響應(yīng)變量和協(xié)變量。這樣一來,就完成了對乘積扭曲測量誤差的糾偏。
(2)
通過簡單的計算,可以得到β關(guān)于β(r)的Jacobian矩陣:
g(T)≈g(t)+g′(t)(T-t)≡a+b(T-t)
得到的a和b的估計量,h是帶寬。
根據(jù)最小二乘理論,可以得到:
其中:
通過求解方程組:
本文研究的加利福尼亞房價數(shù)據(jù)可在http://lib.stat.cmu.edu/datasets/houses.zip獲得。運用單指標扭曲測量誤差模型對該數(shù)據(jù)進行擬合,選取其中的中位房價(Median house value)、中位收入(Median income)、房屋中位年齡(Housing median age)、總房間數(shù)(Total rooms)、總臥室數(shù)(Total bedrooms)和人口(Population)這6個變量進行研究。各變量與其對應(yīng)的符號表示如表1所示。
表1 房價數(shù)據(jù)變量Table 1 The variables of housing prices data
首先對表1的6個變量進行標準化處理,然后選取模型估計所需要的3個帶寬h,h1和h2。帶寬h1用于對扭曲函數(shù)進行估計,h和h2用于對未知函數(shù)g(·)和g′(·)進行局部線性估計。
(3)
來選擇h,其中
因為這確保了滿足最優(yōu)漸近性質(zhì)所需要的帶寬有著正確的數(shù)量級,選取的結(jié)果為
h1=0.305,h=0.145,h2=0.430
根據(jù)上一節(jié)介紹的模型估計方法,給出估計模型式(1)中的未知指標系數(shù)β0和未知聯(lián)系函數(shù)g0(·)的具體步驟:
這里有一點需要注意,那就是非線性優(yōu)化的收斂速度對初始值較為敏感。在某些情況下,廣義線性模型能夠幫助我們獲得β0的初始值。但是當(dāng)聯(lián)系函數(shù)為指數(shù)函數(shù)或者三角函數(shù)的時候,就不能再通過廣義線性模型得到初始值。此時,可以采用切片逆回歸方法或者最小平均方差方法來獲得β0的初始值。
根據(jù)加利福尼亞房價數(shù)據(jù),依照上述算法,計算單指標扭曲測量誤差模型的估計結(jié)果,最終得到的扭曲函數(shù)ψ(·),φ1(·),φ2(·),φ3(·)和φ4(·)的估計結(jié)果如圖1—圖5。如果中位房價、中位收入、總房間數(shù)、總臥室數(shù)和人口不受到以房屋中位年齡為混淆變量的乘積污染,那么扭曲函數(shù)的估計曲線應(yīng)該近似與直線Y=1平行且在該直線的附近。
觀察圖1—圖5發(fā)現(xiàn)5個扭曲函數(shù)的估計曲線既不平行于直線Y=1,也不在該直線的附近。這驗證了一開始的想法,在一定程度上說明了中位房價、中位收入、總房間數(shù)、總臥室數(shù)和人口受到了以房屋中位年齡為混淆變量的乘積污染。
表2 兩種方法得到參數(shù)β0的估計Table 2 The estimation of β0 by two methods
經(jīng)典半?yún)?shù)模型中大多數(shù)假設(shè)響應(yīng)變量和協(xié)變量是可以準確觀測的,這樣能夠簡化模型。但是在實際應(yīng)用中,數(shù)據(jù)存在測量誤差的情況時有發(fā)生,尤其是在經(jīng)濟領(lǐng)域。忽略測量誤差的影響,直接對模型進行估計會導(dǎo)致獲得的結(jié)果存在偏差。針對加利福尼亞住房數(shù)據(jù),選取房屋中位年齡作為混淆變量,采用單指標扭曲測量誤差模型對該數(shù)據(jù)進行擬合。觀察扭曲函數(shù)的擬合曲線后發(fā)現(xiàn)中位房價、中位收入、總房間數(shù)、總臥室數(shù)和人口均受到了以房屋中位年齡為混淆變量的乘積污染。這說明了所選擇的單指標扭曲測量誤差模型相比于不含測量誤差的半?yún)?shù)模型更適合加利福尼亞住房數(shù)據(jù)。