張穎
(濟(jì)南大學(xué)數(shù)學(xué)科學(xué)學(xué)院,濟(jì)南250022)
在傳統(tǒng)的回歸分析中,往往假定回歸函數(shù)有某種特定的數(shù)學(xué)形式,一般是線性的或可轉(zhuǎn)化為線性的形式?;貧w函數(shù)中包含若干個未知參數(shù),并假定“隨機(jī)誤差項”服從正態(tài)分布。然而在實際問題中,不一定可以假定上述條件(回歸為線性、誤差為正態(tài))成立,導(dǎo)致在實際應(yīng)用中往往存在模型設(shè)計的誤差。由于現(xiàn)在越來越多的數(shù)據(jù)不適合用參數(shù)回歸來進(jìn)行數(shù)據(jù)擬合,而非參數(shù)回歸是基于數(shù)據(jù)本身,所以非參數(shù)回歸越來越受到歡迎。自Stone(1977)[1]提出非參數(shù)回歸估計的權(quán)函數(shù)估計方法后,其方法引起了廣泛的重視。近幾十年來,權(quán)函數(shù)方法如核估計、局部多項式估計、近鄰估計等方法不斷發(fā)展完善,非參數(shù)回歸的理論和應(yīng)用取得了較大的進(jìn)展。在眾多非參數(shù)回歸方法中,核回歸估計是一種重要的、常用的估計方法,被廣泛應(yīng)用于各種統(tǒng)計問題的研究中。核回歸估計具有分析簡單、便于實現(xiàn)等諸多優(yōu)點(diǎn),本文主要在N-W核回歸估計的基礎(chǔ)上研究了可變窗寬的自適應(yīng)N-W核回歸估計,并提出了一種改進(jìn)的自適應(yīng)N-W核回歸估計。
顯然有
,g(x)=E(Y|X)=∫yf(x,y)dy,其中f(x,y)是fX(x)
(X,Y)的聯(lián)合密度函數(shù),f(x)是的X邊緣密度函數(shù)。
回歸函數(shù)g(x)的估計量,記為:
核估計既與樣本有關(guān),又與核函數(shù)k(?)及窗寬h有關(guān)。在給定樣本之后,一個核估計的性能就取決于核函數(shù)k(?)及窗寬h的選取。核函數(shù)k(?)的選擇并不是太重要,用不同的核所得到的估計在數(shù)值上非常類似。這個現(xiàn)象已經(jīng)被理論上的計算所證實。這表明風(fēng)險對于核的選擇是很不敏感的[2]。在實際應(yīng)用中,經(jīng)常使用的核函數(shù)有Epanechnikov核函數(shù)k(u)=(1-u2)(|u|≤1)和高斯核函數(shù)k(u)=核估計量的窗寬h影響著估計的光滑程度。若h選的過大,則估計過于平滑,會使某些特征(如多峰性)被淹沒,若h選的過小,整個估計特別是尾部就出現(xiàn)較大的干擾,從而又有增大方差的趨勢。因此窗寬h的選擇非常重要。最常使用的窗寬選擇方法主要有缺一交叉驗證法和插入法。其中,插入法主要基于核密度估計精度的測量——均方誤差分析中得來;缺一交叉驗證法(leave-one-out cross validation,簡稱CV)由Rudemo(1982)[3]和Bowman(1984)[4]從實際計算的角度提出。在缺一交叉驗證法中,通過最小化缺一交叉驗證函數(shù)CV(h)即可得到窗一交叉驗證函數(shù)一個leave-one-out核估計量。其定義由樣本容量為n-1的樣本{(X1,Y1),…,(Xi-1,Yi-1),(Xi+1,Yi+1),…,(Xn,Yn)}來估計g(Xi)。該方法直接由數(shù)據(jù)“自動”選擇窗寬。
當(dāng)n取定值時,缺一交叉驗證法得到的窗寬h是一個常數(shù),即它既不依賴于位置x也不依賴于數(shù)據(jù)點(diǎn)Xi。選出的固定窗寬無法隨樣本觀測值的稀疏程度進(jìn)行調(diào)整,這使得所得到的估計不能充分利用變量X的密度函數(shù)所提供的信息,估計結(jié)果會出現(xiàn)較大的誤差。另外,常數(shù)窗寬在待估回歸曲線具有復(fù)雜形狀時,缺乏靈活性。因此,理想中的窗寬選擇應(yīng)該與樣本數(shù)據(jù)點(diǎn)的分散集中程度聯(lián)系起來。Breiman等(1977)[5]在密度函數(shù)估計的背景下提出了可變窗寬的概念。Abramson(1982)[6]和Silverman(1986)[7]分別對可變窗寬做了進(jìn)一步的研究。
Silverman(1986)[7]通過使用右厚尾數(shù)據(jù)表明固定窗寬的核估計量X(x)和(x,y)并不適合厚尾分布,Silverman提出了密度函數(shù)的可變窗寬的核估計量,即密度函數(shù)的自適應(yīng)核估計量。它允許窗寬變化,既可以對每個點(diǎn)x使用不同的窗寬,也可以對每個樣本數(shù)據(jù)點(diǎn)Xi使用不同的窗寬,這使得核密度估計更加靈活,更加適用于長尾密度函數(shù)的估計。因此,它是N-W核估計的改良和推廣。
在一元情形,在樣本點(diǎn)Xi處的具有可變窗寬的自適應(yīng)核估計量定義為:
式(2)中的可變窗寬h(Xi)是一個依賴于Xi的可變窗寬,可變窗寬h(Xi)隨數(shù)據(jù)點(diǎn)Xi的變化而變化??勺兇皩挼囊肟梢苑从巢煌c(diǎn)的光滑程度,降低擬合曲線在峰頂區(qū)域的偏差以及尾部區(qū)域的方差,提高了擬合曲線的靈活性,適用于對復(fù)雜曲線的擬合。Abramson(1982)[6]在研究中提出h(Xi)與f(Xi成比例。在Abramson研究的基礎(chǔ)上,Silverman給出了自適應(yīng)核密度估計的算法。
步驟2:定義局部窗寬因子λi={(Xi)g}-α,其中g(shù)(g≠0)為(Xi)的幾何平靈敏度參數(shù),滿足0≤α≤1。
從式(3)可以看出,自適應(yīng)窗寬h(Xi)=hλi。當(dāng)靈敏度參數(shù)α=0時,自適應(yīng)核密度估計與固定窗寬的核密度估計相等;當(dāng)α=1時,自適應(yīng)核密度估計與近鄰核估計相等。Abramson和Silverman的研究表明,在實際應(yīng)用中,當(dāng)α=0.5時,自適應(yīng)核密度估計效果最好。
利用乘積核函數(shù),同時使用可變窗寬代替固定窗寬,Sain(1994)[8]給出r元密度函數(shù)的自適應(yīng)核密度估計的二元聯(lián)合密度函數(shù)的核密度估計定義為(x,y)=
證明:
利用核函數(shù)的性質(zhì)1和性質(zhì)2,就可以得到自適應(yīng)NW核回歸估計量:
取可變窗寬h(Xi)=λih,則自適應(yīng)N-W核回歸估計量
公式(4)中的局部窗寬因子λi可由Silverman關(guān)于自適應(yīng)密度函數(shù)估計的算法得到。在計算局部窗寬因子λi可得到一個改進(jìn)的自適應(yīng)N-W核回歸估計量
本文將通過模擬研究來比較N-W核估計量(NW)、自適應(yīng)N-W核估計量(ANW)、改進(jìn)的自適應(yīng)N-W核估計量(A*NW)三者的估計效果。
為了比較文中所提到的三種核回歸估計量的估計效果,本文利用以下兩個模型分別模擬容量為200的兩個樣本來做模擬研究。
模型1:Y=Xsin2πX+ε,其中ε~N(0,0.1),X~U[0,1]。
模型2:Y=cos2πX+ε,其中ε~N(0,0.1),X~U[0,1]。
采用Epanechnikov核函數(shù),真實回歸函數(shù)曲線g(x)和由三種核估計量得到的擬合曲線如圖1和圖2所示。
圖1模型1的核估計回歸曲線
圖2模型2的核估計回歸曲線
使用擬合優(yōu)度和均方誤差(MSE)來評價三種估計量的估計效果在兩種模型下,分別計算出三種核回歸估計量的MSE值,計算結(jié)果見表1。
表1 利用Epanechnikov核函數(shù)得到的核估計量的擬合優(yōu)度和均方誤差
從表1可以看出,在兩種模型下,采用Epanechnikov核函數(shù),可變窗寬的自適應(yīng)N-W核回歸估計量的MSE值都比固定窗寬的N-W核回歸估計量的MSE值小,特別是改進(jìn)的自適應(yīng)N-W核回歸估計量的MSE值都是最小的,這說明文中所提出的方法同N-W核估計、自適應(yīng)N-W核估計相比,優(yōu)越性更加明顯。
研究加拿大工人收入(income)和年齡(age)的關(guān)系,該數(shù)據(jù)來源于R程序包“SemiPar”,樣本觀測值為205,解釋變量為age,被解釋變量為log.income(log.income=log(income))。本文分別應(yīng)用N-W核回歸估計量和兩種自適應(yīng)N-W核回歸估計量來擬合age與log.income之間的函數(shù)關(guān)系。圖3是采用Epanechnikov核函數(shù)計算出的三種N-W核回歸估計量得到的回歸擬合曲線。
圖3利用Epanechnikov核函數(shù)得到的核估計回歸曲線
由圖3可以看出,從整體擬合效果上觀察,文中提出的改進(jìn)的自適應(yīng)N-W核估計方法優(yōu)于其他兩種估計方法,而自適應(yīng)N-W核回歸方法優(yōu)于N-W核回歸估計方法,同時發(fā)現(xiàn)可變窗寬的自適應(yīng)N-W核回歸估計明顯優(yōu)于固定窗寬的N-W核回歸估計,特別是在稀疏樣本點(diǎn)和邊界點(diǎn)處,表現(xiàn)得更為明顯。使用固定窗寬的N-W核回歸分析方法擬合時,邊界點(diǎn)的估計偏差較大,即存在邊界效應(yīng),而用可變窗寬的自適應(yīng)N-W核回歸分析方法卻能很好地減少邊界效應(yīng)。通過實例,進(jìn)一步驗證了模擬研究中的結(jié)論。
為了更好地估計回歸函數(shù),本文對自適應(yīng)N-W核回歸估計進(jìn)行了研究。模擬研究結(jié)果表明,具有可變窗寬的自適應(yīng)N-W核回歸估計比固定窗寬的N-W核回歸估計的估計效果更好,對于一個自適應(yīng)N-W核回歸估計量來說,使用算術(shù)均值得到的窗寬比使用幾何均值得到的窗寬在估計效果上有更大的優(yōu)勢。總之,本文所用的可變窗寬核回歸方法,繼承了核回歸的優(yōu)點(diǎn),并且使用可變窗寬提高了估計的效果,并使之能成功地處理復(fù)雜形狀的曲線的擬合問題。
參考文獻(xiàn):
[1]Stone C J.Consistent Nonparametric Regression[J].Annals of Statistics,1977,5(4).
[2]Brown L D,Zhang C H.Asymptotic Equivalence Theory for Nonparametric Regression With Random Design[J].Annals of Statistics,2003,30(3).
[3]Rudemo M.Empirical Choice of Histograms and Kernel Density Estimation[J].Scandinavian Journal of Statistcs,1982,(9).
[4]Bowman A W.An Alternative Method of Cross-validation for the Smoothing of Density Estimates[J].Biometrika,1984,71(2).
[5]Breiman L,Meisel W,Purcell E.Variable Kernel Estimates of Multivate Densities[J].Technometrics,1977,(19).
[6]Abramson I S.On Bandwidth Variation in Kernel Estimates-A Square Root Law[J].Annals of Statistics,1982,10(4).
[7]Silverman B W.Density Estimation for Statistics and Data Analysis[M].London:Chapman&Hall,1986.
[8]Sain S R.Adaptive Kernel Density Estimation[D].Texas:Rice University,1994.