趙 靜
(天津財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,天津 300202)
回歸分析在統(tǒng)計(jì)學(xué)中具有十分重要的地位,是應(yīng)用最廣泛的分析方法之一?;貧w分析大致分為參數(shù)模型及非參數(shù)模型。參數(shù)模型通常假定函數(shù)基本形式已知、參數(shù)未知,通過(guò)對(duì)參數(shù)的估計(jì)得到函數(shù)關(guān)系的表達(dá)式,從而進(jìn)行分析、預(yù)測(cè)等。參數(shù)模型的優(yōu)勢(shì)在于理論完善,形式簡(jiǎn)潔,實(shí)際應(yīng)用廣泛,但由于擬合能力不足,存在模型設(shè)定錯(cuò)誤等,因而學(xué)術(shù)界提出了非參數(shù)模型。非參數(shù)模型的主要特點(diǎn)在于回歸函數(shù)的形式任意,對(duì)協(xié)變量和響應(yīng)變量的分布限制較少,具有較大的適應(yīng)性與穩(wěn)健性。與傳統(tǒng)回歸模型相比,非參數(shù)模型具有更多的靈活性,可以對(duì)同一數(shù)據(jù)進(jìn)行多次擬合,深入探究數(shù)據(jù)中可能存在的某種隱藏關(guān)系。而且,非參數(shù)模型可以對(duì)數(shù)據(jù)中的任何模式或變量間任何一種曲線關(guān)系進(jìn)行擬合,而傳統(tǒng)回歸只能對(duì)直線或二次曲線等形式進(jìn)行擬合。實(shí)際上,非參數(shù)回歸擬合往往也會(huì)帶來(lái)意想不到的結(jié)果,會(huì)改變?nèi)藗儗?duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析的方向,得到更深刻的結(jié)論。在非參數(shù)模型中通常假定函數(shù)形式未知,需要由觀測(cè)數(shù)據(jù)本身對(duì)整體函數(shù)進(jìn)行估計(jì),進(jìn)而得到擬合效果更好的模型[1]。
單指標(biāo)模型是一種應(yīng)用背景廣泛的非參數(shù)模型,它的優(yōu)勢(shì)在于能夠有效地避免“維度災(zāi)禍”問(wèn)題,很多學(xué)者對(duì)此進(jìn)行了研究。Ichimura采用了回歸模型中最小二乘估計(jì),并結(jié)合N-W估計(jì)法對(duì)模型指標(biāo)參數(shù)進(jìn)行了估計(jì)[2];Weisberg等基于以上方法證明了指標(biāo)參數(shù)估計(jì)量的相合性[3];Xia等提出了最小平均方差估計(jì)法,構(gòu)造的指標(biāo)函數(shù)在聯(lián)系函數(shù)欠光滑的情況下估計(jì)結(jié)果也具有良好的收斂性,同時(shí)Xia證明了最小平均方差估計(jì)的漸近性[4-5];Jiang等提出了縱向和函數(shù)響應(yīng)數(shù)據(jù)的單指標(biāo)模型,并采用指標(biāo)函數(shù)的初始估計(jì),證明了估計(jì)量的相合性和漸近性[6]。
為避免模型中出現(xiàn)過(guò)擬合的情況,Eilers等以B樣條為基函數(shù),在目標(biāo)函數(shù)中加入基函數(shù)系數(shù)的二階差分作為懲罰[7];Ruppert等以截?cái)鄡缁瘮?shù)為基礎(chǔ),取系數(shù)的平方和作為懲罰項(xiàng),得到函數(shù)系數(shù)的懲罰樣條估計(jì)值[8];Yu等提出了截?cái)鄡缁瘮?shù)的部分線性單指標(biāo)模型的懲罰樣條估計(jì),通過(guò)“去一分量”法及最優(yōu)化算法得到參數(shù)的估計(jì)值,并證明了估計(jì)量的相合性和漸近性[9]。
由于懲罰樣條模型中對(duì)基函數(shù)的懲罰權(quán)重是相同的,因此將上述懲罰方法稱為均勻懲罰樣條或整體懲罰樣條估計(jì)法。Ruppert等提出了一種基于網(wǎng)格搜索及線性插值技術(shù)的局部懲罰樣條估計(jì)方法,該方法充分考慮數(shù)據(jù)異質(zhì)性,但計(jì)算較為復(fù)雜[10];丁夢(mèng)珍等針對(duì)非參數(shù)模型,提出了基于極差調(diào)節(jié)的局部懲罰樣條估計(jì)方法,將各節(jié)點(diǎn)區(qū)間數(shù)據(jù)的極差值作為反映該區(qū)間數(shù)據(jù)波動(dòng)性的依據(jù),構(gòu)造遞減函數(shù),生成局部懲罰權(quán)重,并得到函數(shù)系數(shù)估計(jì)值,但由于對(duì)節(jié)點(diǎn)區(qū)間內(nèi)存在數(shù)據(jù)異常值的情況沒(méi)有充分考慮,若某區(qū)間具有數(shù)據(jù)異常值時(shí),此方法會(huì)錯(cuò)誤地判斷該區(qū)間數(shù)據(jù)的波動(dòng)性[11];江坤等針對(duì)非參數(shù)模型,提出了一種基于方差的局部樣條估計(jì)方法,雖然各區(qū)間數(shù)據(jù)量綱相同,但由于均值不同,直接使用方差作為數(shù)據(jù)離散程度的判斷是不充分的[12]。
針對(duì)單指數(shù)模型,本文以徑向基函數(shù)作為樣條函數(shù),提出了一種基于變異系數(shù)的局部懲罰樣條估計(jì)方法。通過(guò)變異系數(shù)反映各區(qū)間數(shù)據(jù)的離散程度,并構(gòu)造遞減函數(shù)生成局部懲罰權(quán)重向量,得到局部懲罰樣條函數(shù)系數(shù)的估計(jì)值,再結(jié)合“去一分量”法和Levenberg-Marquardt算法迭代得到單指標(biāo)模型指標(biāo)參數(shù)的估計(jì)值,采用Monte-Carlo模擬驗(yàn)證了該方法的正確性和有效性。
假設(shè)非參數(shù)模型為:
yi=g(xi)+εi
(1)
其中i=1,2,…,n,εi~N(0,σ2)。
Ruppert描述了徑向基的懲罰樣條估計(jì),進(jìn)一步考慮p次樣條徑向基函數(shù)為:
x=(1,x,x2,…,xp-1,|x-k1|2p-1,…,|x-kl|2p-1)
其中a≤k1<… (2) 令Y=(y1,y2,…,yn)T,X=(x1,x2,…,xn)T,則式(1)的目標(biāo)函數(shù)可以表示為: Q(α)=‖Y-Xα‖2+λαTDα (3) 其中λ為懲罰參數(shù),D為徑向基懲罰矩陣,通常設(shè)定為: (4) 其中 當(dāng)節(jié)點(diǎn)固定時(shí),函數(shù)系數(shù)的總懲罰量只依賴懲罰參數(shù)λ,因此將此類方法稱為均勻懲罰樣條回歸或整體懲罰樣條回歸。 設(shè)單指標(biāo)模型形式為: (5) 其中xi=(xi1,xi2,…,xid)T為觀測(cè)變量,β=(β1,β2,…,βd)T為未知指標(biāo)參數(shù),yi為解釋變量,εi獨(dú)立同分布,服從均值為0方差為σ2的正態(tài)分布。為了模型的可識(shí)別性,假定‖β‖=1且β的第一個(gè)非零元素為正,通過(guò)模型可以看出,當(dāng)d=1且β=1時(shí),模型轉(zhuǎn)化為非參數(shù)模型。 設(shè)徑向基函數(shù)系數(shù)為α=(α0,α1,…,αp-1,αp,…,αp+l-1)T,則g(ui)≈δ(ui)α,(i=1,2,…,n),將其代入單指標(biāo)模型(5),為了估計(jì)徑向基函數(shù)系數(shù)和指標(biāo)參數(shù)β,最小化式(6): (6) 其中λ為懲罰參數(shù)且λ>0,D為懲罰矩陣,懲罰矩陣的設(shè)置如式(4)所示。此時(shí),通過(guò)最小化Qn,λ把計(jì)算未知系數(shù)函數(shù)與指標(biāo)參數(shù)的問(wèn)題轉(zhuǎn)化為估計(jì)向量α和β的問(wèn)題。 用矩陣形式表示,令Y=(y1,y2,…,yn)T,X=(x1,x2,…,xn)T,δ(U)=(δ(u1),δ(u2),…,δ(un))T,ε=(ε1,ε2,…,εn)T,則式(5)可以表示為: Y=g(Xβ)+ε 局部懲罰樣條估計(jì)從直觀上來(lái)說(shuō),當(dāng)觀測(cè)數(shù)據(jù)在節(jié)點(diǎn)具有較大的波動(dòng)性時(shí),應(yīng)當(dāng)給予其較小的懲罰,使得擬合曲線在該區(qū)間處具有較大的自由,反之,若觀測(cè)數(shù)據(jù)在節(jié)點(diǎn)中波動(dòng)性較小時(shí),應(yīng)當(dāng)給予較大的懲罰,限制擬合曲線在該區(qū)間的自由?;诖讼敕?我們使用變異系數(shù)作為波動(dòng)性判斷依據(jù),通過(guò)構(gòu)造遞減函數(shù),得到局部懲罰權(quán)重設(shè)置。 設(shè)局部懲罰權(quán)重向量ω=(0,0,…,0,ω(k1),…,ω(kl)),其中ω(ki)表示對(duì)第i個(gè)節(jié)點(diǎn)處的系數(shù)的懲罰,取對(duì)角矩陣: R=diag(0,0,…,0,ω(k1),…,ω(kl)) 將R代入式(6),則: 其中Q=RTDR。 對(duì)于權(quán)重ω(k1),ω(k2),…,ω(kl)的設(shè)置,采用節(jié)點(diǎn)間觀測(cè)數(shù)據(jù)的變異系數(shù)來(lái)反映局部波動(dòng)性,即: ω(km)=-ln|cvm|,m=1,2,…,l 基于以上思想,給出單指標(biāo)模型局部懲罰樣條估計(jì)步驟,具體如下: 則: (7) 則擬合值為: 對(duì)于第一步給定的初始值β0,采用Yu等提出的方法,選定線性模型: 通過(guò)極小化線性模型得到β的初值β0: 局部懲罰參數(shù)λ通常使用廣義交叉驗(yàn)證法(Generalized-cross-validation,GCV)準(zhǔn)則計(jì)算: 本章通過(guò)Monte-Carlo模擬探究局部懲罰樣條估計(jì)在有限樣本下的表現(xiàn)。分別采用估計(jì)標(biāo)準(zhǔn)誤(S.E.)、偏差(Bias)、均方誤(MSE)以及真實(shí)函數(shù)與擬合值的平均偏差平方根(MAISE)作為評(píng)估指標(biāo)。 本文選取兩個(gè)模型進(jìn)行模擬,并且分別比較了不同樣本量n、不同誤差項(xiàng)方差σ2以及選擇不同節(jié)點(diǎn)步長(zhǎng)knot情況下參數(shù)的估計(jì)及評(píng)估指標(biāo)結(jié)果,具體模型設(shè)定與結(jié)果如下。 模型1: 圖1 模型1數(shù)據(jù)及真實(shí)函數(shù)圖 表2中MAISE反映了樣條函數(shù)的擬合情況,可以看出,均勻懲罰樣條估計(jì)下的MAISE為0.228 4,局部懲罰樣條估計(jì)下的MAISE為0.030 8,局部懲罰樣條的MAISE小于均勻懲罰樣條,說(shuō)明局部懲罰樣條估計(jì)下的樣條函數(shù)擬合效果優(yōu)于均勻懲罰樣條。 表2 模型1擬合指標(biāo)及時(shí)間消耗 模擬200次擬合圖像如圖2所示,其中(a)為均勻懲罰樣條函數(shù)擬合圖,(b)為局部懲罰樣條函數(shù)擬合圖。 圖2 模型1樣條函數(shù)擬合圖 從圖2明顯可以看出,局部懲罰樣條函數(shù)擬合優(yōu)于均勻懲罰樣條函數(shù),局部懲罰樣條函數(shù)擬合的曲線更接近真實(shí)函數(shù)曲線。 分別選取樣本量為n=100,節(jié)點(diǎn)步長(zhǎng)knot=10,誤差項(xiàng)εi~N(0,0.52)和εi~N(0,12),局部懲罰樣條估計(jì)結(jié)果如表3所示。 對(duì)比表1、表2和表3可以看出,當(dāng)樣本量選取n=100時(shí),參數(shù)估計(jì)均值接近真實(shí)值,但偏差、均方誤均大于樣本量n=200的偏差值與均方誤差值。從擬合效果來(lái)看,n=100時(shí)MAISE為0.043 8,大于0.030 8,說(shuō)明隨著樣本量的增大,參數(shù)估計(jì)的精確性越好,越接近真實(shí)值,函數(shù)擬合效果越好。比較運(yùn)行時(shí)間可以看出,隨著樣本量的增加,在得到較精確的估計(jì)值時(shí),估計(jì)所花費(fèi)的時(shí)間也隨之增加。當(dāng)節(jié)點(diǎn)步長(zhǎng)選取knot=10時(shí),參數(shù)估計(jì)值及函數(shù)擬合值MAISE大于knot=5的數(shù)值,所花費(fèi)的時(shí)間268.036小于415.621,說(shuō)明節(jié)點(diǎn)步長(zhǎng)選取越小,節(jié)點(diǎn)越密集,參數(shù)估計(jì)的精確性越好,擬合效果越好,但是計(jì)算時(shí)間會(huì)增加。同理,當(dāng)誤差項(xiàng)方差分別選取σ2=0.52與σ2=12時(shí),參數(shù)估計(jì)效果及函數(shù)擬合值MAISE均明顯不如σ2=0.12的估計(jì)結(jié)果,同時(shí)對(duì)比σ2=0.52與σ2=12來(lái)看,隨著誤差項(xiàng)方差的減小,參數(shù)估計(jì)的精確性越好,函數(shù)擬合效果越好,花費(fèi)的時(shí)間越少。 表3 模型1不同樣本量、誤差項(xiàng)方差及節(jié)點(diǎn)步長(zhǎng)參數(shù)估計(jì)結(jié)果 模型2: 其中誤差項(xiàng)εi~N(0,0.12),樣本個(gè)數(shù)n=200,xij獨(dú)立隨機(jī)從均勻分布U(-1,1)上取值,選擇節(jié)點(diǎn)步長(zhǎng)knot=5,真實(shí)函數(shù)g3(t)=exp{-t},g4(t)=3t2,g5(t)=5cos(tπ)。選取一組模型數(shù)據(jù)散點(diǎn)圖及真實(shí)函數(shù)曲線如圖3所示。 圖3 模型2數(shù)據(jù)及真實(shí)函數(shù)圖 模型200次估計(jì)及評(píng)估結(jié)果見(jiàn)表4,擬合結(jié)果與運(yùn)行時(shí)間見(jiàn)表5。 由表4和表5對(duì)比均勻懲罰樣條與局部懲罰樣條參數(shù)估計(jì)結(jié)果可以看出,在200次模擬的情況下,局部懲罰樣條估計(jì)的參數(shù)及函數(shù)擬合效果均優(yōu)于均勻懲罰樣條。 表4 模型2參數(shù)估計(jì)結(jié)果 表5 模型2擬合指標(biāo)及時(shí)間消耗 模擬200次擬合圖像如圖4所示,其中(a)為均勻懲罰樣條函數(shù)擬合圖,(b)為局部懲罰樣條函數(shù)擬合圖。 由圖4可以看出,雖然均勻懲罰樣條與局部懲罰樣條函數(shù)擬合都接近于真實(shí)函數(shù),但是局部懲罰樣條函數(shù)擬合圖像與真實(shí)函數(shù)圖像幾乎重合,表明局部懲罰樣條函數(shù)擬合效果優(yōu)于均勻懲罰樣條函數(shù)。 圖4 模型2樣條函數(shù)擬合圖 另外類似于模型1,分別選取樣本量為n=100,節(jié)點(diǎn)步長(zhǎng)knot=10,誤差項(xiàng)εi~N(0,0.52)和εi~N(0,12),局部懲罰樣條估計(jì)結(jié)果如表6所示。由表6可以得到相同的結(jié)論,即隨著樣本量的增加,參數(shù)的估計(jì)值越精確,函數(shù)的擬合效果越好,但所花費(fèi)時(shí)間略有提高;隨著節(jié)點(diǎn)步長(zhǎng)的減小,節(jié)點(diǎn)個(gè)數(shù)增多,參數(shù)的估計(jì)值越好,函數(shù)的擬合效果越好,但花費(fèi)時(shí)間有所提高;隨著誤差項(xiàng)方差的減小,樣本點(diǎn)在真實(shí)函數(shù)周圍波動(dòng)性越小,參數(shù)的估計(jì)和函數(shù)的擬合效果越好,同時(shí)花費(fèi)時(shí)間越少。 表6 模型2不同樣本量、誤差項(xiàng)方差及節(jié)點(diǎn)步長(zhǎng)參數(shù)估計(jì)結(jié)果 接下來(lái),使用模型1與模型2,分別將于夢(mèng)玲等與江坤等提出的方法與本文提出的方法做對(duì)比實(shí)驗(yàn)[11-12]。算法方面:將他們的方法分別嵌入單指標(biāo)模型中,其它算法均與本文相同,局部懲罰力度均設(shè)定為5。模型方面:對(duì)于模型1,xij從均勻分布U(0,1)上隨機(jī)取值,對(duì)于模型2,xij從均勻分布U(-1,1)上隨機(jī)取值。其它參數(shù)均設(shè)置為:樣本量n=200,節(jié)點(diǎn)步長(zhǎng)knot=5,誤差項(xiàng)方差σ2=1,樣條函數(shù)階數(shù)p=3,模擬次數(shù)mcn=200。選取一組真實(shí)數(shù)據(jù)及函數(shù)曲線如圖5所示。 圖5 模型數(shù)據(jù)散點(diǎn)及真實(shí)函數(shù)曲線圖 圖6 模型1擬合圖 圖7 模型2擬合圖 擬合評(píng)價(jià)指標(biāo)MAISE如表7所示??梢钥闯?本文使用的方法在模型1中的MAISE為0.305 2,在模型2中的MAISE為0.308 1,均小于其它兩種方法,說(shuō)明本文方法在擬合上效果略好。 表7 不同方法擬合指標(biāo)比較結(jié)果 針對(duì)單指標(biāo)模型,本文提出了一種基于變異系數(shù)調(diào)節(jié)的局部懲罰樣條估計(jì)方法,相比較常使用的均勻懲罰樣條估計(jì)方法,基于變異系數(shù)的局部懲罰樣條估計(jì)方法充分考慮數(shù)據(jù)縱向上的信息,克服了均勻懲罰樣條估計(jì)方法因各節(jié)點(diǎn)懲罰權(quán)重的一致,導(dǎo)致模型對(duì)于復(fù)雜數(shù)據(jù)的擬合缺乏自適應(yīng)性的缺點(diǎn)。 在基于變異系數(shù)的局部懲罰樣條估計(jì)方法中,以各節(jié)點(diǎn)相鄰區(qū)間內(nèi)數(shù)據(jù)的變異系數(shù)數(shù)值的大小來(lái)衡量數(shù)據(jù)的離散程度,通過(guò)計(jì)算所得的各節(jié)點(diǎn)的變異系數(shù)值,構(gòu)造遞減函數(shù)生成局部懲罰權(quán)重向量,結(jié)合徑向基函數(shù),給出了局部懲罰樣條函數(shù)系數(shù)估計(jì)值。然后,通過(guò)“去一分量”法及Levenberg-Marquardt優(yōu)化算法,迭代得到最優(yōu)指標(biāo)參數(shù)估計(jì)值。本文的估計(jì)方法具有較好的自適應(yīng)性,在數(shù)據(jù)離散程度大的區(qū)間,會(huì)給予擬合曲線較小的懲罰,以提高擬合效果;在數(shù)據(jù)離散程度小的區(qū)間,會(huì)給予擬合曲線較大的懲罰,以保證曲線的光滑。模擬仿真探究了有限樣本下單指標(biāo)模型局部懲罰樣條估計(jì)方法的正確性和有效性,從而使擬合曲線能夠自適應(yīng)地反映不同區(qū)間的數(shù)據(jù)特征。 模擬仿真結(jié)果表明,基于變異系數(shù)的局部懲罰樣條估計(jì)結(jié)果優(yōu)于均勻懲罰樣條估計(jì)結(jié)果,同時(shí)基于變異系數(shù)的局部懲罰樣條估計(jì)的曲線擬合結(jié)果也優(yōu)于均勻懲罰樣條。樣本量的多少、選擇節(jié)點(diǎn)步長(zhǎng)的大小以及誤差項(xiàng)方差的大小都會(huì)影響模型的估計(jì)效果。對(duì)比實(shí)驗(yàn)結(jié)果表明,隨著樣本量的增加,節(jié)點(diǎn)步長(zhǎng)的減小,或者誤差項(xiàng)方差的減小,參數(shù)的估計(jì)值會(huì)更精確,函數(shù)的擬合效果更好。另外,本文還比較了計(jì)算花費(fèi)時(shí)間,帶來(lái)良好估計(jì)結(jié)果的同時(shí)所需要的計(jì)算時(shí)間也不同,因此在應(yīng)用中合適的選取是非常重要的。最后,與基于極差和基于方差的局部懲罰樣條估計(jì)方法做了對(duì)比實(shí)驗(yàn),結(jié)果表明基于變異系數(shù)的局部懲罰樣條估計(jì)方法在擬合效果上略優(yōu)于基于極差和基于方差的局部懲罰樣條估計(jì)方法。三、單指標(biāo)模型局部懲罰樣條估計(jì)
四、模擬仿真
五、結(jié) 論