闕 燁
(淮南師范學(xué)院 金融與數(shù)學(xué)學(xué)院,安徽 淮南 232038)
混合效應(yīng)模型廣泛應(yīng)用于分析相關(guān)數(shù)據(jù),如縱向數(shù)據(jù)和重復(fù)測量數(shù)據(jù)等。Pang 和Xue(2012)[1]討論了單指標(biāo)混合效應(yīng)模型在縱向數(shù)據(jù)下的估計(jì)方法,使用調(diào)整邊界效應(yīng)的估計(jì)方程得到單指標(biāo)部分的估計(jì),同時(shí)使用局部線性光滑的方法估計(jì)聯(lián)系函數(shù)。而單指標(biāo)模型首先考慮P 維協(xié)變量X 的線性組合,把所有的協(xié)變量投影到一個(gè)線性空間上,然后在這個(gè)一維線性空間上擬合一個(gè)一元函數(shù)。由于指標(biāo)β0TX 合并了X 的維數(shù),把P 維協(xié)變量降到一元指標(biāo),從而使得單指標(biāo)模型避免了多元非參數(shù)回歸中出現(xiàn)的“維數(shù)災(zāi)禍”問題。鄒清明(2008)[2]研究了單指標(biāo)模型的統(tǒng)計(jì)推斷問題。Ma 等(2014)[3]研究了部分線性單指標(biāo)模型在重復(fù)測量數(shù)據(jù)下的估計(jì)問題,并利用多項(xiàng)式樣條近似非參數(shù)函數(shù),利用二次推斷函數(shù)估計(jì)線性參數(shù)部分。Wang 和Wang(2015)[4]討論了單指標(biāo)預(yù)測模型中發(fā)散指標(biāo)參數(shù)的樣條估計(jì)與變量選擇問題。關(guān)于參數(shù)估計(jì)和變量選擇的文獻(xiàn)還有很多,具體可參看文獻(xiàn)[5-7],而本文主要研究單指標(biāo)混合效應(yīng)模型的估計(jì)和變量選擇問題:
式中,β0是p×1 維指標(biāo)系數(shù)向量,bi是零均值且協(xié)方差矩陣為D(這里D 是正定矩陣)的獨(dú)立q×1 隨機(jī)效應(yīng)向量,g(·)是未知聯(lián)系函數(shù),εij具有零均值和方差σε2>0 的獨(dú)立隨機(jī)向量,隨機(jī)變量Xij和Yij可以被觀測,Zij為固定設(shè)計(jì)矩陣。假設(shè)bi和εij相互獨(dú)立。
設(shè)Yi=(Yi1,…, Yim)T,Xi= (Xi1, …, Xim)T,G(Xiβ0) =εim)T。那么,通過變換可以將模型(1)表示成如下的形式:
初值β0可以模擬線性模型獲得,接下來將給出G(·),β,的估計(jì)過程。
令Ui=Xiβ0,使用B 樣條將聯(lián)系函數(shù)G(Ui)近似表示為G(Ui)=(g(Ui1),…, g(Uim))T= Bi(Ui)c,則(2)式可以表示為, …, n。這里,得到
接下來將給出參數(shù)β 的估計(jì)值。為了模型的可識(shí)別性,根據(jù)薛留根(2012)[12],假設(shè) β =1,且它的第一個(gè)非零元素為正數(shù),更多細(xì)節(jié)可參看Lin 和Kulasekern(2007)[13]。因此在假設(shè) β =1 下關(guān)于β極小化目標(biāo)函數(shù):
參數(shù)和非參數(shù)部分的估計(jì)量的漸近方差依賴于方差分量,因此本節(jié)討論方差部分的估計(jì)值,所使用的估計(jì)方法類似于Pang 和Xue(2012)[1]和薛留根(2012)[12]。假設(shè)模型(1)的協(xié)方差矩陣為向量,并假設(shè)殘差的均值為0,且與g(·)具有相同的協(xié)方差陣,bi和εij服從正態(tài)分布,因此可以得到Y(jié)i~N(G(Xiβ0),V ),用β0和g(·)的最終估計(jì)結(jié)果β?和g?*(·)代替,能夠獲得的正態(tài)似然函數(shù):
變量選擇是統(tǒng)計(jì)數(shù)據(jù)分析必不可少的工具。在實(shí)例應(yīng)用中,真模型常常預(yù)先是未知的,一個(gè)欠擬合的模型會(huì)產(chǎn)出有偏差的估計(jì)和預(yù)測值,一個(gè)過擬合的模型會(huì)降低參數(shù)估計(jì)和預(yù)測的效率,因此在最終模型中一些不重要的變量應(yīng)該被忽略以提高模型的擬合精度。本文采用平滑剪切絕對(duì)偏差(SCAD)規(guī)則化方法研究模型(1)的變量選擇問題。利用SCAD 懲罰,定義懲罰最小二乘目標(biāo)函數(shù)Lps(β0, c)=和G(Ui)的懲罰多項(xiàng)式樣條估計(jì)可分別定義為β?PS=
定理1 在附錄(A1)-(A6)的條件下,有
例 考慮如下形式的模型:
其 中β0=( 3 ,1, 0.5, 0,0,0,0,0,0,0)T,Xij是10 維隨機(jī)變量且Xij~U(0, 2),bi~N(0, 1),εij~N(0, 0.16),g(u)=16(u-1)2,Yij可以從(4)式中產(chǎn)生。樣本的觀察數(shù)n 分別取50,100,150,且每個(gè)個(gè)體的重復(fù)測量數(shù)為5。在模擬的過程中,通過擬合線性模型得到參數(shù)的初值β0。
表 1 估計(jì)值β?與真實(shí)值β0 的內(nèi)積的均值和標(biāo)準(zhǔn)差
圖 1 g(·)的實(shí)際曲線和估計(jì)曲線圖
圖 2 g?(·)的500個(gè)RMSEs的箱線圖
當(dāng)n=100,圖1 給出了g(u)=16(u-1)2的實(shí)際曲線圖和估計(jì)曲線圖,可以看出估計(jì)曲線圖和實(shí)際曲線圖是幾乎吻合的,說明了上述估計(jì)方法在數(shù)據(jù)模擬方面是優(yōu)良的。圖2 給出了n=100 的情況下g?(·)的500 個(gè)RMSEs 值的箱線圖,從圖形中可以看出RMSE 的值非常小。最后,通過模擬得出σb2和σε2的估計(jì)值分別是0.886 3 和0.192 2。
最后,我們通過數(shù)值模擬來研究1.4 節(jié)中提出的變量選擇方法(SCAD),類似于Li 和Liang(2008)[15],我們用GMSE(廣義均方誤差)來評(píng)價(jià)參數(shù)分量β?的估計(jì)精度,其定義為GMSE= (β?-β0)TE (ZZT)(β?-β0),并 且 利 用 平 均 平 方 誤 差 的 平 方 根(RASE)來評(píng)價(jià)非參數(shù)分量的估計(jì)精度,其定義為N 為用于計(jì)算g?(u)的格子點(diǎn),取N=200。我們使用1.4 節(jié)提出的基于SCAD 的變量選擇方法進(jìn)行研究,基于200 次重復(fù)實(shí)驗(yàn),關(guān)于參數(shù)分量和非參數(shù)分量的模擬結(jié)果如表2 所示。其中“C”表示把真實(shí)零系數(shù)估計(jì)成0 的平均個(gè)數(shù),“I”表示把真實(shí)非零系數(shù)估計(jì)成0 的平均個(gè)數(shù)。
從表2 可以看出,隨著樣本容量n 的增大,基于變量選擇方法的結(jié)果越來越接近于真實(shí)模型,并且對(duì)應(yīng)參數(shù)分量的GMSE 和對(duì)應(yīng)非參數(shù)分量的RASE 均隨著n 的增加而減小。
表 2 基于SCAD 的變量選擇結(jié)果
下列正則條件將用于定理的證明。
(A1)協(xié)變量X, Z 是有界的。
(A2)未知聯(lián)系函數(shù)g(·)的二階導(dǎo)數(shù)是有界連續(xù)的。
(A3)存在常數(shù)r = max{4, s},使得E( Xiir)<∞,E( bir)<∞和E( εiir)<∞。
(A4)令γii= αi+ εii,表示第r 個(gè)個(gè)體的誤差值,且存在常數(shù)c0使得E[γ2]≤c0<∞。
(A5)對(duì)任何i,(XiT1β,…, XiTmβ )T的聯(lián)合密度存在;對(duì)任何j1≠j2,βTXij的邊際密度fj(u)和(XiTj1β, XiTj2β )的聯(lián)合密度fj1j2(u, s)分別在u0∈Uw和(u0, so∈Uw×Uw)處是連續(xù)可微的;存在某個(gè)j 使得fj(u)在u∈Uw和接近β0的β 點(diǎn)上一致有界的遠(yuǎn)離0,其中Uw是w(u)的支撐集。
為了證明定理1,我們引用Mack 和Silverman(1982)[16]中的結(jié)果。
引理1設(shè)(ξ1, η1),…(ξn, ηn)是iid 隨機(jī)變量,其中ηi是一維隨機(jī)變量,進(jìn)一步,假設(shè)<∞和合密度函數(shù)。設(shè)K (·)是具有有界支撐的有界正函數(shù),并滿足Lipschitz 條件。如果對(duì)某個(gè)τ<1 - s-1,有n2τ-1h →∞,則
定理1的證明 設(shè)c 表示任意正的常數(shù),引用引理1 可以證得:對(duì)u∈Uw和β∈Bn一致成立
定理2 的證明該證明過程由定理1 和薛留根(2012)[12]中定理9.3.2 推導(dǎo)可以得出,因此省略該過程。
定理3 的證明定理3 的證明方法和Pang 和Xue(2012)[1]中定理3 的方法相似,因此省略其證明過程。