李生彪
( 蘭州文理學(xué)院 教育學(xué)院, 甘肅 蘭州 730000 )
1994年, Zeger等[1]首次提出了縱向數(shù)據(jù)下部分線性模型:Yi j=βTXi j+g(Ui j)+εi j, 其中β是未知參數(shù)向量,g(·)是未知光滑函數(shù).因部分線性模型結(jié)合了線性模型和非參數(shù)模型的特點,使得該模型具有很好的靈活性,且具有削減建模偏差、避免“維數(shù)禍根”和解釋性強等優(yōu)點,因而被廣泛應(yīng)用在計量經(jīng)濟(jì)學(xué)、生物醫(yī)學(xué)等領(lǐng)域.目前,部分線性估計方法[2]是處理獨立數(shù)據(jù)下變系數(shù)模型估計問題的常用方法,但其在部分線性模型的應(yīng)用中時仍存在一些不足.例如:該方法只能在目標(biāo)點的小區(qū)域內(nèi)擬合直線段,因而使得該直線段導(dǎo)數(shù)的估計值沒有得到有效利用,所得估計的漸近偏差的階op(h2)偏大,存在稀疏問題,等等[3].對此,一些研究者對局部線性估計方法進(jìn)行了一些改進(jìn),如HE等[4]提出了二次光滑局部線性估計.該方法通過再次光滑處理,整合目標(biāo)點處的所有局部線性擬合值,使其在不改變漸近方差的階的前提下,漸近偏差降低至op(h4)階,且整體估計效果與局部立方回歸估計相當(dāng),較好地克服了稀疏問題.此后,一些學(xué)者對二次光滑局部線性估計進(jìn)行了進(jìn)一步研究,但相關(guān)研究大多針對的是獨立數(shù)據(jù)下的半?yún)?shù)回歸模型估計[5-6],很少運用于縱向數(shù)據(jù)的分析中.基于此,本文嘗試?yán)枚喂饣植烤€性估計研究縱向數(shù)據(jù)下部分線性模型的估計問題,并對該方法的估計效果進(jìn)行驗證.
縱向數(shù)據(jù)下部分線性模型有多種表達(dá)形式,本文僅研究如下形式的縱向數(shù)據(jù)下部分線性模型:
Y(t)=X(t)Tβ+g(t)+ε(t),
(1)
其中ε(t)是均值為0的隨機過程.假設(shè)觀測n個個體,第i個個體觀測mi次, 1≤i≤n.記ti j(1≤j≤mi)為第i個個體第j次觀測時間,Yi j=Yi(ti j)為第i個個體在時間ti j的響應(yīng)變量的觀測值,Xi(ti j)為第i個個體在時間ti j的協(xié)變量的觀測值.
(2)
(3)
根據(jù)最小二乘理論可將模型(1)表示為(I-F)Y=(I-F)Xβ+ε, 其中I是n階單位矩陣,F(xiàn)是僅依賴于ti j的光滑矩陣 (F可根據(jù)文獻(xiàn)[7]指定).對上式應(yīng)用Profile最小二乘法,可得到參數(shù)分量β的估計為
(4)
(5)
(6)
(7)
(8)
其中h′是第2步光滑的帶寬,L(·)是核函數(shù),Lh′(·)=L(·/h′)h′,ω(ti j)是權(quán)函數(shù).在此,本文取h′=h,L(·)=K(·), 這樣不但能簡化結(jié)論形式,也能達(dá)到較好的估計效果.由于二次光滑局部線性回歸估計存在邊界問題,即在邊界點處的漸近偏差不能像內(nèi)點處的偏差那樣減小,因此需要對邊界點處的漸近性質(zhì)進(jìn)行單獨考察.設(shè)觀測的時間區(qū)間為[0,T], 目標(biāo)點t0∈[2h,T-2h], 則邊界區(qū)間為[0,2h)和(T-2h,T].再結(jié)合式(8)可得到改進(jìn)的二次光滑局部線性估計表達(dá)式:
(9)
首先給出漸近性質(zhì)證明中常用的正則條件[10]:
(C1) 核函數(shù)K(·)為具有緊支撐且有界的概率密度函數(shù).為簡化計算,在此假設(shè)K(·)具有對稱性,即K(-x)=K(x).
(C3) 當(dāng)n→∞時,nh8→0, 且nh2/(lgn)2→∞.
(C4)g(·)在內(nèi)點處存在有界的四階連續(xù)導(dǎo)數(shù).
(C5) 對于?t,λ(t)是二階連續(xù)可微函數(shù),X(t)是連續(xù)函數(shù).
(C6) 對于?t,σ2(t)=Var{ε(t)}有限,且二次連續(xù)、可微.
引理1在條件(C1)—(C3)下,有:
(10)
當(dāng)h→0,nh→∞時,有
引理2在條件(C1)—(C4)下,有:
證明由于引理2中的3個式子的證明類似,因此在此只給出第1式的證明.由矩陣計算有
又因為K(·)是對稱核密度函數(shù),故有μ0=1,μ1=0.將μ0=1,μ1=0代入上式,第1式即可得證.
由于本文考察的是未知函數(shù)分量的估計效果,因此只給出引理3和引理4,不給出其證明.
(11)
(12)
對向量G的每一分量運用Taylor公式[11],有
其中g(shù)(0)(t0)=g(t0), 進(jìn)而有
又因為K(·)是對稱核密度函數(shù),故有μ0=1,μ1=μ3=μ5=0.則上式可化簡為
(13)
對式(10)進(jìn)行計算可得
(14)
將式(13)和(14)代入式(12)得
進(jìn)而有
(15)
顯然式(15)的結(jié)果比式(6)更為精確.
于是有
(16)
(17)
上式的第1部分即為
通過類似方法,可得式(17)的第2部分和第3部分的結(jié)果,分別為:
將這3部分的結(jié)果相加即可得證式(11).
(18)
實例分析的數(shù)據(jù)集(縱向數(shù)據(jù))來自國際艾滋病研究中心記錄的人體CD4細(xì)胞數(shù)的數(shù)據(jù)庫,本文選取其中150個患者的檢查結(jié)果.為了描述CD4細(xì)胞數(shù)損耗的平均時間趨勢,建立如下縱向數(shù)據(jù)下部分線性模型:
Y(t)=β1X1+β2X2+g(t)+ε(t),
圖1 非參數(shù)分量g(t)的估計曲線(LL為局部線性估計,DS為二次光滑估計)
由圖1中2種估計曲線的走勢可以看出,患者在感染HIV的初期,其平均CD4細(xì)胞濃度g(t)下降得很快,但在3年后下降趨勢減緩.這兩種方法的估計結(jié)果雖然在趨勢上接近,但因二次光滑局部線性估計是在局部線性估計的基礎(chǔ)上再次進(jìn)行了光滑平均,所以其擬合曲線更為平滑.這表明二次光滑估計的整體效果優(yōu)于局部線性估計,同時也證實了二次光滑估計可降低漸近偏差.