張雨婷,羅雙華,張成毅
(1.西安工程大學(xué) 理學(xué)院,陜西 西安 710048; 2.西安交通大學(xué) 經(jīng)濟(jì)與金融學(xué)院,陜西 西安 710049)
在抽樣調(diào)查、人口普查、生物醫(yī)學(xué)、計量經(jīng)濟(jì)學(xué)等研究領(lǐng)域,經(jīng)常產(chǎn)生大量的縱向數(shù)據(jù)。然而,在縱向數(shù)據(jù)的研究中時常會遇到數(shù)據(jù)的缺失,因此處理完整觀測數(shù)據(jù)的傳統(tǒng)推斷方法將不再適用。例如,隨機(jī)區(qū)組、重復(fù)測量設(shè)計以及大型數(shù)據(jù)回歸分析等都要求數(shù)據(jù)完整。對于這些缺失數(shù)據(jù),如果剔除缺失的部分?jǐn)?shù)據(jù)而僅用完全觀測到的數(shù)據(jù)進(jìn)行統(tǒng)計推斷,那么所得到的估計往往產(chǎn)生偏差。因此,如何對縱向數(shù)據(jù)缺失進(jìn)行有效的統(tǒng)計分析和推斷,已成為該領(lǐng)域的研究熱點(diǎn),取得了眾多的研究成果[1-4]。
變量隨機(jī)缺失下的分位數(shù)回歸模型在經(jīng)濟(jì)學(xué)、金融學(xué)、醫(yī)學(xué)和生態(tài)學(xué)等領(lǐng)域應(yīng)用廣泛,目前已有大量研究[5-8]。OWEN提出的經(jīng)驗似然法是在完全樣本下的一種非參數(shù)統(tǒng)計推斷方法[9]。由于其具有自動確定置信域形狀和方向的優(yōu)點(diǎn),許多學(xué)者在處理缺失數(shù)據(jù)的問題上應(yīng)用了經(jīng)驗似然方法[10-14]。為了提高估計效率,WHANG和OTSU引入了光滑方法,研究分位數(shù)模型的經(jīng)驗似然估計[15-16]。這種光滑經(jīng)驗似然方法是很有意義的,迄今已有大量研究[17-20]。在上述研究基礎(chǔ)上,通過加入輔助信息可以提高估計的有效性[21-24]。其中,TANG等首次在正態(tài)逼近的基礎(chǔ)上應(yīng)用逆概率加權(quán)方法,研究了含有輔助信息的線性分位數(shù)模型的經(jīng)驗似然估計[21]。但其方法在進(jìn)行推理時須估計復(fù)雜的協(xié)方差矩陣。此外,WHANG認(rèn)為標(biāo)準(zhǔn)的Bootstrap理論不能直接推理分位數(shù)回歸模型的估計[15]。故在此基礎(chǔ)上,LYU等提出了基于光滑經(jīng)驗似然方法研究輔助信息下分位數(shù)模型的參數(shù)估計問題,不僅包含了輔助信息,而且避免了估計復(fù)雜的協(xié)方差矩陣[22]。
綜上所述,基于縱向數(shù)據(jù)缺失且具有輔助信息的線性分位數(shù)回歸模型的統(tǒng)計推斷還有很多問題值得討論。因此,本文在縱向數(shù)據(jù)響應(yīng)變量隨機(jī)缺失的情形下,運(yùn)用輔助信息下分位數(shù)回歸模型的經(jīng)驗似然方法給出了參數(shù)估計,并在一定條件下證明了所得估計的大樣本性質(zhì)。
考慮如下縱向數(shù)據(jù)線性分位數(shù)回歸模型:
(1)
式中:Yij為第i個個體的第j次觀測值;Xij為已知的p維設(shè)計點(diǎn)列向量;β是p維未知回歸系數(shù)向量;εij是隨機(jī)誤差且滿足P(εij<0|Xij)=τ,這里τ∈(0,1)是分位數(shù)水平。記εi=(εi1,εi2,…,εini)T,那么{εi,i=1,2,…,n}相互獨(dú)立,但對同一個i(i=1,2,…,n),εij1和εij2(j1≠j2)不獨(dú)立。
在數(shù)據(jù)沒有缺失時,模型(1)定義線性分位數(shù)回歸估計為
(2)
式中:B為參數(shù)空間;ρτ(u)=u{τ-I(u<0)}是分位數(shù)損失函數(shù)。
當(dāng)模型(1)中響應(yīng)變量Yij缺失時,引入變量δij表示Yij可觀測到的示性函數(shù),即Yij可觀測到時δij=1,否則δij=0。假設(shè)MAR缺失機(jī)制可表示為
P(δij=1|Yij,Xij)=P(δij=1|Xij)=π(Xij)
(3)
式中:π(Xij)=P(δij=1|Xij)為選擇概率函數(shù)。由于在實際問題中,π(Xij)往往是未知的,因此,采用核估計方法進(jìn)行估計,可以得到
式中:K(·)被稱為核函數(shù);hn為窗寬。則模型(1)在響應(yīng)變量缺失下的加權(quán)分位數(shù)回歸估計為
在以上的模型假設(shè)下,β滿足如下估計方程:
(4)
式中:ψ(Y,X,β)=I(XTβ-Y)-τ是分位數(shù)得分函數(shù),I(·)為示性函數(shù)。
定義Xi=(Xi1,Xi2,…,Xini)T為第i個個體的ni×p設(shè)計矩陣,
Xj=(X1j,X2j,…,Xnij)T,
Yi=(Yi1,Yi2,…,Yinj)T
ψi(β)=ψi(Yi,Xi,β)=
(ψ(Yi1,Xi1,β),ψ(Yi2,Xi2,β),…,
ψ(Yini,Xini,β))T
根據(jù)式(4)可定義,β的估計方程為
(5)
(6)
根據(jù)Lagrange乘子法計算可得β的對數(shù)經(jīng)驗似然比為
(7)
其中λ=σ(β)是方程
(8)
的解。進(jìn)而可以得到β的經(jīng)驗似然估計
(9)
在實際的統(tǒng)計推斷中,關(guān)于協(xié)變量的輔助信息是可用的。通過
E(g(Ui,θ))=0
考慮模型的輔助信息,稱g(Ui,θ)為模型的輔助信息量函數(shù)。其中,g(Ui,θ)∈Rr,θ為輔助信息量函數(shù)的參數(shù),θ∈Rp且r≥p,Ui表示可以觀測到的樣本。g(Ui,θ)包含了可以從Ui的概率分布知識中推導(dǎo)出來的一大類信息,從而可以提高估計的有效性。
為了使用輔助信息,定義如下經(jīng)驗似然函數(shù):
(10)
用Lagrange乘子法,求出權(quán)重ωi的估計:
(11)
其中γ是方程
(12)
的解。
(13)
(14)
(15)
1.3主要結(jié)果
設(shè)s是大于或等于2的整數(shù),定義g(Xij)為Xij的密度函數(shù),F(xiàn)(u1,u2,…,um|x)為εi=(εi1,εi2,…,εim)T的聯(lián)合分布函數(shù),F(xiàn)j(uj|x)為當(dāng)Xi=x時εij的邊緣分布函數(shù)。在Legbesgue測度下,設(shè)f(u1,u2,…,um|x)為εi的聯(lián)合概率密度,fj(uj|x)為εij的邊緣密度。 令
f(u|x)=diag[f1(u1|x),f2(u2|X),…,
fm(um|x)]
在證明本文的主要結(jié)果之前,給出所需要的一些正則化條件:
A3:K(·)是一個s(s>1)階核函數(shù),它有界且有緊支撐[-1,1],且存在正常數(shù)C1,C2和ρ,滿足C1I{|u|≤ρ}≤K(u)≤C2I{|u|≤ρ};
A6:函數(shù)g(Ui,θ)是有界的,矩陣S,B正定。
定理1 假設(shè)條件A1~A6成立,則有
定理2 假設(shè)條件A1~A6成立,則有
其中,χ2(p)表示自由度為p的卡方分布。
2.1引理
首先給出一些引理,再給出定理1、2的證明。
引理1 假設(shè)條件A1~A5成立,則有
證明類似于文獻(xiàn)[6]中的引理6.7,從略。
引理2 設(shè)
rn=(lnn/(nh))1/2+hs,gn(x)=
在條件A2、A3成立下,若lnn/(nh)→0,則有
證明類似于文獻(xiàn)[6]中的引理6.1,從略。
引理3 設(shè)條件A5~A6成立,則有
其中θ=E(g2(Ui,θ))。
證明類似于文獻(xiàn)[6]中的引理6.4,從略。
引理4 設(shè)條件A6成立,則有
‖γ‖=Op(n-1/2)
證明類似于文獻(xiàn)[6]中的引理6.5,從略。
引理5 假設(shè)條件A1~A6成立,則有
證明由引理4,可得γTg(Ui,θ)=op(1),根據(jù)式(11)和(12)以及引理3易得nωi=1-γTg(Ui,θ)(1+op(1)),則有
(16)
由引理2以及Taylor展開式,易得
(17)
根據(jù)條件A4,A5以及式(17)得
由條件A6和式(16)以及引理4得
(π(Xij))-1ψi(β0)=
由γTg(Ui,θ)=op(1),使用相同的計算過程得
根據(jù)條件A6和式(16)以及引理4,使用相同的計算過程可得,
因此,
其中,
根據(jù)中心極限定理以及大數(shù)定律,引理5得證。
將式(14)進(jìn)行Taylor展開,得
由引理5可得,
類似可推導(dǎo)出,
由中心極限定理可得
與文獻(xiàn)[16]中式(28)~(30)證明類似,有
定理1得證。
2.3定理2的證明
即
(18)
由引理1可得,
則式(18)可變形為
即
(19)
記
則有
因此式(19)第3項的上界為
即式(19)可改寫成,
A-1(β)B2(β)+op(1)
其中,
根據(jù)引理1和引理5,定理2得證。
通過數(shù)值模擬實驗驗證所提出方法的有限樣本性??紤]模型(1)
式中:協(xié)變量X的觀測值Xij來源于N(0,1)分布,εij來自于正態(tài)分布N(0,1),取β=1p。在模擬研究中,取τ=0.5,0.8,且對于不同的樣本量n=100,200,300,基于3種選擇概率函數(shù)分別產(chǎn)生2 000個隨機(jī)樣本:
π3(x)=0.6,x∈R
以上3種選擇概率函數(shù)對應(yīng)的平均缺失率分別約為0.07、0.26和0.40。選取核函數(shù)
表1 置信水平為0.95的置信區(qū)間的覆蓋概率
表2 置信水平為0.95的置信區(qū)間的平均區(qū)間長度
由表1~2可以看出:
1) 對于選擇概率π1(x),WAQEL方法比NAQEL方法、CAQEL方法和NA方法得到更高的覆蓋概率,但有更長的置信區(qū)間;對于選擇概率π2(x)和π3(x),WAQEL方法比NAQEL方法、CAQEL方法和NA方法都好,因為它得到更短的置信區(qū)間和更高的覆蓋概率。表明當(dāng)缺失概率比較大時,分位數(shù)加權(quán)十分必要。對3種選擇概率,WAQEL方法得到的覆蓋概率和區(qū)間長度和NAQEL方法得到的幾乎接近,說明加權(quán)分位數(shù)且具有輔助信息的經(jīng)驗似然方法的效果較好。
3) 對于每一種缺失率,隨著n增加,置信區(qū)間長度減小并且收斂概率增加。顯然,當(dāng)樣本個數(shù)不變時,缺失率也影響置信區(qū)間長度和收斂概率。一般而言,當(dāng)缺失率增加時,區(qū)間長度增加且覆蓋概率減小。
可見,對于模型(1),WAQEL方法表現(xiàn)出較好的結(jié)果。
本文應(yīng)用逆概率加權(quán)方法和輔助信息下的經(jīng)驗似然方法相結(jié)合,給出了縱向數(shù)據(jù)響應(yīng)變量隨機(jī)缺失下線性分位數(shù)回歸模型參數(shù)估計。在一定正則條件下,證明了所得估計量的漸近正態(tài)性。同時,用輔助信息下加權(quán)的經(jīng)驗似然方法減小了參數(shù)估計的方差,提高了估計效率。