梁美娟,羅雙華,張成毅
(1. 西安工程大學 理學院, 西安 710048; 2. 西安交通大學 經(jīng)濟與金融學院, 西安 710049)
為了能夠獲得響應(yīng)變量和協(xié)變量之間更多的復(fù)雜關(guān)系,LI和 MEI[1]在變系數(shù)部分線性模型的基礎(chǔ)上提出了變系數(shù)部分非線性模型,其標準形式為
Y=XTα(U)+g(Z,β)+ε,
(1)
其中:(X,Z)∈Rp×Rq和U∈R是協(xié)變量,Y是響應(yīng)變量,α(·)=(α1(·),…,αp(·))是未知系數(shù)函數(shù),g(·,·)是給定的非線性函數(shù),β=(β1,…,βs)T是未知參數(shù)向量,且β和Z不一定有相同的維數(shù),ε是期望為零,方差為σ2的隨機誤差,且與(U,X,Z)相互獨立.該模型具有靈活的解釋性,還能避免一些高維數(shù)據(jù)帶來的不便,因此成為當今研究的熱門話題.文獻[1]給出了模型的參數(shù)與非參的截面非線性最小二乘估計.目前,已有一些統(tǒng)計學者對模型(1)做了許多研究.縱向數(shù)據(jù)是指對同一個受試個體在不同時間點上重復(fù)觀測若干次,從而得到的由截面數(shù)據(jù)和時間序列數(shù)據(jù)結(jié)合在一起的數(shù)據(jù).它在經(jīng)濟學、生物醫(yī)學、傳染病學以及其他的自然科學領(lǐng)域都有著廣泛的應(yīng)用,受到統(tǒng)計學家們的廣泛關(guān)注.如LIU[2]研究了縱向數(shù)據(jù)下的變系數(shù)變量誤差模型;YAN等[3]針對縱向數(shù)據(jù)對部分線性誤差模型進行了經(jīng)驗似然推斷.然而,在研究縱向數(shù)據(jù)時,其中一些數(shù)據(jù)可能會丟失,所以對于一些缺失數(shù)據(jù)的處理是統(tǒng)計學家關(guān)注的熱點.處理隨機缺失最常用的方法有完全數(shù)據(jù)法、逆概率加權(quán)法和插補法等.XU等[4]利用逆概率加權(quán)法研究了協(xié)變量隨機缺失的變系數(shù)部分非線性變量誤差模型;WANG等[5]提出一個逆概率加權(quán)輪廓非線性最小二乘估計協(xié)變量缺失的變系數(shù)部分非線性模型中未知參數(shù)和非參數(shù)函數(shù).除此之外,文獻[6-8]也有研究.對于回歸模型的估計問題,大多是基于最小二乘回歸法,最小二乘法效果雖然很好,但當數(shù)據(jù)存在顯著的異方差,或者存在尖峰、厚尾等情況時,最小二乘估計的穩(wěn)健性比較差.因此,人們在使用經(jīng)典方法的同時,也在不斷地探索更好的方法.KOENKER和 BASSETT[9]提出的分位數(shù)回歸,不需要對誤差項的分布作假設(shè),適應(yīng)性更強.TANG等[10]結(jié)合分位數(shù)信息和最小二乘方法方程構(gòu)造無偏估計方程來提高模型的估計效率;YANG等[11]針對變系數(shù)部分非線性模型采用分位數(shù)回歸估計并且進行了變量選擇;TANG等[12]研究了協(xié)變量隨機缺失的變系數(shù)復(fù)合分位數(shù)模型的估計問題.基于以上研究,針對縱向數(shù)據(jù)缺失情況的變系數(shù)部分非線性分位數(shù)回歸模型的估計還有很多問題值得研究.因此,本文考慮使用逆概率加權(quán)法來討論縱向數(shù)據(jù)隨機缺失的變系數(shù)部分非線性分位數(shù)回歸模型的估計問題.
考慮如下變系數(shù)部分非線性分位數(shù)回歸模型
(2)
假設(shè){Yij,Xij,Zij,Uij,i=1,…,n,j=1,…,ni}是來自模型(2)的一組隨機樣本,i和j表示第i個個體的第j次觀測值.響應(yīng)變量Yij隨機缺失 (MAR),即δij=1時,Yij可以觀測到;當δij=0時,Yij缺失,且滿足
P(δij=1|Yij,Uij,Xij,Zij)=
P(δij=1|Uij,Xij,Zij)=π(Uij,Xij,Zij)
(3)
(4)
進一步有α(·)改進后的估計量
(5)
然而,在一些實際應(yīng)用中,缺失概率π(Vij)一般是未知的,本文選擇logistic回歸模型作為缺失機制,即
(6)
(7)
此外,給出一些證明過程中所需要的條件,如下常見的條件可參考文獻[1,13].
C1 對任意的z,g(z,β)是β的連續(xù)函數(shù),并且g(z,β)關(guān)于β的二階連續(xù)導數(shù).
C4 隨機變量U具有有界支撐Ω,其密度函數(shù)fU(·)在Ω上Lipschitz連續(xù)且大于零.
C5 變系數(shù)函數(shù)α1(·),…,αp(·)在Ω上二階連續(xù)可導.
C6 條件密度函數(shù)f(·|X,Z,U)大于零,其導函數(shù)連續(xù)一致有界.
C7 選擇概率π(u,x,z)有界且大于零,并且有連續(xù)二階偏導數(shù).
定理1 假設(shè)π(V)是已知的,在C1-C8條件下,有
定理2 假設(shè)π(V)符合(7)且參數(shù)θ未知,在C1-C8條件下,有
其中:Λ2=Λ1-JTΩ-1J.
定理3 假設(shè)π(V)是已知的,在C1-C8條件下,有
定理4 假設(shè)π(V)符合(7)且參數(shù)θ未知,在C1-C8條件下,有
其中:Ψ2=Ψ1-J*TΩ-1J*.
該引理證明細節(jié)可詳見文獻[14].
該引理證明細節(jié)可詳見文獻[15].
定理1的證明
由KNIGHT[16]提出的恒等式
(8)
可得
又因為Bn(γ)-E[Bn(γ)|U,X,Z]=oP(1),所以
由Cramer-Wold理論和中心極限定理可得
最后根據(jù)Lindeberg-Feller中的極限定理有
定理1證畢.
定理2的證明
根據(jù)式(8)可得
(9)
(10)
其中:π′(Vij,θ)=π(Vij,θ)(1-π(Vij,θ))Vij.根據(jù)式(9)、(10)可得
因此
定理3的證明
根據(jù)恒等式(8)有
與定理1證明類似,求Nn(ξ)的條件期望,即
Wij(u)T.
因為E[Rn(u)]=fU(u)R(u)+O(h2),R(u)=diag(R1(u),R2(u)),
(11)
此外,與TANG[12]的定理1證明過程類似,
定理3證畢.
定理4的證明
根據(jù)中心極限定理,最終有
定理4證畢.
本節(jié)過數(shù)值模擬來驗證所提方法的有限樣本性.考慮如下模型
i=1,…,n,j=1,…,ni,
模擬1
根據(jù)上述模型,選擇如下三種選擇概率函數(shù)
π1(u,x,z)=P(δ=1|U=u,X=x,Z=z)=
{1+exp(u+x+2z+4.5)}-1
π2(u,x,z)=P(δ=1|U=u,X=x,Z=z)=
{1+0.6exp(u+x+z+1.4)}-1
π3(u,x,z)=P(δ=1|U=u,X=x,Z=z)=
{1.5+exp(u-x-z-2)}-1
以上三種情形對于數(shù)據(jù)的平均缺失概率分別約為10%,30%,50%.在模擬過程中,誤差服從標準正態(tài)分布, 樣本容量分別取n=300,500,800,并且重復(fù)觀測次數(shù)為ni=3,且對每一種情況實驗重復(fù)1 000次.表1、2分別為分位數(shù)τ=0.5,0.75時參數(shù)估計量的均值(Mean),偏差(Bias),標準差(SD)和均方誤差(MSE)的結(jié)果.
表1 τ=0.5時和的均值(Mean),偏差(Bias),標準差(SD)和均方誤差(MSE)
表2 τ=0.5時和的均值(Mean),偏差(Bias),標準差(SD)和均方誤差(MSE)
由表1、2可以看出:
1) 當缺失概率函數(shù)和分位數(shù)一定時,隨著樣本量的增加,參數(shù)估計量的標準差和均方誤差都在減小;
3) 當缺失概率函數(shù)和樣本容量一定時,相比在τ=0.5時參數(shù)的估計效果,τ=0.75時的參數(shù)估計效果較好.
模擬2
基于上述模型,考慮在相同缺失概率大約為30%,分位數(shù)為0.75,n=800時比較2種情形下分位數(shù)回歸估計的優(yōu)越性,且考慮3種誤差分布(N(0,1),U(0,1),C(0,1)).表3為缺失概率相同且在三種誤差分布下的參數(shù)估計效果.
表3 缺失概率相同時和的均值(Mean),偏差(Bias),標準差(SD)和均方誤差(MSE)
由表3可以看出:
2) 當誤差分布相同時,誤差分布為標準正態(tài)分布的參數(shù)估計量,相比概率已知的結(jié)果,概率未知的結(jié)果較好,而其他兩種誤差下參數(shù)估計量的結(jié)果相差不大.
本文利用逆概率加權(quán)法給出了縱向數(shù)據(jù)缺失下變系數(shù)部分非線性分位數(shù)回歸模型的2種參數(shù)估計,即選擇概率已知、選擇概率未知時的參數(shù)估計;并且在一定條件下證明了所給估計量的漸近正態(tài)性.通過數(shù)值實驗說明了所得估計的有效性.