馮海林,羅倩倩
(西安電子科技大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,陜西 西安710071)
分位數(shù)回歸由Koenker和Bassett于1978年首次提出[1],是對線性回歸模型的進(jìn)一步拓展.隨著協(xié)變量的變化,線性回歸模型描述的是因變量條件均值的變化,而分位數(shù)回歸模型描述的是因變量條件分位數(shù)的變化.因此,分位數(shù)回歸可以比線性回歸更好的展示因變量分布隨協(xié)變量變化.與線性回歸模型常用的最小二乘估計相比,分位數(shù)估計具有更好的穩(wěn)健性(對離群值和誤差分布不敏感).在誤差含有異常值或者誤差分布為重尾分布時,仍然可以利用分位數(shù)回歸進(jìn)行擬合估計.而且隨著計算機(jī)的快速發(fā)展和統(tǒng)計軟件的廣泛應(yīng)用,擬合分位數(shù)回歸模型變得簡單快捷.正是由于分位數(shù)回歸具有諸多優(yōu)點,近年來被廣泛使用和發(fā)展.例如,YU和Jones[2]利用局部線性加權(quán)方法研究了非參數(shù)模型的分位數(shù)估計; YU和LU[3]利用相同線性加權(quán)方法討論了可加模型的分位數(shù)估計; Honda[4]考慮了變系數(shù)模型的分位數(shù)估計;LV等[5?6]分別討論了單指標(biāo)模型和部分線性單指標(biāo)模型的分位數(shù)估計等; 更多相關(guān)的研究和發(fā)展內(nèi)容在YU和LU[7]對分位數(shù)回歸方法的分析中可見.
上述提及的模型和方法以及結(jié)果均是基于完整數(shù)據(jù)的工作.而在很多領(lǐng)域的統(tǒng)計分析過程中,由于各種原因易導(dǎo)致缺失數(shù)據(jù)的產(chǎn)生.例如,在可靠性工程、生存分析、生物學(xué)和經(jīng)濟(jì)學(xué)等領(lǐng)域中常常出現(xiàn)左截斷數(shù)據(jù).左截斷數(shù)據(jù)具有相同的數(shù)據(jù)結(jié)構(gòu),當(dāng)研究變量小于固定的閾值或截斷變量時,會造成數(shù)據(jù)缺失,無法觀測到相應(yīng)樣本.如文[8-9]中具體給出的左截斷數(shù)據(jù)實例.近年來,已經(jīng)有諸多學(xué)者開始關(guān)注并研究左截斷數(shù)據(jù)的統(tǒng)計推斷問題,并取得一些成果.基于左截斷數(shù)據(jù),Bhattacharya[10]討論了線性回歸模型中斜率的非參數(shù)估計; Lynden-Bell[11]推導(dǎo)了截斷模型下分布函數(shù)的非參數(shù)最大似然Product-Limit(PL)估計;Stute[12?13]證明了PL估計的幾乎處處收斂性及中心極限定理; HE和YANG[14]討論了隨機(jī)截斷模型下截斷率的有效估計; HE和YANG[15]提出了左截斷數(shù)據(jù)下線性回歸模型的加權(quán)最小二乘估計,其中采用截斷變量分布函數(shù)的PL估計定義權(quán)重.有關(guān)左截斷數(shù)據(jù)的其他研究成果也可參考文[16-18]等.但是,到目前為止,只有極少部分學(xué)者利用分位數(shù)回歸方法研究左截斷數(shù)據(jù).例如,ZHOU[19]研究了左截斷數(shù)據(jù)下線性回歸模型的加權(quán)分位數(shù)估計,其中采用與文[15]相同的權(quán)重定義方式; XU等[20]研究了左截斷數(shù)據(jù)下部分線性模型的加權(quán)分位數(shù)估計.對于左截斷數(shù)據(jù)下非線性模型的分位數(shù)估計,至今幾乎沒有研究結(jié)果.
本文的主要工作是拓展了文[19-20]針對左截斷數(shù)據(jù)的分位數(shù)回歸的相關(guān)工作.即針對左截斷數(shù)據(jù),建立了非線性模型的加權(quán)分位數(shù)估計,其中權(quán)重定義方式與文[15]保持一致.并在一定的假設(shè)條件下,給出了估計的大樣本性質(zhì)及其相關(guān)結(jié)論的理論證明.進(jìn)一步,使用蒙特卡羅方法驗證所提估計的有效性和真實性.
對任意分位點τ ∈[0,1],本文考慮左截斷數(shù)據(jù)下非線性回歸模型:
其中,Y為因變量,X為協(xié)變量,f(·,β(τ))為p維參數(shù)向量β(τ)的已知函數(shù),ε(τ)為滿足等式P(ε(τ)≤0| X)=τ的隨機(jī)誤差.需要注意的是ε(τ)可能存在異方差.在左截斷模型下,變量(Y,X)被隨機(jī)變量T截斷.當(dāng)且僅當(dāng)Y ≥T時,才可以觀察到(Y,X,T)的樣本,若Y < T,則無法觀察到任何樣本值.
記 {(Yi,Xi,Ti),1≤i ≤N}為獨立同分布于變量(Y,X,T)的完整樣本.在截斷變量T影響下,僅僅可觀察到變量(Y,X,T)的部分樣本:
令P和E分別表示N-樣本下的概率測度和期望,P和E表示n-樣本下的概率測度和期望.α=P(Y ≥T)表示隨機(jī)變量Y可觀察的概率,又稱為截斷率.當(dāng)α=0 時無法觀察到變量(Y,X,T)的任何樣本,所以本文通篇假設(shè)α>0.
Ⅰ非參數(shù)估計
定義
其中分布函數(shù)F(y)的定義域記為(aF,bF):aF=inf {y:F(y)>0},bF=sup {y:F(y)<1},可類比定義分布函數(shù)G(t)的定義域(aG,bG).
這里,將分布函數(shù)右上角標(biāo)*表示n-樣本下的分布函數(shù),由文[15]可知
相應(yīng)經(jīng)驗估計函數(shù)為
令
若Y和T的樣本無節(jié)點,上述估計式可簡化為
實際上,當(dāng)樣本沒有被截斷時,PL估計就退化為經(jīng)驗分布估計.又由C(y)=α?1G(y)[1?F(y?)],可得α的非參數(shù)估計式為
由文[15]可知,αn的取值與y無關(guān),可以由任意一個滿足條件Cn(y)=0的y計算取值.因此,從上述一系列的推導(dǎo)中可得到F(y,x)的非參數(shù)估計式
Ⅱ加權(quán)分位數(shù)估計
對于任意分位點τ ∈(0,1),非線性回歸模型(2.1)的分位數(shù)估計定義為
其中QY(τ|X)=inf {y:P(Y ≤y|X)≥τ}表示Y在特定X取值下第τ條件分位數(shù),隨機(jī)誤差滿足條件P(ε(τ)≤0|X)=τ.
在完整數(shù)據(jù)N-樣本下,上述分位數(shù)估計損失函數(shù)為
其中ρτ(u)=u(τ?I(u <0)),也可以寫為為(Y,X)的經(jīng)驗估計函數(shù).在左截斷模型下,利用前面推導(dǎo)的F(y,x)的非參數(shù)估計式Fn(y,x)代替(y,x),得到
當(dāng)樣本不存在截斷時,對于任意的i,Gn(Yi)=1,上式即為一般分位數(shù)回歸的損失函數(shù).
Ⅲ一致性與漸近正態(tài)性
在給出所提估計的大樣本性質(zhì)之前,需要做如下假設(shè):
(A1)分布函數(shù)F和G連續(xù)且滿足aG (A2)隨機(jī)誤差ε在給定X取值時具有條件分布函數(shù)Fε(·|X)和條件密度函數(shù)fε(·|X).其中對于任意的X,Fε(0|X)=τ,fε(e|X)在零領(lǐng)域(?δ,δ)內(nèi)連續(xù); (A3)E[(?f(Xi,β?))?2]=Γn,其中0<Γn <∞,E[(?f(Xi,β?))?2]=E[?f(Xi,β?)?f(Xi,β?)T]; 假設(shè)(A1)是為了保證F(y)=P(Y ≤y|Y ≥aG)和G(t)=P(T ≤t|T ≤bF)成立.(A2)使得隨機(jī)誤差滿足分位數(shù)回歸模型假設(shè)條件P(ε(τ)≤0|X)=τ.假設(shè)(A3)-(A4)為定理證明需要. 定理1(一致性)在假設(shè)(A1)-(A4)成立的條件下,令β?(τ)為β(τ)的真實值,則有 定理2(漸近正態(tài)性)在假設(shè)(A1)-(A4)成立的條件下,則有 其中Σ的定義見第四節(jié)中定理證明過程. 為了驗證所提出方法的有限樣本性質(zhì),利用蒙特卡羅方法考慮如下指數(shù)回歸模型 其中參數(shù)β0=1,β1=2,協(xié)變量X~U(0,1),截斷變量T服從均值為c,方差為d的正態(tài)分布,ε為隨機(jī)誤差.通過調(diào)整c和d的取值確定不同樣本截斷率.為了檢驗方法的穩(wěn)健性,考慮了三種不同的誤差分布,并以偏差和標(biāo)準(zhǔn)差作為衡量方法優(yōu)劣的主要指標(biāo). 例1ε~N(0,1). 例2ε=X?e,其中e服從均值為0,方差為2∧2的正態(tài)分布. 例3ε~t(3). 由前面加權(quán)分位數(shù)估計的定義可知,權(quán)重在最小化目標(biāo)函數(shù)中占有重要的作用,其非參數(shù)估計主要取決于分布函數(shù)F(y)和G(t)的PL估計Fn(y)和Gn(t).因此在進(jìn)行參數(shù)估計之前,首先對Fn(y)和Gn(t)的擬合效果進(jìn)行檢驗.針對分布函數(shù)F(y)和G(t),現(xiàn)將τ=0.5 時左截斷數(shù)據(jù)(截斷率25%)下的PL估計(PL)和完整數(shù)據(jù)下的經(jīng)驗估計(ECDF)展示于圖1-3. 圖1 N(0,1) 圖2 X?e 圖3 t(3) 可以看出,PL估計與ECDF估計分布相一致且不受誤差影響,這一結(jié)果對于后續(xù)的參數(shù)估計至關(guān)重要. 注3.1分布函數(shù)F(y)和G(t)的PL估計主要取決于Cn(·).但在隨機(jī)截斷模型下,Cn(·)的取值有可能趨于0,這將會導(dǎo)致Fn(y)和Gn(t)估計的不合理性.因此在仿真計算中,采用C?n(y)代替Cn(·): 該方法由Woodroofet[8]首次提出,并且Stute和WANG[13]證明了基于C?n(y)的估計與基于Cn(·)的估計相比,估計結(jié)果等價. 注3.2為了滿足分位數(shù)回歸假設(shè)條件P(ε(τ)≤0|X)=τ,在計算中對隨機(jī)誤差進(jìn)行略微調(diào)整,令εi?Qε(τ)→εi,其中Qε(τ)表示誤差ε的第τ分位數(shù). 現(xiàn)在進(jìn)行參數(shù)估計.首先從變量(Y,X,T)中隨機(jī)產(chǎn)生300組樣本量均為100的隨機(jī)樣本.通過調(diào)整c和d的取值考慮約10%,25%,60%三種樣本截斷率.同時在每種截斷率下,分別考慮τ=0.25,0.5,0.75三種分位點下的加權(quán)分位數(shù)估計.各誤差分布下的回歸參數(shù)估計結(jié)果見表1-3. 表1 β0,β1估計結(jié)果, ε~N(0,1) 表2 β0,β1估計結(jié)果, ε=Xe, e~N(0,4) 表3 β0,β1估計結(jié)果, ε~t(3) 表4 OMNI,WQR和LS三種估計方法對比 從表1-3中可以看出,在指數(shù)回歸模型的三種誤差分布下,加權(quán)分位數(shù)估計均具有較小的偏差和標(biāo)準(zhǔn)差.且隨著截斷率的增加,加權(quán)分位數(shù)估計的偏差和標(biāo)準(zhǔn)差呈現(xiàn)遞增趨勢.同時,為體現(xiàn)方法的優(yōu)越性,在τ=0.5分位點時,將完整數(shù)據(jù)下分位數(shù)估計(OMNI)、左截斷數(shù)據(jù)下加權(quán)分位數(shù)估計(WQR)、左截斷數(shù)據(jù)下最小二乘估計(LS)三種估計方法進(jìn)行對比并將結(jié)果展示在表4中. 當(dāng)隨機(jī)誤差服從正態(tài)分布時,LS的估計效果優(yōu)于WQR,僅次于OMNI估計.但當(dāng)誤差服從其他分布時,WQR 估計的偏差,標(biāo)準(zhǔn)差均小于相應(yīng)的LS 估計,WQR估計效果明顯優(yōu)于LS 估計.上述現(xiàn)象源于,最小二乘估計穩(wěn)健性較差,在隨機(jī)誤差服從異方差和分布時,最小二乘估計不再具有好的性質(zhì).而分位數(shù)估計具有強(qiáng)穩(wěn)健型,對異常值不敏感,因而具有更強(qiáng)的優(yōu)越性. 引理1[13]如果分布函數(shù)F和G連續(xù)且滿足 對于x ∈(aG,bF),則有 其中Wi(x)=為均值為0,方差為的獨立同分布隨機(jī)變量. 定理1,2的證明令un=則un最小化下列等式 由fXi,β?(τ)+n?1/2un在處的泰勒展開式 及等式ρτ(r?s)?ρτ(r)=s[I(r <0)?τ]+0s[I(r ≤x)?I(r ≤0)]dx, 其中?f(Xi,β?(τ))=[?f(Xi,β(τ))/?β(τ)]|β(τ)=β?(τ), 首先計算In1,定義zn1=則 由Cramér-Wald定理和中心極限定理,則有 其中W1為均值為0的p維正態(tài)隨機(jī)向量.接下來計算In2. 相似的可以計算Var(In2)=op(1),從而有 最后計算In3,由引理1可知 定義 由鞅的中心極限定理,可以證明zn2→W2,其中W2為均值為0的p維正態(tài)隨機(jī)向量,因此 結(jié)合(5.1),(5.2)和(5.3)可得 當(dāng)||un||足夠大時,由(W1+W2)Tun=Op(||un||),則Qn主要由正則項決定.因此對任意的δ >0,存在常數(shù)C,當(dāng)n充分大時,有 又由最小化Qn的un應(yīng)滿足 本文主要研究了左截斷數(shù)據(jù)下非線性模型的加權(quán)分位數(shù)回歸,采用截斷變量T的PL估計定義權(quán)重.并在一定假設(shè)條件下,給出了加權(quán)分位數(shù)估計的大樣本性質(zhì).利用數(shù)值模擬展示了方法的有效性,并將方法與最小二乘回歸進(jìn)行對比.對比結(jié)果顯示,當(dāng)隨機(jī)誤差不服從正態(tài)分布時,所提方法與最小二乘估計相比可以更準(zhǔn)確的估計模型參數(shù).3.數(shù)值仿真
4.定理的證明
5.結(jié)語