劉 鋒,郭似童,譚祥勇,康新梅
(重慶理工大學 數(shù)學與統(tǒng)計學院,重慶 400054)
?
響應變量缺失下部分線性單指標模型的序列相關性檢驗
劉鋒,郭似童,譚祥勇,康新梅
(重慶理工大學 數(shù)學與統(tǒng)計學院,重慶400054)
摘要:研究了在響應變量隨機缺失下的部分單指標模型的序列相關檢驗問題。首先采用借補的方法對缺失響應變量進行處理,再運用經(jīng)驗似然方法對殘差部分進行序列相關性檢驗,構造了經(jīng)驗似然比統(tǒng)計量,并證得其為漸近分布。數(shù)值模擬結果表明:該檢驗方法具有較為理想的檢驗功效。
關鍵詞:部分單指標模型;缺失數(shù)據(jù);隨機缺失;經(jīng)驗似然;序列相關性檢驗
部分單指標模型(1.1)是由Carrall等于1997年首次提出的[1],他們結合局部線性的最小二乘法構造了參數(shù)部分和非參數(shù)部分的估計量,并得到其漸近分布。此后很多學者對此模型進行了研究。
在應用研究領域,缺失數(shù)據(jù)是一種常見的數(shù)據(jù)。很多學者提出了在MAR(隨機缺失)假定下解決缺失數(shù)據(jù)的方法[2]。關于缺失數(shù)據(jù)最近的研究成果可以參見文獻[3-4]。
在經(jīng)濟和金融數(shù)據(jù)分析中,檢驗模型的序列相關是一項非常重要的工作。模型殘差潛在的序列相關會導致估計量無效、模型預測失效等問題,很多學者對其做了深入研究[5-6],但是很少有學者研究缺失數(shù)據(jù)下的序列相關性檢驗。本文研究響應變量缺失下部分單指標模型的序列相關性檢驗,利用經(jīng)驗似然方法構造檢驗統(tǒng)計量,并證明了零假設下檢驗統(tǒng)計量的漸近分布為卡方分布。
1理論與方法
1.1對缺失值進行借補
考慮如下部分線性單指標模型:
(1)
現(xiàn)在假設{(Xi,Yi,δi),i=1,…,n} 是來自模型(1.1)的一組不完全隨機樣本,其中{Yi,i=1,2,…,n}存在缺失。當δi=1時,Yi有觀測值;當δi=0時,Yi缺失。 假定缺失為隨機缺失(MAR),則可以得到
即在給定Xi和Zi條件下,δi和Yi條件獨立。
(2)
這里ei=δiεi,且滿足E(ei|Xi,Zi)=0。從ei的表達式可以看出,ei和εi的序列相關結構是一致的,即檢驗εi的序列相關性等價于檢驗ei的序列相關性。下面進行ei的序列相關性檢驗。
設Vk=E(eiei+k),V=(V1,V2,…,Vp),k=1,2,…,p,則對ei的序列相關檢驗可轉化為如下的原假設和備擇假設:
H0:V=0?H1:V≠0
令ωi1=eiei+1,ωi2=eiei+2,…,ωip=eiei+p,i=1,2,…,n-p,ωi=(ωi1,ωi2,…,ωip)τ。則在零假設下,E(ωi)=0;在備擇假設下,E(ωi)≠0。這樣,檢驗{ei}是否存在序列相關性就等價于檢驗E(ωi) 是否為0。
1.2構造經(jīng)驗似然比統(tǒng)計量
定義ωi的分布函數(shù)為F,則F的非參數(shù)似然函數(shù)為
取到最大值,從而得到經(jīng)驗似然比函數(shù):
則有
(3)
對于未知的參數(shù)β,θ和g(·)的估計,通常采用兩步估計法。先估計出g(·)和θ:
其中:
(4)
采用Largrange乘數(shù)法求出式(3)中關于πi的最優(yōu)解,解得
(5)
其中λ為方程(6)的解。
(6)
將式(5)代入式(3)得
(7)
2數(shù)值模擬
考慮如下部分單指標模型:
數(shù)據(jù)產(chǎn)生如下:
β=(0.6,0.8)τ,θ=2
Xi1~U(-1,1)
Xi2~U(-1,1)
Zi~N(0,1)
Xi=(Xi1,Xi2)τ
i=1,2,…,n
① 當p(δi=1)=0.9,p(δi=0)=0.1時,即缺失概率為10%的缺失狀態(tài);
② 當p(δi=1)=0.8,p(δi=0)=0.2時,即缺失概率為20%的缺失狀態(tài);
③ 當p(δi=1)=0.8,p(δi=0)=0.4時,即缺失概率為40%的缺失狀態(tài)。
樣本量分別取n=100,200,300。為驗證經(jīng)驗似然比檢驗的功效,本研究取顯著性水平0.05各做1 000次模擬,結果如表1~6所示。
從表1~6中可以看出:在零假設條件下,經(jīng)驗似然比檢驗的size隨著缺失率的增大而增大,但是隨著樣本量的增大,檢驗的size越來越接近預設的顯著性水平α,檢驗的power會隨著缺失概率的增大而減少,但是power還是較為理想。
表1 缺失概率為0.1時的AR(1)
表2 缺失概率為0.2時的AR(1)
表3 缺失概率為0.4時的AR(1)
表4 缺失概率為0.1時的MA(1)
表5 缺失概率為0.2時的MA(1)
表6 缺失概率為0.4時的MA(1)
3定理的證明
在證明過程中,由于N=n-p,因此不區(qū)別op(n) 和op(N)等。設C為絕對常數(shù),在不同的地方取值不同。為證明定理1,給出以下幾個條件:
(A1)g(·)滿足一階Lipschitz條件且其二階倒數(shù)連續(xù)有界;
(A2) 核函數(shù)K連續(xù)有界,滿足一階Lipschitz條件,且有
(A4)βτX的密度函數(shù)是有界且緊密支撐的,并且Lipschitz連續(xù),而且βτX在β的任意領域內(nèi)任一點有有界支撐。
由文獻[2]可知,上述假定條件是比較合理的。
引理1在零假設和條件A1~A6下有:
證明見文獻[2]。
引理2(Abel不等式)對于任意的2個序列{ai}和{bi},i=1,2,…,n,總存在C>0,使得
其中(j1,j2,…,jn)是(1,2,…,n)的任意重排。
且對于(1,2,…,n)的任意置換(j1,j2…,jn),也有
證明見文獻[7]。
引理4在條件A1~A6和零假設下,可得
其中Ip為p階單位陣。
證明對于任意的正整數(shù)k(1≤k≤p),有:
其中:
首先考慮Ω1,由于g(·)滿足Lipschitz條件,記其Lipschitz常數(shù)為L,則有
由引理1可得Ω1=op(1)。類似可證Ω4=op(1)。
下證Ω7。
由引理1可得Ω7=op(1)。
由引理2可得
Op((nh)-1/2log1/2n)·Op(N-1/2)·
Op(n1/2logn)=op(1)
同理類似可證的Ω5=op(1)。
下證Ω8。由引理2和3可得:
同理應用引理2和3可得Ω10=op(1)。
接著證明Ω11。
N1/2op((nh)-1logn)=op(1)
然后考慮Ω15。
這樣就得到
因此有
令ν為任意p維非零向量,由引理1知,在零假設下,νTφi為p步相依的隨機變量序列,但對于i≠j,有
故由m步相依隨機變量中心極限定理得
其中Φ=ννTσ4。由Cramer-Wold方法就可以得到引理2所要的結果。
引理5在零假設和條件A1~A2下,有
證明類似引理4的證法,可證明引理5。
引理6λ是式(6)的解,有
證明見文獻[8]中引理3。
定理1的證明如下:
由引理1~6,將式(7)泰勒展開可得
經(jīng)簡單的計算以及由引理4~6可得
定理1證明完畢。
4結束語
當前對缺失數(shù)據(jù)的研究主要集中于對統(tǒng)計模型的估計和置信區(qū)間的構造上,對序列相關性的研究較少。本文采用經(jīng)驗似然方法檢驗缺失數(shù)據(jù)下的部分單指標模型的序列相關性,其研究成果有較重要的理論價值和參考價值。
參考文獻:
[1]CARROLL R J,FAN J,GIJBELS I,et al.Generalized partially linear single-index models[J]. Jounrnal of the American Statistics Association,1997,92:477-489.
[2]WANG J L,XUE L G,ZHU L X,et al. estimation for a partially linear single-index models[J]. The Annals of Statistics,2010,38(1):246-274.
[3]楊宜平.協(xié)變量隨機缺失下相性模型的經(jīng)驗似然推斷及其應用[J].數(shù)理統(tǒng)計與管理,2011,99:367-367.
[4]ZHANG K K,GONZALEZ R,HUANG B,et al.Expectation maximization approach to fault diagnosis with missing data[J].IEEE Trans-actions on Industrial Electronics,2015,62(2):1231-1240.
[5]LIU F,CHEN G M,CHEN M.Testing serialcorrelation in partially linear errors-in-variables models based on empirical likelihood[J].Communication in Statistics Theory and Methods,2008,37(12):1905-1918.
[6]LI J B,WANG Y Y,HUANG Z S,et al.Testing serial correlation in single index models[J].Communications in Statistics,2015,44(4):1020-1035.
[7]高集體,沈紅巖,梁華.部分線性模型中估計的收斂速度[J].數(shù)學學報,1995,38(5):658-669.
[8]OWEN A B.Empirical likelihood ratio for linear models.[J] Ann Statistics,1991,19:1725-1747.
(責任編輯劉舸)
Serial Correlation Test for Partial Linear Single-Index Model with Missing Response Variables
LIU Feng, GUO Si-tong, TAN Xiang-yong, KANG Xin-mei
(College of Mathematics and Statistics, Chongqing University of Technology,Chongqing 400054, China)
Abstract:We considered the serial correlation test for partial linear single-index model with response variables missing at random (MAR). Firstly, we filled in the missing response variables by the imputation method. Then we applied the empirical likelihood method to establish the test statistic, and constructed the ratio statistic of empirical likehood and derive the asymptotic distribution of the statistic. Simulation results indicate that the test method performs well.
Key words:part of single-index model; missing data; missing at random; experience likelihood; serial correlation tests
文章編號:1674-8425(2016)02-0145-07
中圖分類號:O212
文獻標識碼:A
doi:10.3969/j.issn.1674-8425(z).2016.02.025
作者簡介:劉鋒(1973—),男,湖南新化人,博士,副教授,主要從事非參數(shù)統(tǒng)計研究;郭似童(1990—),女,湖北隨州人,碩士研究生,主要從事非參數(shù)統(tǒng)計研究。
基金項目:重慶理工大學研究生創(chuàng)新基金資助項目(YCX2014234)
收稿日期:2015-10-12
引用格式:劉鋒,郭似童,譚祥勇,等.響應變量缺失下部分線性單指標模型的序列相關性檢驗[J].重慶理工大學學報(自然科學版),2016(2):145-151.
Citation format:LIU Feng, GUO Si-tong, TAN Xiang-yong, et al.Serial Correlation Test for Partial Linear Single-Index Model with Missing Response Variables[J].Journal of Chongqing University of Technology(Natural Science),2016(2):145-151.