劉 鋒,張光鋒,康新梅(重慶理工大學數(shù)學與統(tǒng)計學院,重慶400054)
協(xié)變量缺失下線性模型序列相關的經(jīng)驗似然比檢驗
劉鋒,張光鋒,康新梅
(重慶理工大學數(shù)學與統(tǒng)計學院,重慶400054)
研究了協(xié)變量隨機缺失下的線性模型的序列相關檢驗問題。首先,采用借補的方法對協(xié)變量缺失的部分進行處理,再運用經(jīng)驗似然方法對殘差部分進行序列相關性檢驗,構造了經(jīng)驗似然比統(tǒng)計量并得到其漸近性質。通過數(shù)值模擬可以看出:該檢驗方法具有較理想的檢驗功效。
缺失數(shù)據(jù);線性模型;借補;經(jīng)驗似然;序列相關檢驗
缺失數(shù)據(jù)是指在實際的數(shù)據(jù)收集過程中,由于各種原因導致一部分數(shù)據(jù)未被觀測到,從而得到存在缺失值的數(shù)據(jù)。數(shù)據(jù)缺失的現(xiàn)象十分普遍,也逐漸引起人們的關注。在對缺失數(shù)據(jù)進行處理時,如果忽略缺失值,得到的結果往往會有偏差,而且通常不是漸近有效的。學者往往運用借補的方法解決這個問題。很多學者對缺失數(shù)據(jù)作了進一步的研究,并獲得成果。Liang[1]采用局部線性回歸和加權的方法對協(xié)變量缺失下廣義線性模型的參數(shù)進行了估計。此后,楊宜平[2]對協(xié)變量缺失下的線性模型進行了經(jīng)驗似然推斷;Xue[3]討論了響應變量缺失下廣義線性模型的經(jīng)驗似然方法。序列相關性檢驗一直是統(tǒng)計學中重要的研究課題。一般來說,對一個擬合較好的模型,其殘差是一列獨立同分布的白噪聲。在此前提下,才可對模型進行統(tǒng)計推斷,否則,推斷將失去有效性。較強的序列相關性則意味著一些重要的解釋變量未得到應用。Liu[4]在對部分線性模型的序列相關性進行研究時,首次引入經(jīng)驗似然的方法。Robinson[5]采取忽略缺失數(shù)據(jù)的缺失值的方法研究了由靜態(tài)時間序列回歸到線性模型的序列相關性。目前,對于缺失數(shù)據(jù)下各種統(tǒng)計模型的研究主要集中在對模型的估計和置信區(qū)間的構造上,而對數(shù)據(jù)缺失時的序列相關性研究還比較少。本文首先運用借補的方法對線性模型協(xié)變量缺失部分進行借補,再運用經(jīng)驗似然的方法對模型的殘差部分進行序列相關性檢驗,構造了殘差序列相關檢驗的經(jīng)驗似然比統(tǒng)計量,并證明了對數(shù)經(jīng)驗似然比統(tǒng)計量趨于一個標準的卡方分布。
1.1對缺失值進行借補
考慮如下線性模型:
其中:Y是響應變量;β是未知參數(shù);X是協(xié)變量;ε為隨機誤差,滿足E(ε|X)=0。
假設{(Xi,Yi,δi),i=1,…,n}是來自模型(1)的一組不完全隨機樣本,其中{Xi,i=1,2,…,n}存在缺失。當δi=1時,Xi有觀測值;當δi=0時,Xi缺失。假定缺失類型為隨機缺失(MAR),則P(δi=1|Xi,Yi)=P(δi=1|Yi),說明在給定Xi條件下,δi和Xi條件獨立。
令θi=δixTiβ+(1-δi)yi,則當δi=0時,θi= yi;當δi=1時,θi=xTiβ。當{Xi,i=1,2,…,n}隨機缺失時,E(θ|Y)=Y,即
且滿足E(ei|yi)=0,δiεi=ei。這里ei和εi具有相同的序列相關結構,因此檢驗εi的序列相關性等價于檢驗ei的序列相關性。設
則對ei的序列相關檢驗可轉化為:
令φi1=eiei+1,φi2=eiei+2,…,φip=eiei+p,i= 1,2,…,n-p,φi=(φi1,φi2,…φip)T,則在零假設下,E(φi)=0;在備擇假設下,E(φi)≠0。這樣,檢驗ei是否存在序列相關性就是檢驗E(φi)是否為零。
1.2構造經(jīng)驗似然比統(tǒng)計量定義φi的分布函數(shù)F,則F的非參數(shù)似然
其中pi=F(φi)是φi處的概率。φi的經(jīng)驗分布函數(shù)其中δA=I(x∈A)為示性函數(shù)。若使上式達到最大值,則在 E(φi)=0時,使得非參數(shù)似然比取到最大值,從而得到經(jīng)驗似然比函數(shù)式(3)。
由于R含有模型的參數(shù)β,因此不可直接進行序列相關檢驗,需要用β的估計β^來替換。
根據(jù)文獻[6]可知
采用Largrange乘數(shù)法求出式(4)中關于pi的最優(yōu)解,得
其中λ為方程(6)的解
將式(5)代入式(4)得:
定理1假設第4部分的條件1~2都滿足時,在零假設條件下,當N→∞時,-2log R^依分布收斂于χ2p,即
本節(jié)通過數(shù)值模擬來研究協(xié)變量缺失情況下的經(jīng)驗似然比檢驗統(tǒng)計量的性質。
考慮線性模型
數(shù)據(jù)產(chǎn)生如下:X~N(0,1),ε~(0,0.1),為方便起見,取β=2。
根據(jù)以上述模型,現(xiàn)考慮以下3種缺失機制:
1)當p(δi=1)=0.9,p(δi=0)=0.1時,即缺失概率為10%的缺失狀態(tài);
2)當p(δi=1)=0.8,p(δi=0)=0.2時,即缺失概率為20%的缺失狀態(tài);
3)當p(δi=1)=0.6,p(δi=0)=0.4時,即缺失概率為40%的缺失狀態(tài)。
對于ei分別假定其服從一下平穩(wěn)時間序列模型:
樣本量分別取n=50,100,200,以驗證經(jīng)驗似然比檢驗的功效。這里取顯著性水平為0.05各做1 000次模擬,結果如表1~12所示。
表1 缺失概率為0.1時AR(1)
表2 缺失概率為0.2時AR(1)
表3 缺失概率為0.4時AR(1)
表4 缺失概率為0.1時MA(1)
表5 缺失概率為0.2時MA(1)
表7 缺失概率為0.1時AR(2)
表8 缺失概率為0.2時AR(2)
表9 缺失概率為0.4時AR(2)
表10 缺失概率為0.1時MA(2)
表11 缺失概率為0.2時MA(2)
表12 缺失概率為0.4時MA(2)
從表1~12中可以看出:在零假設條件下,經(jīng)驗似然比檢驗的size隨著缺失率的增大而趨于偏大,但是隨著樣本量的增大,檢驗的size越來越接近預設的顯著性水平,檢驗的power較為理想。
在證明過程中,由于N=n-p,不區(qū)別op(n)和op(N)等,設C為絕對常數(shù),在不同的地方取值不同。為證明定理1,本文先給出以下條件和引理:
上述的假定條件是很合理的,見參考文獻[6]。
引理1在零假設和條件1~2下,有:β^-β= Op(n-1/2)。
證明類似文獻[6]。
引理2在零假設及條件1~2下,可得
其中Ip為p階單位矩陣。
證明當條件1~2成立時,有
其中:
令ν為任意p維非零向量,可知:在零假設下,νTφi為p步相依的隨機變量序列,但對于i≠j,有
故由m步相依隨機變量中心極限定理得
其中Ω=ννTσ4,由Cramer-Wold方法就能得到引理2所要的結果。
引理3在零假設和條件1~2下,有
證明應用類似引理2的證法可證明引理3。
引理4的證明見參考文獻[7]。
由上述引理1~4,再根據(jù)文獻[8]的研究成果可得:當
通過數(shù)值模擬的結果可以看出本文方法具有較為理想的檢驗功效。本文采用經(jīng)驗似然的方法檢驗協(xié)變量缺失下的線性模型的序列相關性,而當前對缺失數(shù)據(jù)的研究主要集中在于對統(tǒng)計模型的估計和置信區(qū)間的構造上,對序列相關性的研究較少,因而本文的研究具有重要的理論價值。本文的方法為協(xié)變量缺失下部分線性模型及其他模型的序列相關性檢驗提供了重要的參考,而具體的結合與應用方法需要做進一步的深入研究。
[1]Liang H.Generalized partially linearmodelswithmissing covariates.ScienceDirect[J].2008,99:880-895.
[2]楊宜平.協(xié)變量隨機缺失下線性模型的經(jīng)驗似然推斷及其應用[J].數(shù)理統(tǒng)計與管理,2011,30(4):655 -663.
[3]Xue D,Xue L,Cheng W.Empirical likelihood for generalized linear models with missing responses[J].Journal of Statistical Planning and Inference,2011,141(6):2007 -2020.
[4]劉鋒,陳敏,鄒捷中.部分線性模型序列相關的經(jīng)驗似然比檢驗[J].應用數(shù)學學報,2006,29(4):577-586.
[5]Robinson PM.Testing for serial correlation in regression with missing observations[J].Journal of the Royal Statistical Society.Series B(Methodological),1985,47:429 -437.
[6]Xue L.Empirical likelihood for linearmodelswithmissing responses[J].Journal of Multivariate Analysis,2009,100(7):1353-1366.
[7]Owen A B.Empirical likelihood ratio confidence intervals for a single functional[J].Biometrika,1988,75(2):237 -249.
[8]Owen A B.Empirical likelihood ratio confidence regions[J].The Annals of Statistics,1990,18:90-120.
(責任編輯劉舸)
Em pirical Likelihood Ratio Test for Serial Correlation in Linear M odel w ith M issing Covariates
LIU Feng,ZHANG Guang-feng,KANG Xin-mei
(College of Mathematics and Statistics,Chongqing University of Technology,Chongqing 400054,China)
This paper studied the linearmodel with missing covariates at random.In thismodel,we fired fill themissing part of covariates in using imputation,then we applied the empirical likelihood methods to serial correlation tests for the linearmodel's error,and then we derived the empirical likelihood test ratio statistics and its asymptotic quality.Simulation results show that the testmethod in this paper has good test power.
missing data;linearmodel;imputation;empirical likelihood;serial correlation tests
O212
A
1674-8425(2015)05-0124-06
10.3969/j.issn.1674-8425(z).2015.05.022
2014-12-12
國家自然科學基金資助項目(11471060)
劉鋒(1973—),男,湖南新化人,博士,副教授,主要從事非參數(shù)統(tǒng)計研究;張光鋒(1988—),男,河南信陽人,碩士研究生,主要從事非參數(shù)統(tǒng)計研究。
劉鋒,張光鋒,康新梅.協(xié)變量缺失下線性模型序列相關的經(jīng)驗似然比檢驗[J].重慶理工大學學報:自然科學版,2015(5):124-129.
format:LIU Feng,ZHANG Guang-feng,KANG Xin-mei.Empirical Likelihood Ratio Test for Serial Correlation in Linear Modelwith Missing Covariates[J].Journal of Chongqing University of Technology:Natural Science,2015(5):124-129.