劉 鋒,付馨葦,胡天英,陳俊霖
(重慶理工大學(xué)理學(xué)院,重慶 404100)
線性模型作為統(tǒng)計學(xué)中最基礎(chǔ)的模型之一,在過去的幾十年里得到了大量運(yùn)用。由于其結(jié)構(gòu)簡明、理論健全,因而在金融、自動化技術(shù)、電力工業(yè)、醫(yī)藥衛(wèi)生和航空航天等領(lǐng)域均有廣泛涉及。在線性模型大量運(yùn)用的同時,對于模型中殘差是否存在序列相關(guān)的檢驗(yàn)也成為數(shù)據(jù)分析中的重要工作。如果殘差是序列相關(guān)的,則得到的最小二乘估計不是有效的,更糟糕的是,若存在很強(qiáng)的序列相關(guān)性則意味著忽略了一些重要的解釋變量,導(dǎo)致模型被誤用的可能。對于本文所需進(jìn)行的序列相關(guān)檢驗(yàn),參考 HU等[1]所提出的VT,P檢驗(yàn)統(tǒng)計量,在原假設(shè)下得到VT,P檢驗(yàn)統(tǒng)計量的漸近分布。本文研究在高維數(shù)據(jù)下的線性模型序列相關(guān)問題。在計算機(jī)和信息技術(shù)高速發(fā)展的今天,隨著積累的數(shù)據(jù)越來越多,高維數(shù)據(jù)涉及范圍越來越廣,加之許多低維數(shù)據(jù)的經(jīng)典處理方法,如主成分分析、回歸分析、聚類分析和AHP等在處理高維數(shù)據(jù)時有著相當(dāng)大的困難,進(jìn)而高維統(tǒng)計方法的研究在各個領(lǐng)域變得十分重要。因此,相較于以往序列相關(guān)檢驗(yàn)針對的低維數(shù)據(jù),針對高維情形進(jìn)行的檢驗(yàn)將能更好地解決新型實(shí)際問題。所謂高維數(shù)據(jù),是指協(xié)變量維數(shù)p大于樣本量n的數(shù)據(jù),也正因?yàn)閿?shù)據(jù)的高維從而不可避免地產(chǎn)生“維數(shù)災(zāi)禍”問題。為解決維數(shù)帶來的“災(zāi)難”,許多學(xué)者提出了各種不同的方法和算法,包括但不限于:① 數(shù)據(jù)的聚類[2],包含 Kohonen自組織特征映射[3-4]、多維縮放[5]、基于分形的降維[6-7];② 變量的篩選,包括 Tibshirani(1996)提出的 LASSO(least absolute shrinkage and selection operator)方法[8],Yang等[9]將 Dantzig變量選擇應(yīng)用到高維部分線性模型,李冰月[10]利用profile最小二乘方法結(jié)合RAR部分懲罰方法對超高維部分線性模型進(jìn)行變量估計等,進(jìn)一步地,對于本文針對的一般線性模型,LASSO類方法還可以推廣到自適應(yīng)LASSO[11]、松弛 LASSO[12]以及 Group LASSO[13]等;③ 利用方差分析和因子分析進(jìn)行降維[14];④對高維數(shù)據(jù)進(jìn)行特征降維[15]等。在探尋降維算法的同時,還有一些學(xué)者考慮了降維對原始數(shù)據(jù)的影響[16]。
本文采用的檢驗(yàn)方法與傳統(tǒng)D-W檢驗(yàn)不同,其可檢驗(yàn)高階序列相關(guān)且無需對誤差的分布做出任何假定,同時結(jié)合L1懲罰函數(shù)的變量估計對高維數(shù)據(jù)下線性模型的序列相關(guān)進(jìn)行檢驗(yàn)。
記(Yi,Xi),i=1,2,…,n為來自模型(1)的 n個i.i.d樣本。
式中:Yi為響應(yīng)變量,Xi是p維的隨機(jī)向量且Xi~N(0,Σ),εi~N(0,σ2)。在本文中,考慮 p>n→∞。
假設(shè)εi是來自于模型AR(k)的隨機(jī)誤差:
或者為模型MA(k)的隨機(jī)誤差:
式中:ei為i.i.d的隨機(jī)變量,同時有 E(ei)=0,Var(ei)=σ2<∞。對于 ai,i=1,2,…,k,其為未知的回歸系數(shù),且對于模型AR(k)是固定的。
針對序列相關(guān)的檢驗(yàn)是在模型(1)的基礎(chǔ)上對誤差序列εi進(jìn)行的,即只需要檢驗(yàn)AR(k)模型亦或是MA(k)模型中的系數(shù)是否全為零即可。若模型系數(shù)全為零,則表明(1)的誤差序列不存在序列相關(guān),反之則存在高階序列相關(guān)。
令 a=(a1,a2,…,ak)T,因此檢驗(yàn)為
令 uj=E(εiεi+j)以及 U=(u1,u2,…,uk),j=1,2,…,k。此時關(guān)于該檢驗(yàn)的原假設(shè)和備擇假設(shè)為:
令
并記作
在原假設(shè)下有 E(Zi)=0,i=1,2,…,N-k,且E(Zi)=0意味著中沒有序列相關(guān)性。因此,對于序列相關(guān)性的檢驗(yàn)等同于檢驗(yàn)E(Zi)=0,i.e.,
參考 HU[1],可以利用 VT,P檢驗(yàn)統(tǒng)計量進(jìn)行檢驗(yàn)。對任意的p維向量a,記記Y=(Y1,Y2,…,Yn)T,XT=(X1,X2,…,Xn),ε=基于 L1懲罰函數(shù),定義β的估計為
其中λ≥0為L1正則化參數(shù)。特別地,令T=nk,于是在原假設(shè)的約束下,有VT,P檢驗(yàn)統(tǒng)計量
為得到主要結(jié)論,需要如下假設(shè)條件:
條件1
條件2記Op(s0λ)(見 peter J.Bickel(2009)定理 7.2)。本文中
定理1在條件1和條件2以及零假設(shè)下,當(dāng)T→∞時,有
其中Ik為k×k的單位陣。
在定理1下便得到了原假設(shè)中檢驗(yàn)統(tǒng)計量的漸近分布,因此當(dāng)利用統(tǒng)計推斷時,在已知的顯著性水平α下,可以在檢驗(yàn)統(tǒng)計量的值大于漸近分布的1-α分位點(diǎn)時,拒絕原假設(shè),即認(rèn)為模型(1)的誤差序列存在序列相關(guān)性,反之同理。
通過相當(dāng)部分的數(shù)值模擬研究高維數(shù)據(jù)下線性模型的序列相關(guān)性檢驗(yàn)??紤]模型Yi=XTiβ+εi,設(shè) Xi產(chǎn)生于正態(tài)分布 N(0,∑),利用 10折交叉驗(yàn)證對β的相關(guān)參數(shù)進(jìn)行選擇,選出最優(yōu)參數(shù)后再利用L1懲罰函數(shù)對β進(jìn)行估計。對于εi,則分別假定其服從以下模型:
1)AR(1)模型:εi=a1εi-1+ei
2)AR(2)模型:εi=a1εi-1+a2εi-2+ei
3)MA(1)模型:εi=a1ei-1+ei
4)MA(2)模型:εi=a1ei-1+a2ei-2+ei
同時假定誤差ei服從正態(tài)分布。取顯著性水平α=0.05,樣本量n取200、400和600,維數(shù) p分別取400、600和800時,各做1 000次模擬,有表1~12。
表1 AR(1)模型 n=200
表2 AR(1)模型 n=400
表3 AR(1)模型 n=600
表4 MA(1)模型 n=200
表5 MA(1)模型 n=400
表6 MA(1)模型 n=600
表7 AR(2)模型 n=200
表8 AR(2)模型 n=400
表9 AR(2)模型 n=600
表10 MA(2)模型 n=200
表11 MA(2)模型 n=400
表12 MA(2)模型 n=600
從上述結(jié)果中可以看到,當(dāng)誤差服從正態(tài)分布時,若模型不存在序列相關(guān),則檢驗(yàn)結(jié)果在顯著性水平0.05附近波動,且當(dāng)固定樣本量n,檢驗(yàn)統(tǒng)計量的size隨著維數(shù)p的增大而大致呈減小趨勢,說明當(dāng)樣本量固定不變時,維數(shù)的增大將導(dǎo)致檢驗(yàn)統(tǒng)計量的size效果變差。而在備擇假設(shè)中,無論是AR模型還是MA模型,當(dāng)相關(guān)系數(shù)變大時,檢驗(yàn)統(tǒng)計量的power均趨向于1。
引理1在概率至少為1-Cp-1時
證明:證明見 Chang et al.(2010)[17]的引理 2和引理3。
定理2在條件1、條件2及原假設(shè)下有
式中Ik為k×k的單位陣。
證明:首先考慮第 j項(xiàng)下的Z^i,i.e.,
同時在Δ3中有
至此得到
從而有
由Gramer-Wold方法,根據(jù)m步相依隨機(jī)變量中心極限定理可得定理得證。
重慶理工大學(xué)學(xué)報(自然科學(xué))2021年4期