劉 豆,趙文芝
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
變點(diǎn)問題是統(tǒng)計(jì)學(xué)研究熱點(diǎn)問題之一。變點(diǎn)指在某一時(shí)刻前后觀測(cè)值存在明顯的差異,遵循2種不同的模型,即前后2個(gè)子序列可以由2種不同的數(shù)學(xué)模型呈現(xiàn),反映了觀測(cè)值本身發(fā)生了某種機(jī)制的轉(zhuǎn)變。1954年P(guān)AGE[1]發(fā)表的一篇質(zhì)量檢驗(yàn)的文章提出了變點(diǎn)問題,該問題提出之后即被人們廣泛關(guān)注,現(xiàn)在變點(diǎn)問題已被大量應(yīng)用于經(jīng)濟(jì)金融等領(lǐng)域。
通常均值變點(diǎn)檢驗(yàn)的方法有最小二乘檢驗(yàn)、CUSUM檢驗(yàn)、比率檢驗(yàn)、貝葉斯檢驗(yàn)、似然比檢驗(yàn)等。HORVTH和KOKOSZKA等用CUSUM估計(jì)量估計(jì)均值變點(diǎn),并給出極限分布[2-3]。但是,CUSUM方法的缺點(diǎn)之一是需要估計(jì)長(zhǎng)期方差,在應(yīng)用中非常不方便。由于長(zhǎng)期方差不易準(zhǔn)確估計(jì),一旦估計(jì)結(jié)果較差,會(huì)使檢驗(yàn)方法出現(xiàn)第一類錯(cuò)誤的概率難以控制。HIDALAGO等用Wald法[4],KUAN等用最小二乘方法[5]檢驗(yàn)均值變點(diǎn);SHAO和趙文芝等采用比率統(tǒng)計(jì)量研究了均值變點(diǎn)檢驗(yàn)問題[6-7]。然而,以上文獻(xiàn)只研究了均值單變點(diǎn)檢驗(yàn)情況。
在實(shí)際的統(tǒng)計(jì)檢驗(yàn)中,所選數(shù)據(jù)不一定只有一個(gè)變點(diǎn),因此多變點(diǎn)檢驗(yàn)問題的研究具有重要意義。BAI等研究了線性模型多變點(diǎn)的估計(jì)及其檢驗(yàn)問題[8-11]。他們放寬了現(xiàn)有的限制性假設(shè)條件,提出了Sup-Wald型檢驗(yàn)并討論多變點(diǎn)估計(jì)的序貫估計(jì)方法,為研究多變點(diǎn)問題提供了一種新的思路。此外,BARDET等采用擬似然比的方法得到一般因果參數(shù)模型多變點(diǎn)的一致估計(jì)[12];KEJRIWAL等用Wald法檢驗(yàn)持久性多變點(diǎn)問題[13];夏志明等提出基于局部比較法研究多變點(diǎn)個(gè)數(shù)及其位置的估計(jì)[14];文獻(xiàn)[15-18]研究線性多變點(diǎn)模型并且應(yīng)用到實(shí)際數(shù)據(jù)中進(jìn)行變點(diǎn)檢測(cè);NORIAH等提出了用ANOVA統(tǒng)計(jì)量研究獨(dú)立同分布序列的均值多變點(diǎn)檢驗(yàn)[19];呂會(huì)琴等在厚尾相依序列下研究了均值多變點(diǎn)的ANOVA型檢驗(yàn)[20]。以上文獻(xiàn)都是采用不同方法研究短記憶序列多變點(diǎn)問題。然而,在氣溫、水文以及地質(zhì)等領(lǐng)域會(huì)出現(xiàn)長(zhǎng)記憶序列。由于受各種因素的干擾,長(zhǎng)記憶序列也有可能存在均值多變點(diǎn)。在上述研究的基礎(chǔ)上,付國龍用滑動(dòng)比法檢驗(yàn)長(zhǎng)記憶均值多變點(diǎn)[21];徐瓊瑤等提出似然比掃描法研究長(zhǎng)記憶均值多變點(diǎn)檢驗(yàn)[22]。對(duì)于長(zhǎng)記憶序列均值多變點(diǎn)檢驗(yàn)的文獻(xiàn)并不多,仍然有許多問題值得討論。本文采用ANOVA型統(tǒng)計(jì)量研究長(zhǎng)記憶序列的均值多變點(diǎn)檢驗(yàn),將文獻(xiàn)[19]的研究方法推廣到長(zhǎng)記憶序列上,考慮長(zhǎng)記憶序列均值多變點(diǎn)檢驗(yàn)。
假設(shè)n個(gè)觀測(cè)值X1,X2,…,Xn是由式(1)給出:
(1)
式中:μ1,μ2,…,μk+1為常數(shù),n為樣本容量;
考慮假設(shè)檢驗(yàn)問題H0:μ1=μ2=…=μk+1; H1:μ1≠μ2≠…≠μk+1。
di,n=[nτi]-[nτi-1],i=1,2,…,k+1
文獻(xiàn)[23]提出了分?jǐn)?shù)布朗運(yùn)動(dòng)過程Bd,表達(dá)式為
其中B0是標(biāo)準(zhǔn)布朗運(yùn)動(dòng)。這里的Bd具有高斯性,均值為零,協(xié)方差函數(shù)S為
|t-s|1+2d+|s|1+2d)·
其中0≤t≤1,n→∞。
定義ANOVA型檢驗(yàn)統(tǒng)計(jì)量
(2)
定理1假設(shè)X1,X2,…,Xn是長(zhǎng)記憶序列且滿足式(1),則在原假設(shè)H0成立的條件下,當(dāng)n→∞時(shí),有
(3)
(4)
假設(shè){(et}是一個(gè)0 其中0≤t≤1,c>0,n→∞。可得 從而,基于式(4)可以證明,在原假設(shè)H0成立時(shí),當(dāng)n→∞,有下式成立: (5) 根據(jù)式(2),對(duì)式(5)不斷積分可以得到式(3)。 成立。 由于 且 考慮如下數(shù)據(jù)生成過程 Xt=μ(t)+et,t=1,2,…,n 其中{et,t=1,2,…,n}為FARIMA(0,d,0)過程。 首先通過Monte Carlo方法對(duì)變點(diǎn)個(gè)數(shù)k=2,長(zhǎng)記憶參數(shù)d分別為0.1、0.2、0.3、0.4進(jìn)行數(shù)值模擬。對(duì)每一個(gè)d都會(huì)分別產(chǎn)生一個(gè)FARIMA(0,d,0)序列,重復(fù)進(jìn)行5 000次,將得到的5 000個(gè)樣本按從小到大的順序排列。選取在經(jīng)驗(yàn)水平α=0.05下檢驗(yàn)統(tǒng)計(jì)量Tn(k)極限分布的分位數(shù),結(jié)果見表1。 表 1 檢驗(yàn)統(tǒng)計(jì)量極限分布的α分位數(shù)Tab.1 The α quantile of limit distributionof the test statistic 從表1可以看出,在檢驗(yàn)水平α=0.05下,長(zhǎng)記憶參數(shù)d對(duì)檢驗(yàn)統(tǒng)計(jì)量極限分布的α分位數(shù)的值有同向影響,即長(zhǎng)記憶參數(shù)d越大,檢驗(yàn)統(tǒng)計(jì)量極限分布α分位數(shù)的值就越大。 分別取樣本容量n=200和n=400,變點(diǎn)位置(k1,k2)分為 等3種情況,分別代表變點(diǎn)發(fā)生時(shí)刻的早期、中期和晚期。在均值(μ1,μ2,μ3)=(0,1,2)的條件下,對(duì)模型在α=0.05的檢驗(yàn)水平下模擬500次,模擬結(jié)果見表2~4。表3中括號(hào)外的數(shù)據(jù)表示樣本容量n=200時(shí)的經(jīng)驗(yàn)勢(shì)函數(shù)值,括號(hào)里的數(shù)據(jù)表示樣本容量n=400時(shí)的經(jīng)驗(yàn)勢(shì)函數(shù)值。 表 2 樣本容量n=200,400的Tn(k)的經(jīng)驗(yàn)水平Tab.2 The empirical size of Tn(k) withthe sample size n=200,400 觀察表2可以發(fā)現(xiàn),當(dāng)樣本容量n增加以及長(zhǎng)記憶參數(shù)d的變化呈持續(xù)增加時(shí),Tn(k)的經(jīng)驗(yàn)水平明顯增加,表明樣本容量對(duì)Tn(k)的經(jīng)驗(yàn)水平有很大的同向影響,說明檢驗(yàn)水平失真較小,該檢驗(yàn)是有效的。 表 3 樣本容量n=200,400的Tn(k)的經(jīng)驗(yàn)勢(shì)Tab.3 The empirical power of Tn(k) with thesample size n=200,400 觀察表3可以發(fā)現(xiàn),當(dāng)樣本容量n增加時(shí),Tn(k)的經(jīng)驗(yàn)勢(shì)明顯增加,顯示樣本容量n對(duì)統(tǒng)計(jì)量Tn(k)的經(jīng)驗(yàn)勢(shì)有明顯的同向影響,而且樣本容量n越大,效果越明顯。另外,當(dāng)長(zhǎng)記憶序列參數(shù)d的變化呈持續(xù)增加時(shí),經(jīng)驗(yàn)勢(shì)函數(shù)值會(huì)越接近于1,即表明該方法具有有效性。 表 4 變點(diǎn)個(gè)數(shù)對(duì)檢驗(yàn)統(tǒng)計(jì)量臨界值的影響Tab.4 Effect of the change point number on the critical value of the test statistic 從表4可以看出,在檢驗(yàn)水平α=0.05,不同的長(zhǎng)記憶參數(shù)下,隨著變點(diǎn)個(gè)數(shù)的增多,檢驗(yàn)統(tǒng)計(jì)量對(duì)應(yīng)的臨界值越來越小。 進(jìn)一步用Matlab軟件擬合得出,在α=0.05,長(zhǎng)記憶參數(shù)d(0 當(dāng)k=1 時(shí), C1(d)=121.9d2+137.7d+200.3 (6) 當(dāng)k=2時(shí), C2(d)=0.169d2+0.527 8d+0.524 6 (7) 當(dāng)k=3時(shí), C3(d)=5.155×10-4d2+9.025×10-4d+ 2.198×10-3 (8) 對(duì)于不同的長(zhǎng)記憶參數(shù)d(0 用2組統(tǒng)計(jì)學(xué)中比較經(jīng)典的實(shí)際數(shù)據(jù)進(jìn)一步驗(yàn)證該方法的有效性。2組數(shù)據(jù)分別為北半球的月平均氣溫?cái)?shù)據(jù)(1854—1989年)以及尼羅河年最低水位(622—1281年)。以上數(shù)據(jù)來自于文獻(xiàn)[24]。 Beran對(duì)北半球月平均氣溫?cái)?shù)據(jù)(1854—1989年)的擬合模型為d=0.37的長(zhǎng)記憶序列[24]。對(duì)這組數(shù)據(jù)進(jìn)行變點(diǎn)檢測(cè),將數(shù)據(jù)代入Tn(k)中可計(jì)算其臨界值為tn(k)=398.447。該值大于k=1,d=0.37的臨界值267.937 2。應(yīng)該拒絕原假設(shè),即該組數(shù)據(jù)存在變點(diǎn)。從圖1可以看出,該組數(shù)據(jù)存在明顯變化,即存在變點(diǎn),但是變點(diǎn)的位置有待進(jìn)一步的估計(jì)。 圖 1 北半球月平均氣溫?cái)?shù)據(jù)(1854—1989年)Fig.1 Monthly mean temperature data of the northern hemisphere from 1854 to 1989 Beran對(duì)尼羅河年最低水位數(shù)據(jù)(622—1281年)的擬合模型為d=0.33的長(zhǎng)記憶序列[24]。對(duì)這組數(shù)據(jù)進(jìn)行變點(diǎn)檢測(cè),將數(shù)據(jù)代入Tn(k)中可計(jì)算其臨界值為tn(k)=5.245。該值小于k=1,d=0.33的臨界值259.015 9且大于k=2,d=0.33的臨界值0.717 2。應(yīng)該拒絕原假設(shè),即該組數(shù)據(jù)存在變點(diǎn)。從圖2可以看出,該組數(shù)據(jù)存在明顯變化,即存在變點(diǎn),但是變點(diǎn)的位置仍有待進(jìn)一步的估計(jì)。 圖 2 尼羅河年最低水位(622—1281年)Fig.2 Yearly minimum water levels of the Nile river from 622 to 1281 利用ANOVA統(tǒng)計(jì)量研究關(guān)于線性長(zhǎng)記憶均值多變點(diǎn)檢驗(yàn)問題。當(dāng)變點(diǎn)個(gè)數(shù)已知時(shí),原假設(shè)下證明了極限分布,備則假設(shè)下得到了一致性檢驗(yàn)。根據(jù)數(shù)值實(shí)驗(yàn)以及實(shí)例分析驗(yàn)證了所提方法的有效性。但是,對(duì)于變點(diǎn)具體位置的估計(jì)以及變點(diǎn)個(gè)數(shù)等還有待進(jìn)一步的研究。2 數(shù)值模擬
3 實(shí)例驗(yàn)證
4 結(jié) 語