楊 超,胡 堯,b,李 揚(yáng)
(貴州大學(xué) a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;b.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025)
時(shí)間序列中結(jié)構(gòu)性突變的統(tǒng)計(jì)檢驗(yàn)和估計(jì)在各種應(yīng)用中都有廣泛涉及,如計(jì)量經(jīng)濟(jì)學(xué)、移動(dòng)通信、機(jī)器學(xué)習(xí)、海洋工程或神經(jīng)生理學(xué)數(shù)據(jù)分析等方面[1]。在變點(diǎn)分析方面,近年來,學(xué)者們也做了大量的探究[2-5]。
本研究是在一般分布假設(shè)下進(jìn)行,即允許其它參數(shù)變化的情況下,時(shí)間序列中存在未知個(gè)數(shù)的多時(shí)間尺度的均值變點(diǎn)模型。針對(duì)均值變點(diǎn)的研究,Horvth等提出了非參數(shù)檢測(cè)方法[6-9],進(jìn)一步鄧春霞研究了存在均值和方差雙重變點(diǎn)的非參數(shù)檢測(cè)方法[10],這些方法雖然避免了參數(shù)方法中的參數(shù)估計(jì)難題,但存在缺點(diǎn)是需要對(duì)模型有較強(qiáng)的分布假設(shè)。針對(duì)多時(shí)間尺度上的變點(diǎn)研究,F(xiàn)rick等在檢測(cè)方法方面做了相關(guān)的探究[11-13],其中一些方法只需相對(duì)較弱的分布假設(shè)。然而當(dāng)目標(biāo)函數(shù)為檢測(cè)均值變點(diǎn)時(shí),其方法需要規(guī)定其它參數(shù)變化具有魯棒性,這使得與實(shí)際并不相符。Pein等提出了一種利用似然比統(tǒng)計(jì)量對(duì)高斯序列中存在多時(shí)間尺度變點(diǎn)估計(jì)的檢測(cè)方法,其方法檢測(cè)均值變點(diǎn)的同時(shí)允許方差變化[14]。然而一般情況下,在均值對(duì)方差變化具有魯棒性的情況下,方法檢測(cè)結(jié)果并不理想。在Arlot等的研究中,提出了運(yùn)用刪一交叉驗(yàn)證和分割的檢測(cè)方法,這些方法對(duì)不規(guī)則模型的參數(shù)變化具有較好的魯棒性[15-16]。然而,在現(xiàn)有的文獻(xiàn)中,還沒有學(xué)者研究一種結(jié)合這三種特性的方法,即對(duì)數(shù)據(jù)有較弱的分布假設(shè),對(duì)多時(shí)間尺度的變點(diǎn)檢測(cè),對(duì)模型外的其它參數(shù)變化具有較強(qiáng)魯棒性。
基于此,論文考慮這樣一種方法(Multiple Filter Test,MFT),可檢測(cè)均值不變的零假設(shè)或存在均值變點(diǎn)的備擇假設(shè)。論文將為此過程設(shè)計(jì)變點(diǎn)檢測(cè)框架,即將Messer 等人中的方法變換為基于i.i.d.隨機(jī)變量的分段序列模型[17],這種變換需要構(gòu)造一個(gè)基于MOSUM型統(tǒng)計(jì)量的變點(diǎn)模型,其中也包含參數(shù)估計(jì)過程[9]。在均值不變的零假設(shè)下,并對(duì)極限過程進(jìn)行推導(dǎo),得出拒絕域的計(jì)算方法。而在存在均值變點(diǎn)的備擇假設(shè)下,基于零假設(shè)下得出的拒絕域值,應(yīng)用多個(gè)MOSUM過程,給出其多時(shí)間尺度的變點(diǎn)檢測(cè)規(guī)則,最終給出變點(diǎn)檢測(cè)算法。
針對(duì)以上探究,論文將圍繞以下三個(gè)方面進(jìn)行。首先,對(duì)模型提出假設(shè)條件,推導(dǎo)出MFT方法,同時(shí)也給出參數(shù)估計(jì)過程。此外,由模型可同時(shí)應(yīng)用多個(gè)窗寬的MOSUM過程,在拒絕零假設(shè)的情況下,結(jié)合不同窗寬的MOSUM過程,提出一個(gè)估計(jì)多個(gè)時(shí)間尺度變點(diǎn)的算法。其算法思想為結(jié)合小窗寬的優(yōu)勢(shì),可更精確地檢測(cè)較短時(shí)間范圍內(nèi)發(fā)生的變點(diǎn),結(jié)合大窗寬可對(duì)發(fā)生較小變化的變點(diǎn)進(jìn)行更準(zhǔn)確的識(shí)別。其次,在無均值變化的零假設(shè)情況下,探究存在其它分布參數(shù)變化對(duì)MFT方法是否具有魯棒性。
最后,為驗(yàn)證該方法的有效性和實(shí)效性,論文模擬仿真MFT方法對(duì)均值變化的靈敏性以及它對(duì)其它參數(shù)變化的魯棒性,并最后通過實(shí)證分析驗(yàn)證方法的實(shí)效性。
設(shè)X=(Xi)i=1,2…為i.i.d.的隨機(jī)變量序列,無均值變點(diǎn)的零假設(shè)為μ:=E[X1]。給定具有分段均值平穩(wěn)組合的模型M,假設(shè)觀測(cè)值時(shí)刻點(diǎn)為1,2,…,3,T,T∈/{0,1}。這里假定存在變點(diǎn)集合C?{2,3,…,T},其元素c1 X1,[1],…,Xc1-1,[1],Xc1,[2],…,Xc2-1,[2],…,Xck-1,[k+1],XT,[k+1] 即在每一個(gè)變點(diǎn)cj后,都將伴隨一個(gè)新均值μ[j+1]的過程X[j+1],具體過程見圖1。 從圖1中可看出,圖1(a)為無均值變點(diǎn)的隨機(jī)變量時(shí)間序列,Xi~N(0,1),T=2 000;圖1(b)為存在有三個(gè)均值變點(diǎn)時(shí)間序列X∈M,其變點(diǎn)c1=500(此處均值變化較小),而變點(diǎn)c2=1 200和c3=1 290(此處均值變化迅速且變化較大),Xi~N(μ,1),均值為μ[1]=0,μ[2]=0.3,μ[1]=2.2,μ[4]=1.4,T=2 000。當(dāng)序列均值恒定時(shí),則需要檢驗(yàn)無變點(diǎn)的零假設(shè),即使得C=Φ(如圖1(a))。在備擇假設(shè)下,則要估計(jì)集合C(如圖1(b)中的三個(gè)變點(diǎn))。注意,為了簡(jiǎn)單起見,假設(shè)隨機(jī)變量是i.i.d.的,后續(xù)提出的檢測(cè)方法可對(duì)這個(gè)假設(shè)條件放寬[1]。為此,基于模型構(gòu)造一種均值變點(diǎn)檢測(cè)方法。 (a)均值無變化序列 (b)均值有變化序列圖1 零假設(shè)和備擇假設(shè)下的時(shí)間序列圖 首先考慮無均值變點(diǎn)情形,下面構(gòu)造零假設(shè)C=Φ的MFT。這是一個(gè)漸近方法,在模型M中,讓時(shí)間和變點(diǎn)在參數(shù)n中呈線性增長(zhǎng)。即在以下漸近情況下,從參數(shù)T,c1,c2,…,ck和窗寬h下引入?yún)?shù)nT,nc1,…,nck和nh,n∈。這里,讓X∈M,MFT是基于多個(gè)MOSUM統(tǒng)計(jì)量,它們比較了相鄰窗口觀測(cè)值的經(jīng)驗(yàn)平均值。首先考慮一個(gè)窗寬h∈{1,2,…,T/2}的情形,時(shí)間范圍t取[h,T-h],其中·為下取整函數(shù)。故對(duì)于所有的t∈[h,T-h],構(gòu)建統(tǒng)計(jì)量: (1) (2) (3) 注意,這里L(fēng)是一個(gè)高斯過程,均值為零,方差為1,因此在零假設(shè)下D(n)通常在0附近波動(dòng)。由命題1的收斂性可推導(dǎo)出兩個(gè)較好的結(jié)果。首先,由于極大值運(yùn)算符的連續(xù)性,確保了極大值的收斂性,即有: (4) MFT的進(jìn)一步解釋:式(5)~式(8)中再次描述了MFT。首先,在零假設(shè)下,基于觀測(cè)值X,隨機(jī)游走S(n)弱收斂為標(biāo)準(zhǔn)布朗運(yùn)動(dòng)W。給定窗寬h∈H,過程D(n)收斂到L。收斂關(guān)鍵的一點(diǎn),在經(jīng)驗(yàn)(左)側(cè),所有函數(shù)都是基于單個(gè)過程X的,而在極限(右)側(cè),所有函數(shù)都是基于布朗運(yùn)動(dòng)W求值,又由式(5)~(8)中所有映射都是連續(xù)的,從而保證了收斂性。因此,對(duì)于拒絕域值Q的確定,可以間接模擬布朗運(yùn)動(dòng)W得到,并求出每次模擬所有函數(shù){(|Lh,t|)t∈[h,T-h]|h∈H}的最大值。最后將不同窗寬大小下的D(n)的最大值作為檢驗(yàn)統(tǒng)計(jì)量,從而避免了原假設(shè)檢驗(yàn)中的多重檢驗(yàn)。 (5) (6) (7) (8) (a)單窗寬 在實(shí)踐中,當(dāng)n=1,但T很大,這種方法很適用,雖然是基于漸近結(jié)果,但只需要選擇足夠大的最小窗寬即可。例如,對(duì)于正態(tài)分布隨機(jī)變量,對(duì)于h(取約30)值,可以認(rèn)為逐點(diǎn)分布足夠接近正態(tài)分布,也類似于t分布。 這里考慮存在均值變點(diǎn)的備擇假設(shè)。在圖3中,圖3(a)和圖3(b)展示了數(shù)據(jù)分布及均值分布,圖3(c)和圖3(d)展示了過程D(1)在三種不同的窗寬大小下的值分布。由于全局最大值M小于拒絕閾值Q(圖3(c)),從而MFT接受零假設(shè),故表明無均值變點(diǎn)。然而,如果零假設(shè)被拒絕(圖3(d)),則目標(biāo)是估計(jì)C。為此,本文采用了一種啟發(fā)式算法,稱為多過濾器算法(MFA),最初提出該方法思想的是Messer等人對(duì)時(shí)間序列中的變點(diǎn)分析[17]。針對(duì)圖3(b)序列中的變點(diǎn),MFA檢測(cè)方法具體如下。 (a)無均值變點(diǎn)序列 (b)有均值變點(diǎn)序列 (c)無均值變點(diǎn)序列變點(diǎn)檢測(cè) (d)有均值變點(diǎn)序列變點(diǎn)檢測(cè)圖3 MFA算法變點(diǎn)檢測(cè)結(jié)果圖 圖3說明了MFT方法同時(shí)使用多個(gè)MOSUM過程的優(yōu)勢(shì)所在:較小的窗寬對(duì)快速變化的均值變點(diǎn)較靈敏,而較大的窗寬在均值變化較小時(shí)較靈敏。這里可看出,MFA并不代表統(tǒng)計(jì)經(jīng)驗(yàn),而是一種算法,可以在拒絕零假設(shè)后用于估計(jì)變點(diǎn)。同時(shí),該算法利用多個(gè)窗寬的實(shí)質(zhì)是變點(diǎn)估計(jì)的影響只是局部的,即給定的變點(diǎn)過程D(n)的影響只在h-鄰域內(nèi),這是因?yàn)檫^程D(n)構(gòu)成只依賴于2h,與實(shí)際數(shù)據(jù)的分布無關(guān)。 X1,[1],…,Xnc-1,[1],Xnc,[2],…,XnT,[2] (9) (10) 命題2 給定X∈M,對(duì)于C={nc},c∈[h,T-h]和μ[1]=μ[2](無均值變化)。在(D[h,T-h],dSK)上,當(dāng)n→,有: (a)L值和值分布 (b)滯后項(xiàng)分布圖4 L值和值對(duì)比圖 在本節(jié)中,為驗(yàn)證MFT方法對(duì)其它參數(shù)變化的魯棒性以及對(duì)均值變點(diǎn)的靈敏性性能,模擬分為兩部分,第一部分對(duì)均值變點(diǎn)檢測(cè)的靈敏性和對(duì)均值外的參數(shù)變化的魯棒性模擬探究,第二部分對(duì)其方法的優(yōu)勢(shì)性進(jìn)行模擬分析。 首先,對(duì)模型均值外其它參數(shù)變化的魯棒性分析,這里模擬設(shè)計(jì)存在不同時(shí)間尺度上的三個(gè)均值變點(diǎn)(c1,c3,c4)與一個(gè)方差變點(diǎn)(c2)的隨機(jī)變量序列,見圖5(a)。其中均值變點(diǎn)c1的變化很小,而均值變點(diǎn)(c3,c4)彼此距離較近且變化相對(duì)較大。由于分布假設(shè)具有一般性,選用正態(tài)分布和伽瑪分布的隨機(jī)變量作為測(cè)試數(shù)據(jù),應(yīng)用MFA算法進(jìn)行統(tǒng)計(jì)檢驗(yàn)變點(diǎn),取顯著性水平為5%。兩分布序列1 000次模擬中檢測(cè)到的變點(diǎn)數(shù)量直方圖分布,見圖5(b)和圖5 (c)。 (a)序列均值和方差分布 (b)正態(tài)分布序列變點(diǎn)檢測(cè)結(jié)果 (c)伽瑪分布序列變點(diǎn)檢測(cè)結(jié)果圖5 變點(diǎn)檢測(cè)頻率直方圖 表1 MFT方法變點(diǎn)檢測(cè)結(jié)果 表2 Merge MOSUM(bandwidth)方法變點(diǎn)檢測(cè)結(jié)果 表3 WBS方法變點(diǎn)檢測(cè)結(jié)果 最后,通過模擬1實(shí)驗(yàn)分析,表明了MFT檢測(cè)方法對(duì)均值外的其它參數(shù)具有較強(qiáng)的魯棒性;針對(duì)模擬2,從表1與表2和表3的檢測(cè)結(jié)果對(duì)比可以看出,在前兩組數(shù)據(jù)檢測(cè)結(jié)果中,MFT檢測(cè)方法的正確率都高達(dá)90%以上,相比較Eichinger等人論文中的方法在準(zhǔn)確度和精度方面的優(yōu)勢(shì)很明顯,在第三組數(shù)據(jù)的檢測(cè)結(jié)果中,MFT方法較Eichinger等人論文中的方法在準(zhǔn)確度方面結(jié)果略差,相對(duì)精度方面MFT方法較優(yōu)??傮w而言,在方法的對(duì)比上MFT占據(jù)一定優(yōu)勢(shì),也說明了方法對(duì)于均值變點(diǎn)檢測(cè)具有良好的靈敏性。 為驗(yàn)證MFT方法的實(shí)用性,將使用該方法與WBS方法和“Merge MOSUM(bandwidth)”方法作實(shí)例對(duì)比分析。數(shù)據(jù)選取美國IBM(國際商業(yè)機(jī)器公司,International Business Machines Corporation)于1962年1月29日至2019年8月9日的周數(shù)據(jù)(數(shù)據(jù)來源:https://finance.yahoo.com/),其數(shù)據(jù)包含開盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)、成交量和復(fù)權(quán)收盤價(jià)共6種數(shù)量。為分析IBM公司股票的變動(dòng)情況,選取股票收盤價(jià)作為研究對(duì)象,共3 003條數(shù)據(jù),數(shù)據(jù)分布見圖6 (a)。 (a)wbs方法變點(diǎn)檢測(cè)結(jié)果 (b)MFT方法變點(diǎn)檢測(cè)結(jié)果 (c)Merge MOSUM方法變點(diǎn)檢測(cè)結(jié)果圖6 股票收盤價(jià)變點(diǎn)檢測(cè)對(duì)比圖 圖6展示了IBM公司股票收盤價(jià)在三種方法下的變點(diǎn)檢測(cè)結(jié)果,這里MFT方法和“Merge MOSUM”方法基于數(shù)據(jù)量,取相同窗寬H=250,280,300。由檢測(cè)結(jié)果統(tǒng)計(jì)得到:wbs方法共檢測(cè)到4個(gè)變點(diǎn),見圖6(a)。時(shí)間點(diǎn)對(duì)應(yīng)于1982年12月27日、1998年7月27日、2004年4月16日、2010年10月11日;MFT方法共檢測(cè)到5個(gè)變點(diǎn),時(shí)間點(diǎn)對(duì)應(yīng)于1973年11月19日、1983年1月3日、1991年4月8日、1998年7月27日、2010年10月11日,見圖6(b);“Merge MOSUM”方法共檢測(cè)到6個(gè)變點(diǎn),時(shí)間點(diǎn)對(duì)應(yīng)于1973年11月19日、1983年1月3日、1991年4月1日、1998年7月20日、2002年11月18日、2010年10月18日,見圖6 (c)。為便于分析,后續(xù)將以上三種方法分別記為法1、法2、法3。 根據(jù)圖6結(jié)果,除了法3中檢測(cè)到的第五個(gè)變點(diǎn)(2002年11月18日)外,法2(5個(gè)變點(diǎn))和法3(6個(gè)變點(diǎn))的檢測(cè)結(jié)果極為相似,相似的5個(gè)變點(diǎn)在法2和法3中基本在同一時(shí)期被檢測(cè)到,進(jìn)一步看出這5個(gè)變點(diǎn)中存在3個(gè)變點(diǎn)也同時(shí)被法1檢測(cè)到,由此分析IBM公司股票數(shù)據(jù)在這5個(gè)時(shí)期點(diǎn)可能存在波動(dòng)。經(jīng)查閱資料,變點(diǎn)1:可能由于20世紀(jì)60年代后期,美國政府巨額的財(cái)政赤字,通貨膨脹、石油價(jià)格上漲、國際收支成為美國經(jīng)濟(jì)的重要問題,最終導(dǎo)致1971年戰(zhàn)后的布雷頓森林體系的崩潰、美元貶值和1973年的第一次石油危機(jī)。變點(diǎn)2:可能由于當(dāng)前世界經(jīng)濟(jì)危機(jī)從1979年開始,經(jīng)歷了1980年和1981年連續(xù)兩次的下降之后,政府出臺(tái)了相關(guān)的應(yīng)對(duì)政策,直到1983年第一季度才開始出現(xiàn)經(jīng)濟(jì)回升的跡象,但是并不顯著。變點(diǎn)3:可能由于美國經(jīng)濟(jì)在經(jīng)歷了1990年的危機(jī)和1991年蘇聯(lián)解體后,于1991年3月達(dá)到谷底,同年4月開始出現(xiàn)回升,此后持續(xù)了“自1854年有統(tǒng)計(jì)以來時(shí)間最長(zhǎng)的一次”景氣擴(kuò)張。變點(diǎn)4:可能由于自1994年4月到1998年7月美國經(jīng)濟(jì)持續(xù)增長(zhǎng)了84個(gè)月,失業(yè)率(4.5%)為20世紀(jì)70年代末的最低水平,而之后由于美國受亞洲金融危機(jī)和國內(nèi)消費(fèi)不振的影響(互聯(lián)網(wǎng)泡沫事件),導(dǎo)致經(jīng)濟(jì)增長(zhǎng)有所放慢。變點(diǎn)5:可能由于2009年第二季度以來,美國金融市場(chǎng)狀況有所改善,實(shí)體經(jīng)濟(jì)也出現(xiàn)積極變化,第二季度經(jīng)濟(jì)降幅明顯收窄,第三季度出現(xiàn)了連續(xù)四個(gè)季度下滑的首次增長(zhǎng),美國經(jīng)濟(jì)開始步入復(fù)蘇階段。針對(duì)法3中出現(xiàn)的變點(diǎn)5(2002年11月18日)和法1中出現(xiàn)的變點(diǎn)3(2004年4月16日),這兩個(gè)變點(diǎn)有且只能被其中一種方法檢測(cè)到,而另外兩種方法均未檢測(cè)到,由此推測(cè)兩變點(diǎn)對(duì)應(yīng)的時(shí)期點(diǎn)可能并沒有發(fā)生變化。經(jīng)查閱資料顯示,在這兩個(gè)時(shí)期美國經(jīng)濟(jì)保持相對(duì)穩(wěn)定,并無較大的金融事件發(fā)生。 基于以上三種方法對(duì)比分析得出,在MFT方法檢測(cè)的變點(diǎn)集中,對(duì)應(yīng)時(shí)期點(diǎn)的經(jīng)濟(jì)狀態(tài)都發(fā)生了變化,而在wbs方法和“Merge MOSUM”方法的檢測(cè)結(jié)果中,出現(xiàn)了未識(shí)別變點(diǎn)和誤檢的情況。相比較三種方法而言,MFT方法更具實(shí)效性。 在時(shí)間序列中存在多個(gè)時(shí)間尺度的均值變點(diǎn)情況下,本文提出的MFT檢測(cè)方法有三個(gè)顯著的優(yōu)勢(shì)。首先,它允許模型具有一般分布假設(shè),只需假設(shè)隨機(jī)變量為i.i.d.的分段序列,也可對(duì)同分布或獨(dú)立性條件進(jìn)行放寬。其次,MFT使用了一個(gè)MOSUM型統(tǒng)計(jì)量和漸近情形,其中MOSUM過程弱收斂到一個(gè)標(biāo)準(zhǔn)布朗運(yùn)動(dòng)的函數(shù),這種方法可同時(shí)應(yīng)用多個(gè)MOSUM過程,改進(jìn)了單一MOSUM過程對(duì)不同時(shí)間尺度上的變點(diǎn)檢測(cè)的缺點(diǎn)。最后,MFT方法對(duì)模型外參數(shù)的變化具有較強(qiáng)的魯棒性,如方差或高階矩。 MFT方法建模簡(jiǎn)單且檢測(cè)效果優(yōu)良,對(duì)管理部門決策者制定相關(guān)戰(zhàn)略及防范措施具有一定的實(shí)際意義。三、檢測(cè)方法探究
(一)多重過濾測(cè)試(MFT)
(二)多重濾波算法(MFA)
四、參數(shù)變化魯棒性評(píng)估
五、模擬與實(shí)證分析
(一)模擬
(二)實(shí)證分析
六、結(jié)束語