王繼梅,胡 堯,b
(貴州大學(xué)a.數(shù)學(xué)與統(tǒng)計學(xué)院;b.公共大數(shù)據(jù)國家重點實驗室,貴陽 550025)
回歸模型是金融學(xué)、生物學(xué)、物理學(xué)等許多領(lǐng)域流行的數(shù)據(jù)分析工具。由于各研究領(lǐng)域的特性,模型中的一些參數(shù)可能會隨著時間的推移而改變,因此時不變模型并不總是適用于整個數(shù)據(jù)集。一個好的模型應(yīng)該具有解釋整個數(shù)據(jù)集的靈活性,為了解決這個問題,可使用變點檢測方法識別觀測序列的參數(shù)變點,從而分割樣本,再分別對每個子樣本進行建模。關(guān)于單變點問題,目前已有一系列成熟的研究成果[1—3]。而多變點問題較為復(fù)雜,需要同時識別變點的個數(shù)和對應(yīng)的位置。
Brown 等(1975)[4]提出基于遞歸殘差的CUSUM(Cumulative Sum)檢驗,用于識別回歸參數(shù)的不穩(wěn)定性。Ploberger 和Kr?mer(1992)[5]提出基于OLS(Ordinary Least Squares)殘差的CUSUM 檢驗,并將其與Brown 等(1975)[4]的方法在局部功效方面進行了對比。Deng 和Perron(2008)[6]研究了上述兩種CUSUM 檢驗的非局部功效性質(zhì)。Bai 和Perron(2003)[7]基于動態(tài)規(guī)劃原則下的最小化殘差平方和算法,提出循序檢驗法用于估計具有多個參數(shù)變點的線性模型。Chen和Nkurunziza(2017)[8]研究了變點數(shù)已知情形下的多變點問題。Jiang 和Kurozumi(2019)[9]提出基于最小二乘估計殘差和遞歸殘差的兩個多元CUSUM統(tǒng)計量,但基于遞歸殘差的統(tǒng)計量在備擇假設(shè)下的功效較低。楊超等(2020)[10]提出合并帶寬MOSUM(Moving Sum)檢測方法。胡丹青和趙為華(2022)[11]基于貝葉斯后驗推理及遺傳算法研究了線性回歸模型多結(jié)構(gòu)變點(即參數(shù)變點)的變點檢測方法。此外,許多變點檢測方法的應(yīng)用離不開有效的算法,如二元分割(Binary Segmentation,BS)[12]、隔離檢測(Isolate-Detect,ID)[13]等。ID 算法變點檢測的準(zhǔn)確度較高,可將其拓展至多元回歸模型的變點檢測。
在變點分析領(lǐng)域,目前多數(shù)文獻針對檢驗統(tǒng)計量的方法,尤其是在變點理論中廣泛應(yīng)用的CUSUM 統(tǒng)計量的基礎(chǔ)上做了許多擴展和改進,但現(xiàn)有研究仍存在功效低、計算迭代時間成本高、小樣本數(shù)據(jù)準(zhǔn)確度低等不足。鑒于此,本文提出基于逆向累積遞歸殘差和隔離檢測技術(shù)的多元CUSUM檢驗方法,得到適用范圍更廣泛、檢測效果更好的MCPDP(Multiple Change Points Detection of Paramter)變點檢測算法。
基于參數(shù)設(shè)置,考慮如下線性回歸模型:
其中,yt是響應(yīng)變量,協(xié)變量xt=(xt1,xt2,…,xtk)′為k維列向量,回歸系數(shù)βt是依賴于時間t的k維列向量,εt為不可觀測的隨機誤差項。若式(1)中包含一個常數(shù)項,則對于任意的t,有xt1=1。
考慮如下假設(shè)檢驗問題:
其中,β是一個固定的k維列向量,g:R →Rk為有界的分段常值函數(shù)。若備擇假設(shè)H1成立,則說明參數(shù)向量βt發(fā)生了變化,需對模型中存在的參數(shù)變點進行估計。
為了研究檢驗統(tǒng)計量的漸近性質(zhì),作以下假設(shè)。
假設(shè)1:
基于遞歸殘差的一元CUSUM檢驗統(tǒng)計量已經(jīng)有了一些研究成果,其中,Sen(1982)[14]證明了在原假設(shè)下該統(tǒng)計量弱收斂于標(biāo)準(zhǔn)布朗運動;Ploberger 和Kr?mer(1990)[15]推導(dǎo)出在備擇假設(shè)下該統(tǒng)計量弱收斂于標(biāo)準(zhǔn)布朗運動加上協(xié)變量均值與結(jié)構(gòu)突變的交互項,這說明一元CUSUM 檢驗的功效取決于協(xié)變量均值與參數(shù)變化方向的夾角,當(dāng)二者正交時,將沒有功效。為了克服這個困難,使用協(xié)變量與遞歸殘差的乘積代替遞歸殘差,考慮多元CUSUM檢驗,其檢驗統(tǒng)計量定義為:
在假設(shè)1下,多元序列xtεt滿足多元泛函中心極限定理[16],類似地,也適用于基于遞歸殘差的多元CUSUM過程。
定理1:設(shè)假設(shè)1和假設(shè)2成立。
(1)若原假設(shè)成立,則當(dāng)n→∞時,有:
其中,?表示弱收斂,B(k)(r)是一個k維的標(biāo)準(zhǔn)布朗運動。
(2)若備擇假設(shè)成立,則當(dāng)n→∞時,有:
假設(shè)3:邊界函數(shù)的形式為b(r)=λαd(r),且d(r) 連續(xù),存在ε>0,使得對任意的r≥0 有d(r)>ε。
根據(jù)定理1、假設(shè)3和連續(xù)映射定理,可得:
若原假設(shè)成立,則當(dāng)n→∞時,有:
若備擇假設(shè)成立,則當(dāng)n→∞時,有:
事實上,若僅關(guān)注特定的系數(shù)是否存在變點,則部分檢驗會有更好的檢測效果。此時,H0:H′βt=H′β,其中,H是一個k×l的列滿秩矩陣。考慮如下的部分CUSUM過程:
若原假設(shè)成立,且滿足假設(shè)1 和假設(shè)2,則當(dāng)n→∞時,有。因此,多元正向CUSUM 檢驗與下文的BCUSUM 檢驗可以基于改進的構(gòu)造適用于部分檢驗的檢驗統(tǒng)計量。
盡管多元CUSUM檢驗可以解決協(xié)變量均值與結(jié)構(gòu)突變正交時一元CUSUM 沒有功效的問題,但該檢驗在備擇假設(shè)下的功效并不好,其原因是變點產(chǎn)生之前的遞歸殘差期望為0,變點產(chǎn)生之后其期望不為0,于是變點之前的遞歸殘差不含有用信息,這些殘差過程將表現(xiàn)為純隨機游走過程,此種累積方式會增加噪聲,從而使得變點檢測效果較差。因此,為了提高功效,改善變點估計性能,可通過逆向累積遞歸殘差構(gòu)造檢測器,即BCUSUM,其定義如下:
若||BQt,n||在t=1,…,n中至少有一次大于邊界函數(shù)bt=λαd((n-t+1)/n),則拒絕原假設(shè),相應(yīng)的最大統(tǒng)計量為:
根據(jù)定理1、假設(shè)3和連續(xù)映射定理,可得:
若原假設(shè)成立,則當(dāng)n→∞時,有:
若備擇假設(shè)成立,則當(dāng)n→∞時,有:
接下來,根據(jù)式(4)和式(7)研究CUSUM 和BCUSUM檢驗在備擇假設(shè)下的漸近功效性質(zhì)??紤]一個簡單的情形,βt=β+n-1/2g(t/n),其中,g(r)=cI(r≥τ*),c∈Rk,τ*表示變點位置,I(·)是示性函數(shù)。由h(r)的表達式可知:
圖1給出了CUSUM和BCUSUM檢驗在k=1時的漸近功效曲線。模擬實驗重復(fù)次數(shù)設(shè)為100000 次,由下文可知,兩種檢測方法的檢驗水平是不同的,故使用調(diào)整檢驗水平為5%的臨界值,研究備擇假設(shè)下檢測方法的漸近功效。圖1(a)至圖1(e)表明,除了變點發(fā)生時刻特別靠前之外,BCUSUM的檢驗功效都比CUSUM檢驗功效高,且變點位置越靠后,其優(yōu)勢越明顯。此外,從圖1(f)中可以看出,對于固定的,若變點τ*位于樣本量的320 之后,則BCUSUM檢驗比CUSUM檢驗有更好的變點估計性能。
圖1 漸近功效曲線
在基于BCUSUM檢驗識別出模型存在結(jié)構(gòu)突變后,需要確定變點的具體位置。對于βt=β+δI(r≥τ*)(δ≠0)的單變點模型,可采用極大似然估計量,然而,當(dāng)變點位置靠后時,會出現(xiàn)較大的估計誤差。為了解決這個問題,可通過逆向累積遞歸殘差構(gòu)造估計相對變點位置的統(tǒng)計量。||BQ[rn],n|| 漸近正比于||h(1)-h(r)||,當(dāng)0 <r<τ*時,||h(1)-h(r)||為常值;當(dāng)τ*≤r≤1時,||h(1)-h(r)||為單調(diào)減函數(shù)。若利用||BQ[rn],n||的漸近標(biāo)準(zhǔn)差對其進行縮放,則該檢測器將漸近正比于將正比于式(9)(根據(jù)式(8)可得)。
式(9)在r=τ*處取得最大值。因此,考慮:
定理2:令βt=β+δI(t/n≥τ*),δ≠0,且滿足假設(shè)1,則對于τ*∈(0,1],當(dāng)n→∞時,有。
根據(jù)h(r)的表達式、定理1 及連續(xù)映射定理可得,定理2表明變點估計量是τ*的相合估計。
BCUSUM檢驗是針對單變點情形展開的,然而多變點問題是統(tǒng)計應(yīng)用中常見的問題,為了使上述變點檢測方法適用于此類問題,可結(jié)合隔離檢測技術(shù)來估計變點個數(shù)及位置。該技術(shù)能避免包含多個變點的區(qū)間、允許在可能很小幅度的頻繁變化的情況下進行檢測,以及計算復(fù)雜度較低,從而提高變點檢測的準(zhǔn)確性和降低其計算成本。鑒于該技術(shù)的諸多優(yōu)勢,本文將其拓展到回歸模型的參數(shù)變點檢測,提出MCPDP算法。MCPDP是按照一定的步長以左右交換的形式向中間擴展檢測區(qū)間,判斷是否有變點的一個過程。假設(shè)模型存在N個參數(shù)變點,對每一個變點τj(j=1,…,N),MCPDP 可分為2 個階段:階段1 是將τj隔離在一個區(qū)間,使得該區(qū)間不再包含其他變點;階段2 是利用式(5)中的檢測變點τj。其基本思想可概括如下:
針對回歸模型的多參數(shù)變點檢測問題,本文提出的MCPDP 算法是基于快速、準(zhǔn)確的隔離檢測技術(shù)且在變點發(fā)生時刻靠后時檢測也高效的BCUSUM檢驗。在給定δn、λα和(s,e]的情況下,MCPDP算法的步驟如下頁表1所示。
表1 MCPDP算法步驟
本文通過數(shù)值模擬討論BCUSUM 檢驗的有限樣本性質(zhì),主要分析不同變點位置和樣本量對檢驗水平與功效的影響,以及使用一系列的評價準(zhǔn)則來說明MCPDP 算法的優(yōu)良性。數(shù)據(jù)由兩種情形下的模型產(chǎn)生:
情形1:yt=1+utzt+εt,t=1,…,n。
情形2:yt=ut+0.5yt-1+εt,t=1,…,n。
其中,ut=0.9I(t/n≥τ*),zt=(1+0.5L)et,L是滯后算子,et與εt獨立且服從于標(biāo)準(zhǔn)正態(tài)分布。情形1和情形2分別對應(yīng)整體和部分結(jié)構(gòu)突變檢驗,其中,H=(1,0)′。
設(shè)樣本量n=120,500,2000,9000,顯著性水平取α=0.05,對于不同情形、方法和樣本量取值的每種組合,模擬實驗重復(fù)次數(shù)設(shè)為10000次。表2給出了原假設(shè)下檢驗水平的結(jié)果,其中,sup W表示的是Andrews(1993)[17]提出的sup-Wald檢驗統(tǒng)計量,調(diào)整參數(shù)為0.15,該方法具有弱最優(yōu)性。從表2 中可以看出,CUSUM、BCUSUM 和sup-Wald的檢驗水平均接近于顯著性水平0.05,部分存在一些扭曲。在不同情形下,無論樣本量多大,相比于CUSUM和sup-Wald,BCUSUM都較好地控制了檢驗水平。
表2 檢驗水平
設(shè)變點相對位置τ*=0.1,0.3,0.5,0.7,0.9,對n與τ*取值的每個組合,設(shè)置模擬次數(shù)為10000 次。表3 給出了備擇假設(shè)下功效的結(jié)果。從表3中可以看出,除了τ*=0.1之外,BCUSUM檢驗相比CUSUM檢驗都有更好的性能,尤其是在樣本量較小時;sup-Wald檢驗具備弱最優(yōu)性,盡管CUSUM 檢驗的功效比sup-Wald 檢驗的功效低得多,但是BCUSUM 的逆序累積結(jié)構(gòu)彌補了CUSUM 的不足,BCUSUM 檢驗與sup-Wald 檢驗有相似的性能,因此BCUSUM檢驗具有較好的功效性質(zhì);在有限樣本中,變點位置對檢驗方法的影響與理論結(jié)果一致;僅從樣本量的角度來比較功效可以發(fā)現(xiàn),樣本量越大,功效越大,最終所有方法的功效都趨近于1。
表3 功效對比
為了說明MCPDP 算法的有效性,將該算法與另外兩種變點檢測算法的變點估計性能進行比較,其中第一種算法是Bai 和Perron(2003)[7]提出的BP 算法,第二種算法是Jiang和Kurozumi(2019)[9]提出的多元正向CUSUM單變點檢驗算法,本文利用ID技術(shù)實現(xiàn)了多變點檢測。為此,設(shè)置模擬數(shù)據(jù)如下。
情形3:yt=ut+εt,t=1,…,n
其中,數(shù)據(jù)長度n=300,500,900,εt~N(0,0.22),變點位置向量τ=([0.278n],[0.452n],[0.486n],[0.6n],[0.618n],[0.666n]),各個區(qū)段均值u依次為-0.18、0.08、1.07、-0.53、0.16、-0.69、-0.16。
針對模擬數(shù)據(jù),為評價變點檢測算法性能,采用Hausdorff距離(dH)、F_score及蘭德指數(shù)(Rand Index)作為綜合評價指標(biāo),dH取值越小或F_score 及Rand Index 取值越大,表明算法性能越好。此外,還比較了不同算法的程序運行時長。每種情形分別進行5000次模擬,評價指標(biāo)均采用均值表示,模擬結(jié)果見下頁圖2。
圖2 算法在情形3下不同數(shù)據(jù)長度的模擬結(jié)果
交通三參數(shù)(流量q、速度v和密度k)表征交通流特性,他們之間的成對關(guān)系通常被稱為交通流理論的基本關(guān)系或基本圖(Fundamental Diagram,F(xiàn)D),在交通建模與交通管理中至關(guān)重要??紤]到道路交通情況復(fù)雜多變,交通數(shù)據(jù)異構(gòu)多源,時空相依性強,原有的工程經(jīng)驗確定性基本關(guān)系模型q=kv有較大的局限性,本文探究交通三參數(shù)的動態(tài)關(guān)系,并將交通條件、交通環(huán)境、車輛、駕駛員、駕駛行為等影響因素作為隨機擾動納入模型中。通過實際交通數(shù)據(jù)識別交通參數(shù)變點,揭示交通流的演變規(guī)律,從而驗證本文方法的有效性。
數(shù)據(jù)來源于貴陽市交通管理局。以貴陽市觀山湖區(qū)長嶺北路與東林寺路交叉口交通流量和交通速度為研究對象,選取2021年3月8日至2021年3月14日一周的交通流量和速度數(shù)據(jù),按采集粒度5min 統(tǒng)計,每天有288 個數(shù)據(jù)量。以2021年3月9日(周二,工作日)和2021年3月13日(周六,非工作日)的交通流量和速度數(shù)據(jù)為例,圖3 展示了這兩日的三維FD。從圖3 中可以看出,隨著時間的變化,交通流量與交通速度的線性關(guān)系是動態(tài)變化的,因此,不再基于歷史數(shù)據(jù)靜態(tài)建模,而是在本文所提模型框架下研究該數(shù)據(jù)的參數(shù)變點,這樣更符合實際情況。
圖3 三維FD
將交通速度作為自變量,交通流量作為因變量,構(gòu)建回歸模型。經(jīng)MCPDP變點檢測算法檢測,2021年3月9日存在三個變點,分別是06:30、07:15和19:35(具體結(jié)果見表3)。根據(jù)實際情況分析,變點產(chǎn)生的原因可能是:06:30與07:15 對應(yīng)的是兩個早高峰時刻,這可能是受到人們早上出行上班、上學(xué)處在不同擁擠時段的影響,交通流波動較大,19:35處于下班、休閑娛樂等活動的晚高峰時期。根據(jù)速度系數(shù)取值,可以發(fā)現(xiàn)都是正值,因為速度系數(shù)對應(yīng)的是交通密度,取值非負,在時段(07:15,19:35]內(nèi)的速度系數(shù)最高為24.8518,即該時段的交通流量相對較高,這與實際相符。表3中的第2行是利用所有數(shù)據(jù)建立交通流量關(guān)于交通速度的回歸模型,擬合優(yōu)度只有0.6628;表3 中的其余行是利用相鄰變點間的數(shù)據(jù)進行線性擬合,擬合優(yōu)度顯著提升,說明帶有變點的模型能更好地捕捉數(shù)據(jù)的動態(tài)變化,對數(shù)據(jù)的刻畫更貼切。
表3 2021年3月9日的變點估計結(jié)果
2021年3月13日存在四個變點,分別是00:45、06:20、07:15和20:55(具體結(jié)果見表4)。其中,00:45可能是由部分工作者在周五下班后進行夜間朋友聚會等休閑娛樂活動造成的,06:20 和07:15 時人們早起活動、購物或出游等造成了新波動;20:55時人們開始夜間的消遣娛樂活動,再次引起交通狀態(tài)的變化。此外,和表3 的結(jié)果相似,經(jīng)變點檢測后,帶有變點的模型的擬合效果更好。
表4 2021年3月13日的變點估計結(jié)果
綜上可知,工作日和非工作日交通參數(shù)的基本關(guān)系存在較大差異,在同一路段的不同時段產(chǎn)生不同的交通流變點,交通管理部門可對工作日和非工作日的交通采取不同的調(diào)控措施。實證結(jié)果說明了本文提出的變點檢測方法可快速且有效地檢測變點數(shù)量及位置,交通數(shù)據(jù)變點檢測結(jié)果所對應(yīng)的時間符合實際交通情況,可以較好地解釋引起交通流波動的原因,這可以為相關(guān)部門提供參考依據(jù)。此外,原有交通參數(shù)的確定性經(jīng)驗關(guān)系不切合道路交通實際分析需求,而建立隨機模型有利于降低后續(xù)FD 等模型的估計和分類偏差。
本文提出了基于遞歸殘差的逆序性質(zhì)和隔離檢測技術(shù)研究回歸模型中多參數(shù)變點的檢測方法。首先,針對協(xié)變量均值與偏移量正交導(dǎo)致?lián)p失功效的問題,探討了多元CUSUM檢驗及其漸近性質(zhì),進一步研究部分檢驗。其次,考慮到正向累積遞歸殘差功效較低,引入修正的檢驗統(tǒng)計量BCUSUM,分析其漸近性質(zhì),進而得到基于BCUSUM 的變點估計量。最后,結(jié)合隔離檢測構(gòu)建MCPDP算法,快速檢測數(shù)據(jù)的變點個數(shù)和位置。模擬研究和實例分析表明,本文所提方法在變點估計性能方面表現(xiàn)較好,為相關(guān)理論研究提供了參考依據(jù)。隨著技術(shù)的發(fā)展,近年來許多領(lǐng)域?qū)υ诰€變點檢測方法的需求急劇上升,因此,如何將該方法擴展為在線變點檢測方法是下一步的研究方向,快速監(jiān)測變點并報警對于減少損失、降低風(fēng)險具有重要意義。