王 珊,趙文芝
(西安工程大學 理學院,陜西 西安 710048)
變點是質量控制、信號處理、地震預測和神經醫(yī)學等各個領域的普遍現(xiàn)象。統(tǒng)計學文獻中包含大量與結構變化有關的變點問題,其中大部分是為單一變化而設計的[1-3]。然而,許多真實數據卻很少出現(xiàn)單一變點,比如經濟、金融和生物學數據通常會發(fā)生多次變化[4-6]。線性回歸模型是統(tǒng)計數據分析的重要模型之一,在實際問題中應用廣泛[7],因此,研究存在多個變點的線性回歸模型具有現(xiàn)實意義[8-9]。
回歸模型的隨機誤差項有時會呈現(xiàn)尖峰厚尾的統(tǒng)計特征,在能源期貨波動率[10]、細菌繁殖[11]及浮游植物的運動模式[12]等許多自然現(xiàn)象中,厚尾分布已引起人們的廣泛關注。LAD準則只考慮偏離的一次方,受異常值影響較小[13-14],因此更適合處理厚尾數據。大數據時代,高維復雜情形往往蘊含在實際問題中,例如風電預測、視頻圖像處理等。對高維數據特征進行篩選、剔除冗余特征是解決維數災難問題的主要途徑[15]。LASSO[16-17]是一種新的數據降維方法,它保持了子集收縮和嶺回歸的良好特征,從而能在參數估計的同時實現(xiàn)變量選擇[18]。HARCHAOUI等提出了基于LASSO的多變點估計方法[19];LI等用自適應LAD-LASSO方法研究均值多變點估計問題[20]。不過,現(xiàn)有文獻對多變點估計問題的研究方法存在所適用的模型不具備普適性或者缺乏穩(wěn)健性等不足之處,如何克服這些缺點是值得考慮的問題。
本文將LAD-LASSO方法應用到一般的線性回歸模型多變點估計問題中。該方法能同時對回歸系數、變點的個數及位置進行估計,且對于厚尾數據具有良好的穩(wěn)健性。采用Hausdoff距離度量變點估計值集合與變點真實值集合之間的距離,以此評價多變點估計的效果。最后用該方法估計上海機場股票收益率數據的方差變點,進一步驗證LAD-LASSO方法對實際問題的可行性。
考慮多變點線性回歸模型[18]
(1)
其中
目標是通過已知的n對觀測數據(xt,Yt),t=1,2,…,n估計模型(1)中的系數列向量βt,t=1,2,…,n,以及真實變點位置T*、變點個數K*。
令Y=(Y1,Y2,…,Yn)T,E=(ε1,ε2,…,εn)T, 并且
定義[18]
(2)
(3)
問題(1)可表示為如下優(yōu)化問題:
(4)
其中I{·}是示性函數。當βt+1=βt時,其值為0;反之其值為1。
使用文獻[20]中的方法將式(4)中的約束條件進行放松:
(5)
式中:‖·‖1表示l1范數;
通過式(3)將問題(5)重新表示為
(6)
這等價于求解優(yōu)化問題
(7)
(8)
這樣一來,問題(1)轉化成了LAD-LASSO變量選擇問題,其中λ是調節(jié)參數。λ的選取采用BIC方法[20](式中簡記為BBIC),即
BBIC=nln(RSA/n)+dfln(n)/2
(9)
其中ej為第j個分量為1,其余分量為0的pn×1維列向量。這樣,式(8)可以重新表示為
(10)
(11)
考慮方差多變點模型[21]
Yt=σtet,t=1,2,…,n
(12)
式中:σt為與時間有關的常數;{et,t=1,2,…,n}是i.i.d.隨機變量序列,均值為0,方差為σ2。
式(12)右端可寫成σt+σt(et-1)。令
σt=βt,σt(et-1)=εt,xt=1,
式(12)可轉化為
Yt=βtxt+εt,t=1,2,…,n
(13)
即將模型(12)轉化為多變點線性回歸模型,進而可采用LAD-LASSO方法進行變點估計。
對于多變點估計問題,本文用Hausdorff距離dH[22]評價多變點估計的效果。定義A,B分別代表變點估計值集合以及變點真實值集合,‖·‖表示歐式范數,則
(14)
Hausdorff距離dH越小,多變點估計效果越好[23]。
用隨機模擬方法驗證LAD-LASSO估計方法的有效性,并與傳統(tǒng)的LASSO方法相對比。
數據生成過程如下:
Yt=βtxt+εt,t=1,2,…,n
(15)
其中,
(a) 正態(tài)噪聲下的觀測樣本 (b) 指數噪聲下的觀測樣本 (c) t分布噪聲下的觀測樣本
由圖1(a)、(b)可知,當噪聲服從正態(tài)分布和輕尾分布,即指數分布時,變點的發(fā)生用肉眼還可分辨;但在噪聲服從厚尾分布,即t分布時,圖1(c)中的變點用肉眼已經很難分辨,因此需要通過統(tǒng)計方法進行多變點估計。
用LAD-LASSO方法對以上生成的模擬數據進行多變點估計,并與傳統(tǒng)的LASSO方法比較,變點估計結果見表1。
表1 不同分布下的LAD-LASSO估計及LASSO估計
由表1可知:LAD-LASSO的Hausdorff距離均小于LASSO的Hausdorff距離; 無論噪聲服從輕尾還是厚尾分布,LAD-LASSO方法均優(yōu)于LASSO方法。特別地,從變點估計的位置和數量上來看,當噪聲服從厚尾分布,即t(3)分布時,LAD-LASSO方法的優(yōu)勢更加突出。
進一步直觀地用散點圖將LAD-LASSO變點估計與LASSO變點估計相對比,結果如圖2所示。圖2(a)、(b)、(c)是LAD-LASSO方法在3種噪聲下的估計,(d)、(e)、(f)是LASSO方法進行變點估計的結果。可見,LAD-LASSO方法能比較準確地估計出真實變點位置,而LASSO方法無法估計出真實變點位置,而且估計結果不夠準確。
(a) 正態(tài)噪聲下LAD-LASSO估計 (b) 指數噪聲下LAD-LASSO估計 (c) t分布噪聲下LAD-LASSO估計
選取2013年1月到2017年3月上海機場股票(600009)收益率數據(數據來源:http://quotes.money.163.com/trade/lsjysj_600009.html)進行LAD-LASSO方差變點估計,驗證該方法的有效性,結果如圖3所示。
(a) 收盤價時序圖 (b) 收益率時序圖 (c) LAD-LASSO變點估計
由圖3(c)可知,上海機場股票的收益率數據共有5次聚集性波動,認為該數據變點個數為5,變點估計結果見表2。2013年公司整體運營平穩(wěn),處于低速增長期;2014年是全面貫徹落實十八屆三中全會精神的開局之年,機場運行業(yè)務量實現(xiàn)穩(wěn)步增長;2015年民航業(yè)保持較快發(fā)展速度,上海機場出現(xiàn)了強勁的客流量增長,這是由于我國“十三五”規(guī)劃對民航經濟帶來的積極影響。
表2 收益率數據變點估計結果
本文研究了線性回歸模型多變點的LAD-LASSO估計方法。隨機模擬結果表明:在序列誤差服從不同分布的情況下,LAD-LASSO方法得到的Hausdorff距離小于LASSO方法得到的Hausdorff距離;在序列帶t分布噪聲影響下, LAD-LASSO估計結果表現(xiàn)更佳,該方法估計的變點位置在準確度上優(yōu)于LASSO,而且對于厚尾數據能較好地估計變點位置,具有良好的穩(wěn)健性。均值多變點、方差多變點模型均可作為線性回歸模型的特例使用LAD-LASSO方法進行變點估計。實例分析結果表明,LAD-LASSO方法可用于處理實際問題。