孫曉丹,張鳴鳴
(1.哈爾濱工程大學(xué)經(jīng)濟管理學(xué)院,哈爾濱150001;2.中國社會科學(xué)院研究生院,北京100102)
基于分位點回歸系數(shù)聚類的時間序列分類方法
孫曉丹1,張鳴鳴2
(1.哈爾濱工程大學(xué)經(jīng)濟管理學(xué)院,哈爾濱150001;2.中國社會科學(xué)院研究生院,北京100102)
時間序列曲線分類的目的是為了找到曲線之間相似波動結(jié)構(gòu)、減少建模工作量和進行預(yù)測,所以分類的結(jié)果將直接影響模型的質(zhì)量和預(yù)測的精度。為此,文章提出了一種新的時序曲線分類方法—分位點回歸系數(shù)聚類法。它可以有效地避免一些分類方法帶來的局限性,能夠更為全面、詳盡地考查待分類時序數(shù)據(jù)的運行方式,改善分類的效果并為預(yù)測提供強大的支持。
分位點回歸;公共變量;層次聚類;整體預(yù)測
時間序列曲線分類方法作為一個新的研究領(lǐng)域,在經(jīng)濟分析、時間序列數(shù)據(jù)挖掘、以及計算機科學(xué)中已經(jīng)得到研究工作者們極大的關(guān)注。Liao(2005)把時間序列分類方法研究分為了三個主要的方向[1]:(1)基于原始數(shù)據(jù)分類法;(2)基于序列特征分類法,例如A.M.Alonso(2006);(3)基于模型分類法。本文所提出的分類方法屬于上述的第三個方向?,F(xiàn)在較為流行的基于模型分類方法是源于自回歸AR過程,大多數(shù)研究過程是通過找到數(shù)據(jù)均值過程的結(jié)構(gòu)和AR distance來進行分類的,例如Piccolo(1990)[2],Maharaj(1996)[3]和Maharaj(1999)[4],Xiong和Yeung(2002)[5]等。
除了上述三種分類方法外,利用平滑曲線的方法進行分類應(yīng)該屬于一種純統(tǒng)計手段。雖然它可以把趨勢大致相同的曲線歸為一類,但由于沒有考慮到時間序列曲線其中較為頻繁的波動,所以這種方法就會把一些本應(yīng)該歸為不同類別的曲線因其趨勢大致相同而被歸為了一類。另外,還有一種采用先提出若干種典型的模式,再按照模式對數(shù)據(jù)進行分類的方法[6]。筆者認為:(1)由于曲線的形式千差萬別,幾種典型的曲線模式不可能把曲線的所有形態(tài)都包含進去;(2)典型的曲線模式雖然可以使預(yù)測變的簡單,但對于特殊形態(tài)曲線的分類及預(yù)測并無好的效果。
在本文中,我們擬提出一種基于模型的分類方法QRP Clustering,這是利用回歸參數(shù)進行聚類,最終達到劃分曲線的一種方法??紤]到眾多時間序列曲線(股票價格序列)其波動形態(tài)、趨勢大都不同,采用普通最小二乘回歸不能完全體現(xiàn)因變量(待分類曲線變量)的分布特征。在這種意義下,時間序列在高點位和低點位運行的分布形態(tài)并沒有被展現(xiàn)出來,這主要是因為普通最小二乘回歸只是在平均意義下研究因變量與自變量之間的關(guān)系。本文所應(yīng)用的分位點回歸Koenker and Bassett(1978)[7]可以為研究隨機變量間統(tǒng)計關(guān)系提供一種更為全面的視角。
最小二乘回歸中的經(jīng)典估計方程—條件均值方程,它的作用體現(xiàn)在描述因變量的均值是如何隨著自變量向量X觀測的變化而變化的。但是,當我們關(guān)心的不是這種均值變化,而是試圖描述y的分布狀態(tài)時,最小二乘回歸就不能滿足我們的需要。而本文引入的分位點回歸則采用條件分位數(shù)方程,即因變量y的條件分布的分位數(shù)被表示為已觀測自變量的方程,并通過最小化加權(quán)絕對值殘差和來進行估計[8]。
對于單自變量普通回歸模型:y=XTβ+ε,其中X=(1,x)T,β=參數(shù)向量β一般是通過二次損失函數(shù)r(u)=u2來估計的,確切的說就是給定一組觀測值最小化損失函數(shù)來求得β,損失函數(shù)為:
與普通回歸相類似,中位數(shù)回歸所關(guān)心的也是條件期望的參數(shù)估計問題,只不過期望函數(shù)、損失函數(shù)變成了E[|Y-θ|| X=x]和ρ0.5(u)=0.5|u|,其參數(shù)估計過程是最小化β)來求得β。中位數(shù)回歸是分位點回歸的一種特例,它是分位數(shù)等于0.5時的分位點回歸,分位點回歸則更具有一般性。
分位點回歸估計的是條件分位數(shù)方程參數(shù)的問題??紤]一般性回歸模型的設(shè)定:y表示因變量,為自變量,并且有n個獨立的觀測值對于任意的0<τ< 1:Q(τ)=inf{y:F(y)≥τ}表示y的τ分位數(shù)。所以線性條件分位數(shù)方程就可以定義為:
對于任意的0<τ<1,定義損失函數(shù),ρτ(u)=u(τ-I(u<0)),其中I(u<0)為示性函數(shù)在上述定義的基礎(chǔ)上,就可以得到條件分位點回歸參數(shù)向量β的估計值:
本文只用一元線性分位點回歸,沒有用多項式分位點回歸及非參數(shù)分位點回歸,是基于以下考慮:第一,應(yīng)用多項式分位點回歸時,每一分位點的回歸系數(shù)至少會增加一個,這會帶來聚類變量的成倍增加。同時,由于多項式回歸是由自變量的一次方項、二次方項等構(gòu)成,這還會導(dǎo)致聚類變量出現(xiàn)嚴重的多重共線性。第二,采用非參數(shù)分位點回歸,即y=m (X),由于其對應(yīng)每條曲線回歸函數(shù)形式并不一定相同,故無法確定聚類變量。
(1)待分類時間序列數(shù)據(jù):上證180中的64支股票2007年1月4日至2008年4月30日322個交易日每日收盤價格序列(如:圖2)。(2)公共變量:上證綜合指數(shù)序列。公共變量是基于上海證券交易所掛牌交易的個股收盤價序列與上證綜合指數(shù)序列在某種程度上存在著一定的數(shù)量關(guān)系而選取的,數(shù)據(jù)情況見圖2。
在聚類分析中需要定義點點距離的算法,我們選取最為常用的歐氏(Euclid)距離。
這里的“點”指的是p維空間點,點點距離表示由p個變量構(gòu)成的兩個樣本點之間的距離。
在本文中,設(shè)有n條待分類時間序列曲線S1,S2,…,Sn,每條時序曲線所對應(yīng)的數(shù)據(jù)作為自變量與公共變量S做分位點回歸,則第i條序列曲線與S的回歸系數(shù)與回歸截距分別為和把和作為聚類變量進行聚類分析,數(shù)據(jù)矩陣表示如下:
在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離。為了使同類樣品(曲線)之間的離差平方和較小,類與類之間的離差平方和較大,所以選擇了層次聚類中的Ward method(離差平方和法)作為聚類方法。下面列出了QRP Clustering主要的四個步驟。
(1)選取公共變量。對于同屬性待分類的時間序列數(shù)據(jù),總能找到與之有關(guān)聯(lián)的公共變量,這是進行分位點回歸的關(guān)鍵。另外,公共變量的選取也可以采用對各條曲線求平均的做法,那么這條平均線就與各個待分類曲線具有一定的相關(guān)關(guān)系。
(2)時序數(shù)據(jù)的標準化。
(3)利用R語言編程,把時序數(shù)據(jù)分別進行分位點回歸,回歸方程的自變量為公共變量(本文為上證綜合指數(shù))(這里采用0.05;0.25;0.5;0.75;0.95,五個分位數(shù))。
(4)5個分位點回歸系數(shù)及5個回歸截距被看作為10個聚類變量進行聚類分析,得到分類結(jié)果見圖3~9。利用一元線性回歸系數(shù)聚類得到的分類結(jié)果見圖10~16。
聚類分析可以根據(jù)實際的要求選擇分類數(shù)目。對于具有較大數(shù)目的時間序列曲線,我們本著既要使類與類之間有較大的區(qū)分度,又要使類內(nèi)有較好的一致性。一般情況下,分類的時候既不能分類太少,因為這樣必然會導(dǎo)致類內(nèi)曲線參差不齊無法達到分類的效果,甚至對以后的整體預(yù)測帶來很大的影響;而且又不能分類太多,因為這就失去分類的真正意義了。本文實際數(shù)據(jù)共64條曲線樣本,分別進行了4個不同分組數(shù)目的實驗(Clusters=5,6,7,8;見表1),經(jīng)過比對選擇了7類(Clusters=7)作為最終的分類數(shù)目。
本文利用分位數(shù)回歸系數(shù)作為聚類變量,把64條時間序列曲線分成了7個曲線組,每一組曲線都具有大致相同的趨勢與波動形態(tài),其中與一元線性回歸系數(shù)聚類方法所得到的結(jié)果(圖10~16)進行對比也充分說明了QRP Clustering達到了很好的分類效果,有效地提高了分類的精度。對于那些趨勢大體相同階段波動不同的曲線,利用分位點回歸可以更全面地分析時序曲線的特征,因為分位點回歸可以根據(jù)分位數(shù)的設(shè)定把兩個時序變量的關(guān)系變成多個回歸形式,這樣就可以更為全面、詳盡地考查待分類時序數(shù)據(jù)的運行方式,尤其是對那些波動劇烈且具有極端值的序列曲線。
對于分類完成后的各組曲線,可以分析各組曲線的特征,并進一步達到建模和整體預(yù)測的需要。這里我們闡述兩個問題:
(1)建模。對每組曲線(已分類)建立模型可以有多種選擇。例如,①選擇該組任意一條曲線作為該組的代表曲線進行建模;②選擇處于中間位置的曲線作為代表曲線;③對該組曲線在每一時點上的曲線數(shù)值進行平均化處理,這便會形成一條新的序列曲線,然后用得到的新曲線作為代表曲線進行建模。
(2)整體預(yù)測。當代表曲線選擇完成后,具體的建模方法就要根據(jù)進一步的時序曲線的特征分析來進行。常用的時間序列曲線模型有ARMA、ARIMA、ARCH、GARCH等等。模型建立完畢后,就可以根據(jù)建立的時間序列模型進行每組曲線的整體預(yù)測。
[1]Liao,T.Clustering Time Series Data:A survey[J].Pattern Recognition,2005,(38).
[2]Piccolo,D.A Distance Measure for Classifying ARIMA Models [J].Journal of Time Series Analysis,1990,(11).
[3]Maharaj,E.A.A Significance Test for Classifying ARMA Models [J].Journal of Statistical Computation and Simulation,1996,(54).
[4]Maharaj,E.A.Comparison and Classification of Stationary Multivariate Time Series[J].Pattern Recognition,1999,(32).
[5]Xiong,Y.,Yeung,D.Y.Mixtures of ARMA Models for Model-Based Time Series Clustering[J].In:Proceedings of the IEEE International Conference on Data Mining,2002,1~4.
[6]范新洪,張春梅,葉慧萍.基于負荷曲線分類的電力負荷預(yù)測方法[J].現(xiàn)代計算機,2007,(6).
[7]Koenker,R.Bassett,G.,Regression Quantile[J].Econometrica,1978, (46).
[8]Yu,K.,Lu,Z.,Stander,J.Quantile Regression:Application and Current Research Areas[J].The Statistician,2003,(52).
(責任編輯/亦民)
O212
A
1002-6487(2011)06-0021-03
孫曉丹(1980-),男,黑龍江齊齊哈爾人,博士后,講師,研究方向:復(fù)雜數(shù)據(jù)經(jīng)濟統(tǒng)計分析與產(chǎn)業(yè)經(jīng)濟。
張鳴鳴(1981-),女,黑龍江塔河人,博士研究生,研究方向:服務(wù)經(jīng)濟與財稅政策。