王維強(qiáng),牛振東,曹玉娟,趙育民,趙堃
(北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京,100081)
ARMA模型和APARCH模型分別是統(tǒng)計(jì)時(shí)間序列模型和結(jié)構(gòu)計(jì)量經(jīng)濟(jì)模型。過去30年中,這2種模型被計(jì)量經(jīng)濟(jì)學(xué)家用于預(yù)測。目前,非線性ARCH族模型特別是GARCH(1,1)模型因?yàn)榭梢杂糜诮忉尨罅康慕?jīng)濟(jì)數(shù)據(jù)和活動(dòng)而逐漸用于各個(gè)領(lǐng)域。自從 Engle提出ARCH模型后, GARCH成為處理時(shí)間序列數(shù)據(jù)非常重要的模型,特別是在處理金融數(shù)據(jù)中,用于分析和預(yù)測數(shù)據(jù)的波動(dòng)性[1]。GARCH模型其方差隨著時(shí)間的變化而變化,并且具有波動(dòng)性和縱集性。目前,將GARCH族模型用于交通量的預(yù)測和研究甚少,因此,研究時(shí)間序列模型對(duì)交通數(shù)據(jù)的擬合和預(yù)測具有重要意義。為此,本文作者選用美國加州洛杉磯長灘地區(qū)交通量為研究對(duì)象,提出新的時(shí)間序列模型對(duì)其進(jìn)行擬合、分析和預(yù)測,以便為控制交通量的增長和進(jìn)一步控制廢氣排放提供理論依據(jù)。
ARMA(Generalized ARCH)模型用于時(shí)間序列中主要是建立序列的自回歸方程,而 GARCH模型則主要用于研究序列的方差。在廣義自回歸條件異方差模型(Generalized autoregressive conditional heteroscedasticity model,簡記為GARCH模型)中,要考慮2個(gè)不同的設(shè)定:一個(gè)是條件均值,另一個(gè)是條件方差[2-3]。在標(biāo)準(zhǔn)化的GARCH(1,1)模型中,
其中:xt為 1×(k+1)維外生變量向量;γ為(k+1)×1維系數(shù)向量。式(1)中給出的均值方程是一個(gè)帶有擾動(dòng)項(xiàng)的外生變量函數(shù)。由于是以前面信息為基礎(chǔ)的一期向前預(yù)測方差,所以,它被稱作條件方差,式(2)也被稱作條件方差方程。
近年來,出現(xiàn)了一大批GARCH模型的變形,其中,除 ARCH和 GARCH模型之外,還有不對(duì)稱冪ARCH模型即APARCH模型,包括特殊的TS-GARCH模型、GJR-GARCH模型、T-ARCH模型、N-ARCH模型、Log-ARCH模型等[4-9]。
APARCH(p,q) 的方差方程可以描述成如下形式:
式中:iγ為杠桿影響參數(shù);δ為Taylor影響參數(shù);q為持久性因子;zt是1個(gè)均值為0、方差為獨(dú)立分布的隨機(jī)過程參數(shù); (0,1)D?是以0為均值、方差為1的概率密度函數(shù);?是分布參數(shù),用來描述函數(shù)分布的形狀和峰度。
此模型增加了1個(gè)不對(duì)稱參數(shù)通過指數(shù)變化的靈活性來解釋函數(shù)的杠桿作用。
若所有的系數(shù) β=0,則 GARCH 模型就降維成ARCH模型。
ARMA-TS-GARCH模型類似于 AR-GARCH模型,分開來看,每一個(gè)混合模型的成分都可以定義成普通的ARMA模型:式(6)也可以寫成:
ARMA模型常常也被稱為混合模型,記作ARMA(p,q)。當(dāng)p=0 時(shí),ARMA(0, q)=MA(q);當(dāng)q=0時(shí),ARMA(p, 0)=AR(p)。
另外,每一個(gè)殘差項(xiàng),tjε都代表高斯分布變量的白噪音(White noise),并且GARCH模型可以表示成如下形式:
其中:qjθ>0;q=1, …, Q。并且當(dāng)pjβ>0時(shí),p=1, …,P。根據(jù)定義,當(dāng)δ=1和γi=0時(shí),TS-GARCH模型表示如下:
因此,可以在數(shù)學(xué)上用K-成分高斯混合模型得到有限混合ARMA-TS-GARCH模型,它的表現(xiàn)形式如下:
其中:
并且jα
從式(9)~(11)可得新模型ARMA-TS-GARCH的表示形式。
交通量的數(shù)據(jù)來自加州交通局屬的交通和車輛數(shù)據(jù)系統(tǒng)分局。每月給出車輛里程數(shù)的報(bào)告。該報(bào)告由交通數(shù)據(jù)科制作,對(duì)駕駛者在美國加利福尼亞州公路上行駛的車輛里程數(shù)進(jìn)行估計(jì)。該估計(jì)的方法是:1個(gè)樣本有22個(gè)流量監(jiān)測點(diǎn),其中包括各種巷道類型來用來計(jì)算車輛的行駛里程。
對(duì)美國洛杉磯長灘地區(qū)的所有數(shù)據(jù)集的數(shù)據(jù)從2000年1月到2006年12月進(jìn)行總體統(tǒng)計(jì),相應(yīng)的時(shí)間序列圖如圖1所示。
圖1 洛杉磯長灘2000—2006年交通量時(shí)序圖Fig.1 LA long beach Traffic series plot in 2000—2006
從圖1可以看出:交通量逐年上漲。這與買車的數(shù)量逐年上漲相符。此外,車流量也是以年為周期呈季節(jié)性變化。
ARMA(p,q)模型中AR和MA參數(shù)部分應(yīng)使用關(guān)鍵詞ar和ma定義。而TS-GARCH(p,q)中的參數(shù)部分在這里用關(guān)鍵詞α和β定義。模型參數(shù)值估計(jì)結(jié)果如表1所示。從表1可見:參數(shù)都小于1。取參數(shù)值為1,這樣,此模型為ARMA(1,1)-TS-GARCH(1,1)。
表1 模型參數(shù)估計(jì)Table 1 Model parameter estimation
在GARCH模型的框架內(nèi)對(duì)異方差時(shí)間序列的參數(shù)進(jìn)行估計(jì)。但是,參數(shù)估計(jì)不是對(duì) ARMA-TSGARCH模型進(jìn)行分析的唯一方面,還包括:時(shí)間序列模型的定義,時(shí)間序列模型仿真的檢驗(yàn),參數(shù)估計(jì),診斷分析,對(duì)預(yù)測的計(jì)算等。
對(duì)于含有ARMA項(xiàng)的模型,基于殘差的回歸統(tǒng)計(jì)量,如R2和DW都是以一期向前預(yù)測誤差為基礎(chǔ)計(jì)算的。1個(gè)含有AR項(xiàng)的模型有2種殘差:第1種是無條件殘差,第2種是估計(jì)的一期向前預(yù)測誤差。這種殘差代表預(yù)測誤差。實(shí)際上,通過利用滯后殘差的預(yù)測能力,提高了無條件預(yù)測能力,隱藏低了殘差。
下面對(duì) ARMA-TS-GARCH模型進(jìn)行診斷和檢驗(yàn)。
(1) 殘差檢驗(yàn)。殘差檢驗(yàn)包括對(duì)估計(jì)方程殘差的序列相關(guān)、正態(tài)性、異方差性和自回歸條件異方差性進(jìn)行檢驗(yàn)[10-13]。
對(duì)1個(gè)序列分布的最簡單非參數(shù)密度估計(jì)是采用直方圖。直方圖對(duì)原點(diǎn)的選擇比較敏感并且是不連續(xù)的。非參數(shù)密度估計(jì)直方圖檢驗(yàn)結(jié)果見圖 2。從圖 2可以看出:數(shù)據(jù)集的直方圖的中心與0稍有偏離,但比較接近。
圖2 直方圖檢驗(yàn)Fig.2 Histogram test
Quantile-Quantile( Q-Q圖)檢驗(yàn)對(duì)于比較2個(gè)分布是一種簡單而又有效的重要工具,可反映一個(gè)被選序列的分位數(shù)分布相對(duì)于另一個(gè)序列的分位數(shù)分布或一個(gè)理論分布的異同,或者模型與數(shù)據(jù)之間的擬合程度。圖3所示為非參數(shù)密度估計(jì)Q-Q圖。其中,直線的斜率為標(biāo)準(zhǔn)差,截距為均值。從圖3可以看出:數(shù)據(jù)基本圍繞在線的周圍上下波動(dòng),基本沒有很大的離群點(diǎn),說明模型對(duì)數(shù)據(jù)擬合程度良好。
殘差是實(shí)際值與回歸預(yù)測值之間的差[14-15]。殘差圖以殘差為縱坐標(biāo),以任何其他指定的量為橫坐標(biāo)的散點(diǎn)圖,可用于檢查回歸線的異常點(diǎn)。若描繪的點(diǎn)圍繞殘差等于0的直線上下隨機(jī)散布,則說明回歸直線對(duì)原觀測值的擬合情況良好,說明變量X與y之間有顯著的線性相關(guān)關(guān)系;否則,說明回歸直線對(duì)原觀測值的擬合不理想。非參數(shù)密度估計(jì)殘差檢驗(yàn)結(jié)結(jié)果見圖4。從圖4可見:數(shù)值點(diǎn)都是在[-1, 1]的區(qū)間內(nèi),圍繞0上下波動(dòng),雖然偶有幾個(gè)離群值,但是都沒有超出絕對(duì)值為1的區(qū)間,可見:回歸預(yù)測值與實(shí)際值的擬合較理想。
圖3 Q-Q圖檢驗(yàn)Fig.3 Q-Q Plot test
圖4 殘差檢驗(yàn)Fig.4 Residual test
為了進(jìn)一步證明ARMA-TS-GARCH模型的優(yōu)越性,將其與經(jīng)典模型GARCH和ARMA-GARCH進(jìn)行比較。用它們對(duì)同樣的數(shù)據(jù)集進(jìn)行分析,比較的信息準(zhǔn)則是 AIC, BIC, SIC和HQ。所得結(jié)果見表2。AIC,BIC, SIC和HQ這4個(gè)信息準(zhǔn)則的值越小,證明這個(gè)模型越好。從表2可以看出ARMA-TS- GARCH模型的各種信息標(biāo)準(zhǔn)結(jié)果都比 ARMA- GARCH模型和GARCH模型的低[17],這說明ARMA- TS-GARCH模型在處理某些時(shí)間序列數(shù)據(jù)(如交通量數(shù)據(jù)集)時(shí),比其他模型更具有優(yōu)越性和準(zhǔn)確性。
表2 模型的信息標(biāo)準(zhǔn)統(tǒng)計(jì)比較Table 2 Model Information Criterion statistical comparison
對(duì)異方差時(shí)間序列進(jìn)行預(yù)測,可以得出對(duì)數(shù)據(jù)的條件均值和對(duì)條件方差進(jìn)行預(yù)測的公式。
一個(gè)平穩(wěn)序列的數(shù)字特征如均值、方差和協(xié)方差等不隨時(shí)間的變化而變化,時(shí)間序列在各個(gè)時(shí)間點(diǎn)上的隨機(jī)性服從一定的概率分布[16-17]。也就是說,對(duì)于一個(gè)平穩(wěn)的時(shí)間序列,可以通過過去時(shí)間點(diǎn)上的信息,建立模型擬合過去信息,進(jìn)而預(yù)測未來的信息。
這里采用ARMA-TS-GARCH模型進(jìn)行預(yù)測,所得結(jié)果見表3。可見:采用 ARMA-TS-GARCH模型進(jìn)行預(yù)測,總共獲得10期預(yù)測值,所得的預(yù)測均值在達(dá)到一個(gè)高點(diǎn)之后趨于平穩(wěn),而標(biāo)準(zhǔn)方差則一直處于平穩(wěn)狀態(tài)。
表3 ARMA-TS-GARCH的預(yù)測值Table 3 Prediction results of ARMA-TS-GARCH
(1) 通過對(duì)ARCH模型、GARCH模型以及ARCH模型的多種變形模型進(jìn)行分析,在基于K成分高斯模型的基礎(chǔ)上提出了ARMA-TS-GARCH模型。
(2) 采用 ARMA-TS-GARCH 模型對(duì)洛杉磯長灘地區(qū) 2000—2006年交通量進(jìn)行建模和擬合,得到ARMA(1,1)-TS-GARCH(1,1)模型,并且對(duì)其進(jìn)行多種檢驗(yàn)診斷分析,然后將其分析結(jié)果與經(jīng)典模型GARCH和 ARMA-GARCH進(jìn)行比較,結(jié)果表明ARCH-TS-GARCH模型在處理某些事件序列數(shù)據(jù)如周期性的環(huán)境數(shù)據(jù)時(shí)具有較強(qiáng)的優(yōu)越性。
[1] Lanne M, Saikkonen P. A multivariate generalized orthogonal factor GARCH model[J]. Journal of Business and Economic Statistics, 2007, 25(1): 61-75.
[2] Moon Y S, Whang K Y, Loh W K. Duality-based subsequence matching in time series databases[C]//Proceeding 98 of 17th International Conference on Data Engineering. San Jose, USA,2001: 263-272.
[3] He C, Terasvirta T. An extended constant conditional correlation GARCH model and its fourth-moment structure[J]. Econometric Theory, 2004, 20(1): 904-926.
[4] Engle R F, GARCH 101: An introduction to the use of ARCH/GARCH models in applied econometrics forthcoming[J].Journal of Economic Perspectives, 2001, 12(2): 17-32.
[5] Wang T S F, Wens M H. Efficient subsequence matching for sequences databases under time warping[C]//Proceedings of 7th International Database Engineering and Applications Symposium. Hong Kong, 2003: 132-141.
[6] Brooks C, Burke S P, Persand G. Benchmarks and the accuracy of GARCH model estimation[J]. International Journal of Forecasting, 2001, 17(1): 45-56.
[7] Bernhard Pfaff. Analysis of integrated and cointegrated time series with R[J]. Springer, 2005, 12(3): 21-79.
[8] Keogh E, Pazzani M. Scaling up dynamic time warping for data mining application[C]//Proceeding of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, 2000: 256-289.
[9] Keogh E, Smyth P. A probabilistic approach to fast pattern matching in time series database[C]//Proceeding of 3th International Conference of Knowledge Discovery and Data Mining. Newportbeach: AAAI Press, 1997: 20-24.
[10] Keogh E, Pazzani M. An indexing scheme for fast similarity search in large time series database[C]//Scientific and Statistical Database Management, Elventh International Conference. Ohio,1999: 56-57.
[11] Keogh E, Chakrabarti K, Mehrotra S, et al. Locally adaptiye dimensionality reduction for indexing large time series database[C]//ACM SIGMOD 2001. Santa Barbara, California,2001: 78-99.
[12] Cadez I V, Heckerman D, Meek C, et al. Vi-sualization of navigation patterns on a web site using model-based clustering[C]//Knowledge Discovery and Data Mining. Boston,2000: 280-284.
[13] Baillie R T, Chung C F, Ticslau M A. Analyzing industrialized countries inflation by the fractionally integrated ARFIMA—GARCH model[J]. Journal of Applied Econometrics,1996, 3(11): 23-40.
[14] Hauser M A, Kunst R M. Forecasting high frequency financial data with the ARFIMA-ARCH model[J]. Journal of Forecasting,2001, 20(7): 501-518.
[15] Rastogi R, Shim K PUBLIC. A decision tree classifier that integrates building mad pruning[C]//Proceedings of the 24th International Conference OU very Large Databases (VLDB’98).New York, 1998: 405-415.
[16] Keerthi S S. Convergence of a generalized SMO algorithm fur SVM classifier design TRCD[C]//Control Division Dept of Mecha and Prod Engineering National University of Singapore.Singapore, 2000: 13-27.
[17] Loh W K, Kim S K. A subsequence matching algorithm supporting moving average transform of arbitrary order in time-series databases using index interpolation[C]//Proceedings 12th Australasian Database Conference. Queensland, 2001:37-44.