烏 蘭, 曾祥艷, 周 偉
(桂林電子科技大學(xué) 數(shù)學(xué)與計算科學(xué)學(xué)院,廣西 桂林 541004)
面向區(qū)間序列的預(yù)測模型在大數(shù)據(jù)時代具有很好的應(yīng)用價值。很多研究者已經(jīng)提出了一些區(qū)間序列的預(yù)測方法,其中一類方法是將區(qū)間序列拆分成中點、半徑、面積、灰度等精確數(shù)序列,再建立自回歸移動平均模型(ARMA)、灰色模型(GM)等[1-3]。這類方法考慮了區(qū)間的整體性,預(yù)測效果主要依賴區(qū)間中點序列,但是并未使預(yù)測模型直接適用于區(qū)間序列。另一類方法是改進預(yù)測模型的參數(shù)設(shè)置,使模型能直接對區(qū)間建模。例如,將灰色模型的發(fā)展系數(shù)取為區(qū)間上下界點序列發(fā)展系數(shù)的加權(quán)平均值,使模型能直接對區(qū)間序列建模,但是這種加權(quán)平均方法弱化了區(qū)間上下界點序列各自的發(fā)展趨勢,對振蕩型區(qū)間序列預(yù)測效果較差[4-5]。
2011年,Maria等[6]提出了區(qū)間Holt 指數(shù)平滑方法(Holt)來預(yù)測區(qū)間序列。該方法將區(qū)間看作一個二維列向量,將Holt指數(shù)平滑模型的平滑系數(shù)由實數(shù)改為矩陣,再直接對區(qū)間進行平滑處理,考慮了區(qū)間上下界點的內(nèi)在聯(lián)系。文獻[7]進一步將該方法與多輸出支持向量回歸(MSVR)結(jié)合,也取得了很好的效果。該方法也被引入灰色模型,構(gòu)成一系列矩陣型灰色模型,對區(qū)間序列預(yù)測效果良好[8-10]。該方法類似于向量自回歸模型(VAR)的建模機理,即考慮構(gòu)成向量的幾個內(nèi)生變量之間的相互聯(lián)系,所以VAR常用于預(yù)測相互聯(lián)系的幾個變量,是處理多個相關(guān)工程或經(jīng)濟指標(biāo)的分析與預(yù)測的主流模型之一[11-13]。鑒于此,將區(qū)間看作列向量,用VAR 和向量多元線性回歸模型(VMLR)進行預(yù)測考慮區(qū)間的上下界點之間的相互聯(lián)系。
VAR是考慮了構(gòu)成向量的幾個內(nèi)生變量之間的相互聯(lián)系而建模的。多維移動平均(MA)和ARMA模型也是轉(zhuǎn)換成VAR模型,所以近年來VAR模型受到越來越多的經(jīng)濟工作者的重視。
定義1 具有以下結(jié)構(gòu)的模型稱為面向區(qū)間序列的向量自回歸模型(IVAR):
VAR模型只考慮了因變量序列的滯后性和前后影響,未考慮外在的關(guān)聯(lián)因素對因變量的影響。因此,將進一步建立面向區(qū)間序列的多元線性回歸模型(MLR)。目前,MLR 只適用于精確數(shù)序列,這里類似于VAR模型,將其向量化。
定義2 具有以下結(jié)構(gòu)的模型稱為面向區(qū)間序列的向量多元線性回歸模型(IVMLR):
以下同時考慮被預(yù)測變量的內(nèi)在和外在因素,給出面向區(qū)間序列的向量自回歸和向量多元線性回歸組合模型。
定義3 具有以下結(jié)構(gòu)的模型稱為面向區(qū)間序列的向量自回歸和向量多元線性回歸組合模型,簡稱為向量回歸組合模型(IVAR-MLR):
建立IVAR模型需要解決以下2個主要問題:
1) 區(qū)間的下上界點這2個內(nèi)生變量之間是否具有相關(guān)關(guān)系,要用“格蘭杰因果性”檢驗確定。但是,只有平穩(wěn)序列才能做格蘭杰檢驗。所以,首先要做“單位根檢驗”,即平穩(wěn)性檢驗,本研究采用ADF(augmented Dickey-Fuller test)檢驗序列的平穩(wěn)性。若非平穩(wěn),進行數(shù)據(jù)預(yù)處理,如取對數(shù)、差分。
2)IVAR模型的最大滯后階數(shù)p的確定。若p過小,則誤差項可能存在自相關(guān),會導(dǎo)致參數(shù)估計的非一致性;加大p值,可以消除~ε(t)中存在的自相關(guān)。但是p值過大,待估參數(shù)太多,自由度降低,影響參數(shù)估計的有效性。常用的p值確定方法是赤池信息量準(zhǔn)則(AIC)和施瓦茨(SC)準(zhǔn)則。在增加p值的過程中,當(dāng)IVAR模型的AIC和SC同時達到最小即可。對年度和季度數(shù)據(jù),p值一般增加到4;對月度數(shù)據(jù),p值一般增加到12。當(dāng)AIC和SC的最小值對應(yīng)不同的p值時,就用似然比(LR)檢驗法。
IVAR-MLR模型的最大滯后階數(shù)p的確定方法與IVAR模型的確定方法相同。
以IVAR 模型為例,根據(jù)矩陣的運算法則可以將式(1)進行分解,得到2個線性方程:
由式(4)估計預(yù)測區(qū)間上界點yU(t)的參數(shù),令
IVAR模型的區(qū)間上下界點的預(yù)測公式即為式(4)和式(5)。IVMLR 模型的區(qū)間上下界點的預(yù)測公式由式(2)分解可得:
由預(yù)測公式可看出,IVAR模型、IVMLR模型或IVAR-MLR模型中因變量的區(qū)間上界點不僅受自變量上界點的影響,同時還受自變量下界點的影響。同理,因變量的下界點也同時受自變量上下界點的影響。因此,因變量的各個界點不僅與自變量對應(yīng)的界點有關(guān),而且受自變量上下界點的整體影響,使得模型的適應(yīng)性和協(xié)調(diào)性更強。因此,IVAR將區(qū)間的2個界點序列聯(lián)合起來對其中一個界點進行預(yù)測,體現(xiàn)了區(qū)間的上下界點的整體性和相互影響關(guān)系。
國家統(tǒng)計局提供了2010年至2019年全國年主營收入2 000萬元及以上的工業(yè)企業(yè)的發(fā)電量數(shù)據(jù),其中部分月份的數(shù)據(jù)缺失,缺失部分由2個月份的累計值相減得到。 將火力發(fā)電量和水力發(fā)電量作為發(fā)電量的相關(guān)因子。將一年4個季度按季度分成4期,將每個季度中發(fā)電量的最大值作為區(qū)間的上界,最小值作為區(qū)間的下界。部分建模數(shù)據(jù)見表1。
表1 原始區(qū)間TW·h
采用2010 年到2018 年的區(qū)間序列建模,對2019年4個季度的區(qū)間觀察值進行預(yù)測效果檢驗。對于二維列向量形式的區(qū)間序列,可以將檢驗區(qū)間序列是否平穩(wěn)轉(zhuǎn)化為檢驗上下界序列是否平穩(wěn)。從表1可看出,2010年到2018年的發(fā)電量區(qū)間序列的上下界的平穩(wěn)性檢驗結(jié)果都為非平穩(wěn)序列,因此將上下界點序列進行一階差分,重新進行單位根檢驗,結(jié)果表明,經(jīng)過一階差分后,區(qū)間上下界點序列皆為平穩(wěn)序列。對一階差分序列采用VAR 模型最優(yōu)滯后階數(shù)定階法進行確定。不同階數(shù)的LR、AIC、SC值如表2所示。從表2可看出,在顯著水平0.05的條件下,綜合LR、AIC和SC值,將模型階數(shù)定為3階較為合適。
表2 滯后階數(shù)選擇結(jié)果
參數(shù)估計后IVAR模型的具體形式為IVAR-MLR模型的具體形式為
將2010—2018年的數(shù)據(jù)采用最小二乘法得到的IVAR-MLR模型參數(shù)估計,如表3所示。3個模型對2019年4個季度的預(yù)測結(jié)果見表4。
表3 IVAR-MLR模型參數(shù)估計結(jié)果
表4 發(fā)電量區(qū)間預(yù)測值TW·h
將區(qū)間均方誤差(MSEI)、區(qū)間平均絕對誤差(MAEI)、區(qū)間平均絕對百分比誤差(MAPEI)作為衡量模型預(yù)測結(jié)果精確度的指標(biāo)。具體表達形式為:
模型預(yù)測誤差的具體結(jié)果見表5。
表5 預(yù)測誤差分析
由表5可看出,IVAR-MLR 模型較其他2種模型的3 個指標(biāo)更優(yōu),平均絕對百分比誤差只有2.413 3%,精度較高。
國家統(tǒng)計局提供了2010—2019年全國客運量的數(shù)據(jù)~y(t),其中部分月份的客運量數(shù)據(jù)缺失,缺失部分由2個月份的累計值相減得到。將鐵路客運量~x1(t)和公路客運量~x2(t)作為客運量的相關(guān)因子。將一年4個季度按季度分成4期,將每個季度中客運量的最大值作為區(qū)間的上界,最小值作為區(qū)間的下界。部分建模數(shù)據(jù)見表6。
表6 原始區(qū)間序列萬
從表6可看出,從2010—2018年客運量區(qū)間序列的上下界的一階差分序列為平穩(wěn)序列。采用VAR模型最優(yōu)滯后階數(shù)定階法,不同階數(shù)的LR、AIC、SC值見表7。
表7 滯后階數(shù)選擇結(jié)果
由表7可知,在顯著水平為0.05的條件下,綜合LR、AIC和SC值,確定將模型階數(shù)定為3階較為合適。IVAR、IVMLR和IVAR-MLR模型的預(yù)測結(jié)果見表8,預(yù)測誤差比較見表9。
表8 客運量區(qū)間預(yù)測值萬
從表9可看出,IVMLR 模型和IVAR-MLR 模型的預(yù)測效果較好,平均絕對百分比誤差只有1%左右,預(yù)測精度較高。
表9 預(yù)測誤差分析
自回歸模型考慮了時間序列的滯后性,多元線性回歸模型考慮了時間序列的影響因素。本研究將區(qū)間看作列向量,將自回歸、多元線性回歸以及組合模型的參數(shù)設(shè)置為矩陣,使模型能直接對區(qū)間序列建模預(yù)測,拓廣了他們的適用范圍。分析結(jié)果表明,這種建模方法實質(zhì)上是將區(qū)間的上下界點序列聯(lián)合起來對其中一個界點序列進行預(yù)測,考慮了區(qū)間的整體性和上下界點的內(nèi)在聯(lián)系。在對發(fā)電量和客運量的預(yù)測中,組合模型預(yù)測效果穩(wěn)定,表明了該區(qū)間預(yù)測方法的有效性。