王立柱, 孟憲濤
(沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽(yáng) 110034 )
近10年,關(guān)于時(shí)間序列預(yù)測(cè)的研究成果從建立模型的角度主要包括3個(gè)方面:1)基于線性模型的預(yù)測(cè);2)基于非線性模型的預(yù)測(cè);3)基于模糊集合理論的預(yù)測(cè)。經(jīng)典的ARIMA模型由于其良好的統(tǒng)計(jì)性質(zhì)及著名的Box-Jenkins方法得到了廣泛應(yīng)用[1],但受到假定時(shí)間序列具有線性相關(guān)結(jié)構(gòu)及較多的時(shí)間序列觀測(cè)值才能確保獲得理想預(yù)測(cè)結(jié)果的限制。在大數(shù)據(jù)背景下,復(fù)雜的時(shí)間序列數(shù)據(jù)往往伴有非線性結(jié)構(gòu),此時(shí)建立線性模型已不再適合?;诜蔷€性模型的預(yù)測(cè)主要是將一些人工智能方法用于時(shí)間序列預(yù)測(cè),如傳統(tǒng)的機(jī)器學(xué)習(xí)方法包括人工神經(jīng)網(wǎng)絡(luò)[2-3]、信息顆粒[4-5]、貝葉斯網(wǎng)絡(luò)[6]、支持向量機(jī)[7]等,以及各種深度學(xué)習(xí)算法,形成一些非線性模型。很多文獻(xiàn)提出用人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Networks)對(duì)時(shí)間序列建立非線性模型的方法進(jìn)行預(yù)測(cè)[8-9]。由于人為或設(shè)備故障等原因,可能會(huì)產(chǎn)生缺失或奇異數(shù)據(jù)等現(xiàn)象。模糊時(shí)間序列模型更適合解決觀測(cè)數(shù)據(jù)帶有缺失、含糊、不準(zhǔn)確等現(xiàn)象的預(yù)測(cè)問(wèn)題,且不需要大量的歷史數(shù)據(jù)。1993年,Song和Chissom[10]第一次提出了模糊時(shí)間序列模型,之后被廣泛地應(yīng)用于金融、水文、生物等領(lǐng)域。
采用模糊時(shí)間序列模型進(jìn)行預(yù)測(cè)的過(guò)程主要有如下4個(gè)步驟:劃分論域、數(shù)據(jù)模糊化、建立模糊規(guī)則、預(yù)測(cè)。模糊時(shí)間序列預(yù)測(cè)的研究成果主要集中在如何劃分論域及如何建立模糊規(guī)則,其原因是這2個(gè)步驟直接影響預(yù)測(cè)質(zhì)量。劃分論域方面,最初采用均勻劃分。隨著研究的深入,提出了非均勻劃分,包括根據(jù)數(shù)據(jù)的分布進(jìn)行論域劃分、考慮時(shí)間因素的論域劃分以及考慮了異常值的論域劃分等[11]。建立模糊規(guī)則方面,最初采取樸素的根據(jù)模糊邏輯關(guān)系確定模糊規(guī)則的方法,之后又出現(xiàn)了二型、高階及加權(quán)模糊規(guī)則等[12-13]。還有學(xué)者提出用非線性函數(shù)代替建立模糊規(guī)則進(jìn)行直接預(yù)測(cè),最典型的是利用神經(jīng)網(wǎng)絡(luò)建立模糊規(guī)則直接預(yù)測(cè)。建立模糊規(guī)則方面,已有的文獻(xiàn)多數(shù)都只是簡(jiǎn)單地對(duì)模糊規(guī)則進(jìn)行加權(quán)平均,即只簡(jiǎn)單地考慮觀測(cè)數(shù)據(jù)狀態(tài)波動(dòng)的頻率。而現(xiàn)實(shí)時(shí)間序列數(shù)據(jù)狀態(tài)波動(dòng)受到諸多外在因素的影響,這些影響又是錯(cuò)綜復(fù)雜的,很難用結(jié)構(gòu)式的因果模型詮釋。數(shù)據(jù)狀態(tài)波動(dòng)的依賴關(guān)系應(yīng)是問(wèn)題研究最重要和最有用的特性。
基于上述分析,本文提出的模糊時(shí)間序列模型,既考慮了數(shù)據(jù)狀態(tài)間的相互影響關(guān)系,又兼顧了狀態(tài)轉(zhuǎn)移頻率的影響。將TAIEX1995數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明模糊集合理論對(duì)預(yù)測(cè)質(zhì)量起到了良好作用,其預(yù)測(cè)質(zhì)量明顯優(yōu)于傳統(tǒng)預(yù)測(cè)模型。
Fuzzy C-Means(FCM) 是由Bezdek于1981年提出的一種模糊聚類算法,是目前應(yīng)用最廣泛且較成功的一種算法。它通過(guò)優(yōu)化目標(biāo)函數(shù)得到第j個(gè)樣本點(diǎn)xj到第i類中心vi的隸屬度aij,從而決定樣本點(diǎn)的類屬以達(dá)到自動(dòng)對(duì)樣本數(shù)據(jù)進(jìn)行分類的目的。目標(biāo)函數(shù)如下:
其中:β>1為模糊化權(quán)重系數(shù);n為數(shù)據(jù)樣本容量;c為聚類中心數(shù)量;d(xj,vi)表示樣本點(diǎn)xj到聚類中心vi的距離;aij是相應(yīng)的隸屬度。
Fuzzy C-Means(FCM) 算法是一個(gè)迭代優(yōu)化過(guò)程,按照下式對(duì)聚類中心及隸屬度進(jìn)行更新,直到滿足終止條件。
本文中β=2,終止條件為迭代次數(shù)達(dá)到1 000次或相鄰2次目標(biāo)函數(shù)值相差不足1×10-5。
模糊時(shí)間序列模型廣泛應(yīng)用于數(shù)據(jù)預(yù)測(cè)分析領(lǐng)域,其優(yōu)勢(shì)在于能夠完成對(duì)具有不完整性、不準(zhǔn)確性和含糊性等缺點(diǎn)的數(shù)據(jù)的預(yù)測(cè)。在建立模糊規(guī)則方面,已有的文獻(xiàn)多數(shù)都只是簡(jiǎn)單地通過(guò)模糊關(guān)系出現(xiàn)的頻率建立模糊規(guī)則,由于隨機(jī)性的存在,單純的從出現(xiàn)頻率考慮問(wèn)題,很難準(zhǔn)確反映事實(shí)。在此重點(diǎn)考慮了模糊狀態(tài)間的相互影響關(guān)系及影響程度,又兼顧了狀態(tài)轉(zhuǎn)移概率的影響。提出了加權(quán)模糊自回歸(WFAR)模型。
首先,利用模糊聚類將時(shí)間序列觀測(cè)數(shù)據(jù)劃分成c個(gè)模糊狀態(tài)Ai(i=1,2,…,c)。其次,通過(guò)自相關(guān)系數(shù)確定相互影響關(guān)系程度。最后,采用加權(quán)平均實(shí)現(xiàn)最終狀態(tài)預(yù)測(cè)。
上述是WFAR預(yù)測(cè)模型總體框架,具體構(gòu)建模型步驟如下:
1) 利用FCM模糊聚類方法確定時(shí)間序列在各時(shí)刻的模糊狀態(tài)。
2) 對(duì)時(shí)間序列序列進(jìn)行馬氏性檢驗(yàn)。
3) 計(jì)算t-i時(shí)刻狀態(tài)Ft-i對(duì)t時(shí)刻狀態(tài)Ft的相關(guān)性影響權(quán)重ωi(i=1,2,…,p)。
首先,計(jì)算時(shí)間序列各階自相關(guān)系數(shù)ri(i=1,2,…,p),
(1)
(2)
4) 通過(guò)計(jì)算滯時(shí)馬爾可夫轉(zhuǎn)移頻率矩陣Pki(Ft-k)(k=1,2,…,p),得到t時(shí)刻狀態(tài)Ai的概率Wt(i)。
計(jì)算不同滯時(shí)的馬爾可夫鏈的轉(zhuǎn)移頻率P1i(Ft-1),P2i(Ft-2),…,Ppi(Ft-p)。其中,Pki(Ft-k)(k=1,2,…,p)表示t-k時(shí)刻的狀態(tài)Ft-k經(jīng)過(guò)k步滯時(shí)轉(zhuǎn)移到第i種狀態(tài)Ai的頻率。它決定了時(shí)間序列在t時(shí)刻為狀態(tài)Ai的概率Wt(i),即對(duì)時(shí)間序列模糊狀態(tài)的轉(zhuǎn)移過(guò)程進(jìn)行預(yù)測(cè)的概率法則。
Wt(i)=ω1P1i(Ft-1)+…+ωpPpi(Ft-p),(i=1,2,…,c)
其中:p表示相關(guān)性階數(shù);c表示狀態(tài)空間的基數(shù);Wt(i)表示t時(shí)刻出現(xiàn)第i種狀態(tài)的可能性。
5) 預(yù)測(cè)t時(shí)刻狀態(tài)Ft及預(yù)測(cè)值ft。
(3)
其中:Ai表示第i種模糊狀態(tài);vi表示第i類中心。
以Alabama大學(xué)1971—1992年入學(xué)人數(shù)為例,以說(shuō)明WFAR模型預(yù)測(cè)的具體應(yīng)用。表1第2列給出了Alabama大學(xué)1971—1992年入學(xué)人數(shù)數(shù)據(jù)。
表1 模型的模糊規(guī)則及預(yù)測(cè)結(jié)果Tab.1 Fuzzy rules and performances of proposed model
1) 將時(shí)間序列數(shù)據(jù)進(jìn)行模糊聚類,以確定模糊狀態(tài)
為便于同其他方法進(jìn)行比較,應(yīng)用FCM方法將數(shù)據(jù)聚成7類,得到聚類中心vi分別為1.348 1、1.500 7、1.545 6、1.596 5、1.683 8、1.816 2、1.914 4及每年入學(xué)人數(shù)的相應(yīng)隸屬度,進(jìn)而可以確定其模糊狀態(tài)列于表1第3列。
2) 馬氏性檢驗(yàn)
經(jīng)檢驗(yàn)實(shí)驗(yàn)數(shù)據(jù)具有馬氏性,可以使用馬爾科夫鏈的相關(guān)理論進(jìn)行預(yù)測(cè)分析。
3) 計(jì)算相關(guān)性影響權(quán)重ωi
根據(jù)公式(1)、(2)前5階自相關(guān)系數(shù)分別為0.818 2、0.571 2、0.301 9、0.081 1、-0.060 0。由于過(guò)去3個(gè)滯時(shí)對(duì)當(dāng)前狀態(tài)影響較大,因此,取前3階歸一化自相關(guān)系數(shù)作為相關(guān)性權(quán)重ωi,分別為0.483 8、0.337 7、0.178 5。
4) 計(jì)算滯時(shí)轉(zhuǎn)移頻率矩陣Pki(Ft-k)
針對(duì)1971、1972、1973年數(shù)據(jù)預(yù)測(cè)1974年數(shù)據(jù),得到Wt(i)(i=1,2,…,c)分別為0.429 7、0.329 2、0.228 7、0、0、0、0。
5) 預(yù)測(cè)t時(shí)刻值ft
由公式(3)計(jì)算t時(shí)刻值的預(yù)測(cè)值ft,由上一步可以得到1974年入學(xué)人數(shù)的預(yù)測(cè)值為14 446。
預(yù)測(cè)值與1974年真實(shí)數(shù)據(jù)較為接近,說(shuō)明預(yù)測(cè)效果較好。以此類推,可以預(yù)測(cè)以后各個(gè)年份的入學(xué)人數(shù)列于表1第6列。傳統(tǒng)的Chen、Lee模型預(yù)測(cè)值列于表1第4、5列。為說(shuō)明預(yù)測(cè)效果,以均方誤差(MSE)為標(biāo)準(zhǔn)。WFAR模型預(yù)測(cè)的MSE為3.637 0,而傳統(tǒng)的Chen、Lee模型預(yù)測(cè)的MSE分別為4.075 2、3.975 4。實(shí)驗(yàn)結(jié)果表明該模型的有效性及可行性。
本文提出了一種一般化結(jié)構(gòu)預(yù)測(cè)模型。該模型不僅考慮了狀態(tài)轉(zhuǎn)移頻率的影響,更重要的是考慮了數(shù)據(jù)狀態(tài)間的相互作用關(guān)系。實(shí)驗(yàn)結(jié)果表明該方法有效可行。該模型中使用FCM模糊聚類方法,也可采用一些人工智能方法更加精細(xì)劃分論域得到聚類中心。在考慮數(shù)據(jù)狀態(tài)間的作用關(guān)系時(shí),也可采用更加適合的方法。進(jìn)而得到更高質(zhì)量的預(yù)測(cè)結(jié)果。
沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年1期