薛 曄,李肖肖,付恒春
(太原理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,太原030024)
時(shí)間序列分析方法不但可以從數(shù)量上揭示現(xiàn)象的變化規(guī)律,而且還能預(yù)測(cè)現(xiàn)象的未來(lái)行為,但在自然科學(xué)與社會(huì)科學(xué)研究中常常會(huì)存在一些具有模糊、不完備、或變量間相互關(guān)聯(lián)等特性的時(shí)間序列。例如,貨幣流通情況通??擅枋鰹檎?、不正常、很不正常等模糊語(yǔ)義數(shù)據(jù),這種經(jīng)濟(jì)現(xiàn)象的形成往往是受多種因素交互影響的結(jié)果。若用傳統(tǒng)的時(shí)間序列模型對(duì)其變動(dòng)趨勢(shì)進(jìn)行解釋,很可能會(huì)導(dǎo)致模型判定偏差或預(yù)測(cè)結(jié)果和實(shí)際值間的誤差。因此研究多變量模糊時(shí)間序列具有重要的理論和實(shí)踐意義。
Song等[1,2]提出模糊時(shí)間序列的概念,并對(duì)美國(guó)阿拉巴馬州的每年招生人數(shù)進(jìn)行預(yù)測(cè)。Chen等[3]提出聚類算法,根據(jù)對(duì)樣本數(shù)據(jù)的聚類結(jié)果確定各子區(qū)間的劃分。Emrah[4]基于聚類分析建立模糊時(shí)間序列模型,以二變量C-均值聚類模型對(duì)租船費(fèi)率做預(yù)測(cè),以衡量模型精度的均方根誤差顯示該模型比傳統(tǒng)模糊時(shí)間序列模型優(yōu)越。Rubio等[5]根據(jù)與原始模糊邏輯關(guān)系相關(guān)的時(shí)間順序,在模糊時(shí)間序列中使用新的加權(quán)算子來(lái)提高預(yù)測(cè)精度。Avazbeigi等[6]為預(yù)測(cè)伊朗公司的汽車(chē)工業(yè)產(chǎn)量,利用禁忌搜索算法構(gòu)建了多元高階模糊時(shí)間序列模型。邱望仁等[7]基于證據(jù)理論選取開(kāi)盤(pán)價(jià)、最高價(jià)及最低價(jià)的243個(gè)日交易數(shù)據(jù)對(duì)滬市股指預(yù)測(cè),并得出多變量模糊時(shí)間序列模型的預(yù)測(cè)精度高于單變量模型的結(jié)論。
綜上所述,目前對(duì)于模糊時(shí)間序列模型的研究主要集中在大樣本多變量或僅是單變量的的情況,但事實(shí)上大多是受多個(gè)變量影響且小樣本的情況。鑒于此,本文結(jié)合信息擴(kuò)散理論可以充分提取樣本數(shù)據(jù)的信息,彌補(bǔ)樣本不足的缺陷,構(gòu)建一個(gè)正態(tài)擴(kuò)散多變量模糊時(shí)間序列模型。
設(shè)X是給定樣本,U是論域V的一個(gè)子集。從X×U到[0,1]上的一個(gè)映射,即:
則稱X在U上的一個(gè)信息擴(kuò)散。
如果μ(x,u)是遞減的,即若,那么μ稱為一個(gè)擴(kuò)散函數(shù),U稱為一個(gè)監(jiān)控空間。
?g∈G,假定Xg的選定監(jiān)控空間為是一個(gè)有序等距分割集合ugj所組成的集合,即為Ugj的區(qū)間長(zhǎng)度。
根據(jù)中心極限定理和大數(shù)定律,目前的經(jīng)濟(jì)行為和經(jīng)濟(jì)現(xiàn)象一般近似服從正態(tài)分布,因此,本文選取正態(tài)信息擴(kuò)散函數(shù)[8]。
設(shè)?xi∈X是一個(gè)r變量向量,即且令:,為X的選定監(jiān)控空間。U中有個(gè)元素。令μ(g)為Xg在Ug上的一個(gè)擴(kuò)散函數(shù),記作
其中,hg稱作第g個(gè)擴(kuò)散系數(shù)。
注:對(duì)于每一個(gè)Xg,都有一個(gè)正態(tài)擴(kuò)散函數(shù)的模糊集Fg與之對(duì)應(yīng),這一過(guò)程稱為時(shí)間序列的模糊化。模糊集Fg不唯一,隨著區(qū)間長(zhǎng)度Δ與擴(kuò)散系數(shù)h的變化而變化。
正態(tài)擴(kuò)散系數(shù)h的選擇直接影響著擴(kuò)散函數(shù)的預(yù)測(cè)結(jié)果,若h越小,則函數(shù)結(jié)果就越不穩(wěn)定;若h越大,則函數(shù)結(jié)果的分辨率就越低。因此針對(duì)小樣本而言,h的確定顯得尤為重要。目前應(yīng)用最廣泛的確定信息擴(kuò)散系數(shù)的方法有兩種:
(1)基于兩點(diǎn)擇近原則確定
(2)基于積分均方誤差(MISE)最小原則確定
其中σ為樣本觀測(cè)值的標(biāo)準(zhǔn)差。
多變量模糊時(shí)間序列模型的構(gòu)建主要步驟包括:(1)利用多變量正態(tài)信息擴(kuò)散構(gòu)造模糊信息矩陣;(2)運(yùn)用模糊集理論構(gòu)建模糊關(guān)系矩陣;(3)基于模糊近似推理方法建構(gòu)多變量模糊時(shí)間序列預(yù)測(cè)模型。
即:
于是W在上的模糊信息矩陣為:
依據(jù)模糊集理論,將式(7)轉(zhuǎn)化為模糊關(guān)系矩陣式(9),具體計(jì)算如下:
則模糊關(guān)系矩陣為:
利用模糊近似推理方法建構(gòu)多變量模糊時(shí)間序列預(yù)測(cè)模型:
考慮到模型的復(fù)雜度與模型精度,將“?”選為“∨-*”,則正態(tài)擴(kuò)散多變量模糊時(shí)間序列模型(NDMFTSM):
注:(1)R隨著hx、hy和hz的變化而變化。即,只要確定了hx、hy和hz,模糊關(guān)系矩陣R也隨之確定。(2)基于正態(tài)信息擴(kuò)散方法構(gòu)建模糊關(guān)系矩陣的操作簡(jiǎn)單易行,可以避免大量復(fù)雜計(jì)算。
造成大氣污染的重要因素之一SO2的過(guò)量排放不僅對(duì)人們生活質(zhì)量及國(guó)家經(jīng)濟(jì)可持續(xù)發(fā)展存在著顯著的負(fù)面影響,而且SO2與能源消耗、經(jīng)濟(jì)增長(zhǎng)密切相關(guān),因此本文選取度量能源消耗的能源消費(fèi)總量(TEC)、度量經(jīng)濟(jì)總量的人均GDP(PCGDP)兩個(gè)指標(biāo)來(lái)預(yù)測(cè)二氧化硫排放量(ESO2)。
本文選取的是2006—2016年TEC、PCGDF、ESO2的時(shí)間序列數(shù)據(jù)(見(jiàn)表1),數(shù)據(jù)均來(lái)自2007—2017年《中國(guó)統(tǒng)計(jì)年鑒》。
表1 TEC、PCGDF、ESO2的時(shí)間序列數(shù)據(jù)
為了減少分散程度和提高預(yù)測(cè)精度,將表1中數(shù)據(jù)進(jìn)行對(duì)數(shù)預(yù)處理,即Y=ln(ESO2),見(jiàn)表2所示:
表2 ln(T EC)、ln(P CGDF)、ln(E SO2)的時(shí)間序列數(shù)據(jù)
3.2.1 NDMFTSM模型的預(yù)測(cè)
由表2樣本數(shù)據(jù)可得:ax=12.985,bx=12.565;代入公式(3)可得選取論域:由式(5)至式(7)計(jì)算得到模糊信息矩陣:
由式(8)及式(9)可得模糊關(guān)系矩陣:
將模糊關(guān)系矩陣R25×5和信息擴(kuò)散矩陣P,代入式(11)得到2007—2016年二氧化硫排放量的預(yù)測(cè)值F?t,見(jiàn)表3:
表3 NDMFTSMh0的預(yù)測(cè)結(jié)果
為了與馬爾可夫模型的預(yù)測(cè)結(jié)果進(jìn)行比較,利用式(12)對(duì)表3結(jié)果計(jì)算模糊集重心GCt,另外,為了更清楚地顯現(xiàn)不同模型預(yù)測(cè)結(jié)果的變化情況,進(jìn)一步對(duì)GCt進(jìn)行對(duì)數(shù)逆變換指數(shù)運(yùn)算結(jié)果見(jiàn)表4第5列。
此外,進(jìn)一步討論信息擴(kuò)散系數(shù)對(duì)模型預(yù)測(cè)精度的影響,將表2數(shù)據(jù)代入式(4)得到,再由式(5)至式(12)得到SO2排放量預(yù)測(cè)值見(jiàn)表4第6列。
表4 不同h情況下NDMFTSM對(duì)SO2排放量的預(yù)測(cè)值及誤差
由表4可知,與NDMFTSMh0相比較而言,NDMFTSMhMISE的絕對(duì)誤差較大,在2007年、2010年、2011年、2013—2016年的預(yù)測(cè)值與實(shí)際值的偏離較遠(yuǎn)。此外,表4第12行的MAE,32.741<51.433;表4第13行的MAPE,0.016<0.024,表明信息擴(kuò)散系數(shù)對(duì)NDMFTSM的預(yù)測(cè)精度有影響,且小樣本時(shí),NDMFTSMh0的預(yù)測(cè)效果較好,即比較理想地反映了實(shí)際值的變動(dòng)趨勢(shì),而NDMFTSMhMISE預(yù)測(cè)值的曲線波動(dòng)較大,如圖1所示。
圖1 不同的信息擴(kuò)散系數(shù)對(duì)模型精度的影響
3.2.2 Markov模型的預(yù)測(cè)
為了與NDMFTSM進(jìn)行比較,選取一階Markov模型[9]對(duì)2007—2016年中國(guó)二氧化硫排放量進(jìn)行預(yù)測(cè)。設(shè)只受的影響,并且選取與NDMFTSM模型相同的論域U、U′與V。則:
其中,RM為模糊馬爾可夫相關(guān)矩陣,且:
基于matlab7.0計(jì)算得到RM:
將表2數(shù)據(jù)以及RM代入式(13)得到二氧化硫排放量的預(yù)測(cè)值,具體結(jié)果見(jiàn)表5第4列。
表5 Markov對(duì)SO2排放量的預(yù)測(cè)值及誤差
依據(jù)表4和表5可知,NDMFTSMh0與NDMFTSMhMISE的預(yù)測(cè)結(jié)果與實(shí)際值的偏差均小于Markov模型,又因?yàn)?2.741<51.433<81.984,0.016<0.024<0.040,所 以 NDMFTSM的預(yù)測(cè)誤差較小,即模型精度較高,其中NDMFTSMh0的預(yù)測(cè)最優(yōu)。相對(duì)而言,NDMFTSMh0較好地反映了實(shí)際值的變動(dòng)趨勢(shì),NDMFTSMhMISE與Markov模型在預(yù)測(cè)期初以及期末都出現(xiàn)了不同程度的偏離,曲線波動(dòng)比較大,如下頁(yè)圖2所示。主要原因在于Markov及NDMFTSM模型中的模糊關(guān)系矩陣R的建立方式不同,前者依據(jù)變量當(dāng)期及滯后一期的時(shí)間序列F(Xt)及F(Xt-1)定義的“×”運(yùn)算取得模糊關(guān)系矩陣RM,當(dāng)變量個(gè)數(shù)增加或樣本容量增大時(shí),RM不僅可能出現(xiàn)模糊關(guān)系爆炸的現(xiàn)象,還需大量的運(yùn)算時(shí)間;而NDMFTSM模型在小樣本或信息不充分、不完備的情況下,仍可提取樣本中更多的有用信息以彌補(bǔ)樣本不足的缺陷,進(jìn)一步提高模型的精度。對(duì)所建模型值得一提的是:隨著樣本容量的增大,模糊關(guān)系矩陣的計(jì)算難度不會(huì)增加反而還提高了模型的預(yù)測(cè)精度。
圖2 實(shí)際值和NDMFTSM及Markov模型的預(yù)測(cè)結(jié)果
本文利用正態(tài)信息擴(kuò)散技術(shù)構(gòu)建了一個(gè)多變量模糊時(shí)間序列模型,并討論h0與hMISE對(duì)NDMFTSM的影響,進(jìn)而與一階Markov模型結(jié)果進(jìn)行對(duì)比分析。結(jié)果表明:(1)信息不完備或小樣本問(wèn)題情況下,NDMFTSM利用正態(tài)信息擴(kuò)散技術(shù)提高了模型的預(yù)測(cè)精度;(2)h影響NDMFTSM的預(yù)測(cè)精度;小樣本時(shí),NDMFTSMh0的預(yù)測(cè)精度更高;(3)在預(yù)測(cè)二氧化硫排放量時(shí),NDMFTSM比Markov模型的預(yù)測(cè)效果好且計(jì)算過(guò)程方便簡(jiǎn)潔。需要指出的是,本文僅選取了兩種比較常用的信息擴(kuò)散系數(shù)的確定方法,雖然結(jié)果比較理想,但還是具有一定的局限性,下一步將對(duì)h的確定方法做深入研究。