周春楠,黃少濱,遲榮華,李雅,郎大鵬
?
基于譜聚類的高階模糊時序自適應預測方法
周春楠,黃少濱,遲榮華,李雅,郎大鵬
(哈爾濱工程大學計算機科學與技術學院,黑龍江哈爾濱 150001)
結合數(shù)據(jù)特征及分布特點提出一種基于譜聚類的模糊時間序列自適應預測方法。首先基于譜聚類的思想,根據(jù)樣本數(shù)據(jù)特征獲取其所屬論域的個數(shù)及范圍,實現(xiàn)向模糊時間序列的自適應轉(zhuǎn)化;然后基于Markov概率模型表示模糊時間序列中的模糊關系,從而對多步模糊關系、高階模糊關系及模糊關系的穩(wěn)態(tài)進行求解;最后獲取預測值的可能模糊狀態(tài),進而利用去模糊化方法將其還原為預測值。在真實以及人工時間序列數(shù)據(jù)上的實驗表明了所提方法的合理性與有效性。
模糊時間序列;譜聚類;論域劃分;Markov概率模型;模糊關系
時間序列數(shù)據(jù)是在自然界、工程技術以及經(jīng)濟社會等領域廣泛存在著的一種重要數(shù)據(jù)類型,如氣象上的降水量和氣溫數(shù)據(jù)、天文上的太陽黑子數(shù)據(jù)、經(jīng)濟領域的GDP和股指數(shù)據(jù)、醫(yī)學上的心/腦電波序列、移動通信行業(yè)的話務流量、復雜工業(yè)系統(tǒng)運行過程中的狀態(tài)監(jiān)測數(shù)據(jù)等均屬于時間序列數(shù)據(jù)。對時間序列數(shù)據(jù)研究的一項主要內(nèi)容就是時間序列的預測,即根據(jù)歷史時間序列數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特性和發(fā)展規(guī)律,并構造隨時間變化的序列模型,然后基于一定的規(guī)則推測未來的數(shù)據(jù),從而為相應領域的決策提供依據(jù)。
時間序列數(shù)據(jù)包括線性和非線性數(shù)據(jù),相應的預測(建模)方法也分為線性方法和非線性方法。其中,線性預測方法主要包括基于傳統(tǒng)統(tǒng)計學時間序列隨機模型的經(jīng)典回歸分析等方法,而非線性預測方法則主要包括人工智能領域的神經(jīng)網(wǎng)絡、支持向量機等方法。上述回歸方法、神經(jīng)網(wǎng)絡方法、支持向量機方法均利用傳統(tǒng)的確定性關系表示數(shù)據(jù)所屬的集合,并且過于依賴歷史數(shù)據(jù)的完整性、精確性和確定性;然而歷史數(shù)據(jù)往往是不完整的、不精確的、不確定的。
面對這種時間序列的觀測值中包含大量不完整或噪聲信息的情況,模糊時間序列(fuzzy time series)[1]引入了模糊理論,將歷史數(shù)據(jù)中的不確定性變量利用模糊變量進行表示,相應的預測方法也被成功地用于多個領域,如學生登記[1~3]、溫度[4,5]、電信業(yè)務[6]等,其中,在股票預測上的效果尤為明顯[7],而隨著成功案例的不斷涌現(xiàn),許多非信息科學領域,如臨床醫(yī)學[8]、環(huán)境治理[9]以及旅游[10]等也開始采用模糊方法進行建模和分析。
模糊時間序列預測方法的核心內(nèi)容是論域的劃分和模糊規(guī)則的提取,合理有效的方法確保了模型的預測精度。而模糊規(guī)則的提取又是以劃分論域的結果為基礎,針對這一環(huán)節(jié),近年來出現(xiàn)了很多關于論域劃分問題的改進方法。較具代表性的有以均勻等分為思想的論域劃分方法,這種方法相對簡單,建模復雜度較低,但是均勻劃分不能體現(xiàn)信息的真實分布,預測精度也較低[2~5]?;趩l(fā)式來確定論域劃分的方法,考慮了劃分間隔對預測結果的影響[11]。另外,還有基于自然劃分[12]、基于分布密度[13~15]、基于比例的間隔長度[16]、基于遺傳算法[17],基于多變量[18]以及單變量約束的優(yōu)化算法[19]等方法來劃分論域。除了對算法核心內(nèi)容的改進之外,混合方法也是提高算法效果的有效途徑,例如與模糊聚類和神經(jīng)網(wǎng)絡相結合的方法[20,21],與粒子群優(yōu)化與支持向量機結合的方法[22]以及與改進的遺傳算法相結合的方法[23]。
上述方法大多是以時間序列數(shù)據(jù)服從均勻分布或短尾分布為假設而提出的。然而進一步的研究發(fā)現(xiàn),真實時間序列數(shù)據(jù)(特別是經(jīng)濟領域)由于系統(tǒng)的涌現(xiàn)行為更多的是聚集出一種長尾的密度分布,上述方法便缺乏一定的合理性。同時又有研究表明,根據(jù)數(shù)據(jù)的真實分布來確定論域的劃分往往能夠獲得較好的效果,其中尤以基于聚類思想的論域劃分方法更為突出,因為它能夠發(fā)現(xiàn)數(shù)據(jù)的真實密度分布,進而可獲得較高的預測準確性[24]。
例如文獻[25,26]基于層次聚類方法獲得聚簇,并將其轉(zhuǎn)化為對應論域的間隔細分,然后根據(jù)細分的間隔模糊化時間序列,提取模糊關系并構建預測模型。文獻[27]則結合基于密度的聚類以及公理模糊集分類技術構建模糊預測模型。即通過聚類產(chǎn)生的聚簇進行論域劃分,并基于公理模糊集分類方法構建預測模型。然而這些方法在聚類之前需先對數(shù)據(jù)進行排序,如此便失去了聚類能夠發(fā)現(xiàn)數(shù)據(jù)分布情況的最大優(yōu)勢。文獻[28,29]基于模糊C均值(FCM, fuzzy C-means)算法構建模糊時間序列預測模型,根據(jù)聚類結果劃分論域并提取模糊關系。雖然模糊聚類方法有助于發(fā)現(xiàn)時間序列中的模糊關系,但FCM算法需要預先設定聚簇數(shù)目,而時序數(shù)據(jù)的增長會使數(shù)據(jù)分布密度也發(fā)生變化,如此便會導致預測精度的下降。
如前所述,真實的時間序列數(shù)據(jù)往往呈現(xiàn)長尾分布的現(xiàn)象,這是因為時間序列數(shù)據(jù)之間存在一定的關聯(lián)。另外,根據(jù)現(xiàn)有的研究成果可知聚類有助于獲取數(shù)據(jù)分布區(qū)域,從而能夠更準確地進行論域劃分,因此聚類結果的準確性影響著模糊時間序列預測的精度。實際上模糊時間序列中數(shù)據(jù)之間的關聯(lián)關系可以利用一個關聯(lián)矩陣來描述,而譜聚類[30]是基于關系矩陣的一種有效聚類算法,同時它不易陷入局部最優(yōu),而且能夠識別非云狀等特殊分布特點的聚簇,因此譜聚類有助于有效劃分模糊時間序列中的數(shù)據(jù)分布情況。
因此,本文提出一種基于譜聚類的模糊時間序列預測方法。首先基于譜聚類對時間序列數(shù)據(jù)的論域進行劃分,實現(xiàn)由原始時間序列向模糊時間序列的自適應轉(zhuǎn)化,并獲得對應的模糊集合;然后利用模糊集表示模糊時間序列;對于時序觀測值變化的不確定性,提取模糊時間序列中的高階模糊關系,并引入高階Markov概率模型描述這種模糊關系,據(jù)此對后續(xù)數(shù)據(jù)進行預測。從而使所提模型可在不對數(shù)據(jù)分布進行假設的基礎上,有效地劃分原時間序列數(shù)據(jù)的論域;同時高階Markov的引入使模型考慮了之前時刻的數(shù)據(jù)影響后續(xù)數(shù)據(jù)的各種可能性。從論域劃分以及模糊關系提取2個方面保證了模型預測的準確性。
2.1 模糊時間序列定義及表示
模糊集理論最早由Zadeh提出用于處理不確定性問題。Song和Chissom[1]成功地將該理論用于時間序列預測上,其基本思想是根據(jù)時間序列的值域確定一個論域及其對應的一種劃分,根據(jù)劃分的論域構建對應的模糊集合,每個劃分的隸屬度代表了劃分的論域在該模糊集中的權重,然后將時間序列的觀測值映射為所屬論域劃分所對應的模糊集,模糊時間序列即為由模糊集表示的時間序列。上述方法的具體定義如下。
2.2 基于譜聚類的自適應論域劃分方法
譜聚類是一種非無督學習過程,相對于其他聚類算法,它能夠有效解決數(shù)據(jù)分布復雜的情況,且收斂于全局最優(yōu)解[30]。當前部分關于譜聚類的研究集中于利用拉普拉斯矩陣的性質(zhì),其中,較典型的是基于矩陣攝動理論的譜聚類算法[31]。
基于攝動理論的譜聚類算法,相較于傳統(tǒng)譜聚類算法,具有自適應的能力,可自動確定聚簇個數(shù),該方法主要過程如下所述。
1) 計算數(shù)據(jù)集中各元素間的相似性,構建的相似矩陣,矩陣中的元素根據(jù)高斯相似性有。
3) 計算拉普拉斯矩陣的特征值,將其升序排列。
該方法仍遵循譜聚類的基本思想,不同之處在于它對拉普拉斯矩陣的特征值序列進行了判斷,即當矩陣的第個特征值相對于其前一個第個特征值變化較大時,則由前個特征向量所構成的特征矩陣所代表的元素間的關系越穩(wěn)定,因此可利用特征值的差值來確定聚簇的個數(shù),但多大程度的差值可以得到最佳的聚簇個數(shù)需要通過計算特征值的方差來判斷。
面對真實時間序列數(shù)據(jù)中存在大量不完整或噪聲信息的情況,本文所提模型的基本思想是利用無監(jiān)督學習的聚類方法對時間序列數(shù)據(jù)的論域進行劃分并計算模糊集,用模糊集表示原始時間序列數(shù)據(jù)所對應的模糊時間序列。然后構建原始時間序列數(shù)據(jù)中的模糊邏輯關系,并由高階Markov概率轉(zhuǎn)移矩陣對其進行建模。最后計算已知模糊狀態(tài)在高階狀態(tài)轉(zhuǎn)移中發(fā)生概率最高的下一狀態(tài),并通過去模糊化方法將下一模糊狀態(tài)還原為下一時刻的預測數(shù)值。那么基于譜聚類的模糊時間序列預測方法(SFTP,spectral-based fuzzy time-series prediction)構建的具體方法如下所述。
由上述分析可知時間序列數(shù)據(jù)之間存在一定相似性,在劃分論域時需充分考慮它們之間的相似性。譜聚類算法基于對象間的相似矩陣,將聚類問題轉(zhuǎn)化為圖劃分問題,并且不對數(shù)據(jù)的分布進行假設??梢娮V聚類的特點使其更適合于處理劃分論域的問題。那么基于譜聚類確定時間序列論域劃分的具體步驟如下。
①計算描述時間序列數(shù)據(jù)間相似度的相似矩陣,若樣本數(shù)據(jù)對應的趨勢變化序列為,那么相似矩陣的元素如式(2)所示,其中,。
解決圖劃分問題的有效方法是將其轉(zhuǎn)化為求解對應矩陣的譜分解問題,即根據(jù)矩陣的特征值和特征向量對數(shù)據(jù)集進行劃分。同時,由矩陣的攝動理論可知,矩陣的第和個特征值之間的差距越顯著,由所選的個特征向量構成的子空間就越穩(wěn)定。
③獲取趨勢變化序列的聚類結果。由譜聚類的思想可知,拉普拉斯矩陣對應的特征向量即為嵌入空間中的點,然后利用-means 算法對嵌入空間中的點進行劃分,得聚簇集合,其中,。其具體含義為:若第行屬于第個聚簇,說明屬于第個聚簇。
,
,
…,
步驟7 構建模糊關系矩陣。由引言可知,影響模糊時間序列預測準確性的核心內(nèi)容除了論域劃分外,還包括模糊關系的提取。對于時間序列而言,各時刻的預測值往往是不確定的,而傳統(tǒng)的模糊邏輯關系表示往往忽略了這一點。
若將模糊集視為狀態(tài),模糊關系即為狀態(tài)間的轉(zhuǎn)移關系,即可利用高階Markov概率模型表示上述高階模糊邏輯關系,方便考慮之前時刻的數(shù)據(jù)影響后續(xù)數(shù)據(jù)的各種可能性;并將其描述為矩陣的形式,從而可以利用矩陣分析方法對其進行分析以獲得時間序列的整體特性。構建的二階模糊關系矩陣如式(4)所示。
本文在真實以及人工數(shù)據(jù)集上進行實驗,并通過與當前2種主流時間序列預測方法:自回歸和基于神經(jīng)網(wǎng)絡的預測方法,以及3種模糊時間預測方法:平均劃分論域、基于-means和層次聚類的論域劃分方法的預測結果進行對比,說明所提模糊時間序列預測方法能夠獲得相對較準確的預測效果。
為了分析預測效果,選取2種常用的度量時間序列預測準確性的指標:預測誤差方差(MSE, mean square error)和泰爾不等系數(shù)(TIC, Theil inequality coefficient)[32]
4.1 真實數(shù)據(jù)集
隨著通信技術的發(fā)展,通話行為的方式發(fā)生了較大變化,人們由較早的以手機通話為主的業(yè)務模式轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為主的業(yè)務模式,由于數(shù)據(jù)業(yè)務可支撐的應用極多,較難從中分析通話模式,因此本文選擇相對較早的純通話業(yè)務數(shù)據(jù),進行通話行為模式的分析。同時選用粒度過細的長期數(shù)據(jù)樣本構建預測模型會使模型極不穩(wěn)定,導致預測結果誤差增大[33]。那么以中國某省會城市2004年~2009年各月的電信話務量真實時間序列數(shù)據(jù)作為驗證所提模型有效性的實驗數(shù)據(jù)集,并選取其中2004年1月~2009年5月的數(shù)據(jù)作為訓練樣本數(shù)據(jù)集,2009年6月~2009年12月的數(shù)據(jù)則作為測試數(shù)據(jù)集。預測目的是希望基于歷史話務量數(shù)據(jù),對未來的話務量進行預測。該時間序列數(shù)據(jù)的原始分布如圖1(a)所示,按式(1)計算的原始數(shù)據(jù)所對應的趨勢值分布情況如圖1(b)所示??梢娳厔蒉D(zhuǎn)化后的數(shù)據(jù)分布特點相較于原始數(shù)據(jù)而言分布特征更明顯。
如圖2所示,趨勢轉(zhuǎn)化后的數(shù)據(jù)也在一定程度上出現(xiàn)了相關性,因此本文所提模型將以趨勢轉(zhuǎn)化后的數(shù)據(jù)作為預測的基礎,并且在獲得話務量趨勢數(shù)據(jù)后,利用高斯相關函數(shù)構建相似矩陣,相似矩陣的數(shù)值分布如圖3所示。根據(jù)譜聚類特征值計算方法求得特征值序列,在圖4所示的特征值序列中,在第6、12、20個特征值處,特征值的差值有明顯地變化,且在數(shù)值上呈現(xiàn)遞增。因此選取前6個、前12個以及前20個特征向量作為特征向量子空間,分別對趨勢數(shù)據(jù)進行擬合,擬合效果如圖5所示,通過比較3個特征值可知,模型擬合的效果隨著特征向量的增加而提高,且在特征向量為20時最好,但相對于12個特征向量時,模型擬合效果提升不大,且容易出現(xiàn)過擬合影響適應能力。
圖6所示的各典型預測方法的擬合曲線對比也顯示了相較于其他預測方法,本文所提模型SFTP得到的值更加接近于原始數(shù)據(jù),適應性更強,具有更好的擬合效果。
此外,進一步對幾種預測方法關于2種預測指標MSE與TIC的結果進行對比,如圖7所示,其中MSE值為利用小數(shù)定標規(guī)范化后的結果??梢园l(fā)現(xiàn)所提SFTP算法相較于其他算法,能夠取得較低的評價指標值,即可以獲得較好的預測效果。主要是相較于普通的時間序列預測方法, SFTP利用了模糊時間序列建模方法,充分考慮了數(shù)據(jù)的原始特征;而相較于幾種對比的模糊時間序列預測方法,基于譜聚類進行論域劃分并不需要預先對數(shù)據(jù)的分布進行假設,并且它基于數(shù)據(jù)間的相似矩陣,將聚類問題轉(zhuǎn)換為對矩陣的譜分解問題,如前所述,模糊時間序列數(shù)據(jù)之間具有一定的關聯(lián)關系,因此基于譜聚類的方法能夠較準確地獲取數(shù)據(jù)的分布情況,從而有助于論域劃分;另外,基于高階Markov概率模型描述模糊時間序列中的高階模糊關系的方法,也充分考慮了時間序列中歷史數(shù)據(jù)對未來數(shù)據(jù)產(chǎn)生的各種可能的影響??梢姳疚乃崮P驮谡撚騽澐忠约澳:P系提取這2個影響模糊時間序列預測準確性的核心內(nèi)容上,均提供了有效的解決方法。
4.2 人工數(shù)據(jù)集
為了進一步驗證所提算法的有效性,本文還選取了4個常見的人工時間序列數(shù)據(jù)集[33]:Stock、Room Nights、Male Incidence和Sale,進行對比實驗。如圖8所示為幾種預測算法在該4個數(shù)據(jù)集上關于2種預測指標MSE與TIC的對比結果,同樣的,其中MSE值為利用小數(shù)定標規(guī)范化后的結果。其中在Stock與Room Nights數(shù)據(jù)集上,SFTP與AR算法均獲得了較低的MSE和TIC值,即預測結果較準確;而在另2個數(shù)據(jù)集上,相較于幾種對比算法,SFTP也均能表現(xiàn)出較準確的預測效果。這主要是因為SFTP利用數(shù)據(jù)原始特征,無需對數(shù)據(jù)分布進行預先假設,基于譜聚類可較準確地獲取數(shù)據(jù)的分布情況;同時充分考慮了時間序列中歷史數(shù)據(jù)對未來數(shù)據(jù)產(chǎn)生的各種可能的影響。而AR在幾個數(shù)據(jù)集上也能獲得較好的預測效果,說明簡單的預測模型在簡單的時間序列數(shù)據(jù)中即能發(fā)揮較準確的預測作用。
通過上述分析可知,在幾種典型時間序列人工數(shù)據(jù)集上的實驗結果也進一步驗證了所提SFTP算法的有效性。
針對模糊時間序列預測方法中存在的問題,本文提出一種基于譜聚類的模糊時間序列預測方法。該模型基于譜聚類進行論域劃分,在不對數(shù)據(jù)分布進行預先假設的基礎上,能夠有效地劃分原時間序列數(shù)據(jù)的論域;另外模型利用高階Markov概率模型描述模糊時間序列中的高階模糊關系,并據(jù)此對后續(xù)數(shù)據(jù)進行預測,使之前時刻的數(shù)據(jù)對后續(xù)數(shù)據(jù)產(chǎn)生的各種可能影響均被處理。即從論域劃分以及模糊關系提取2個方面保證了模型預測的準確性。在真實時間序列數(shù)據(jù)集上的實驗表明了所提預測方法的有效性。
[1] SONG Q, CHISSOM B S. Fuzzy time series and its models [J]. Fuzzy Sets System, 1993, 54(3): 269-277.
[2] SONG Q, CHISSOM B S. Forecasting enrollments with fuzzy time series [J]. Part I Fuzzy Sets System, 1993, 54(1): 1-9.
[3] SONG Q, CHISSOM B S. Forecasting enrollments with fuzzy time series [J]. Part II Fuzzy Sets System, 1994, 62(1): 1-8.
[4] LEE L W, WANG L H, CHEN S M. Temperature prediction and TAIEX forecasting based on high-order fuzzy logical relationships and genetic simulated annealing techniques [J]. Expert Systems with Applications, 2008, (34): 328-336.
[5] CHEN S M, HWANG J R. Temperature prediction using fuzzy time series [J]. IEEE Transactions on Systems, Man, Cybernetics-Part B: Cybernetics, 2000, 30(2): 263-275.
[6] 王兆霞,孫雨耕. 基于模糊神經(jīng)網(wǎng)絡的網(wǎng)絡業(yè)務量預測研究[J]. 通信學報, 2005,26(3):136-140.
WANG Z X, SUN Y G. Study of predicting network traffic using fuzzy neural networks[J].Journal on Communications, 2005,26(3):136-140.
[7] YU H K. Weighted fuzzy time-series models for TAIEX forecasting [J]. Physical A, 2004, (349): 609-624.
[8] 張韜, 馮子健. 模糊時間序列分析在腎綜合征出血熱發(fā)病率預測的應用初探[J]. 中國衛(wèi)生統(tǒng)計, 2011, 2:146-150.
ZHANG T, FENG Z J. Application of fuzzy time series analysis in incidence of hemorrhagic fever with renal syndrome prediction [J].China Health Statistics, 2011, 2:146-150.
[9] 倪明. 模糊時間序列預測模型研究及其在污水處理上的應用[D]. 西南石油大學,2012.
NI M. Fuzzy time series forecasting model and its application in wastewater treatment[D]. Southwest Pe troleum University, 2012.
[10] ALADAG C H, EGRIOGLU E. A high order seasonal fuzzy time series model and application to international tourism demand of turkey[J]. Applications in Engineering and Technology, 2014, 26(1):295-302.
[11] HUARNG K. Effective lengths of intervals to improve forecasting in fuzzy time series[J]. Fuzzy Sets and Systems, 2001, 123(3): 387-394.
[12] LI S T, CHEN Y P. Natural partition-based forecasting model for fuzzy time series[C]//The IEEE International Conference on Fuzzy Systems Budapest. Hungary, c2004:25-29.
[13] CHEN S M, HSU C C. A new method to forecast enrollments using fuzzy time series [J]. International Journal of Applied Science and Engineering, 2004, 2(3): 234-244.
[14] TRAN T N, WEHRENS R, BUYDENS L. KNN-kernel density-based clustering for high-dimensional multivariate data [J]. Computational Statistics and Data Analysis, 2006, 51(2): 513-525.
[15] CHENG C H, CHANG J R, YEH C A. Entropy-based and trapezoid fuzzification-based fuzzy time series approaches for forecasting IT project cost [J]. Technological Forecasting and Social Change, 2006, 73(5): 524-542.
[16] HUARNG K, YU T H. Ratio-based lengths of intervals to improve fuzzy time series forecasting [J]. IEEE Transactions on Systems,Man, and Cybernetics-Part B: Cybernetics, 2006, 36(2): 328-340.
[17] LEE L W, WANG L H, CHEN S M. Temperature prediction and TAIFEX forecasting based on fuzzy logical relationships and genetic algorithms [J]. Expert Systems with Applications, 2007, (33): 539-550.
[18] CHENG C H, CHENG G W, WANG J W. Multi-attribute fuzzy time series method based on fuzzy clustering [J]. Expert Systems with Applications, 2008, 34(2): 1235-1242.
[19] YOLCU U, EGRIOGLU E, USLU V R. A new approach for determining the length of intervals for fuzzy time series [J]. Applied Soft Computing, 2009, 9(2): 647-651.
[20] EGRIOGLU E, ALADAG C H. Fuzzy time series forecasting with a novel hybrid approach combining fuzzy c-means and neural networks[J]. Expert Systems with Application, 2013, 40(3):854-857
[21] KHASHEI M. Fuzzy artificial neural network p, d, q model for incomplete financial time series forecasting[J]. Applications in Engineering and Technology, 2014, 26(2):831-845.
[22] CHEN S M, KAO P Y. TAIEX forecasting based on fuzzy time series, particle swarm optimization techniques and support vector machines[J]. Information Sciences, 2013, 247(15):62-71.
[23] BAS E, USLU V R, YOLCU U. A modified genetic algorithm for forecasting fuzzy time series[J]. Applied Intelligence, 2014, 41(2): 453-463.
[24] 曹盼盼, 閻春寧. 人類通信模式的冪律分布和Zipf定律[J]. 復雜系統(tǒng)與復雜科學, 2009, 6(4):51-56.
CAO P P, YAN C N. The power law and Zipf’s law in human communication patterns [J]. Complex Systems and Complexity Science, 2009, 6(4):51-56.
[25] CHEN S M, WANG N Y, PAN J S. Forecasting enrollments using automatic clustering techniques and fuzzy logical relationship [J]. Expert Systems with Applications, 2009, 36(8): 11070-11076.
[26] CHEN S M, TANUWIJAYA K. Multivariate fuzzy forecasting based on fuzzy time series and automatic clustering techniques [J]. Expert Systems with Applications, 2011, 38(8):10594-10605.
[27] MILLS T C. Time series techniques for economists[M]. Cambridge: Cambridge University Press, 1990.
[28] LI S T, KUO S C, CHENG Y C, et al. A vector forecasting model for fuzzy time series [J]. Applied Soft Computing, 2011, 11(3): 3125-3134.
[29] WANG W, LIU X. Fuzzy forecasting based on automatic clustering and axiomatic fuzzy set classification [J]. Information Sciences, 2015, 294(294): 78-94.
[30] NG A Y, JORDAN M I, WEISS Y. On spectral clustering: analysis and an algorithm [J]. Advances in Neural Information Processing Systems, 2002, 2(8):849-856.
[31] LUXBURG U V. A tutorial on spectral clustering [J]. Statistics and Computing, 2007, 17(4):395-416.
[32] LI M, LI Y C, LENG J X. Powertype functions of prediction error of sea le-vel time series[J]. Entropy, 2015, 17(7): 4809-4837.
[33] LI M, LI J Y. On the predictability of long-range dependent series[J/OL]. Mathematical Problems in Engineering, 2010, article ID 397454. http://datamarket.com/data/
High-order fuzzy time series self-adaption prediction method based on spectral clustering
ZHOU Chun-nan, HUANG Shao-bin, CHI Rong-hua, LI Ya, LANG Da-peng
(College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China)
A fuzzy time series self-adaption prediction method based on spectral clustering and data characteristics was proposed. First, based on spectral clustering and the characteristics of data, the number and scope of the discourses was obtained to convert into fuzzy time series self- adaptively. Then, fuzzy relationships based on Markov probability model was presented, and the multi-steps, high-order and steady fuzzy relationship are gotten. Finally, proposed meted obtained the probable fuzzy states, and got its predicted values based on defuzzification methods. Experiments on real-world and synthetic time series data indicate the rationality and effectiveness of the proposed method.
fuzzy time series, spectral clustering, discourse partition, Markov probability model, fuzzy relationship
TP399
A
10.11959/j.issn.1000-436x.2016036
2015-05-11;
2015-09-16
中央高?;究蒲袠I(yè)務專項基金資助項目(No.HEUCF100603, No.HEUCFZ1212)
The Fundamental Research Funds for the Central Universities (No.HEUCF100603, No.HEUCFZ1212)
周春楠(1971-),男,黑龍江哈爾濱人,哈爾濱工程大學博士生,主要研究方向為時間序列預測、數(shù)據(jù)挖掘、不確定性研究等。
黃少濱(1965-),男,黑龍江哈爾濱人,哈爾濱工程大學教授、博士生導師,主要研究方向為分布式計算與仿真、模型檢測、數(shù)據(jù)集成等。
遲榮華(1981-),男,黑龍江哈爾濱人,哈爾濱工程大學博士生,主要研究方向為復雜網(wǎng)絡、不確定性研究等。
李雅(1985-),女,黑龍江哈爾濱人,哈爾濱工程大學博士生,主要研究方向為模型監(jiān)測等。
郎大鵬(1983-),男,黑龍江哈爾濱人,哈爾濱工程大學博士生,主要研究方向為模型監(jiān)測等。