湯震,劉珂
基于小樣本時(shí)間序列的數(shù)據(jù)挖掘技術(shù)研究
湯震,劉珂
時(shí)間序列數(shù)據(jù)是一類典型的關(guān)系型數(shù)據(jù),尤其是小樣本時(shí)間序列數(shù)據(jù)。針對(duì)其樣本少、部分信息未知的特點(diǎn),提出將灰色系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相融合,構(gòu)建灰色神經(jīng)網(wǎng)絡(luò),充分利用兩種方法的優(yōu)勢(shì)對(duì)小樣本時(shí)間序列數(shù)據(jù)進(jìn)行有效挖掘。實(shí)驗(yàn)表明:構(gòu)建的這種網(wǎng)絡(luò)具有較高的預(yù)測(cè)精度,非常適用于小樣本時(shí)間序列數(shù)據(jù)的挖掘。
灰色模型;時(shí)間序列;數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)的應(yīng)用普及,人類進(jìn)入了一個(gè)信息爆炸的時(shí)代,每天都會(huì)直接或間接接觸大量的數(shù)據(jù)信息。但并不是所有的信息都是人們用得著和感興趣的,如何根據(jù)某種規(guī)則或是某種關(guān)聯(lián)性從海量數(shù)據(jù)中提取出有用的信息成為研究的熱點(diǎn)。要實(shí)現(xiàn)對(duì)其進(jìn)行數(shù)據(jù)信息的挖掘,目前所使用的算法有多種[1]。其中對(duì)時(shí)間序列數(shù)據(jù)的挖掘,已經(jīng)成為數(shù)據(jù)挖掘研究的一個(gè)重要分支,在時(shí)間序列數(shù)據(jù)中,不僅數(shù)據(jù)相互之間存在一定的時(shí)間相關(guān)性,而且數(shù)量少、部分信息未知。對(duì)于這類數(shù)據(jù),由于其本身數(shù)據(jù)量較小,而且部分信息未知,所以數(shù)據(jù)挖掘的難度較大。為了解決這一問(wèn)題,本文結(jié)合灰色系統(tǒng)理論處理小樣本數(shù)據(jù)的能力,以及神經(jīng)網(wǎng)絡(luò)強(qiáng)大的數(shù)據(jù)分類能力,提出建立灰色神經(jīng)網(wǎng)絡(luò)模型,來(lái)實(shí)現(xiàn)對(duì)于小樣本時(shí)間序列數(shù)據(jù)的挖掘。通過(guò)仿真實(shí)驗(yàn),結(jié)果表明本文提出的這種方法對(duì)于小樣本時(shí)間序列數(shù)據(jù)具有較好的分類能力。
時(shí)間序列數(shù)據(jù)是一系列跟時(shí)間有關(guān)的數(shù)據(jù)[2-3],用t代表時(shí)間,d代表數(shù)據(jù),因此可以將每一個(gè)單獨(dú)的數(shù)據(jù)看作為一個(gè)二元組(t,d),它可以有多種意義,比如股票的價(jià)格、庫(kù)區(qū)的水深、某種商品的價(jià)格等。那么,我們可以作如下定義:
如果集合R{(t1,d1),(t2,d2),…,(tn,dn)}是一個(gè)有限的時(shí)間序列集,并且滿足條件ti 灰色理論善于處理小樣本、貧信息問(wèn)題,而神經(jīng)網(wǎng)絡(luò)則對(duì)復(fù)雜非線性映射問(wèn)題比較有優(yōu)勢(shì),將這兩種方法結(jié)合起來(lái),構(gòu)建一個(gè)灰色神經(jīng)網(wǎng)絡(luò),可以很好地對(duì)小樣本時(shí)間序列數(shù)據(jù)進(jìn)行分類挖掘,同時(shí)這兩種方法可以互相彌補(bǔ)各自的缺陷[4-5]。 n個(gè)參數(shù)的灰色神經(jīng)網(wǎng)絡(luò)模型的微分方程表達(dá)式為公式(1): 其中,為方程系數(shù),為網(wǎng)絡(luò)輸入?yún)?shù),為網(wǎng)絡(luò)輸出參數(shù)。 式(1)的時(shí)間響應(yīng)式為公式(2): 令公式(3): 則公式(3)可變?yōu)楣剑?): 經(jīng)過(guò)變換,將(4)式映射到一個(gè)擴(kuò)展的 BP神經(jīng)網(wǎng)絡(luò)中,可以得到n個(gè)輸入?yún)?shù)和1個(gè)輸出參數(shù)的灰色神經(jīng)網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)如圖1所示: 圖1 灰色神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu) 依據(jù)上述分析,灰色神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程可以歸納如下: 步驟 1:確定網(wǎng)絡(luò)結(jié)構(gòu),初始化網(wǎng)絡(luò),計(jì)算 a、b、u 參數(shù); 步驟 2:計(jì)算網(wǎng)絡(luò)權(quán)值; 步驟 3:按照下式計(jì)算各層輸出: 步驟 4:按照下式計(jì)算網(wǎng)絡(luò)輸出誤差,如果誤差滿足要求,訓(xùn)練停止;否則 轉(zhuǎn)到步驟 5; LC 層誤差: LB 層誤差: 步驟 5:根據(jù)誤差調(diào)整網(wǎng)絡(luò)權(quán)值和閾值 調(diào)整閾值: 步驟 6:判斷是否達(dá)到最大訓(xùn)練次數(shù),如果是,訓(xùn)練停止;否則轉(zhuǎn)到步驟3。 本實(shí)驗(yàn)完成的是對(duì)某品牌空調(diào)銷售訂單的預(yù)測(cè)。對(duì)于空調(diào)的銷售情況,有很多因素會(huì)對(duì)其銷量產(chǎn)生影響。例如:品牌認(rèn)知度、成本、售后服務(wù)、價(jià)格、性價(jià)比、競(jìng)爭(zhēng)對(duì)手、宣傳力度、產(chǎn)品結(jié)構(gòu)、產(chǎn)品生命周期等。為了能夠比較客觀的完成該實(shí)驗(yàn),同時(shí)檢驗(yàn)本文所提方法的有效性,本文選取了該品牌空調(diào)近3年的銷售訂單數(shù)據(jù),其中前30個(gè)月的數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò),后6個(gè)月的數(shù)據(jù)用來(lái)評(píng)價(jià)所構(gòu)建網(wǎng)絡(luò)的預(yù)測(cè)性能。 首先,我們要對(duì)網(wǎng)絡(luò)進(jìn)行初始化,確定網(wǎng)絡(luò)各層節(jié)點(diǎn)的數(shù)量。對(duì)于灰色神經(jīng)網(wǎng)絡(luò)模型來(lái)說(shuō),LA層只有一個(gè)節(jié)點(diǎn),輸入的是時(shí)間序列;LB層只是對(duì)LA層輸入的變換因此也只有一個(gè)節(jié)點(diǎn);確定LC層節(jié)點(diǎn)個(gè)數(shù)時(shí)需要綜合考慮,本文選取對(duì)空調(diào)銷售影響較大的5個(gè)因素,即價(jià)格、性價(jià)比、品牌認(rèn)知度、售后以及市場(chǎng)份額,因此,LC層共有6個(gè)節(jié)點(diǎn);LD層輸出的為空調(diào)的預(yù)測(cè)銷售訂單,所以,也只有一個(gè)節(jié)點(diǎn)。根據(jù)以上分析,最終確定網(wǎng)絡(luò)結(jié)構(gòu)為1×1×6×1。 下面進(jìn)行數(shù)據(jù)預(yù)處理以及權(quán)值/閾值初始化。數(shù)據(jù)預(yù)處理主要是LC層數(shù)據(jù)的預(yù)處理,由于各個(gè)節(jié)點(diǎn)輸入的量綱不同,因此這里只需要做歸一化處理即可。對(duì)于網(wǎng)絡(luò)的初始權(quán)值,令則網(wǎng)絡(luò)初始權(quán)值可表示為公式(5): LD層中輸出節(jié)點(diǎn)的閾值為公式(6): 將所有訓(xùn)練數(shù)據(jù)處理完成以后,將值輸入到網(wǎng)絡(luò)中,然后進(jìn)行訓(xùn)練,網(wǎng)絡(luò)進(jìn)化次數(shù)設(shè)定為100,其網(wǎng)絡(luò)訓(xùn)練結(jié)果如圖2所示: 圖2 灰色神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程 僅考慮數(shù)據(jù)域:如果數(shù)據(jù)域使用浮點(diǎn)數(shù)進(jìn)行表示,則為了表示傾斜角和方位角,共需要 12+12=24位二進(jìn)制。Huffman編碼壓縮后平均長(zhǎng)度也才是15.5,明顯小于用浮點(diǎn)數(shù)表示時(shí)的長(zhǎng)度24。 從圖2可以明顯看出網(wǎng)絡(luò)的訓(xùn)練效果很好,很短的時(shí)間內(nèi)就進(jìn)化達(dá)到誤差的要求。 首先,把已訓(xùn)練好的網(wǎng)絡(luò)保存,然后將用于測(cè)試的后6個(gè)月的數(shù)據(jù)輸入網(wǎng)絡(luò),同時(shí)將預(yù)測(cè)結(jié)果與實(shí)際的訂單數(shù)進(jìn)行比對(duì),比對(duì)結(jié)果如圖3所示: 圖3 灰色神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果對(duì)比 圖3實(shí)驗(yàn)結(jié)果表明,本文建立的灰色神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果較好,與實(shí)際訂單之間的平均誤差僅為 8.9%,說(shuō)明該網(wǎng)絡(luò)對(duì)于小樣本、貧信息的時(shí)間序列數(shù)據(jù)具有較好的挖掘性能。 時(shí)間序列數(shù)據(jù)一直是數(shù)據(jù)挖掘中研究的一個(gè)熱點(diǎn),尤其是小樣本、貧信息的時(shí)間序列數(shù)據(jù)。本文根據(jù)這類數(shù)據(jù)的特點(diǎn),充分利用灰色理論處理小樣本數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)強(qiáng)大的數(shù)據(jù)分類能力,將灰色系統(tǒng)理論與神經(jīng)網(wǎng)絡(luò)相融合,來(lái)構(gòu)建灰色神經(jīng)網(wǎng)絡(luò)模型,通過(guò)仿真實(shí)驗(yàn)也充分反映出,對(duì)于小樣本的時(shí)間序列數(shù)據(jù),本文的灰色神經(jīng)網(wǎng)絡(luò)具有較好的挖掘能力,為這類數(shù)據(jù)的挖掘處理提供了一條新的思路。 [1] 羅芳瓊,吳春梅.時(shí)間序列分析的理論與應(yīng)用綜述[J].柳州師專學(xué)報(bào), 2009,24(03):113-117 [2] 陳湘濤,李明亮,陳玉娟.基于時(shí)間序列相似性聚類的應(yīng)用研究綜述[J].計(jì)算機(jī)工程與設(shè)計(jì), 2010,31(3):577-581. [3] 何典,梁英.金融時(shí)間序列數(shù)據(jù)挖掘的研究與應(yīng)用[J].世界科技研究與發(fā)展, 2008,30(1):104-106. [4] 李愛國(guó),覃征.在線分割時(shí)間序列數(shù)據(jù)[J].軟件學(xué)報(bào),2004,15(11):1672-1679 [5] 李斌,譚立湘,章勁松等.面向數(shù)據(jù)挖掘的時(shí)間序列符號(hào)化方法研究[J].電路與系統(tǒng)學(xué)報(bào),2000,5(2):9-14. Research on Mining Technology for Small Sample Time Series Data Tang Zhen, Liu Ke Time-series data is a kind of typical relational data, especially the small sample time-series data. According to the limited samples and part of unknown information, this paper integrates the gray system with neural network and build gray neural network. It makes full use of the advantages of these two methods to exavate small sample time series data mining effectively. Experiments show that the network has higher prediction accuracy. It is quite fit for small sample time-series data mining. Gray Model; Time Series; Data Mining; Neural Networks TP311.13 A 2014.09.08) 1007-757X(2014)12-0018-02 河南省教育廳科技攻關(guān)計(jì)劃資助項(xiàng)目(14B520036) 湯震(1983-),男,漢,黃淮學(xué)院信息工程學(xué)院,講師,碩士,研究方向:計(jì)算機(jī)網(wǎng)絡(luò),數(shù)據(jù)挖掘等,駐馬店,463000 劉珂(1980-),男,漢,黃淮學(xué)院信息工程學(xué)院,講師,碩士,研究方向:計(jì)算機(jī)網(wǎng)絡(luò),駐馬店,4630002 灰色神經(jīng)網(wǎng)絡(luò)
3 仿真試驗(yàn)和結(jié)果分析
4 總結(jié)
(School of Information Engineering, Huanghuai University, Zhumadian 463000, China)