蔣林利
數(shù)據(jù)挖掘是一種從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程,它可對知識進行自動提取和分析,因而它與信息系統(tǒng)、數(shù)據(jù)庫技術(shù)之間都存在密切的聯(lián)系。數(shù)據(jù)挖掘的對象并不局限于某一個數(shù)據(jù)庫,不論是一般數(shù)據(jù)庫、高級數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫還是信息系統(tǒng),只要是需要進行數(shù)據(jù)挖掘的系統(tǒng)都可以成為數(shù)據(jù)挖掘的研究對象。數(shù)據(jù)挖掘的內(nèi)容就是從數(shù)據(jù)庫大量的數(shù)據(jù)中挖掘出有用的信息,為行業(yè)提供制定決策所需的依據(jù)。根據(jù)挖掘任務(wù)不同,數(shù)據(jù)挖掘可分為兩種,一種是描述一種是預(yù)測,描述任務(wù)相對預(yù)測任務(wù)而言更為簡單,它只需提取數(shù)據(jù)的表面性質(zhì),而預(yù)測任務(wù)則需對提取的數(shù)據(jù)進分析和預(yù)測。本文以國家統(tǒng)計局編印的《中國統(tǒng)計年鑒》為研究背景,對運輸行業(yè)和郵電行業(yè)的公路貨運量進行分析,并在此基礎(chǔ)上運用數(shù)據(jù)挖掘技術(shù)中的RBF神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建公路貨運量預(yù)測模型。
主成分分析法是一種將多個變量通過線性變化以選出較少個數(shù)重要變量的多元統(tǒng)計法,這種統(tǒng)計法可有效地針對變量間復(fù)雜的關(guān)系進行簡化處理,從而達到降低信息損失量,形成線性組合的目的。主成分分析方法是建立在降維思想的基礎(chǔ)上,由于它對每個變量都進行了不同程度和不同角度的考慮,所以它統(tǒng)計出來的信息實用度都較高,且各指標間都存在重疊和交叉,所以指標的個數(shù)也從多個發(fā)展成綜合指標,綜合指標的形成不僅保證信息的精確、全面,還能提高信息的抓取速度。主成分分析法的運用簡化了研究人員的工作分析量,在將研究重點放在主要成分信息的同時抓住了主要信息的重點內(nèi)容,掌握事物內(nèi)部變量規(guī)律的過程更為簡單,研究人員的工作效率得到了有效的提升。
由于RBF神經(jīng)網(wǎng)絡(luò)在逼近任意連續(xù)函數(shù)時精度不受限制,所以它又屬于局部逼近網(wǎng)絡(luò)。當樣本數(shù)據(jù)的個數(shù)為n,屬性為m,在神經(jīng)網(wǎng)絡(luò)徑向基函數(shù)中的輸入向量應(yīng)為 X=(X1,X2,…,Xm),函數(shù)的輸出向量應(yīng)為Y=(Y1,Y2,…,Ys)。在上述向量中,s代表輸出節(jié)點維數(shù),m代表輸入節(jié)點維數(shù)。隱含層包含的高斯函數(shù)具有一定的輻射狀作用,如下所示為高斯函數(shù):
在上述公式中,ui(x)表示隱節(jié)點i的輸出;樣本輸入向量用x表示;ci表示隱節(jié)點i的中心向量,它和樣本輸入向量x的維數(shù)相同;σi是一個標準常數(shù)。
高斯函數(shù)的數(shù)學表達式非常簡單,即使輸入的量為多變量也不會使運算復(fù)雜化,兩者之間呈現(xiàn)徑向?qū)ΨQ且光滑型較好,任何數(shù)的階導(dǎo)數(shù)都存在。隱含層的節(jié)點輸出ui(x)表示輸入模式與隱含層節(jié)點間呈現(xiàn)分離狀態(tài)時,該隱含層節(jié)點表示的徑向基函數(shù),在傳統(tǒng)的輸入方法中,隱含層節(jié)點的中心向量通常用訓練樣本中隱節(jié)點i的輸入向量,因而馴良樣本的個數(shù)就表示為隱含層節(jié)點的個數(shù)。受高斯函數(shù)性質(zhì)的影響,當ui(x)在隱含層節(jié)點的中心向量處存在最大值時,ui(x)會隨著(x-ci)的增大而逐漸減小直至取值為零,在衰減過程中只有很少的中心向量靠近x,這部分中心向量才能被激活,若用聚類中心代替部分中心,與聚類中心鄰近的中心向量都可以被激活。隱層節(jié)點與輸出層間呈現(xiàn)線性關(guān)系,由此可見神經(jīng)網(wǎng)絡(luò)隱含層中的高斯函數(shù)為線性函數(shù)。
本文用于數(shù)據(jù)挖掘的數(shù)據(jù)來源于國家統(tǒng)計局編印的《中國統(tǒng)計年鑒》中的貨運量信息,信息內(nèi)容有公路總長、公路運量、民用車輛以及私用車輛等。為了驗證數(shù)據(jù)挖掘技術(shù)的精確性,本文選取了2000年至2011年間的所有公路貨運量數(shù)據(jù),用于預(yù)測2012年的公路貨運量。選取的數(shù)據(jù)根據(jù)年份劃分成11個樣本,將2000年至2009年的公路貨運量數(shù)據(jù)作為訓練樣本,將2010年的公路貨運量數(shù)據(jù)作為測試樣本,2011年的公路貨運量數(shù)據(jù)作為對比樣本。由于數(shù)據(jù)的屬性和數(shù)量級各不相同,所以在處理數(shù)據(jù)的過程中比較麻煩,為了滿足神經(jīng)網(wǎng)絡(luò)預(yù)測算法的要求,在進行數(shù)據(jù)挖掘前我們首先要對待挖掘的數(shù)據(jù)進行歸一化處理。然后利用神經(jīng)網(wǎng)絡(luò)算法對預(yù)處理后的數(shù)據(jù)進行預(yù)測,輸入結(jié)構(gòu)為X1、X2、X3,輸出量為Y,其中X1表示公路總長度,X2表示民用車輛的輛數(shù),X3表示私人車輛的輛數(shù)。將2009年的樣本數(shù)據(jù)集合成訓練集,將2010年的樣本數(shù)據(jù)集合成測試集,以此為基礎(chǔ)建立新的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,對訓練集和測試集中的數(shù)據(jù)進行預(yù)測。
時域因素和關(guān)聯(lián)因素都會影響到公路貨運量的預(yù)測信息,公路貨運量數(shù)據(jù)經(jīng)過預(yù)處理后便可形成對應(yīng)的綜合延拓矩陣。關(guān)聯(lián)預(yù)測主要是通過對本年的其他因素進行分析從而達到預(yù)測公路貨運量的目的,時域預(yù)測則是以近幾年的公路貨運量為依據(jù),對今后的發(fā)展趨勢作出的一個公路貨運量預(yù)測信息。無論是時域因素還是關(guān)聯(lián)因素,它們與公路貨運量都存在著直接或間接的聯(lián)系,為了順利完成數(shù)據(jù)預(yù)處理,提高公路貨運量的預(yù)測準確性,本文采用了關(guān)聯(lián)因素與時域因素相結(jié)合的綜合延拓矩陣。首先對數(shù)據(jù)進行歸一化處理全部統(tǒng)一至[0,1]區(qū)間,歸一化處理數(shù)據(jù)的步驟是找出屬性相同的樣本數(shù)據(jù)中的最大值,對該屬性進行處理后將每個樣本所有相同的屬性都除以最大值,這樣就能弱化數(shù)量級對數(shù)據(jù)預(yù)處理的影響。歸一化處理后的數(shù)據(jù)就可用線性回歸法和主成分分析法進行數(shù)據(jù)分析,得出關(guān)聯(lián)因素(X1、X2、X3)的主成分數(shù)據(jù)分析結(jié)果,再將本年前的四年公路貨運量數(shù)據(jù)設(shè)定為時域因素,同樣用線性回歸法和主成分分析法對數(shù)據(jù)進行分析,然后得出時域因素(Y1、Y2、Y3)的主成分數(shù)據(jù)分析結(jié)果。
根據(jù)年份將2000年至2009年的公路貨運量數(shù)據(jù)劃分成9個樣本,然后對這9個樣本數(shù)據(jù)進行均值聚類,K代表聚類的個數(shù)。RBF神經(jīng)網(wǎng)絡(luò)有一個隱含層,而隱含層的中心則是聚類中心,所以隱含層中包含的神經(jīng)元個數(shù)就等于聚類個數(shù),將神經(jīng)網(wǎng)絡(luò)和聚類綜合起來進行反復(fù)實驗,然后利用動態(tài)聚類算法將聚類K設(shè)定為5,獲得如下表所示的下近似集樣本號和上近似集樣本號。表1所示為基于粗糙集的動態(tài)聚類結(jié)果:
表1 基于粗糙集的動態(tài)聚類結(jié)果
RBF神經(jīng)網(wǎng)絡(luò)在輸入結(jié)構(gòu)處有三個節(jié)點,而隱含層則包含了5個節(jié)點,如上文所述將聚類中心作為隱含層的中心,則輸出節(jié)點的個數(shù)為1個?;赗BF構(gòu)建的預(yù)測模型可以吸收9個樣本中包含的數(shù)據(jù)信息,而數(shù)據(jù)信息的體現(xiàn)則是借助綜合延拓矩陣完成的,樣本信息中包含了與公路貨運量相關(guān)的屬性分析和一些預(yù)測值,神經(jīng)網(wǎng)絡(luò)的構(gòu)建是以聚類中心為構(gòu)建中心,在此基礎(chǔ)上學習9個樣本中的數(shù)據(jù)信息,從而使神經(jīng)網(wǎng)絡(luò)達到一個穩(wěn)定狀態(tài)。
構(gòu)建穩(wěn)定的神經(jīng)網(wǎng)絡(luò),首先需建立神經(jīng)網(wǎng)絡(luò)預(yù)測模型,然后選取訓練樣本,訓練樣本數(shù)據(jù)一般就是這11個數(shù)據(jù)樣本,利用神經(jīng)網(wǎng)絡(luò)進行預(yù)測,預(yù)測結(jié)果出現(xiàn)的誤差則用均方誤差表示。均方誤差是表示誤差函數(shù)常用的方法,通常用MSE來表示,其中T代表實際值而Y則用來表示預(yù)測值,具體計算公式如下所示:
將2011年的數(shù)據(jù)信息輸入上述公式,得出2011年一年內(nèi)的公路貨運量,將得出的公路貨運量數(shù)據(jù)與均方誤差進行比較,得出兩者的誤差。
表2 多種模型的預(yù)測性能比較
公路貨運量預(yù)測常用方法包括組合預(yù)測法、直接預(yù)測法和KM-RBF綜合預(yù)測法,直接預(yù)測法則通過分析公路貨運量歷史數(shù)據(jù)達到預(yù)測的目的,它是借助RBF神經(jīng)網(wǎng)絡(luò)對原始數(shù)據(jù)進行直接預(yù)測;組合預(yù)測法主要是用兩種以上的不同預(yù)測方法對公路貨運量數(shù)據(jù)進行預(yù)測的一種方法,它與直接預(yù)測存在一定的區(qū)別,首先要對數(shù)據(jù)進行預(yù)處理,轉(zhuǎn)變成延拓矩陣才能得出預(yù)測結(jié)果;KMRBF綜合預(yù)測法比直接預(yù)測法和組合預(yù)測法的精度都要高,相對于簡單的RBF神經(jīng)網(wǎng)絡(luò)算法,KM-RBF綜合預(yù)測法在分析能力上有所提升,而輸入結(jié)構(gòu)也得到了簡化,預(yù)測顯示的實際值是指該年公路的實際貨運數(shù)值。
[1]王純子,張斌.基于隱層優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型[J].計算機工程,2010,36(18)
[2]李曦,王青,萬云輝,李琦.基于RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型及其應(yīng)用研究[J].泰山學院學報,2008,30(3)
[3]許霞.基于RBF神經(jīng)網(wǎng)絡(luò)的貨運量預(yù)測模型[J].航空計算技術(shù),2007,37(5):28-31