穆俊鵬 ,李 娟 ,張 明
(1.上海出版高等專科學校 信息化辦公室,上海 200093;2.上海海事大學 信息工程學院,上海 201306)
隨著經(jīng)濟的發(fā)展,港口的建設逐漸熾熱化,但如果港口的發(fā)展規(guī)模供大于求就會造成資源的浪費[1],因此有必要對影響港口發(fā)展的港口貨物吞吐量進行預測分析,使其成為港口建設和發(fā)展的理論依據(jù)。目前,在預測領域最為廣泛的應用技術是人工神經(jīng)網(wǎng)絡模型,它具有較好的容錯能力和較快的總體處理能力,而且能通過樣本數(shù)據(jù)完成學習或訓練,訓練后的神經(jīng)網(wǎng)絡具有推廣或者泛化能力(對未來數(shù)據(jù)的預測能力),故而本文采用神經(jīng)網(wǎng)絡模型對港口貨物吞吐量進行預測。
主成分分析也稱主分量分析,它是將多指標轉化為少數(shù)的幾個綜合指標,且這幾個綜合指標能夠反映出原來多個變量反映的大部分信息。換言之,就是將許多相關性很高的變量轉化成彼此相互獨立的變量。
BP神經(jīng)網(wǎng)絡的基本原理是:輸入信號由輸入層經(jīng)過隱含層的變換函數(shù)作用后到達輸出層得到目標信號,然后將輸出的目標信號與實際數(shù)據(jù)相比較,利用輸出后的誤差來估計輸出層的直接前導層的誤差,再用這個誤差估計更前一層的誤差,如此一層一層地反傳下去,就獲得了所有其他各層的誤差估計。但它存在一些缺點[3]:如:易陷入局部最小、收斂速度慢、隱含層的結點個數(shù)難以確定等問題。為了能夠獲得更好的泛化全局最優(yōu)性能,主要完成以下的改進[4]:(1)提高網(wǎng)絡訓練的速度;(2)提高訓練的精度;(3)避免網(wǎng)絡陷入局部極小點。本文采用主成分分析法提取出關鍵因子主要是為了防止網(wǎng)絡因影響因素過多而陷入局部極小點,從而提高模型的學習能力和泛化能力。
廣義回歸神經(jīng)網(wǎng)絡是一種前饋式神經(jīng)網(wǎng)絡,不僅具有全局逼近的性能,還具有最佳逼近性能。它是依據(jù)非線性回歸分析建立在非參數(shù)估計基礎上的一種非線性回歸徑向基神經(jīng)網(wǎng)絡。由于GRNN的非線性映射能力較強,且網(wǎng)絡最后收斂于樣本聚集量較多的優(yōu)化回歸面,故常應用于函數(shù)逼近、模式分類等方面。
選取GDP、工業(yè)總產(chǎn)值、第一產(chǎn)業(yè)值、第二產(chǎn)業(yè)值、第三產(chǎn)業(yè)值、固定資產(chǎn)投資總額、進出口總額、社會消費品總額、人口總數(shù)、貨運量、鐵貨物運輸量和公貨物運輸量12個影響港口貨物吞吐量的因素[2,6]。以上海港口為例收集了12個影響因素,數(shù)據(jù)來源于上海統(tǒng)計如表1所示。
步驟如下:
計算出影響因素之間的相關系數(shù)矩陣,其中 rij(i,j=1,2,…,p)為原來變量 xi和 xj的相關系數(shù)。根據(jù) R得到12個影響因素之間的相關性。
(3)根據(jù)步驟(2)得出的矩陣求解對應的特征根和特征向量。首先求解特征方程|λI-R|=0的特征根 λi(i=1,2,…,p),并且按其大小順序排列,即 λ1≥λ2≥…λp≥0;然后求出其對應的特征向量 ei(i=1,2,…,p),結果如表3所示。
表1 上海市吞吐量的12個影響因素
表2 影響因素標準化結果
表3 各成分的特征根,貢獻率和累計貢獻率
表4 主成分負荷
由表4中可以看出GDP、第一、二、三產(chǎn)業(yè)值和人口總額在第一主成分中的負荷較大;鐵貨物運輸量在第二主成分的負荷較大。因此得出關鍵因子為GDP、第一、二、三產(chǎn)業(yè)值、人口總額和鐵貨物運輸量。
2.2.1 BP網(wǎng)絡結構
采用Matlab建立預測模型,輸入神經(jīng)元數(shù)為6個,隱含層為一層,激勵函數(shù)為tansig,隱含層的神經(jīng)元個數(shù)根據(jù)比較法最終選取為11個 (隱含層神經(jīng)元個數(shù)為11個時,網(wǎng)絡的預測值達到最佳),輸出層的激勵函數(shù)為purelin,輸出層的神經(jīng)元個數(shù)為1個,即為預測的年港口貨物吞吐量。
2.2.2 GRNN網(wǎng)絡結構
GRNN網(wǎng)絡結構是通過激活神經(jīng)元來逼近函數(shù),實現(xiàn)輸入矢量的函數(shù)值由某一領域內(nèi)的神經(jīng)元矢量對應的函數(shù)值映射而逼近。結構如圖1所示。
圖1 GRNN網(wǎng)絡結構模型
2.2.3 訓練網(wǎng)絡極其仿真結果
將前15組數(shù)據(jù)作為樣本進行輸入,對BP而言:采用Levebberg-Marquardt優(yōu)化方法的訓練函數(shù)trainlm對網(wǎng)絡進行訓練;權值的學習函數(shù)設為learngdm,且學習率為0.01;性能目標函數(shù)設為mse;訓練的次數(shù)為1 000。對GRNN而言:輸入層的神經(jīng)元數(shù)等于輸入樣本數(shù),其權值等于輸入向量的轉置IW=pT,閾值 b=[-log(0.5)]1/2/spread,其中spread為徑向基函數(shù)的擴展系數(shù),此處擴展系數(shù)取值為0.1(小一點的擴展系數(shù)可以更好地擬合數(shù)據(jù));第二層神經(jīng)元數(shù)也等于輸入樣本數(shù),其目標向量為T,無閾值向量,同樣不需要訓練;隱含層采用高斯變換來控制隱含層的輸出,從而抑制輸出單元的激活。
采用樣本訓練好的網(wǎng)絡,以2009年和2010年的數(shù)據(jù)作為仿真數(shù)據(jù)進行測試,其測試結果如表5所示。
表5 實驗結果
從表5中可以看出,基于PCA的BP網(wǎng)絡和GRNN網(wǎng)絡在貨物吞吐量預測中應用具有很好的擬合效果,相對誤差都在5%內(nèi),且基于GRNN網(wǎng)絡的預測結果明顯優(yōu)于基于BP網(wǎng)絡的預測結果。此外,還可以看到:(1)預測結果受到樣本的大小的影響,當樣本數(shù)量增多時,其預測效果更優(yōu);(2)PB神經(jīng)網(wǎng)絡的預測模型具有不穩(wěn)定性;(3)GRNN神經(jīng)網(wǎng)絡的預測模型具有穩(wěn)定性。
通過仿真得到的誤差值驗證了模型的可用性和模型的擬合能力。使用主成分分析有效地建立了互不相關的因子,減少了網(wǎng)絡的復雜性,同時減小了落入局部區(qū)域的概率;對于函數(shù)的擬合,BP網(wǎng)絡表現(xiàn)出較好的擬合效果,而GRNN網(wǎng)絡在預測方面的應用要優(yōu)于BP網(wǎng)絡。
但仍存在一定的缺陷:(1)未考慮突發(fā)因素的影響,只用于相對穩(wěn)定的預測中;(2)對于BP網(wǎng)絡中的隱含層,沒有一種優(yōu)異方法直接確定;(3)得到誤差與預想的誤差存在一定的界限。因此,本文下一步的目標是將神經(jīng)網(wǎng)絡與其他預測分析技術相結合,以便更好地減小誤差。
[1]陳濤燾,高琴.港口集裝箱吞吐量影響因素研究[J].武漢理工大學學報:信息與管理工程版,2008(6).
[2]徐金河.基于主成分分析法的港口吞吐量內(nèi)在影響因素研究[J].水運工程,2010(1).
[3]王晨光,相秉仁,謝少斐,等.基于主成分分析的 BP神經(jīng)網(wǎng)絡在藥品銷售預測中的應用 [J].藥物生物技術,2009(4).
[4]龍訓建,錢鞠,梁川.基于主成分分析的BP神經(jīng)網(wǎng)絡及其在需水預測中的應用[J].成都理工大學學報,2010(2).
[5]王文才,王瑞智,孫寶雷,等.基于廣義回歸神經(jīng)網(wǎng)絡GRNN的礦井瓦斯含量預測[J].中國煤氣層,2010,(1).
[6]陳婷婷,陳漪翊.基于BP神經(jīng)網(wǎng)絡的港口貨物吞吐量預測[J].計算機與現(xiàn)代化,2009(10).