姚瑤 趙瑞雪 邱俊強
摘 要:主要介紹了神經(jīng)網(wǎng)絡的中BP神經(jīng)網(wǎng)絡的內(nèi)容,結(jié)合BP神經(jīng)網(wǎng)絡可用訓練人工神經(jīng)元進行數(shù)據(jù)的分類和預測的特點,分析探討了BP神經(jīng)網(wǎng)絡在環(huán)境污染數(shù)據(jù)挖掘中的應用。
關鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡;BP算法
引言:隨著計算機網(wǎng)絡和信息技術的高速發(fā)展,如何從海量數(shù)據(jù)中提取有用信息成為當務之急. 數(shù)據(jù)挖掘正是為順應這種需要而發(fā)展起來的信息處理技術. 它借助某些專門算法,利用計算機從海量數(shù)據(jù)中提取有用 的信息,揭示某些隱藏規(guī)律,從而有效預測和正確指導未來的工作. [1] 分類是數(shù)據(jù)挖掘的主要功能之一,它 通過分析類,標記已知的訓練數(shù)據(jù)集,導出描述并區(qū)分數(shù)據(jù)類或概念的模型 函數(shù),以便能使用該模型預測 類標記未知的對象類. [1] 人工神經(jīng)網(wǎng)絡( ANN ,Artificial Neural Network)是20 世紀 80年代后期迅速發(fā)展起來 的人工智能技術. 它對噪聲數(shù)據(jù)具有很高的承受能力,對未經(jīng)訓練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng) 站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領域得到了越來越廣泛的應用. 在多種 ANN 中,反向傳播 ( BP,Back-Propagation)網(wǎng)絡是應用最廣的一種形式[3] .
1.神經(jīng)網(wǎng)絡定義
(1)生物神經(jīng)網(wǎng)絡主要是指人腦的神經(jīng)網(wǎng)絡,它是人工神經(jīng)網(wǎng)絡的技術原型。人腦是人類思維的物質(zhì)基礎,思維的功能定位在大腦皮層,后者含有大約1011個神經(jīng)元,每個神經(jīng)元又通過神經(jīng)突觸與大約103個其它神經(jīng)元相連,形成一個高度復雜高度靈活的動態(tài)網(wǎng)絡。作為一門學科,生物神經(jīng)網(wǎng)絡主要研究人腦神經(jīng)網(wǎng)絡的結(jié)構、功能及其工作機制,意在探索人腦思維和智能活動的規(guī)律。
(2)人工神經(jīng)網(wǎng)絡是生物神經(jīng)網(wǎng)絡在某種簡化意義下的技術復現(xiàn),作為一門學科,它的主要任務是根據(jù)生物神經(jīng)網(wǎng)絡的原理和實際應用的需要建造實用的人工神經(jīng)網(wǎng)絡模型,設計相應的學習算法,模擬人腦的某種智能活動,然后在技術上實現(xiàn)出來用以解決實際問題。因此,生物神經(jīng)網(wǎng)絡主要研究智能的機理;人工神經(jīng)網(wǎng)絡主要研究智能機理的實現(xiàn),兩者相輔相成
(3)BP神經(jīng)網(wǎng)絡
BP (Back Propagation)神經(jīng)網(wǎng)絡是一種神經(jīng)網(wǎng)絡學習算法。其由輸入層、中間層、輸出層組成的階層型神經(jīng)網(wǎng)絡,中間層可擴展為多層。相鄰層之間各神經(jīng)元進行全連接,而每層各神經(jīng)元之間無連接,網(wǎng)絡按有教師示教的方式進行學習,當一對學習模式提供給網(wǎng)絡后,各神經(jīng)元獲得網(wǎng)絡的輸入響應產(chǎn)生連接權值(Weight)。然后按減小希望輸出與實際輸出誤差的方向,從輸出層經(jīng)各中間層逐層修正各連接權,回到輸入層。此過程反復交替進行,直至網(wǎng)絡的全局誤差趨向給定的極小值,即完成學習的過程。
2. 人工神經(jīng)元( Artificial Neuron )模型 [2]
人工神經(jīng)元是神經(jīng)網(wǎng)絡的基本元素,其原理可以用下圖表示:
圖中x1~xn是從其他神經(jīng)元傳來的輸入信號,wij表示表示從神經(jīng)元j到神經(jīng)元i的連接權值,θ表示一個閾值 ( threshold ),或稱為偏置( bias )。則神經(jīng)元i的輸出與輸入的關系表示為:
圖中 yi表示神經(jīng)元i的輸出,函數(shù)f稱為激活函數(shù) ( Activation Function )或轉(zhuǎn)移函數(shù) ( Transfer Function ) ,net稱為凈激活(net activation)。若將閾值看成是神經(jīng)元i的一個輸入x0的權重wi0,則上面的式子可以簡化為:
若用X表示輸入向量,用W表示權重向量,即:
X = [ x0 , x1 , x2 , ....... , xn ]
則神經(jīng)元的輸出可以表示為向量相乘的形式:
若神經(jīng)元的凈激活net為正,稱該神經(jīng)元處于激活狀態(tài)或興奮狀態(tài)(fire),若凈激活net為負,則稱神經(jīng)元處于抑制狀態(tài)。
圖1中的這種“閾值加權和”的神經(jīng)元模型稱為M-P模型 ( McCulloch-Pitts Model ),也稱為神經(jīng)網(wǎng)絡的一個處理單元( PE, Processing Eleme
3.激活函數(shù)
在神經(jīng)網(wǎng)絡中,網(wǎng)絡解決問題的能力與效率除了與網(wǎng)絡結(jié)構有關外,在很大程度上取決于網(wǎng)絡所采用的激活函數(shù)。激活函數(shù)的選擇對網(wǎng)絡的收斂速度有較大的影響,針對不同的實際問題,激活函數(shù)的選擇也應不同。
常用的激活函數(shù)有以下幾種形式:
(1)閾值函數(shù):該函數(shù)通常也稱為階躍函數(shù)。當激活函數(shù)采用階躍函數(shù)時,人工神經(jīng)元模型即為MP模型。此時神經(jīng)元的輸出取1或0,反應了神經(jīng)元的興奮或抑制。
(2)線性函數(shù):該函數(shù)可以在輸出結(jié)果為任意值時作為輸出神經(jīng)元的激活函數(shù),但是當網(wǎng)絡復雜時,線性激活函數(shù)大大降低網(wǎng)絡的收斂性,故一般較少采用。
(3)對數(shù)S形函數(shù):對數(shù)S形函數(shù)的輸出介于0~1之間,常被要求為輸出在0~1范圍的信號選用。它是神經(jīng)元中使用最為廣泛的激活函數(shù)。
(4)雙曲正切S形函數(shù):雙曲正切S形函數(shù)類似于被平滑的階躍函數(shù),形狀與對數(shù)S形函數(shù)相同,以原點對稱,其輸出介于-1~1之間,常常被要求為輸出在-1~1范圍的信號選用。
4.神經(jīng)網(wǎng)絡模型 [3-6]
神經(jīng)網(wǎng)絡是由大量的神經(jīng)元互聯(lián)而構成的網(wǎng)絡。根據(jù)網(wǎng)絡中神經(jīng)元的互聯(lián)方式,常見網(wǎng)絡結(jié)構主要可以分為下面3類:
(1) 前饋神經(jīng)網(wǎng)絡 (Feedforward Neural Networks )
前饋網(wǎng)絡也稱前向網(wǎng)絡。這種網(wǎng)絡只在訓練過程會有反饋信號,而在分類過程中數(shù)據(jù)只能向前傳送,直到到達輸出層,層間沒有向后的反饋信號,因此被稱為前饋網(wǎng)絡。感知機( perceptron)與BP神經(jīng)網(wǎng)絡就屬于前饋網(wǎng)絡。
圖4 中是一個3層的前饋神經(jīng)網(wǎng)絡,其中第一層是輸入單元,第二層稱為隱含層,第三層稱為輸出層(輸入單元不是神經(jīng)元,因此圖中有2層神經(jīng)元)。
對于一個3層的前饋神經(jīng)網(wǎng)絡N,若用X表示網(wǎng)絡的輸入向量,W1~W3表示網(wǎng)絡各層的連接權向量,F(xiàn)1~F3表示神經(jīng)網(wǎng)絡3層的激活函數(shù)。
那么神經(jīng)網(wǎng)絡的第一層神經(jīng)元的輸出為:
O1 = F1( XW1 )
第二層的輸出為:
O2 = F2 ( F1( XW1 ) W2 )
輸出層的輸出為:
O3 = F3( F2 ( F1( XW1 ) W2 ) W3 )
若激活函數(shù)F1~F3都選用線性函數(shù),那么神經(jīng)網(wǎng)絡的輸出O3將是輸入X的線性函數(shù)。因此,若要做高次函數(shù)的逼近就應該選用適當?shù)姆蔷€性函數(shù)作為激活函數(shù)。
(2) 反饋神經(jīng)網(wǎng)絡 ( Feedback Neural Networks )
反饋型神經(jīng)網(wǎng)絡是一種從輸出到輸入具有反饋連接的神經(jīng)網(wǎng)絡,其結(jié)構比前饋網(wǎng)絡要復雜得多。典型的反饋型神經(jīng)網(wǎng)絡有:Elman網(wǎng)絡和Hopfield網(wǎng)絡。
(3) 自組織網(wǎng)絡 ( SOM ,Self-Organizing Neural Networks )
自組織神經(jīng)網(wǎng)絡是一種無導師學習網(wǎng)絡。它通過自動尋找樣本中的內(nèi)在規(guī)律和本質(zhì)屬性,自組織、自適應地改變網(wǎng)絡參數(shù)與結(jié)構。
5.神經(jīng)網(wǎng)絡的研究可以分為理論研究和應用研究兩大方面。
(1)理論研究可分為以下兩類:
1)、利用神經(jīng)生理與認知科學研究人類思維以及智能機理。
2)、利用神經(jīng)基礎理論的研究成果,用數(shù)理方法探索功能更加完善、性能更加優(yōu)越的神經(jīng)網(wǎng)絡模型,深入研究網(wǎng)絡算法和性能,如:穩(wěn)定性、收斂性、容錯性、魯棒性等;開發(fā)新的網(wǎng)絡數(shù)理理論,如:神經(jīng)網(wǎng)絡動力學、非線性神經(jīng)場等。
(2)應用研究可分為以下兩類:
1)、神經(jīng)網(wǎng)絡的軟件模擬和硬件實現(xiàn)的研究。
2)、神經(jīng)網(wǎng)絡在各個領域中應用的研究。這些領域主要包括:
模式識別、信號處理、知識工程、專家系統(tǒng)、優(yōu)化組合、機器人控制等。隨著神經(jīng)網(wǎng)絡理論本身以及相關理論、相關技術的不斷發(fā)展,神經(jīng)網(wǎng)絡的應用定將更加深入。
6. BP神經(jīng)網(wǎng)絡在環(huán)境污染數(shù)據(jù)挖掘中的應用
通過上文對BP神經(jīng)網(wǎng)絡的模型介紹可知,BP神經(jīng)網(wǎng)絡具有反饋傳輸誤差,修正權值,最終形成適合其他數(shù)據(jù)應用的神經(jīng)網(wǎng)絡的特點。BP神經(jīng)網(wǎng)絡這一特性在大數(shù)據(jù)環(huán)境下可有效利用。而環(huán)境污染方面的數(shù)據(jù)正是龐大而實時變化的大數(shù)據(jù)環(huán)境,面對這樣的大數(shù)據(jù)環(huán)境,有效應用BP神經(jīng)網(wǎng)絡可對環(huán)境污染數(shù)據(jù)進行分類預測。由此提出這樣的應用思想:將近幾年的環(huán)境污染數(shù)據(jù),例如五大空氣質(zhì)量數(shù)據(jù)PM2.5,PM10,NO2,SO2,O3數(shù)值作為BP神經(jīng)網(wǎng)絡的輸入數(shù)據(jù)集,相對應的環(huán)境指標AQI值作為BP神經(jīng)網(wǎng)絡輸出數(shù)據(jù)集,利用BP神經(jīng)網(wǎng)絡反饋傳輸修正誤差形成可預測環(huán)境指標AQI值的神經(jīng)網(wǎng)絡。筆者應用C語言簡單地構造了BP神經(jīng)網(wǎng)絡分類器,并應用2016-2017南京環(huán)境污染相關數(shù)據(jù)訓練神經(jīng)網(wǎng)絡,得到可執(zhí)行程序。但是由于BP神經(jīng)網(wǎng)絡分類器有待優(yōu)化,預測結(jié)果不準確。結(jié)果截圖(如圖6-1)如下:
7.結(jié)束語
通過本文對神經(jīng)網(wǎng)絡的介紹以及對BP神經(jīng)網(wǎng)絡在環(huán)境污染數(shù)據(jù)挖掘中應用的探討,BP神經(jīng)網(wǎng)絡應用領域可大大擴展,尤其對環(huán)境污染數(shù)據(jù)挖掘中相關應用。針對BP神經(jīng)網(wǎng)絡在數(shù)據(jù)挖掘中的應用,對于環(huán)境污染方面不僅僅可實現(xiàn)環(huán)境污染指標的預測,而且極大可能可實現(xiàn)大數(shù)據(jù)污染程度的分類等等,這仍有待探究。
參考文獻:
[1] HAN J,KAMBER M. Data Mining: Concepts andTechniques[ M] . Morgan Kaufmann Publishers,2001.
[2]張?zhí)熘?基于 GABP算法的復雜計算機網(wǎng)絡安全評價中的應用【D】.電子科技大學,2015
[3]劉 釗,蔣良孝. 基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘研究 [ J] . 計算機工程與應用,2004,40( 3): 172-173,190
[4]朱偉剛,徐超.BP神經(jīng)網(wǎng)絡算法在長春地鐵二號線地表沉降預測中的應用【J】.長春工程學院.2018
[5] 馬仕.BP神經(jīng)網(wǎng)絡在地層預測中的應用研究【D】.河北工業(yè)大學.2016
[6] 董明明.蔣濤.數(shù)據(jù)挖掘中BP神經(jīng)網(wǎng)絡與決策樹技術的應用研究【J】.揚州大學.2018
[7] 莫禮平.樊曉平,BP 神經(jīng)網(wǎng)絡在數(shù)據(jù)挖掘分類中的應用【D】 ,中南大學信息科學與工程學院,2006
*雙創(chuàng)項目:南京審計大學金審學院雙創(chuàng)項目201813994005Y