梁春華
摘? ?要:文章從數(shù)據(jù)挖掘基本概念和相關(guān)功能特點(diǎn)入手,闡述了人工神經(jīng)網(wǎng)絡(luò)技術(shù)的相關(guān)概念和應(yīng)用優(yōu)勢(shì)。同時(shí),重點(diǎn)以BP網(wǎng)絡(luò)模型為例,從工作原理、實(shí)現(xiàn)算法、工作流程等方面,深入分析人工神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用要點(diǎn)。
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)挖掘;應(yīng)用
近年來,全球信息化技術(shù)發(fā)展進(jìn)入到了新階段,數(shù)據(jù)挖掘技術(shù)開始進(jìn)入到廣大普通企業(yè)當(dāng)中,幫助企業(yè)執(zhí)行數(shù)據(jù)庫(kù)分析和數(shù)據(jù)應(yīng)用工作。數(shù)據(jù)挖掘旨在從大量數(shù)據(jù)中提取有價(jià)值的信息,對(duì)“互聯(lián)網(wǎng)+”時(shí)代各企業(yè)分析市場(chǎng)、制定策略有關(guān)鍵指導(dǎo)意義。近年業(yè)界提出的人工神經(jīng)網(wǎng)絡(luò)理論吸引了大量從業(yè)者關(guān)注,充分結(jié)合了數(shù)據(jù)庫(kù)技術(shù)和人工智能,具備很好的應(yīng)用前景。
1? ? 數(shù)據(jù)挖掘的基本概念與功能
1.1? 概念
目前,各行業(yè)、各企業(yè)單位會(huì)根據(jù)經(jīng)營(yíng)情況建立數(shù)據(jù)資源庫(kù)。隨著市場(chǎng)發(fā)展和經(jīng)營(yíng)方式多元化,數(shù)據(jù)庫(kù)中收集和儲(chǔ)存的數(shù)據(jù)信息越來越多,企業(yè)面臨著在龐大數(shù)據(jù)庫(kù)中難以快速、精準(zhǔn)找到有應(yīng)用價(jià)值信息的難題。隨著時(shí)代的發(fā)展,人們對(duì)相關(guān)數(shù)據(jù)的種類和呈現(xiàn)形式有更多要求,例如,企業(yè)市場(chǎng)部人員不再是僅關(guān)注銷售數(shù)據(jù),還會(huì)對(duì)客戶購(gòu)買頻率、時(shí)間、評(píng)價(jià)反饋等細(xì)節(jié)性信息有很高需求。顯然,如今傳統(tǒng)結(jié)構(gòu)化、查詢語言已經(jīng)不能滿足日漸增長(zhǎng)且多樣化的信息數(shù)據(jù)需求,急需更先進(jìn)的數(shù)據(jù)挖掘技術(shù)提供支持。數(shù)據(jù)挖掘的關(guān)鍵在于從龐大且復(fù)雜的數(shù)據(jù)庫(kù)中找到有隱性價(jià)值的數(shù)據(jù)信息,經(jīng)過提取處理后給用戶帶來更多實(shí)用價(jià)值[1]。
1.2? 功能
簡(jiǎn)單來講,數(shù)據(jù)庫(kù)挖掘主要功能有兩種:描述現(xiàn)在和預(yù)測(cè)未來。只有從現(xiàn)有數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和價(jià)值,才能成功提取、分析出為未來發(fā)展工作提供依據(jù)、制定策略的信息。數(shù)據(jù)挖掘重點(diǎn)在于從數(shù)據(jù)庫(kù)找到相關(guān)數(shù)據(jù),形成描述數(shù)據(jù)集合、預(yù)測(cè)發(fā)展趨勢(shì)的數(shù)據(jù)模型,其中,用到的分類法重點(diǎn)在于對(duì)數(shù)據(jù)離散類別進(jìn)行描述,預(yù)測(cè)法則是基于數(shù)據(jù)規(guī)律對(duì)其連續(xù)進(jìn)行預(yù)測(cè),可見預(yù)測(cè)是數(shù)據(jù)挖掘技術(shù)中的關(guān)鍵功能。
2? ? 人工神經(jīng)網(wǎng)絡(luò)的基本理論
顧名思義,人工神經(jīng)網(wǎng)絡(luò)的參照物是生物神經(jīng)系統(tǒng),相關(guān)技術(shù)專家依照生物神經(jīng)網(wǎng)絡(luò)架構(gòu)、工作方式和支配管理機(jī)制,在信息數(shù)據(jù)領(lǐng)域進(jìn)行人工模擬。人工神經(jīng)網(wǎng)絡(luò)即通過建立大量處理單元,組成非線性自適應(yīng)動(dòng)態(tài)系統(tǒng),該系統(tǒng)可以對(duì)大量數(shù)據(jù)進(jìn)行統(tǒng)一或精細(xì)化管理,同時(shí)具有抽象分析、聯(lián)想記憶、自適應(yīng)能力。與生物神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元相似的是,人工神經(jīng)網(wǎng)絡(luò)也擁有自學(xué)能力,加上該技術(shù)人工介入和干預(yù)很少,是信息技術(shù)領(lǐng)域中智能化的代表。在人工神經(jīng)網(wǎng)絡(luò)體系中,各系統(tǒng)會(huì)對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)掘其中規(guī)律,神經(jīng)網(wǎng)絡(luò)在發(fā)掘和學(xué)習(xí)過程中,基于相關(guān)邏輯規(guī)則自動(dòng)調(diào)節(jié)神經(jīng)元輸入、輸出機(jī)制,呈現(xiàn)某種數(shù)據(jù)信息規(guī)律。
3? ? 基于人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)挖掘算法
3.1? 數(shù)據(jù)挖掘中典型的神經(jīng)網(wǎng)絡(luò)模型
目前,在全球范圍內(nèi)數(shù)據(jù)挖掘領(lǐng)域中比較常見的人工神經(jīng)網(wǎng)絡(luò)模型包括反向傳播(Back Propagation,BP)網(wǎng)絡(luò)、循環(huán)BP網(wǎng)絡(luò)、自組織映射(Self-Organizing Maps,SOM)網(wǎng)絡(luò)、徑向基函數(shù)(Radical Basis Function,RBF)網(wǎng)絡(luò)等,這些模型是組成人工神經(jīng)網(wǎng)絡(luò)的框架和基礎(chǔ),是實(shí)現(xiàn)數(shù)據(jù)挖掘與智能分析應(yīng)用的關(guān)鍵。
3.1.1? BP網(wǎng)絡(luò)模型
BP網(wǎng)絡(luò)模型主要構(gòu)成要素包括輸入層、輸出層及中間層,整體構(gòu)架屬于多層向前的拓?fù)湫螤?,可以?yīng)對(duì)大量輸入?yún)?shù)形成的復(fù)雜局面,并通過一定機(jī)制實(shí)現(xiàn)簡(jiǎn)化。這種模型在知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)任務(wù)中有大量應(yīng)用,在非線性映射問題研究等方面也有較高的應(yīng)用價(jià)值。例如,基于BP網(wǎng)絡(luò)模型可以實(shí)現(xiàn)多類型數(shù)據(jù)壓縮、圖像處理、手寫文字識(shí)別分析等。
3.1.2? RBF網(wǎng)絡(luò)模型
在RBF人工神經(jīng)網(wǎng)絡(luò)模型中,主要是將非線性傳輸函數(shù)應(yīng)用于隱單元中,如果隱層單元的矢量處于確定狀態(tài),網(wǎng)絡(luò)則僅需修正引出線能至輸出層的單層權(quán)值。顯然,這種結(jié)構(gòu)模型在收斂速度效率方面具備更高水平。作為前饋網(wǎng)絡(luò)的典型,RBF網(wǎng)絡(luò)在很多領(lǐng)域都有極高的應(yīng)用價(jià)值[2]。
3.1.3? Hopfield網(wǎng)絡(luò)模型
Hopfield網(wǎng)絡(luò)模型理論架構(gòu)于1984年被提出,主要架構(gòu)基礎(chǔ)是S型神經(jīng)元,架構(gòu)機(jī)制為單層全互聯(lián)反饋動(dòng)力學(xué)系統(tǒng),具備連續(xù)性和精確定位特點(diǎn),可以對(duì)系統(tǒng)狀態(tài)空間的平衡點(diǎn)進(jìn)行快速收斂。這種人工神經(jīng)網(wǎng)絡(luò)模型主要適用于數(shù)據(jù)庫(kù)優(yōu)化計(jì)算,廣泛應(yīng)用于系統(tǒng)優(yōu)化領(lǐng)域。
在這些網(wǎng)絡(luò)模型當(dāng)中,如果KDD目標(biāo)在于預(yù)測(cè)時(shí)間序列,那么循環(huán)BP網(wǎng)絡(luò)本身的完善性和運(yùn)行機(jī)制具備更高的應(yīng)用價(jià)值;如果對(duì)人工神經(jīng)網(wǎng)絡(luò)模型自我學(xué)習(xí)能力有更高要求,RBF在訓(xùn)練數(shù)據(jù)模擬和執(zhí)行方面的優(yōu)勢(shì)則比較突出。
3.2? 人工神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)算法
目前,BP神經(jīng)網(wǎng)絡(luò)模型在我國(guó)多個(gè)地區(qū)和產(chǎn)業(yè)、領(lǐng)域中有大量應(yīng)用,雖然具備穩(wěn)定性強(qiáng)、覆蓋面廣等優(yōu)勢(shì),但同時(shí)也存在動(dòng)態(tài)信息處理能力缺失、泛化能力差等缺點(diǎn),下面本文就分析BP神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)挖掘中的應(yīng)用要點(diǎn)。
3.2.1? 工作原理
如圖1所示,BP神經(jīng)網(wǎng)絡(luò)模型主要以誤差反向傳播算法為基礎(chǔ),該算法在多層向前神經(jīng)網(wǎng)絡(luò)當(dāng)中應(yīng)用非常廣泛。該算法多個(gè)層次神經(jīng)元互為連接關(guān)系,層次內(nèi)部神經(jīng)元?jiǎng)t相互獨(dú)立。在該算法當(dāng)中,網(wǎng)絡(luò)計(jì)算起始點(diǎn)為輸出層,再由此向前逐漸傳遞,整個(gè)過程中信息沒有反饋操作,需要以專業(yè)方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,一般是基于一套由輸入數(shù)據(jù)及理想數(shù)據(jù)構(gòu)成的訓(xùn)練樣本來實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練。在訓(xùn)練過程中,如果輸入樣本與理想樣本保持一致,則證明數(shù)據(jù)算法運(yùn)行良好;反之,則需要對(duì)權(quán)值進(jìn)行調(diào)整優(yōu)化,直到其保持一致。
3.2.2? 工作流程
在BP神經(jīng)網(wǎng)絡(luò)模型中,正常工作開展一般由工作階段和學(xué)習(xí)階段組成。工作階段中各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)連接權(quán)值是保持不變的,網(wǎng)絡(luò)計(jì)算依然自輸入層向每一個(gè)節(jié)點(diǎn)輸出值開展計(jì)算,確保每一個(gè)節(jié)點(diǎn)都計(jì)算完畢。學(xué)習(xí)階段則是在模型中各節(jié)點(diǎn)輸出保持固定的情況下,由輸出層反向推算各節(jié)點(diǎn)連接權(quán)值的修改量,逐步優(yōu)化各個(gè)連接權(quán)值。在該人工神經(jīng)網(wǎng)絡(luò)模型中,兩個(gè)階段相輔相成,前者旨在計(jì)算分析網(wǎng)絡(luò)輸出量和相關(guān)數(shù)值是否達(dá)到期望值,如果沒有,則由后者對(duì)其進(jìn)行修正,盡量減小誤差。BP神經(jīng)網(wǎng)絡(luò)就是通過反復(fù)計(jì)算和修正,確保網(wǎng)絡(luò)架構(gòu)趨于穩(wěn)定、輸出層的輸出值達(dá)到期望標(biāo)準(zhǔn)[3]。
BP神經(jīng)網(wǎng)絡(luò)模型中,輸入層的各個(gè)節(jié)點(diǎn)主要工作是規(guī)格化處理相關(guān)樣本數(shù)據(jù),而一般在第二層至最后一層之間才是進(jìn)行網(wǎng)絡(luò)計(jì)算和處理分析的重要領(lǐng)域。一般情況下,大多數(shù)數(shù)據(jù)庫(kù)中都會(huì)將各個(gè)處理節(jié)點(diǎn)中的閾值作為單個(gè)連接權(quán)值,目的主要是簡(jiǎn)化計(jì)算,便于人工查詢和分析模型運(yùn)行狀態(tài)。一般人們會(huì)通過連接處理節(jié)點(diǎn)和虛節(jié)點(diǎn),來達(dá)到簡(jiǎn)化計(jì)算的目的。在BP人工神經(jīng)網(wǎng)絡(luò)模型的計(jì)算階段,計(jì)算過程和處理過程描述基本上能夠保持一致,而在網(wǎng)絡(luò)學(xué)習(xí)過程中,重點(diǎn)在于精確發(fā)現(xiàn)輸出層實(shí)際輸出和期望標(biāo)準(zhǔn)值存在的誤差,再基于輸出層來調(diào)整節(jié)點(diǎn)連接權(quán)值。顯然,該模型的運(yùn)行機(jī)制可以對(duì)數(shù)據(jù)計(jì)算和網(wǎng)絡(luò)計(jì)算狀態(tài)進(jìn)行多次反復(fù)驗(yàn)證和審查,對(duì)輸出數(shù)據(jù)準(zhǔn)確性以及是否達(dá)標(biāo)進(jìn)行實(shí)時(shí)自我評(píng)估,讓整個(gè)網(wǎng)絡(luò)數(shù)據(jù)模型具備自我評(píng)估、自我調(diào)整、優(yōu)化輸出的能力,進(jìn)而全面提升數(shù)據(jù)信息輸出效率和質(zhì)量。
4? ? 結(jié)語
綜上所述,當(dāng)前以及未來的社會(huì)是一個(gè)基于互聯(lián)網(wǎng)和信息化的大數(shù)據(jù)時(shí)代,數(shù)據(jù)的分析處理成為各個(gè)行業(yè)關(guān)注的重點(diǎn)。數(shù)據(jù)挖掘在數(shù)據(jù)爆炸的時(shí)代當(dāng)中,是人們從紛繁復(fù)雜的龐大數(shù)據(jù)庫(kù)中找到潛在規(guī)律、發(fā)掘有價(jià)值的信息、預(yù)估市場(chǎng)未來動(dòng)向的重要手段。在傳統(tǒng)數(shù)據(jù)挖掘手段已經(jīng)不適用于當(dāng)代及未來社會(huì)的情況下,具備更高自主性、全面性、精細(xì)化和智能化優(yōu)勢(shì)的人工神經(jīng)網(wǎng)絡(luò)模型被提出。從我國(guó)當(dāng)前相關(guān)領(lǐng)域技術(shù)發(fā)展現(xiàn)狀來看,需要進(jìn)一步對(duì)BP,RBF,Hopfield,SOM等多種全球知名人工神經(jīng)網(wǎng)絡(luò)模型及技術(shù)進(jìn)行分析研究,通過實(shí)踐確定更適合我國(guó)各產(chǎn)業(yè)實(shí)際情況和應(yīng)用前景的技術(shù)類型,全面提升我國(guó)各產(chǎn)業(yè)數(shù)據(jù)分析和價(jià)值挖掘能力,進(jìn)而推動(dòng)相關(guān)產(chǎn)業(yè)全方位、可持續(xù)發(fā)展。
[參考文獻(xiàn)]
[1]溫沁雪,李奕芯,楊碩,等.基于數(shù)據(jù)挖掘和人工神經(jīng)網(wǎng)絡(luò)的厭氧產(chǎn)氣模型構(gòu)建[J].中國(guó)給水排水,2019(1):77-81.
[2]邱明月,王新猛,唐松澤.基于人工神經(jīng)網(wǎng)絡(luò)模型的搶劫犯罪微觀研究[J].信息技術(shù)與信息化,2018(10):140-143.
[3]張斌.數(shù)據(jù)挖掘在廈門第二西通道雙連拱隧道圍巖變形中的應(yīng)用研究[J].施工技術(shù),2019(13):90-93.