林 敏,楊耀寧
(1. 閩南科技學(xué)院計(jì)算機(jī)信息學(xué)院,福建 泉州 362000;2. 云南大學(xué)建筑與規(guī)劃學(xué)院,云南 昆明 650500)
隨著科學(xué)技術(shù)和信息技術(shù)的快速發(fā)展,數(shù)據(jù)生產(chǎn)能力和采集能力也得到巨大的提升。但是在數(shù)據(jù)分析以及知識(shí)獲取方面,能力相對(duì)比較落后。信息科技的演變,數(shù)據(jù)挖掘的逐漸完善使其成為一種高級(jí)數(shù)據(jù)工具[1-2]。但是網(wǎng)絡(luò)以及相關(guān)科技的發(fā)展,全面加速了通信以及計(jì)算等技術(shù)的合并,導(dǎo)致需要處理的數(shù)據(jù)量快速增加。所以,數(shù)據(jù)挖掘技術(shù)成為現(xiàn)階段研究的熱點(diǎn),引發(fā)了廣泛的關(guān)注?,F(xiàn)階段已經(jīng)出現(xiàn)了大量的神經(jīng)網(wǎng)絡(luò)模型,可以從多個(gè)角度對(duì)數(shù)據(jù)展開(kāi)挖掘處理,被廣泛應(yīng)用于數(shù)據(jù)挖掘之中。通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)的分析可知,神經(jīng)網(wǎng)絡(luò)的并行處理能力和自組織學(xué)習(xí)能力比較強(qiáng),可以解決很多不同的問(wèn)題。
國(guó)內(nèi)相關(guān)專家也針對(duì)該方面內(nèi)容展開(kāi)大量研究,例如車全偉等人[3]優(yōu)先采用神經(jīng)網(wǎng)絡(luò)構(gòu)建數(shù)據(jù)挖掘模型,以車輛碰撞為研究對(duì)象,對(duì)有限元模型的準(zhǔn)確性展開(kāi)具體實(shí)驗(yàn)分析,將該模型為依據(jù),得到對(duì)應(yīng)的仿真數(shù)據(jù)。將數(shù)據(jù)作為模型的輸入和輸出,對(duì)數(shù)據(jù)訓(xùn)練,完成數(shù)據(jù)挖掘。吳玉佳等人[4]構(gòu)建了一種基于神經(jīng)網(wǎng)絡(luò)的文本分類模型,通過(guò)模型完成數(shù)據(jù)重要特征屬性挖掘。馮麟涵等人[5]以徑向基神經(jīng)網(wǎng)絡(luò)為框架,提出基于RBF神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法。構(gòu)建了多條形式多樣且分布合理的有限元計(jì)算模型,選取多個(gè)分布均勻的樣本測(cè)點(diǎn),構(gòu)建船舶沖擊環(huán)境預(yù)報(bào)模型,獲取對(duì)應(yīng)的仿真工況參數(shù),將其作為神經(jīng)網(wǎng)絡(luò)的輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練處理,同時(shí)采用聚類算法對(duì)網(wǎng)絡(luò)參數(shù)優(yōu)化處理,實(shí)現(xiàn)數(shù)據(jù)挖掘和預(yù)報(bào)處理。
在以上神經(jīng)網(wǎng)絡(luò)算法的應(yīng)用背景基礎(chǔ)上,研究大數(shù)據(jù)挖掘中神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的可靠性方法。經(jīng)測(cè)試結(jié)果表明,在數(shù)據(jù)挖掘過(guò)程中加入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法可以全面提升算法的可靠性,同時(shí)獲取更加精準(zhǔn)的數(shù)據(jù)挖掘結(jié)果。
分析神經(jīng)元的基本組成結(jié)構(gòu),設(shè)定s1(t),s2(t),…,sj(t)代表神經(jīng)元的連續(xù)時(shí)變輸入函數(shù);p1(t),p2(t),…,pj(t)代表連接權(quán)函數(shù);ρ(υ,τ)代表神經(jīng)元的聚合算子;l代表激勵(lì)函數(shù);通過(guò)式(1)給出單層神經(jīng)網(wǎng)絡(luò)模型輸入以及輸出之間的映射關(guān)系R:
(1)
式中,g代表神經(jīng)網(wǎng)絡(luò)的時(shí)間變參積分;n代表常數(shù);φ代表神經(jīng)元的輸出閾值。
將sj(t)展開(kāi),則可以獲取以下計(jì)算式:
(2)
式中,yl(t)代表正交基函數(shù);xil代表輸入空間中的隨機(jī)函數(shù)。
將權(quán)函數(shù)θij(t)表示為s1(t),s2(t),…,sj(t)的展開(kāi)形式,則有:
(3)
通過(guò)上述分析,給出不同函數(shù)的正交基函數(shù)展開(kāi)處理步驟:
1)對(duì)輸入空間基函數(shù)s1(t),s2(t),…,sj(t)實(shí)行基函數(shù)展開(kāi)處理;
2)設(shè)定網(wǎng)絡(luò)學(xué)習(xí)誤差精度、累積迭代學(xué)習(xí)次數(shù)以及最大迭代學(xué)習(xí)次數(shù);
3)對(duì)權(quán)值和閾值兩者初始化處理;
4)采用式(4)計(jì)算誤差函數(shù):
(4)
式中,W代表誤差函數(shù);xk和sk分別代表基函數(shù)展開(kāi)的系數(shù)取值。
5)通過(guò)式(2)和式(3)對(duì)全部參數(shù)展開(kāi)處理,輸出展開(kāi)結(jié)果。
經(jīng)過(guò)上述分析,需要為神經(jīng)網(wǎng)絡(luò)尋找一種既可以優(yōu)化網(wǎng)絡(luò)又可以學(xué)習(xí)其它網(wǎng)絡(luò)參數(shù)的優(yōu)化方法,所以以下引入PSO算法[6-7],通過(guò)式(5)給出粒子更新的計(jì)算式:
(5)
式中,i代表粒子的數(shù)量;c1和c2代表兩種學(xué)習(xí)因子;g1和g2代表在[0,1]內(nèi)的隨機(jī)數(shù);PiBd(t)和PgBd(t)分別代表第i個(gè)粒子和其鄰域范圍內(nèi)獲取的最優(yōu)位置;Vid(t)和Xid(t)分別代表粒子的速度和位置更新結(jié)果;χ代表收縮系數(shù),詳細(xì)的計(jì)算式如下:
(6)
式中,φ代表適應(yīng)度評(píng)價(jià)系數(shù)。
分析前饋過(guò)程元神經(jīng)網(wǎng)絡(luò),隱層共包含m個(gè)過(guò)程神經(jīng)元,設(shè)定網(wǎng)絡(luò)輸出為常數(shù),在輸出層中只包含一個(gè)簡(jiǎn)單的神經(jīng)元。通常情況下,在神經(jīng)網(wǎng)絡(luò)的輸入和隱層中包含大量的權(quán)函數(shù),而剩余層之間則主要為連接權(quán)和閾值,兩者均為常數(shù)。在過(guò)程神經(jīng)元學(xué)習(xí)的過(guò)程中,主要目的是完成連接權(quán)函數(shù)的學(xué)習(xí)。由于大部分函數(shù)的維數(shù)無(wú)法通過(guò)窮舉的方式直接得到,所以依然需要借助基函數(shù)展開(kāi)的方式解決上述問(wèn)題。同時(shí),需要采用PSO算法[8-9]對(duì)隱層的神經(jīng)元數(shù)量以及模型中的其它參數(shù)統(tǒng)一優(yōu)化處理。
經(jīng)過(guò)基函數(shù)展開(kāi)處理后獲取的模型輸出G如式(7)所示:
(7)
通過(guò)PSO算法的優(yōu)化特點(diǎn),需要將全部PSO參數(shù)整合處理,同時(shí)對(duì)其優(yōu)化處理,確保目標(biāo)訓(xùn)練過(guò)程中神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)更加具有整體性,并且更加全面使用了PSO算法的全局搜索能力,使其逼近能力得到有效增強(qiáng)。其中,PSO中的粒子可以表示為式(8)的形式:
(8)
式中,p代表種群中隨機(jī)一個(gè)粒子;L代表神經(jīng)網(wǎng)絡(luò)的展開(kāi)系數(shù);m代表參數(shù)總數(shù)。
粒子的維度可以表示為式(9)的形式
(9)
式中,d代表粒子的維度信息;L代表粒子搜索空間的范圍設(shè)定。
分析粒子的組成結(jié)構(gòu)可知,數(shù)據(jù)前兩維的取值不可以過(guò)大,同時(shí)均為正整數(shù)。另外,基函數(shù)也會(huì)對(duì)L的取值范圍產(chǎn)生一定的影響,所以需要結(jié)合實(shí)際問(wèn)題給予合理的限定。
針對(duì)PSO算法的停止原則,可以通過(guò)經(jīng)典的交叉驗(yàn)證方法,設(shè)定合理的PSO迭代次數(shù)可以有效防止樣本訓(xùn)練過(guò)程中過(guò)擬合現(xiàn)象的產(chǎn)生,全面提升算法的泛化能力,使其能夠獲取更高的預(yù)測(cè)精度,當(dāng)預(yù)測(cè)精度取值最低,則可以停止迭代。
通過(guò)上述分析,結(jié)合PSO算法[10-11]對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法展開(kāi)優(yōu)化處理,詳細(xì)的操作流程如圖1所示。
圖1 基于PSO優(yōu)化的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法流程
為了完成大數(shù)據(jù)的特征提取以及信息挖掘,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法完成大數(shù)據(jù)的特征提取和分類。采用Kohonen網(wǎng)絡(luò)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,引入數(shù)據(jù)分類模型提出自組織特征映射方法,根據(jù)其展開(kāi)大數(shù)據(jù)挖掘的無(wú)監(jiān)督學(xué)習(xí),所構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型如圖2:
圖2 神經(jīng)網(wǎng)絡(luò)模型
通過(guò)圖2可構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型展開(kāi)大數(shù)據(jù)的學(xué)習(xí)訓(xùn)練。其中,大數(shù)據(jù)挖掘的訓(xùn)練模型可以劃分為以下幾個(gè)步驟:
1)優(yōu)先給出Web數(shù)據(jù)庫(kù)的分類和查詢接口總數(shù),統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)中輸入節(jié)點(diǎn)總數(shù),對(duì)各個(gè)節(jié)點(diǎn)向量初始化處理,獲取自適應(yīng)加權(quán)向量,經(jīng)過(guò)計(jì)算得到各個(gè)節(jié)點(diǎn)的自適應(yīng)加權(quán)系數(shù),將其作為隨機(jī)向量數(shù)構(gòu)建訓(xùn)練序列。
2)對(duì)于神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)而言,需要設(shè)定數(shù)據(jù)庫(kù)規(guī)模樣本數(shù)量,同時(shí)將訓(xùn)練向量模式表示為式(10)的形式:
(10)
上式中,L(t)代表訓(xùn)練向量模式表;lmnt代表訓(xùn)練子向量。
3)通過(guò)式(11)計(jì)算大數(shù)據(jù)搜索查詢結(jié)果和各個(gè)聚類中心之間的連接權(quán)向量距離Dij:
(11)
上式中,xi(t)代表大數(shù)據(jù)的搜索查詢結(jié)果。
4)通過(guò)式(12)計(jì)算獲取神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)慣性權(quán)重:
(12)
上式中,Nj代表動(dòng)態(tài)慣性權(quán)重。
5)動(dòng)態(tài)調(diào)整大數(shù)據(jù)聚類中心矢量以及節(jié)點(diǎn),獲取對(duì)應(yīng)的差分進(jìn)化序列,將各個(gè)子序列實(shí)行特征匹配,獲取的自適應(yīng)加權(quán)權(quán)重ωij(t+1)如式(13)所示:
ωij(t+1)=ωij(t)+β(t)(xi(t)-sn(t))2
(13)
上式中,β(t)代表神經(jīng)元進(jìn)化過(guò)程中的樣本學(xué)習(xí)速度。
6)如果需要不間斷輸入挖掘獲取的特征樣本,則直接跳轉(zhuǎn)至步驟2);反之,則結(jié)束計(jì)算。
在上述分析的基礎(chǔ)上,提取大數(shù)據(jù)對(duì)應(yīng)信息流的主要特征信息,需要借助自適應(yīng)搜索算法。同時(shí)分析種群進(jìn)化過(guò)程中各個(gè)神經(jīng)元的差異程度,引入聚集原理得到信息流特征。其中,在梯度下降方向獲取的全局最優(yōu)解?(xyz)為:
(14)
如果輸入樣本數(shù)為當(dāng)前大數(shù)據(jù)挖掘過(guò)程中神經(jīng)網(wǎng)絡(luò)的比例神經(jīng)元,則通過(guò)式(15)可以對(duì)應(yīng)神經(jīng)元在t+1時(shí)刻的坐標(biāo)位置di(t):
(15)
對(duì)包含n個(gè)樣本的數(shù)據(jù)聚類向量展開(kāi)特征空間填充處理,得到各個(gè)閾值對(duì)應(yīng)的擾動(dòng)矢量。為了更好完成大數(shù)據(jù)挖掘,需要尋找滿足模式需求的特征對(duì)其展開(kāi)分類處理[12-13],獲取信息增益特征的屬性類型,進(jìn)而構(gòu)建大數(shù)據(jù)挖掘的聚斂中心矩陣H:
(16)
(17)
通過(guò)Logistics差分?jǐn)_動(dòng)方法[14-15]獲取各個(gè)特征的屬性值,同時(shí)構(gòu)建一個(gè)全新的數(shù)據(jù)聚類中心,最終有效挖掘大數(shù)據(jù)的主要特征。
為了驗(yàn)證所提大數(shù)據(jù)挖掘中神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的可靠性方法的有效性,需要展開(kāi)相關(guān)的實(shí)驗(yàn)測(cè)試分析。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于IRIS數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中包含三種不同類型的數(shù)據(jù),三種不同類型數(shù)據(jù)的分布圖如圖3所示。
圖3 原始數(shù)據(jù)分布圖
驗(yàn)證研究方法的三種不同數(shù)據(jù)的聚類效果,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 所提方法的三種不同數(shù)據(jù)的聚類效果
圖5 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法應(yīng)用前后效果對(duì)比
從圖4的實(shí)驗(yàn)結(jié)果可以看出,與圖3原始的數(shù)據(jù)分布相比,應(yīng)用所提方法后能夠精準(zhǔn)的將三種不同數(shù)據(jù)聚類,說(shuō)明所提方法的聚類效果較好。
為了所提方法的可靠性,選取用于測(cè)試神經(jīng)網(wǎng)絡(luò)性能的IoU作為測(cè)試指標(biāo),IOU是一種測(cè)量在特定數(shù)據(jù)集中檢測(cè)相應(yīng)目標(biāo)數(shù)據(jù)準(zhǔn)確度的一個(gè)標(biāo)準(zhǔn),主要用來(lái)衡量預(yù)測(cè)值和真實(shí)值之間的相關(guān)度,取值越接近1,則說(shuō)明神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法可靠性越高,詳細(xì)的實(shí)驗(yàn)測(cè)試結(jié)果如圖4所示。
分析5可知,大數(shù)據(jù)集合經(jīng)過(guò)PSO算法訓(xùn)練處理后,所提方法得到的IoU取值更接近1,充分驗(yàn)證了該算法具有比較高的可靠性。
結(jié)合數(shù)據(jù)類型分布圖,隨機(jī)展開(kāi)2000次實(shí)驗(yàn)測(cè)試,分別測(cè)試加入所提方法前后的數(shù)據(jù)挖掘結(jié)果變化情況,詳細(xì)的實(shí)驗(yàn)測(cè)試結(jié)果如表1所示。
表1 使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法前后的數(shù)據(jù)挖掘結(jié)果分析
分析表1中的實(shí)驗(yàn)數(shù)據(jù)可知,在應(yīng)用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法后,大數(shù)據(jù)測(cè)試樣本挖掘準(zhǔn)確率最低為94%,最高可達(dá)100%。說(shuō)明應(yīng)用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法不會(huì)受到樣本數(shù)量以及實(shí)驗(yàn)次數(shù)等多方面因素的影響,進(jìn)一步驗(yàn)證了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的可靠性,將其應(yīng)用于數(shù)據(jù)挖掘中可以獲取更加滿意的挖掘結(jié)果。
提出一種大數(shù)據(jù)挖掘中神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的可靠性方法。經(jīng)實(shí)驗(yàn)測(cè)試結(jié)果證明,將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法引入到數(shù)據(jù)挖掘中,可以獲取準(zhǔn)確度更高的挖掘結(jié)果,同時(shí)還能夠全面提升數(shù)據(jù)的特征提取能力以及可靠性。由于時(shí)間有限,后續(xù)還需要進(jìn)一步對(duì)網(wǎng)絡(luò)神經(jīng)學(xué)習(xí)算法展開(kāi)更加深入的研究,確定全新的研究方向,使其在各個(gè)領(lǐng)域得到更加廣泛的應(yīng)用。后續(xù)將對(duì)智能化數(shù)據(jù)挖掘系統(tǒng)展開(kāi)更加深入的研究,目前的研究并沒(méi)有涉及數(shù)據(jù)挖掘的可視化和數(shù)據(jù)質(zhì)量等相關(guān)問(wèn)題,后續(xù)將對(duì)以上兩方面的內(nèi)容展開(kāi)進(jìn)一步的探索和研究,確保數(shù)據(jù)挖掘系統(tǒng)的綜合性能得到有效提升。