李鵬松,劉 欣,李俊達(dá)
(東北電力大學(xué) 理學(xué)院,吉林 吉林 132012)
神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)是一種模擬人腦大數(shù)據(jù)分析機(jī)制的計(jì)算方法,是目前大數(shù)據(jù)分析中較為成功的方法之一.近年來(lái),隨著當(dāng)代計(jì)算機(jī)計(jì)算能力的不斷提升,在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上研究的大數(shù)據(jù)分析方法取得了很多成果,主要體現(xiàn)在各應(yīng)用領(lǐng)域,如語(yǔ)音大數(shù)據(jù)分析、圖像大數(shù)據(jù)分析、醫(yī)學(xué)大數(shù)據(jù)分析等[1],促進(jìn)了人工智能的發(fā)展.在神經(jīng)網(wǎng)絡(luò)的領(lǐng)域里,廣泛應(yīng)用的反向傳播(Back-Propagation)神經(jīng)網(wǎng)絡(luò)[2~3]是屬于有監(jiān)督的神經(jīng)網(wǎng)絡(luò),其多層感知器的學(xué)習(xí)和分類是以一定的先驗(yàn)知識(shí)為條件的,即網(wǎng)絡(luò)權(quán)值的調(diào)整是在有監(jiān)督的情況下進(jìn)行的.但在實(shí)際應(yīng)用中,有時(shí)并不能提供所需的先驗(yàn)知識(shí),這就需要網(wǎng)絡(luò)具有足夠的自學(xué)習(xí)能力.而自組織映射(The Self-Organizing Map,SOM)網(wǎng)絡(luò)則是無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)中較基礎(chǔ)的一種神經(jīng)網(wǎng)絡(luò),是通過(guò)自動(dòng)尋找樣本中的內(nèi)在規(guī)律和本質(zhì)屬性,自組織、自適應(yīng)地改變網(wǎng)絡(luò)參數(shù)與結(jié)構(gòu).文獻(xiàn)[4~6]分別將其應(yīng)用在客戶分類、任務(wù)分配、動(dòng)作識(shí)別中,取得了較好的效果.
免疫遺傳算法(Immune Genetic Algorithm,IGA)是將免疫理論(Immune Algorithm,IA)和基本遺傳算法(Simple Genetic Algorithm,SGA)各自的優(yōu)點(diǎn)結(jié)合起來(lái)的優(yōu)化算法.保留了遺傳算法的搜索特性,并利用了免疫算法的多機(jī)制求解多目標(biāo)函數(shù)最優(yōu)解的自適應(yīng)特性,避免了因“早熟”現(xiàn)象而導(dǎo)致算法陷入局部極值.文獻(xiàn)[7~11]主要研究了控制參數(shù)的選取、解的收斂等問(wèn)題,豐富了免疫遺傳算法的理論.
目前,國(guó)內(nèi)外學(xué)者將智能優(yōu)化算法與自組織映射網(wǎng)絡(luò)相結(jié)合已取得一些成果,其中大部分都是對(duì)遺傳算法自組織映射網(wǎng)絡(luò)進(jìn)行研究.文獻(xiàn)[12~15]分別從不同層面出發(fā),利用基于遺傳算法的自組織映射網(wǎng)絡(luò),不同程度地提高了網(wǎng)絡(luò)算法的分類準(zhǔn)確度及訓(xùn)練效率.目前將免疫遺傳算法和自組織映射網(wǎng)絡(luò)相結(jié)合的研究結(jié)果尚不多見(jiàn),本文構(gòu)建了一種基于免疫遺傳算法的自組織映射網(wǎng)絡(luò),利用免疫遺傳算法的全局優(yōu)化特征和自適應(yīng)特性,分析如何用免疫遺傳算法調(diào)整權(quán)值,優(yōu)化自組織映射網(wǎng)絡(luò),使其充分發(fā)揮自組織映射網(wǎng)絡(luò)的自學(xué)習(xí)能力以及自適應(yīng)特性,提高了算法的分類準(zhǔn)確度及訓(xùn)練效率.
本文主要關(guān)注以下2方面內(nèi)容:
(1)構(gòu)建了一種基于免疫遺傳算法的自組織映射網(wǎng)絡(luò),采用免疫遺傳算法對(duì)自組織映射網(wǎng)絡(luò)的初始權(quán)值進(jìn)行優(yōu)化,然后運(yùn)行自組織映射網(wǎng)絡(luò).
(2)將本文算法應(yīng)用于員工缺席數(shù)據(jù)集以及鮑魚(yú)數(shù)據(jù)集,得出分析結(jié)果,與基于遺傳算法的自組織映射網(wǎng)絡(luò)的分類結(jié)果進(jìn)行比較,以說(shuō)明本文算法的有效性.
基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)算法流程圖,如圖1所示.
圖1 基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)算法流程圖
首先輸入數(shù)據(jù),將數(shù)據(jù)從矩陣形式化為編碼形式,代入免疫遺傳算法模型中,得到一個(gè)一維的權(quán)向量,將這個(gè)權(quán)向量作為自組織映射網(wǎng)絡(luò)的初始權(quán)值.構(gòu)建自組織映射網(wǎng)絡(luò)結(jié)構(gòu),輸入層神經(jīng)元數(shù)量等于訓(xùn)練集樣本數(shù)乘以數(shù)據(jù)維數(shù),競(jìng)爭(zhēng)層對(duì)于每一個(gè)輸入數(shù)據(jù),找到與它最相配的節(jié)點(diǎn),即為優(yōu)勝節(jié)點(diǎn),判別函數(shù)為歐氏距離.找到激活節(jié)點(diǎn)之后,更新與它臨近的節(jié)點(diǎn),對(duì)于臨近的節(jié)點(diǎn),分配給它們一個(gè)更新的連接權(quán)值.在反復(fù)的競(jìng)爭(zhēng)學(xué)習(xí)中,競(jìng)爭(zhēng)層的各神經(jīng)元對(duì)應(yīng)的連接權(quán)向量逐漸被調(diào)整為輸入樣本空間的聚類中心.然后將測(cè)試集的樣本數(shù)據(jù)輸入模型中,得到測(cè)試集分類的結(jié)果,并與實(shí)際情況進(jìn)行對(duì)比.自組織映射網(wǎng)絡(luò)建立了每個(gè)樣本和所分的類之間的激活關(guān)系,激活函數(shù)為sigmoid函數(shù),有效地對(duì)數(shù)據(jù)集進(jìn)行了分類.
當(dāng)學(xué)習(xí)率衰減到0時(shí),網(wǎng)絡(luò)完成訓(xùn)練,即分類結(jié)束.參數(shù)設(shè)定,如表1所示.
表1 參數(shù)設(shè)定表
選取員工缺席數(shù)據(jù)集,數(shù)據(jù)樣本為740,數(shù)據(jù)維數(shù)為21.將員工缺席數(shù)據(jù)集分為兩部分,一部分為訓(xùn)練集,另一部分用做測(cè)試集和驗(yàn)證集,測(cè)試集分為2類,一類為員工缺席,一類為員工不缺席,再通過(guò)驗(yàn)證集來(lái)對(duì)比說(shuō)明分類的準(zhǔn)確度.在2類測(cè)試數(shù)據(jù)中分別使用不同記號(hào).第1類出席標(biāo)記為星號(hào)(*)、第2類缺席標(biāo)記為加號(hào)(+).
基于遺傳算法的自組織映射網(wǎng)絡(luò)測(cè)試集分類結(jié)果,如圖2所示.基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)測(cè)試集分類結(jié)果,如圖3所示.將測(cè)試集的缺席情況與驗(yàn)證集進(jìn)行對(duì)比.
表2 算法結(jié)果對(duì)比表
根據(jù)實(shí)驗(yàn)結(jié)果,基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)的分類效果較遺傳算法的自組織映射網(wǎng)絡(luò)的分類效果好,即本文算法的分類準(zhǔn)確度、訓(xùn)練效率高于遺傳算法的自組織映射網(wǎng)絡(luò),如表2所示.
圖2 基于遺傳算法的自組織映射網(wǎng)絡(luò)對(duì)員工缺席數(shù)據(jù)的測(cè)試集分類結(jié)果圖圖3 基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)對(duì)員工缺席數(shù)據(jù)的測(cè)試集分類結(jié)果圖
選取鮑魚(yú)數(shù)據(jù)集,數(shù)據(jù)樣本為4177,數(shù)據(jù)維數(shù)為8.將鮑魚(yú)數(shù)據(jù)集分為兩部分,一部分為訓(xùn)練集,另一部分用做測(cè)試集和驗(yàn)證集,測(cè)試集分為3類,一類為鮑魚(yú)年齡在0歲~10歲,一類為鮑魚(yú)年齡在11歲~20歲,一類為鮑魚(yú)年齡在21歲~30歲,再通過(guò)驗(yàn)證集來(lái)對(duì)比說(shuō)明分類的準(zhǔn)確度.在3類測(cè)試數(shù)據(jù)中分別使用不同記號(hào).第1類鮑魚(yú)年齡在0歲~10歲標(biāo)記為圓圈(*)、第2類鮑魚(yú)年齡在11歲~20歲標(biāo)記為星星(+),第3類鮑魚(yú)年齡在21歲~30歲標(biāo)記為加量(+).
表3 算法結(jié)果對(duì)比表
基于遺傳算法的自組織映射網(wǎng)絡(luò)測(cè)試集分類結(jié)果,如圖4所示.基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)測(cè)試集分類結(jié)果,如圖5所示.將測(cè)試集的鮑魚(yú)年齡情況與驗(yàn)證集進(jìn)行對(duì)比.
根據(jù)實(shí)驗(yàn)結(jié)果,基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)的分類效果較遺傳算法的自組織映射網(wǎng)絡(luò)的分類效果好,即本文算法的分類準(zhǔn)確度、訓(xùn)練效率高于遺傳算法的自組織映射網(wǎng)絡(luò),如表3所示.
圖4 基于遺傳算法的自組織映射網(wǎng)絡(luò)對(duì)鮑魚(yú)數(shù)據(jù)的測(cè)試集分類結(jié)果圖圖5 基于免疫遺傳算法的自組織映射網(wǎng)絡(luò)對(duì)鮑魚(yú)數(shù)據(jù)的測(cè)試集分類結(jié)果圖
將本文提出的算法應(yīng)用于員工缺席數(shù)據(jù)集與鮑魚(yú)數(shù)據(jù)集,說(shuō)明了算法的有效性,對(duì)員工缺席情況和鮑魚(yú)年齡實(shí)現(xiàn)了更準(zhǔn)確的分類.結(jié)果表明本文算法比基于遺傳算法的自組織映射網(wǎng)絡(luò)具有更高的訓(xùn)練效率.