姚彤
摘要:極速學(xué)習(xí)機(jī)(extreme learning machine, ELM)具有訓(xùn)練速度快和良好的泛化能力等優(yōu)點(diǎn),已被廣泛應(yīng)用,并取得了較大成功。然而初始的ELM僅基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,可能導(dǎo)致過(guò)擬合問(wèn)題,因此該文結(jié)合結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,采用遺傳算法獲取最優(yōu)風(fēng)險(xiǎn)比例參數(shù),提出了一種基于遺傳算法的正則極速學(xué)習(xí)機(jī)(GA-RELM),該GA-RELM能有效避免多次迭代運(yùn)算和局部極小值,整個(gè)ELM訓(xùn)練時(shí)間短。該文在將所提出的GA-RELM用于人臉識(shí)別,仿真實(shí)驗(yàn)表明了本文提出的GA-RELM性能優(yōu)于ELM和BP神經(jīng)網(wǎng)絡(luò)。
關(guān)鍵詞:極速學(xué)習(xí)機(jī);正則極速學(xué)習(xí)機(jī);遺傳算法;人臉識(shí)別
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)22-0179-03
1 引言
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)因其具有很強(qiáng)的學(xué)習(xí)能力,能夠逼近復(fù)雜非線性函數(shù)及能夠解決傳統(tǒng)參數(shù)方法無(wú)法解決的問(wèn)題,在模式識(shí)別、數(shù)據(jù)挖掘[1,2]等領(lǐng)域得到了廣泛的應(yīng)用。但由于傳統(tǒng)學(xué)習(xí)方法的速度并不能滿足實(shí)際需要,如誤差反向傳播方法(BP算法)[3],其網(wǎng)絡(luò)的所有參數(shù)都需要在訓(xùn)練過(guò)程中迭代確定,造成網(wǎng)絡(luò)需要的計(jì)算量以及搜索空間非常龐大,使得單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的發(fā)展遇到了瓶頸?;谠摲N問(wèn)題,Huang等學(xué)者為單隱藏層前饋神經(jīng)網(wǎng)絡(luò)提出了一種稱為極速學(xué)習(xí)機(jī)(extreme learning machine, ELM)的學(xué)習(xí)算法:該方法通過(guò)隨機(jī)得到輸入權(quán)值和隱藏層偏差,指定合適的隱藏層結(jié)點(diǎn)數(shù),并在輸出層通過(guò)最小二乘法得到輸出權(quán)值,且整個(gè)學(xué)習(xí)過(guò)程只需要一次訓(xùn)練即可完成。與BP相比,ELM能在保證學(xué)習(xí)質(zhì)量的同時(shí),其學(xué)習(xí)速度遠(yuǎn)遠(yuǎn)快于BP。
然而ELM依舊存在很多問(wèn)題,如ELM需要靠大量的隱藏層結(jié)點(diǎn)來(lái)保證其學(xué)習(xí)能力,這會(huì)使得整個(gè)神經(jīng)網(wǎng)絡(luò)變得臃腫。而其參數(shù)的隨機(jī)設(shè)置,使得ELM的預(yù)測(cè)性能也變得不穩(wěn)定。如何優(yōu)化ELM,很多文獻(xiàn)都做出了深入的研究。文[4]通過(guò)優(yōu)化網(wǎng)絡(luò)隱層節(jié)點(diǎn)權(quán)值和偏置,在提高極速學(xué)習(xí)機(jī)泛化性能的同時(shí)大幅減少隱層節(jié)點(diǎn)數(shù)目,節(jié)省存儲(chǔ)資源消耗,提出了一種基于SVM技術(shù)的精簡(jiǎn)極速學(xué)習(xí)機(jī)。文[5]針對(duì)參數(shù)隨機(jī)設(shè)置給ELM學(xué)習(xí)算法造成的性能不穩(wěn)定,提出了稀疏ELM回歸器集成。而文[6]根據(jù)ELM僅基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原理,可能會(huì)導(dǎo)致的過(guò)度擬合問(wèn)題以及ELM 不考慮誤差的權(quán)重,當(dāng)數(shù)據(jù)集中存在離群點(diǎn)時(shí),它的性能將會(huì)受到嚴(yán)重影響提出了一種正則極速學(xué)習(xí)機(jī)。但其在考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)的比例參數(shù)[γ]以及隱層結(jié)點(diǎn)數(shù)目[C]時(shí),運(yùn)用Hsu和Lin提出的排列組合方式選擇最優(yōu)的參數(shù)[γ]和[C]需要進(jìn)行上萬(wàn)次實(shí)驗(yàn)來(lái)進(jìn)行對(duì)比,耗費(fèi)了大量的時(shí)間。本文對(duì)正則極速學(xué)習(xí)機(jī)進(jìn)行改進(jìn),通過(guò)遺傳算法獲取最優(yōu)的風(fēng)險(xiǎn)比例參數(shù)[γ],提出了基于遺傳算法的正則極速學(xué)習(xí)機(jī)。
2 有關(guān)理論
正則極速學(xué)習(xí)機(jī)與極速學(xué)習(xí)機(jī)的計(jì)算量相當(dāng),且當(dāng)[γ→∞]時(shí),正則極速學(xué)習(xí)機(jī)將退化為極速學(xué)習(xí)機(jī),即極速學(xué)習(xí)機(jī)為正則極速學(xué)習(xí)機(jī)的一種特殊情況,該理論在我們的實(shí)驗(yàn)中得到驗(yàn)證。由于兩種風(fēng)險(xiǎn)的比例參數(shù)[γ]對(duì)于實(shí)驗(yàn)結(jié)果會(huì)有很大影響,而采取如試湊法、交叉驗(yàn)證法等方法獲得較優(yōu)的[γ]值,會(huì)耗費(fèi)大量的時(shí)間,因此本文將遺傳算法加入正則極速學(xué)習(xí)機(jī)模型,采用遺傳算法獲取最優(yōu)的比例參數(shù)[γ]。
2.3遺傳算法
遺傳算法(Genetic Algorithms,GA)是一種求解問(wèn)題的高度并行的全局隨機(jī)化搜索算法,它能在搜索過(guò)程中自動(dòng)獲取和積累有關(guān)搜索空間的知識(shí),并自適應(yīng)地控制搜索過(guò)程以求得最優(yōu)解。
遺傳算法所涉及的五大要素為:參數(shù)編碼、初始群體的設(shè)定、適應(yīng)度函數(shù)的設(shè)計(jì)、遺傳操作的設(shè)計(jì)和控制參數(shù)的設(shè)定。本文采用的遺傳算法基本步驟如下:
(1)選擇編碼策略,把參數(shù)集合X和域轉(zhuǎn)換為位串結(jié)構(gòu)空間S;
(2)定義適應(yīng)度函數(shù)f(X);
(3)確定遺傳策略,包括選擇群體大小M,選擇、交叉、變異方法,及確定交叉概率Pc變異概率Pm等遺傳參數(shù);
(4)隨機(jī)初始化生成群體P;
(5)計(jì)算群體中個(gè)體位串解碼后的適應(yīng)度值f(X);
(6)按照遺傳策略,運(yùn)用選擇、交叉和變異算子作用于群體,形成下一代群體;
(7)判斷群體性能是否滿足某一指標(biāo),或者已完成預(yù)定迭代次數(shù),不滿足則返回步驟6。
3 基于遺傳算法的正則極速學(xué)習(xí)機(jī)
由于經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)的比例參數(shù)[γ]對(duì)于正則極速學(xué)習(xí)機(jī)的性能有很大的影響,因此本文通過(guò)遺傳算法來(lái)獲取最優(yōu)的比例參數(shù)[γ],提出了基于遺傳算法的極速學(xué)習(xí)機(jī)(GA-RELM)模型,其算法具體如下。
(4)測(cè)試樣本輸入,評(píng)估算法性能是否滿足精度,滿足則停止,否則繼續(xù)下一步;
(5)選擇優(yōu)秀基因(即[γ]值),迭代遺傳,獲得最優(yōu)基因,轉(zhuǎn)第(3)步。
所提出的GA-RELM因?yàn)樾枰M(jìn)行遺傳迭代,在時(shí)間消耗上會(huì)有所延長(zhǎng)。而經(jīng)過(guò)數(shù)次迭代后,可以直接產(chǎn)生最優(yōu)的[γ]值,使算法達(dá)到性能最優(yōu)。
4 仿真實(shí)驗(yàn)
本節(jié)我們將所提出的基于遺傳算法的正則極速學(xué)習(xí)機(jī)應(yīng)用到人臉識(shí)別中。我們將通過(guò)人臉識(shí)別仿真實(shí)驗(yàn)驗(yàn)證所提出的正則ELM的有效性,同時(shí)我們將所提出的基于遺傳算法的正則ELM與ELM、RELM、GA-RELM和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比分析。實(shí)驗(yàn)執(zhí)行環(huán)境為Matlab-R2014a。ELM采用的是Huang提出的初始ELM。BP神經(jīng)網(wǎng)絡(luò)直接使用Matlab自帶神經(jīng)網(wǎng)絡(luò)工具箱中的Levenbreg-Marquardt算法。而四種算法的激勵(lì)函數(shù),我們?nèi)窟x擇“Sigmoid”函數(shù),隱藏層結(jié)點(diǎn)數(shù)全部設(shè)置為500。人臉數(shù)據(jù)庫(kù)包括YALE、ORL、Bern和NUST四種標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),其基本信息如表1中所示,其中的類別表示每個(gè)人臉庫(kù)共有多少人,屬性表示每個(gè)人共有多少?gòu)埐灰粯拥恼掌?。在?duì)RELM進(jìn)行實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)時(shí),風(fēng)險(xiǎn)比例參數(shù)[γ]我們選取了文獻(xiàn)[6]所提到的最優(yōu)值。
從表3中可以看出,與BP相比,ELM不僅能保證學(xué)習(xí)質(zhì)量,且其學(xué)習(xí)速度也遠(yuǎn)遠(yuǎn)快于BP(實(shí)驗(yàn)中體現(xiàn)為百倍以上)。而加入了結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論后的RELM,在識(shí)別精度上比ELM更好。通過(guò)遺傳算法迭代尋找RELM的最優(yōu)風(fēng)險(xiǎn)比例參數(shù),即我們的GA-RELM,雖然在訓(xùn)練樣本時(shí),會(huì)耗費(fèi)相對(duì)較長(zhǎng)的時(shí)間,但其卻能根據(jù)樣本數(shù)據(jù)集自身的特點(diǎn)遺傳迭代得到最優(yōu)的值,節(jié)省了大量對(duì)比試驗(yàn)所需要的時(shí)間。在接下來(lái)的試驗(yàn)中,我們將通過(guò)對(duì)比不同的激勵(lì)函數(shù)“Sigmoid”、“Sine”、“Hardlim”以及不同的隱藏層結(jié)點(diǎn)數(shù)量,對(duì)GA-RELM性能的影響。實(shí)驗(yàn)采用NUST人臉數(shù)據(jù)庫(kù)。訓(xùn)練樣本為200張圖片,測(cè)試樣本為45張圖片。從表4中可以看出,不同激勵(lì)函數(shù)對(duì)GA-RELM的性能會(huì)有不同的影響。在相同的激勵(lì)函數(shù)下,隱藏層結(jié)點(diǎn)數(shù)量越多,則識(shí)別精度越高,在達(dá)到300-500個(gè)左右時(shí),即可達(dá)到系統(tǒng)最優(yōu)性能。但是隱藏層結(jié)點(diǎn)數(shù)目越多,系統(tǒng)花費(fèi)的時(shí)間越多,所以在實(shí)際應(yīng)用中,根據(jù)樣本情況選取一個(gè)最優(yōu)的激勵(lì)函數(shù)以及隱藏層結(jié)點(diǎn)數(shù)量是很有必要的。
5 結(jié)束語(yǔ)
本文提出了一種基于遺傳算法的正則極速學(xué)習(xí)機(jī)算法,相對(duì)于傳統(tǒng)極速學(xué)習(xí)機(jī)僅考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)而導(dǎo)致的過(guò)度擬合及局部最小值問(wèn)題,引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,并且采用遺傳算法獲取最優(yōu)的風(fēng)險(xiǎn)比例參數(shù)。人臉識(shí)別的仿真試驗(yàn)表明,本文所提出的算法能在保證分類精度的同時(shí),其學(xué)習(xí)速度遠(yuǎn)遠(yuǎn)快于BP。而相對(duì)于ELM,本文所提出的算法不僅擁有ELM的快速學(xué)習(xí)特點(diǎn),由于加入了結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,用風(fēng)險(xiǎn)參數(shù)來(lái)平衡兩種風(fēng)險(xiǎn)比例,并采用遺傳算法獲取最優(yōu)訓(xùn)練參數(shù),這樣不僅節(jié)約了大量的尋找參數(shù)的時(shí)間,使得模型可以根據(jù)自身特點(diǎn)而擁有更好的泛化性能,增強(qiáng)了系統(tǒng)的魯棒性與可控性。
參考文獻(xiàn):
[1] 程顯毅,胡海濤,曲平,等.大數(shù)據(jù)時(shí)代的人工智能范式[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,38(4):455-460.
[2] 蘇劍波,陳葉飛,馬哲,等.從AlphaGo到BetaGo——基于任務(wù)可完成性分析的定性人工智能的定量實(shí)現(xiàn)[J].控制理論與應(yīng)用[J].2016,33(12):1572 -1580.
[3] 唐萬(wàn)梅.BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問(wèn)題的研究[J].系統(tǒng)工程理論與實(shí)踐[J].2005,25(10):95-100.
[4] 申豐山,王黎明,張軍英.基于SVM技術(shù)的精簡(jiǎn)極速學(xué)習(xí)機(jī)[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(6):107-110,132.
[5] 王權(quán),陳松燦.基于l1-正則化的ELM回歸集成學(xué)習(xí)[J].計(jì)算機(jī)研究與發(fā)展.2012,49(12):2631-2637.
[6] 鄧萬(wàn)宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(2):279-287.
[7] 王國(guó)勝.支持向量機(jī)的理論與算法研究[D].北京郵電大學(xué),2008.
[8] Simon Haykin. 神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)(原書第三版)[M].北京:機(jī)械工業(yè)出版社,2011.
【通聯(lián)編輯:代影】