徐曉楊 紀(jì)志成
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 江蘇 無(wú)錫 214122)
?
選擇性集成極限學(xué)習(xí)機(jī)分類(lèi)器建模研究
徐曉楊紀(jì)志成
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院江蘇 無(wú)錫 214122)
極限學(xué)習(xí)機(jī)ELM(Extreme Learning Machine)具有訓(xùn)練過(guò)程極為快速的優(yōu)點(diǎn),但在實(shí)際分類(lèi)應(yīng)用中ELM分類(lèi)器的分類(lèi)精度和穩(wěn)定性有時(shí)并不能滿足要求。針對(duì)這一問(wèn)題,在ELM用于分類(lèi)時(shí)引入一種訓(xùn)練結(jié)果信息量評(píng)價(jià)指標(biāo)來(lái)改進(jìn)輸出權(quán)值矩陣的求解方法,并增加隱層輸出矩陣競(jìng)爭(zhēng)機(jī)制來(lái)提高ELM的穩(wěn)定性。為了進(jìn)一步提高ELM的分類(lèi)正確率,借鑒神經(jīng)網(wǎng)絡(luò)集成的理論,提出一種選擇性集成ELM分類(lèi)器。在集成方法中采用改進(jìn)Bagging法并提出一種基于網(wǎng)絡(luò)參數(shù)向量的相似度評(píng)價(jià)方法和選擇性集成策略。最后通過(guò)UCI數(shù)據(jù)測(cè)試表明,同Bagging法和傳統(tǒng)的全集成法相比,該方法擁有更為優(yōu)秀的分類(lèi)性能。
極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)選擇性集成Bagging
極限學(xué)習(xí)機(jī)ELM是由Huang等[1,2]提出的一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò)模型(SLFNs)的新型學(xué)習(xí)算法。它區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的最大特點(diǎn)在于整個(gè)訓(xùn)練過(guò)程只需要一步,無(wú)需反復(fù)對(duì)網(wǎng)絡(luò)中的眾多參數(shù)進(jìn)行復(fù)雜的迭代運(yùn)算。所以,極限學(xué)習(xí)機(jī)的訓(xùn)練過(guò)程極為快速,同時(shí)具備良好的泛化性能。但是ELM同樣也存在諸多不足,ELM的輸入權(quán)值、隱層偏置均為隨機(jī)產(chǎn)生,這些參數(shù)的隨機(jī)性也使得最終生成的ELM模型的性能不具穩(wěn)定性。另外,ELM中轉(zhuǎn)移函數(shù)和隱層神經(jīng)元數(shù)量的選擇至今也沒(méi)有一個(gè)廣泛適用的理論體系的指導(dǎo)。如果缺乏應(yīng)用背景的先驗(yàn)知識(shí),那么往往需要耗費(fèi)大量的精力才能最終獲得一個(gè)性能良好的ELM模型。
Hansen等[3]于1990年首創(chuàng)性地提出了關(guān)于神經(jīng)網(wǎng)絡(luò)集成的方法與理論。他們通過(guò)實(shí)驗(yàn)證明如果先訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)再進(jìn)行組合就可以把整個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的泛化能力顯著的提高。Sollich等于1996給出了神經(jīng)網(wǎng)絡(luò)集成的定義[3]:將有限個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)同一問(wèn)題進(jìn)行學(xué)習(xí),最終整個(gè)系統(tǒng)在某個(gè)輸入下的輸出由構(gòu)建此系統(tǒng)的神經(jīng)網(wǎng)絡(luò)共同決定。Krogh等則給出了神經(jīng)網(wǎng)絡(luò)集成的泛化誤差公式[3],該公式明確指出如果構(gòu)成系統(tǒng)的子網(wǎng)絡(luò)泛化能力越強(qiáng)同時(shí)子網(wǎng)絡(luò)之間的相似度越低,那么系統(tǒng)的泛化誤差就越小。在此之后,Zhou等[4]通過(guò)使用遺傳算法,在所有的子網(wǎng)絡(luò)中選擇出部分進(jìn)行集成,并證明了相較于集成所有子網(wǎng)絡(luò)的系統(tǒng),選擇性集成了泛化能力強(qiáng)并且相似度低的子網(wǎng)絡(luò)的系統(tǒng)往往能夠擁有更好的泛化性能。
綜上所述,為了進(jìn)一步提高ELM模型的分類(lèi)性能同時(shí)改善ELM的缺陷與不足,本文利用神經(jīng)網(wǎng)絡(luò)集成的方法與理論對(duì)ELM進(jìn)行選擇性集成。在ELM的選擇性集成過(guò)程中,如何產(chǎn)生泛化能力強(qiáng)并且相似度低的子ELM模型,如何評(píng)價(jià)子網(wǎng)絡(luò)之間的相似度以及采用何種策略去選擇子網(wǎng)絡(luò)集成是選擇性ELM集成方法研究的關(guān)鍵問(wèn)題。本文針對(duì)上述問(wèn)題,在子ELM模型的生成過(guò)程中,引入一種訓(xùn)練結(jié)果信息量評(píng)價(jià)指標(biāo)來(lái)改進(jìn)輸出權(quán)值矩陣的求解方法,并在隱層輸出矩陣隨機(jī)生成時(shí)增加隱層輸出矩陣競(jìng)爭(zhēng)機(jī)制,以此來(lái)加強(qiáng)子網(wǎng)絡(luò)的性能和穩(wěn)定性。在ELM集成時(shí),采用改進(jìn)的Bagging算法來(lái)降低子網(wǎng)絡(luò)之間的相似度,并提出一種基于網(wǎng)絡(luò)參數(shù)向量的相似度評(píng)價(jià)方法對(duì)子ELM模型進(jìn)行選擇性集成。最后,通過(guò)UCI中的數(shù)據(jù)對(duì)本文提出的選擇性集成ELM分類(lèi)器的效果進(jìn)行測(cè)試與分析。
1.1ELM的基本思想
對(duì)于任意給出的N個(gè)不同的訓(xùn)練樣本(xi,ti),其中xi=[xi1,xi2,…,xin]T∈Rn是該樣本的n維輸入數(shù)據(jù),ti=[ti1,ti2,…,tim]T∈Rm是該樣本的m維期望輸出,選定一個(gè)在任意區(qū)間上無(wú)線可微的函數(shù)作為網(wǎng)絡(luò)的轉(zhuǎn)移函數(shù)g(·),并設(shè)置網(wǎng)絡(luò)的隱層神經(jīng)元個(gè)數(shù)為L(zhǎng),則該SLFNs模型的輸出可表示為:
(1)
式中wi=[wi1,wi2,…,win]T是第i個(gè)隱層節(jié)點(diǎn)與n維輸入數(shù)據(jù)的輸入權(quán)值,θi是第i個(gè)隱層節(jié)點(diǎn)的偏置,βi=[βi1,βi2,…,βim]T是第i個(gè)隱層節(jié)點(diǎn)與m維輸出的輸出權(quán)值,yi=[yi1,yi2,…,yim]T是第i個(gè)輸入數(shù)據(jù)通過(guò)SLFNs模型得出的實(shí)際輸出,式(1)可以簡(jiǎn)寫(xiě)為:
Hβ=Y
(2)
其中:
式中,H矩陣被稱(chēng)為隱層輸出矩陣,因?yàn)閣i、θi的值都是隨機(jī)確定的,所以在給定輸入數(shù)據(jù)后矩陣H就是一個(gè)已知的確定矩陣。因此極限學(xué)習(xí)機(jī)的核心問(wèn)題就是求取最優(yōu)的輸出權(quán)值矩陣來(lái)使網(wǎng)絡(luò)擁有最佳的性能。Bartlett在文獻(xiàn)[5]中指出,當(dāng)多個(gè)SLFNs具有基本相當(dāng)?shù)臄M合性能時(shí),輸出權(quán)值范數(shù)較小的網(wǎng)絡(luò)其泛化性能將會(huì)更加優(yōu)秀。統(tǒng)計(jì)學(xué)理論的研究也同樣發(fā)現(xiàn):實(shí)驗(yàn)風(fēng)險(xiǎn)可以分為經(jīng)驗(yàn)風(fēng)險(xiǎn)與結(jié)構(gòu)風(fēng)險(xiǎn)兩種。一種具備良好性能的神經(jīng)網(wǎng)絡(luò)應(yīng)該充分考慮這兩種風(fēng)險(xiǎn),并在它們之間找到一個(gè)合適的平衡點(diǎn)[6]。所以,可以將輸出權(quán)值矩陣β的求解問(wèn)題轉(zhuǎn)換為求解下面的最優(yōu)問(wèn)題:
(3)
其中‖ε‖2代表ELM模型中的經(jīng)驗(yàn)風(fēng)險(xiǎn),α則為經(jīng)驗(yàn)風(fēng)險(xiǎn)的懲罰系數(shù),相應(yīng)的‖β‖2就代表了模型中的結(jié)構(gòu)風(fēng)險(xiǎn)。通過(guò)拉格朗日方程將其轉(zhuǎn)換為一個(gè)無(wú)條件的極值問(wèn)題,可以求得:
β=(α-1I+HTH)?HTT
(4)
其中I代表單位矩陣,A?代表A的Moore-Penrose廣義逆。如果A為非奇異矩陣,則A?可以表示為(ATA)-1AT。利用式(4),ELM模型對(duì)于輸入x的輸出f(x)即可表示為:
(5)
由于本文僅討論ELM模型用于分類(lèi)時(shí)的情形,所以最終的分類(lèi)結(jié)果y可以表示為:
y={j|fj(x)=max{fi(x),i=1,2,…,m}}
(6)
1.2加入信息量評(píng)價(jià)的ELM分類(lèi)模型
神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器使用時(shí),實(shí)際上是一種基于概率的分類(lèi)器。如果式(6)中fi(x)對(duì)應(yīng)的數(shù)值越大,則說(shuō)明輸入x屬于類(lèi)別i的概率就越大;同樣的如果fi(x)對(duì)應(yīng)的數(shù)值越小,就說(shuō)明x屬于類(lèi)別i的概率越小。通過(guò)下式可以很容易將ELM的分類(lèi)結(jié)果以概率的形式輸出:
(7)
(8)
式中,Pi(x)表示輸入x屬于類(lèi)別i的概率。當(dāng)Pi(x)的概率越大而其他的概率越小時(shí),表明在特征空間中該樣本和決策超平面的距離越遠(yuǎn),分類(lèi)器對(duì)該數(shù)據(jù)的分類(lèi)結(jié)果越有把握;反之,分類(lèi)器對(duì)分類(lèi)結(jié)果就越不確定[7]。為了更加直觀地闡明本文對(duì)ELM分類(lèi)器的優(yōu)化原理,先來(lái)看一組例子。假設(shè)有一組三分類(lèi)的訓(xùn)練樣本(x,t)且t=0(x對(duì)應(yīng)的類(lèi)別編號(hào)為0),那么在ELM模型中t=[1,-1,-1]。如果有兩個(gè)ELM模型A和B對(duì)它的訓(xùn)練結(jié)果分別為yA=[1.5,-0.5,-0.5]和yB=[0.5,-0.5,-0.5],那么有‖εA‖2=‖εB‖2,如果又有‖βA‖2≈‖βB‖2。根據(jù)式(3)模型A和B應(yīng)該擁有十分相近的分類(lèi)性能,但根據(jù)文獻(xiàn)[7]中的論述,模型A的性能要優(yōu)于模型B的性能。本文受此啟發(fā),基于文獻(xiàn)[7]中的理論對(duì)式(3)進(jìn)行改寫(xiě)。在特征空間中樣本和決策超平面的距離可以由輸出矩陣Y中各個(gè)元素的方差表示,方差越大則說(shuō)明距離越遠(yuǎn),分類(lèi)效果越好。在矩陣中,矩陣的最大特征值λmax可以用來(lái)評(píng)價(jià)矩陣在特征空間中的方差,這在一些數(shù)據(jù)分析法中也被稱(chēng)為信息量。根據(jù)定義又有‖Y‖2=λmax,因此‖Y‖2可以用來(lái)評(píng)價(jià)ELM模型輸出矩陣中信息量的大小,在相近條件下,輸出矩陣中信息量大的模型將會(huì)具備更加優(yōu)秀的分類(lèi)性能。所以式(3)可以按如下改寫(xiě):
(9)
其中,γ為輸出矩陣信息量的獎(jiǎng)勵(lì)系數(shù)。同樣的,再次運(yùn)用拉格朗日方程將上式變換為一個(gè)無(wú)條件的極值問(wèn)題,其中δ=[δ1,δ2,…,δN]T,δi∈Rm、μ=[μ1,μ2,…,μN(yùn)]T,μi∈Rm均為相應(yīng)的拉格朗日乘子。
δ(Hβ-T-ε)-μ(Hβ-Y)
(10)
對(duì)式(10)中的各變量求偏導(dǎo)并令其結(jié)果為0即可得到式(11):
(11)
再根據(jù)式(11)可得:
β=[α-1I+(I-α-1γ)HTH]?HTT
(12)
那么式(5)也就應(yīng)該改寫(xiě)為:
f(x)=h(x)[α-1I+(1-α-1γ)HTH]?HTT
(13)
由式(12)求出的輸出權(quán)值矩陣β充分考慮了ELM在用作分類(lèi)器時(shí)的擬合性、泛化性和訓(xùn)練輸出結(jié)果所帶的信息量,且不難看出當(dāng)γ=0時(shí)式(12)就退化成了式(4)。
1.3隱層輸出矩陣競(jìng)爭(zhēng)機(jī)制
上文中通過(guò)加入信息量評(píng)價(jià)指標(biāo)對(duì)的求解進(jìn)行優(yōu)化,但隱層輸出矩陣H的生成仍然是隨機(jī)的,這些隨機(jī)參數(shù)的合適與否將直接影響ELM模型的性能。許多學(xué)者也意識(shí)到了這個(gè)問(wèn)題,Zhu等[8]提出把‖ε‖2作為適應(yīng)度函數(shù)并運(yùn)用進(jìn)化算法對(duì)H矩陣進(jìn)行尋優(yōu),但單純提高ELM的訓(xùn)練精度并不代表ELM的性能就會(huì)得到提升;陳涵瀛等[9]將H矩陣的求解問(wèn)題轉(zhuǎn)化為了多目標(biāo)優(yōu)化問(wèn)題,將‖ε‖2和‖β‖2作為兩個(gè)獨(dú)立的目標(biāo)函數(shù)對(duì)H矩陣進(jìn)行雙目標(biāo)尋優(yōu),但是其忽略了‖ε‖2和‖β‖2之間大致的權(quán)重關(guān)系,并且在求得的Pareto最優(yōu)解集中選擇出合適的解也是較為困難的。更為嚴(yán)重的是這些學(xué)者都忽略了關(guān)鍵的一點(diǎn):ELM中隨機(jī)參數(shù)的總數(shù)=(m+1)×L,其中m為輸入數(shù)據(jù)的維數(shù),L為隱層節(jié)點(diǎn)的數(shù)量。當(dāng)m和L較大時(shí)隨機(jī)參數(shù)的數(shù)量就會(huì)變得很大,如果直接對(duì)這些參數(shù)進(jìn)行尋優(yōu)就會(huì)引發(fā)維數(shù)災(zāi)難。運(yùn)用群智能算法在高維解空間中尋優(yōu)時(shí)不得不大幅增加種群規(guī)模和迭代次數(shù),求解H矩陣就會(huì)消耗大量的時(shí)間,ELM模型訓(xùn)練極為快速的優(yōu)勢(shì)也就被大大削弱了。本文為解決這一問(wèn)題提出了隱層輸出矩陣競(jìng)爭(zhēng)機(jī)制,先隨機(jī)產(chǎn)生有限組參數(shù)集并形成對(duì)應(yīng)的Hi矩陣,再通過(guò)加權(quán)組合形成最終的H矩陣:
(14)
其中ηi稱(chēng)之為競(jìng)爭(zhēng)系數(shù),倘若Hi的競(jìng)爭(zhēng)力越強(qiáng)那么ηi的數(shù)值就會(huì)越大。數(shù)組η=[η1,η2,…,ηk]取值的不同就會(huì)產(chǎn)生無(wú)限多個(gè)H矩陣,本文把對(duì)隨機(jī)參數(shù)本身的尋優(yōu)策略改為對(duì)數(shù)組η=[η1,η2,…,ηk]的尋優(yōu),這樣就能夠顯著地降低解空間的維數(shù),大幅縮短尋優(yōu)的時(shí)間。把式(9)作為適應(yīng)度函數(shù)同時(shí)選用式(12)作為β的求解公式,然后運(yùn)用粒子群算法尋找出最優(yōu)的數(shù)組η并組合出對(duì)應(yīng)的H矩陣。ELM分類(lèi)器的具體構(gòu)造步驟如下所示,其中粒子群算法的具體內(nèi)容請(qǐng)?jiān)斠?jiàn)文獻(xiàn)[10]本文中就不再贅述。
(a) 確定參與競(jìng)爭(zhēng)的隱層輸出矩陣個(gè)數(shù)P,并隨機(jī)生成P個(gè)隱層輸出矩陣Hi,i=1,2,…,P。
(d) 確定粒子群算法的迭代次數(shù)C,再通過(guò)式(14)求得與ηi對(duì)應(yīng)的H矩陣并將式(9)作為適應(yīng)度函數(shù)開(kāi)始進(jìn)行尋優(yōu)直至C次迭代全部完成,在粒子群算法的每一次迭代過(guò)程中需要滿足式(14)中的約束條件。
(e) 將迭代求得的最優(yōu)數(shù)組ηoptimal根據(jù)式(14)確定對(duì)應(yīng)的最優(yōu)H矩陣,再通過(guò)式(12)求出β矩陣,確定H和β后就可以根據(jù)式(13)構(gòu)造出優(yōu)化ELM分類(lèi)器,至此ELM分類(lèi)器的構(gòu)造就完成了。
理論上,P、S以及C設(shè)置的越大H矩陣的優(yōu)化效果越好,但是為了控制尋優(yōu)時(shí)間需要根據(jù)實(shí)際情況設(shè)置合適的值。
選擇性ELM集成的第一步就是要生成一定數(shù)量且之間具有一定差異度的子ELM模型。可以設(shè)想一下如果每一個(gè)子ELM模型都十分相似,那么它們對(duì)相同輸入的輸出也會(huì)十分相似。把這些相似的子網(wǎng)絡(luò)集成在一起只會(huì)白白增加建模的復(fù)雜度而對(duì)網(wǎng)絡(luò)性能的提升起不到明顯的作用。為解決這一問(wèn)題,本文采用Bagging法并加以改進(jìn)來(lái)降低子網(wǎng)絡(luò)之間的相似度。根據(jù)文獻(xiàn)[6]的論述,選擇性集成泛化能力強(qiáng)并且相似度低的子網(wǎng)絡(luò)的系統(tǒng)往往能夠擁有比集成所有子網(wǎng)絡(luò)的系統(tǒng)更好的泛化性能,那么一種有效的相似度評(píng)價(jià)方法將會(huì)對(duì)系統(tǒng)的選擇性集成起到正確的指導(dǎo)作用。本文提出一種基于子網(wǎng)絡(luò)參數(shù)向量的相似度評(píng)價(jià)方法和選擇性集成策略,并通過(guò)其構(gòu)建最終的選擇性集成ELM分類(lèi)器模型。本文所述選擇性ELM集成方法的基本流程如圖1所示。
圖1 本文選擇性ELM集成方法的基本流程
2.1基于改進(jìn)Bagging算法的個(gè)體網(wǎng)絡(luò)生成
Bagging算法是一種多學(xué)習(xí)算法的集成技術(shù),它的核心基礎(chǔ)是可重復(fù)隨機(jī)取樣[3]。每一個(gè)子網(wǎng)絡(luò)的訓(xùn)練樣本集都從原始訓(xùn)練樣本集中隨機(jī)抽取,且通常來(lái)說(shuō)新生成的訓(xùn)練樣本集規(guī)模和原始訓(xùn)練樣本集規(guī)模相當(dāng)。由于采取有放回的抽取方式所以原始訓(xùn)練樣本集中的某一樣本可能被抽取多次也可能一次未被抽取。這樣就在各個(gè)子網(wǎng)絡(luò)的訓(xùn)練樣本集上構(gòu)造出了差異性,且新生成的訓(xùn)練樣本集平均約含有63.2%的原始訓(xùn)練樣本集內(nèi)容。
但Bagging法的取樣方式具有比較大的盲目性,隨機(jī)取樣并不能有效遍歷整個(gè)原始樣本集,也就無(wú)法充分反映出原始樣本集中樣本的空間分布情況,這對(duì)訓(xùn)練出的子網(wǎng)絡(luò)性能有很大的影響。本文將分層抽樣的思想引入Bagging法中,先按照各個(gè)樣本所對(duì)應(yīng)的類(lèi)別將原始樣本集分層,再在每一層樣本集中使用Bagging法采樣。完成后將各層的采樣集進(jìn)行組合即可得到一個(gè)新的訓(xùn)練樣本集,這樣的采樣方法既能夠構(gòu)造出差異性又能夠保證新訓(xùn)練集的采樣質(zhì)量。為了進(jìn)一步增大子網(wǎng)絡(luò)之間的差異性,在“Sigmoid”、“Sine”和“Hardlim”函數(shù)之中隨機(jī)選取一個(gè)作為子網(wǎng)絡(luò)的轉(zhuǎn)移函數(shù)g(·)。
2.2子網(wǎng)絡(luò)的相似度評(píng)價(jià)
在許多關(guān)于神經(jīng)網(wǎng)絡(luò)集成的文獻(xiàn)中都給出了其相似度評(píng)價(jià)的方法。陸慧娟等[11]根據(jù)子網(wǎng)絡(luò)對(duì)測(cè)試樣本集的輸出結(jié)果來(lái)評(píng)價(jià)子網(wǎng)絡(luò)的相似度,輸出結(jié)果越不一致則相似度越低,但不同的測(cè)試樣本集就會(huì)得出不同的相似度結(jié)果,結(jié)果可能具有偶然性;Rahman等[12]則運(yùn)用聚類(lèi)技術(shù)對(duì)子網(wǎng)絡(luò)進(jìn)行相似度評(píng)價(jià),但聚類(lèi)數(shù)目難以確定且過(guò)程略有繁瑣。
本文提出一種基于子網(wǎng)絡(luò)參數(shù)向量的相似度評(píng)價(jià)方法。由ELM的基本原理可知:y=h(x)β,所以給定輸入的輸出是根據(jù)H矩陣和β矩陣來(lái)求解的。在子網(wǎng)絡(luò)結(jié)構(gòu)確定的前提下子網(wǎng)絡(luò)的差異性主要體現(xiàn)在構(gòu)成H矩陣和β矩陣的參數(shù)集上。通過(guò)子網(wǎng)絡(luò)的參數(shù)集而不是輸出結(jié)果可以更為本質(zhì)地評(píng)價(jià)子網(wǎng)絡(luò)的相似度而不會(huì)受到測(cè)試樣本集的影響。
對(duì)于一個(gè)輸入有n種屬性而輸出有m種類(lèi)別的分類(lèi)問(wèn)題而言,如果網(wǎng)絡(luò)i有L個(gè)隱層神經(jīng)元那么網(wǎng)絡(luò)i中就有n×L個(gè)輸入權(quán)值、L個(gè)隱層偏置和m×L個(gè)輸出權(quán)值共記(m+n+1)×L個(gè)參數(shù),將這些參數(shù)組成一個(gè)向量ci=(ω1,…,β1,…,θL)。根據(jù)定義,向量a和b的內(nèi)積可表示為:
〈a,b〉=‖a‖·‖b‖cosθ
(15)
由式(15)可知cosθ的大小可以作為一種評(píng)價(jià)向量a和b相似程度的定量指標(biāo)。基于余弦定理的向量相似度評(píng)價(jià)公式有許多種變形,張宇等[13]給出了較為詳細(xì)的闡述,本文選用Dice系數(shù)法作為評(píng)價(jià)向量相似度的方法,其計(jì)算公式如下:
(16)
易知Sim(ci,cj)的值域?yàn)閇-1,1],當(dāng)Sim(ci,cj)越小時(shí)相似度越低同時(shí)也說(shuō)明子網(wǎng)絡(luò)i和j的相似度越低。特別當(dāng)ci=cj時(shí)有Sim(ci,cj)=1,而當(dāng)ci=-cj時(shí)有Sim(ci,cj)=-1。根據(jù)式(16)就可以對(duì)任意兩個(gè)子網(wǎng)絡(luò)的相似度做出定量的評(píng)價(jià)。
2.3選擇性集成策略
通過(guò)式(16)把Q個(gè)子網(wǎng)絡(luò)兩兩之間的相似度求出,用Simij來(lái)表示子網(wǎng)絡(luò)i和j的相似度,那么可以得到這Q個(gè)子網(wǎng)絡(luò)的相似度矩陣Similarity:
(17)
顯然,Similarity是一個(gè)對(duì)稱(chēng)矩陣并且對(duì)角線元素都為1。為了方便下文中對(duì)相似度閾值ψ的設(shè)置,需要對(duì)Similarity中的元素大小進(jìn)行歸一化處理。本文使用Matlab中mapminmax()函數(shù)將矩陣中除對(duì)角線上的所有元素歸一化到[0,1]之間。
根據(jù)Krogh等[3]給出的神經(jīng)網(wǎng)絡(luò)集成泛化誤差公式:
(18)
(a) 通過(guò)改進(jìn)Bagging法和本文第一節(jié)中所述的方法生成有限個(gè)ELM子網(wǎng)絡(luò)。
(b) 選用原始訓(xùn)練樣本集對(duì)每一個(gè)子網(wǎng)絡(luò)進(jìn)行測(cè)試并按照式(9)求出每一個(gè)子網(wǎng)絡(luò)的泛化誤差,完成后按泛化誤差從小到大的順序?qū)ψ泳W(wǎng)絡(luò)進(jìn)行排序。
(c) 根據(jù)實(shí)際情況設(shè)置一個(gè)泛化誤差閾值φ并把泛化誤差大于φ的子網(wǎng)絡(luò)全部剔除,一般來(lái)說(shuō)剔除總數(shù)的20%~30%較為合適,剩下的Q個(gè)子網(wǎng)絡(luò)即可組成精英子網(wǎng)絡(luò)集net=[net1, net2,…, netQ]。
(d) 求出net中所有子網(wǎng)絡(luò)兩兩之間的相似度并得出相似度矩陣Similarity。再設(shè)置一個(gè)相似度閾值ψ,從第一行中的元素開(kāi)始比對(duì)如果Simij>ψ&&i≠j就把netj從net中剔除同時(shí)將矩陣Similarity的第j行也刪除掉,如此操作直至Similarity的所有行都比對(duì)完成。此時(shí),net中剩余的Q′個(gè)子網(wǎng)絡(luò)即是選擇出用于集成的泛化能力強(qiáng)且相似度低的優(yōu)秀個(gè)體。
(e) 對(duì)每一個(gè)子網(wǎng)絡(luò)neti設(shè)置一個(gè)權(quán)值ρi,ρi按如下方法設(shè)置:首先將步驟(b)中求得的各子網(wǎng)絡(luò)的泛化誤差通過(guò)下式歸一化到[0,1]之間:
(19)
(20)
最后構(gòu)造出最終的選擇性集成ELM分類(lèi)器模型,且模型的輸出可表示為f(x)=ρ1f1(x)+ρ2f2(x)+…+ρQ′fQ′(x),最終的分類(lèi)結(jié)果則可根據(jù)式(6)得出。
上文中論述了選擇性集成ELM分類(lèi)器ELMSE(Extreme Learning Machine Selective Ensemble)的方法與理論。在本節(jié)中為了測(cè)試ELMSE方法的有效性,將在UCI數(shù)據(jù)庫(kù)中選擇5組分類(lèi)數(shù)據(jù)集進(jìn)行仿真測(cè)試。為了更加直觀和形象地說(shuō)明ELMSE的分類(lèi)性能,在仿真測(cè)試中還將加入經(jīng)典ELM模型、本文第1節(jié)中提出的改進(jìn)ELM模型(IELM)、Bagging法集成模型和全集成ELM模型(ALL-EE)作為參照對(duì)象。其中Bagging法的具體內(nèi)容參照文獻(xiàn)[14],只不過(guò)將文獻(xiàn)[14]中的PNN網(wǎng)絡(luò)改為ELM。ALL-EE方法與ELMSE基本類(lèi)似,只是最后對(duì)生成的子網(wǎng)絡(luò)全部集成,沒(méi)有選擇性集成的步驟。
在UCI中分別選取Glass、Iris、Heart、Letter和Wine這五個(gè)數(shù)據(jù)集作為本次實(shí)驗(yàn)的數(shù)據(jù),它們的基本信息如表1所示。
表1 實(shí)驗(yàn)所用數(shù)據(jù)集基本信息
為了避免實(shí)驗(yàn)中可能出現(xiàn)的偶然性并進(jìn)一步增強(qiáng)實(shí)驗(yàn)的說(shuō)服力,本文采取5次交叉驗(yàn)證。先將各個(gè)數(shù)據(jù)集平均分成5份并且盡量保證每一份中各個(gè)類(lèi)別的樣本所占的比例基本相同;然后依次選取每一份作為測(cè)試集剩下的4份則自動(dòng)變?yōu)橛?xùn)練集,將5次測(cè)試得出的分類(lèi)準(zhǔn)確率平均后作為最終結(jié)果。在使用這些數(shù)據(jù)集前,先對(duì)它們進(jìn)行歸一化處理來(lái)消除樣本中各個(gè)屬性不同量綱對(duì)網(wǎng)絡(luò)訓(xùn)練效果的影響。在參數(shù)選擇方面式(9)中的α取1,γ取0.2,1.3節(jié)中P、S、C這三個(gè)參數(shù)在試驗(yàn)中統(tǒng)一設(shè)置為6、20和50。選擇性集成中的泛化誤差閾值φ可以根據(jù)子網(wǎng)絡(luò)的整體情況調(diào)整而相似度閾值ψ取0.7,隱層神經(jīng)元的個(gè)數(shù)L和子網(wǎng)絡(luò)的生成個(gè)數(shù)可以根據(jù)數(shù)據(jù)集中樣本的屬性數(shù)和類(lèi)別數(shù)進(jìn)行適當(dāng)調(diào)整。以數(shù)據(jù)集Wine為例,φ取20,L取10,子網(wǎng)絡(luò)生成個(gè)數(shù)取40。本次實(shí)驗(yàn)的結(jié)果如表2-表4所示,其中表2為單一ELM分類(lèi)器的對(duì)比而表3、表4則為三種不同集成方式之間的對(duì)比。
表2 單一ELM模型分類(lèi)正確率
表3 三種不同集成網(wǎng)絡(luò)的分類(lèi)正確率
表4 網(wǎng)絡(luò)關(guān)鍵指標(biāo)對(duì)比
由表2可知,IELM在4個(gè)數(shù)據(jù)集中的分類(lèi)精度都要優(yōu)于原始ELM模型,且在Glass和Letter數(shù)據(jù)集上的優(yōu)勢(shì)更為明顯。這是因?yàn)镚lass和Letter都屬于多屬性多分類(lèi)的復(fù)雜問(wèn)題,原始ELM比較容易得出不確定的分類(lèi)結(jié)果從而降低分類(lèi)的正確率,而IELM則通過(guò)上文中的改進(jìn)一定程度上地避免了這種問(wèn)題。
從表3和表4中3種不同集成方法的比較可以看出,ELMSE在系統(tǒng)平均泛化誤差和平均相似度這兩項(xiàng)關(guān)鍵指標(biāo)上都比其他方法更為優(yōu)異并且總體上分類(lèi)正確率也更高。這一實(shí)驗(yàn)結(jié)果驗(yàn)證了Zhou等[6]的結(jié)論同時(shí)也說(shuō)明本文第2節(jié)提出的相似度評(píng)價(jià)方法和選擇性集成策略是有效的,和其他幾種方法相比能夠使集成的ELM網(wǎng)絡(luò)擁有更佳的分類(lèi)性能。
本文針對(duì)ELM分類(lèi)器在實(shí)際應(yīng)用中性能不穩(wěn)定、精度不高的問(wèn)題,通過(guò)深入研究ELM分類(lèi)器的模型提出了一種評(píng)價(jià)訓(xùn)練結(jié)果中信息量大小的矩陣求解方法。并針對(duì)ELM模型中參數(shù)隨機(jī)產(chǎn)出的不足,引入隱層輸出矩陣競(jìng)爭(zhēng)機(jī)制。在選擇性集成方面,針對(duì)已有的子網(wǎng)絡(luò)相似度評(píng)價(jià)方法的不足,提出了一種基于子網(wǎng)絡(luò)參數(shù)向量的相似度評(píng)價(jià)方法和選擇性集成策略并給出了具體的計(jì)算公式和集成步驟。通過(guò)UCI數(shù)據(jù)測(cè)試表明,本文提出的選擇性集成ELM分類(lèi)器能夠比其他ELM分類(lèi)器擁有更好的分類(lèi)性能,為現(xiàn)實(shí)中復(fù)雜的分類(lèi)問(wèn)題提供了一種新的可行方案。
[1] Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:theory and application[J].Neurocomputing,2006,70(1-3):489-501.
[2] Huang G B,Wang D H,Lan Y.Extreme learning machines:a survey[J].International Journal of Machine Learning and Cybernetics,2011,2(2):107-122.
[3] 周志華,陳世福.神經(jīng)網(wǎng)絡(luò)集成[J].計(jì)算機(jī)學(xué)報(bào),2002,25(1):1-8.
[4] Zhou Z H,Wu J,Tang W.Ensembling neural networks:many could be better than all[J].Artificial intelligence,2002,137(1):239-263.
[5] Bartlett P L.The sample complexity of pattern classification with neural networks:the size of the weights is more important than the size of the network[J].IEEE Transactions on Information Theory,1998,44(2):525-536.
[6] Shipp C A,Kuncheva L I.Relationships between combination methods and measures of diversity in combining classifiers[J].Information Fusion,2002,3(2):135-148.
[7] Yang J,Yang J Y,Zhang D,et al.Feature fusion:parallel strategy vs.serial strategy[J].Pattern Recognition,2003,36(6):1369-1381.
[8] Zhu Q Y,Qin A K,Suganthan P N,et al.Evolutionary extreme learning machine[J].Pattern Recognition,2005,38(10):1759-1763.
[9] 陳涵瀛,高璞珍,譚思超,等.自然循環(huán)流動(dòng)不穩(wěn)定性的多目標(biāo)優(yōu)化極限學(xué)習(xí)機(jī)預(yù)測(cè)方法[J].物理學(xué)報(bào),2014,63(20):111-118.
[10] 胥小波,鄭康鋒,李丹,等.新的混沌粒子群優(yōu)化算法[J].通信學(xué)報(bào),2012,33(1):24-30.
[11] 陸慧娟,安春霖,馬小平,等.基于輸出不一致測(cè)度的極限學(xué)習(xí)機(jī)集成的基因表達(dá)數(shù)據(jù)分類(lèi)[J].計(jì)算機(jī)學(xué)報(bào),2013,36(2):341-348.
[12] Rahman A,Verma B.Cluster-based ensemble of classifiers[J].Expert Systems,2013,30(3):270-282.
[13] 張宇,劉雨?yáng)|,計(jì)釗.向量相似度測(cè)度方法[J].聲學(xué)技術(shù),2009,28(4):532-536.
[14] 蔣蕓,陳娜,明利特,等.基于Bagging的概率神經(jīng)網(wǎng)絡(luò)集成分類(lèi)算法[J].計(jì)算機(jī)科學(xué),2013,40(5):242-246.
RESEARCH ON MODELLING SELECTIVE ENSEMBLE EXTREME LEARNING MACHINE CLASSIFIER
Xu XiaoyangJi Zhicheng
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,Jiangsu,China)
As its advantage, the training speed of extreme learning machine (ELM) is extremely fast. But sometimes its stability and precision can’t meet the requirement of practical application. In order to solve the problem, this paper introduces a solution for ELM when to be used in classification, in it the output weight matrix is improved with the evaluation factor of information in training results. Meanwhile, the hidden layer output matrixes competitive mechanism is added to improve the stability of ELM. For the sake of further improving ELM’s accuracy rate in classification, we propose a kind of selective ensemble extreme learning machine classifier by learning from the theory of neural network ensemble. In ensemble method, we adopt the improved Bagging and propose a subnet’s parameter vector-based similarity evaluation method and selective ensemble policy. Finally it is demonstrated by UCI data test that compared with Bagging and traditional all ensemble ELM, the solution proposed here has better performance in classification.
Extreme learning machineNeural networkSelective ensembleBagging
2015-01-30。國(guó)家糧食局公益性科研項(xiàng)目(2013130 12)。徐曉楊,碩士生,主研領(lǐng)域:神經(jīng)網(wǎng)絡(luò)及其應(yīng)用。紀(jì)志成,教授。
TP183
A
10.3969/j.issn.1000-386x.2016.09.065