馬艷東
改進(jìn)的局部泛化誤差模型及其在特征選擇中的應(yīng)用
馬艷東
神經(jīng)網(wǎng)絡(luò)的性能可以通過(guò)泛化誤差表達(dá)。泛化誤差越小,則說(shuō)明該神經(jīng)網(wǎng)絡(luò)在未知樣本中的預(yù)測(cè)能力越強(qiáng)。反之,說(shuō)明該神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力很差。對(duì)Wing W.Y. NG等人提出了局部泛化誤差模型進(jìn)行了改進(jìn),并將新模型應(yīng)用到特征選擇當(dāng)中。試驗(yàn)結(jié)果表明,相對(duì)于原有模型,該模型具有更貼近實(shí)際的對(duì)泛化能力進(jìn)行表達(dá)的能力。
在模式識(shí)別率領(lǐng)域,泛化誤差模型能夠描述分類(lèi)器對(duì)未知樣本進(jìn)行準(zhǔn)確分類(lèi)的能力,也是近幾年來(lái)的研究熱點(diǎn)。一般的泛化誤差模型都是以包括未知樣本的整個(gè)樣本空間為基礎(chǔ)進(jìn)行研究的。但是,Wing W.Y. NG等人卻另辟蹊徑提出了局部泛化誤差模型(Localization Generalization Error model,L-GEM)。該模型認(rèn)為對(duì)距離已知樣本距離過(guò)遠(yuǎn)的樣本考慮泛化能力沒(méi)有任何意義。故而將考慮范圍誤差模型的基礎(chǔ)更正為值考慮距離已知樣本距離較近的空間。這樣獲得局部泛化誤差模型不僅降低了模型推導(dǎo)的難度,而且,具有更貼近實(shí)際的意義。然而,通過(guò)研究發(fā)現(xiàn),該局部泛化誤差在推導(dǎo)過(guò)程與理論基礎(chǔ)上面出現(xiàn)了些許錯(cuò)誤。比如在推導(dǎo)局部泛化誤差模型的上限過(guò)大,而且推導(dǎo)的理論依據(jù)也不是很堅(jiān)實(shí)。本文提出了一種新型的基于范數(shù)的局部泛化誤差模型(Normbased Localization Generalization Error model,NL-GEM)。該模型不僅避免了原L-GEM模型的推導(dǎo)過(guò)程中出現(xiàn)的錯(cuò)誤,而且具有更簡(jiǎn)單的推導(dǎo)過(guò)程與更易于理解的理論基礎(chǔ)。
Q近鄰
對(duì)于任意給定的訓(xùn)練樣本xb,可以找到一個(gè)訓(xùn)練樣本集,滿足
令SQ為所有SQ(xb)的并集。
局部泛化誤差模型
假定將計(jì)算泛化誤差的考慮控件限定在Q近鄰的范圍內(nèi),則局部泛化誤差模型L-GEM的推導(dǎo)過(guò)程簡(jiǎn)單描述如下。
其中,fθ(x)是分類(lèi)器的真實(shí)輸出。F( x)為分類(lèi)器的期望輸出。θ從域Λ中選擇出來(lái)的一組參數(shù)集。 A為目標(biāo)輸出最大值與最小值之差。
基于范數(shù)的局部泛化誤差模型(NL-GEM)
NL-GEM模型的推導(dǎo)過(guò)程如下:
公式(5)的第2項(xiàng):
是訓(xùn)練集的訓(xùn)練誤差,用Remp表示。因此,公式(5)則可以簡(jiǎn)寫(xiě)成:
這就是NL-GEM模型的最后推導(dǎo)形式。對(duì)比LGEM模型,該模型具有以下三項(xiàng)優(yōu)點(diǎn)。第一:該模型的推導(dǎo)過(guò)程比L-GEM的推導(dǎo)過(guò)程更加堅(jiān)定;第二:該模型更加利于理解與計(jì)算。第三:理論基礎(chǔ)更加堅(jiān)實(shí)。
對(duì)于訓(xùn)練RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)的需求來(lái)說(shuō),輸入數(shù)據(jù)的維數(shù)并不是越多越好。而且數(shù)據(jù)維數(shù)越多,存儲(chǔ)需要的空間也越多。處理數(shù)據(jù)花費(fèi)的成本也越多。更有甚者,數(shù)據(jù)維數(shù)多到一定程度,RBF神經(jīng)網(wǎng)絡(luò)的性能還會(huì)有明顯的下降。而特征選擇可以幫助RBF神經(jīng)網(wǎng)絡(luò)利用更少但更加代表數(shù)據(jù)本質(zhì)的特征,訓(xùn)練出性能不比使用所有特征訓(xùn)練的網(wǎng)絡(luò)的性能差,甚至更好的分類(lèi)器。
SM神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)是不重要的。
步1:初始化IFS為全部特征的集合;
步2:利用IFS里的特征,訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò);
步5:如果終止條件沒(méi)有滿足,則跳轉(zhuǎn)到步2。
終止條件一般為:測(cè)試誤差下降的較快,或者,RBF神經(jīng)網(wǎng)絡(luò)的性能滿足要求,或者,IFS只包含一個(gè)特征。在步2中,采用兩階段發(fā)來(lái)訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò)。 第一階段,利用K-mean聚類(lèi)算法計(jì)算隱含層節(jié)點(diǎn)的中心與寬度。第二階段,偽擬的方法計(jì)算網(wǎng)絡(luò)的權(quán)重。
下面對(duì)本文提出的算法進(jìn)行仿真實(shí)驗(yàn),試驗(yàn)數(shù)據(jù)特選取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的Iris、Glass數(shù)據(jù)集,作為樣本集。其中Iris具有150個(gè)樣本數(shù),4個(gè)特征,3個(gè)類(lèi)標(biāo)。Glass數(shù)據(jù)集則有214個(gè)樣本,9個(gè)特征,6個(gè)類(lèi)標(biāo)。為驗(yàn)證本算法的可行性,進(jìn)行特征選擇對(duì)比試驗(yàn)。分別對(duì)上述2個(gè)數(shù)據(jù)集重復(fù)進(jìn)行10仿真實(shí)驗(yàn),取其識(shí)別精度的平均值作為其訓(xùn)練與測(cè)試能力的評(píng)價(jià)標(biāo)準(zhǔn)。在針對(duì)Iris數(shù)據(jù)集進(jìn)行試驗(yàn)時(shí),RBF神經(jīng)網(wǎng)絡(luò)的隱含層結(jié)點(diǎn)數(shù)目為6。針對(duì)Glass數(shù)據(jù)集進(jìn)行試驗(yàn)時(shí),RBF神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù)目為21。
仿真實(shí)驗(yàn)結(jié)果如表1與2所示。
表1 Iris數(shù)據(jù)集的特征選擇結(jié)果
表2 Glass數(shù)據(jù)集的特征選擇結(jié)果
由表1可知,針對(duì)Iris數(shù)據(jù)集,當(dāng)在第2此迭代時(shí),在分別刪除第1與2個(gè)特征之后,RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度提高了近3個(gè)百分點(diǎn)。而測(cè)試精度達(dá)到了100%。
由表2可知,針對(duì)Glass數(shù)據(jù)集,如果任意刪除其中的一個(gè)特征后,RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度與測(cè)試精度都會(huì)有極大幅度的下降。因此,對(duì)Glass數(shù)據(jù)集來(lái)說(shuō),所有的特征都是重要的特征。
關(guān)于未來(lái)工作,將在更多的數(shù)據(jù)集上驗(yàn)證該模型的可行性。還會(huì)利用均方誤差模型實(shí)現(xiàn)該模型。也會(huì)嘗試其他方法來(lái)降低該模型的復(fù)雜度。最后還會(huì)將該模型應(yīng)用到其他領(lǐng)域,如結(jié)構(gòu)選擇、激勵(lì)學(xué)習(xí)等。
10.3969/j.issn.1001-8972.2015.10.013