高強(qiáng),王明
(華北電力大學(xué)電氣與電子工程學(xué)院,河北保定071003)
機(jī)器學(xué)習(xí)作為人工智能技術(shù)的新發(fā)展,被廣泛應(yīng)用于計算機(jī)視覺、語音識別[1]、手寫體識別[2]、人臉識別[3]和圖像處理等領(lǐng)域。其中,由Geoffrey Hinton[4]提出的深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)是機(jī)器學(xué)習(xí)中最重要的網(wǎng)絡(luò)結(jié)構(gòu)之一,不同于支持向量機(jī)(Support Vector Machine,SVM)使用數(shù)學(xué)方法和優(yōu)化技術(shù)來構(gòu)造超平面進(jìn)行分類,其使用大量的數(shù)據(jù)訓(xùn)練提取特征,得到最終的模型來進(jìn)行分類和識別。在實(shí)際的絕緣子故障識別應(yīng)用中,具有較好分類能力的深度信念網(wǎng)絡(luò)是一個較好的檢測手段。數(shù)據(jù)是模型訓(xùn)練的關(guān)鍵,數(shù)據(jù)量要足夠大,模型的泛化性才能好,否則得到的模型不能形成對整個數(shù)據(jù)的描述,存在過擬合現(xiàn)象。
目前人們對DBN的應(yīng)用研究[5-9]已經(jīng)非常多,但是DBN理論上的模型不夠清晰,實(shí)際應(yīng)用中還存在很多小樣本問題。關(guān)于神經(jīng)網(wǎng)絡(luò)中的小樣本問題,大部分的出發(fā)點(diǎn)都是擴(kuò)充樣本數(shù)或者間接利用小樣本來輔助優(yōu)化網(wǎng)絡(luò)模型,如文獻(xiàn)[10]中利用小樣本對神經(jīng)網(wǎng)絡(luò)可能的組合參數(shù)進(jìn)行模擬訓(xùn)練和測試,選取最優(yōu)化的一組神經(jīng)網(wǎng)絡(luò)參數(shù),進(jìn)而提高對特定樣本的識別效果;文獻(xiàn)[11]中則是利用原始小樣本數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到與原始數(shù)據(jù)樣本規(guī)律相近的擴(kuò)充數(shù)據(jù)樣本,利用擴(kuò)充的數(shù)據(jù)樣本再來進(jìn)行網(wǎng)絡(luò)運(yùn)算;而文獻(xiàn)[12]則利用前期收集的系統(tǒng)的可靠性數(shù)據(jù)來對樣本進(jìn)行擴(kuò)充?;蛘呃眯颖緮?shù)據(jù)來進(jìn)行模型參數(shù)估計和預(yù)測[13-14],也是小樣本問題的主要方向,暫時還沒有還沒有應(yīng)用在圖像分類上的相關(guān)算法。本文研究了深度信念網(wǎng)絡(luò)的等效模型,基于此模型提出了區(qū)間化擴(kuò)展權(quán)值的方法,通過擴(kuò)展權(quán)值,增大樣本和權(quán)值的匹配范圍,提高小樣本模型的分類性能,進(jìn)而有效提升絕緣子的分類性能。
DBN具有多層結(jié)構(gòu),是一種能量模型,其可視層和隱含層的聯(lián)合組態(tài)能量表示為:
式中vi、hj分別是可視層和隱含層的節(jié)點(diǎn)狀態(tài);ai、bj分別為可視層和隱含層節(jié)點(diǎn)對應(yīng)的偏置值;wji為可視層與隱含層之間的連接權(quán)重值。隱含層節(jié)點(diǎn)的輸出為:
隱含層的輸出hio(n)=[h1h2...hM]T,權(quán)值wj(n)=[w1w2...wM]T,M是隱含層神經(jīng)元的個數(shù)。對能量公式(1)進(jìn)行整理。將式(2)代入式(1)中,得:
求解DBN收斂的結(jié)果,就是使式(4)達(dá)到最小。
為了看清楚DBN的行為,設(shè)輸入的樣本是一個已知的“信號”與噪聲的混合波形,即:
式中s(n)表示樣本中同類的相同部分;n(n)為隨機(jī)干擾;上標(biāo)l表示樣本序號,共有L個樣本,信號與噪聲互不相關(guān),即且
由于η(n)是任意函數(shù),因此,要求:
即:
在多個樣本輸入的情況下,用 v(l)(n)表示不同的樣本,若共有L個樣本,可以得到由式(9)構(gòu)成的方程組:
所有的樣本求和得:
可得:
將 a0(i)代入式(4),得:
同樣,采用求解ai的變分法對bj求解,同樣用序列形式 b(n),設(shè) b(n)=b0(n)+εη(n),代入式(13)求解得:
將式(14)代入(13)得:
對于權(quán)值,采用同樣的推導(dǎo)方法,利用變分法求解權(quán)值 w1(n),設(shè) w1(n)=w10(n)+εη(n)代入式(15),對其整理求解得:
其中,k3為常數(shù),由以上推導(dǎo)可以看出當(dāng)權(quán)值收斂于信號時,DBN網(wǎng)絡(luò)可以得到最優(yōu)解。當(dāng)樣本數(shù)量很大時,信噪比較大,噪聲趨近于0,權(quán)值收斂會很接近于信號,此時分類效果很好。
由于DBN是并行處理結(jié)構(gòu),即網(wǎng)絡(luò)在同時處理每一個數(shù)據(jù),看上去比較復(fù)雜。如果采用串行結(jié)構(gòu)表示,是非常簡單明確的。根據(jù)以上的參數(shù)推導(dǎo)過程,假定DBN網(wǎng)絡(luò)只有一個隱含層,且隱含層只有2個神經(jīng)元,對兩類樣本進(jìn)行分類,兩類樣本v1(l)(n)和v2(l)(n)分別為:
即每一類樣本中都有一個相同的本類信號s1和s2,權(quán)值 w1(n)和 w2(n)是提取的樣本特征,則 DBN的等效模型與通信系統(tǒng)的最佳接收機(jī)形式完全一致,如圖1所示。
對DBN的訓(xùn)練是尋找最佳權(quán)值的過程,也就是尋找最匹配的“信號”,使分類效果最好。因此,找到的“信號”大致接近真實(shí)的信號時,就是一個解,但不一定是最優(yōu)解。希望訓(xùn)練模型得到的最優(yōu)解,就是權(quán)值 w1(n)和 w2(n)分別收斂于信號 s1和 s2。
在實(shí)際應(yīng)用中,隱含層神經(jīng)元個數(shù)往往大于2,其等效模型為多個最佳接收機(jī)的并聯(lián)結(jié)構(gòu)。此時,不再是一個權(quán)值對應(yīng)一個信號,而是多個“部分信號”組合起來表達(dá)一個“信號”,訓(xùn)練使系統(tǒng)的能量公式達(dá)到最小,權(quán)值收斂到各自的“部分信號”時,整個網(wǎng)絡(luò)達(dá)到收斂。多層DBN網(wǎng)絡(luò)基本重復(fù)前一層的結(jié)構(gòu)。
圖1 基本DBN結(jié)構(gòu)的等效模型Fig.1 Equivalentmodel of basic DBN structure
依據(jù)最佳接收機(jī)理論可知,DBN網(wǎng)絡(luò)的分類性能就是系統(tǒng)的抗噪聲性能。只有當(dāng)樣本數(shù)量足夠大時,即噪聲服從正態(tài)分布時,才能得到最佳的性能;從權(quán)值的推導(dǎo)中也可看出,樣本數(shù)量足夠大,權(quán)值收斂會更接近于信號,獲得更好的分類效果。因此,在小樣本的情況下,信噪比小,權(quán)值很難收斂于信號,接收機(jī)一般得不到最佳性能。如何解決小樣本情況下的這些問題,需要進(jìn)一步研究。
區(qū)間數(shù)是不確定性理論的延伸和發(fā)展,由于各種測量和運(yùn)算的不精確所帶來的數(shù)據(jù)誤差,以及信息不完全所帶來的數(shù)據(jù)缺乏導(dǎo)致得到的結(jié)果是一個不確定的數(shù)[15]。實(shí)際存在各種不同的客觀情境以及人主觀思維的不確定性,對事物的屬性往往有著不確定性的判斷,所以只能給出一個大概的范圍,不能清楚地得到事物的屬性值,這就需要區(qū)間數(shù)來刻畫此類問題。因?yàn)樗先祟惖乃季S特征,也符合現(xiàn)實(shí)情況。
基于此思想,針對小樣本情況下模型泛化性差問題,我們對權(quán)值中的每一個分量在一定的經(jīng)驗(yàn)值或理論值范圍內(nèi)進(jìn)行若干細(xì)分,進(jìn)行區(qū)間化擴(kuò)展,即原來權(quán)值每一個分量都被擴(kuò)展成與其本身緊密相關(guān)的一個小區(qū)間內(nèi)的多個數(shù),以提取更多相似的樣本信息,來改善小樣本情況下訓(xùn)練模型的泛化性。并對BP算法進(jìn)行相應(yīng)的區(qū)間化改進(jìn),擴(kuò)大搜索范圍,以增加樣本與權(quán)值的匹配范圍,提高樣本識別率,改進(jìn)模型性能。
設(shè)DBN網(wǎng)絡(luò)有m個顯層神經(jīng)元,n個隱含層神經(jīng)元,輸入的一個樣本為S=[s1s2s3...sm],權(quán)值矩陣為W,擴(kuò)展后的權(quán)值矩陣為W′,即W1擴(kuò)展后為 W1′=[W11W12W13...W1k],將每一個權(quán)值區(qū)間化擴(kuò)展到k維,每一個區(qū)間化的權(quán)值中的分量都對應(yīng)著一個隱層輸出,則隱層輸出擴(kuò)展為k批,第j批DBN隱含層結(jié)點(diǎn)和輸出結(jié)點(diǎn)的操作特性為[16-17]:
其中,netlj為隱層輸出,Wlji為權(quán)值W的第l個分量的第j個擴(kuò)展值的第i維,f仍為激活函數(shù)。網(wǎng)絡(luò)誤差定義為區(qū)間化后的所有擴(kuò)展值的均值,即:
Elj是權(quán)值第l個分量第j個表征矢量的誤差,EK即為第j批擴(kuò)展值的網(wǎng)絡(luò)誤差;yl是第l個輸出神經(jīng)元的期望值;Vlj是輸出神經(jīng)元的實(shí)際值。則誤差信號為:
在信號檢測與估值[18]理論中,圖1給出的DBN模型為最佳接收機(jī)模型,對樣本的分類問題與對確知信號進(jìn)行檢測是完全一致的。在分析信號檢測性能時,與信噪比和互相關(guān)系數(shù)等緊密相關(guān)。因此,區(qū)間化權(quán)值處理,沒有改變模型結(jié)構(gòu),其性能是一致的。同樣,假定DBN網(wǎng)絡(luò)只有一個隱含層和2個隱層神經(jīng)元,對兩類樣本進(jìn)行分類。
設(shè)發(fā)送端發(fā)送的樣本y=s1+n1,即發(fā)送樣本為第一類;且W1和W2已訓(xùn)練至收斂,即W1=s1,W2=s2,此時,最佳接收機(jī)正確判決時滿足:
設(shè)兩類樣本的數(shù)量相同,可不考慮偏置 K1、K2的影響,當(dāng)信號與噪聲互不相關(guān),即∑sini=0時,則上式轉(zhuǎn)化為:
在樣本功率歸一化的情況下,樣本與自身的相關(guān)性取得最大值,等于1;樣本與其他信號的相關(guān)性均小于1,故不等式必然成立,能實(shí)現(xiàn)正確判決。兩個數(shù)據(jù)大小差距為:
當(dāng)權(quán)值進(jìn)行區(qū)間化擴(kuò)展后,網(wǎng)絡(luò)判決式修改為:
W11,W12,...,W1n均為 W1的區(qū)間化擴(kuò)展值,與W1緊密相關(guān),即擴(kuò)展值與信號s1也緊密相關(guān),同理,W2m與s1相關(guān)性小,即任意的∑s1W1m>∑s1W2m。則上式一定成立,并可寫為:
而區(qū)間化權(quán)值與標(biāo)準(zhǔn)權(quán)值緊密相關(guān),所以W1m≈W1,同理 W2m≈W2,所以式(28)近似為:
兩數(shù)據(jù)的大小差距為:
由式(30)可知,在權(quán)值被擴(kuò)展后,訓(xùn)練過程中信號被重復(fù)提取,重復(fù)提取的部分其相關(guān)性累加,要大于信號和非本類信號相乘的累加結(jié)果,判決式兩端的數(shù)據(jù)差距會更大,更容易得到出二者之間的大小對比關(guān)系,其判決效果相較于單個權(quán)值時要更明顯,判決性能要更好。
為了驗(yàn)證上述算法和推導(dǎo)的有效性,實(shí)驗(yàn)選用MNIST和CIFAR-10數(shù)據(jù)庫以及自建的絕緣子庫來進(jìn)行測試,因?yàn)闀簳r沒有用于圖像分類的小樣本相關(guān)算法,所以將結(jié)果與傳統(tǒng)DBN算法進(jìn)行了比較,性能指標(biāo)包括訓(xùn)練樣本正確識別率和測試樣本正確識別率。
(1)MNIST數(shù)據(jù)庫測試
實(shí)驗(yàn)以MNIST手寫體數(shù)據(jù)庫為例,MNIST手寫庫總共有10類手寫體數(shù)字,選取不同類別的圖像為實(shí)驗(yàn)對象進(jìn)行分類,分別測試不同樣本類別數(shù)和不同樣本數(shù)情況,權(quán)值區(qū)間化算法和傳統(tǒng)DBN網(wǎng)絡(luò)的分類性能對比如表1所示。
由表1可知,在不同的類別數(shù)情況下,權(quán)值區(qū)間化算法相比傳統(tǒng)DBN網(wǎng)絡(luò),測試識別率均有提高,模型泛化性得到了一定提升,這是因?yàn)闄?quán)值區(qū)間擴(kuò)展后,樣本與匹配的范圍擴(kuò)大,分類判決時的判決界限更清晰,能更好的對樣本進(jìn)行分類。隨著樣本數(shù)的減少,整體識別率逐漸降低,這是由于樣本數(shù)不足,訓(xùn)練模型提取特征不夠具有代表性引起的。隨著分類類別數(shù)的增加,表現(xiàn)出較差的結(jié)果,這可能是由淺層神經(jīng)網(wǎng)絡(luò)自身的學(xué)習(xí)機(jī)制導(dǎo)致的。從表中也可看出,在樣本類別數(shù)增加時,區(qū)間擴(kuò)展算法對提高模型測試識別率有著更好的效果。
表1 MNIST庫不同類別樣本實(shí)驗(yàn)結(jié)果對比Tab.1 Experimental comparison results of different categories of MNIST
(2)CIFAR-10數(shù)據(jù)庫測試
實(shí)驗(yàn)以CIFAR-10數(shù)據(jù)庫為例,選取汽車和船為實(shí)驗(yàn)對象進(jìn)行分類,每類圖片選取100張,DBN網(wǎng)絡(luò)采用三層隱含層,分別為60-200-200,實(shí)驗(yàn)當(dāng)隱元數(shù)減半的情況下權(quán)值區(qū)間化與傳統(tǒng)算法的結(jié)果對比如表2所示。
表2 CIFAR-10不同網(wǎng)絡(luò)隱元數(shù)實(shí)驗(yàn)結(jié)果對比Tab.2 Experimental comparison results of CIFAR-10 in different hidden elements
從表2的測試結(jié)果可以看出,本文的權(quán)值區(qū)間擴(kuò)展方法在CIFAR-10數(shù)據(jù)庫上同樣能對小樣本問題取得一定的改進(jìn)效果,在隱元結(jié)構(gòu)改變時,也能保持其提高性能。
(3)絕緣子數(shù)據(jù)庫測試
由于目前并沒有公開的絕緣子數(shù)據(jù)庫,本文采集了兩個類別的絕緣子,用于絕緣子故障識別。該數(shù)據(jù)庫中有900張絕緣子樣本圖像,其中包括600張正常的絕緣子,300張有故障的絕緣子,圖片分辨率都為4 096。實(shí)驗(yàn)分別選取相同數(shù)量的正常和故障絕緣子圖片作為訓(xùn)練集,再分別選取100張正常和故障絕緣子作為測試集,測試不同數(shù)量的訓(xùn)練樣本情況下,不同網(wǎng)絡(luò)的分類識別情況如表3所示。
表3 絕緣子庫不同訓(xùn)練樣本數(shù)實(shí)驗(yàn)結(jié)果對比Tab.3 Experimental comparison resultswith the number of training samples in insulator
由表3的實(shí)驗(yàn)結(jié)果可看出,對絕緣子故障識別的實(shí)驗(yàn),權(quán)值區(qū)間化的DBN網(wǎng)絡(luò)相比傳統(tǒng)DBN網(wǎng)絡(luò)有明顯的提升效果,特別是在樣本數(shù)較少,每類50張時,傳統(tǒng)模型泛化性很差,采用權(quán)值區(qū)間化算法能有效的提升故障絕緣子的正確識別率。
本文研究了深度信念網(wǎng)絡(luò)的等效模型,對DBN網(wǎng)絡(luò)的意義進(jìn)行了更加明確地闡述,指出了DBN訓(xùn)練需要大量數(shù)據(jù)樣本的原因;并基于此模型提出了一種區(qū)間化權(quán)值的DBN網(wǎng)絡(luò)算法,可以補(bǔ)償小樣本情況下,提取的特征不夠全面的缺點(diǎn),進(jìn)而提升DBN性能,提高圖像分類識別率;通過推理論證了算法的優(yōu)越性。在MNIST和CIFAR-10數(shù)據(jù)庫中的實(shí)驗(yàn)證明了這一結(jié)論的可靠性,并驗(yàn)證了其在實(shí)際的絕緣子故障識別中有一定的應(yīng)用前景。