趙海全 陸 鑫
(西南交通大學(xué)電氣工程學(xué)院,四川成都 610031)
近年來深度神經(jīng)網(wǎng)絡(luò)迅速發(fā)展,展現(xiàn)了強(qiáng)大的特征提取和非線性逼近能力。但當(dāng)數(shù)據(jù)量較大時(shí),由于層數(shù)增加,神經(jīng)網(wǎng)絡(luò)在逐層反向更新權(quán)重時(shí),會(huì)遇到梯度消失,梯度爆炸,訓(xùn)練速度慢等問題。對(duì)此,Chen 等人提出了寬度學(xué)習(xí)系統(tǒng)(broad learning system,BLS)[1]。BLS 具有訓(xùn)練速度快,結(jié)構(gòu)簡(jiǎn)單的特點(diǎn),已成功地應(yīng)用于人臉識(shí)別[2]、文本分類[3]、時(shí)間序列預(yù)測(cè)[4]等領(lǐng)域。但標(biāo)準(zhǔn)BLS 使用最小均方誤差(minimum mean square error,MMSE)準(zhǔn)則訓(xùn)練網(wǎng)絡(luò)輸出權(quán)值,MMSE 準(zhǔn)則在處理含有如離群值等非線性噪聲[5]的數(shù)據(jù)時(shí)會(huì)降低BLS 的性能。對(duì)此,眾多學(xué)者對(duì)標(biāo)準(zhǔn)BLS進(jìn)行了改進(jìn)。Jin提出將L1 范數(shù)與不同的正則化項(xiàng)相結(jié)合,生成魯棒的BLS(RBLS)[6]。由于L1 范數(shù)對(duì)異常值的敏感性較低,BLS的魯棒性得到了顯著提高。同樣,Zheng提出了基于最大相關(guān)熵準(zhǔn)則(maximum correntropy criterion,MCC)的BLS(C-BLS)[7],通過設(shè)置適當(dāng)?shù)暮藢挾?,削弱異常值?duì)系統(tǒng)的影響。Guo 通過融合不同的M-estimator 代價(jià)函數(shù)對(duì)訓(xùn)練樣本進(jìn)行逆向加權(quán)計(jì)算提出了具有魯棒性的RBLS[8],以減輕離群值誤差帶來的不利影響。
受Zheng 的啟發(fā),我們采用基于信息論學(xué)習(xí)[9-10](information theory learning,ITL)的廣義最大相關(guān)熵準(zhǔn)則(generalized maximum correntropy criterion,GMCC)[11]來訓(xùn)練BLS 的輸出權(quán)值,從而進(jìn)一步提高BLS 的性能。主要貢獻(xiàn)總結(jié)如下:
我們提出了一種基于廣義最大相關(guān)熵準(zhǔn)則的BLS(GC-BLS)。通過設(shè)置合理的參數(shù),可以減輕離群值誤差產(chǎn)生的不利影響,提高 BLS 對(duì)于離群值的抗干擾能力。為了檢驗(yàn)新算法的性能,在各種回歸數(shù)據(jù)集與時(shí)間序列數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并得到了一些令人滿意的結(jié)果。
BLS 是在RVFLNN(random vector functional link neural network)基礎(chǔ)上改進(jìn)而來。對(duì)于訓(xùn)練數(shù)據(jù)X,使用特征映射f(XWei+βei)將數(shù)據(jù)投影,生成映射特征Zi。再將前n組映射特征表示為Zn=[Z1…Zn]。通過非線性激活函數(shù)處理Zn即ξ(ZnWhj+βhj)生成增強(qiáng)節(jié)點(diǎn)Hj,其中Wei,βei,Whj和βhj都是隨機(jī)生成的。將m組增強(qiáng)節(jié)點(diǎn)拼接為Hm=[H1…Hm],合并Zn與Hm得到最終的輸入數(shù)據(jù)A=[Zn|Hm]。BLS 的輸出為Y=AW,其中W為隱藏層到輸出層的權(quán)重,A我們稱之為狀態(tài)矩陣。BLS的目標(biāo)函數(shù)為:
其中:Y表示X的標(biāo)簽;用于控制訓(xùn)練誤差最小化;用于防止模型過擬合;λ是正則化系數(shù)。容易求得:
在相關(guān)熵中,高斯核函數(shù)并不總是最好的選擇,基于廣義高斯密度(generalized Gaussian density,GGD)函數(shù),Chen等人提出了廣義相關(guān)熵[11]。給定兩個(gè)隨機(jī)變量X,Y,其廣義相關(guān)熵可以表示為:
其中廣義高斯密度函數(shù)Gα,β(e)定義為:
其中α>0 為形狀參數(shù),λ=|β|-α>0 為核參數(shù),Γ(·)表示伽馬函數(shù),表示歸一化常數(shù)。當(dāng)α=2時(shí),廣義相關(guān)熵就退化為相關(guān)熵。對(duì)于廣義最大相關(guān)熵準(zhǔn)則,有以下兩點(diǎn)需要注意:
(1)在廣義相關(guān)熵中,核函數(shù)不一定為高斯核,Gα,β(X-Y)正定的條件是0<α≤2,此處廣義相關(guān)熵的值可以用有限長樣本的平均值來近似表示
廣義相關(guān)熵具備了相關(guān)熵的大多數(shù)性質(zhì),部分已經(jīng)被證明[12-14]。具體如下所示:
性質(zhì)1:Vα,β(X,Y)是對(duì)稱的,由此可以得出Vα,β(X,Y)=Vα,β(Y,X)。
性質(zhì)2:Vα,β(X,Y)是正的且有界,其范圍是0<Vα,β(X,Y)≤γα,β,只有滿足X=Y時(shí),Vα,β(X,Y)才取到最大值。
性質(zhì)3:廣義相關(guān)熵包含了誤差|X - Y|的更高階特性:
(2)當(dāng)廣義相關(guān)熵的核參數(shù)足夠小時(shí),可以得到Vα,β(X,Y) ≈γα,β(1-λWE[|X - Y|α]。
性質(zhì)4:假設(shè)樣本是從聯(lián)合概率密度函數(shù)pX,Y(x,y)中提取出來的,設(shè)為關(guān)于樣本概率密度函數(shù)的Parzen 估計(jì)。其廣義高斯密度函數(shù)Gα,β為Parzen 窗的核函數(shù)。在零點(diǎn)的估計(jì)值,表示為:
性質(zhì)5:當(dāng)0<α≤2 時(shí),廣義相關(guān)熵是映射到特征空間數(shù)據(jù)的二維統(tǒng)計(jì)量。
與相關(guān)熵類似,廣義相關(guān)熵也可以作為相關(guān)問題中的優(yōu)化準(zhǔn)則。在系統(tǒng)的實(shí)際輸出和理想輸出Y之間誤差最小化的基礎(chǔ)上,使得代價(jià)函數(shù)JGMCC的值達(dá)到最大,即
與標(biāo)準(zhǔn)的BLS 相同,此處狀態(tài)矩陣A由特征節(jié)點(diǎn)與增強(qiáng)節(jié)點(diǎn)合并生成。因此,將BLS 和GMCC 相結(jié)合的優(yōu)化模型可以表示為:
其中ei=AiW-Yi,通過求解J(W)對(duì)W的梯度:
其中λW為廣義相關(guān)熵中的核參數(shù),與正則化參數(shù)λ區(qū)分開;將式(10)矩陣化可以得到:
其中ΛW為GMCC算子,表示為:
令式(11)等于零,W的解可以寫成式(13)形式:
為了保持公式的簡(jiǎn)潔,在式(13)中將眾多參數(shù)進(jìn)行整合,其中,顯然,ΛW是W的函數(shù),因此式(13)實(shí)際上是一個(gè)不動(dòng)點(diǎn)方程,可以將其表示為:
具體算法流程如表1所示:
表1 GC-BLS算法流程Tab.1 GC-BLS algorithmic flow
表1 中,k表示每個(gè)特征映射組中特征節(jié)點(diǎn)個(gè)數(shù),n表示特征映射組數(shù),q表示每個(gè)增強(qiáng)節(jié)點(diǎn)組中增強(qiáng)節(jié)點(diǎn)個(gè)數(shù),m表示增強(qiáng)節(jié)點(diǎn)組數(shù),參考定點(diǎn)迭代方法[14-17],通過式(16)求解W:
其中,Wt表示迭代t時(shí)的解。設(shè)ε表示終止公差。停止準(zhǔn)則可設(shè)置為,表示當(dāng)權(quán)重更新趨勢(shì)趨向于穩(wěn)定時(shí),停止迭代。
本節(jié)中,以均方根誤差(root mean square error,RMSE)為衡量標(biāo)準(zhǔn)評(píng)估各算法在回歸任務(wù)上的性能。為了消除數(shù)據(jù)尺度的影響,下面所有數(shù)據(jù)集的輸入和輸出屬性都被歸一化到(0,1)的范圍。所有的實(shí)驗(yàn)結(jié)果都是在配備Intel(R)Core(TM)i5-6200U CPU 2.30 GHz 和8 GB RAM 的機(jī)器上使用pycharm獲得的。
本節(jié)中使用麥基-格拉斯時(shí)間序列預(yù)測(cè)和月平均總“太陽黑子數(shù)”預(yù)測(cè)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中給兩者30%訓(xùn)練集標(biāo)簽上添加范圍在ymin到y(tǒng)max的離群值噪聲,以驗(yàn)證算法性能。
麥基-格拉斯時(shí)間序列顯示了混沌動(dòng)力學(xué)的特征,可以用式(17)[18]所示的時(shí)滯微分方程來描述:
其中,本文中設(shè)置a=0.1;b=0.2;τ=30。正如文獻(xiàn)[17]中所建議的,采用前7點(diǎn)來預(yù)測(cè)當(dāng)前的一點(diǎn)。因此t時(shí)刻的輸入和輸出的形式分別為xt=[x(t-7),x(t-6)…x(t-1)]和yt=x(t)。
“太陽黑子數(shù)量”是一個(gè)實(shí)時(shí)系列數(shù)據(jù)集,記錄了1749 年1 月至2017 年12 月每月平均太陽黑子的數(shù)量。實(shí)驗(yàn)中的嵌入維數(shù)和延遲時(shí)間分別設(shè)置為4和1。
數(shù)據(jù)集參數(shù)如表2 所示。由表3 中的實(shí)驗(yàn)結(jié)果可知,與其他算法相比,新算法的性能要明顯優(yōu)于其他算法。
表2 時(shí)間序列數(shù)據(jù)集Tab.2 Time series data set
表3 各算法時(shí)間序列數(shù)據(jù)集上的表現(xiàn)Tab.3 Performance of each algorithm on time series data set
本節(jié)在UCI(university of california irvine)基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集參數(shù)如表4所示。由于這些數(shù)據(jù)是現(xiàn)實(shí)世界的真實(shí)數(shù)據(jù),已經(jīng)包含誤差,不額外添加人工噪聲。
表4 回歸數(shù)據(jù)集Tab.4 Regression data set
首先采用網(wǎng)格搜索法確定各算法的最優(yōu)參數(shù)。對(duì)于所有算法的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),m固定為1,參數(shù)組合{k,n,q}的搜索范圍分別設(shè)置為{1,3,5,7,9,11,13,15},{1,3,5,7,9,11,13,15},{100,120,140,160,180,200}。GC-BLS 的參數(shù)組合為{k,n,q,α,λW},形狀參數(shù)α的從候選集{1,1.5,2,2.5,3,3.5,4}中選擇;核參數(shù)λW從候選集{0.5,1,1.5,2,2.5,3,3.5,4}中選擇。C-BLS 的參數(shù)組合為{k,n,q,σ},參考文獻(xiàn)[7],核參數(shù)σ從候選集{2-3,2-1,20,21,23}中選擇。所有算法均采用統(tǒng)一的正則化系數(shù),正則化系數(shù)λ固定為10-5。在各自最佳參數(shù)的條件下實(shí)驗(yàn),每種算法獨(dú)立運(yùn)行20次,以運(yùn)行結(jié)果的平均值作為最終實(shí)驗(yàn)結(jié)果。由表5 中的數(shù)據(jù)可知,GC-BLS 與標(biāo)準(zhǔn)BLS 和其他BLS魯棒算法相比,雖然GC-BLS的訓(xùn)練時(shí)間略高于其他算法,但總能獲得更小的測(cè)試RMSE,表現(xiàn)出很強(qiáng)的魯棒性。新算法的性能要明顯優(yōu)于其他算法。
表5 各算法在回歸數(shù)據(jù)集上的表現(xiàn)Tab.5 Performance of each algorithm on regression data set
與傳統(tǒng)BLS 的權(quán)重求解方式(2)相比,新算法式(13)加入了一個(gè)加權(quán)對(duì)角矩陣ΛW,這也是新算法魯棒性的由來,其對(duì)角元素由核參數(shù)λW以及實(shí)際輸出和理想輸出y之間誤差控制??梢则?yàn)證,當(dāng)λW趨向于0 時(shí),式(13)將退化為標(biāo)準(zhǔn)BLS 的權(quán)重求解方式(2);當(dāng)時(shí),GMCC 準(zhǔn)則退化為MCC 準(zhǔn)則,這說明,GC-BLS 至少可以實(shí)現(xiàn)與C-BLS 和BLS 相當(dāng)?shù)男阅?。?dāng)?shù)趇個(gè)樣本受到離群值的污染時(shí),和yi之間通常會(huì)有很大的差異,記為。正常情況下,通過設(shè)置合理的λW值,當(dāng)vi越大,說明該值偏離程度越大,在λW值的作用下,相應(yīng)的對(duì)角元素越小,從而該離群值在訓(xùn)練過程中將被賦予較小的權(quán)重,這使得離群值對(duì)訓(xùn)練過程沒有很大的影響。
為了解決BLS 對(duì)離群值噪聲敏感的問題,參考Zheng 提出的C-BLS 算法,本文采用更具有靈活性的廣義最大相關(guān)熵準(zhǔn)則(GMCC)提出了新的魯棒BLS(GC-BLS)。GC-BLS 以BLS 模型為基礎(chǔ),通過引入GMCC 得到新的代價(jià)函數(shù),并采用不動(dòng)點(diǎn)迭代方法對(duì)學(xué)習(xí)樣本進(jìn)行逆向加權(quán)計(jì)算,從而抑制離群值樣本帶來的不良影響。在9 個(gè)回歸數(shù)據(jù)集和2 個(gè)時(shí)間序列數(shù)據(jù)集上的實(shí)驗(yàn)表明,當(dāng)樣本包含離群值時(shí),新算法能夠取得較BLS 與其他改進(jìn)算法更優(yōu)的學(xué)習(xí)性能。目前新算法涉及到的參數(shù)數(shù)量較多,利用網(wǎng)格搜索法選擇最佳參數(shù)非常耗時(shí),如何簡(jiǎn)化算法參數(shù),或者在訓(xùn)練過程中嘗試尋找某些參數(shù)的最優(yōu)值,從而進(jìn)一步提高系統(tǒng)效率是下一步的研究工作。