肖秀春,彭銀橋,梅其祥,閆敬文
(1.廣東海洋大學(xué)a.電子與信息工程學(xué)院,b.數(shù)學(xué)與計(jì)算機(jī)學(xué)院,廣東湛江524088;2.汕頭大學(xué)工學(xué)院,廣東汕頭515063)
盡管深度神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域取得了令人注目的進(jìn)步,但其理論基石仍然是傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)主要是人工神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)層次上逐步深化的結(jié)果,其學(xué)習(xí)的概念及主要思想也源自對(duì)傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)理論的研究[12]。因此,研究傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及激勵(lì)函數(shù)、學(xué)習(xí)理論對(duì)于推動(dòng)深度學(xué)習(xí)及人工智能理論向前發(fā)展具有重要意義。通常,在傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)及深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,相同層的隱層各神經(jīng)元的激勵(lì)函數(shù)是相同的,這與人類神經(jīng)元的實(shí)際情況不一致;另一方面,神經(jīng)元激勵(lì)函數(shù)趨同也不利于對(duì)數(shù)據(jù)中不同模式的學(xué)習(xí),理論上會(huì)導(dǎo)致需要較多的隱層神經(jīng)元來(lái)學(xué)習(xí)相同的數(shù)據(jù)模式[12-16]。本文主要探討人工神經(jīng)網(wǎng)絡(luò)隱層各神經(jīng)元的激勵(lì)函數(shù)、學(xué)習(xí)算法以及逼近能力等,與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)及當(dāng)前廣泛研究的深度神經(jīng)網(wǎng)絡(luò)不同在于,構(gòu)造一種以隱層各神經(jīng)元激勵(lì)函數(shù)為一簇Chebyshev正交多項(xiàng)式的前向神經(jīng)網(wǎng)絡(luò),針對(duì)此神經(jīng)網(wǎng)絡(luò),提出一種基于梯度下降法的訓(xùn)練算法,且將構(gòu)造的神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練算法應(yīng)用于復(fù)雜的非線性函數(shù)的曲線逼近中,驗(yàn)證其非線性逼近能力。
在給出Chebyshev正交多項(xiàng)式定義的基礎(chǔ)上,以一簇Chebyshev正交多項(xiàng)式作為隱層各神經(jīng)元激勵(lì)函數(shù),構(gòu)造Chebyshev前向神經(jīng)網(wǎng)絡(luò)模型。
定義1[17-18]在區(qū)間(-∞,+∞)上關(guān)于權(quán)函數(shù)ρ(t)=e-t2的正交多項(xiàng)式Pi(t)稱為Chebyshev正交多項(xiàng)式。其基于導(dǎo)數(shù)的數(shù)學(xué)表達(dá)式為
其中:Pi(t)表示序列中第i個(gè)Chebyshev正交多項(xiàng)式,表示求i-1階層導(dǎo)數(shù)。
由上述表達(dá)式可得到遞推關(guān)系式,其前三項(xiàng)及遞推關(guān)系如下式:
利用定義的Chebyshev正交多項(xiàng)式簇,構(gòu)造一種特定結(jié)構(gòu)的Chebyshev前向神經(jīng)網(wǎng)絡(luò),如圖1。該特定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)采用單隱層結(jié)構(gòu),以Chebyshev正交多項(xiàng)式簇中的各函數(shù)分別作為隱層中各神經(jīng)元的激勵(lì)函數(shù),其他網(wǎng)絡(luò)層神經(jīng)元全部使用線性激勵(lì)函數(shù),隱層神經(jīng)元至輸出層神經(jīng)元的權(quán)值為wi,i=1,2,…,n,輸入層神經(jīng)元至隱層神經(jīng)元的權(quán)值固定為1;所有神經(jīng)元閾值皆為0。
圖1 Chebyshev前向神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of Chebyshev forward neural network
設(shè)有樣本總量為m的訓(xùn)練樣本集{(xj,yj),j=1,2,…,m},將該樣本集中的數(shù)據(jù){xj,j=1,2,…,m}和{yj,j=1,2,…,m}分別作為圖1所示神經(jīng)網(wǎng)絡(luò)的輸入和期望輸出,通過合適的訓(xùn)練算法對(duì)神經(jīng)網(wǎng)絡(luò)中所有參數(shù)進(jìn)行調(diào)整,從而學(xué)習(xí)到訓(xùn)練樣本集中存在的模式。由圖1所示Chebyshev前向神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)對(duì)輸入{xj,j=1,2,…,m}的激勵(lì)輸出Q(xj),
其中:w∈Rn,為神經(jīng)網(wǎng)絡(luò)輸入層到隱含層的權(quán)值向量;P(xj)∈Rn,為神經(jīng)網(wǎng)絡(luò)輸入層到隱層的激勵(lì)向量。w和P(xj)的定義為:
事情發(fā)生在一小時(shí)以前,因?yàn)闆]給我準(zhǔn)備好學(xué)費(fèi),我罵了父親。我當(dāng)時(shí)好像并不只是為了罵他,就是要找個(gè)人出氣。我罵他:你有個(gè)么雞巴用,就知道上騍快活。
由所有輸入{xj,j=1,2,…,m}經(jīng)激勵(lì)后的實(shí)際輸出Q(xj)與期望輸出{yj,j=1,2,…,m},可定義Chebyshev前向神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)E為
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法是影響其性能的重要因素之一。學(xué)習(xí)算法利用樣本數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)(包括各神經(jīng)元之間的連接權(quán)值和神經(jīng)元本身的閾值)進(jìn)行迭代調(diào)整,在目標(biāo)函數(shù)最小化的約束下,使神經(jīng)網(wǎng)絡(luò)盡量對(duì)學(xué)習(xí)樣本集實(shí)現(xiàn)有效逼近[12]。梯度下降算法是一種最常見的學(xué)習(xí)算法,文中采用梯度下降法對(duì)圖1所示的Chebyshev前向神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代調(diào)整(即學(xué)習(xí))。采用梯度下降法優(yōu)化式(4)所示目標(biāo)函數(shù)E,網(wǎng)絡(luò)參數(shù)迭代求解如式(5)。
其中:k=0,1,2,…,為迭代次數(shù)為第k+1次迭代時(shí),E對(duì)w的梯度;η為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率,可控制神經(jīng)網(wǎng)絡(luò)收斂速度,文中設(shè)置為常數(shù)。為求解分別定義Fj(w),j=1,2,…,m和F(w),如式(6),(7)。
于是,F(xiàn)(w)可表示為
其中:x=[x1x2…xm]T∈Rm;y=[y1y2…ym]T∈Rm;Q(x)∈Rm×n稱為激勵(lì)矩陣,實(shí)現(xiàn)對(duì)所有樣本輸入的激勵(lì)輸出,其定義如式(9)。
式(10)中J(w)為Jacobi矩陣,定義如式(11)。
其中,矩陣中各元素可通過求解Fj(w)對(duì)wi的偏微分簡(jiǎn)單計(jì)算出,如式(12)。
由式(5),(10)得到基于梯度下降法的Chebyshev前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法為
值得提出的是,當(dāng)學(xué)習(xí)率η滿足條件式時(shí),由迭代式(13)產(chǎn)生的序列必然全局收斂于神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)值向量[19-20]。
圖2為基于梯度下降法的Chebyshev前向神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法流程圖,其中更新神經(jīng)網(wǎng)絡(luò)參數(shù)是算法中最重要的一步,參數(shù)更新按式(13)進(jìn)行。
為驗(yàn)證本文提出的Chebyshev前向神經(jīng)網(wǎng)絡(luò)的可行性及其算法的有效性,采用Matlab(R2012a)分別為本文算法和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)算法求解復(fù)雜模式的數(shù)據(jù)擬合問題編寫仿真程序,且進(jìn)行仿真對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)過程中,本文提出的Chebyshev前向神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)取相同參數(shù),即η=0.05,m=200,n=150;對(duì)于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò),其隱層激勵(lì)函數(shù)采用Matlab神經(jīng)網(wǎng)絡(luò)工具箱中的“tansig”函數(shù),隱層到輸出層采用“purelin”函數(shù)作為其激勵(lì)函數(shù)。
圖2 算法流程圖Fig.2 Flowchart of the algortihm
圖3是以函數(shù)y=cos((5x2+2)(x2+1)/(2+(x-1)3))為例,采用本文提出的Chebyshev前向神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)BP神經(jīng)網(wǎng)仿真出的目標(biāo)輸出、實(shí)際輸出及其誤差。對(duì)比圖3可發(fā)現(xiàn):本文提出的Chebyshev前向神經(jīng)網(wǎng)絡(luò)算法在迭代次數(shù)不大于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)的1/400時(shí),仍能以更高的精度逼近樣本數(shù)據(jù)集;Chebyshev前向神經(jīng)網(wǎng)絡(luò)算法在迭代次數(shù)較少的同時(shí),對(duì)樣本數(shù)據(jù)集的逼近精度更高。
圖4為本文提出的Chebyshev前向神經(jīng)網(wǎng)絡(luò)及傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)對(duì)前述示例函數(shù)逼近時(shí)的均方誤差下降曲線。對(duì)比圖4(a),(b)可發(fā)現(xiàn):Chebyshev前向神經(jīng)網(wǎng)絡(luò)均方誤差下降曲線在迭代次數(shù)達(dá)10次時(shí),下降速度很快,隨著迭代次數(shù)的進(jìn)一步增大,均方誤差下降曲線接近0且趨于穩(wěn)定,表明Chebyshev前向神經(jīng)網(wǎng)絡(luò)及其梯度下降法具有良好的收斂特性;傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)均方誤差下降速度較慢且在下降過程中伴隨振蕩,表明傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)收斂性能較差。
圖3 Chebyshev前向神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)例函數(shù)的仿真結(jié)果Fig.3 Simulation results for a function example with Chebyshev forward and traditional BPneural network
圖4 Chebyshev前向神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的均方誤差下降曲線Fig.4 MSE descent curves in the training process of Chebyshev forward and traditional BPneural network
利用Chebyshev正交多項(xiàng)式簇作為神經(jīng)網(wǎng)絡(luò)隱層各神經(jīng)元激勵(lì)函數(shù),構(gòu)造Chebyshev前向神經(jīng)網(wǎng)絡(luò),且推導(dǎo)其梯度下降法公式。通過仿真實(shí)驗(yàn)驗(yàn)證Chebyshev前向神經(jīng)網(wǎng)絡(luò)對(duì)于復(fù)雜模式數(shù)據(jù)逼近的有效性。結(jié)果表明,基于梯度下降法的Chebyshev前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法能夠有效調(diào)整網(wǎng)絡(luò)參數(shù),可實(shí)現(xiàn)以較少的迭代次數(shù)對(duì)復(fù)雜非線性函數(shù)較高的精度逼近。