王立威,劉瓊蓀
(重慶大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 401331)
BP神經(jīng)網(wǎng)絡(luò)是目前研究最為成熟、應(yīng)用最為廣泛的人工神經(jīng)網(wǎng)絡(luò)模型。然而,在實際應(yīng)用中,如何設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)、如何選取網(wǎng)絡(luò)參數(shù)、如何提高網(wǎng)絡(luò)收斂速度是急需解決的問題。事實上,人工神經(jīng)網(wǎng)絡(luò)模型是從輸入到輸出之間一個非線性映射的逼近。根據(jù)kolmogorov定理,含有一個隱層的3層BP神經(jīng)網(wǎng)絡(luò)在隱節(jié)點數(shù)足夠多的情況下能以任意精度逼近有界區(qū)域上的任意連續(xù)函數(shù)[1]。由于網(wǎng)絡(luò)參數(shù)隨機性的影響,隱層神經(jīng)元數(shù)的選擇,至今還沒有一個明確的方法。大量的實驗表明,如果隱層神經(jīng)元的數(shù)目偏少,網(wǎng)絡(luò)的學(xué)習能力和處理信息的能力較差,學(xué)習誤差下降緩慢,甚至出現(xiàn)達不到目標精度的現(xiàn)象;若隱層神經(jīng)元數(shù)目過多,一些隱層神經(jīng)元輸出存在著線性相關(guān)性,就造成網(wǎng)絡(luò)結(jié)構(gòu)龐大、網(wǎng)絡(luò)泛化能力低等問題。因此,不能完全按照kolmogorov公式或者經(jīng)驗公式確定隱含層神經(jīng)元數(shù)目。而對于具有一定規(guī)模的、較為復(fù)雜的問題,由于其規(guī)模的不同和對求解速度的要求,更需要尋找合適的神經(jīng)網(wǎng)絡(luò)算法以確定最優(yōu)隱神經(jīng)元數(shù)目以保持能兼顧網(wǎng)絡(luò)最快學(xué)習速度和良好信息處理能力的最優(yōu)或較優(yōu)狀態(tài)。本文將多項式函數(shù)作為神經(jīng)元的激活函數(shù),結(jié)合矩陣偽逆的思想并利用區(qū)間折半搜尋的方法自動優(yōu)化隱層神經(jīng)元數(shù)等綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)算法。
設(shè) f(x)是[a,b]上的連續(xù)函數(shù),則對任意給定的 ε>0,總存在多項式 P(x),使得:
由逼近定理可知,雖然[a,b]上的連續(xù)函數(shù)是多種多樣的,而多項式函數(shù)不過是連續(xù)函數(shù)類中的一種特殊類型且在連續(xù)函數(shù)類中稠密。故總可以找到一個滿足定理的多項式 P(x)。
其中 wi,i=1,2,…為多項式待定系數(shù)。
在實際生活中,通常用有限項多項式 S(x)=w0+w1x+…+wnxn來代替多項式 P(x),從代數(shù)插值余項[3]的角度考慮,n 值越高,S(x)越能精確地反應(yīng)連續(xù)函數(shù) f(x)的特性。 將 S(x)作為神經(jīng)元的激活函數(shù),wi,i=1,2,…,n作為神經(jīng)元輸入權(quán)值,由逼近定理知,S(x)可以有效地逼近非線性映射。
1.2.1 矩陣偽逆思想
由線性方程組解理論得知,線性方程組AX=b有解的充要條件是該方程組的系數(shù)矩陣的秩等于其增廣矩陣的秩,即 rank([A,b])=rank(A)。 然而,在理論和實踐中遇到的線性方程組常常無法滿足同秩的條件。因此不存在常規(guī)意義上的解,但借助最小二乘法可以得到方程組的最小二乘解 X=A+b。設(shè)實矩陣 A∈Rm×n,若存在實矩陣 Xm×n滿足以下 4個條件:
(1)AXA=A;(2)XAX=X;(3)(AX)T=AX;(4)(XA)T=XA則稱 X為A的偽逆,即 X=A+=(ATA)-1AT。
1.2.2 權(quán)值預(yù)確定
此方法來源于方程 f(x)=0的根區(qū)間搜尋法,若在區(qū)間[a,b]上滿足 f(a)f(b)<0,則說明在[a,b]上至少存在一個根 x使得 f(x)=0。 取 c=,若 f(a)f(c)<0,00則說明解區(qū)間為[a,c],即 x0在[a,c]內(nèi),反之在[c,b]內(nèi)。反復(fù)在解區(qū)間上折半搜尋方程的根,直到區(qū)間縮小到預(yù)定精度為止。
本文在優(yōu)選神經(jīng)元數(shù)時,首先確定最優(yōu)神經(jīng)元范圍,然后采用區(qū)間折半搜尋法確定最優(yōu)神經(jīng)元數(shù)。初始隱層神經(jīng)元只選取一個,以網(wǎng)絡(luò)輸出和期望輸出的誤差函數(shù)作為網(wǎng)絡(luò)評價函數(shù)。在訓(xùn)練誤差高于期望誤差階段,隱層神經(jīng)元數(shù)按指數(shù)增長;在訓(xùn)練誤差低于期望誤差或者不再降低的階段,確定最優(yōu)神經(jīng)元數(shù)的范圍,然后采用區(qū)間折半搜尋法找出最有神經(jīng)元數(shù)。
綜合優(yōu)化網(wǎng)絡(luò)的基本思想對給定的訓(xùn)練樣本,取網(wǎng)絡(luò)隱層神經(jīng)元數(shù)num=1,根據(jù)前述的權(quán)值預(yù)確定的方法求出初始權(quán)值,并計算網(wǎng)絡(luò)輸出、判斷網(wǎng)絡(luò)輸出和期望輸出的誤差。若網(wǎng)絡(luò)誤差滿足期望誤差的要求,停止訓(xùn)練,網(wǎng)絡(luò)輸出權(quán)值和隱層最優(yōu)神經(jīng)元數(shù)num;若網(wǎng)絡(luò)誤差未達到期望誤差,則將num擴大2倍,重新計算網(wǎng)絡(luò)權(quán)值和網(wǎng)絡(luò)誤差,直到網(wǎng)絡(luò)誤差達到期望誤差為止。此時,網(wǎng)絡(luò)便確定了隱層神經(jīng)元數(shù)的大致區(qū)間,在根據(jù)區(qū)間折半搜尋法,每次取區(qū)間的中點,計算網(wǎng)絡(luò)權(quán)值和網(wǎng)絡(luò)誤差,在保證網(wǎng)絡(luò)誤差不超過期望誤差的情況下確定隱層最優(yōu)神經(jīng)元數(shù)。
改進的網(wǎng)絡(luò)模型:輸入層到隱層間的權(quán)值默認為1,神經(jīng)元激活函數(shù)為有限多項式函數(shù) S(x),模型輸出值為 S(xi)=w0+w1xi+…+wnxin,其中,n 代表隱層神經(jīng)元數(shù)。綜合優(yōu)化網(wǎng)絡(luò)的算法步驟如下:
(1)給定模型精度 T,門限 t(取一個很小的值),輸入樣本;
(2)計算權(quán)值 w和模型誤差 error,確定最優(yōu)隱層神經(jīng)元數(shù)的范圍;
(3)采用區(qū)間折半搜尋法,找出最優(yōu)隱層神經(jīng)元數(shù)num;
(4)輸出最優(yōu)神經(jīng)元數(shù)num和此時網(wǎng)絡(luò)模型的誤差error和權(quán)值 w。
考慮 Hermit函數(shù) f(x)=1.1(1-x+2x2)exp(-)的逼近問題。訓(xùn)練樣本數(shù)為100,其中樣本輸入x~U[-4,4]。樣本輸出分為兩組,一組為無噪聲數(shù)據(jù) f(x),另一組為有噪聲數(shù)據(jù)f(x)+e,其中 e~N[0,0.1]。 產(chǎn)生的目標函數(shù)和噪聲數(shù)據(jù)樣本見圖1。為了說明綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的有效性,與傳統(tǒng)的BP模型的逼近做了對比,如表1所示。
表1 本文模型與傳統(tǒng)的BP模型的逼近效果對比
從表中數(shù)據(jù)可以看出,對同樣的樣本,綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)耗時最少,學(xué)習次數(shù)最少,收斂速度相當快,而且對非噪聲數(shù)據(jù)樣本處理效果非常好。盡管綜合優(yōu)化網(wǎng)絡(luò)去噪能力不如BP神經(jīng)網(wǎng)絡(luò),但不需要人為的確定隱層神經(jīng)元數(shù)。簡言之,綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)可以自動優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。
綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)對Hermit函數(shù)的逼近情況見圖1~圖 4。
從圖1~圖4可知,綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)在逼近函數(shù)時優(yōu)缺點不是很明顯,除了在圖形尖角處稍有差異外,擬合度很高。從算法角度講,綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)不需要權(quán)值迭代,只需一步便可以計算出神經(jīng)元的權(quán)值,大大減少了網(wǎng)絡(luò)的學(xué)習時間,提高了網(wǎng)絡(luò)的收斂速度;綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)比BP神經(jīng)網(wǎng)絡(luò)的參數(shù)少,因此受參數(shù)的隨機性干擾較小。此外,綜合優(yōu)化網(wǎng)絡(luò)與區(qū)間折半搜尋法良好結(jié)合,能夠較好地自動優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),這也是神經(jīng)網(wǎng)絡(luò)學(xué)者一直攻克的難題之一。
根據(jù)前面的理論,基于多項式神經(jīng)網(wǎng)絡(luò)的綜合優(yōu)化神經(jīng)網(wǎng)絡(luò)在一元連續(xù)函數(shù)的逼近方面可以達到較好的逼近效果。但是,該網(wǎng)絡(luò)是否適用于分類問題、多元函數(shù)的逼近問題,還需要進一步探討。此外,該網(wǎng)絡(luò)與區(qū)間折半搜尋法結(jié)合達到自動優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的目的在多元問題上是否仍適用也需要深層次探討。
[1]魏海坤.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的理論與方法[M].北京:國防工業(yè)出版社,2005.
[2]歐陽光中,陳傳璋,朱學(xué)炎,等.數(shù)學(xué)分析(第三版)[M].北京:高等教育出版社,2007.
[3]李岳生,黃友謙.數(shù)值逼近[M].北京:人民教育出版社,1978.
[4]張雨濃,楊逸文,李巍.神經(jīng)網(wǎng)絡(luò)權(quán)值直接確定法[M].廣東:中山大學(xué)出版社,2010.
[5]王建軍,徐宗本.多元多項式函數(shù)的三層前向神經(jīng)網(wǎng)絡(luò)逼近方法[J].計算機學(xué)報.2009,32(12).
[6]張雨濃,陳裕隆,姜孝華,等.一種權(quán)值直接確定及結(jié)構(gòu)自適應(yīng)的Chebyshev基函數(shù)神經(jīng)網(wǎng)絡(luò) [J].計算機科學(xué),2009,36(6):210-213.