張國平,謝庭藩
(中國計量學院理學院,浙江杭州310018)
熟知,人們常用單隱層前饋人工神經網絡來逼近連續(xù)函數(shù).其實質是當激活函數(shù)滿足一定條件時,對于給定的連續(xù)函數(shù)隨著網絡中節(jié)點(神經元)個數(shù)的增加,該網絡可以逼近此函數(shù)到任何預先給定的程度.
1989年G.CYBENKO在文獻[1]中提出以S型函數(shù)為激活函數(shù)的神經網絡可以逼近連續(xù)函數(shù).1992年CHEN D B在文獻[2]中用構造的方法計算以S型函數(shù)為激活函數(shù)的神經網絡對單變數(shù)連續(xù)函數(shù)的逼近度.2008年CAO F L,XIE T F,XU Z B構造了一種單隱層神經網絡并估計它對連續(xù)函數(shù)的逼近誤差[3].當然,也有一些工作是用兩個隱層而使節(jié)點個數(shù)趨向于無窮的網絡來達到逼近連續(xù)函數(shù)的目的,參見文獻[4-6].
本文在第二部分介紹了一些要用到的記號和定義.在第三部分給出一維情況下多層神經網絡的構造方法.在第四部分給出一個應用實例.在第五部分給出多維情況下網絡的構造方法,并在本文的最后部分給出附錄.
本文中要用到的一些記號和定義:
[11]中MLP網絡的定義,我們定義如下的MLP*網絡:
定義 函數(shù)σ∶R →R,假定d,d′和k≥1.稱函數(shù) f∈ MLP*(d,d′,σ,k,L)當且僅當f∶Rd→Rd′,存在權值矩陣V1 ∈ Rk×d,Vj ∈ Rk×k,1 <j<L,VL∈ Rd′×k以及閾值向量 τj,τ′j∈ Rk×1,1 ≤j <L 和τL,τ′L ∈ Rd′×1.對任意的 X ∈ Rd,當向量aj和bj有如下的定義時:
有f(X)=bL.
由以上定義不難看出該M LP*網絡每層的節(jié)點個數(shù)最多為k個.正如G.GRINPENBE-RG所言,只需考慮d′=1的情形就能得到該網絡的逼近性質.
因為d′(d′≥1)維輸出的前饋人工神經網絡可以看作d′個相同結構的、只是系數(shù)不一樣的、一維輸出的前饋人工神經網絡的組合,由于其各自的獨立性,只需要考慮d′=1的情況就能得到多維輸出的情況.
現(xiàn)在給出本文的主要結論:
如何構造這個前饋人工神經網絡 N(x).為簡單不妨假設[a,b]為[-T,T].又從σ″(x)在τ*點的領域內連續(xù)且σ″(τ*)≠0,(由附錄部分的引理 2)不妨取 τ* 使得 σ(τ*)≠0,σ′(τ*)≠0,σ″(τ*)≠0都成立.具體的構造過程如下.首先,給出一個構造n次代數(shù)多項式Pn(x)=cnxn+cn-1xn-1+…+c0的過程:
一般是輸入為x,qk(x),cn-k-1,輸出為xqk(x)+cn-k-1=qk+1(x),即
現(xiàn)在用n層每層3個節(jié)點的以σ為激活函數(shù)的前向人工神經網絡來實現(xiàn)上述過程.根據(jù)定義構造一個每層2個輸入3個節(jié)點2個輸出的多層前饋人工神經網絡MLP*的結構如下.記第j層的輸入為xj,Nj(x),三個節(jié)點(神經元)為 σ(η xj+τ*),σ(η Nj(x)+τ*),σ(η(xj+Nj(x))+τ*),輸出為 xj+1,Nj+1(x),其中
網絡結構示意如下:
這里cn-j-1為多項式Pn(x)的第n-j-1項系數(shù),初始值x0=0,N0(x)=cn.
由附錄部分的引理3,對任意的 μ∈(0,1),若對任一多項式qj(x),使得在|x|≤T時第j層的輸入xj,Nj(x)滿足
則存在 η>0,使得第 j層的輸出 xj+1,Nj+1(x)滿足如下的不等式
將上述這種2個輸入3個節(jié)點2個輸出的網絡記作Φ.由輸入x0=0,N0(x)=cn和常數(shù)cn-1通過網絡Φ即得到輸出x1,N1(x),且滿足如下不等式
然后以x1,N1(x)為輸入再次進過網絡 Φ得到x2,N2(x).如此通過n層網絡Φ得到的輸出Nn(x)就是多項式Pn(x)的一個逼近工具.事實上,按上述過程,我們有與μ及x有關的正數(shù)Bn使得
如此,若取μ>0適當小即有
定理1證畢.
注記1:若令初始狀態(tài)為L=0,q0(x)=cn,B0=0,由引理3直接得到
其中
qi(x)=cnxi+…+cn-i+1x+cn-i,i=0,1,…,n.于是不難得到
其中
我們用數(shù)據(jù)計算來模擬在一維情況下用第三部分的網絡對連續(xù)函數(shù)的逼近情況.首先,把目標連續(xù)函數(shù)展開為最高次數(shù)為n的Bernstein多項式,然后用第三部分得到的網絡來逼近此多項式,以此達到逼近目標連續(xù)函數(shù)的目的.所有的計算都是在MATLAB中實現(xiàn)的,相關程序省略.
設定目標連續(xù)函數(shù)為 f(x)=sin(πx),x∈[0,1].記Bn(f,x)為關于函數(shù) f(x)的最高次數(shù)為n的Bernstein多項式,有
由上式不難得到
則有Bn(f,x)=c0+c1x+…+cnxn.
圖1 n=10,μ=0.003 125Figure 1 n=10,μ=0.003 125
為了區(qū)別,記這里所提及之網絡為M LP**.在一般情況,我們有如下的
由第六部分的引理1將總次數(shù)為n的d元代數(shù)多項式Pn(x)寫作
這里X∈Rd,Wj∈Rd,C0,Cl,j∈R.
構造的網絡對給定多項式的逼近過程如下
下面介紹此MLP**網絡的逼近過程:
第一步,利用MLP*網絡逼近多項式P*n(X1)得到輸出Z1(Z1≈P*n(X1)).由于 X1與 X2的相互獨立性,可以把此時網絡的輸出Z1作為下一個多項式Pn(X2)的常數(shù)項形成一個新的多項式
第二步,再次用MLP*網絡來逼近多項式Pn*(X2)得到輸出Z2(Z2≈Pn*(X2)).再把Z2作為下一個多項式Pn(X3)的常數(shù)項形成一個新的多項式
顯然如此達到用MLP**網絡逼近多項式Pn(X)的目的,使得此MIP**網絡逼近給定的連續(xù)函數(shù).定理2證畢.
如前所述,d′維輸出的前饋人工神經網絡對多項式的逼近只是d′個相互獨立的一維輸出的前饋人工神經網絡對多項式的各自逼近,由此得到
本文第三、五兩個部分中用的一些結論的數(shù)學證明.為此,我們需要如下的三個引理.
這是文獻[12]中得到的結果.
引理2 函數(shù)σ∈C(R;R)在一點的鄰域上有不恒為零的二階連續(xù)導數(shù),則在此鄰域中有一點τ*使得 σ(τ*)≠0,σ′(τ*)≠0,σ″(τ*)≠0.
證明 顯然,在引理假設下有一個開區(qū)間Δ?R,在Δ中σ″(t)≠0.從而Δ中必有一個子區(qū)間 Δ1?Δ使得在 Δ1中 σ′(t)≠0.同理 Δ1必有子區(qū)間 Δ2使得在 Δ2中σ(t)≠0.因此,對任τ* ∈ Δ2 都有 σ(τ*)≠ 0,σ′(τ*)≠0,σ″(τ*)≠0.
引理3 設σ(t)在開區(qū)間Δ中二次連續(xù)可微,而且有 τ* ∈ Δ使得 σ′(τ*)≠0,σ″(τ*)≠0.又記
其中c是個常數(shù).如果當|x|≤T時有
其中 μ>0,η>0,q(x)是關于 x的連續(xù)函數(shù),那么只要η充分小就有
證明 本文第三部分所構造網絡第j+1層的權值矩陣和閾值向量分別為:
網絡在第j+1層的輸出為:
由(4)式即可得(1)式.
下面來證明(3)式.當 η>0充分小時,由中值定理容易知道下面兩式
和
是顯然成立的.
在(2)式中,
且
考慮到μ∈(0,1)且η充分小時,由上面三式及(2)式容易知道(3)式是成立的.
【參 考 文 獻】
[1]CYBENKO G.Approximation by superpositions of sig-moidal function[J].Math Control Signals Syst,1989(2):303-314.
[2]CHEN D B.Degree of approximation by superpositions of a sigmoidal function[J].Approximation Theory and its Application,1993,9(3):17-28.
[3]CAO F L,XIE T F,XU Z B.The estimate for approximation error of neural networks:A constructive approach[J].Neurocomputing,2008,71:626-630.
[4]M AIOROV V,PINKUS A.Lower bounds for approximation by MLP neural networks[J].Neurocomputing,1999,25(1-3):81-91.
[5]M HASKAR H N.Approximation properties of a multilayed feedforward arT IF;%95%94icial neural network[J].Advances in Computational Mathematics,1993(1):61-80.[6]HORNIK K.Approximation capabilities of multilayer feed forward networks[J].Neural Networks,1991(4):251-257.
[7]夏哲雷,劉大鍵,錢 勤.人工神經網絡在電積鋅工藝中的應用[J].中國計量學院學報,1999,2(19):87-89.
[8]黃鎮(zhèn)海,鐘紹俊,謝 敏,等.神經網絡變結構在液壓伺服系統(tǒng)控制中的應用[J].中國計量學院學報,2005,16(3):199-211.
[9]馮會真,夏哲雷,林志一.基于神經網絡的圖像邊緣檢測方法[J].中國計量學院學報,2006,17(4):289-291.
[10]G RIPENBERG G.Approximation byneural networks with a bounded number of nods at each level[J].Journal of Approximation Theory,2003,122:260-266.
[11]CHUI C K,LI X.Approximation by ridge functions and neural networks with one hidden layers[J].J Approximaton Theory,1992,70(2):131-141.
[12]XIE T F.The ridge representation of polynomials and an application to neural netwo rks[J].Acta Mathematica Sinica,2010,26(7):1-9.