鄒修明,楊 賽,孫懷江
(1.淮陰師范學院物理與電子電氣工程學院,江蘇淮安 223300;2.南京理工大學計算機科學與技術學院,江蘇南京 210094)
零誤差密度函數(shù)準則的BP 神經(jīng)網(wǎng)絡學習研究
鄒修明1,2,楊 賽2,孫懷江2
(1.淮陰師范學院物理與電子電氣工程學院,江蘇淮安 223300;2.南京理工大學計算機科學與技術學院,江蘇南京 210094)
BP神經(jīng)網(wǎng)絡的學習通常以均方誤差函數(shù)(MSE)為目標函數(shù),當目標變量不滿足高斯分布時,其結果可能偏離真正最優(yōu).零誤差密度函數(shù)(ZED)利用非參數(shù)估計中的Parzen窗法得到誤差在零點的概率密度函數(shù).將零誤差密度函數(shù)作為BP網(wǎng)絡的目標函數(shù)時,通過對光滑參數(shù)的選擇使新的目標函數(shù)能夠適用于期望輸出滿足任意分布.仿真實驗分別以零誤差密度函數(shù)和均方誤差函數(shù)為目標函數(shù)的BP網(wǎng)絡學習在函數(shù)逼近方面進行比較,結果表明零誤差密度函數(shù)要比均方誤差函數(shù)的適用范圍更廣.
BP網(wǎng)絡;均方誤差函數(shù);零誤差密度函數(shù);非高斯分布
BP神經(jīng)網(wǎng)絡的學習通常以均方誤差(MSE)函數(shù)為目標函數(shù),當目標變量為高斯分布時,可以通過最大似然方法得到均方誤差函數(shù)[1,2],如果目標變量的分布不滿足高斯分布時,其結果可能偏離真正最優(yōu).然而現(xiàn)實生活中的很多隨機現(xiàn)象不是高斯分布,其中分類問題中的輸出就不符合高斯分布,均方誤差函數(shù)對分類問題并不是最合理的,交叉熵(CE)函數(shù)更適合應用于分類問題,零誤差密度最大算法(Z-EDM)[3,4]修改了BP網(wǎng)絡的目標函數(shù),以誤差在零點的概率密度函數(shù)作為BP網(wǎng)絡的新的目標函數(shù),通過整定參數(shù)h,能夠模擬均方誤差函數(shù)和交叉熵函數(shù)的性能.因此,能夠適用于目標變量服從任何分布,更適合作為BP網(wǎng)絡的目標函數(shù),本文通過仿真驗證了這個結論.
對于只有一個隱含層的前饋神經(jīng)網(wǎng)絡,在神經(jīng)網(wǎng)絡的學習階段,設有 N個訓練樣本,對于第 n個樣本輸入,神經(jīng)網(wǎng)絡輸出向量為 y(n),期望輸出向量為 t(n),相應的誤差向量為e(n),因為誤差的分布形式未知,根據(jù)非參數(shù)密度估計中的Parzen窗法,可得誤差在任意一點的概率密度函數(shù)[3,4]為:
誤差為零的這一點的概率密度函數(shù)為:
其中 K為核函數(shù),h為光滑參數(shù),d為誤差向量的維數(shù),把式(2)作為前饋神經(jīng)網(wǎng)絡的新目標函數(shù),使其最大來相應的調整神經(jīng)網(wǎng)絡的權系數(shù),被稱為零誤差密度最大算法(Z-EDM).其中核函數(shù) K應滿足以下條件 :K′(0)=0,K″(0)<0,在零點是單峰的.
如果 K選用高斯核函數(shù),并且誤差向量為一維,則目標函數(shù)為:
算法表明神經(jīng)網(wǎng)絡目標函數(shù)的形式作了修改,但仍然可以采用梯度下降法對新目標函數(shù)進行優(yōu)化,誤差反向傳播修正隱含層權系數(shù),誤差對權值w的梯度為:
對于只有一個隱含層的前饋神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡的輸出為一維,假定目標變量服從高斯分布,可以通過最大似然方法得到均方誤差函數(shù):
在分類問題中,輸出是二值的,不符合高斯分布,均方誤差函數(shù)對分類問題并不是最合理的,適合分類的交叉熵函數(shù)為:
通過均方誤差函數(shù)(MSE),交叉熵函數(shù)(CE)以及零誤差密度函數(shù)(Z-ED)對權值的梯度進行比較分析可知,當光滑參數(shù) h趨向于正無窮時,Z-ED函數(shù)與MSE函數(shù)的性能近似,當光滑參數(shù) h>0時,Z-ED函數(shù)與CE函數(shù)的性能近似[5],即通過選取光滑參數(shù)h,能夠使新的目標函數(shù)Z-ED函數(shù)代替MSE函數(shù)以及CE函數(shù).
Z-EDM算法利用Parzen窗法估計誤差在零這一點的概率密度函數(shù),最終估計結果的好壞則與樣本情況和核函數(shù)參數(shù)的選擇有關,在樣本數(shù)N有限時,光滑參數(shù)h的選擇會在不同程度上對密度函數(shù)的估計精度產(chǎn)生影響.使用過小的窗寬會導致密度估計過于尖銳造成難以對數(shù)據(jù)做出合理的解釋,使用過大的窗寬則會導致過于平滑的密度以致掩蓋了數(shù)據(jù)的真實結構[6,7],而得到誤差在零點的精確的概率密度函數(shù)很重要,此時算法才能更加有效,這是因為Z-EDM算法利用非參數(shù)密度估計方法得到誤差在零這一點的概率密度函數(shù),并沒有事先對誤差變量的概率分布做出假定,而是通過選擇光滑參數(shù)h為一個合適的值,使目標函數(shù)能夠準確地描述誤差變量的概率分布,從而使新的目標函數(shù)不僅僅能夠適用于輸出變量滿足高斯分布,而是適用于輸出變量滿足任何分布,是Z-ED函數(shù)能夠模擬MSE函數(shù)和CE函數(shù)的原因.因此,光滑參數(shù) h的選擇在Z-EDM算法中是關鍵參數(shù).新目標函數(shù)零誤差函數(shù)(Z-ED)適用的范圍更廣,是一個通用型的目標函數(shù).
采用三層前饋神經(jīng)網(wǎng)絡對Cos函數(shù)y=cosx進行逼近,利用Matlab軟件中的normplot命令檢驗y是否服從正態(tài)分布,其中樣本數(shù)據(jù)在圖中用“+”顯示,如果數(shù)據(jù)來自正態(tài)分布,圖形顯示為直線,其它分布在圖中產(chǎn)生彎曲[8].選取 x∈[0,2π]區(qū)間上的50個樣本,其對應的 y的值作為函數(shù)normplot的變量,仿真結果如圖1所示,數(shù)據(jù)在一條直線附近.因此,數(shù)據(jù)來自正態(tài)總體,如果作為神經(jīng)網(wǎng)絡訓練樣本數(shù)據(jù),神經(jīng)網(wǎng)絡的目標值服從正態(tài)分布.在區(qū)間x∈[0,2π]上隨機選取一定數(shù)量的樣本{xi,yi}作為神經(jīng)網(wǎng)絡的訓練樣本,隱含層神經(jīng)元的數(shù)目為5,分別以零誤差密度函數(shù)、均方誤差函數(shù)為目標函數(shù)對神經(jīng)網(wǎng)絡進行訓練,學習率η都為0.1,慣性系數(shù)α=0.9,在Z-EDM算法中,光滑參數(shù)h為0.5,其仿真結果如圖2所示,以零誤差密度函數(shù)為目標函數(shù)的神經(jīng)網(wǎng)絡(Z-EDM)對Cos函數(shù)逼近曲線與以均方誤差為目標函數(shù)的神經(jīng)網(wǎng)絡(MSE)對Cos函數(shù)逼近的曲線基本一致,說明對于神經(jīng)網(wǎng)絡的目標函數(shù)值服從高斯分布時,Z-EDM算法可以通過選取光滑參數(shù)h,模擬MSE函數(shù)的性能.
圖1 Cos函數(shù)值正態(tài)分布檢驗曲線
圖2 BP網(wǎng)絡逼近Cos函數(shù)的仿真曲線
采用三層的前饋神經(jīng)網(wǎng)絡對Hermite函數(shù)y=1.1×(1-x+2x2)進行逼近,利用Matlab軟件中的normplot命令來檢驗y是否服從正態(tài)分布,選取x∈[0,6]區(qū)間上的61個樣本,對應的y的值作為函數(shù)normplot的變量,仿真結果如圖3所示,數(shù)據(jù)明顯不在一條直線附近,圖形為一條彎曲的曲線,因此,數(shù)據(jù)來自非正態(tài)總體,如果作為神經(jīng)網(wǎng)絡訓練樣本數(shù)據(jù),神經(jīng)網(wǎng)絡的目標值不服從正態(tài)分布.在區(qū)間x∈[0,6]上隨機選取一定數(shù)量的樣本{xi,yi}作為神經(jīng)網(wǎng)絡的訓練樣本[9],隱含層神經(jīng)元的數(shù)目為5,分別以零誤差密度函數(shù)、均方誤差函數(shù)為目標函數(shù)對神經(jīng)網(wǎng)絡進行訓練,學習率都為η為0.1,慣性系數(shù)α=0.9,在Z-EDM算法中,光滑參數(shù)h為0.6,其仿真結果如圖4所示,以零誤差密度函數(shù)為目標函數(shù)的神經(jīng)網(wǎng)絡(Z-EDM)要比以均方誤差為目標函數(shù)的神經(jīng)網(wǎng)絡(MSE)對Hermite函數(shù)擬合的好,即當神經(jīng)網(wǎng)絡的目標函數(shù)值不服從高斯分布時,Z-EDM算法要優(yōu)于MSE算法.
圖3 目標函數(shù)值正態(tài)分布檢驗曲線
圖4 BP網(wǎng)絡的仿真曲線
零誤差密度最大算法以誤差在零點的概率密度函數(shù)作為BP網(wǎng)絡的新的目標函數(shù),使其最大相應調整BP網(wǎng)絡的權值,適用于目標變量服從任意分布,是能夠模擬均方誤差函數(shù)和交叉熵函數(shù)的性能的原因.本文利用Matlab軟件中的命令驗證所逼近Cos函數(shù)的值服從高斯分布,利用BP網(wǎng)絡對此函數(shù)進行逼近,網(wǎng)絡的目標函數(shù)值服從高斯分布,分別以零誤差函數(shù)與均方誤差函數(shù)為目標函數(shù)訓練BP網(wǎng)絡,其仿真結果表明二者對Cos函數(shù)的逼近曲線基本一致,說明新的目標函數(shù)同樣適用于目標函數(shù)值滿足高斯分布,而Hermite函數(shù)值并不滿足高斯分布,因此,以均方誤差函數(shù)為BP網(wǎng)絡的目標函數(shù)時,并不是最合適的,結果會偏離真正最優(yōu),仿真結果表明以零誤差密度函數(shù)作為BP網(wǎng)絡的目標函數(shù)對Hermite函數(shù)逼近的結果要比以均方誤差為目標函數(shù)的結果更好.因此,也驗證了新的目標函數(shù)的應用更廣,適用于目標變量服從任意分布,可以作為神經(jīng)網(wǎng)絡更合理的目標函數(shù).而新的目標函數(shù)中的光滑參數(shù)h對于算法的最終性能有重要影響,研究光滑參數(shù) h與新的目標函數(shù)的性能的關系,找出光滑參數(shù) h的自適應算法是進一步研究的方向.
[1] Bishop C.Neural Networks for Pattern Recognition[M].Oxford University Press,1995,194-208.
[2] 閻平凡,張長水.人工神經(jīng)網(wǎng)絡與模擬進化計算[M].北京:清華大學出版社,2005,282-287.
[3] Silva L,Alexandre L,Marques S.Neural Network Classification:Maximizing Zero-Error Density[R].In ICAPR2005,LNCS 3686,2005,127-135.
[4] Silva L,Alexandre L,Marques S.New Developmentsof the Z-EDMAlgorithm[J].In Proceedingsof the Sixth International Conference Intelligent Systems Design and Applications,2006(1):1067-1072.
[5] Silva L,Alexandre L,Marques S.Data Classification with Multilayer Perceptrons Using a Generalized Error Function[J].Neural Networks,2008,21:1302-1310.
[6] 邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2000,65-71.
[7] 牛君.基于非參數(shù)密度估計點樣本分析建模的應用研究[D].濟南:山東大學,2007.
[8] 楊賽.BP神經(jīng)網(wǎng)絡學習問題的分析研究[D].贛州:江西理工大學,2009.
[9] 袁小芳,王耀南.一種用于RBF神經(jīng)網(wǎng)絡的支持向量機與BP的混合學習算法[J].湖南大學學報,2005,32(3):88-92.
Learning of BP Neural Networks Based on Zero-Error Density Criterion Function
ZOU Xiu-ming1,2,Y ANG Sai2,SUN Huai-jiang2
(1.School of Physics and Electronic Electrical Engineering,Huaiyin Normal University,Huaian Jiangsu 223300,China)(2.School of Computer Science and Technology,Nanjing University of Science and Technology,NanjingJiangsu 210094,China)
BP neural networks usually use mean squares error(MSE)function as the objective function,the results may deviate the optimal values in the condition that expected vectors don’t follow Gaussian distribution.zeroerror density(ZED)function uses Parzen window method of non-parameter estimation to get error density at origin,which can be used in the condition that expected output vector follow any density distribution by choosing an appropriate smooth parameter.Compared the BP networks with the new cost function with the BP networks with mean squared function in function approximation through the experiments,the simulation results show the zero-error density function has a larger range of application than mean squared error(MSE)function.
BP networks;mean squared error function;zero-error density maximization algorithm;non-gaussian distribution
TP389.1
A
1671-6876(2010)04-0322-04
2010-04-18
鄒修明(1968-),男,江蘇金湖人,副教授,博士研究生,主要研究領域為模式識別與機器學習、圖像處理等.
[責任編輯:蔣海龍]