李志超,孔國利
(中州大學 信息工程學院,河南 鄭州 450000)
近鄰傳播聚類算法的RBF隱含層節(jié)點優(yōu)化
李志超,孔國利
(中州大學 信息工程學院,河南 鄭州450000)
傳統(tǒng)的RBF神經(jīng)網(wǎng)絡(luò)預測精度會由于隨機選取隱含層中心節(jié)點不合適而導致算法效率低下和數(shù)值病態(tài),為了提高RBF神經(jīng)網(wǎng)絡(luò)的效率,提出了一種用近鄰傳播AP聚類算法改進RBF神經(jīng)網(wǎng)絡(luò)的方法,并介紹了該方法的原理及建模步驟。由于采用的AP聚類算法屬于自適應聚類學習算法,無需事先給定隱含層中心節(jié)點的個數(shù),能夠適用于不具有先驗信息的預測。首先,利用AP算法根據(jù)訓練樣本的信息進行聚類迭代,從而確定RBF神經(jīng)網(wǎng)絡(luò)中隱含層的中心節(jié)點和節(jié)點數(shù)值,解決了RBF網(wǎng)絡(luò)的中心取值問題。然后,把所有輸入數(shù)據(jù)代入基于AP聚類算法優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)中進行預測。由于AP算法無需預先指定聚類數(shù)目,所提方案能提高網(wǎng)絡(luò)的學習精度和訓練速度,利用所提優(yōu)化方案對正弦函數(shù)進行逼近的仿真實驗,結(jié)果表明該方案的逼近誤差僅為0.005 5,在0.3噪聲下能保持較好的預測精度。
徑向基函數(shù)神經(jīng)網(wǎng)絡(luò);近鄰傳播聚類算法;隱含層;逼近誤差
RBF(Radial Basis Function)網(wǎng)絡(luò)是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò),其基本思想是在隱含層內(nèi)基函數(shù)的作用下,將輸入信息的不可分矢量變換到高維可分空間[1-3]。RBF網(wǎng)絡(luò)結(jié)構(gòu)簡單而且具備非線性逼近能力,收斂速度快。RBF網(wǎng)絡(luò)已經(jīng)廣泛應用于函數(shù)逼近、模式識別、信號處理和控制等領(lǐng)域[4-5]。由于RBF網(wǎng)絡(luò)的輸出是線性的,隱含層的輸出是非線性的,所以對RBF網(wǎng)絡(luò)的訓練主要針對隱含層。目前,提高RBF網(wǎng)絡(luò)性能的主要方法包括調(diào)節(jié)隱含層層數(shù),調(diào)節(jié)隱含層的中心節(jié)點參數(shù)和寬度參數(shù)。王榮秀等利用局部保持投影的方法[6],對用于來波到達角估計的神經(jīng)網(wǎng)絡(luò)進行降維,同時獲得了良好的估計精度和效率。郭偉等用K近鄰統(tǒng)計法估計隱含節(jié)點輸出矩陣和輸出節(jié)點輸出矩陣之間的互信息,減少相關(guān)性最小的隱含節(jié)點以優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)[7]。薛福強等通過改進的層次遺傳算法確定RBF神經(jīng)網(wǎng)絡(luò)均衡器結(jié)構(gòu)[8],使用較少的隱含層單元獲得了信道均衡器的低誤碼率。
近鄰傳播AP算法是Frey等提出的一種新的聚類算法[9]。它因無需指定聚類數(shù)目,具有更高效的處理速度,同時也能夠得到較好的聚類結(jié)果。朱紅等提出了一種改進屬性約簡的細粒度AP算法[10],實現(xiàn)聚類的并行處理。然而,利用AP聚類算法的優(yōu)秀特性對RBF神經(jīng)網(wǎng)絡(luò)進行優(yōu)化的文獻卻比較少見。本文使用AP算法對輸入數(shù)據(jù)進行聚類,選出聚類中心作為隱含層的中心節(jié)點,以聚類中心數(shù)作為隱含層節(jié)點數(shù),解決了隱含層中心取值和層數(shù)確定的問題,使RBF網(wǎng)絡(luò)只需要進行一步迭代算法,就能得到輸出結(jié)果。
RBF神經(jīng)網(wǎng)絡(luò)是由輸入層、隱含層和輸出層組成的單隱層前饋網(wǎng)絡(luò)[11-12]。其中,輸入層不會改變輸入信息的相關(guān)性,只起到傳遞作用;而隱含層單元為感受野單元,由一組徑向基函數(shù)構(gòu)成,一般為非線性函數(shù)[13]。本文選擇高斯函數(shù)作為徑向基函數(shù):
設(shè)輸入層、隱含層、輸出層的節(jié)點數(shù)為1,L,M,則隱含層的輸出為:
式中:xi為第i(i=1,2,…,M)個輸入值;xj為第j(j=1,2,…,L)個中心節(jié)點;σ為隱含層的寬度;RBFs神經(jīng)網(wǎng)絡(luò)的輸出為:
式中:dmax為中心節(jié)點距離;L為中心節(jié)點個數(shù)。
輸出層函數(shù)為:
式中ω表示隱含層到輸出單元的權(quán)值:
取RBF神經(jīng)網(wǎng)絡(luò)的逼近誤差為:
式中:Ye為神經(jīng)網(wǎng)絡(luò)訓練得到的輸出數(shù)據(jù);Ym為實驗輸出。
在進行模型訓練時,對每一組樣本數(shù)據(jù)通過式(3)計算隱含層節(jié)點數(shù)值,期間調(diào)用AP算法得到中心節(jié)點層數(shù)和數(shù)值,并將結(jié)果利用式(5)進行輸出,最后通過式(7)進行結(jié)果評價。
AP(Affinity Propagation)算法是一種新的無監(jiān)督聚類算法,是基于數(shù)據(jù)點之間相似性度量集合的聚類,采用兩點之間的歐氏距離作為相似性度量[14-15]。兩點對應的距離越近,相似度越大。在理論上,相似度集合是不需要對稱的,因為它們表示數(shù)據(jù)點之間的條件依賴關(guān)系。在獲得相似度信息后,AP算法通過計算相應的代表矩陣(Responsibility)和適選矩陣(Availability),通過對二者的迭代更新,最終根據(jù)二者之和求出聚類中心[16]。AP算法實現(xiàn)的具體步驟如下:
Step1:計算相似性函數(shù);對參考度矩陣P賦初值。
給定的N個列矢量數(shù)據(jù)點為x1,x2,…,xn,其中xi∈RD,其相似性函數(shù)s(i,k)表示數(shù)據(jù)點k可以歸屬于數(shù)據(jù)點i的適合程度。由于所有點都可能成為類代表點,因此參考度矩陣都賦予相同的值。該值越大,聚類的數(shù)目越多。
Step2:計算樣本點間的Responsibility值和Availability值。
Responsibility函數(shù)r(i,k)是將數(shù)據(jù)點i的信息傳送給候選類代表點k,表示k作為i的類代表點的符合程度。另外,Availability函數(shù)a(i,k)是將候選類代表點k的信息傳送給數(shù)據(jù)點i,表示i選擇k作為類代表點的符合程度。相同點可以被視為在Responsibility發(fā)送回路中的起始點i或者在Availability發(fā)送回路中的結(jié)束點k,計算過程如下:
另外,自給定a(k,k)的更新規(guī)則為:
以上更新規(guī)則來自因子圖的信任傳播,每一個類代表點可以通過公式(11)確定:
如果每一個類代表點c(i)經(jīng)過一些常數(shù)迭代后的值不變,那么認為迭代過程是一個覆蓋過程。
C是由最大發(fā)散成本函數(shù)得到的:
第二項是連貫性約束定義,表示當一個點被選為類代表點時,它必須是自己的類代表點。定義為:
在此過程中,兩種消息傳遞程序“Responsibility”和“Availability”用來交換每個點i和每個候選類代表點之間的信息。圖1為兩個信息的交換過程。虛線表示Responsibility的過程,實線表示Availability的過程。
圖1 信息交換的兩種過程
Step3:Responsibility矩陣和Availability矩陣的更新過程。
AP聚類算法采用迭代加權(quán)更新的方法,更新消息傳遞參數(shù)r(i,k)和a(i,k),其實現(xiàn)公式為:
式中:Mnew和Mold分別是當前和以往迭代的消息值;阻尼因子λ在0~1之間,一般當λ>0.4時可以克服振蕩問題。
重復更新過程,直到找到最大的r(i,k)和a(i,k)的數(shù)據(jù)樣本作為聚類中心,或者迭代次數(shù)超過設(shè)定的最大值,之后其他數(shù)據(jù)樣本根據(jù)與其關(guān)系劃歸到所屬類別中,形成不同的類。
目前針對RBF神經(jīng)網(wǎng)絡(luò)隱含層優(yōu)化的方法主要分為兩類:調(diào)節(jié)隱含層層數(shù),調(diào)節(jié)隱含層的中心節(jié)點參數(shù)和寬度參數(shù)。調(diào)節(jié)隱含層層數(shù)的方法需要根據(jù)訓練數(shù)據(jù)的先驗信息設(shè)置具體的隱含層層數(shù),或者利用預處理的方法對輸入進行處理以消除部分相關(guān)性。當隱含層內(nèi)的神經(jīng)元無法覆蓋所有輸入信息的數(shù)據(jù)集合時,網(wǎng)絡(luò)本身的預測精度就難以保證。調(diào)節(jié)隱含層節(jié)點參數(shù)和寬度參數(shù)的方法需要根據(jù)具體的應用需要開發(fā)新的預處理方法,實施起來不具有普適性。在本文提出的AP算法優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)中,由于AP聚類學習算法屬于自適應聚類學習算法,它無需事先給定隱含層中心節(jié)點的個數(shù),只需要根據(jù)輸入樣本的信息進行聚類迭代,從而確定徑向基函數(shù)的中心點,能夠適用于不具有先驗信息的預測。
本文提出的基于AP算法優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)模型由兩部分組成:首先用AP算法對樣本進行初始聚類,以確定RBF神經(jīng)網(wǎng)絡(luò)的中心節(jié)點及其數(shù)目;然后將所有數(shù)據(jù)交給RBF神經(jīng)網(wǎng)絡(luò)進行預測?;贏P算法優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)模型如圖2所示。
圖2 基于AP算法的RBF神經(jīng)網(wǎng)絡(luò)模型
本文以逼近正弦函數(shù) y=sin(2πx)為例,首先取0.01~1之間以0.01為間隔的100個數(shù)作為輸入值,然后使用AP算法選出中心節(jié)點,接著使用RBF網(wǎng)絡(luò)進行訓練,最后取0.505~1之間以0.01為間隔的50個數(shù)作為輸入值進行預測,以輸出誤差值的最大值作為評價標準。阻尼因子設(shè)置為λ=0.5,中心節(jié)點數(shù)目標識為A。W1為無噪聲時的誤差,W2為加入占空比為30%的白噪聲后的逼近誤差。表1為無噪聲環(huán)境下P取不同值時選擇出的中心節(jié)點和逼近誤差。
表1 RBF網(wǎng)絡(luò)逼近誤差
由表1可以看出,P取不同值時,選擇出的中心節(jié)點不同,并且節(jié)點數(shù)越多,逼近誤差越小,逼近效果越好;逼近誤差值不隨著P值的增大而減??;節(jié)點數(shù)相同時,中心節(jié)點的改變對逼近誤差影響很大。P取0.14時,逼近誤差值最小,此時中心節(jié)點個數(shù)為5,中心節(jié)點為0.08,0.24,0.46,0.68,1,逼近誤差值為0.005 5。在無噪聲環(huán)境下P值取0.14,中心節(jié)點個數(shù)A為5,逼近誤差值最小時的訓練結(jié)果如圖3所示。
圖3 無噪聲環(huán)境下的訓練結(jié)果
由圖3可以看出在無噪聲環(huán)境下,使用AP算法在輸入的100個數(shù)據(jù)中選擇出5個中心節(jié)點,進行RBF網(wǎng)絡(luò)訓練后得到的訓練結(jié)果和由y=sin(2πx)得到的實際值基本一致。
無噪聲環(huán)境下的預測結(jié)果,如圖4所示。
圖4 無噪聲環(huán)境下的預測結(jié)果
由圖4可以看出,取0.505~1區(qū)間內(nèi)以0.01為間隔的50個數(shù)作為輸入數(shù)據(jù)進行預測后得到的預測結(jié)果非常好。
圖5和圖6分別是在噪聲占空比為0.15和0.3環(huán)境下的預測結(jié)果。從這兩幅圖中可以看出在低噪聲情況下,本文提出的方案能夠很好地抑制噪聲,取得較好的預測結(jié)果。在高噪聲情況下,本文提出的方案仍然能夠獲得有效的預測結(jié)果。
圖5 噪聲0.15環(huán)境下的預測結(jié)果
圖6 噪聲0.3環(huán)境下的預測結(jié)果
從上述仿真結(jié)果可以看出,在無噪聲情況下選出的節(jié)點數(shù)越多,逼近誤差值越小,但是中心節(jié)點數(shù)增多,會導致隱含層層數(shù)增多,網(wǎng)絡(luò)結(jié)構(gòu)更加復雜,大大增加了訓練時間,降低了學習速率。因此選擇適當?shù)闹行墓?jié)點數(shù)和中心節(jié)點對RBF網(wǎng)絡(luò)非常重要。
RBF神經(jīng)網(wǎng)絡(luò)隱含層中心節(jié)點個數(shù)和選取方案關(guān)乎其預測精度,而現(xiàn)有中心節(jié)點的選取方案依賴于對訓練樣本的相關(guān)性分析,使得RBF神經(jīng)網(wǎng)絡(luò)實施復雜,不具有普適性。本文利用AP聚類算法無需指定聚類個數(shù)、自適應實現(xiàn)全局最優(yōu)聚類和聚類速度快的優(yōu)點,用AP算法確定RBF神經(jīng)網(wǎng)絡(luò)中心節(jié)點個數(shù)和數(shù)值。本文改進的RBF網(wǎng)絡(luò)不僅能夠確定隱含層的層數(shù)還能選出中心節(jié)點,訓練速度快,解決了RBF網(wǎng)絡(luò)最重要的問題,而且不依賴于具體訓練數(shù)據(jù)的相關(guān)程度,具有普適性。從仿真實驗可以看出,AP算法和RBF網(wǎng)絡(luò)結(jié)合后的預測結(jié)果準確度高,逼近效果好,表明AP算法能夠有效地解決RBF網(wǎng)絡(luò)隱含層優(yōu)化問題。
[1]文翰,肖南峰.基于強類別特征近鄰傳播的半監(jiān)督文本聚類[J].模式識別與人工智能,2014,27(7):646-654.
[2]回立川,于淼,梁芷睿.應用近鄰傳播算法改進RBF的短期負荷預測[J].電力系統(tǒng)及其自動化學報,2015,27(1):69-73.
[3]趙鳳嬌,賀月姣.基于改進的K-means聚類算法水下圖像邊緣檢測[J].現(xiàn)代電子技術(shù),2015,38(18):89-91.
[4]黃建清,王衛(wèi)星,胡月明,等.近鄰傳播聚類無線傳感器網(wǎng)絡(luò)分簇路由算法[J].計算機工程與設(shè)計,2014,35(2):406-410.
[5]常瑞花.基于密集度量元的近鄰傳播聚類算法[J].微電子學與計算機,2015(5):1-5.
[6]王榮秀,田雨波,張貞凱.基于局部保持投影和RBF神經(jīng)網(wǎng)絡(luò)的DOA估計[J].科學技術(shù)與工程,2013,13(24):7054-7058.
[7]郭偉.基于互信息的RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計[J].計算機科學,2013,40(6):252-255.
[8]薛富強,葛臨東,王彬.基于改進層次遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)信道均衡器[J].計算機應用與軟件,2010,27(5):75-77.
[9]FREY B J,DUECK D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.
[10]朱紅,丁世飛,許新征.基于改進屬性約簡的細粒度并行AP聚類算法[J].計算機研究與發(fā)展,2012,49(12):2638-2644.
[11]李英樂,于洪濤,劉力雄,等.基于RBF神經(jīng)網(wǎng)絡(luò)的微博消息傳播時間預測方法[J].計算機工程與設(shè)計,2013,34(11):3815-3819.
[12]孟軍,尉雙云.基于近鄰傳播聚類的集成特征選擇方法[J].計算機科學,2015,42(3):241-244.
[13]錢雪忠,趙建芳,賈志偉.基于約束投影的近鄰傳播聚類算法[J].計算機工程與科學,2014,36(3):524-529.
[14]邢長征,劉劍.基于近鄰傳播與密度相融合的進化數(shù)據(jù)流聚類算法[J].計算機應用,2015,35(7):1927-1932.
[15]儲岳中,徐波,高有濤.一種融合人工免疫系統(tǒng)與AP算法的分類器設(shè)計[J].南京航空航天大學學報,2013,45(2):232-238.
[16]周治平,張道文,王杰鋒,等.基于流形結(jié)構(gòu)鄰域選擇的局部投影近鄰傳播算法[J].南京大學學報(自然科學版),2015,51(4):741-748.
Optimization of RBF hidden layer nodes with affinity propagation clustering algorithm
LI Zhichao,KONG Guoli
(College of Information Engineering,Zhongzhou University,Zhengzhou 450000,China)
The prediction accuracy of the traditional radial basis function(RBF)neural network may result in lower algorithm efficiency and pathological numerical value due to the inappropriate random selection of the hidden layer center node,to improve the efficiency of RBF neural network,a method of using affinity propagation(AP)clustering algorithm to improve RBF neural network is proposed.The principle and modeling steps of the method are introduced.Since the adopted AP clustering algorithm belongs to the self-adapting clustering learning algorithm,it needn′t predefine the numbers of the hidden layer center nodes,and is applied to prediction without transcendental information.The AP algorithm is used for clustering iteration according the information of training sample,so as to determine the center node and node numerical value of hidden layer in RBF neural network,and solve the center dereferencing problem of RBF network.After that,all input data is taken in RBF neural network based on AP clustering algorithm for prediction.Since the use of AP algorithm needn′t predefine the clustering numbers,the proposed scheme can improve the learning accuracy and training speed of the RBF neural network.The approximate simulation experiment was performed for sine function with the proposed optimization scheme.The results show that the approximate error of the proposed scheme is only 0.005 5,and can keep good prediction accuracy under the noise of 0.3.
radial basis function neural network;affinity propagation clustering algorithm;hidden layer;approximate error
TN711-34;TP398.1
A
1004-373X(2016)19-0016-04
10.16652/j.issn.1004-373x.2016.19.004
2015-11-16
國家自然科學基金項目(U1304618)
李志超(1979—),男,河南鄭州人,碩士,講師。主要研究方向為計算機應用與智能算法。
孔國利(1973—),男,河南開封人,碩士,副教授。主要研究方向為計算機應用與智能控制。