• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于狀態(tài)轉(zhuǎn)移算法的極限學(xué)習(xí)機(jī)

    2022-10-26 07:03:38鄒偉東李鈺祥夏元清
    關(guān)鍵詞:學(xué)習(xí)機(jī)復(fù)雜度權(quán)重

    鄒偉東,李鈺祥,夏元清

    (北京理工大學(xué) 自動(dòng)化學(xué)院, 北京 100081)

    為解決多層神經(jīng)網(wǎng)絡(luò)[1]在模型訓(xùn)練時(shí)需要設(shè)置大量參數(shù)且訓(xùn)練耗時(shí)較長的問題[2],HUANG 等[3]提出了極限學(xué)習(xí)機(jī)(extreme learning machine,ELM),這是一種求解單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的算法,具有結(jié)構(gòu)簡單和隨機(jī)生成參數(shù)的特點(diǎn). 目前極限學(xué)習(xí)機(jī)算法已經(jīng)廣泛用于圖像識(shí)別[4]、目標(biāo)追蹤[5]和在線預(yù)測(cè)[6]等領(lǐng)域.

    在之后的ELM 研究中,正則化極限學(xué)習(xí)機(jī)(RELM)的提出解決了模型過擬合的問題并被廣泛使用[7],LAI 等[8]基于凸優(yōu)化理論提出的ADMM-ELM 提高了算法的收斂速率,這些方法都是目前較為主流的極限學(xué)習(xí)機(jī)算法. 另一方面,對(duì)ELM 的許多研究都是從網(wǎng)絡(luò)結(jié)構(gòu)層面出發(fā)的,比如基于群智能優(yōu)化角度,研究人員分別提出了利用比較流行的自適應(yīng)差分進(jìn)化算法優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)[9]和利用不同拓?fù)浣Y(jié)構(gòu)對(duì)PSO-ELM 進(jìn)行結(jié)構(gòu)搜索的方法[10]等. 從增量構(gòu)造法和剪枝構(gòu)造法的角度出發(fā),YE 等[11]和ZHOU 等[12]分別提出了基于QR 分解的增量QRI-ELM 算法和基于隨機(jī)傅里葉映射的 ?2,1RF-ELM 算法.

    以上研究使極限學(xué)習(xí)機(jī)得到了進(jìn)一步發(fā)展,但是沒有解決極限學(xué)習(xí)機(jī)建模精度不足的問題. 雖然極限學(xué)習(xí)機(jī)相比于多層神經(jīng)網(wǎng)絡(luò)有建模效率高的優(yōu)點(diǎn),但由于其參數(shù)生成具有隨機(jī)性的原因?qū)е陆⒌哪P头夯阅苋? 同時(shí)利用的Moore-Penrose 廣義逆的方式求解輸出權(quán)重矩陣建模導(dǎo)致模型的精度不理想. 在一些復(fù)雜的場(chǎng)景下,經(jīng)常會(huì)出現(xiàn)隱藏層輸出矩陣的階數(shù)很大的情況[13],此時(shí)利用廣義逆解矩陣方程效率低且精度較差. 在面對(duì)矩陣方程的問題上,有時(shí)也會(huì)用迭代法來解決問題,比如Jacobi 迭代、Gauss-Seidel 迭代[14]、逐次超松弛(SOR)迭代[15]等都是常見的迭代法. 這些算法相較于利用廣義逆的方法來說具有更高的效率,但同樣也有較大的局限性,比如Jacobi 算法只適用于相關(guān)矩陣為方陣的情況[16],有些算法占用的硬件資源過多等,由此可知設(shè)計(jì)一種滿足收斂性且性能較好的迭代算法是十分困難的.

    以上對(duì)極限學(xué)習(xí)機(jī)的研究主要有兩點(diǎn)不足:①對(duì)極限學(xué)習(xí)機(jī)的優(yōu)化大多都是針對(duì)梯度和網(wǎng)絡(luò)結(jié)構(gòu)層面的,忽略了極限學(xué)習(xí)機(jī)本身精度不夠好的問題,具有一定局限性. ②在解決極限學(xué)習(xí)機(jī)求解輸出權(quán)重矩陣的問題上利用設(shè)計(jì)迭代方程的方式可行但較為困難.

    為了解決上述問題,提出了基于狀態(tài)轉(zhuǎn)移算法(state transition algorithm,STA)[17]的極限學(xué)習(xí)機(jī)(STAELM),該算法不再利用廣義逆和迭代方程求極限學(xué)習(xí)機(jī)中的輸出權(quán)重矩陣,而是通過一種新型隨機(jī)性狀態(tài)轉(zhuǎn)移的方法對(duì)輸出權(quán)重矩陣進(jìn)行全局搜索. 算法既保留了極限學(xué)習(xí)機(jī)優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu),也提高了建立模型的精度. 本文通過將STA-ELM 算法與傳統(tǒng)ELM 和一些主流算法在分類和回歸數(shù)據(jù)集上進(jìn)行性能對(duì)比,驗(yàn)證了算法的有效性和準(zhǔn)確性.

    1 基本算法概述

    1.1 極限學(xué)習(xí)機(jī)

    極限學(xué)習(xí)機(jī)是由單隱藏層組成的一種前饋神經(jīng)網(wǎng)絡(luò),通過隨機(jī)產(chǎn)生輸入權(quán)重和偏置計(jì)算輸出權(quán)重.

    對(duì)于給定的M個(gè)訓(xùn)練樣本(xi,ti),其中xi和ti分別表示第i個(gè)樣本的輸入特征向量和標(biāo)簽對(duì)應(yīng)的輸出特征向量. 若m為特征維數(shù),l為標(biāo)簽維數(shù). 設(shè)g(x)為激活函數(shù),則極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)結(jié)構(gòu)由一個(gè)m維輸入層、一個(gè)含有N個(gè)節(jié)點(diǎn)的隱藏層和l個(gè)節(jié)點(diǎn)的輸出層組成. 其數(shù)學(xué)模型為

    式中:wi為連接第i個(gè)隱藏層節(jié)點(diǎn)與輸入層節(jié)點(diǎn)的輸入權(quán)重; βi為連接第i個(gè)隱藏層節(jié)點(diǎn)與輸出層節(jié)點(diǎn)的輸出權(quán)重;bi為第i個(gè)隱藏層節(jié)點(diǎn)的偏置.

    式中H為隱藏層輸出矩陣,通過線性方程組(2)易得到輸出權(quán)重的最小二乘解

    式中H+為H的Moore-Penrose 廣義逆矩陣.

    1.2 狀態(tài)轉(zhuǎn)移算法

    狀態(tài)轉(zhuǎn)移算法是基于狀態(tài)與狀態(tài)轉(zhuǎn)移提出的一種優(yōu)化方法,具有結(jié)構(gòu)簡單、尋優(yōu)效率高的優(yōu)點(diǎn),一直較為廣泛地應(yīng)用于傳統(tǒng)優(yōu)化和工業(yè)控制領(lǐng)域. 其基本思想是通過不同算子的變換計(jì)算進(jìn)行解的更新.算法中候選解產(chǎn)生的框架如下

    式中:xk為當(dāng)前狀態(tài),代表搜索中產(chǎn)生的一個(gè)候選解;Ak和Bk為狀態(tài)轉(zhuǎn)移矩陣,是優(yōu)化算法中的一個(gè)算子;uk在控制中可以看成是控制變量;f(·)為目標(biāo)函數(shù)或者評(píng)價(jià)函數(shù).

    式中xbest為從候選解中選擇的“最優(yōu)解”.

    狀態(tài)轉(zhuǎn)移算法定義了式(6)~(9) 4 種變換算子,按照一定規(guī)則循環(huán)進(jìn)行4 種變換.

    ①旋轉(zhuǎn)變換(rotation transformation, RT).

    式中:k為狀態(tài)轉(zhuǎn)移的次數(shù);α >0為旋轉(zhuǎn)因子;Rr∈Rn×n為一個(gè)其元素取值在[-1,1]之間均勻分布的隨機(jī)矩陣; ‖·‖2為向量2-范數(shù)或歐氏范數(shù).

    ②平移變換(translation transformation, TT).

    式中:β >0為平移因子;Rt∈R為一個(gè)其元素取值在[0,1]之間均勻分布的隨機(jī)數(shù).

    ③伸縮變換(expansion transformation, ET).

    式中:γ >0為伸縮因子;Re∈Rn×n為一個(gè)其非零元素取值服從高斯分布的隨機(jī)對(duì)角矩陣.

    ④軸向變換(axesion transformation, AT).

    式中:δ >0為軸向因子;Ra∈Rn×n為一個(gè)其非零元素取值服從高斯分布的稀疏隨機(jī)對(duì)角矩陣.

    2 基于狀態(tài)轉(zhuǎn)移的極限學(xué)習(xí)機(jī)算法

    2.1 基于狀態(tài)轉(zhuǎn)移的極限學(xué)習(xí)機(jī)

    利用狀態(tài)轉(zhuǎn)移算法搜索矩陣方程的解既滿足了收斂性條件又不用考慮矩陣的奇異性,同時(shí)避免了設(shè)計(jì)復(fù)雜的迭代規(guī)則.

    本文根據(jù)實(shí)驗(yàn)效果對(duì)基本狀態(tài)轉(zhuǎn)移算法做出改進(jìn),根據(jù)幾種變換算子的特性,改進(jìn)的狀態(tài)轉(zhuǎn)移算法減小了伸縮變換的計(jì)算次數(shù),增加旋轉(zhuǎn)算子的計(jì)算次數(shù),并將平移因子由固定值改為根據(jù)循環(huán)次數(shù)進(jìn)行迭代賦值. 這是因?yàn)樯炜s算法的特性可以避免搜索陷入局部最優(yōu)解,而在每一次搜索中,只需要幾次并行的伸縮變換便可以滿足該次搜索的全局最優(yōu)性,而旋轉(zhuǎn)算子是算法可以在局部搜索到最優(yōu)解的保證,因此該步驟需要并行搜索次數(shù)較多, 根據(jù)實(shí)驗(yàn)可以發(fā)現(xiàn)每次搜索大約需要30 次左右并行的旋轉(zhuǎn)變換便可以搜索到當(dāng)前鄰域內(nèi)的較好的局部最優(yōu)解. 平移變換具有在實(shí)現(xiàn)上搜索的功能,根據(jù)STA 算法的可控性原則可知,平移因子可以逐次搜索設(shè)置更小的值,使每次搜索的候選解更加集中,有助于算法更快收斂到全局最優(yōu)解.

    設(shè)計(jì)基于狀態(tài)轉(zhuǎn)移算法的極限學(xué)習(xí)機(jī)步驟如下:

    ①得到訓(xùn)練樣本數(shù)據(jù)集,數(shù)據(jù)集中的元素記為(x,t),其中,x為特征向量,t為標(biāo)簽向量.

    ②結(jié)合利用極限學(xué)習(xí)機(jī)的結(jié)構(gòu)模型,隨機(jī)生成隱藏層的輸入權(quán)重矩陣和偏置矩陣,利用激活函數(shù)(Sigmoid 函數(shù))得到輸出權(quán)重矩陣H,結(jié)合樣本標(biāo)簽T得到矩陣方程Hβ=T.

    ③利用狀態(tài)轉(zhuǎn)移算法求解輸出權(quán)重矩陣 β,設(shè)置參數(shù)的初始值,隨機(jī)生成初始解βbest=β0,按如下偽代碼進(jìn)行迭代:

    算法1:搜索輸出權(quán)重矩陣最優(yōu)解1 For i=0 to G do α <αmin 2 if then α ←αmax 3 4 βnewbest ET(funfcn, βbest,SE1, )5 if f(βnewbest)< f(βbest) then←σ←γ 6 βnewbest TT(funfcn, βnewbest,SE0, )←7 βbest βnewbest←8 βnewbest RT(funfcn, βbest,SE2, )9 if f(βnewbest)< f(βbest) then←α 10 βnewbest TT(funfcn, βnewbest,SE0, )←σ 11 βbest βnewbest←12 βnewbest AT(funfcn, βbest,SE3, )13 if f(βnewbest)< f(βbest) then←σ δ 14 βnewbest TT(funfcn, βnewbest,SE0, )←15 βbest βnewbest α ←α/fcσ ←σ/fc 16 ,17 until 某個(gè)終止條件滿足

    其中,ET、RT、AT 以及TT 函數(shù)分別實(shí)現(xiàn)了伸縮變換、旋轉(zhuǎn)變換、軸向變換以及平移變換,根據(jù)給定的目標(biāo)優(yōu)化函數(shù)按照式(5)進(jìn)行βbest的更新. 為了縮短搜索時(shí)間,根據(jù)后續(xù)的實(shí)驗(yàn)結(jié)果,本算法將STA 中的單次循環(huán)執(zhí)行各個(gè)變換的次數(shù)改為不相同,減小了部分變換所用的次數(shù). 同時(shí)根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)如果對(duì)平移因子也進(jìn)行迭代的話,模型精度會(huì)更高.

    ④得到輸出權(quán)重矩陣,利用建立的模型對(duì)測(cè)試樣本進(jìn)行分類或擬合,根據(jù)實(shí)驗(yàn)結(jié)果對(duì)算法進(jìn)行評(píng)價(jià).

    需要注意的是,該算法在分別處理分類和回歸的問題時(shí),使用了兩套不同的優(yōu)化目標(biāo)函數(shù). 在處理分類的問題時(shí),本文利用平均交叉熵函數(shù)作為目標(biāo)優(yōu)化函數(shù),如式(10)所示;在處理回歸預(yù)測(cè)問題時(shí),本文用矩陣方程的二范數(shù)代價(jià)函數(shù)作為目標(biāo)優(yōu)化函數(shù),如式(11)所示.

    式中: τ0為當(dāng)前最優(yōu)解;N為訓(xùn)練樣本個(gè)數(shù).

    本文算法通過搜索的方式可以得到比利用廣義逆和迭代法更精確的解,同時(shí)也避免了搜索陷入局部最優(yōu)解的情況,實(shí)驗(yàn)驗(yàn)證了該算法在各種場(chǎng)景下在效率和精度上都有著更好的表現(xiàn).

    2.2 基于狀態(tài)轉(zhuǎn)移的極限學(xué)習(xí)機(jī)算法復(fù)雜度分析

    本文算法將基本極限學(xué)習(xí)機(jī)中的關(guān)鍵一步,即求解輸出權(quán)重矩陣的方法做了改進(jìn),使得算法建立的模型有更高的精度. 本節(jié)將從算法改進(jìn)前后的時(shí)間復(fù)雜度和空間復(fù)雜度對(duì)改進(jìn)算法的代價(jià)進(jìn)行評(píng)價(jià).這里假設(shè)關(guān)鍵一步式(2)中的H是M×N維的,標(biāo)簽T是M×K維的.

    傳統(tǒng)極限學(xué)習(xí)機(jī)求解式(2)的矩陣方程利用的是M-P 廣義逆的方式,這種方式底層是通過將H矩陣進(jìn)行奇異值分解,得到左奇異向量UM×M、右奇異向量VN×N和一個(gè)包含奇異值的對(duì)角矩陣DM×N,再根據(jù)式(12)計(jì)算出H矩陣的廣義逆H+,最后通過H+得到模型的輸出權(quán)重矩陣的. 其中D+為對(duì)角矩陣D的偽逆,這里是通過將D中非零元素取倒數(shù)后再轉(zhuǎn)置得到的.

    分析可知,在對(duì)H進(jìn)行奇異值分解的過程中,運(yùn)算的時(shí)間復(fù)雜度應(yīng)該為O(N3),通過式(12)求解廣義逆的運(yùn)算所需的時(shí)間復(fù)雜度應(yīng)為O(M2×N),而最后一步通過H+求出輸出權(quán)重矩陣的時(shí)間復(fù)雜度為O(M×N×K). 由此可知,基于廣義逆方法的ELM 算法在求解輸出權(quán)重矩陣這一步的時(shí)間復(fù)雜度為O(N3)+O(M2×N)+O(M×N×K),而需要的額外空間復(fù)雜度為O(max{M,N}2),主要是用于記錄奇異值分解后的形成的矩陣.

    基于STA-ELM 在求解輸出權(quán)重矩陣這一步,利用了搜索的方式進(jìn)行輸出權(quán)重矩陣的迭代,這里假設(shè)循環(huán)的次數(shù)為G,由于每次變換并行運(yùn)算SE次,故不計(jì)入時(shí)間復(fù)雜度. 對(duì)4 種變換,本文選擇復(fù)雜度最高的旋轉(zhuǎn)變換來考慮,得到STA-ELM 在計(jì)算輸出權(quán)重時(shí)所需的時(shí)間復(fù)雜度為O(G×N2×K),所需額外空間復(fù)雜度為O(N2),主要用于記錄變換中的輔助矩陣.

    通過上述的復(fù)雜度分析可以知道,STA-ELM 相對(duì)于傳統(tǒng)ELM 相關(guān)算法在提高了精度的同時(shí),可能會(huì)以犧牲一些訓(xùn)練時(shí)間為代價(jià),因?yàn)閺臅r(shí)間復(fù)雜度來看,本文算法的復(fù)雜度貌似多了一層大循環(huán)G,但實(shí)際上通過數(shù)據(jù)集和實(shí)驗(yàn)效果來看,由于需要搜索的是輸出權(quán)重矩陣,而該目標(biāo)的維數(shù)K代表的含義是標(biāo)簽的特征數(shù)目,大部分情況下這個(gè)值都是1,因此可以忽略K,此時(shí)STA-ELM 的時(shí)間復(fù)雜度便低于傳統(tǒng)ELM 算法,而在后續(xù)實(shí)驗(yàn)中可以發(fā)現(xiàn)對(duì)于循環(huán)次數(shù)G,通常設(shè)置100~500 次左右便可以有不錯(cuò)的效果,此時(shí)G的值往往也比訓(xùn)練樣本的數(shù)目要小,所以此時(shí)STA-ELM 建模的效率反而要更高,通過對(duì)額外空間復(fù)雜度分析可得,STA-ELM 所需要占用的額外空間更小,因此本文算法占用的硬件資源更少.

    另一方面從狀態(tài)轉(zhuǎn)移算法的特性也可以知道,狀態(tài)轉(zhuǎn)移算法設(shè)計(jì)了變換時(shí)的并行運(yùn)算且在每次搜索過程中同時(shí)進(jìn)行了全局最優(yōu)解和局部最優(yōu)解的搜索,因此保證了算法的快速性[17].

    3 實(shí) 驗(yàn)

    本節(jié)利用多組標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)本文算法進(jìn)行對(duì)比實(shí)驗(yàn). 實(shí)驗(yàn)均使用硬件平臺(tái)為Intel(R) Core(TM) i7-9750H CPU @2.60 GHz,內(nèi)存為8 GB 的一臺(tái)筆記本來完成. 本文選用的數(shù)據(jù)集均來自于UCI 數(shù)據(jù)庫和MedMNIST 醫(yī)學(xué)圖像分析數(shù)據(jù)集[18]. 為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性和真實(shí)性,本文中所有實(shí)驗(yàn)指標(biāo)均重復(fù)30 次取平均值作為最終結(jié)果.

    3.1 UCI 數(shù)據(jù)集分類實(shí)驗(yàn)測(cè)試

    本節(jié)實(shí)驗(yàn)選取了10 組UCI 數(shù)據(jù)庫中用于分類測(cè)試的經(jīng)典數(shù)據(jù)集做實(shí)驗(yàn)對(duì)比,數(shù)據(jù)集的訓(xùn)練數(shù)量、測(cè)試數(shù)量、特征數(shù)量以及類別數(shù)如表1 所示.

    表1 10 個(gè)數(shù)據(jù)集的基本信息Tab. 1 Basic information of 10 classification data sets

    為了測(cè)試不同隱藏層節(jié)點(diǎn)下STA-ELM 算法對(duì)ELM、RELM、基于梯度下降的Adam-ELM[18]和基于凸規(guī)劃問題ADMM-ELM[19]幾種主流的基于極限學(xué)習(xí)機(jī)的算法的性能提升,這里對(duì)每個(gè)數(shù)據(jù)集設(shè)置隱藏層節(jié)點(diǎn)數(shù)目N的區(qū)間為[10,100],在區(qū)間上均勻選擇10 個(gè)不同的節(jié)點(diǎn)數(shù)對(duì)5 種算法的分類準(zhǔn)確率進(jìn)行對(duì)比,依據(jù)文獻(xiàn)[17]中給出的默認(rèn)參數(shù),參考實(shí)驗(yàn)效果和2.1 節(jié)中提到的4 種搜索變換算子的本質(zhì)作用,對(duì)STA-ELM 算法迭代次數(shù)G設(shè)置為200,參數(shù)設(shè)置為fc=2,k=0,α=αmax=1,αmin=1×10-4, β=γ=δ=1,SE0=10,SE1=1,SE2=30,SE3=30;對(duì)Adam-ELM 的學(xué)習(xí)率設(shè)置為0.001,超參數(shù) β1、 β2和穩(wěn)定性常數(shù) σ分別設(shè)置為0.09、0.99 和1×10-6,迭代次數(shù)設(shè)置為200;算法的隱藏層的激活函數(shù)均選用sigmoid函數(shù);對(duì)比結(jié)果如圖1 所示,這里選擇了Breast Cancer、Spambase、Dry Bean、Avila 4 組有代表性的數(shù)據(jù)集. 這里的測(cè)試精度代表測(cè)試集樣本準(zhǔn)確率,即測(cè)試集中正確分類的樣本數(shù)/測(cè)試樣本數(shù).

    圖1 不同隱藏層節(jié)點(diǎn)數(shù)的實(shí)驗(yàn)結(jié)果Fig. 1 The experimental results of different number of hidden nodes

    從上圖的實(shí)驗(yàn)結(jié)果分析可得,5 種基于極限學(xué)習(xí)機(jī)的算法在相同隱藏層節(jié)點(diǎn)的情況下, STA-ELM 算法訓(xùn)練出來的模型在對(duì)各個(gè)數(shù)據(jù)集的分類準(zhǔn)確上普遍都有更好的表現(xiàn). STA-ELM 算法只在部分?jǐn)?shù)據(jù)集的部分節(jié)點(diǎn)的情況下精度會(huì)略低于ADMM-ELM 算法. 對(duì)每組數(shù)據(jù)集來說,分類精度最高的模型都是由STA-ELM 實(shí)現(xiàn)的. 同時(shí)可以發(fā)現(xiàn),隨著隱藏層節(jié)點(diǎn)數(shù)量的增多,STA-ELM 算法相比于其余幾種算法在分類精度上的優(yōu)勢(shì)就越明顯.

    在此基礎(chǔ)上,本文加入了BLS(寬度學(xué)習(xí))[20]算法對(duì)10 組數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),BLS 同樣是一種輸入層到中間層隨機(jī)產(chǎn)生權(quán)重偏置的算法,它的輸出權(quán)重偏置也是通過廣義逆得到的,與ELM 不同的是,BLS的輸入層與輸出層有連接,且輸入層直接輸入的是特征. 實(shí)驗(yàn)中參數(shù)選擇與上一實(shí)驗(yàn)一致. 在每個(gè)數(shù)據(jù)集的實(shí)驗(yàn)上對(duì)STA-ELM、ELM、RELM、Adam-ELM 和ADMM-ELM 均設(shè)置多組不同的隱藏層節(jié)點(diǎn)數(shù),并分別記錄精度最高的那組節(jié)點(diǎn)數(shù). 實(shí)驗(yàn)結(jié)果如表2 所示.Acc(%)表示算法的測(cè)試準(zhǔn)確率,即測(cè)試集正確分類的樣本數(shù)/測(cè)試樣本數(shù)×100%;N表示隱藏層節(jié)點(diǎn)數(shù).

    表2 基于各算法的數(shù)據(jù)集綜合訓(xùn)練結(jié)果Tab. 2 Comprehensive training results based on data sets of various algorithms

    通過實(shí)驗(yàn)結(jié)果分析可得,本文算法相比于ELM、RELM 與Adam-ELM 在各個(gè)數(shù)據(jù)集上的精度表現(xiàn)都要更好,這說明通過改進(jìn)STA 算法求解輸出權(quán)重矩陣的方法得到的結(jié)果會(huì)更加精準(zhǔn). 相較于ADMMELM,本文算法在大多數(shù)數(shù)據(jù)集上的測(cè)試精度表現(xiàn)都會(huì)更好,在個(gè)別數(shù)據(jù)集上只比ADMM-ELM 算法低了不到1%. 而相較于BLS 算法,STA-ELM 算法在所有數(shù)據(jù)集的精度和效率上都更好. 從隱藏層節(jié)點(diǎn)數(shù)的角度來看,在對(duì)大部分?jǐn)?shù)據(jù)集的訓(xùn)練中,STAELM 算法相較于其余4 種基于ELM 的算法來說,可以用更少的隱藏層節(jié)點(diǎn)數(shù)訓(xùn)練出測(cè)試精度更好的模型.

    3.2 MedMNIST 醫(yī)療圖像數(shù)據(jù)集分類實(shí)驗(yàn)

    本節(jié)實(shí)驗(yàn)選擇MedMNIST 數(shù)據(jù)集[18]中4 個(gè)具有代表性的數(shù)據(jù)集BreastMNIST、RetinaMNIST、Derma MNIST 和PathMNIST 進(jìn)行實(shí)驗(yàn). 算法相關(guān)參數(shù)與上節(jié)保持一致. 表3 列出了上述4 個(gè)數(shù)據(jù)集的基本特征.

    表3 4 個(gè)數(shù)據(jù)集的基本信息Tab. 3 Basic information of 4 classification data sets

    首先來驗(yàn)證STA-ELM 算法在以上4 個(gè)數(shù)據(jù)集中通過狀態(tài)轉(zhuǎn)移算法的搜索情況. 通過每一次迭代優(yōu)化函數(shù)和分類精度的對(duì)比可以動(dòng)態(tài)地展現(xiàn)算法的搜索和模型建立的過程. 圖2 展示了其中兩個(gè)有代表性的數(shù)據(jù)集在幾千次迭代過程中優(yōu)化目標(biāo)函數(shù)不斷單調(diào)遞減且分類測(cè)試精度不斷提升的過程.

    圖2 平均交叉熵和測(cè)試準(zhǔn)確率隨迭代次數(shù)的變化曲線Fig. 2 Average cross entropy and test accuracy rate with the change curve of the number of iterations

    從實(shí)驗(yàn)結(jié)果分析可得,STA-ELM 算法在計(jì)算模型的輸出權(quán)重矩陣時(shí)是不斷向著優(yōu)化目標(biāo)靠攏的,通過搜索不斷使平均交叉熵函數(shù)縮小來求得更為準(zhǔn)確的輸出權(quán)重矩陣. 在這一過程中,隨著每次迭代輸出權(quán)重矩陣的精度不斷提高,分類的測(cè)試精度在趨勢(shì)上也不斷提升,最終模型趨于一個(gè)較為穩(wěn)定的狀態(tài).

    為了測(cè)試算法的泛化性能,實(shí)驗(yàn)用STA-ELM、ELM 和Adam-ELM 3 種算法對(duì)以上兩組數(shù)據(jù)集在不同隱藏層節(jié)點(diǎn)數(shù)下進(jìn)行泛化性能對(duì)比. 實(shí)驗(yàn)結(jié)果如圖3 所示,實(shí)驗(yàn)中利用數(shù)據(jù)集的訓(xùn)練精度與測(cè)試精度之比作為泛化性能的判斷標(biāo)準(zhǔn). 比值接近1 說明算法泛化性能較理想,比值離1 差距較大的時(shí)候說明模型出現(xiàn)欠擬合或者過擬合的情況.

    圖3 3 種算法的泛化性能隨節(jié)點(diǎn)數(shù)變化曲線Fig. 3 The generalization performance of the three algorithms varies with the number of nodes

    根據(jù)圖3 實(shí)驗(yàn)結(jié)果可知,STA-ELM 算法在泛化性能上的表現(xiàn)要強(qiáng)于ELM 和Adam-ELM 算法. 在節(jié)點(diǎn)數(shù)較小的情況下,STA-ELM 算法的訓(xùn)練精度與測(cè)試精度之比要更接近1,不會(huì)產(chǎn)生欠擬合現(xiàn)象,而在節(jié)點(diǎn)數(shù)較大的情況下,ELM 與Adam-ELM 在個(gè)別節(jié)點(diǎn)數(shù)下會(huì)出現(xiàn)過擬合現(xiàn)象,而STA-ELM 在圖中數(shù)據(jù)集上基本可以將比值穩(wěn)定在1.1 和1.2 以內(nèi),可以看出本文算法的泛化性能較好.

    隨后在4 組數(shù)據(jù)集上分別用STA-ELM 算法與ELM、SVM、ResNet[18]以及ResNet[50]進(jìn)行醫(yī)療圖像分類方面的性能對(duì)比. 在對(duì)BreastMNIST 和RetinaMNIST 數(shù)據(jù)集上,均設(shè)置STA-ELM 算法的迭代次數(shù)為2 500 次;在對(duì)DermaMNIST 數(shù)據(jù)集上,STAELM 迭代次數(shù)選擇3 000 次;在對(duì)PathMNIST 數(shù)據(jù)集上,STA-ELM 迭代次數(shù)選擇5 000. 同時(shí),在本節(jié)所有實(shí)驗(yàn)中,算法SVM 均選用線性核函數(shù),ResNet[18]和ResNet[50]均選用SGD 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.1.其余參數(shù)與之前保持一致. 表4 給出了5 種算法在4組數(shù)據(jù)集上測(cè)試準(zhǔn)確率的表現(xiàn). 其中ELM 和STAELM 算法分別給出了在實(shí)驗(yàn)結(jié)果最理想情況下對(duì)應(yīng)的節(jié)點(diǎn)數(shù)N,T表示算法建立模型所花費(fèi)的時(shí)間.

    從表4 實(shí)驗(yàn)結(jié)果可以看出,在對(duì)前3 組數(shù)據(jù)集的建模分類上,本文提出的STA-ELM 算法在5 種算法里具有最高的精度,并且相比于主流的神經(jīng)網(wǎng)絡(luò)ResNet[50]在精度上基本有2%~6%的提升. 雖然在PathMNIST 數(shù)據(jù)集上表現(xiàn)不如ResNet[50],但是訓(xùn)練花費(fèi)時(shí)間卻極大的減少了. 與傳統(tǒng)ELM 相比,STAELM 對(duì)MedMNIST 中大部分?jǐn)?shù)據(jù)集在精度上有10%~20%的提升,在PathMNIST 上提升較明顯,有48.83%的提升,且在所有測(cè)試數(shù)據(jù)集上,STA-ELM達(dá)到最優(yōu)訓(xùn)練效果時(shí)需要的隱藏層節(jié)點(diǎn)數(shù)都要更少.在建模耗費(fèi)時(shí)間上,STA-ELM 只有在對(duì)小樣本量數(shù)據(jù)集訓(xùn)練時(shí)建模效率會(huì)略低于ELM,但隨著樣本量增加,STA-ELM 的建模速率的優(yōu)勢(shì)逐漸體現(xiàn)出來,這個(gè)同時(shí)也驗(yàn)證了2.2 節(jié)對(duì)算法復(fù)雜度分析的結(jié)論.因此可以看出,本文算法在處理醫(yī)療圖像數(shù)據(jù)集時(shí),與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,在精度上均有大幅度提升,而與一些主流的神經(jīng)網(wǎng)絡(luò)算法相比,本文算法在極大算短建模時(shí)間的基礎(chǔ)上也擁有良好表現(xiàn).

    表4 基于各算法的MedMNIST 數(shù)據(jù)集綜合訓(xùn)練結(jié)果Tab. 4 Comprehensive training results of MedMNIST data sets based on various algorithms

    3.3 基于STA-ELM 算法的回歸預(yù)測(cè)分析

    本節(jié)實(shí)驗(yàn)用STA-ELM、ELM、RELM、Adam-ELM和ADMM-ELM 算法分別對(duì)4 組UCI 數(shù)據(jù)庫中的數(shù)據(jù)集進(jìn)行回歸預(yù)測(cè), 4 組數(shù)據(jù)集的訓(xùn)練數(shù)、測(cè)試數(shù)和特征數(shù)如表5 所示.

    表5 4 個(gè)數(shù)據(jù)集的基本信息Tab. 5 Basic information of 4 classification data sets

    在每組數(shù)據(jù)集的實(shí)驗(yàn)中分別對(duì)5 種算法設(shè)置區(qū)間為[10∶10∶100]的隱藏層節(jié)點(diǎn)數(shù)目,分別記錄每種算法在不同節(jié)點(diǎn)下對(duì)測(cè)試樣本的均方根誤差. 實(shí)驗(yàn)結(jié)果如圖4 所示.

    從圖4 實(shí)驗(yàn)結(jié)果分析可知,5 種基于ELM 的算法在相同數(shù)據(jù)集上設(shè)置相同節(jié)點(diǎn)的情況下,STAELM 算法的均方根誤差都是最小的,并且可以看出,在節(jié)點(diǎn)較少的情況下,STA-ELM 算法仍有不錯(cuò)的擬合效果,而另外4 種算法會(huì)有較大的誤差. 同時(shí)可以觀察得出5 種算法在每個(gè)數(shù)據(jù)集上達(dá)到最小誤差的時(shí)候,STA-ELM 所用隱藏層節(jié)點(diǎn)數(shù)是最小的.

    圖4 5 種算法在不同隱藏層節(jié)點(diǎn)數(shù)下的實(shí)驗(yàn)結(jié)果Fig. 4 Experimental results of the five algorithms under different numbers of hidden layer nodes

    4 結(jié) 論

    本文提出一種基于狀態(tài)轉(zhuǎn)移算法的極限學(xué)習(xí)機(jī),該算法從精準(zhǔn)求解ELM 輸出權(quán)重矩陣的角度出發(fā),利用STA 算法進(jìn)行搜索,即保留ELM 網(wǎng)絡(luò)結(jié)構(gòu)和隨機(jī)性的優(yōu)點(diǎn),同時(shí)解決了ELM 建立模型精度較低的問題. 通過對(duì)10 組UCI 數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),證明了該算法相較于部分主流機(jī)器學(xué)習(xí)算法可以有效提高模型的測(cè)試精度,通過對(duì)MedMNIST 數(shù)據(jù)集的實(shí)驗(yàn)可知,該算法可以獲得比現(xiàn)有較為先進(jìn)的算法ResNet[50]更優(yōu)秀的建模精度,且極大地提升了建模的效率. 在對(duì)4 組UCI 數(shù)據(jù)集的回歸實(shí)驗(yàn)中,該算法可以利用很少的隱藏層節(jié)點(diǎn)訓(xùn)練出誤差較小的模型,做到了較為精準(zhǔn)的預(yù)測(cè)擬合,體現(xiàn)了STA-ELM 算法的優(yōu)秀學(xué)習(xí)建模性能.

    猜你喜歡
    學(xué)習(xí)機(jī)復(fù)雜度權(quán)重
    權(quán)重常思“浮名輕”
    一種低復(fù)雜度的慣性/GNSS矢量深組合方法
    極限學(xué)習(xí)機(jī)綜述
    為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
    基于極限學(xué)習(xí)機(jī)參數(shù)遷移的域適應(yīng)算法
    基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
    分層極限學(xué)習(xí)機(jī)在滾動(dòng)軸承故障診斷中的應(yīng)用
    求圖上廣探樹的時(shí)間復(fù)雜度
    某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
    出口技術(shù)復(fù)雜度研究回顧與評(píng)述
    宜丰县| 法库县| 遵义县| 崇文区| 济宁市| 鱼台县| 长岛县| 高平市| 湖口县| 宜良县| 城固县| 诏安县| 乌兰察布市| 景宁| 松阳县| 恩施市| 政和县| 丁青县| 章丘市| 新疆| 利辛县| 新昌县| 灵台县| 龙州县| 仁怀市| 阿尔山市| 云南省| 六枝特区| 彩票| 蒙山县| 苍溪县| 江达县| 河北省| 探索| 台南市| 胶南市| 安多县| 会昌县| 晋中市| 衡南县| 龙门县|