• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度單峰梯形神經(jīng)網(wǎng)絡

      2018-12-04 02:13:24單傳輝
      計算機工程與應用 2018年23期
      關(guān)鍵詞:動作電位電位線性

      單傳輝

      北京工業(yè)大學 信息學部 計算機學院,北京 100124

      1 引言

      人工神經(jīng)網(wǎng)絡是受到組成動物大腦的生物神經(jīng)網(wǎng)絡的啟發(fā)而提出的一種模糊數(shù)學模型?;谏窠?jīng)網(wǎng)絡的深度學習已成為人工智能的一項強大技術(shù)。自Hinton等人[1]提出之后,已經(jīng)在圖像處理、音頻和自然語言處理等方面取得了巨大的成功[2-8],極大地影響了學術(shù)界和工業(yè)界。同時,以卷積神經(jīng)網(wǎng)絡為代表的神經(jīng)網(wǎng)絡受到了極大的關(guān)注。影響現(xiàn)代深層學習模型成功的關(guān)鍵因素之一是使用非飽和激活函數(shù)(例如ReLU)來取代飽和激活函數(shù)(例如sigmoid和tanh)。

      就目前的文獻來看,Jun Han等人詳細介紹了sigmoid激活函數(shù)的性質(zhì)[9],sigmoid激活函數(shù)具有軟飽和性,符合生物神經(jīng)元的生物特性。但是,梯度消失問題是sigmoid激活函數(shù)難以克服的。tanh激活函數(shù)也是一類具有軟飽和性的激活函數(shù)。Xavier等人[10]還進一步分析了sigmoid和tanh的飽和現(xiàn)象及其特點。類似地,tanh激活函數(shù)在深層神經(jīng)網(wǎng)絡中也存在梯度消失問題。修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)是一種稀疏非飽和的激活函數(shù),由Xavier等人提出[11]。ReLU激活函數(shù)是一種將正響應變?yōu)槠浔旧聿⒇擁憫優(yōu)?的逐元線性函數(shù),這不僅解決了梯度消失問題,還使得深度神經(jīng)網(wǎng)絡的收斂更快。然而,一旦梯度達到0,ReLU激活函數(shù)就會出現(xiàn)潛在的劣勢,即線性單元無法被激活。針對這個問題,Maas等人[12]提出了泄漏修正線性單元(Leaky ReLU,LReLU)激活函數(shù),將ReLU的負響應部分用線性函數(shù)代替。He等人[13]進一步將LReLU擴展到參數(shù)線性單元(Parametric Linear Unit,PLeLU)激活函數(shù),PLeLU是一種可以學習參數(shù)的修正線性單元。Clevert等人[14]提出了指數(shù)線性單元(Exponential Linear Unit,ELU)激活函數(shù)。相對于修正線性單元類型的激活函數(shù),ELU收斂更快,且更具有泛化性??墒?,在這兩種類型的激活函數(shù)之間還存在著表示空間的空隙,即對于激活函數(shù)的負響應部分,ReLU或PReLU能夠表示線性函數(shù)但不能表示非線性函數(shù),而ELU能表示非線性函數(shù)但不能表示線性函數(shù)。因此,Li等人[15]提出了多參數(shù)指數(shù)線性單元(Multiple Parametric Exponential Linear Unit,MPELU)激活函數(shù),MPELU能夠適當性地在修正線性單元和指數(shù)線性單元進行切換。為了能夠既學習凸函數(shù)又學習非凸函數(shù),Jin等人[16]提出了S形修正線性單元(S-shaped Rectified Linear Unit,SReLU),相對于其他激活函數(shù),例如ReLU、LReLU和PReLU,SReLU取得了很大的提高。

      神經(jīng)生物學研究表明,所有神經(jīng)細胞均有靜息電位[17],神經(jīng)細胞產(chǎn)生的所有電信號均疊加于靜息電位之上。神經(jīng)細胞產(chǎn)生的電信號分為兩大類。第一類是局部分級電位。動作電位(也稱為神經(jīng)活動)是第二類主要電信號。當刺激強度繼續(xù)增大并超過另一個較大閾值后,動作電位的幅度不變增大。顯然,ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)都不符合神經(jīng)細胞的這種生物特性,不可否認,ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)都取得了很好的效果。另外,刺激強度應該還具有第三個更大閾值,當刺激強度超過這個閾值后,動作電位的幅度為0。例如,人類的聽力是有范圍的,當物體的震動強度超過20 000 Hz后,什么也聽不見。ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)也不滿足這一點。因此,從ReLU激活函數(shù)著手,探究激活函數(shù)的上界響應問題,通過給ReLU激活函數(shù)設(shè)定上界,結(jié)合生物神經(jīng)元特性,提出了單峰梯形線性單元(Single-Peaked Trapezoid Linear Unit,SPTLU)激活函數(shù)。

      2 相關(guān)工作

      本文主要專注于深度神經(jīng)網(wǎng)絡的激活函數(shù),因此,只回顧該領(lǐng)域的相關(guān)工作。關(guān)于激活函數(shù)最近的工作是修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)[11],這是深度神經(jīng)網(wǎng)絡取得突破性進展的關(guān)鍵因素之一。ReLU激活函數(shù)對正輸入不做任何改變,將負輸入變?yōu)?。因此,避免了梯度消失問題,并增強了訓練更深神經(jīng)網(wǎng)絡的能力,sigmoid和tanh激活函數(shù)不能做到這一點。泄漏修正線性單元(Leaky ReLU,LReLU)激活函數(shù)是將ReLU的負響應部分乘以一個斜坡系數(shù)、正響應部分不變而得來的[12],這樣就避免了ReLU中的0梯度問題。He等人[13]發(fā)現(xiàn)損失函數(shù)關(guān)于斜坡的值是可微的,提出通過SGD來優(yōu)化斜坡的值,這種參數(shù)修正線性單元稱為PReLU。實驗表明PReLU比ReLU收斂更快,并能提高卷積神經(jīng)網(wǎng)絡的性能。為了同時學習凸函數(shù)和非凸函數(shù),Jin等人[16]提出了S形修正線性單元(S-shaped Rectified Linear Unit,SReLU)激活函數(shù),達到在凸函數(shù)與非凸函數(shù)之間的適當性切換。除了這些修正線性單元激活函數(shù)之外,Clevert等人[14]提出了新型的指數(shù)線性單元(Exponential Linear Unit,ELU)激活函數(shù),ELU在負響應部分與sigmoid激活函數(shù)類似,在正響應部分與ReLU激活函數(shù)類似。實驗證明ELU能夠使梯度更接近單位自然梯度,加快學習速度,提高網(wǎng)絡的性能。針對激活函數(shù)兩種表示類型之間的盲區(qū),Li等人[15]提出了多參數(shù)指數(shù)線性單元(MPELU)激活函數(shù)。MPELU激活函數(shù)可以在修正線性單元和指數(shù)線性單元激活函數(shù)之間進行選擇,并在CIFAR10/100數(shù)據(jù)集上取得了最優(yōu)的性能。

      3 生物神經(jīng)元的響應特點

      神經(jīng)生物學研究表明,所有神經(jīng)細胞均有靜息電位,即細胞內(nèi)相對于細胞外液為負性(不到100 mV)[17]。神經(jīng)細胞產(chǎn)生的所有電信號均疊加于靜息電位之上。有些信號使細胞膜去極化,使靜息電位減??;另一些使細胞膜超極化,使靜息電位增大。神經(jīng)細胞產(chǎn)生的電信號分為兩大類。第一類是局部分級電位。這些電位由外界的物理刺激所產(chǎn)生,例如,照射在眼中光感受器上的光;使耳中毛細胞發(fā)生形變的聲波;壓迫皮膚感覺神經(jīng)末梢的觸刺激;在突觸部位(神經(jīng)細胞及其靶細胞間的接頭)的活動。動作電位(也稱為神經(jīng)活動)是第二類主要電信號。當局部的分級電位達到足夠大使細胞膜去極化超過某一臨界水平(稱為閾值)時,動作電位產(chǎn)生。動作電位一旦產(chǎn)生,便迅速地進行長距離傳播。與局部的分級電位不同的是,發(fā)生在神經(jīng)元中的動作電位,其幅度和時程是固定不變的,就像電碼中的點一樣。信號通過視網(wǎng)膜的傳送過程可以歸納如下所示[17]:

      光→光感受器中的局部分級信號→雙機細胞中的分級信號→神經(jīng)節(jié)細胞中的分級電位→神經(jīng)節(jié)細胞中的動作電位→傳至高級中樞

      在上述過程中起重要作用的是動作電位。動作電位的一個重要特征是,它是一種觸發(fā)產(chǎn)生的、再生性的全或無事件。來自雙極細胞和無長突細胞的信號作用在神經(jīng)節(jié)細胞上,倘若其效應足以使該細胞達到閾值,就會產(chǎn)生動作電位。動作電位一旦產(chǎn)生,其幅度和時程將不由刺激的振幅和時程所決定。更大的刺激電流并不產(chǎn)生更大的動作電位;更長的刺激過程也并不使動作電位延長。如圖1所示,動作電位是一個幅度約0.1 V的短暫的電脈沖[18]。只有動作電位的全部序列完成后,另一個動作電位才能在同一位置引發(fā)。在每個動作電位之后,必然有一個安靜期(不應期),通常持續(xù)幾毫秒,在此期間不能引發(fā)第二個沖動,因此,動作電位可能達到的最大重復頻率受限于不應期。強度由放電的頻率來編碼。一種更有效的視覺刺激產(chǎn)生一個更大的局部電位,其結(jié)果是神經(jīng)節(jié)細胞的放電頻率更高,如圖2所示[19]。這一現(xiàn)象最初為Adrian所描述[20],他發(fā)現(xiàn),在皮膚的一條感覺神經(jīng)中,動作電位的放電頻率是刺激強度的一種度量。此外,Adrian還觀察到,施加于皮膚的刺激越強,會有更多的感覺纖維被激活。因此,對于坐骨神經(jīng)干,一根神經(jīng)纖維在受到閾值以上刺激產(chǎn)生動作電位不隨著刺激強度增大而增大,而坐骨神經(jīng)干是由許多神經(jīng)纖維組成的,在受到閾值以上刺激時,由于引起不同數(shù)目神經(jīng)纖維產(chǎn)生動作電位,隨著刺激強度增大,神經(jīng)纖維產(chǎn)生動作電位的數(shù)目也越多,動作電位的幅度也就越大,當全部神經(jīng)纖維都產(chǎn)生動作電位時,動作電位的幅度就不會增大了。故在一定范圍內(nèi),坐骨神經(jīng)干動作電位的幅度隨著刺激強度增大而增大。ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)符合隨著刺激強度的增加動作電位的幅度增大這一性質(zhì),但是它們不符合隨著刺激強度的進一步增加達到足夠大時動作電位的幅度不再變化這一性質(zhì)。因此,ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)并不完全符合生物學性質(zhì),雖然ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)都取得了很好的效果。而且,神經(jīng)元的頻率帶寬不是無限的,換句話說,生物體對外界的刺激不是無限響應、無限增加的。例如,人的聽力范圍是20~20 000 Hz;當光照強度特別亮時,人類的視覺根本什么都會看不到。因此,生物體對外界刺激的響應應該具有一個上界閾值,當超過這個上界閾值時,生物體便不再響應。但是,ReLU、LReLU、PLeLU、ELU、SReLU和MPELU激活函數(shù)在刺激強度繼續(xù)增加時響應趨向于無窮大。因此,它們不滿足生物學事實。

      圖1 動作電位示意圖(經(jīng)極化向細胞注入電流進行刺激,引起去極化反應;當去極化超過閾值時,引起全或無動作電位。在動作電位期間,神經(jīng)元內(nèi)部變正)

      圖2 視網(wǎng)膜神經(jīng)節(jié)細胞中動作電位頻率是強度的函數(shù)(經(jīng)微電極通去極化電流,產(chǎn)生局部電位;電流越大,局部電位越大,放電頻率越高)

      4 單峰梯形線性單元

      神經(jīng)生物學研究表明隨著外界物理刺激的逐步增大,達到激發(fā)動作電位閾值之后,動作電位隨后被激發(fā),單個動作電位的產(chǎn)生是全或者無的狀態(tài)。而一片生物組織擁有一片神經(jīng)細胞組織,對外界物理刺激的反應是隨著刺激強度的增大,達到激發(fā)閾值時,開始有響應;而后隨著刺激強度的繼續(xù)增大,響應越來越強烈;最后,刺激強度繼續(xù)增大,響應不變。之前關(guān)于激活函數(shù)的研究從來沒有考慮到刺激強度的上界閾值問題。基于生物體對外界刺激的響應特點和現(xiàn)象,也為了了解ReLU激活函數(shù)上界閾值的效果,為LReLU、PLeLU、ELU、SReLU和MPELU等改進激活函數(shù)上界閾值問題的研究提供思路和參考,本文提出了具有上界閾值的單峰梯形線性單元(Single-Peaked Trapezoid Linear Unit,SPTLU)激活函數(shù),它更符合生物神經(jīng)元特性。SPTLU函數(shù)的定義為式(1)所示:

      其中,常數(shù)γ>β>α>0,可以根據(jù)需要確定,SPTLU函數(shù)的圖像如圖3所示。擁有SPTLU激活函數(shù)性質(zhì)的神經(jīng)元稱為SPTLU神經(jīng)元。

      圖3 SPTLU函數(shù)示意圖

      SPTLU神經(jīng)元是在ReLU神經(jīng)元的基礎(chǔ)上,考慮生物對外界刺激擁有最大響應閾值而提出的。它符合生物神經(jīng)元隨著外界刺激低于響應閾值無響應,超過響應閾值響應逐漸增強,超過最大響應閾值后響應不變的特點。根據(jù)SPTLU神經(jīng)元的數(shù)學定義(1),式(1)中的x=0點稱為SPTLU神經(jīng)元的響應閾值,式(1)中的 x=α點稱為SPTLU神經(jīng)元的最大響應閾值,式(1)中的x=β點稱為SPTLU神經(jīng)元的最大響應終止閾值,式(1)中的x=γ點稱為SPTLU神經(jīng)元的最大無響應閾值。

      從數(shù)學上看,SPTLU激活函數(shù)是ReLU激活函數(shù)擁有上界響應的結(jié)果,從圖3可以看出,SPTLU和ReLU激活函數(shù)負響應部分相同,正響應部分不同。SPTLU激活函數(shù)在正響應部分,隨著外界刺激的增大,響應先是不斷增大,接著不變,隨后逐漸減小,最后為0不再變化,這與ReLU激活函數(shù)不同,ReLU激活函數(shù)在正響應部分,隨著外界刺激的增大,響應一直隨之增大。因此,通過設(shè)定ReLU激活函數(shù)的上界響應便可得到SPTLU激活函數(shù)。另外,需要注意的是,為了避免梯度消失問題,SPTLU激活函數(shù)在外界刺激達到最大響應終止閾值之后,SPTLU激活函數(shù)的響應依線性遞減。

      文獻[11]指出ReLU激活函數(shù)相較于sigmoid和tanh激活函數(shù)更加具有稀疏性,即當x<0時,ReLU激活函數(shù)的值為0,ReLU激活函數(shù)的有效部分全部集中在x>0的部分。文獻[11]進一步指出了ReLU函數(shù)稀疏性合理性及其好處。2001年,Attwell等人[21]基于大腦能量消耗的觀察學習,推測神經(jīng)元編碼工作方式具有稀疏性和分布性。2003年Lennie等人[22]估測大腦同時被激活的神經(jīng)元只有1%~4%,進一步表明神經(jīng)元工作的稀疏性。從信號方面看,即神經(jīng)元同時只對輸入信號的小部分選擇性響應,大量信號被刻意地屏蔽了。這樣可以更好地提高學習的精度,更好更快地提取稀疏特征。從這個角度來看,傳統(tǒng)的sigmoid函數(shù)同時近乎有一半的神經(jīng)元被激活,這不符合神經(jīng)科學的研究,而且此舉也給深度網(wǎng)絡訓練帶來巨大問題。ReLU激活函數(shù)滿足了網(wǎng)絡和神經(jīng)科學對稀疏性的一定要求,而SPTLU激活函數(shù)比ReLU激活函數(shù)更加稀疏,當x>γ之后SPTLU函數(shù)的值為0,比ReLU激活函數(shù)更加滿足網(wǎng)絡和神經(jīng)科學對稀疏性的要求。

      根據(jù)SPTLU激活函數(shù)的定義(1),其導數(shù)為:

      從式(2)中可以看出,SPTLU激活函數(shù)的導數(shù)比較容易求解。激活函數(shù)的飽和性對網(wǎng)絡的訓練起著至關(guān)重要的影響,關(guān)系到訓練過程中梯度是否合適,甚至梯度是否消失等問題。梯度消失問題是人工神經(jīng)網(wǎng)絡研究中很重要的問題,因此,激活函數(shù)飽和性的研究也備受關(guān)注。文獻[23]對激活函數(shù)的飽和性定義為:在定義域內(nèi)處處可導,且兩側(cè)導數(shù)逐漸趨近于0的激活函數(shù) f()x(即定義為軟飽和激活函數(shù);與極限的定義類似,飽和激活函數(shù)分為左飽和激活函數(shù)和右飽和激活函數(shù),左飽和激活函數(shù)定義為,右飽和激活函數(shù)定義為;與軟飽和激活函數(shù)相對的是硬飽和激活函數(shù),定義為當時,f′(x)=0,其中c為常數(shù)。根據(jù)這個定義,sigmoid和tanh激活函數(shù)都屬于軟飽和激活函數(shù);ReLU激活函數(shù)是一類左側(cè)硬飽和、右側(cè)不飽和的激活函數(shù),這也是ReLU激活函數(shù)獲得突破性效果的原因所在;LReLU激活函數(shù)是一類左側(cè)和右側(cè)均不飽和的激活函數(shù);SPTLU激活函數(shù)是一類左側(cè)硬飽和、右側(cè)硬飽和和中間不飽和的激活函數(shù)。在梯度消失問題上,SPTLU激活函數(shù)在不飽和區(qū)間內(nèi)繼承了ReLU激活函數(shù)的優(yōu)點。

      基于SPTLU激活函數(shù)可以構(gòu)造各種各樣的深層神經(jīng)網(wǎng)絡,稱這些網(wǎng)絡為深度SPTLU神經(jīng)網(wǎng)絡。比如,SPTLU與LeNet、LeNet7、VGG16和ResNet31結(jié)合產(chǎn)生SPTLU-LeNet、SPTLU-LeNet7、SPTLU-VGG16和SPTLU-ResNet31。下面通過對比實驗分別檢驗這些網(wǎng)絡的效果。

      5 實驗研究

      本章利用LeNet、LeNet7、VGG16和ResNet31網(wǎng)絡做了5組對比實驗,每組實驗數(shù)據(jù)都不同,這5個數(shù)據(jù)集分別為MNIST、Fashion-MNIST、SVHN、CALTECH101和CIFAR10,其中,MNIST和Fashion-MNIST數(shù)據(jù)集均利用LeNet進行訓練。每組實驗都有一個參照組和多個實驗組構(gòu)成,參照組是ReLU與上述網(wǎng)絡結(jié)合產(chǎn)生的網(wǎng)絡,分別為:ReLU-LeNet、ReLU-LeNet7、ReLU-VGG16和ReLU-ResNet31。參照組與實驗組的不同之處只在于激活函數(shù)的不同,參照組的激活函數(shù)為ReLU激活函數(shù),實驗組的激活函數(shù)為SPTLU激活函數(shù),網(wǎng)絡其余設(shè)置均相同。另外,實驗組包括SPTLU激活函數(shù)中不同參數(shù)α、β和γ的實驗,對于不同的數(shù)據(jù)集,α、β和γ的取值不同,并給出多個不同α、β和γ的實驗結(jié)果。所有實驗組中,設(shè)定為2,即,因此,α、β和γ三者中只要其中兩個參數(shù)確定,便可確定第三個參數(shù)。實驗中,通過事先確定好α和β,然后計算出γ。下面介紹這些網(wǎng)絡及其實驗結(jié)果。

      LeNet包含2個卷積層、2個池化層、2個全連接層和輸出層,使用MNIST數(shù)據(jù)集。MNIST數(shù)據(jù)集擁有7萬幅28×28的灰度圖像,共分10類,由Yann LeCun和Corinna Cortes收集而來,其中包含6萬幅訓練圖像,1萬幅測試圖像。SPTLU-LeNet與ReLU-LeNet對比實驗結(jié)果如表1所示,該結(jié)果是在4×NVIDIA Tesla K40c上經(jīng)過20遍訓練后的結(jié)果。從表1中可以看出,ReLU-LeNet的準確率為99.30%,SPTLU-LeNet中的α、β和γ的取值為1.50-1.75-2.50、1.50-2.00-2.75、1.50-2.25-3.00、1.50-2.50-3.25和1.50-2.75-3.50,準確率均為99.30%??梢钥闯觯琒PTLU-LeNet準確率與ReLU-LeNet準確率相等,SPTLU達到與ReLU同等效果。

      表1 SPTLU-LeNet與ReLU-LeNet的對比實驗(MNIST)

      Fashion-MNIST數(shù)據(jù)集擁有7萬幅28×28的灰度圖像,共分10類,由Zalando研究所的Han Xiao收集而來,其中包含6萬幅訓練圖像,1萬幅測試圖像,F(xiàn)ashion-MNIST數(shù)據(jù)集的目的是將MNIST數(shù)據(jù)集替換為機器學習算法的良好檢測器。SPTLU-LeNet與ReLU-LeNet對比實驗結(jié)果如表2所示,該結(jié)果是在4×NVIDIA Tesla K40c上經(jīng)過20遍訓練后的結(jié)果。從表2中可以看出,ReLU-LeNet的準確率為91.90%,SPTLU-LeNet中的α、β 和 γ 的取值為1.50-1.75-2.50、1.50-2.00-2.75、1.50-2.25-3.00、1.50-2.50-3.25和1.50-2.75-3.50,準確率分別為91.90%、92.20%、91.90%、91.70%和91.80%。可以看出,α、β 和 γ在取值為1.50-1.75-2.50、1.50-2.00-2.75和1.50-2.25-3.00時準確率超過或與ReLU-LeNet準確率持平。特別地,在α、β和γ取值為1.50-2.00-2.75時準確率最高,為92.20%,SPTLU-LeNet比ReLU-LeNet準確率高出0.30%,SPTLU取得了比ReLU更好的效果。

      LeNet7包含4個卷積層、4個池化層、2個全連接層和輸出層,使用的數(shù)據(jù)集是SVHN數(shù)據(jù)集。SVHN數(shù)據(jù)集的訓練集和測試集共有46 470幅32×32的彩色門牌號圖像,共分10類,是來自谷歌街景視圖(Google StreetView)的房屋數(shù)量,其中包含33 402幅訓練圖像,13 068幅測試圖像。SVHN數(shù)據(jù)集還有驗證集圖像,這里沒有使用。SPTLU-LeNet7和ReLU-LeNet7對比實驗結(jié)果如表3所示,該結(jié)果是在4×NVIDIA Tesla K40c上經(jīng)過10萬步訓練后的結(jié)果。從表3中可以看出,ReLU-LeNet7的準確率為89.91%,SPTLU-LeNet7中的α、β和γ的取值為5.00-5.50-8.00、6.00-6.50-9.50、7.00-8.25-11.75、8.00-8.50-12.50和9.00-10.25-15.25,準確率分別為89.78%、89.84%、90.05%、90.34%、90.22%和90.33%??梢钥闯觯?、β 和 γ 的取值在7.00-8.25-11.75、8.00-8.50-12.50和9.00-10.25-15.25時準確率超過ReLU-LeNet7準確率。特別地,α、β和γ取值為8.00-8.50-12.50時準確率最高,為90.34%,SPTLU-LeNet7比ReLU-LeNet7高出0.43%,SPTLU取得了比ReLU更好的效果。

      表2 SPTLU-LeNet與ReLU-LeNet的對比實驗(Fashion-MNIST)

      表3 SPTLU-LeNet7和ReLU-LeNet7的對比實驗

      VGG16包含13個卷積層、5個池化層、2個全連接層和輸出層,使用的數(shù)據(jù)集是CALTECH101數(shù)據(jù)集。CALTECH101數(shù)據(jù)集擁有9 087幅大小不一的彩色圖像,共分101類,由Lifeifei收集而來,其中包含7 579幅訓練圖像,1 508幅測試圖像。SPTLU-AlexNet和ReLU-AlexNet對比實驗結(jié)果如表4所示,該結(jié)果是在4×NVIDIA Tesla K40c上經(jīng)過2萬步訓練后的結(jié)果。從表4中可以看出,ReLU-VGG16的準確率為52.00%,SPTLU-AlexNet中的α、β和γ的取值為3.00-3.25-4.75、4.00-4.24-6.25、5.00-5.25-7.75、5.00-5.50-8.00和 6.00-6.25-9.25,準確率分別為48.10%、50.80%、54.50%、52.70%和53.90%??梢钥闯?,α、β和γ的取值在5.00-5.25-7.75、5.00-5.50-8.00和6.00-6.25-9.25時準確率超過ReLU-VGG16準確率。特別地,α、β和γ取值為5.00-5.25-7.75時準確率達到最高,為54.50%,SPTLU-VGG16比ReLU-VGG16高出2.50%,SPTLU取得了比ReLU更好的效果。

      表4 SPTLU-VGG16和ReLU-VGG16的對比實驗

      ResNet31包含15個殘差模塊(每個模塊2個卷積層)和輸出層,共31層,使用的數(shù)據(jù)集是CIFAR10數(shù)據(jù)集。CIFAR10數(shù)據(jù)集擁有6萬幅32×32的彩色圖像,共分為10類,由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集而來,其中包含5萬幅訓練圖片,1萬幅測試圖片。SPTLU-ResNet31和ReLU-ResNet31的對比實驗結(jié)果如表5所示,該結(jié)果是在4×NVIDIA Tesla K40c上經(jīng)過8萬步訓練后的結(jié)果。從表5中可以看出,ReLUResNet31的準確率為92.00%,SPTLU-ResNet31中的α、β 和 γ 的取值為2.500-2.750-4.000、2.500-3.000-4.250、2.500-3.250-4.500、2.750-3.375-4.750和 2.750-3.875-5.250,準確率分別為94.00%、94.40%、92.00%、91.20%和91.20%??梢钥闯?,α、β和γ的取值在2.500-2.750-4.000、2.500-3.000-4.250和2.500-3.250-4.500時準確率超過ReLU-VGG16準確率。特別地,α、β和γ取值為2.500-3.000-4.250時準確率達到最高,為94.40%,SPTLUResNet31比ReLU-ResNet31高出2.40%,SPTLU取得了比ReLU更好的效果。

      表5 CIFAR10數(shù)據(jù)集ReLU和SPTLU激活函數(shù)的對照實驗

      注意:(1)從表1~5中可以看出,在α取值固定時,隨著α和β二者之間差值的增大,基于SPTLU激活函數(shù)構(gòu)成的網(wǎng)絡的準確率先是隨之增大,然后又隨之下降,尤其表現(xiàn)在表2、3和5中。因此,α和β之間差值設(shè)定要適中。(2)從表1~5中可以看出,SPTLU激活函數(shù)在α、β和γ取值偏大時才取得與ReLU激活函數(shù)相當或者更優(yōu)的效果,這與網(wǎng)絡的卷積核的大小和網(wǎng)絡有無使用局部響應歸一化或者批歸一化(Batch Normalization)有關(guān)。如果卷積核偏小,SPTLU激活函數(shù)達到與ReLU激活函數(shù)相當或者更優(yōu)效果時的α、β和γ偏小,反之偏大。如果網(wǎng)絡中使用了局部響應歸一化或者批歸一化,SPTLU激活函數(shù)達到與ReLU激活函數(shù)相當或者更優(yōu)效果時的α、β和γ也偏小,反之偏大。

      6 結(jié)束語

      從理論上來說,SPTLU激活函數(shù)解決了現(xiàn)存的人工神經(jīng)網(wǎng)絡對刺激響應的無上界問題,并符合生物神經(jīng)元的響應特性,修正了ReLU激活函數(shù)的無界響應問題和生物響應特性問題。從實驗上來說,SPTLU激活函數(shù)也完全可以達到和超越ReLU激活函數(shù)的性能,且由SPTLU激活函數(shù)所引起的計算量和存儲空間占用可以忽略不計(ReLU和SPTLU激活函數(shù)的本身計算復雜度都是O(1)(有限步內(nèi)計算完成),在整個網(wǎng)絡中二者的計算復雜度都是O(n);SPTLU激活函數(shù)的空間復雜度相對于ReLU激活函數(shù)的空間復雜度,只在算法本身所占用的存儲空間和運行過程中臨時占用的存儲空間略高,輸入輸出數(shù)據(jù)占用的存儲空間均相同,二者本身的空間復雜度都是O(1)(有限參數(shù)存儲),在整個網(wǎng)絡中二者的計算復雜度都是O(n)。)??傊?,SPTLU激活函數(shù)繼承了ReLU激活函數(shù)的優(yōu)點,比如稀疏性表示、選擇性響應和一定程度上解決深層網(wǎng)絡梯度消失問題,且符合生物神經(jīng)元響應特性。同時,SPTLU激活函數(shù)比ReLU激活函數(shù)更加靈活,可以通過調(diào)整參數(shù)α、β和γ使得網(wǎng)絡達到更好性能??梢哉f,SPTLU激活函數(shù)優(yōu)于ReLU激活函數(shù)。當然,SPTLU激活函數(shù)也有一定的局限性,比如,SPTLU激活函數(shù)需要調(diào)整適當參數(shù)α、β和γ能夠超越ReLU激活函數(shù)的性能。但是,這個適當?shù)膮?shù)α、β和γ本文并沒有給出具體公式進行求解,需要通過實驗進行逐步嘗試。對于這個問題也可以進一步研究。當然,本文意在介紹SPTLU這類帶有上界閾值并符合生物神經(jīng)元響應特性的激活函數(shù)。另外,本文的工作也為LReLU、PLeLU、ELU、SReLU和MPELU等改進激活函數(shù)上界閾值問題的研究提供思路和參考。

      猜你喜歡
      動作電位電位線性
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      電位滴定法在食品安全檢測中的應用
      線性回歸方程的求解與應用
      二階線性微分方程的解法
      電鍍廢水處理中的氧化還原電位控制
      淺談等電位聯(lián)結(jié)
      細說動作電位
      肉豆蔻揮發(fā)油對缺血豚鼠心室肌動作電位及L型鈣離子通道的影響
      蛇床子提取液對離體蟾蜍坐骨神經(jīng)動作電位的影響
      柴胡桂枝湯對離體蟾蜍坐骨神經(jīng)動作電位的影響
      涟水县| 锡林郭勒盟| 绥德县| 漳州市| 荃湾区| 达拉特旗| 蛟河市| 柞水县| 邛崃市| 香河县| 荥阳市| 凤台县| 芦溪县| 来凤县| 吐鲁番市| 泽州县| 监利县| 吴堡县| 林州市| 正宁县| 富蕴县| 久治县| 乐至县| 绥阳县| 辉县市| 大城县| 托克逊县| 雷州市| 垦利县| 涞源县| 通海县| 汉阴县| 治县。| 屏南县| 佛学| 信宜市| 剑河县| 丘北县| 桃源县| 自治县| 民乐县|