• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于ArcReLU函數(shù)的神經(jīng)網(wǎng)絡(luò)激活函數(shù)優(yōu)化研究

    2019-06-15 02:13:48許赟杰徐菲菲
    數(shù)據(jù)采集與處理 2019年3期
    關(guān)鍵詞:導(dǎo)數(shù)梯度均值

    許赟杰 徐菲菲

    (上海電力學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海,200090)

    引 言

    深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)[1]的研究,而激活函數(shù)更是人工神經(jīng)網(wǎng)絡(luò)模型在理解和學(xué)習(xí)非線性函數(shù)時(shí)不可或缺的部分。若不使用激活函數(shù),神經(jīng)網(wǎng)絡(luò)每一層的輸出都是上一層輸入的線性函數(shù),無(wú)論神經(jīng)網(wǎng)絡(luò)具有多少層,輸出皆為輸入的線性組合,該類情況就是最基本的感知機(jī)。因此需要使用激活函數(shù)為神經(jīng)元引入非線性因素,使神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù),這樣才能讓神經(jīng)網(wǎng)絡(luò)應(yīng)用到眾多的非線性模型中。本文則基于誤差反向傳播神經(jīng)網(wǎng)絡(luò),對(duì)常用激活函數(shù)進(jìn)行研究對(duì)比,而后對(duì)其不足之處進(jìn)行改進(jìn),以提高其最終的收斂速度和計(jì)算精度。在激活函數(shù)中最為常見的為Sigmoid系函數(shù)和ReLU系函數(shù)。

    Sigmoid函數(shù)[2]在Sigmoid系函數(shù)中最具代表性,其具有軟飽和性[3],即該函數(shù)在定義域內(nèi)處處可導(dǎo),但當(dāng)輸入值過大或過小時(shí),其斜率趨近于0,同時(shí)其導(dǎo)數(shù)也趨近于0,這將導(dǎo)致向底層傳遞時(shí)的梯度變得非常小。由于其在BP神經(jīng)網(wǎng)絡(luò)向下傳導(dǎo)的梯度內(nèi)包含了一個(gè)自身關(guān)于輸入的導(dǎo)數(shù)因子,一旦輸入落入飽和區(qū)之中,該因子將會(huì)接近于0,致使向底層傳遞的梯度變得極小,此時(shí),神經(jīng)網(wǎng)絡(luò)的參數(shù)很難得到有效的訓(xùn)練,即會(huì)出現(xiàn)梯度消失[4]現(xiàn)象。這一現(xiàn)象使得BP網(wǎng)絡(luò)一直難以得到有效的訓(xùn)練。同時(shí),由于基本沒有信號(hào)通過神經(jīng)元傳至權(quán)重再到輸入值,這時(shí)梯度在模型更新中將難以起到作用。這也導(dǎo)致了無(wú)法對(duì)參數(shù)進(jìn)行微調(diào),隨即影響到最終結(jié)果的精確值。這些也是阻礙神經(jīng)網(wǎng)絡(luò)進(jìn)一步發(fā)展的重要原因。

    Tanh函數(shù)[5]作為Sigmoid函數(shù)的一個(gè)變體,同樣存在軟飽和性的問題,但該函數(shù)以0點(diǎn)為中心,緩解了Sigmoid均值偏移的問題,同時(shí)提高了收斂速度。

    經(jīng)過學(xué)者們的研究,目前較為流行的神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為修正線性單元(ReLU)[6]。它首先被用于限制玻爾茲曼機(jī)器,然后成功應(yīng)用于神經(jīng)網(wǎng)絡(luò)。ReLU的導(dǎo)數(shù)在正軸部分恒為1,保持梯度不衰減,從而有效緩解了梯度消失的問題。該函數(shù)在反向傳播過程中能夠?qū)⑻荻雀玫貍鬟f給后層網(wǎng)絡(luò),同時(shí)計(jì)算速度更快。但其負(fù)軸部分會(huì)使其輸入值落入硬飽和區(qū),致使出現(xiàn)神經(jīng)元死亡的情況,然而這一現(xiàn)象可以減少參數(shù)間的相互依存關(guān)系,繼而緩解了過擬合問題的發(fā)生。另一方面,該函數(shù)也存在均值偏移的問題,即輸出均值恒大于0。

    指數(shù)線性單元(Exponential linear unit,ELU)[7]是ReLU的修正類激活函數(shù)。當(dāng)輸入值為負(fù)數(shù)時(shí),ELU輸出一個(gè)負(fù)值,這使得單元激活均值可以趨近于0,同時(shí)只需要更低的計(jì)算復(fù)雜度。ELU在輸入取較小值時(shí)具有軟飽和的特性,提升了對(duì)噪聲的魯棒性。

    本文通過對(duì)經(jīng)典的Sigmoid系和ReLU系激活函數(shù)的研究與分析,提出與Sigmoid系激活函數(shù)同為S型圖像的反正切函數(shù)(Arctan),分析其在BP神經(jīng)網(wǎng)絡(luò)中應(yīng)用的優(yōu)點(diǎn)和不足之處。最終提出構(gòu)想,通過結(jié)合ReLU函數(shù)和Arctan函數(shù),構(gòu)造出一種新型的激活函數(shù)ArcReLU。實(shí)驗(yàn)結(jié)果可以說明,一方面,ArcReLU函數(shù)相較于Sigmoid系和ReLU系函數(shù)具有更快的收斂速度并能有效地降低訓(xùn)練誤差,同時(shí)還能有效緩解梯度消失的問題,解決ReLU函數(shù)具有的硬飽和性,進(jìn)一步由于其負(fù)軸部分的導(dǎo)數(shù)趨于0的速度更慢,相較于Sigmoid系函數(shù)更為緩和,這一點(diǎn)使其負(fù)軸部分的飽和區(qū)間更為廣泛,學(xué)習(xí)效率也會(huì)得到提高。另一方面,其導(dǎo)數(shù)的計(jì)算相較于另外兩系的激活函數(shù)也將更為昂貴。

    1 背景知識(shí)

    1.1 ReLU函數(shù)

    ReLU函數(shù)有效地解決了Sigmoid系函數(shù)在神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,但從函數(shù)圖(圖1)中不難看出,該函數(shù)依舊存在均值偏移的問題。其定義如下

    從函數(shù)圖像及表達(dá)式中可以看出,當(dāng)x≥0時(shí),其導(dǎo)數(shù)值恒為1,因此,ReLU函數(shù)在x≥0時(shí)能夠保持梯度不衰減,可以有效緩解梯度消失的問題。ReLU函數(shù)在反向傳播過程中能夠?qū)⑻荻雀玫貍鬟f給后層網(wǎng)絡(luò),同時(shí)計(jì)算速度較快。當(dāng)x<0時(shí)該函數(shù)具有硬飽和性[2]。如果此時(shí)有輸入值落入該區(qū)域,則該神經(jīng)元的梯度將永遠(yuǎn)為0,其對(duì)應(yīng)權(quán)重也將無(wú)法更新,即出現(xiàn)神經(jīng)元死亡的情況,致使計(jì)算結(jié)果不收斂。由于一部分的神經(jīng)元輸出為0,減少了參數(shù)間的相互依存關(guān)系,這也有效緩解了過擬合問題的發(fā)生。而ReLU函數(shù)在x<0時(shí)輸出為0,使得整體輸出均值大于0,即存在均值偏移問題[6],這也在一定程度上造成了神經(jīng)網(wǎng)絡(luò)的稀疏特性。

    圖1 ReLU函數(shù)圖像Fig.1 Graph of function ReLU

    1.2 Arctan函數(shù)

    在圖像上與Sigmoid系函數(shù)相類似的Arctan函數(shù),輸出范圍在,其定義為

    Arctan函數(shù)圖像如圖2所示。從表達(dá)式和圖像中可以看出,Arctan函數(shù)具有軟飽和性,即會(huì)使BP神經(jīng)網(wǎng)絡(luò)出現(xiàn)梯度消失的現(xiàn)象。相較于其他Sigmoid系函數(shù),Arctan函數(shù)更為平緩,這使其比其他雙曲線更為清晰,也意味著該函數(shù)沒有Sigmoid和Tanh函數(shù)那么敏感,處于飽和度的區(qū)間范圍比這兩個(gè)函數(shù)更廣。同時(shí),其導(dǎo)數(shù)趨于0的速度更慢,這意味著學(xué)習(xí)效率更高,也能更好地緩解梯度消失的問題。然而,其導(dǎo)數(shù)的計(jì)算將比Tanh函數(shù)更加昂貴。

    圖2 Arctan函數(shù)圖像Fig.2 Graph of function Arctan

    2 基于ReLU函數(shù)的變體ArcReLU函數(shù)

    基于對(duì)上述經(jīng)典激活函數(shù)的研究及分析,結(jié)合ReLU函數(shù)以及Arctan函數(shù)的優(yōu)點(diǎn),為緩解ReLU函數(shù)神經(jīng)元死亡的問題,降低Arctan函數(shù)的計(jì)算消費(fèi),結(jié)合兩者構(gòu)造出一種新的ArcReLU激活函數(shù)。將ReLU函數(shù)輸入值小于0的部分替換為,在輸入值大于0的部分使用ReLU函數(shù)。在使用Arctan函數(shù)時(shí),為了限制其輸出范圍,將算子乘以,當(dāng)網(wǎng)絡(luò)進(jìn)入一些比較大的輸入值時(shí)也能保持穩(wěn)定。其定義如下

    ArcReLU函數(shù)圖像如圖3所示。由圖像上可以初步推斷,該函數(shù)在其定義域范圍內(nèi)可導(dǎo)且單調(diào)遞增,只需要證明該函數(shù)在0點(diǎn)處的可導(dǎo)性。以下證明過程中將x>0的部分稱為f1(x),x≤0的部分稱為f2(x),其證明如下

    圖3 ArcReLU函數(shù)Fig.3 Graph of function ArcReLU

    式(4)說明ArcReLU在0點(diǎn)有定義且連續(xù)。由于式(5)與式(6)的結(jié)果存在且相等,依據(jù)導(dǎo)數(shù)定義,該函數(shù)在0點(diǎn)處可導(dǎo)。即可得出ArcReLU的導(dǎo)數(shù)如下

    從式(7)可看出,ArcReLU函數(shù)的導(dǎo)函數(shù)值恒大于0。依據(jù)導(dǎo)數(shù)定義,可證明其為單調(diào)遞增函數(shù)。當(dāng)激活函數(shù)是單調(diào)的時(shí)候,單層網(wǎng)絡(luò)能夠保證為凸函數(shù)[8]。從而可以推斷出該函數(shù)在訓(xùn)練過程中將會(huì)更容易收斂。

    由于修正線性單元ReLU是分段線性的非飽和激活函數(shù),相比于傳統(tǒng)的S型激活函數(shù),具有更快的隨機(jī)梯度下降收斂速度,且計(jì)算簡(jiǎn)單。相比于Sigmoid系的激活函數(shù),ReLU更具稀疏性。但過分的稀疏性也會(huì)帶來(lái)更高的錯(cuò)誤率并降低模型的有效容量。如此構(gòu)造函數(shù),不僅保留了ReLU函數(shù)計(jì)算簡(jiǎn)單的優(yōu)點(diǎn),還使得負(fù)軸的值也得以保存,不至于全部丟失。在負(fù)軸使用Arctan函數(shù)進(jìn)行替代,不僅能夠使得均值更趨向于0,緩解均值偏移問題,而且其左側(cè)部分具備軟飽和性,使其不會(huì)出現(xiàn)神經(jīng)元死亡的現(xiàn)象,同時(shí)經(jīng)過上述證明也使新構(gòu)造的激活函數(shù)具備單調(diào)遞增的特性,進(jìn)一步提高其收斂速度。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)

    本文將分別在BP神經(jīng)網(wǎng)絡(luò)中使用ReLU函數(shù),ELU函數(shù)和ArcReLU函數(shù)進(jìn)行5次實(shí)驗(yàn),所使用的數(shù)據(jù)為UCI上的數(shù)據(jù)集。實(shí)驗(yàn)通過Python3.6語(yǔ)言編寫程序,在Windows 10操作系統(tǒng)下進(jìn)行。5組數(shù)據(jù)集分別是關(guān)于皮馬印第安人糖尿病的數(shù)據(jù)統(tǒng)計(jì),文件大小為23.4 KB,共768個(gè)對(duì)象;鳶尾花的分類,文件大小為1.74 KB,共100個(gè)對(duì)象;汽車評(píng)估,文件大小為25.3 KB,共1 728個(gè)對(duì)象;美國(guó)人口普查收入,90.5 KB,共4 751個(gè)對(duì)象;阿維拉數(shù)據(jù)集,文件大小為1.14 MB,共12 495個(gè)對(duì)象。5組數(shù)據(jù)集的數(shù)據(jù)格式分別如表1—5所示。表1—5中最右側(cè)的屬性在實(shí)驗(yàn)中分別作為決策屬性,取值均為0或1。

    通過3種函數(shù)在5組不同數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),能夠清晰地看出各激活函數(shù)的優(yōu)點(diǎn)與不足。本次實(shí)驗(yàn)使用10次10折交叉驗(yàn)證,在二層BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行測(cè)試。實(shí)驗(yàn)中學(xué)習(xí)率η經(jīng)測(cè)試取值0.01,循環(huán)次數(shù)設(shè)置為5 000次。同時(shí),考慮到BP神經(jīng)網(wǎng)絡(luò)存在局部最小點(diǎn),因此在BP網(wǎng)絡(luò)中加入了動(dòng)量項(xiàng),以此緩解局部最小點(diǎn)的出現(xiàn)并提高收斂速度。

    表1 皮馬印第安人糖尿病數(shù)據(jù)集Tab.1 Pima Indians diabetes data set

    表2 鳶尾花數(shù)據(jù)集Tab.2 Iris data set

    表3 汽車評(píng)估數(shù)據(jù)集Tab.3 Car evaluation data set

    表4 美國(guó)人口普查收入數(shù)據(jù)集Tab.4 Adult data set

    表5 阿維拉數(shù)據(jù)集Tab.5 Avila data set

    鑒于不同的評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,將會(huì)影響到數(shù)據(jù)分析的結(jié)果。為了消除指標(biāo)之間的量綱影響,在開始實(shí)驗(yàn)前對(duì)數(shù)據(jù)進(jìn)行了z-score標(biāo)準(zhǔn)化的預(yù)處理,使指標(biāo)的特征保持在相同范圍內(nèi),以解決數(shù)據(jù)指標(biāo)之間的可比性。為了直觀地比較各激活函數(shù)之間的訓(xùn)練時(shí)間和誤差率的差異,以下通過圖表的形式將實(shí)驗(yàn)結(jié)果進(jìn)行展示。

    3.2 皮馬印第安人糖尿病數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

    表6為3種函數(shù)在第1組數(shù)據(jù)集中的計(jì)算時(shí)間,從小到大的排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出在本次實(shí)驗(yàn)中ArcReLU的計(jì)算相較于另外兩個(gè)函數(shù)稍為昂貴。圖4顯示了各激活函數(shù)在本次實(shí)驗(yàn)中的收斂速度。從圖4可以看出實(shí)驗(yàn)過程中各函數(shù)的收斂速度從小到大排序?yàn)镽eLU<ELU<ArcReLU,由此進(jìn)一步驗(yàn)證前期理論證明的ArcReLU收斂速度高于另外兩種函數(shù)。

    表6 第1組數(shù)據(jù)集中各激活函數(shù)計(jì)算時(shí)間Tab.6 Calculating time of each activation function in the first data set

    圖5是3種激活函數(shù)的受試者工作特性曲線ROC比較圖,從圖中較難看出這3種激活函數(shù)的優(yōu)劣,因此需要通過求得ROC曲線下的面積值A(chǔ)UC進(jìn)行比對(duì)。圖中橫坐標(biāo)FPR表示將負(fù)例錯(cuò)分為正例的概率,縱坐標(biāo)TPR表示將正例分對(duì)的概率。各函數(shù)AUC值及分類精度均值如表7,8所示。從表7,8可以看出ArcReLU函數(shù)的AUC面積以及分類精度均大于ReLU以及ELU,由此可以得出,在當(dāng)前數(shù)據(jù)集中ArcReLU的分類效果優(yōu)于另外兩種函數(shù)。

    圖4 第1組數(shù)據(jù)集中各激活函數(shù)收斂速度比較圖Fig.4 Convergence rate comparison of each activation function in the first data set

    圖5 第1組數(shù)據(jù)集中各激活函數(shù)ROC比較圖Fig.5 ROC comparison of each activation function in the first data set

    表7 第1組數(shù)據(jù)集中各激活函數(shù)AUCTab.7 AUC comparison of each activation function in the first data set

    表8 第1組數(shù)據(jù)集中各激活函數(shù)分類精度均值Tab.8 Mean classification accuracy of each activation function in the first data set %

    3.3 鳶尾花數(shù)據(jù)集分類實(shí)驗(yàn)結(jié)果

    表9為3種函數(shù)在第2組數(shù)據(jù)集中的計(jì)算時(shí)間,從小到大的排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出在本次實(shí)驗(yàn)中ArcReLU的計(jì)算相較于另外兩個(gè)函數(shù)較為昂貴。圖6顯示了各激活函數(shù)在本次實(shí)驗(yàn)中的收斂速度。從圖6可以看出實(shí)驗(yàn)過程中各函數(shù)的收斂速度從小到大排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出ArcReLU的收斂速度高于另外兩種函數(shù)。

    圖7是3種激活函數(shù)的ROC比較圖,從圖中較難看出這3種激活函數(shù)的優(yōu)劣,因此通過計(jì)算ROC曲線下的面積值A(chǔ)UC進(jìn)行比對(duì),各函數(shù)AUC及分類精度均值如表10,11所示。從表10,11可以看出ArcReLU函數(shù)的AUC面積以及分類精度均大于ReLU以及ELU,由此可以得出,在當(dāng)前數(shù)據(jù)集中ArcReLU的分類效果優(yōu)于另外兩種函數(shù)。

    表9 第2組數(shù)據(jù)集中各激活函數(shù)計(jì)算時(shí)間Tab.9 Calculating time of each activation function in the second data set

    圖6 第2組數(shù)據(jù)集中各激活函數(shù)收斂速度比較圖Fig.6 Convergence rate comparison of each activation function in the second data set

    圖7 第2組數(shù)據(jù)集中各激活函數(shù)ROC比較圖Fig.7 ROC comparison of each activation function in the second data set

    3.4 汽車評(píng)估實(shí)驗(yàn)結(jié)果

    表12為3種函數(shù)在第3組數(shù)據(jù)集中的計(jì)算時(shí)間,從小到大的排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出在本次實(shí)驗(yàn)中ArcReLU的計(jì)算相較于另外兩個(gè)函數(shù)較為昂貴。圖8顯示了各激活函數(shù)在本次實(shí)驗(yàn)中的收斂速度。從圖8可以看出實(shí)驗(yàn)過程中各函數(shù)的收斂速度從小到大排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出ArcReLU的收斂速度高于另外兩種函數(shù)。

    圖9是3種激活函數(shù)的ROC比較圖,從圖中較難看出這3種激活函數(shù)的優(yōu)劣,因此通過計(jì)算ROC曲線下的面積值A(chǔ)UC進(jìn)行比對(duì)得出結(jié)論。各函數(shù)AUC及分類精度均值如表13,14所示。從表13,14可以看出ArcReLU函數(shù)的AUC面積以及分類精度均大于ReLU以及ELU,由此可以得出,在當(dāng)前數(shù)據(jù)集中ArcReLU的分類效果優(yōu)于另外兩種函數(shù)。

    表10 第2組數(shù)據(jù)集中各激活函數(shù)AUCTab.10 AUC comparison of each activation function in the second data set

    表11 第2組數(shù)據(jù)集中各激活函數(shù)分類精度均值Tab.11 Mean classification accuracy of each activation function in the second data set %

    表12 第3組數(shù)據(jù)集中各激活函數(shù)計(jì)算時(shí)間Tab.12 Calculating time of each activation function in the third data set

    3.5 美國(guó)人口普查收入實(shí)驗(yàn)結(jié)果

    表15為3種函數(shù)在第4組數(shù)據(jù)集中的計(jì)算時(shí)間,從小到大的排序?yàn)镽eLU<ArcReLU<ELU,由此可以得出在本次實(shí)驗(yàn)中ELU的計(jì)算相較于另外兩個(gè)函數(shù)較為昂貴。

    圖8 第3組數(shù)據(jù)集中各激活函數(shù)收斂速度比較圖Fig.8 Convergence rate comparison of each activation function in the third data set

    圖9 第3組數(shù)據(jù)集中各激活函數(shù)ROC比較圖Fig.9 ROC comparison of each activation function in the third data set

    表13 第3組數(shù)據(jù)集中各激活函數(shù)AUCTab.13 AUC comparison of each activation function in the third data set

    表14 第3組數(shù)據(jù)集中各激活函數(shù)分類精度均值Tab.14 Mean classification accuracy of each activation function in the third data set %

    這一結(jié)果與前3組的結(jié)果有所不同。由于每組實(shí)驗(yàn)都是在相同的運(yùn)行環(huán)境下計(jì)算的,從以上實(shí)驗(yàn)結(jié)果看,ELU適合數(shù)據(jù)量較小的計(jì)算,ArcReLU適合數(shù)據(jù)量大的計(jì)算。為了確認(rèn)隨著數(shù)據(jù)量的增減是否對(duì)ReLU函數(shù)的計(jì)算時(shí)間有影響,在3.6節(jié)中分別計(jì)算了5組實(shí)驗(yàn)中,ArcReLU相較于ELU的計(jì)算時(shí)間增量和ArcReLU相較于ReLU的計(jì)算時(shí)間增量,結(jié)果如表16所示。圖10顯示了各激活函數(shù)在本次實(shí)驗(yàn)中的收斂速度。從圖10可以看出實(shí)驗(yàn)過程中各函數(shù)的收斂速度從小到大排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出ArcReLU的收斂速度高于另外兩種函數(shù)。

    圖11是3種激活函數(shù)的ROC比較圖,從圖中較難看出這3種激活函數(shù)的優(yōu)劣,因此通過計(jì)算ROC曲線下的面積值A(chǔ)UC進(jìn)行比對(duì)得出結(jié)論。各函數(shù)AUC和分類精度均值如表17,18所示。從表17,18可以看出ArcReLU函數(shù)的AUC面積以及分類精度均大于ReLU以及ELU,由此可以得出,在當(dāng)前數(shù)據(jù)集中ArcReLU的分類效果優(yōu)于另外兩種函數(shù)。

    表15 第4組數(shù)據(jù)集中各激活函數(shù)計(jì)算時(shí)間Tab.15 Calculating time of each activation function in the fourth data set

    表16 各激活函數(shù)間計(jì)算時(shí)間增量的比較Tab.16 Comparisons of calculating time increments among activation functions

    圖10 第4組數(shù)據(jù)集中各激活函數(shù)收斂速度比較Fig.10 Convergence rate comparison of each activation function in the fourth data set

    3.6 阿維拉實(shí)驗(yàn)結(jié)果

    圖11 第4組數(shù)據(jù)集中各激活函數(shù)ROC比較Fig.11 ROC comparison of each activation function in the fourth data set

    表19為3種函數(shù)在第5組數(shù)據(jù)集中的計(jì)算耗時(shí),從小到大的排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出在本次實(shí)驗(yàn)中ArcReLU的計(jì)算相較于另外兩個(gè)函數(shù)較為昂貴。由于5組實(shí)驗(yàn)數(shù)據(jù)中第4組的實(shí)驗(yàn)結(jié)果較為不同,此處分別計(jì)算了5組實(shí)驗(yàn)中,ArcReLU相較于ELU的計(jì)算時(shí)間增量和ArcReLU相較于ReLU的計(jì)算時(shí)間增量,見表16。

    表17 第4組數(shù)據(jù)集中各激活函數(shù)AUCTab.17 AUC comparison of each activation function in the fourth data set

    表18 第4組數(shù)據(jù)集中各激活函數(shù)分類精度均值Tab.18 Mean classification accuracy of each activation function in the fourth data set %

    表19 第5組數(shù)據(jù)集中各激活函數(shù)計(jì)算時(shí)間Tab.19 Calculating time of each activation function in the fifth data set

    基于表6,9,12,15和表19中的各激活函數(shù)計(jì)算時(shí)間,可以得出結(jié)論,隨著數(shù)據(jù)集的增大,ArcReLU所需的計(jì)算時(shí)間也會(huì)增加,同時(shí)從實(shí)驗(yàn)結(jié)果可以看出三者之間的時(shí)間增量在逐步縮小。在后續(xù)的研究工作中,將添加更多不同的數(shù)據(jù)集,對(duì)相同的數(shù)據(jù)集反復(fù)進(jìn)行計(jì)算,排除單次實(shí)驗(yàn)的特殊性,從而進(jìn)行進(jìn)一步的研究。

    圖12顯示了各激活函數(shù)在本次實(shí)驗(yàn)中的收斂速度。從圖12可以看出實(shí)驗(yàn)過程中各函數(shù)的收斂速度從小到大排序?yàn)镽eLU<ELU<ArcReLU,由此可以得出ArcReLU的收斂速度高于另外兩種函數(shù)。

    圖13是3種激活函數(shù)的ROC比較圖,從圖中較難看出這3種激活函數(shù)的優(yōu)劣,因此通過計(jì)算ROC曲線下的面積值A(chǔ)UC,進(jìn)行比對(duì)得出結(jié)論。各函數(shù)AUC和分類精度均值如表20,21所示。從表20,21可以看出ArcReLU函數(shù)的AUC面積以及分類精度均大于ReLU以及ELU,由此可以得出,在當(dāng)前數(shù)據(jù)集中ArcReLU的分類效果優(yōu)于另外兩種函數(shù)。

    圖12 第5組數(shù)據(jù)集中各激活函數(shù)收斂速度比較Fig.12 Convergence rate comparison of each activation function in the fifth data set

    圖13 第5組數(shù)據(jù)集中各激活函數(shù)ROC比較Fig.13 ROC comparison of each activation function in the fifth data set

    表20 第5組數(shù)據(jù)集中各激活函數(shù)AUCTab.20 AUC comparison of each activation function in the fifth data set

    表21 第5組數(shù)據(jù)集中各激活函數(shù)分類精度均值Tab.21 Mean classification accuracy of each activation function in the fifth data set %

    從上述5組實(shí)驗(yàn)結(jié)果可以看出,雖然ArcReLU的計(jì)算時(shí)間略多于ReLU和ELU兩個(gè)函數(shù),但5次實(shí)驗(yàn)結(jié)果均說明其收斂速度、分類精度以及AUC面積高于其他兩種激活函數(shù)。同時(shí)也驗(yàn)證了Arctan函數(shù)由于導(dǎo)數(shù)趨于0的速度更為緩慢,因此當(dāng)輸入值落入負(fù)軸時(shí),ArcReLU函數(shù)的收斂速度高于另外兩個(gè)激活函數(shù),即該函數(shù)可以有效地減少訓(xùn)練誤差。

    4 結(jié)束語(yǔ)

    本文通過分析研究經(jīng)典的激活函數(shù),結(jié)合Arctan函數(shù)的性質(zhì),構(gòu)造出一種新的激活函數(shù)ArcReLU。隨后,通過5組不同的數(shù)據(jù)集,分別將該函數(shù)與兩種較為常用的ReLU系激活函數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。從結(jié)果可以看出,ArcReLU函數(shù)相較于另外兩個(gè)函數(shù),初始的累積誤差小,具有較快的收斂速度。伴隨著迭代次數(shù)的增加,ArcReLU函數(shù)將更快趨于平穩(wěn),進(jìn)一步說明它具有較好的收斂性并能有效地降低訓(xùn)練誤差。同時(shí),結(jié)合ReLU系函數(shù)的特性,ArcReLU函數(shù)能夠有效緩解梯度消失的問題。負(fù)軸部分為Arctan函數(shù),可以緩解ReLU函數(shù)的硬飽和性,進(jìn)一步由于Arctan函數(shù)更為緩和,使得負(fù)軸的飽和區(qū)間范圍相較于Sigmoid系函數(shù)更為廣泛。在實(shí)驗(yàn)中也能夠看出,ArcReLU的AUC值比另外兩個(gè)函數(shù)大,由此可見,ArcReLU的泛化性能優(yōu)于另外兩種函數(shù)。

    另外,由于ArcReLU函數(shù)負(fù)軸部分為Arctan函數(shù),三角函數(shù)在計(jì)算機(jī)中的運(yùn)算復(fù)雜度相當(dāng)于乘除法,而另外兩種激活函數(shù)的運(yùn)算復(fù)雜度僅相當(dāng)于加法運(yùn)算。因此理論上ArcReLU函數(shù)在計(jì)算消耗方面會(huì)略大于另外兩個(gè)激活函數(shù),所需的計(jì)算時(shí)間也就略長(zhǎng)。通過5組實(shí)驗(yàn)結(jié)果可以得出,隨著數(shù)據(jù)量的增加,ArcReLU的計(jì)算消耗也略為昂貴。下一步研究工作將對(duì)于ArcReLU的魯棒性進(jìn)行探討,從而確認(rèn)其是否適用于無(wú)監(jiān)督學(xué)習(xí)、多種分類結(jié)果的監(jiān)督學(xué)習(xí)或深度學(xué)習(xí)。另外,還會(huì)對(duì)其計(jì)算時(shí)間與數(shù)據(jù)集大小的關(guān)聯(lián)性進(jìn)行研究,通過添加不同的數(shù)據(jù)集,反復(fù)進(jìn)行實(shí)驗(yàn),從而確認(rèn)其是否有所關(guān)聯(lián)。

    猜你喜歡
    導(dǎo)數(shù)梯度均值
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    解導(dǎo)數(shù)題的幾種構(gòu)造妙招
    一種自適應(yīng)Dai-Liao共軛梯度法
    一類扭積形式的梯度近Ricci孤立子
    關(guān)于導(dǎo)數(shù)解法
    均值不等式失效時(shí)的解決方法
    導(dǎo)數(shù)在圓錐曲線中的應(yīng)用
    均值與方差在生活中的應(yīng)用
    關(guān)于均值有界變差函數(shù)的重要不等式
    對(duì)偶均值積分的Marcus-Lopes不等式
    金沙县| 富源县| 中江县| 方山县| 龙胜| 温泉县| 九龙坡区| 芷江| 溧阳市| 大城县| 禹州市| 区。| 临汾市| 谷城县| 天门市| 莱西市| 福泉市| 湾仔区| 蛟河市| 乳山市| 民县| 衡水市| 谷城县| 西城区| 博野县| 马公市| 博客| 运城市| 大洼县| 无极县| 长白| 寿阳县| 新疆| 石阡县| 固安县| 江阴市| 呼图壁县| 富川| 平塘县| 贵溪市| 稷山县|