劉 海, 劉波,胡 瑜*
近年來卷積神經(jīng)網(wǎng)絡(luò)技術(shù)在諸多領(lǐng)域取得了突破性成果,例如計算機視覺和醫(yī)學(xué)圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)的物體分類和物體檢測能力,甚至超越了人類水平.卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層和激活層三部分構(gòu)成,其中激活函數(shù)處于激活層中,是實現(xiàn)網(wǎng)絡(luò)非線性表達能力的關(guān)鍵組件.激活函數(shù)作用于卷積層產(chǎn)生的特征圖,得到相應(yīng)的激活圖,激活圖中包含大量的像素點,不同的像素點處于不同的激活狀態(tài).因此設(shè)計適當(dāng)?shù)募せ詈瘮?shù),為處于不同激活狀態(tài)下的像素點提供適當(dāng)?shù)奶荻软憫?yīng),是提高卷積神經(jīng)網(wǎng)絡(luò)性能的重要方法.
按照是否能夠通過學(xué)習(xí)訓(xùn)練提高激活函數(shù)性能進行劃分,現(xiàn)有激活函數(shù)可分為:自適應(yīng)激活函數(shù)和非自適應(yīng)激活函數(shù).自適應(yīng)激活函數(shù)包含一定數(shù)量的可學(xué)習(xí)參數(shù),能夠從輸入數(shù)據(jù)中學(xué)習(xí)出最恰當(dāng)?shù)膮?shù),而非自適應(yīng)激活函數(shù)只對卷積層產(chǎn)生的特征圖進行激活變換,所有變換過程均是固定不變的.
激活函數(shù)的發(fā)展起始于非自適應(yīng)激活函數(shù).最初的Sigmoid激活函數(shù)[1]被廣泛應(yīng)用于各種卷積神經(jīng)網(wǎng)絡(luò)中.但隨著網(wǎng)絡(luò)深度的增加,Sigmoid激活函數(shù)容易造成梯度消失和梯度爆炸.ReLU激活函數(shù)[2]雖然能夠緩解Sigmoid激活函數(shù)面臨的梯度消失和梯度爆炸問題,提升了網(wǎng)絡(luò)的收斂速度,然而ReLU激活函數(shù)在負值域中梯度為零,導(dǎo)致在網(wǎng)絡(luò)中存在一定數(shù)量的失效神經(jīng)單元,為此Leaky ReLU(LReLU)[3]、RReLU[4]、ELU[5]和Swish[6]等激活函數(shù)被相繼提出,以增加負值域中的梯度響應(yīng).不同于上述的非自適應(yīng)激活函數(shù),文獻[7]提出了梯度截斷策略,一定程度上為不同激活程度的像素點提供了具有差異性的梯度響應(yīng).
相比于非自適應(yīng)激活函數(shù),自適應(yīng)激活函數(shù)由于能夠從輸入數(shù)據(jù)中學(xué)習(xí)部分可變參數(shù),因而對數(shù)據(jù)具有更好的適應(yīng)性.具有代表性的自適應(yīng)激活函數(shù)包括PReLU[8]和GReLU[9].其中GReLU為不同激活程度的像素點采取了差異性的梯度響應(yīng).
本文方法也是直接針對不同激活程度像素點的梯度響應(yīng)這一問題,提出了多斜率自適應(yīng)激活函數(shù)(Multi-Slope Adaptive Activation Function, MReLU).與現(xiàn)有激活函數(shù)相比,本文所提MReLU具有以下兩大優(yōu)勢.第一:MReLU通過增加可學(xué)習(xí)參數(shù),為處于不同激活程度的像素點提供自適應(yīng)梯度響應(yīng)函數(shù).第二:多斜率自適應(yīng)激活函數(shù)包含有限個跳躍間斷點,為激活函數(shù)提供了更高的靈活度,使該激活函數(shù)能更好為處于不同激活程度的像素點提供恰當(dāng)?shù)奶荻软憫?yīng).
本文的結(jié)構(gòu)如下:第一部分詳細討論激活圖中像素點激活程度的分布情況,第二部分詳細解釋多斜率自適應(yīng)激活函數(shù)并與已有激活函數(shù)進行分析對比,第三部分通過實驗對比本文提出的激活函數(shù)與現(xiàn)有激活函數(shù)的在圖像分類任務(wù)上的性能,并討論不同配置對于該激活函數(shù)的影響,最后第四部分給出本文主要結(jié)論和進一步的研究方向.
卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層和激活層三部分構(gòu)成,其中激活層是卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)非線性特征提取功能的主要組件.通過激活函數(shù),激活層對卷積層的輸出特征圖進行非線性變換,得到對應(yīng)的激活圖.以Network in Network(NIN)[10]網(wǎng)絡(luò)位于第三層的卷積層所采用的ReLU激活函數(shù)為例,當(dāng)NIN網(wǎng)絡(luò)對CIFAR-10[11]數(shù)據(jù)集進行分類時,第三層卷積層所輸出的特征圖經(jīng)由ReLU激活函數(shù)后得到對應(yīng)的激活圖,如圖1所示.圖1中的左圖是第三層卷積層所輸出的特征圖,右圖是通過ReLU激活函數(shù)得到的激活圖.各個小圖右側(cè)的圖例標(biāo)識出了圖中顏色和數(shù)值的對應(yīng)關(guān)系.
圖2 NIN網(wǎng)絡(luò)中第三個卷積層特征圖分別利用ReLU和MReLU函數(shù)得到對應(yīng)的激活圖,激活圖中激活值的分布統(tǒng)計Fig.2 The third convolutional layer feature map in the NIN network uses ReLU and MReLU functions to obtain corresponding activation maps. The distribution statistics of activation values in activation maps.
由圖1可見,在左側(cè)特征圖中,像素的取值范圍為[-60,45],而在右側(cè)激活圖中,像素的取值范圍為[0,32],這意味著不同像素點處于強弱不同的激活狀態(tài).然而從ReLU函數(shù)的表達式可見(詳見表1第2行第2列),ReLU函數(shù)對所有正激活狀態(tài)的像素點提供了相同的梯度響應(yīng).這一特性使得網(wǎng)絡(luò)無法對處于不同激活程度的像素點提供具有差異的梯度響應(yīng),即不能夠讓處于弱激活程度的像素點具有較多機會獲得更高程度的激活,如圖2所示.
圖2中對比了將ReLU和本文提出的MReLU激活函數(shù)用于NIN網(wǎng)絡(luò)時,在CIFAR-10數(shù)據(jù)集上,NIN網(wǎng)絡(luò)第三層激活圖中像素點的激活值分布情況.圖2中的數(shù)據(jù)來自于對1024張輸入圖片(每張輸入圖片在該激活層中有96個通道對應(yīng)96張激活圖)像素點激活值分布的統(tǒng)計.圖中橫坐標(biāo)表示對應(yīng)的激活值區(qū)間,縱坐標(biāo)表示對應(yīng)區(qū)間上的像素點個數(shù).其中藍色柱狀圖表示的是ReLU激活函數(shù)的激活分布,紅色柱狀圖表示的是MReLU激活函數(shù)的激活分布.
圖3展示了ReLU族(ReLU,PReLU,LReLU,RReLU),ELU,SELU[12],Swish激活函數(shù)及其導(dǎo)函數(shù),圖中藍色線條表示激活函數(shù),橙色線條表示該激活函數(shù)的導(dǎo)函數(shù).由圖可見,上述激活函數(shù)的導(dǎo)函數(shù)均接近常函數(shù),說明上述激活函數(shù)無法有效地為處于不同激活程度的像素點提供有效的差異梯度響應(yīng).雖然有研究結(jié)合了神經(jīng)網(wǎng)絡(luò)自動搜索技術(shù)[13]為網(wǎng)絡(luò)選擇適當(dāng)?shù)募せ詈瘮?shù),然而其函數(shù)空間為已有激活函數(shù)的集合,無法得出能夠為不同激活程度像素點提供差異梯度響應(yīng)的新型激活函數(shù).
圖3 常見激活函數(shù)及其導(dǎo)函數(shù)圖像Fig.3 Various activation functions and their derivatives
本文針對這一問題提出了多斜率自適應(yīng)激活函數(shù)MReLU,該激活函數(shù)能夠從數(shù)據(jù)中學(xué)習(xí)出適當(dāng)?shù)奶荻软憫?yīng),為不同激活程度的像素點提供更加適合的梯度響應(yīng).
網(wǎng)絡(luò)激活圖中不同像素點處于不同的激活狀態(tài),若對不同的像素點采用同等的梯度響應(yīng),就意味著這些像素點得到同等的增強程度(激活值位于正區(qū)間的像素點)或削弱程度(激活值位于負區(qū)間的像素點).然而像素點的增強程度和削弱程度,如果被人為地統(tǒng)一固定,則很難有效提升網(wǎng)絡(luò)性能,因此我們設(shè)計了多斜率自適應(yīng)激活函數(shù).
多斜率自適應(yīng)激活函數(shù)MReLU的定義如下:
其中,k1,…,kn為可學(xué)習(xí)的斜率參數(shù),A1,…,An為n個互不相交的實數(shù)區(qū)間,其并集為整個實數(shù)域.任意像素點輸入到該激活函數(shù)中,依據(jù)激活值的大小,唯一地映射到某一區(qū)間中,并獲得對應(yīng)的梯度響應(yīng).MReLU在各個區(qū)間中使用線性函數(shù)作為梯度響應(yīng)函數(shù),簡化了激活函數(shù)的計算復(fù)雜度,同時簡化了激活函數(shù)的梯度計算,其導(dǎo)函數(shù)定義如下:
其中,k1,…,kn為可學(xué)習(xí)的斜率參數(shù),A1,…,An為n個互不相交的實數(shù)區(qū)間,其并集為整個實數(shù)域.相比與現(xiàn)有激活函數(shù),MReLU激活函數(shù)雖然增加了少量的可學(xué)習(xí)參數(shù),但其反向傳播過程簡單,依然是一個輕量的激活函數(shù).
圖4給出了MReLU函數(shù)的一個具體示例.圖中的函數(shù)示例指定了((-∞,-7),(-7,-3),(-3,-1),(-1,0),(0,1),(1,3),(3,7),(7,+∞))八個不同的區(qū)間,每個區(qū)間上對應(yīng)的斜率為(0.1, 0.25, 0.5, 1.0, 1.0, 0.5, 0.25, 0.1).圖中的虛線表示了MReLU函數(shù)中包含的跳躍間斷點.
圖4的示例展示了MReLU函數(shù)的兩大特性——第一:該函數(shù)包含有限的跳躍間斷點,為每個區(qū)間上的函數(shù)選擇提供了更大的靈活性,同時也能自適應(yīng)地為不同區(qū)間上的像素點提供對應(yīng)的梯度響應(yīng).第二:該函數(shù)在不同區(qū)間上具有非單調(diào)性,該特性使得像素點在激活前后的有序性將會被一定程度的破壞,改變了常見激活函數(shù)單調(diào)遞增的特性,為低激活像素點提供了更多的機會獲得更高程度的激活,同時對高激活像素點具有一定的抑制作用,這一特性有助于網(wǎng)絡(luò)將更多的注意力集中到需要被提升的像素點之上.
圖4 MReLU函數(shù)示例,分段區(qū)間為((-∞,-7),(-7,-3),(-3,-1),(-1,0),(0,1),(1,3),(3,7),(7,+∞)),各區(qū)間斜率為(0.1, 0.25, 0.5, 1.0, 1.0, 0.5, 0.25, 0.1)Fig.4 Example of MReLU function, and the segment interval is specified as ((-∞,-7),(-7,-3),(-3,-1),(-1,0),(0,1), (1,3), (3,7), (7,+∞)), and the corresponding slope of each interval is(0.1,0.25,0.5,1.0,1.0,0.5, 0.25,0.1)
依據(jù)激活函數(shù)中是否包含可學(xué)習(xí)參數(shù),可將激活函數(shù)分為兩大類型:自適應(yīng)激活函數(shù)和非自適應(yīng)激活函數(shù).本文所提的MReLU屬于自適應(yīng)激活函數(shù).表1對比了非自適應(yīng)激活函數(shù)ReLU,Leaky ReLU/RReLU,ELU,SELU,Swish和BReLU,以及自適應(yīng)激活函數(shù)PReLU、GReLU和本文所提MReLU的差異和特性.其中ReLU只有正值域中的梯度,因此容易導(dǎo)致網(wǎng)絡(luò)中存在失效神經(jīng)單元.Leaky ReLU和RReLU通過引入一個非學(xué)習(xí)數(shù)值,在ReLU的基礎(chǔ)上增加了一個負值域上的線性梯度響應(yīng).ELU/SELU則通過引入一個非線性函數(shù)來提供負值域中的梯度響應(yīng).Swish改進了Sigmoid函數(shù),緩解了右側(cè)區(qū)間上的梯度飽和.非自適應(yīng)激活函數(shù)通常靈活性較低,無法充分利用數(shù)據(jù)中的信息,也無法為處于不同激活程度的像素點提供特定的梯度響應(yīng).
不同于其他的激活函數(shù),BReLU和GReLU這兩種激活函數(shù)均一定程度上考慮了為不同激活程度的像素點提供不同的梯度響應(yīng).相比于BReLU和GReLU,本文提出激活函數(shù)具有兩大優(yōu)勢——第一:引入跳躍間斷點,讓每個區(qū)間中激活函數(shù)的選擇具有更大的靈活性;第二:改變像素點激活前后的有序性,提高了低激活像素點獲得更高激活的機會.
表1 MReLU與常見激活函數(shù)的比較Tab.1 Comparisons between MReLU and common activation functions
續(xù)表
函數(shù)名稱表達式圖像類型特性BReLUf(x)=n if x>nx if 0<=x<=n0 if x<0 非自適應(yīng)通過引入梯度截斷,對高激活程度像素點進行梯度截斷Swishf(x)=x11+e-x非自適應(yīng)Sigmoid改進型,收斂速度快PReLUf(x)=x if x≥0x<0 自適應(yīng)ReLU的改進版本,在負值域中引入了一個可學(xué)習(xí)參數(shù)GReLUf(x)=l1+∑n-1i=1ki(li+1-l1)+kn(x-ln),if x∈[ln,+∞]?l2+k1(x-l1),if x∈[l1,l2]x, if x∈[l-1,l1]l-1+k-1(x-l-1),if x∈[l-2,l1]?l-1+∑n-1i=1k-1(l-(i+1)-l-1(k-n)x-l-n),if x∈(-∞,l-n)自適應(yīng)通過引入多斜率線性區(qū)間為不同激活程度的像素點提供不同梯度響應(yīng)MReLUf(x)=k1x if x∈A1…kix if x∈Ai…knx if x∈An自適應(yīng)通過引入多個獨立區(qū)間,為不同激活程度的像素點提供不同梯度;跳躍間斷點為函數(shù)提供更高的靈活度
本文將在圖片分類任務(wù)上,驗證MReLU的性能,并與現(xiàn)有的激活函數(shù)進行性能對比.圖片分類任務(wù)是計算機視覺領(lǐng)域的基礎(chǔ)任務(wù).CIFAR-10和 CIFAR-100[11]是被廣泛使用的圖片分類數(shù)據(jù)集,因此本文也在CIFAR-10和CIFAR-100數(shù)據(jù)集上開展實驗.為體現(xiàn)MReLU激活函數(shù)的普適性,實驗中采用NIN和ResNet兩種常見的網(wǎng)絡(luò)結(jié)構(gòu)進行驗證.
3.1.1 CIFAR-10和CIFAR-100數(shù)據(jù)集
CIFAR-10和CIFAR-100[11]數(shù)據(jù)集是兩個常用的分類數(shù)據(jù)集.其中CIFAR-10數(shù)據(jù)集包含了10個獨立類別的物品用于分類任務(wù),每個類別包含5000張訓(xùn)練圖片,1000張測試圖片,每張圖片的大小均是32x32像素.CIFAR-100數(shù)據(jù)集包含了20個大類,100個小類,每個小類包含500張訓(xùn)練圖片,100張測試圖片,每張圖片的大小均是32x32像素.在實驗過程中,為了避免引入其他因素的影響,我們直接使用原始圖片進行訓(xùn)練,沒有使用任何數(shù)據(jù)增強和數(shù)據(jù)預(yù)處理技術(shù).
3.1.2 NIN和ResNet網(wǎng)絡(luò)結(jié)構(gòu)
NIN網(wǎng)絡(luò)是一個只包含九個卷積層的淺層網(wǎng)絡(luò),表2給出了NIN網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù).表中第一列表示輸入特征圖的大?。坏诙袨閷?yīng)的操作,第一個值表示卷積核或者pooling核的大小,第二個值表示當(dāng)前層的輸出通道數(shù),第三個值表示步長.
ResNet[14]是在分類網(wǎng)絡(luò)中被使用最多的網(wǎng)絡(luò)結(jié)構(gòu),目前在CIFAR-10和CIFAR-100數(shù)據(jù)排行榜上的最優(yōu)分類方法采用了ResNet152網(wǎng)絡(luò)結(jié)構(gòu),由于該排行榜上的結(jié)果均使用了遷移學(xué)習(xí)進行增強,為了避免引入其他因素對實驗的影響,同時不失一般性,本文使用了ResNet18作為基礎(chǔ)分類網(wǎng)絡(luò),用于對比不同激活函數(shù)的性能.
將MReLU與當(dāng)前常見的九種激活函數(shù):ReLU、Leaky ReLU、PReLU、RReLU、ELU、SELU、Swish、BReLU和GReLU進行了實驗對比.表3所示為各激活函數(shù)在NIN網(wǎng)絡(luò)上的實驗結(jié)果.表3中包含兩行分別表示各個激活函數(shù)在CIFAR-10和CIFAR-100數(shù)據(jù)集上的準(zhǔn)確率,其中最優(yōu)結(jié)果用黑色粗體標(biāo)記.由表3可見,在NIN網(wǎng)絡(luò)結(jié)構(gòu)上,MReLU激活函數(shù)在CIFAR-10和CIFAR-100兩個數(shù)據(jù)集上分別均取得了最優(yōu)和次優(yōu)的結(jié)果,其準(zhǔn)確率分別達到了87.96%和69.01%.
表2 NIN網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 The NIN network structure
表4所示為各激活函數(shù)在ResNet18網(wǎng)絡(luò)上的實驗結(jié)果.由表4可見,在ResNet18網(wǎng)絡(luò)上,MReLU激活函數(shù)在CIFAR-10和CIFAR-100兩個數(shù)據(jù)集上均取得了最優(yōu)的結(jié)果,其準(zhǔn)確率分別達到了88.56%和73.54%.
通過對比表3和表4中的數(shù)據(jù),得到以下三個觀察——第一:CIFAR-100數(shù)據(jù)集上MReLU在NIN網(wǎng)絡(luò)中的準(zhǔn)確率為69.01%,低于GReLU的70.41%,而在其他實驗配置(NIN網(wǎng)絡(luò)中的CIFAR-10,ResNet18網(wǎng)絡(luò)中的CIFAR-10和CIFAR-100)中MReLU的分類準(zhǔn)確率均高于GReLU.這一現(xiàn)象說明,MReLU比GReLU具有明顯的性能優(yōu)勢,這一優(yōu)勢主要來自于MReLU更加靈活的函數(shù)可選擇性.第二:ResNet18網(wǎng)絡(luò)結(jié)構(gòu)中MReLU在CIFAR-10數(shù)據(jù)集上準(zhǔn)確率為88.56%比次優(yōu)的Swish高出了0.08%,而在CIFAR-100數(shù)據(jù)集上MReLU的準(zhǔn)確率為73.54%僅比次優(yōu)的SELU高出了0.02%.這一現(xiàn)象說明在同等網(wǎng)絡(luò)結(jié)構(gòu)下,隨著數(shù)據(jù)集復(fù)雜度的提升,將減弱激活函數(shù)差異對網(wǎng)絡(luò)性能的影響.第三:CIFAR-10數(shù)據(jù)集上MReLU在NIN網(wǎng)絡(luò)中的準(zhǔn)確率為87.96%比次優(yōu)的RReLU高出了0.29%,而在ResNet18網(wǎng)絡(luò)中MReLU的準(zhǔn)確率為88.56%僅比次優(yōu)的Swish高出了0.08%.這一現(xiàn)象說明在同一數(shù)據(jù)集上,隨著網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度的提升,激活函數(shù)的差異對網(wǎng)絡(luò)性能的影響減弱.
MReLU激活函數(shù)中主要包含兩個部分參數(shù):激活區(qū)間的劃分和各個區(qū)間上的梯度.其中,各區(qū)間上的梯度是由網(wǎng)絡(luò)從數(shù)據(jù)中逐步學(xué)習(xí),而區(qū)間的劃分則相對復(fù)雜.
從圖2中可以看出,MReLU激活函數(shù)得到的激活圖中像素激活值的分布關(guān)于零點具有一定程度的對稱性,因此本文設(shè)計了三種關(guān)于零點對稱的區(qū)間劃分方案.同時為了更好對比MReLU與ReLU族(ReLU,RReLU,PReLU,LReLU)函數(shù)的性能差異,設(shè)計了三種僅在負值域中進行分段梯度響應(yīng)的區(qū)間劃分方案.
這六種不同的區(qū)間劃分方案依次為——1:((-∞,-15),(-15,-7),(-7,-3),(-3,0),(0,3),(3,7),(7,15),(15,+∞)),2:((-∞,-7),(-7,-3),(-3,-1),(-1,0),(0,1),(1,3),(3,7),(7,+∞)),3:((-∞,-3),(-3,-2),(-2,-1),(-1,0),(0,1),(1,2),(2,3),(3,+∞)),4:((-∞,-15),(-15,-7),(-7,-3),(-3,0),(0,+∞)),5:((-∞,-7),(-7,-3),(-3,-1),(-1,0),(0,+∞)),6:((-∞,-3),(-3,-2),(-2,-1),(-1,0),(0,+∞)).
圖5展示了ResNet18網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上的訓(xùn)練進程.圖中的橫坐標(biāo)表示訓(xùn)練的輪數(shù),縱坐標(biāo)表示CIFAR-10驗證集上的準(zhǔn)確率.從圖5可見,在不同的區(qū)間劃分方案下,各MReLU激活函數(shù)的收斂速度和最終的性能有較大差異,其中,第2個區(qū)間劃分方案取得了最優(yōu)性能.
除了區(qū)間的劃分,梯度的初始值也對激活函的性能有著一定的影響.為了討論不同的梯度初始值對激活函數(shù)性能的影響,本文指定了四個不同的梯度初始值:0.5,1.0,1.5,2.0.圖6展示ResNet18網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上的訓(xùn)練進程.從圖6中可見,當(dāng)梯度初始值為2.0時,ResNet18網(wǎng)絡(luò)取得了最優(yōu)性能,此結(jié)果與已知的各種基于ReLU的激活函數(shù)均不同.ReLU的變種函數(shù),在負值域上通常初始化為一個遠小于1.0的初始值.這一點說明為不同激活程度的像素點提供不同的梯度響應(yīng),其效果明顯不同于對所有像素點提供同等的梯度響應(yīng).
表3 在NIN網(wǎng)絡(luò)上的分類準(zhǔn)確率Tab.3 Classification accuracies with the NIN network
表4 在ResNet18網(wǎng)絡(luò)上的分類準(zhǔn)確率Tab.4 Classification accuracies with the ResNet18 network
圖5 ResNet18網(wǎng)絡(luò)中MReLU各區(qū)間劃分方案性能對比(CIFAR-10數(shù)據(jù)集)Fig.5 Performance comparison of different intervals of MReLU on the CIFAR-10 dataset in the ResNet18 network
圖6 ResNet18網(wǎng)絡(luò)中MReLU不同初始值的性能對比(CIFAR-10數(shù)據(jù)集)Fig.6 Performance comparison of different initial values of MReLU on the CIFAR-10 dataset in the ResNet18 network
本文針對神經(jīng)網(wǎng)絡(luò)中不同像素點存在激活程度不同這一現(xiàn)象,提出了多斜率自適應(yīng)激活函數(shù).實驗結(jié)果表明針對處于不同激活程度的像素點采用不同程度的梯度響應(yīng),有助于進一步提升網(wǎng)絡(luò)的性能.同時包含有限個跳躍間斷點的函數(shù)形式為激活函數(shù)帶來了更大的靈活性和學(xué)習(xí)空間.后續(xù)我們將在更多的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集和目標(biāo)檢測、語義分割等更多的視覺任務(wù)上,驗證MReLU激活函數(shù)的有效性.