摘 要:近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)各個(gè)領(lǐng)域中并取得了顯著的效果。正則化方法是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分,它能避免卷積神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練的過(guò)程中出現(xiàn)過(guò)擬合現(xiàn)象。目前關(guān)于卷積神經(jīng)網(wǎng)絡(luò)正則化方法的綜述較少,且大多缺乏對(duì)新提出的正則化方法的總結(jié)。首先對(duì)卷積神經(jīng)網(wǎng)絡(luò)中的正則化方法相關(guān)文獻(xiàn)進(jìn)行詳細(xì)的總結(jié)和梳理,將正則化方法分為參數(shù)正則化、數(shù)據(jù)正則化、標(biāo)簽正則化和組合正則化;然后在ImageNet等公開(kāi)數(shù)據(jù)集上,基于top-1 accuracy、top-5 accuracy等評(píng)價(jià)指標(biāo),對(duì)不同正則化方法的優(yōu)缺點(diǎn)進(jìn)行對(duì)比分析;最后討論了卷積神經(jīng)網(wǎng)絡(luò)的正則化方法未來(lái)的研究趨勢(shì)和工作方向。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò); 正則化方法; 過(guò)擬合; 泛化
中圖分類(lèi)號(hào):TP391.41文獻(xiàn)標(biāo)志碼: A文章編號(hào):1001-3695(2024)04-001-0961-09
doi:10.19734/j.issn.1001-3695.2023.06.0347
Survey on regularization methods for convolutional neural network
Chen Kun, Wang Anzhi
(School of Big Data amp; Computer Science, Guizhou Normal University, Guiyang 550025,China)
Abstract:In recent years,convolutional neural networks have been widely used in various fields of computer vision andachieved remarkable results.Regularization method is an important part of convolutional neural network,which helps to avoid the overfitting phenomenon of convolutional neural network in the process of model training.There are fewer reviews on regularization methods for convolutional neural networks,and most of them lack a summary of the newly proposed regularization methods.Firstly,this paper conducted a detailed summary of the literature on regularization methods in convolutional neural networks,and classified the regularization methods into parameter regularization,data regularization,label regularization and combinatorial regularization.After that, on the public datasets such as ImageNet,it compared and analyzed the advantages and disadvantages of different regularization methods based on evaluation indexes such as top-1 accuracy and top-5 accuracy.Finally,it discussed the future research trends and work directions of regularization methods for convolutional neural network.
Key words:convolutional neural network; regularization method; overfitting; generalization
0 引言
2012年Krizhevsky等人[1]提出的AlexNet引入了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),在ImageNet大賽上以遠(yuǎn)超第二名的成績(jī)奪得冠軍,至此CNN其強(qiáng)大的建模能力引起廣泛關(guān)注。與傳統(tǒng)方法相比,CNN的引入為計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)了很大的提升,如圖像分類(lèi)[2]、目標(biāo)檢測(cè)[3]、語(yǔ)義分割[4]、實(shí)例分割[5]等。在CNN訓(xùn)練過(guò)程中,應(yīng)該減少模型泛化誤差,從而讓模型在測(cè)試階段能夠保持優(yōu)秀的性能。正則化方法是CNN的重要組成部分,是減少泛化誤差的重要步驟。
正則化(regularization)是一種避免模型過(guò)擬合、減少泛化誤差的方法。隨著神經(jīng)網(wǎng)絡(luò)深度不斷增加,模型復(fù)雜度和未訓(xùn)練的參數(shù)會(huì)不斷擴(kuò)大,這時(shí)模型極易出現(xiàn)過(guò)擬合現(xiàn)象,具體表現(xiàn)如圖1所示,模型在訓(xùn)練數(shù)據(jù)上損失較小且預(yù)測(cè)準(zhǔn)確率較高,但在測(cè)試集上模型的損失會(huì)很大而準(zhǔn)確率較低。而使用正則化方法就是通過(guò)稀疏化網(wǎng)絡(luò)參數(shù)或增強(qiáng)輔助數(shù)據(jù)以達(dá)到增強(qiáng)模型泛化能力的目的,進(jìn)而防止模型過(guò)擬合。通過(guò)對(duì)正則化方法相關(guān)文獻(xiàn)的廣泛調(diào)研,本文制作了CNN中的正則化方法的研究熱度柱形圖,如圖2所示,很明顯能夠看到CNN的正則化方法的研究熱度正在日益上漲。
本文將不同的正則化方法分為參數(shù)正則化、數(shù)據(jù)正則化和標(biāo)簽正則化三類(lèi)。
a)參數(shù)正則化。隨著對(duì)神經(jīng)網(wǎng)絡(luò)的深入研究,涌現(xiàn)了很多減小或者稀疏參數(shù)的正則化方法。比如,2012年Hinton等人[6]提出dropout,該方法的工作原理是神經(jīng)網(wǎng)絡(luò)在前向傳播的時(shí)候讓某個(gè)神經(jīng)元以一定概率p處于未激活狀態(tài),從而減弱模型對(duì)某些局部特征的依賴(lài)而增強(qiáng)其泛化性。
b)數(shù)據(jù)正則化。用足量的訓(xùn)練樣本,同樣能夠讓模型避免過(guò)擬合現(xiàn)象,但是單純使用人工標(biāo)注數(shù)據(jù)集的方式通常會(huì)消耗大量的人力、物力,甚至花費(fèi)的成本會(huì)遠(yuǎn)遠(yuǎn)大于模型本身能帶來(lái)的價(jià)值。針對(duì)上述問(wèn)題,數(shù)據(jù)正則化對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化調(diào)整是非常有效的低成本避免模型過(guò)擬合的方法。比如,Sangdoo等人[7]提出的CutMix方法,將訓(xùn)練樣本隨機(jī)進(jìn)行兩兩配對(duì),隨機(jī)將其中一張圖的一部分進(jìn)行裁剪并疊加到另一張圖的相同位置,標(biāo)簽信息也進(jìn)行相應(yīng)的疊加,從而實(shí)現(xiàn)訓(xùn)練樣本的擴(kuò)增。
c)標(biāo)簽正則化。標(biāo)簽正則化是通過(guò)對(duì)標(biāo)簽信息進(jìn)行優(yōu)化,讓模型能夠提升泛化能力。在CNN中的多分類(lèi)任務(wù)上,數(shù)據(jù)標(biāo)簽通常是以one-h(huán)ot的形式進(jìn)行編碼,這類(lèi)型的編碼方式鼓勵(lì)模型預(yù)測(cè)目標(biāo)類(lèi)別的概率趨近于1,這樣會(huì)讓模型在對(duì)多目標(biāo)進(jìn)行分類(lèi)時(shí)缺乏適應(yīng)性,使得模型對(duì)自身預(yù)測(cè)過(guò)于自信從而導(dǎo)致過(guò)擬合。為解決此類(lèi)問(wèn)題,Christian等人[8]提出標(biāo)簽平滑,通過(guò)在標(biāo)簽的分布信息中加入噪聲,使得模型對(duì)正負(fù)樣本的預(yù)測(cè)值差別縮小,以此達(dá)到避免模型過(guò)擬合的問(wèn)題。
本文通過(guò)對(duì)CNN中的正則化方法相關(guān)文獻(xiàn)的調(diào)研,還發(fā)現(xiàn)在實(shí)際應(yīng)用過(guò)程中,將不同的正則化方法進(jìn)行組合使用,效果往往能夠優(yōu)于單一使用一種正則化方法。
1 參數(shù)正則化
在大型的神經(jīng)網(wǎng)絡(luò)中對(duì)目標(biāo)函數(shù)添加適應(yīng)的正則化項(xiàng)或?qū)W(wǎng)絡(luò)中的參數(shù)進(jìn)行一定的控制,是現(xiàn)在非常普遍的預(yù)防過(guò)擬合的措施。近年來(lái)對(duì)于該類(lèi)型的研究依然有很多成果,本章將對(duì)于參數(shù)正則化進(jìn)行詳細(xì)分析。
1.1 dropout正則化處理
在大型的卷積神經(jīng)網(wǎng)絡(luò)中,dropout處理[6]是一種能夠有效避免網(wǎng)絡(luò)中參數(shù)量過(guò)大的方法。dropout作用于神經(jīng)網(wǎng)絡(luò)的效果可視化如圖3所示,該方法的思想上類(lèi)似于Breiman[9]研究的套袋模型,dropout以一定概率p隨機(jī)地使隱藏層中的特征節(jié)點(diǎn)處于未激活的狀態(tài),讓其不參與到模型的訓(xùn)練過(guò)程中,從而讓網(wǎng)絡(luò)的復(fù)雜度與模型的參數(shù)量得到有效的控制。dropout在卷積神經(jīng)網(wǎng)絡(luò)第n~n+1層的第i個(gè)神經(jīng)元的前向傳播過(guò)程如式(1)(2)所示。
其中: r (n)是與第n層神經(jīng)元個(gè)數(shù)相同的向量,每個(gè)元素取值為1、0,并且符合伯努利分布,即每一個(gè)元素被保留的概率為p, w (n+1)i是第n~n+1層的權(quán)重矩陣, b (n+1)i是第n層到第n+1層的偏置。
Srivastava等人[10]發(fā)現(xiàn)當(dāng)神經(jīng)網(wǎng)絡(luò)中的層數(shù)固定時(shí),p的數(shù)值過(guò)大或過(guò)小都可能造成模型過(guò)擬合或欠擬合,0.4≤p≤0.8時(shí)模型的測(cè)試誤差會(huì)比較平緩。為了提升dropout效果,Ian等人[11]定義了一個(gè)新的激活函數(shù)maxout,它的輸出是一組輸入特征值中的最大值并且能夠促進(jìn)dropout的優(yōu)化。Jumsuk等人[12]通過(guò)使用自注意力機(jī)制與dropout進(jìn)行結(jié)合提出了一個(gè)基于注意力的dropout層,能夠誘導(dǎo)CNN分類(lèi)器去學(xué)習(xí)全局特征信息。Zhu等人[13]的TargetDrop同樣結(jié)合了注意力機(jī)制對(duì)dropout進(jìn)行改進(jìn),該方法能夠精準(zhǔn)地屏蔽掉檢測(cè)對(duì)象的部分有效特征,促使模型學(xué)習(xí)到更多的判別信息。Wan等人[14]提出的DropConnect,通過(guò)隨機(jī)丟棄權(quán)重來(lái)對(duì)dropout進(jìn)行改進(jìn),使用了DropConnect的全連接層會(huì)變成稀疏連接層。Mojtaba等人[15]提出的patchup能丟棄任意形狀的特征,而不是只有矩形,提高模型泛化能力的同時(shí)也提升了模型對(duì)對(duì)抗攻擊的魯棒性。Hojjat等人[16]提出skipout將網(wǎng)絡(luò)劃分為訓(xùn)練層和魯棒層,模型在訓(xùn)練時(shí)跳過(guò)魯棒層保證了網(wǎng)絡(luò)反向傳播的有效性,提升了模型泛化能力。Lu等人[17]結(jié)合拉德馬赫復(fù)雜度提出了LocalDrop,增加一定的網(wǎng)絡(luò)反向傳播優(yōu)化時(shí)間,提升dropout性能。RandomDrop[18]是為殘差網(wǎng)絡(luò)進(jìn)行設(shè)計(jì)的,以線(xiàn)性衰減概率丟棄殘差層。Yoshihito等人[19]受shake-shake[20]的啟發(fā),結(jié)合RandomDrop提出了shake-drop,通過(guò)對(duì)殘差網(wǎng)絡(luò)的特征映射乘上正則化權(quán)重,改善模型泛化能力的同時(shí)提升了殘差網(wǎng)絡(luò)的性能。類(lèi)似地,Lu等人[21]的MSC(multiscale conditional)正則化將特征劃分為三個(gè)不同尺度的特征映射,分別乘上不同的正則化權(quán)重,有效地提升了正則化過(guò)程的靈活性和適應(yīng)性。Zhao等人[22]提出的frequency regularization直接通過(guò)截?cái)啻罅康臄y帶高頻信息的參數(shù)張量,使得網(wǎng)絡(luò)的參數(shù)量得到有效降低,從而預(yù)防出現(xiàn)過(guò)擬合的現(xiàn)象。
由于dropout處理進(jìn)行丟棄的特征節(jié)點(diǎn)是獨(dú)立的隨機(jī)單元,無(wú)法有效地降低卷積層中特征節(jié)點(diǎn)之間的相關(guān)性,所以dropout通常無(wú)法應(yīng)用于卷積層。Ghiasi等人[23]提出一個(gè)結(jié)構(gòu)化的dropout,即DropBlock,它從特征圖中丟棄連續(xù)的區(qū)域,而不是僅僅丟棄獨(dú)立的隨機(jī)單元,大量的實(shí)驗(yàn)表明,DropBlock在ImageNet圖像分類(lèi)任務(wù)中是一種很有效的正則化器。Brahim等人[24]將dropout與混合池化模塊進(jìn)行結(jié)合,有效地避免了模型通過(guò)參數(shù)之間的相互聯(lián)系來(lái)記憶樣本。Jonathan等人[25]提出的spatial-dropout通過(guò)從卷積層刪除整個(gè)特征映射來(lái)解決節(jié)點(diǎn)之間的相關(guān)性問(wèn)題。
由于dropout及其改進(jìn)在使用中對(duì)特征節(jié)點(diǎn)采取的方式大多是隨機(jī)處理, 所以可能會(huì)導(dǎo)致上下文信息或目標(biāo)完全丟失。Ba等人[26]用一個(gè)與深度網(wǎng)絡(luò)共享參數(shù)的網(wǎng)絡(luò)來(lái)對(duì)dropout的超參數(shù)p進(jìn)行計(jì)算,該方法能夠適用于深度網(wǎng)絡(luò)中的無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。Gong等人[27]通過(guò)dromask引入額外的超參數(shù)對(duì)丟棄特征和保留特征數(shù)量比例進(jìn)行權(quán)衡,以避免有效目標(biāo)的信息過(guò)度丟失。Pham等人[28]提出了AutoDropout,它實(shí)現(xiàn)了dropout模式的過(guò)程自動(dòng)化,在該方法中控制器學(xué)會(huì)在卷積神經(jīng)網(wǎng)絡(luò)中的每個(gè)層生成dropout,并將其驗(yàn)證結(jié)果作為控制器學(xué)習(xí)的信號(hào),AutoDropout提高了卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)性能,并且也能提高比較主流的Transformer[29~31]模型的性能。
1.2 范數(shù)正則化
范數(shù)正則化是一種常見(jiàn)的預(yù)防過(guò)擬合的方法,在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,它通常用于損失函數(shù),即在損失函數(shù)后添加一個(gè)正則化項(xiàng),目的是對(duì)損失函數(shù)中的某一些函數(shù)做一定的限制,使得這些參數(shù)能夠在訓(xùn)練的過(guò)程中避免過(guò)分?jǐn)M合噪聲數(shù)據(jù)。對(duì)標(biāo)準(zhǔn)損失函數(shù)添加正則化項(xiàng)可表示為
其中:R(ω)為正則化項(xiàng);λ為正則化項(xiàng)的權(quán)重。
1.2.1L1正則化(L1-norm)
輸入網(wǎng)絡(luò)中的特征中有很大一部分是不提供有用信息的,這些特征信息稱(chēng)為噪聲,在網(wǎng)絡(luò)訓(xùn)練中模型有可能將這些噪聲進(jìn)行擬合,使得模型測(cè)試誤差增大。為解決上述問(wèn)題,L1正則化將參數(shù)進(jìn)行稀疏從而更有利于特征選擇。在損失函數(shù)中應(yīng)用L1正則化項(xiàng),如式(4)所示。
其中:Q為特征的維數(shù); W 為權(quán)值向量。為了避免L1正則化的公式在零處不可微,故在實(shí)際應(yīng)用中會(huì)增加了一個(gè)接近零的超參數(shù)ε。對(duì)于L1正則化的研究,Hong等人[32]提出了一個(gè)新的算法L1-POFR(penalized orthogonal forward regression),該算法以正向回歸的方式同時(shí)進(jìn)行正則化優(yōu)化、模型項(xiàng)選擇和參數(shù)估計(jì),通過(guò)對(duì)訓(xùn)練模型的回歸矩陣進(jìn)行正交分解,使得原始的L1算法的效率得到了有效提高。Lu等人[33]提出的L1-SSL(semi-supervised learning)有效利用了L1正則化稀疏性的良好特性,從而很好地抑制了噪聲標(biāo)簽的消極影響。Enzo等人[34]提出的SeReNe利用特征節(jié)點(diǎn)的靈敏度作為正則化器來(lái)讓模型訓(xùn)練獲得稀疏的模型結(jié)構(gòu)。讓網(wǎng)絡(luò)更加稀疏的方法還有Hu等人[35]對(duì)CNN前饋網(wǎng)絡(luò)的輸入節(jié)點(diǎn)或冗余權(quán)值進(jìn)行剪枝讓網(wǎng)絡(luò)更加稀疏。
在卷積層中BN(batch normalization)的使用通常會(huì)給網(wǎng)絡(luò)訓(xùn)練帶來(lái)額外的計(jì)算量從而消耗更多的內(nèi)存,導(dǎo)致訓(xùn)練速度大大減慢并加重訓(xùn)練工作量。Wu等人[36]提出了一種使用L1算法的BN,該方法的關(guān)鍵是去除傳統(tǒng)L2-BN層中復(fù)雜的平方根運(yùn)算,在Fashion-MNIST[37]、ILSVRC12[38]數(shù)據(jù)集上的卷積神經(jīng)網(wǎng)絡(luò)和在CIFAR和LSUN-Bedroom[39]上生成的對(duì)抗網(wǎng)絡(luò)中進(jìn)行測(cè)試,L1-BN算法在精準(zhǔn)度和計(jì)算量之間得到了有效的權(quán)衡。
1.2.2L2正則化(L2-norm)
L2正則化也稱(chēng)為“嶺回歸”,在深度網(wǎng)絡(luò)中L2正則化使用率極高。L2正則化是將各元素的平方和求平方根,讓所有的參數(shù)都接近于0而不是變?yōu)?,不產(chǎn)生稀疏的模型。L2正則化可以讓網(wǎng)絡(luò)中的所有的參數(shù)比較均衡,使模型不會(huì)對(duì)某個(gè)特征節(jié)點(diǎn)特別敏感,當(dāng)訓(xùn)練好的模型在測(cè)試集上運(yùn)行時(shí),即使測(cè)試集中圖像的某個(gè)噪聲點(diǎn)異常突出,但對(duì)于整體模型的最終輸出而言,并不會(huì)因?yàn)檫@個(gè)噪聲而使得預(yù)測(cè)與真實(shí)值偏差太多。
L2正則化損失函數(shù)可表示如式(6)所示。
其中:Q為特征的維數(shù); W 為權(quán)值向量。
Corinna等人[40]發(fā)現(xiàn)L1正則化可以導(dǎo)致內(nèi)核(即CNN用于提取特征的filter)的性能適度改進(jìn),但在大規(guī)模使用的情況下會(huì)導(dǎo)致性能下降,而L2正則化可以有效避免這類(lèi)問(wèn)題。通過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)比,L2正則化的性能明顯優(yōu)于L1正則化。
1.3 權(quán)重衰減(weight decay)
權(quán)重衰減[41]是一種在權(quán)重的梯度下降更新式中,通過(guò)減少當(dāng)前梯度值對(duì)梯度更新的影響,以此對(duì)模型的擬合過(guò)程進(jìn)行干擾,防止模型過(guò)擬合的參數(shù)正則化方法。權(quán)重衰減在梯度下降更新中的應(yīng)用如式(7)所示。
其中:E為權(quán)重參數(shù);λ為權(quán)重衰減系數(shù);α為學(xué)習(xí)率。
在網(wǎng)絡(luò)訓(xùn)練中,L2正則化也能使得權(quán)重衰減到一個(gè)更小的值,所以有很多人將L2正則化與權(quán)重衰減畫(huà)等號(hào),但這個(gè)認(rèn)知是有誤的。Ilya等人[42]對(duì)這個(gè)問(wèn)題的解釋作出了系統(tǒng)的闡述和實(shí)驗(yàn)。在標(biāo)準(zhǔn)的隨機(jī)梯度下降(stochastic gradient descent,SGD)中,可以發(fā)現(xiàn)L2正則化和權(quán)值衰減正則化對(duì)于預(yù)防模型過(guò)擬合的效果是等效的,但是當(dāng)采用了自適應(yīng)梯度算法(adaptive moment estimation,Adam)[43]時(shí),L2正則化的效果會(huì)低于權(quán)重衰減,這是因?yàn)锳dam每個(gè)參數(shù)的學(xué)習(xí)率會(huì)隨著時(shí)間變化而SGD學(xué)習(xí)率不受時(shí)間影響,從表達(dá)式來(lái)看,L2正則化項(xiàng)會(huì)隨著學(xué)習(xí)率的改變而變化;而如果使用權(quán)值衰減,因?yàn)闄?quán)重衰減系數(shù)與學(xué)習(xí)率無(wú)關(guān),即每次衰減的比例是固定的,所以在使用Adam時(shí)會(huì)導(dǎo)致L2正則化的效果低于權(quán)重衰減。
2 數(shù)據(jù)正則化
上一章介紹了對(duì)深度網(wǎng)絡(luò)進(jìn)行參數(shù)正則化的主流方式,對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行正則化可以達(dá)到預(yù)防模型過(guò)擬合的效果,而對(duì)訓(xùn)練數(shù)據(jù)以及模型訓(xùn)練方式進(jìn)行對(duì)應(yīng)正則化操作也能達(dá)到降低模型過(guò)擬合的目的。比如數(shù)據(jù)增廣[44]、早期停止[45]都是目前數(shù)據(jù)正則化中主流的方法。
2.1 數(shù)據(jù)增廣(data augmentation)
目前數(shù)據(jù)增廣的相關(guān)研究已經(jīng)形成一個(gè)體系,本節(jié)會(huì)選出近年來(lái)常見(jiàn)的方法對(duì)該方向進(jìn)行闡述,若想對(duì)該方向進(jìn)行更進(jìn)一步的了解,可以參考文獻(xiàn)[46~48]。
解決過(guò)擬合最直接的方式是給予充足的有效訓(xùn)練樣本,但從時(shí)間和經(jīng)濟(jì)成本的角度來(lái)看,這種方式在現(xiàn)實(shí)中是不可取的,對(duì)于有上千萬(wàn)甚至上億的參數(shù)量的大型神經(jīng)網(wǎng)絡(luò)而言,需要標(biāo)注的有效訓(xùn)練樣本是不可估量的,而標(biāo)注有效的訓(xùn)練樣本需要花費(fèi)大量的人力與時(shí)間,可能光是標(biāo)注數(shù)據(jù)投入的成本就已經(jīng)遠(yuǎn)遠(yuǎn)超出訓(xùn)練網(wǎng)絡(luò)所能產(chǎn)生的價(jià)值。為了有效地解決小樣本模型訓(xùn)練中樣本量不足的問(wèn)題,數(shù)據(jù)增廣是一種有效的正則化方法,以一定的規(guī)則去修改訓(xùn)練樣本,同時(shí)平衡各類(lèi)別中樣本的比例,使得模型能夠增強(qiáng)學(xué)習(xí)從而達(dá)到減少過(guò)擬合的目的。如今數(shù)據(jù)增廣流行的方法包括隨機(jī)裁剪、圖像翻轉(zhuǎn)和隨機(jī)擦除[49]等。
CNN從VGG[2]發(fā)展到ResNet[50],數(shù)據(jù)增廣正則化方法得到了廣泛的應(yīng)用。Krishna等人[44]提出的“ 捉迷藏(hide-and-seek)”能夠生成多個(gè)不連續(xù)的隱藏補(bǔ)丁,使得在訓(xùn)練圖像中形成多種遮擋組合,讓模型在測(cè)試階段遇到可識(shí)別目標(biāo)被隱藏時(shí)迫使模型尋找其他相關(guān)內(nèi)容,提高模型對(duì)遮擋情況的魯棒性。Sangdoo等人[7]提出的CutMix在訓(xùn)練圖像之間隨機(jī)剪切并粘貼,標(biāo)簽數(shù)據(jù)也進(jìn)行相應(yīng)處理。Yan等人[51]提出的LMix使用隨機(jī)掩模來(lái)保持訓(xùn)練樣本的數(shù)據(jù)分布,并使用高頻濾波來(lái)銳化樣本以突出識(shí)別區(qū)域。Terrance等人[52]提出的cutout是在訓(xùn)練過(guò)程中隨機(jī)地屏蔽輸入圖像中的一個(gè)固定大小的矩形區(qū)域,它可以與其他技術(shù)結(jié)合使用,如批量歸一化(batch normalization)[53],但它對(duì)訓(xùn)練樣本處理的隨機(jī)性可能會(huì)將有效特征區(qū)域完全屏蔽。對(duì)于上述問(wèn)題,Gong等人[54]提出了一種自適應(yīng)的數(shù)據(jù)增強(qiáng)方法KeepAugment,該方法能夠通過(guò)顯著圖來(lái)衡量圖像中矩形區(qū)域的重要性,始終保持重要區(qū)域不受影響。在對(duì)抗訓(xùn)練方向上,Zhang等人[55]提出的mixup被廣泛關(guān)注,從本質(zhì)上來(lái)說(shuō),mixup是成對(duì)樣本及其標(biāo)簽的混合,mixup能夠減少模型對(duì)錯(cuò)誤標(biāo)簽的記憶,增加對(duì)對(duì)抗實(shí)例的魯棒性,在對(duì)mixup的實(shí)際使用中,它可以通過(guò)幾行代碼實(shí)現(xiàn)。
現(xiàn)實(shí)場(chǎng)景中圖像在記錄或者傳播的過(guò)程中,可能出現(xiàn)圖像失真,導(dǎo)致圖像邊界難以區(qū)分,Jiang等人[56]提出的“特征弱化(feature weaken)能夠使特征更加緊湊,由于特征弱化調(diào)整了樣本邊界從而使得反向傳播中梯度優(yōu)化值得到降低,所以該方法能提高模型的分類(lèi)性能和泛化能力并穩(wěn)定模型訓(xùn)練、加快模型收斂速度。Google團(tuán)隊(duì)為了能夠更好地讓模型挑選出適合當(dāng)前網(wǎng)絡(luò)的增廣方式,設(shè)計(jì)了一個(gè)自動(dòng)數(shù)據(jù)增廣方法AutoAugment[57],通過(guò)使用搜索算法來(lái)找到最佳數(shù)據(jù)增廣策略,讓模型在使用目標(biāo)數(shù)據(jù)集訓(xùn)練后能夠獲得更好的測(cè)試精度。
Liang等人[58]對(duì)不同數(shù)據(jù)增廣的樣本進(jìn)行傅里葉頻譜對(duì)比,從圖4可知小物體通常表現(xiàn)為高頻信息,而大物體則是低頻信息。簡(jiǎn)單的圖像翻轉(zhuǎn)數(shù)據(jù)增廣方法并不會(huì)改變圖像的任何像素值,在傅里葉頻譜上和原始圖像差別不大,使用圖像裁剪的方法相對(duì)于原始圖像高頻分量更向中心集中,同時(shí)低頻分量占比更多,對(duì)抗性圖像在整體上提高了圖像高頻信息。通過(guò)實(shí)驗(yàn)表明,對(duì)抗性樣本可以顯著提高小目標(biāo)的檢測(cè)精度,精度可以從22.5%提高到23.6%;自適應(yīng)裁剪數(shù)據(jù)增廣能提高中等目標(biāo)和大目標(biāo)的性能,使中等目標(biāo)檢測(cè)精度增益為0.7%、大目標(biāo)檢測(cè)精度增益為0.3%。為了促進(jìn)對(duì)數(shù)據(jù)增廣方法的理解,本文對(duì)常用的數(shù)據(jù)增廣方法進(jìn)行了可視化,效果如圖5所示。
人工智能進(jìn)行人機(jī)交互時(shí)不僅有圖像信息的交互還有文本信息的交互,文本信息的訓(xùn)練數(shù)據(jù)增廣也必不可少。Jason等人[59]提出的EDA(easy data augmentation)被稱(chēng)為最簡(jiǎn)單的自然語(yǔ)言處理數(shù)據(jù)增廣方法,是由四種功能強(qiáng)大的操作組成,即同義詞替換[60]、隨機(jī)插入、隨機(jī)交換和隨機(jī)擦除。
2.2 提前停止(early stopping)
訓(xùn)練過(guò)程中常用的策略還有提前停止,首先將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分,在訓(xùn)練過(guò)程中每隔一定迭代(iteration)次數(shù)便使用測(cè)試集對(duì)模型進(jìn)行預(yù)測(cè),當(dāng)模型在測(cè)試集上的誤差不再降低時(shí),便可以提前停止對(duì)模型的訓(xùn)練。
Bai等人[61]利用提前停止的思想,在原有的基礎(chǔ)上提出了漸進(jìn)早期停止(progressive early stopping,PES)方法,使用該方法可以讓模型抵御樣本中噪聲標(biāo)簽的影響,作者建議將CNN分離為不同部分,初始化階段使用相對(duì)大量的epoch來(lái)預(yù)訓(xùn)練模型,得到預(yù)訓(xùn)練模型后再進(jìn)行少量epoch的訓(xùn)練,如今的模型訓(xùn)練大多都是在預(yù)訓(xùn)練模型上進(jìn)行優(yōu)化調(diào)整。
3 標(biāo)簽正則化
在CNN中常用的標(biāo)簽正則化,如標(biāo)簽平滑(label smoo-thing)[8]、知識(shí)蒸餾(knowledge distillation)[62]等,都是通過(guò)對(duì)目標(biāo)標(biāo)簽分布進(jìn)行修正以達(dá)到優(yōu)化模型的目的,知識(shí)蒸餾方法如今體系較為完善,具體的細(xì)節(jié)內(nèi)容可查看Gou 等人[62]和Tian等人[63]相關(guān)綜述,本章著重對(duì)標(biāo)簽正則化中的標(biāo)簽平滑進(jìn)行詳細(xì)闡述。
機(jī)器學(xué)習(xí)中,多分類(lèi)數(shù)據(jù)標(biāo)簽通常都是以one-h(huán)ot形式進(jìn)行編碼,這樣會(huì)使得向量元素的值只有0和1,模型對(duì)多目標(biāo)進(jìn)行分類(lèi)時(shí),可能會(huì)導(dǎo)致物體之間的關(guān)聯(lián)信息丟失,而從丁家滿(mǎn)等人[64]和羅俊等人[65]的研究來(lái)看,標(biāo)簽之間的關(guān)聯(lián)信息有助于提升模型性能。為提升模型多分類(lèi)任務(wù)性能,Christian 等人[8]提出了標(biāo)簽平滑(label smoothing),通過(guò)向真實(shí)標(biāo)簽中加入噪聲來(lái)進(jìn)行正則化,從而抑制模型過(guò)擬合。以交叉熵?fù)p失函數(shù)為例,損失函數(shù)及其標(biāo)簽分布如式(8)(9)所示。
其中:p(k)為模型計(jì)算的每個(gè)標(biāo)簽的概率;q(k)為標(biāo)簽的真實(shí)分布。
對(duì)上述損失函數(shù)及其標(biāo)簽分布進(jìn)行標(biāo)簽平滑后,不再使用原始的標(biāo)簽概率分布p(k),而考慮標(biāo)簽的真實(shí)分布μ(k)與平滑指數(shù)ε來(lái)對(duì)q(k)進(jìn)行修正,修正后新的標(biāo)簽概率分布式為
經(jīng)過(guò)標(biāo)簽平滑操作,錯(cuò)誤標(biāo)簽的概率不再絕對(duì)為0,使得物體之間的聯(lián)系得到保留,緩解了模型對(duì)于預(yù)測(cè)結(jié)果過(guò)于自信導(dǎo)致過(guò)擬合的問(wèn)題。但標(biāo)簽平滑也存在著一些問(wèn)題,比如Hinton等人[66]發(fā)現(xiàn),盡管標(biāo)簽平滑會(huì)引發(fā)正則化效應(yīng),但由于平滑概率分布不太可能完全匹配真實(shí)的概率,所以標(biāo)簽平滑很可能會(huì)引入損害泛化性能的偏差。對(duì)于這類(lèi)問(wèn)題,文獻(xiàn)[67]提出了一種稱(chēng)為標(biāo)簽松弛的技術(shù),其關(guān)鍵核心是使用一組更大的候選分布去替換類(lèi)標(biāo)簽相關(guān)的概率分布,從而降低了在學(xué)習(xí)過(guò)程中消極信息的影響。
4 組合正則化
前三章描述了不同類(lèi)型的正則化方法,它們都在模型的訓(xùn)練過(guò)程中發(fā)揮著重要的作用。在實(shí)際的模型訓(xùn)練中,通常會(huì)使用不同的正則化方法進(jìn)行組合使用,本章將對(duì)主流的正則化組合方法進(jìn)行詳細(xì)闡述。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在模型訓(xùn)練預(yù)處理階段對(duì)導(dǎo)入的訓(xùn)練數(shù)據(jù)進(jìn)行cutout數(shù)據(jù)增廣后,模型對(duì)于識(shí)別被遮擋物體的能力得到了提升,但是模型對(duì)錯(cuò)誤標(biāo)簽信息依舊敏感,當(dāng)使用cutout與mixup相結(jié)合后,訓(xùn)練出來(lái)的模型的性能有了較為顯著的提升,將訓(xùn)練樣本在預(yù)訓(xùn)練階段進(jìn)行多種數(shù)據(jù)增廣是如今較為常見(jiàn)的處理手段。對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理本質(zhì)上是讓模型能夠得到更好的學(xué)習(xí),無(wú)法影響模型網(wǎng)絡(luò)與訓(xùn)練過(guò)程。所以,在對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理后,還可以繼續(xù)考慮對(duì)模型網(wǎng)絡(luò)與訓(xùn)練過(guò)程進(jìn)行正則化處理。以ResNet-18為例,單一使用TargetDrop時(shí),該模型在目標(biāo)檢測(cè)中精準(zhǔn)度能達(dá)到95.59,而僅僅使用cutout與TargetDrop相結(jié)合就能夠讓模型在目標(biāo)檢測(cè)任務(wù)上的精準(zhǔn)度達(dá)到96.23。同樣地,對(duì)網(wǎng)絡(luò)PyramidNet-200使用數(shù)據(jù)正則化cutout與標(biāo)簽正則化label smoothing,在CIFAR-100數(shù)據(jù)集上同樣能夠讓模型性能在使用單一正則化方法的基礎(chǔ)上得到提升。這些實(shí)驗(yàn)更進(jìn)一步地驗(yàn)證了使用多種正則化組合提升模型訓(xùn)練效果的有效性。
但并不是任意組合的正則化方法都有助于提升訓(xùn)練效果,Müller等人[68]發(fā)現(xiàn)當(dāng)標(biāo)簽平滑與知識(shí)蒸餾一同使用時(shí),教師模型的準(zhǔn)確性能得到提高,但學(xué)生模型的性能會(huì)降低,在數(shù)據(jù)集MNIST[69]上進(jìn)行實(shí)驗(yàn)會(huì)發(fā)現(xiàn)學(xué)生模型的訓(xùn)練誤差會(huì)比基線(xiàn)學(xué)生網(wǎng)絡(luò)高。同樣地,將TargetDrop與dropout進(jìn)行組合使用,網(wǎng)絡(luò)的參數(shù)量能夠更顯著地降低,但由于特征信息的大量丟失使得模型無(wú)法有效地學(xué)習(xí)到目標(biāo)對(duì)象的有效特征,模型的性能依然無(wú)法提升甚至?xí)档?。所以在使用組合正則化方法時(shí),必須了解每一個(gè)正則化的優(yōu)點(diǎn)與局限性,才能保證使用正則化組合時(shí)能夠讓其局限性得到互補(bǔ),更好地促進(jìn)模型訓(xùn)練。
5 數(shù)據(jù)集、評(píng)估指標(biāo)和性能分析
大量可靠的帶標(biāo)注數(shù)據(jù)集是深度學(xué)習(xí)成功的前提之一。在CNN中常用的公開(kāi)數(shù)據(jù)集有CIFAR[70]、ImagNet[71],本章將基于上述兩種數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)中的正則化方法進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)所用數(shù)據(jù)集的概況如表1所示。
5.1 實(shí)驗(yàn)公開(kāi)數(shù)據(jù)集介紹
a)CIFAR數(shù)據(jù)集。CIFAR-10和CIFAR-100都是從一個(gè)有8 000萬(wàn)個(gè)已標(biāo)注的微小圖像數(shù)據(jù)集中分離出來(lái)的子集。正則化方法對(duì)比實(shí)驗(yàn)使用的CIFAR-10數(shù)據(jù)集是由60 000個(gè)尺寸大小為32×32彩色圖像組成,其中50 000張圖片作為訓(xùn)練集,10 000張圖像作為測(cè)試集。CIFAR-10數(shù)據(jù)集有10個(gè)類(lèi)別,每一個(gè)類(lèi)別有6 000張圖像。在實(shí)驗(yàn)過(guò)程中將數(shù)據(jù)集化分為5個(gè)訓(xùn)練批次和1個(gè)測(cè)試批次,每一個(gè)批次有10 000張圖片, 測(cè)試批次所選用的圖片恰好包含每一個(gè)類(lèi)隨機(jī)選擇的1 000張圖片。CIFAR-100同樣是由60 000個(gè)尺寸大小為32×32彩色圖像組成,一共有100個(gè)類(lèi)別,每個(gè)類(lèi)別下有600張圖片。與CIFAR-10不同的是,CIFAR-100還將100個(gè)類(lèi)別化為了20個(gè)超類(lèi),即類(lèi)別為“床”“椅子”此類(lèi)的圖像化為超類(lèi)(superclass)“家用家具”。所以每一個(gè)圖像的標(biāo)簽都帶有一個(gè)“精細(xì)”標(biāo)簽(它所屬的類(lèi))和一個(gè)“粗糙”標(biāo)簽(它所屬的超類(lèi))。 在訓(xùn)練過(guò)程中將每一個(gè)類(lèi)別中隨機(jī)抽取500張圖像作為訓(xùn)練集,另外的100張圖像作為測(cè)試集。雖然CIFAR數(shù)據(jù)集尺寸較小,但是數(shù)據(jù)規(guī)模相對(duì)較大,所以非常適合復(fù)雜模型特別是深度學(xué)習(xí)模型訓(xùn)練,因而成為深度學(xué)習(xí)領(lǐng)域主流的物體識(shí)別數(shù)據(jù)集。
b)ImagNet數(shù)據(jù)集。ImageNet是根據(jù)WordNet構(gòu)建的一個(gè)大規(guī)模圖像數(shù)據(jù)庫(kù),其中包含了1 500多萬(wàn)幅圖片并涵蓋2萬(wàn)多個(gè)類(lèi)別,平均每個(gè)類(lèi)別都包含1 000張圖片,如今關(guān)于圖像分類(lèi)、檢測(cè)等研究工作大多基于此數(shù)據(jù)集展開(kāi)。實(shí)驗(yàn)選用ImageNet-1K進(jìn)行評(píng)估,該數(shù)據(jù)集一共包含1 000個(gè)類(lèi)別,將其中120萬(wàn)張圖片作為訓(xùn)練集,15萬(wàn)張圖片作為測(cè)試集使用。
5.2 實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)模型介紹
a)ResNet。ResNet于2015年提出,并在ImageNet大賽中取得了分類(lèi)任務(wù)的第一名,ResNet與普通的卷積模塊不同的是增加了一條Identify連接,也稱(chēng)為跳躍連接。該網(wǎng)絡(luò)主要解決了CNN中梯度消失和梯度爆炸的問(wèn)題,避免了模型在CNN深度加深的過(guò)程中出現(xiàn)模型退化,即網(wǎng)絡(luò)疊加更多的卷積層后,性能出現(xiàn)快速下降的情況。實(shí)驗(yàn)使用了疊加不同ResNet模塊層數(shù)的ResNet網(wǎng)絡(luò)模型,分別是ResNet-18、ResNet-50、ResNet-56、ResNet-101、ResNet-110。同時(shí)還使用了一些ResNet的變體,如PyramidNet-200 、EfficientNet-B0、WRN-28-10。
b)InceptionNet。InceptionNet是Google團(tuán)隊(duì)在2014年提出的,該網(wǎng)絡(luò)模型獲得了2014年ImageNet大賽的分類(lèi)任務(wù)第一名。InceptionNet的提出是為了解決CNN中的網(wǎng)絡(luò)中參數(shù)增多使得計(jì)算復(fù)雜度變大,同時(shí)網(wǎng)絡(luò)深度越深越容易出現(xiàn)梯度消失的問(wèn)題,所以InceptionNet是以降低參數(shù)量為目的,它是一個(gè)稀疏網(wǎng)絡(luò)結(jié)構(gòu),能夠增加神經(jīng)網(wǎng)絡(luò)的效果,又能保證計(jì)算資源使用效率。在本文中使用Inception-V4為主干網(wǎng)絡(luò)進(jìn)行了相應(yīng)實(shí)驗(yàn)。
c)DenseNet。DenseNet于2017年提出,與ResNet相比,DenseNet提出了一個(gè)更密集的跳躍連接機(jī)制,即連接所有的層,讓每一個(gè)層都會(huì)接受到前面所有層作為額外的輸入。該網(wǎng)絡(luò)模型通過(guò)使用密集的跳躍連接機(jī)制使得模型梯度的反向傳播效果得到了提升,并且每一層接收的額外輸入使用的是concat進(jìn)行特征拼接,從而實(shí)現(xiàn)了特征重用。雖然密集連接看似會(huì)增加很多額外的計(jì)算量,但由于每一層的特征輸出通道數(shù)的增長(zhǎng)率都會(huì)控制得較小,所以在實(shí)際的應(yīng)用中,使用DenseNet反而會(huì)讓參數(shù)量更小、計(jì)算更高效。本文使用的是DenseNet-BC-190作為主干網(wǎng)絡(luò)進(jìn)行相應(yīng)的實(shí)驗(yàn)。
5.3 評(píng)估指標(biāo)
在CNN中常用的評(píng)估指標(biāo)有平均準(zhǔn)確率(average precision,AP)、top-1準(zhǔn)確率和top-5準(zhǔn)確率。AP表示檢測(cè)所得正樣本數(shù)占所有檢測(cè)樣本的比例,其表達(dá)式如式(13)所示。
AP= TP/(TP+FP) (13)
其中:TP表示被正確檢測(cè)為正例的實(shí)例數(shù),F(xiàn)P表示被錯(cuò)誤檢測(cè)為正例的實(shí)例數(shù),AP表示類(lèi)別的平均檢測(cè)精度。
模型在預(yù)測(cè)某一張圖片時(shí),會(huì)給出1 000個(gè)類(lèi)別的概率從高到低進(jìn)行排名。top-1準(zhǔn)確率是指模型對(duì)目標(biāo)類(lèi)別預(yù)測(cè)排名第一與真實(shí)類(lèi)別相符合的概率;top-5準(zhǔn)確率則是指模型對(duì)目標(biāo)類(lèi)別預(yù)測(cè)排名前五中,與真實(shí)類(lèi)別相符合的概率。
5.4 性能分析
表2對(duì)正則化方法分類(lèi)的機(jī)制、優(yōu)勢(shì)、局限性這三個(gè)方面進(jìn)行了詳細(xì)比較。本節(jié)使用5.2節(jié)中提到的數(shù)據(jù)評(píng)估策略在ResNet-50、ResNet-101[50]、PyramidNet200[72]、Inception-V4[73]等主干網(wǎng)絡(luò)和CIFAR、ImagNet數(shù)據(jù)集上對(duì)各個(gè)正則化方法從分類(lèi)問(wèn)題和目標(biāo)檢測(cè)的角度進(jìn)行性能評(píng)估,同時(shí)還對(duì)不同正則化方法進(jìn)行組合測(cè)試,具體結(jié)果如表3~5所示。
1)圖像分類(lèi) 從表中可得:a)在不同的數(shù)據(jù)集上分類(lèi)的結(jié)果也不相同,受到類(lèi)別個(gè)數(shù)的影響,CIFAR-10的分類(lèi)結(jié)果總體要大于CIFAR-100和ImagNet數(shù)據(jù)集的分類(lèi)結(jié)果;b)在參數(shù)正則化中,DropBlock和AutoDropout在不同的數(shù)據(jù)集下都有較好的效果,可根據(jù)表2的分析進(jìn)行合適的選擇對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化改進(jìn);c)在數(shù)據(jù)正則化中,多分類(lèi)效果最好的是AutoAugment,使用該方法與其他正則化技術(shù)進(jìn)行搭配,能夠使得模型訓(xùn)練效果得到更好的優(yōu)化;d)對(duì)不同正則化進(jìn)行組合,在CIFAR和ImagNet數(shù)據(jù)集上表現(xiàn)比較優(yōu)秀,可見(jiàn)在模型訓(xùn)練的過(guò)程嘗試搭配使用不同的正則化,能讓模型得到更優(yōu)的分類(lèi)性能;e)通過(guò)實(shí)驗(yàn)可知,并不是所有的正則化方法組合都能提升模型的分類(lèi)能力,比如在不同的主干網(wǎng)絡(luò)中將label smoothing與DroBlock進(jìn)行組合,模型基本沒(méi)有得到效果提升,所以采用何種正則化組合能夠有效改善模型,需要進(jìn)行實(shí)驗(yàn)驗(yàn)證;f)使用優(yōu)質(zhì)的標(biāo)注數(shù)據(jù)集并使用簡(jiǎn)單的圖像變換策略進(jìn)行數(shù)據(jù)增廣,能夠讓模型性能得到提升,但真實(shí)場(chǎng)景下的圖像數(shù)據(jù)可能與訓(xùn)練樣本數(shù)據(jù)有很大不同,最新的方法feature weaken也在探索減少真實(shí)圖像與標(biāo)注圖像差異的方法,說(shuō)明研究真實(shí)圖像與標(biāo)注圖像之間的差異性是值得關(guān)注的。
2)目標(biāo)檢測(cè) 在計(jì)算機(jī)視覺(jué)領(lǐng)域目標(biāo)檢測(cè)任務(wù)中,常見(jiàn)的基于CNN的目標(biāo)檢測(cè)器可以劃分為one-stage[74~76]和two-stage[77,78]兩類(lèi)。從表中可得:a)雖然參數(shù)正則化中AutoDropout對(duì)于模型的性能提升較好,但是使用該方法需要大量的額外計(jì)算成本,而在目標(biāo)檢測(cè)實(shí)際應(yīng)用中需要考慮性能與延遲的權(quán)衡;b)對(duì)模型進(jìn)行特定目標(biāo)檢測(cè)訓(xùn)練時(shí),通常都是小樣本訓(xùn)練,而數(shù)據(jù)增廣能夠最大限度地填補(bǔ)訓(xùn)練樣本量的不足,讓模型在目標(biāo)檢測(cè)任務(wù)上得到更好的性能,比如CutMix、mixup等數(shù)據(jù)增廣的方式都能使得模型的檢測(cè)精度得到提升;c)無(wú)論是在分類(lèi)任務(wù)還是目標(biāo)檢測(cè)上,使用不同的正則化方法進(jìn)行合理的組合使用,都會(huì)讓模型的性能得到更好的效果,比如cutout與KeepAugmeng相結(jié)合就能使得模型的檢測(cè)精度在單一使用其中任何一個(gè)的基礎(chǔ)上得到顯著的提升。
6 正則化方法的未來(lái)研究趨勢(shì)
正則化方法的創(chuàng)建初衷是用來(lái)解決模型過(guò)擬合問(wèn)題,如今各類(lèi)正則化方法已經(jīng)在CNN中得到應(yīng)用,并帶來(lái)了很好的效果。未來(lái)正則化方法在以下方面值得進(jìn)一步研究。
a)計(jì)算機(jī)視覺(jué)的方向。Transformer是一種采用注意力機(jī)制的深度學(xué)習(xí)模型,在如今依然是一個(gè)不斷探索的領(lǐng)域,將應(yīng)用于CNN效果較好的正則化方法直接移植到Transformer中效果普遍較差,研究如何將CNN中效果好的正則化方法適配Transformer,讓模型能夠更好地?cái)M合網(wǎng)絡(luò)的全局信息,是一個(gè)值得改進(jìn)的思路。
b)元學(xué)習(xí)方面。元學(xué)習(xí)是讓模型學(xué)習(xí)如何去學(xué)習(xí),正則化方法對(duì)不同的網(wǎng)絡(luò)架構(gòu)需要對(duì)自身超參數(shù)進(jìn)行調(diào)整,可以嘗試結(jié)合元學(xué)習(xí)的思想讓模型在訓(xùn)練過(guò)程中學(xué)習(xí)如何設(shè)置更好的正則化參數(shù),這樣能夠讓模型在面對(duì)多任務(wù)問(wèn)題時(shí)能有更好的適應(yīng)性。
c)模型優(yōu)化與泛化的權(quán)衡。目前大多數(shù)正則化效果好的方法都側(cè)重于提高模型的泛化能力,而忽略了模型優(yōu)化的問(wèn)題,導(dǎo)致模型在訓(xùn)練過(guò)程中學(xué)習(xí)不穩(wěn)定收斂速度較慢,雖然現(xiàn)在已經(jīng)有一部分針對(duì)該問(wèn)題的研究,但是離期望的效果還有很大的差距,所以該方向同樣值得繼續(xù)深入研究。
7 結(jié)束語(yǔ)
本文根據(jù)近幾年來(lái)CNN中常用的正則化方法,通過(guò)參數(shù)正則化、數(shù)據(jù)正則化、標(biāo)簽正則化這三方面進(jìn)行了詳細(xì)總結(jié)。正則化方法作為機(jī)器學(xué)習(xí)中防止訓(xùn)練模型出現(xiàn)過(guò)擬合問(wèn)題的一項(xiàng)重要手段,已經(jīng)在各個(gè)模型訓(xùn)練中廣泛應(yīng)用,例如小樣本訓(xùn)練的網(wǎng)絡(luò)。在對(duì)正則化方法進(jìn)行系統(tǒng)的總結(jié)過(guò)程中,筆者發(fā)現(xiàn)在對(duì)于深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行正則化方法應(yīng)用時(shí),單一地使用正則化方法可能帶來(lái)的效果對(duì)于實(shí)驗(yàn)結(jié)果而言是不明顯的,而將正則化方法進(jìn)行組合應(yīng)用時(shí),能更有效地預(yù)防模型過(guò)擬合問(wèn)題。發(fā)現(xiàn)一個(gè)新的正則化方法并對(duì)其進(jìn)行系統(tǒng)性總結(jié)是非常困難的,但對(duì)不同的正則化方法進(jìn)行創(chuàng)新組合使用使得模型得到更好的優(yōu)化是比較容易實(shí)現(xiàn)的,這也是今后筆者會(huì)著重進(jìn)行研究的方向。
參考文獻(xiàn):
[1]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proc of the 26th Annual Conference on Neural Information Processing Systems.2012:1106-1114.
[2]Karen S,Andrew Z.Very deep convolutional networks for large-scale image recognition[C]//Proc of the 3rd International Conference on Learning Representations.2015.
[3]Ross B G,Jeff D,Trevor D,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of Conference on Computer Vision and Pattern Recognition.2014.
[4]Jonathan L,Evan S,Trevor D.Fully convolutional networks for semantic segmentation[C]//Proc of Conference on Computer Vision and Pattern Recognition.2015.
[5]Kaiming H,Georgia G,Piotr D,et al.Mask R-CNN[C]//Proc of International Conference on Computer Vision.2017.
[6]Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing coadaptation of feature detectors[C]//Proc of Conference on Computer Vision and Pattern Recognition.2012.
[7]Sangdoo Y,Dongyoon H,Seong J O,et al.CutMix:regularization stra-tegy to train strong classifiers with localizable features[C]//Proc of International Conference on Computer Vision.2019:6022-6031.
[8]Christian S,Vincent V,Sergey I,et al.Rethinking the inception architecture for computer vision[C]//Proc of Conference on Computer Vision and Pattern Recognition.2016:2818-2826.
[9]Breiman L.Bagging predictors[J]. Machine Learning ,1996: 24 (2):123-140.
[10]Srivastawa N,Hinton G E,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research ,2014, 15 (1):1929-1958.
[11]Ian J G,David W F,Mehdi M,et al.Maxout networks[C]//Proc of the 30th International Conference on Machine Learning.New York:ACM Press,2013:1319-1327.
[12]Junsuk C,Seungho L,Hyunjung S.Attention-based dropout layer for weakly supervised single object localization and semantic segmentation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2021, 43 (12):4256-4271.
[13]Zhu Hui,Zhao Xiaofang.TargetDrop:a targeted regularization method for convolutional neural networks[C]//Proc of International Confe-rence on Acoustics Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:3283-3287.
[14]Wan Li,Matthew D Z,Zhang Sixin,et al.Regularization of neural networks using dropconnect[C]//Proc of the 30th International Conference on Machine Learning.New York:ACM Press,2013:1058-1066.
[15]Mojtaba F,Mohammad A,Akilesh B et al.PatchUp:a feature-space block-level regularization technique for convolutional neural networks[C]//Proc of the 34th Conference on Innovative Applications of Artificial Intelligence.2022:589-597.
[16]Hojjat M,Eghbal G M.Skipout:an adaptive layer-level regularization framework for deep neural networks[J]. IEEE Access ,2022, 10 :62391-62401.
[17]Lu Ziqing,Xu Chang,Du Bo,et al.LocalDrop:a hybrid regularization for deep neural networks[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2022, 44 (7):3590-3601.
[18]Huang Gao,Sun Yu,Liu Zhuang,et al.Deep networks with stochastic depth[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway,NJ:IEEE Press,2016:1-4.
[19]Yoshihiro Y,Masakazu I,Koichi K.ShakeDrop regularization[C]//Proc of the 6th International Conference on Learning Representations.2018.
[20]Xavier G.Shake-Shake regularization[C]//Proc of the 5th International Conference on Learning Representations.2017.
[21]Lu Yao,Lu Guangming,Li Jinxing,et al.Multiscale conditional regularization for convolutional neural networks[J]. IEEE Trans on Cybernetics ,2022, 52 (1):444-458.
[22]Zhao Chenqiu,Dong Guanfang,Zhang Shupei,et al.Frequency regularization:restricting information redundancy of convolutional neural networks[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[23]Ghiasi G,Lin T Y,Le Q.DropBlock:a regularization method for convolutional networks[C]//Proc of Annual Conference on Neural Information Processing Systems.2018:10750-10760.
[24]Brahim A S,Abdelhamid E H,Aicha M.Mixed-pooling-dropout for convolutional neural network regularization[J]. Journal of King Saud University- Computer and Information Sciences ,2022, 34 (8A):4756-4762.
[25]Jonathan T,Ross G,Arjun J,et al.Efficient object localization using convolutional networks[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:648-656.
[26]Ba L J,F(xiàn)rey B.Adaptive dropout for training deep neural networks[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013:3084-3092.
[27]Gong Dianchen,Wang Zhiling,Wang Hanqi,et al.DropMask:a data augmentation method for convolutional networks[C]//Proc of the 6th Advanced Information Technology,Electronic and Automation Control Conference.Piscataway,NJ:IEEE Press,2022:1718-1722.
[28]Pham H,Le Q V.AutoDropout:learning dropout patterns to regularize deep networks[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.2021:9351-9359.
[29]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st InternationalConference on Neural Information Processing Systems.2017:6000-6010.
[30]Czernorucki M V,De Salles M B C,Avila S L,et al.Multi-objective design optimization for HVDC-LCC converter transformers:analytical and fea-based comparison[J]. IEEE Access ,2023, 11 :23032-23045.
[31]Bumsoo K,Jonghwan M,Minchul S,et al.MSTR:multi-scale Transformer for end-to-end human-object interaction detection[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:19556-19565.
[32]Hong Xia,Chen Sheng,Guo Yi,et al.l1-norm penalized orthogonal forward regression[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015.
[33]Lu Zhiwu,Peng Yuxin.Robust image analysis by l1-norm semi-supervised learning[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2011.
[34]Enzo T,Andrea B,F(xiàn)rancesco O,et al.SeReNe:sensitivity-based regularization of neurons for structured sparsity in neural networks[J]. IEEE Trans on Neural Networks and Learning Systems ,2022, 33 (12):7237-7250.
[35]Hu Yaokai,Li Feng,Li Bo.Group L1/2 regularization for filter pruning of convolutional neural networks[C]//Proc of the 4th International Conference on Frontiers Technology of Information and Computer.Piscataway,NJ:IEEE Press,2022:1029-1032.
[36]Wu Shuang,Deng Lei,Liu Liu,et al.L1-norm batch normalization for efficient training of deep neural networks[J]. IEEE Trans on Neural Networks and Learning Systems ,2019, 30 (7):2043-2051.
[37]Han X,Kashif R,Roland V.Fashion-MNIST:a novel image dataset for benchmarking machine learning algorithms[C]//Proc of Conference on Computer Vision and Pattern Recognition.2017.
[38]Olga R,Deng Jia,Hao Su,et al.ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision ,2015, 115 (3):211-252.
[39]Fisher Y,Yinda Z,Shuran S,et al.LSUN:construction of a large-scale image dataset using deep learning with humans in the loop[C]//Proc of Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017.
[40]Corinna C,Mehryar M,Afshin R.L2 regularization for learning kernels[C]//Proc of the 25th Conference on Uncertainty in Artificial Intelligence.2009:109-116.
[41]Anders K,John A.H.A simple weight decay can improve generalization[C]//Advances in Neural Information Processing Systems.1991:950-957.
[42]Ilya L,F(xiàn)rank H.Decoupled weight decay regularization[C]//Proc of the 7th International Conference on Learning Representations.2019.
[43]Kingma D P,Ba J.Adam:a method for stochastic optimization[C]//Proc of the 3rd International Conference on Learning Representations.2015.
[44]Krishna K S,Hao Yu,Aron S,et al.Hide-and-seek:a data augmentation technique for weakly-supervised localization and beyond[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.
[45]Morgan N,Bourlard H.Generalization and parameter estimation in feedforward nets:some experiments[C]//Proc of the 2nd International Conference on Neural Information Processing Systems.1989:630-637.
[46]Connor S,Taghi M K.A survey on image data augmentation for deep learning[J]. Journal of Big Data ,2019, 6 (1):60.
[47]Yang Suorong,Xiao Weikang,Zhang Mengcheng,et al.Image data augmentation for deep learning:a survey[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[48]Yang Zihang,Sinnott R O,Bailey J,et al.A survey of automated data augmentation algorithms for deep learning-based image classication tasks[J]. Knowledge and Information Systems, 2023, 65 (7):2805-2861.
[49]Zhong Zhun,Zheng Liang,Kang Guoliang,et al.Random erasing data augmentation[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020.
[50]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[51]Yan Linyu,Zheng Kunpeng,Xia Jinyao,et al.LMix:regularization strategy for convolutional neural networks[J]. Signal Image Video Process ,2023, 17 (4):1245-1253.
[52]Terrance D,Graham W T.Improved regularization of convolutional neural networks with cutout[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.
[53]Sergey I,Christian S.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]//Proc of the 32nd International Conference on Machine Learning.2015:448-456.
[54]Gong Chengyue,Wang Dilin,Li Meng,et al.Keepaugment:a simple information preserving data augmentation approach[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:1055-1064.
[55]Zhang Hongyi,Cisse M,Dauphin Y N,et al.Mixup:beyond empirical risk minimization[C]//Proc of the 6th International Conference on Learning Representations.2018.
[56]Jiang Songhao,Chu Yan,Ma Tianxing,et al.Feature weaken:vicinal data augmentation for classification[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[57]Ekin D C,Barret Z,Dandelion M,et al.AutoAugment:learning augmentation strategies from data[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:113-123.
[58]Liang Jiawei,Liang Siyuan,Liu Aishan,et al.Rethinking data augmentation in knowledge distillation for object detection[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[59]Jason W W,Kai Z.EDA:easy data augmentation techniques for boosting performance on text classification tasks[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.2019:6381-6387.
[60]Zhang Xiang,Zhao Junbo,LeCun Y.Character-level convolutional networks for text classification.[C]//
Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:649-657.
[61]Bai Yingbin,Yang Erkun,Han Bo,et al.Understanding and improving early stopping for learning with noisy labels[C]//Proc of the 35th Conference on Neural Information Processing Systems.2021:24392-24403.
[62]Gou Jianping,Yu Baosheng,Maybank S J,et al.Knowledge distillation:a survey[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020.
[63]Tian Yijun,Pei Shichao,Zhang Xiangliang,et al.Knowledge distillation on graphs:a survey[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[64]丁家滿(mǎn),劉楠,周蜀杰,等.基于正則化的半監(jiān)督弱標(biāo)簽分類(lèi)方法[J].計(jì)算機(jī)學(xué)報(bào),2022, 45 (1):69-81. (Ding Jiaman,Liu Nan,Zhou Shujie,et al.Semi-supervised weak-label classification method by regularization[J]. Chinse Journal of Computers ,2022, 45 (1):69-81.)
[65]羅俊,高清維,檀怡,等.基于雙拉普拉斯正則化和因果推斷的多標(biāo)簽學(xué)習(xí)[J].計(jì)算機(jī)工程,2023, 49 (11):49-60. (Luo Jun,Gao Qingwei,Tan Yi,et al.Multi-lable learning based on double Laplace regularization and causal inference[J]. Computer Engineering ,2023, 49 (11):49-60.)
[66]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J]. Neural Computing ,2006, 18 (7):1527-1554.
[67]Julian L,Eyke H.From label smoothing to label relaxation[C]//Proc of the 33rd Conference on Innovative Applications of Artificial Intel-ligence.2021:8583-8591.
[68]Müller R,Kornblith S,Hinton G E.When does label smoothing help?[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.2019:4696-4705.
[69]Gregory C,Saeed A,Jonathan T,et al.EMNIST:an extension of MNIST to handwritten letters[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.
[70]Brendan M,Eider M,Daniel R,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics.2017:1273-1282.
[71]Deng Jia,Dong Wei,Richard S,et al.ImageNet:a large-scale hierarchical image database[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:248-255.
[72]Dongyoon H,Jiwhan K,Junmo K.Deep pyramidal residual networks[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6307-6315.
[73]Christian S,Sergey I,Vincent V,et al.Inception-v4,inception-ResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.2017:4278-4284.
[74]Chien Y W,Alexey B,Mark L.YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[75]Li Chuyi,Li Lulu,Geng Yifei,et al.YOLOv6 v3.0:a full-scale reloading[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[76]Xu Xianzhe,Jiang Yiqi,Chen Weihua,et al.DAMO-YOLO:a report on real-time object detection design[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[77]Ren Shaoqing,He Kaiming,Ross B G,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2017, 39 (6):1137-1149.
[78]Liu Zongmin,Wang Jirui,Li Jie,et al.A novel improved mask RCNN for multiple targets detection in the indoor complex scenes[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[79]Hinton G E,Vinyals O,Dean J.Distilling the knowledge in a neural network[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015.
收稿日期:2023-06-29; 修回日期:2023-08-28 基金項(xiàng)目:國(guó)家自然科學(xué)基金地區(qū)基金資助項(xiàng)目(62162013);貴州師范大學(xué)學(xué)術(shù)新苗基金資助項(xiàng)目(黔師新苗[2022]30號(hào))
作者簡(jiǎn)介:陳琨(1999—),男,貴州黔南人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)槿斯ぶ悄?、目?biāo)檢測(cè);王安志(1986—),男(通信作者),貴州銅仁人,副教授,碩導(dǎo),博士,主要研究方向?yàn)槿斯ぶ悄?、深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)(andyscu@163.com).