中圖分類號:TP181 文獻(xiàn)標(biāo)志碼:A
深度神經(jīng)網(wǎng)絡(luò)在解決各類計(jì)算機(jī)視覺任務(wù)時,呈現(xiàn)出了卓越性能和顯著成果。其發(fā)展離不開浩繁數(shù)據(jù)集的支撐,但由于樣本可辨識度較低、標(biāo)注樣本具有主觀性等因素,不可避免地引入了標(biāo)簽噪聲,從而影響深度模型泛化效果。同時,標(biāo)簽噪聲無處不在:醫(yī)療領(lǐng)域內(nèi)的數(shù)據(jù)集的標(biāo)記需要領(lǐng)域?qū)I(yè)知識,且觀察者與觀察者之間也會存在分歧,而錯誤的預(yù)測可能會直接影響到診療結(jié)果[3];在軍事目標(biāo)識別任務(wù)中,一些外觀相似的軍事目標(biāo)經(jīng)常容易被標(biāo)注錯誤,比如坦克和自行榴彈炮[4]等。標(biāo)簽噪聲存在的必然性和普遍性使標(biāo)簽噪聲學(xué)習(xí)的研究顯得尤為迫切、重要。
因此,越來越多的學(xué)者針對提高標(biāo)簽噪聲學(xué)習(xí)方法的泛化性進(jìn)行研究。根據(jù)這些方法的針對對象不同,可以分為Robustloss、優(yōu)化方法、訓(xùn)練范式、數(shù)據(jù)以及混合方法這幾類。Robustloss是最普遍、傳統(tǒng)的方法,通過建立更魯棒的損失函數(shù)緩解標(biāo)簽噪聲的影響[5-7]。銳度感知最小化(sharpness-awareminimization,SAM)[8]通過向模型參數(shù)空間中引入對抗性權(quán)重?cái)_動改進(jìn)優(yōu)化方法。同時,Coteaching[9]、半監(jiān)督學(xué)習(xí)(semi-supervised learn-ing)[10]、對比學(xué)習(xí)[1-12]等訓(xùn)練范式也常用于解決標(biāo)簽噪聲問題。針對樣本數(shù)據(jù)進(jìn)行處理,也是解決標(biāo)簽噪聲問題的常用方法之一。通常通過樣本加權(quán)[13]、標(biāo)簽校正[14]、噪聲標(biāo)簽過濾[9]和利用Mix-up[15]進(jìn)行數(shù)據(jù)增強(qiáng)等方法進(jìn)行。同時,將上述方法進(jìn)行組合的混合方法[16-17]更是提高標(biāo)簽噪聲學(xué)習(xí)泛化能力的常用手段。盡管現(xiàn)有的研究已經(jīng)證明了它們的有效性,但這些算法設(shè)計(jì)往往高度依賴于過往的經(jīng)驗(yàn)性結(jié)果,這也就導(dǎo)致它們難以利用最新技術(shù)來開發(fā)基于參數(shù)空間的深度神經(jīng)網(wǎng)絡(luò)的能力。
近幾年,有學(xué)者發(fā)現(xiàn)損失平面的幾何形狀和模型的泛化能力存在關(guān)聯(lián)。基于這一點(diǎn),F(xiàn)ORET等[8]提出了銳度感知最小化優(yōu)化算法。一般的優(yōu)化方法包括SGD的目的都是尋找一個本身就具備低損失值的參數(shù),而SAM的目的是通過尋找區(qū)域內(nèi)具有均勻的低損失值的參數(shù),使其能夠同時最小化損失和損失銳度。由于計(jì)算的是區(qū)域參數(shù)而不是單個參數(shù),因此其損失平面相比其他優(yōu)化方法更加的平坦,這也就達(dá)到了提高模型泛化的效果。但是,對于標(biāo)簽噪聲學(xué)習(xí)來說,SAM的運(yùn)用還存在一個問題,即SAM不是專門為了標(biāo)簽噪聲學(xué)習(xí)而研發(fā)的,如果直接將其加入到標(biāo)簽噪聲學(xué)習(xí)中,SAM難以在每批噪聲數(shù)據(jù)中找到正確的對抗性擾動。而本文也正是針對這一點(diǎn),對SAM進(jìn)行研究改進(jìn),使其能夠更好地用于標(biāo)簽噪聲學(xué)習(xí)。
針對SAM難以在每批噪聲數(shù)據(jù)中找到正確的對抗性擾動這一問題,本研究提出了擾動前后信息互補(bǔ)的銳度感知最小化(SAMwithcomplementaryinformationpreand post-perturbation,CI3PSAM),通過向模型參數(shù)空間中引入對抗性權(quán)重?cái)_動,即擾動前后的模型參數(shù),將其結(jié)合達(dá)到信息互補(bǔ)的效果,以此更好地尋找正確的擾動方向。同時為了提高擾動方向的準(zhǔn)確性,還引入了動態(tài)閾值策略來區(qū)分噪聲樣本與干凈樣本。本文研究旨在通過引入一種有效的優(yōu)化方法,在提升模型的泛化性能的同時提高檢測精度。
1 相關(guān)工作
1.1 標(biāo)簽噪聲學(xué)習(xí)
標(biāo)簽噪聲指在訓(xùn)練過程中所使用的目標(biāo)標(biāo)簽與實(shí)例本身實(shí)際應(yīng)有的真實(shí)標(biāo)簽之間存在的差異或偏差。從噪聲標(biāo)簽中學(xué)習(xí)是一場持久戰(zhàn)。目前對標(biāo)簽噪聲學(xué)習(xí)的研究方向呈現(xiàn)多樣化的趨勢。
學(xué)者們考慮到損失函數(shù)對標(biāo)簽噪聲非常敏感這一特性,常將損失函數(shù)由更魯棒的版本代替,如平均絕對誤差(mean absolute error,MAE)[7]、廣義交叉熵(generalized cross entropy,GCE)[5]等。ZHANG等[14]提出的漸進(jìn)式標(biāo)簽校正算法(pro-gressivelabelcorrection,PLC)根據(jù)噪聲分類器的置信度逐步校準(zhǔn)數(shù)據(jù)的標(biāo)簽。HAN等[9提出的Co-teaching同時訓(xùn)練兩個網(wǎng)絡(luò),使其中一個網(wǎng)絡(luò)根據(jù)smallloss準(zhǔn)則協(xié)助另一個網(wǎng)絡(luò)分離干凈樣本,并交替協(xié)助以更新樣本、相互監(jiān)督。LI等將標(biāo)簽噪聲學(xué)習(xí)與半監(jiān)督學(xué)習(xí)聯(lián)系并結(jié)合,提出的Divi-deMix把具有高置信概率為噪聲樣本的訓(xùn)練數(shù)據(jù)的樣本標(biāo)簽丟棄,將其作無標(biāo)簽數(shù)據(jù)來正則化模型。LI等[12從對比學(xué)習(xí)的角度,提出了一種新的對比正則化函數(shù)來學(xué)習(xí)噪聲數(shù)據(jù),即CTRR模型(contrastiveregularization),該模型可以有效約束圖像特征,防止模型對標(biāo)簽噪聲過擬合。LU等[13]把課程學(xué)習(xí)(curriculumlearning,CL)結(jié)合到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,提出了一種樣本加權(quán)方案。TAN等[11]受其啟發(fā),在Co-teaching 的基礎(chǔ)上提出 Co-learning,即通過結(jié)合自監(jiān)督任務(wù)和原有的有監(jiān)督任務(wù)協(xié)同訓(xùn)練。自監(jiān)督任務(wù)與標(biāo)簽校正的結(jié)合(contrative label correction,CLC)[16]也產(chǎn)生良好的性能提升。HUANG等[17]結(jié)合分層標(biāo)簽校正和混合監(jiān)督對比學(xué)習(xí)(mixupsupervised contrastivelearning,MSCL)提出了一種有效的噪聲標(biāo)簽學(xué)習(xí)框架。
當(dāng)前的標(biāo)簽噪聲學(xué)習(xí)方法都能夠有效對待噪聲標(biāo)簽,但這些方法往往高度依賴于過往的經(jīng)驗(yàn)性結(jié)果,這在一定程度上限制了它們充分采納和利用最新的技術(shù)進(jìn)展,來進(jìn)一步開發(fā)基于參數(shù)空間的深度神經(jīng)網(wǎng)絡(luò)。而近年提出的SAM能夠有效利用參數(shù)空間來提高模型泛化能力。
1.2 銳度感知最小化
SAM是更先進(jìn)、更符合現(xiàn)代深度學(xué)習(xí)的優(yōu)化方法,是對隨機(jī)梯度下降(stochasticgradientde-scent,SGD)的一種改進(jìn)和擴(kuò)展。它繼承了SGD的基本思想,即使用梯度下降來優(yōu)化模型參數(shù),但同時又引入了新的優(yōu)化策略,以改善模型的泛化性能。SAM的核心思想是在優(yōu)化過程中不僅考慮損失函數(shù)的值,還考慮損失函數(shù)在參數(shù)空間中的尖銳程度,通過尋找損失函數(shù)值較低且尖銳程度較小的參數(shù)區(qū)域,使損失景觀更加平坦,從而間接地提高模型的泛化能力,減少過擬合的風(fēng)險。
SAM對在剛性區(qū)域中定義的銳度在參數(shù)重新縮放的敏感性方面具有缺陷,這使得損失不受影響,從而導(dǎo)致銳度和泛化差距之間的聯(lián)系減弱。KWON等[18根據(jù)這一問題,提出了自適應(yīng)銳度感知最小化(adaptiveSAM,ASAM),該優(yōu)化方法可以自適應(yīng)調(diào)整最大化區(qū)域,從而在參數(shù)重新縮放時均勻地發(fā)揮作用。同時,SAM會無差別地計(jì)算所有參數(shù)的擾動,不可避免地造成計(jì)算浪費(fèi),其計(jì)算量是 SGD等常見優(yōu)化方法的兩倍。據(jù)此,DU等[19]將隨機(jī)權(quán)重?cái)_動和銳度感知數(shù)據(jù)選擇兩個新穎的策略引入SAM,提出了高效銳度感知最小化(effi-cientSAM,ESAM),在不犧牲其泛化性能的情況下提高了SAM的效率。但是ESAM每一步都隨機(jī)選擇樣本的方式可能會導(dǎo)致優(yōu)化偏差。MI等[20]對其進(jìn)行改進(jìn),提出了稀疏銳度感知最小化(sparseSAM,SSAM),實(shí)現(xiàn)稀疏擾動的二進(jìn)制編碼。YUE等[21]從SAM的損失函數(shù)人手,提出了權(quán)重銳度感知最小化(weightedSAM,WSAM),該方法將平坦程度視為正則化項(xiàng),并給不同任務(wù)之間設(shè)置了不同的權(quán)重,來改善訓(xùn)練極值點(diǎn)的平坦度。由于尖銳和平坦的最小值都可以具有低擾動損失,因此SAM可能并不會每次都選擇平坦的最小值。基于這一點(diǎn)發(fā)現(xiàn),ZHUANG等22提出的替代間隙引導(dǎo)的銳度感知最小化模型(gapguidedSAM,GSAM)定義了一個替代間隙,用其衡量局部極小點(diǎn)的銳度,并且易于計(jì)算,可以在訓(xùn)練時直接最小化。
2 方法
2.1 變量說明
在標(biāo)簽噪聲學(xué)習(xí)任務(wù)中,將擁有 N 個樣本的 K 類訓(xùn)練樣本集定義為 S={(xi,yi)}i=1N ,其中, xi 表示第 i 個樣本, yi 表示數(shù)據(jù)樣本 xi 的標(biāo)簽, yi∈ {1,2,…,K} 。從未知的數(shù)據(jù)集 D 中獨(dú)立同分布地抽取得到訓(xùn)練樣本 s ,并且其標(biāo)簽以一定的錯誤率被損壞。標(biāo)簽噪聲學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個模型f(w) ,能夠?qū)⑵渫茝V到一個未知的數(shù)據(jù)集 D 。特別是當(dāng)我們考慮如深度神經(jīng)網(wǎng)絡(luò)這樣的現(xiàn)代過度參數(shù)化模型時,由一個 w?W?Rd 參數(shù)化的模型族表示, d 通常比 N 大得多。對于每個數(shù)據(jù)點(diǎn)的損失函數(shù) l ,使用經(jīng)典的交叉熵(crossentropy,CE)損失函數(shù),則訓(xùn)練損失可以定義為
,群體損失定義為 LD(w)= (20E(x,y)~D[l(f(w,x),y)] 。在僅觀察到訓(xùn)練樣本 s 的情況下,模型 f(w) 訓(xùn)練的核心目標(biāo)是選取那些能夠最小化群體損失函數(shù) LD(w) 的模型參數(shù) w ,以此來優(yōu)化模型的性能。
2.2銳度感知最小化相關(guān)計(jì)算
SAM中已經(jīng)證明最小化群體損失相當(dāng)于最小 化概率近似正確貝葉斯(probablyapproximately correctBayesian,PAC-Bayesian)誤差上限,即
式中: ? 表示半徑為 ρ 的球形領(lǐng)域內(nèi)的擾動;Ls(w+?) 表示以 w 為中心、半徑為 ρ 的球域內(nèi)最壞的可能損失;方括號中的式子表示通過測量從 w 到附近參數(shù)值過程中損失值的變化程度; h 函數(shù)表示一個嚴(yán)格遞增函數(shù)。隨后,它通過最小化銳度項(xiàng)(2號 、訓(xùn)練損失值和正則化w ,實(shí)現(xiàn)同時最小化訓(xùn)練損失值和找到損失景觀平坦最小值的目的。同時
可以用標(biāo)準(zhǔn)的L2正則化項(xiàng)
來代替,更新后的式子如下:
minwLD(w)=minwmax|?|p?ρLS(w+?)+λ|w|22
SAM分兩步來解決最大-最小優(yōu)化問題:第一步,在 w 周圍進(jìn)行一階泰勒展開來近似內(nèi)部最大
化問題進(jìn)行擾動計(jì)算:
第二步,利用數(shù)值優(yōu)化器,如SGD,更新模型權(quán)重以最小化 Ls(w+?) :
wt+1≈wt-η?wLs(w+?*)
式中: η 為步長; ablaw 為對參數(shù) w 求偏導(dǎo)。
SAM的關(guān)鍵即是對上述兩步進(jìn)行迭代求解,尋找平坦最小值。
2.3 擾動計(jì)算
由于噪聲標(biāo)簽的存在,特別是當(dāng)噪聲占比較大時,擾動后的模型參數(shù)的梯度下降方向可能無法準(zhǔn)確地表示最大化的鄰域損失值的方向。因此,我們提出了一個新的擾動計(jì)算策略。
首先分析了在訓(xùn)練過程中對噪聲樣本和干凈樣本之間的參數(shù)擾動問題?;谶@些分析,我們對模型參數(shù)的梯度擾動和計(jì)算進(jìn)行改進(jìn),通過干凈樣本來確定參數(shù)擾動的方向,并在損失景觀中搜索平坦最小值,在限制樣本的梯度擾動方向的同時,對齊擾動前后的模型參數(shù)信息。具體實(shí)現(xiàn)過程如圖1所示。在每個epoch中,樣本都會根據(jù)其特性被動態(tài)劃分為可能的干凈樣本 S+ 和可能的噪聲樣本 S- ,本文方法主要針對可能的干凈樣本 S+ 進(jìn)行計(jì)算,對可能的噪聲樣本 S- 不做處理,相當(dāng)于暫時丟棄。樣本分類的方法將在下一小節(jié)中詳細(xì)描述。
當(dāng)進(jìn)入第 χt 個epoch時,網(wǎng)絡(luò)模型的參數(shù)計(jì)算將經(jīng)歷以下幾個步驟。首先,將可能的干凈樣本S+ 傳遞到模型參數(shù) wt 中執(zhí)行前向-后向傳播操作,從而計(jì)算網(wǎng)絡(luò)參數(shù)關(guān)于可能的干凈樣本 S+ 的梯度ablaLs+(wt) 研究中的SAM利用干凈樣本來改善擾動方向,由式(3)計(jì)算可得擾動 ?* ,于是擾動后的模型參數(shù)定義為 wt*=wt+?* 。
如果僅用擾動后的模型參數(shù)來確定擾動方向,模型的學(xué)習(xí)效果并不是很好,這可能是因?yàn)樵肼晹?shù)據(jù),從而造成誤判。將擾動前后的模型參數(shù)相結(jié)合,進(jìn)行信息互補(bǔ)可以有效解決這一問題。
可能的干凈樣本 S+ 在擾動前的網(wǎng)絡(luò)輸出為fs+(wt) ,擾動后的網(wǎng)絡(luò)輸出為 fs+(wt*) 。為了確保二者在輸出分布上保持一致,需要對它們進(jìn)行softmax處理,將分?jǐn)?shù)分布轉(zhuǎn)換為概率分布,使其對齊,由此得到 Ps+(wt) 與 Ps+(wt*) 。模型的訓(xùn)練目標(biāo)是強(qiáng)化對干凈樣本的預(yù)測能力,因此在后續(xù)步驟中,將給予干凈樣本的擾動權(quán)重以正面激勵,以此提高權(quán)重?cái)_動方向的準(zhǔn)確性。為了實(shí)現(xiàn)這一點(diǎn),在干凈樣本的預(yù)測模型中,加上其擾動前的預(yù)測權(quán)重的對數(shù)概率,即表示為
這樣即可實(shí)現(xiàn)擾動前后的模型參數(shù)信息互補(bǔ)的目的,在增強(qiáng)模型對干凈樣本的學(xué)習(xí)能力的同時,使模型更好地適應(yīng)數(shù)據(jù)變化,提高了模型整體的泛化性能。最終,對上述分布采用歸一化操作LS+(wt*)=crossentroy(F(wt),Y) ,計(jì)算得到新的網(wǎng)絡(luò)權(quán)重參數(shù)并進(jìn)行網(wǎng)絡(luò)預(yù)測:
wt+1=wt-η?Ls+(wt?)
2.4 樣本劃分
如果我們無差別地對所有樣本進(jìn)行加權(quán),那么許多明顯的噪聲樣本也會被加權(quán),從而導(dǎo)致?lián)p壞模型的參數(shù)擾動,同時也會降低SAM的效率。因此,引人了一種基于動態(tài)閾值的樣本選擇策略,將每個批次中的樣本劃分為可能的干凈樣本 S+ 與可能的噪聲樣本 S- 。
為了動態(tài)地將批次中的樣本劃分為兩個集合,我們引入了類別閾值 τ(t) , Φt 表示第 χt 個epoch。將模型在噪聲標(biāo)簽上的第 i 個實(shí)例的softmax 輸出表示為 p(xi,yi)=softmax(f(w,xi)) 。當(dāng) p(xi,yi) 大于類別閾值 τ(t) ,那么第 χi 個實(shí)例將被標(biāo)記為可能的干凈樣本 S+ ;反之,被標(biāo)記為可能的噪聲樣本,可以表示為如下公式:
動態(tài)閾值計(jì)算方法如下:
式中: K-1} 以及 α=0.99 用作調(diào)節(jié)分配給歷史輸出的權(quán)重的平滑參數(shù)。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)共涉及3個數(shù)據(jù)集,它們的詳細(xì)特征如表1所示。CIFAR-1O和CIFAR-100數(shù)據(jù)集作為自然數(shù)據(jù)集,很難控制或確定其噪聲特性,因此在該實(shí)驗(yàn)中特意引人兩種噪聲模型:對稱和不對稱噪聲,以模擬現(xiàn)實(shí)世界中的標(biāo)簽噪聲情況。對稱噪聲表示每個類別都以相似的概率被錯誤標(biāo)記為其他類別,而非對稱噪聲根據(jù)CIFAR-1O上發(fā)生的真實(shí)錯誤結(jié)構(gòu),如“鳥 $$ 飛機(jī)”“貓 $$ 狗”等,以此設(shè)計(jì)噪聲[23],CIFAR-100 則將每個類別的標(biāo)簽翻轉(zhuǎn)到同一超類中的下一個類別。參考先前的文獻(xiàn)研究[16-17],在CIFAR-10 和 CIFAR-100 上分別使用20% . 40% . 60% 和 80% 4個不同的對稱噪聲率,以及 20% . 30% , 40% 的非對稱噪聲率。而第3個數(shù)據(jù)集ANIMAL-10N,則是一個真實(shí)存在的噪聲數(shù)據(jù)集,其噪聲率為 8% 。通過這3個數(shù)據(jù)集的綜合運(yùn)用,我們能夠更全面地評估模型的性能與穩(wěn)定性。
本文將 ResNet-18[24] 作為實(shí)驗(yàn)的骨干網(wǎng)絡(luò),并在3個數(shù)據(jù)集上訓(xùn)練了200個epochs,采用SGD作為基礎(chǔ)優(yōu)化器,動量為0.9,權(quán)重衰減為0.0005,batch-size為128,針對CIFAR-10數(shù)據(jù)集的初始學(xué)習(xí)率為0.03,針對CIFAR-100數(shù)據(jù)集的初始學(xué)習(xí)率為0.1,針對ANIMAL-10N數(shù)據(jù)集的初始學(xué)習(xí)率為0.01。
為了證明本文方法在標(biāo)簽噪聲的分類準(zhǔn)確率,選取了各種噪聲標(biāo)簽學(xué)習(xí)框架內(nèi)的典型算法的結(jié)果進(jìn)行對比實(shí)驗(yàn),其中包括用于魯棒損失的GCE,用于正則化的 Mixup,用于標(biāo)簽校正的PLC[4]和CLC[16],用于半監(jiān)督學(xué)習(xí)的DivideMix[10],用于對比學(xué)習(xí)的CTRR[12]和Co-learning[11],以及用于混合方法的MSCL[17]。
3.2 實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)?zāi)康氖菣z驗(yàn)CI3PSAM在不同標(biāo)簽噪聲情況下的性能。我們先在合成噪聲標(biāo)簽數(shù)據(jù)集(CIFAR-10和CIFAR-10O)進(jìn)行驗(yàn)證,再到真實(shí)的噪聲數(shù)據(jù)集(ANIMAL-10N)上驗(yàn)證,通過這3個數(shù)據(jù)集來檢驗(yàn)SAM的性能。
表2和表3展示了在CIFAR-10和CIFAR-100數(shù)據(jù)集上,本文方法與其他各種噪聲標(biāo)簽學(xué)習(xí)框架內(nèi)的經(jīng)典方法的比較。在CIFAR-1O和CIFAR-100數(shù)據(jù)集上,CI3PSAM從中度噪聲率到重度噪聲率的表現(xiàn)始終優(yōu)于基線方法,這也證明了該方法在標(biāo)簽噪聲學(xué)習(xí)領(lǐng)域內(nèi)的有效性。將CI3PSAM與Di-videMix和MSCL進(jìn)行比較,可以發(fā)現(xiàn),本文方法所展現(xiàn)出的性能大多數(shù)情況下與它們相當(dāng)。特別是在CIFAR-100數(shù)據(jù)集上,CI3PSAM在處理標(biāo)簽噪聲上展現(xiàn)出了其優(yōu)異性能,但在對稱噪聲率 80% 的情況下,該方法準(zhǔn)確度較低,不如DivideMix和MSCL穩(wěn)定。這表明本方法雖然能夠有效識別可能干凈的樣本,但由于其比例太小,導(dǎo)致無法很好地影響參數(shù)擾動,準(zhǔn)確度也因此較低。
上述的實(shí)驗(yàn)可以證明CI3PSAM可以在合成噪聲數(shù)據(jù)集上展現(xiàn)其較好的性能。為了進(jìn)一步驗(yàn)證本文方法的有效性,我們在真實(shí)噪聲數(shù)據(jù)集ANI-MAL-10N上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。結(jié)果表明,本文所提出的CI3PSAM方法優(yōu)于其他算法,其準(zhǔn)確度比PLC提高 4% ,比OT-Filter[25]提高 1.9% 。
4 結(jié)束語
本文針對探索在損失景觀中搜索平坦最小值與模型對噪聲標(biāo)簽的魯棒性之間的關(guān)系這一主題,提出了一種將擾動前后信息進(jìn)行互補(bǔ)的銳度感知最小化優(yōu)化方法用于標(biāo)簽噪聲學(xué)習(xí)。該方法將可能的干凈樣本集擾動前后的模型參數(shù)進(jìn)行相加,以達(dá)到信息互補(bǔ)的效果。為了更好地學(xué)習(xí)樣本特征,利用動態(tài)閾值將樣本劃分為可能的干凈樣本和噪聲樣本集合。通過在合成噪聲數(shù)據(jù)集和真實(shí)噪聲數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文所提出的CI3PSAM方法的優(yōu)越性與魯棒性。在未來的研究中,我們計(jì)劃將標(biāo)簽校正引人到本文研究中,進(jìn)行進(jìn)一步的探索研究。
參考文獻(xiàn):
[1]BRODLEY C E,F(xiàn)RIEDL M A. Identifying mislabeled training data[J].Journal of Artificial Intelligence Research,1999,11:131-167.
[2]ZHANG CY,BENGIO S,HARDT M,et al. Understanding deep learning(still)requires rethinking generalization[J].CommunACM,2021,64(3):107-115.
[3]KARIMI D,DOU H,WARFIELD S K,et al. Deep learning with noisy labels:exploring techniques and remedies in medical image analysis [J/OL].Medical Image Analysis,2020,65(2020-6-20)[2024-6-12].https:// doi.org/10.1016/j.media.2020.101759.
[4]宮辰,張闖,王啟舟.標(biāo)簽噪聲魯棒學(xué)習(xí)算法研究綜 述[J].航空兵器,2020,27(3):20-26.
[5] ZHANG Z L, SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels [C]//BENGIO S,WALLACHH,LAROCHELLE H, et al.Advances in Neural Information Processing Systems.New York:Curran Associates Inc.,2018,31: 8792-8802.
[6]MA XJ,HUANG HX,WANG Y S,et al. Normalized loss functions for deep learning with noisy labels[C]// III HD,SINGHA.Proceedings of the 37th International Conference on Machine Learning.Virtual:PMLR, 2020,119:6543-6553.
[7]GHOSH A,KUMAR H, SASTRYP S. Robust loss functions under label noise for deep neural networks[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence,2017,31(1)(2017-2-13)[2024-6-12]. https:// ojs.aaai.org/index. php/AAAI/article/view/10894.
[8]FORETP,KLEINERA,MOBAHI H,et al. Sharpnessawareminimization for efficiently improving generalization[C/OL]. International Conference on Learning Representations,2021(2021-1-13)[2024-6-12]. https:// openreview.net/forum? id τ=τ 6Tm1 mposlrM.
[9]HANB,YAOQM,YUXR,et al.Co-teaching:robust training of deep neural networks with extremely noisy labels[C]//32nd Conference on Neural Information Processing Systems. Montreal:Neural Information Processing Systems Foundation, 2018: 8527-8537.
[10]LI JN, SOCHER R,HOI S C H. DivideMix:learning with noisy labels as semi-supervised learning[C/OL]. International Conference on Learning Representations, 2020(2019-12-20)[2024-6-12].htps://openreview. net/forum? id = HJgExaVtwr.
[11]TAN C, XIA J, WU L R,et al. Co-learning: learning from noisy labels with self-supervision[C]//29th ACM International Conference on Multimedia(MM).New York:Association for Computing Machinery,2021:1405- 1413.
[12]LI Y, LIU S, SHE Q,et al. On learning contrastive representations for learning with noisy labels[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022: 16661-16670.
[13]LU J, ZHOU Z Y,LEUNG T,etal. MentorNet; earning data-driven curriculum for very deep neural networks on corrupted Labels [C]//JENNIFER D,ANDREASK. Proceedings of the 35th International Conference on Machine Learning. Stockholm:PMLR,2018:2304-2313.
[14]ZHANG Y K, ZHENG S Z,WU P X, et al. Learning with feature-dependent label noise:a progressive approach[C]//International Conference on Machine Learning.Vienna :ICLR,2021:1-13.
[15]ZHANG H, CISSE M, DAUPHIN Y N,et al. Mixup: beyond empirical risk minimization [C/OL]. International Conference on Learning Representations,2018(2018- 2-16)[2024-6-12]. https://openreview.net/forum? id = r1 Ddp1-Rb.
[16]HUANG B,LIN YH, XUC Y. Contrastive label correction for noisy label learning[J].Information Sciences, 2022,611: 173-184.
[17]HUANG B,ZHANG P,XU C Y.Combining layered label correction and mixup supervised contrastive learning to lear noisy labels [J/OL].Information Sciences, 2023,642(2023-5-26)[2024-6-12]. htps://doi. org/ 10.1016/j. ins.2023.119242.
[18] KWON J,KIM J,PARK H,et al. ASAM:adaptive sharpness-aware minimization for scale-invariant learning of deep neural networks [C]//Proceedings of the 38th International Conference on Machine Learning.Virtual: PMLR,2021:5905-5914.
[19]DUJW,YANHS,F(xiàn)ENGJS,etal.Efficient sharpness-aware minimization for improved training of neural networks[C]//International Conference on Learning Representations.Virtual:ICLR,2022.
[20]MIP,SHENL,RENTH,etal. Make sharpness-aware minimization stronger:a sparsified perturbation approach [J].Advances in Neural Information Processing Systems,2022,35:30950-30962.
[21]YUEY,JIANGJD,YEZL,et al. Sharpness-aware minimization revisited:weighted sharpness asaregularization term[C]//Proceedingsofthe29th ACMSIGKDD Conference on Knowledge Discovery and Data Mining. New York:Association for Computing Machinery,2023: 3185-3194.
[22]ZHUANGJT,GONGBQ,YUANLZ,et al.Surrogate gapminimization improvessharpness-aware training [C]//International Conference on Learning Representations.Virtual:ICLR,2022:1-24.
[23]LIJN,WONGYK,ZHAOQ,etal.Learningto learn fromnoisylabeled data[C]//2019IEEE/CVF Conference on Computer Visionand Pattern Recognition (CVPR). Los Alamitos:IEEE Computer Society,2019: 5046-5054.
[24]HEKM,ZHANGXY,RENSQ,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LasVegas:CVPR,2016:770-778.
[25]FENGCW,RENYL,XIEXK.Ot-filter:an optimal transport filter for learning with noisy labels[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:CVPR,2023: 16164-16174.
[26]CHEN Y Y,SHENX,HUSX,et al.Boosting coteaching with compression regularization for label noise [C]// Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. Nashville: CVPRW,2021:2688-2692.
(責(zé)任編輯:曾 晶)
Sharpness-Aware Minimization with Complementary Information for Label Noise Learning
XU Chaoyang1,WU Wanhan2,LIN Yaohai*2 (1.ScholofMechanical,Electrical,andInformationEngineering,PutianUniversity,Putian3511o,China;2.Collgeof Computerand Information Sciences,F(xiàn)ujian Agricultureand ForestryUniversity,F(xiàn)uzhou 35ooo2,China)
Abstract:Label noise presents a prevalent challenge in machine learning and computer vision applications. Sharpness-aware minimization (SAM) has emerged as an efective approach for enhancing the generalization performance of learning models within environments characterized by noisy labels. SAM achieves this by introducing adversarial weight perturbations into the model parameter space.However,the presence of label noise complicates SAM's ability to identify the correct adversarial perturbation ineach batch of noisydata.To addressthis isse,sharpness-aware minimization with complementary informationis adopted to combine the information before and after disturbance,so as to achieve the complementary efect. Thus,the correct disturbance direction is found beter.Additionally,a dynamic threshold strategy is introduced to enhance the precision of perturbation direction estimation by efectively distinguishing noise samples from clean ones. Empirical validation across various benchmark datasets,including CIFAR-1O, CIFAR-1OO,and ANIMAL-10N, furtherdemonstrate the effctiveness and superiorityof this method.The proposed method can effectively reduce the interference of noise on the disturbance direction and improve the clasification accuracy in the noisy label environment,and has excellent generalization ability.
Keywords:machine learning;deep learning;neural networks;sharpness-aware minimization;label noise learning;model generalization; perturbation computation; information complementation