王曉莉,薛 麗
(長安大學(xué) 信息工程學(xué)院,西安 710064)
目前諸如圖像分類、對象檢測、語義分割等應(yīng)用在深度學(xué)習(xí)方面表現(xiàn)出優(yōu)異性能的根本原因分為三方面,首先,計算機硬件系統(tǒng)設(shè)備的不斷提升,尤其在圖形處理單元和并行處理方面有明顯提高;其次,網(wǎng)絡(luò)參數(shù)初始化和訓(xùn)練方法方面其技術(shù)的飛躍進步,但以上兩種情況需要以數(shù)據(jù)作為支撐才可以將其良好的性能表現(xiàn)出來,即第三個原因,有類似于ImageNet 這類清晰注釋的大型數(shù)據(jù)集.在實際情況中,收集帶有噪聲的數(shù)據(jù)集很容易,但收集大規(guī)模干凈的數(shù)據(jù)集既昂貴又耗時.一方面,專家標(biāo)記數(shù)據(jù)對某些研究是必須的,如,醫(yī)學(xué)中的相關(guān)數(shù)據(jù),由于其專業(yè)性,需要專家進行標(biāo)注;另一方面,對于類似于JFT300M 這種包含3 億張圖像的龐大數(shù)據(jù)集是無法對其進行手動標(biāo)記.同時,機器學(xué)習(xí)領(lǐng)域中,使用帶有標(biāo)簽的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進而實現(xiàn)分類、回歸或其他目的的學(xué)習(xí)方式非常常見,但在相關(guān)模型學(xué)習(xí)中,如果使用含有大量錯誤信息的數(shù)據(jù),則會影響最終預(yù)測模型的準(zhǔn)確性.
因此,越來越多的學(xué)者開始針對噪聲數(shù)據(jù)進行研究,其通常分為兩類:特征噪聲和標(biāo)簽噪聲[1-3].特征噪聲是指訓(xùn)練樣本實例特征本身和其真實特征之間的偏差,例如人為地在已有特征上添加高斯噪聲.標(biāo)簽噪聲是指用于訓(xùn)練的目標(biāo)標(biāo)簽與相應(yīng)實例本身的真實標(biāo)簽之間的偏差,例如設(shè)定標(biāo)簽時錯誤設(shè)置標(biāo)簽所屬類別.這兩種噪聲類型都會導(dǎo)致系統(tǒng)的性能下降,但相關(guān)研究[4,5]表明標(biāo)簽噪聲的危害性更大,如表情識別中,高品質(zhì)面部表情到低品質(zhì)微表情的不確定性,會導(dǎo)致標(biāo)簽不一致甚至標(biāo)簽錯誤,最終降低系統(tǒng)最終的分類性能;醫(yī)學(xué)圖像分析領(lǐng)域中,病變程度和相應(yīng)位置的不同其病因也不同,稍有偏差的標(biāo)記都會影響最終診療結(jié)果;軍事領(lǐng)域中,由于外觀的相似性,坦克和自行榴彈炮等也容易被錯誤標(biāo)注,導(dǎo)致目標(biāo)識別場景中的錯誤檢測;在語義分割中,由于標(biāo)注規(guī)則的不合理,從而導(dǎo)致訓(xùn)練模型效果不好等,這些都體現(xiàn)出處理標(biāo)簽噪聲的重要性.
因此本文主要針對標(biāo)簽噪聲討論.
標(biāo)簽噪聲是一種復(fù)雜的現(xiàn)象,其產(chǎn)生的原因有多種,主要分為4 類.(1)在標(biāo)注過程中的信息不足,無法對類別數(shù)據(jù)進行充分的描述[6,7];(2)由于數(shù)據(jù)質(zhì)量較差導(dǎo)致辨識度降低,使得專家在標(biāo)注過程中無法正確標(biāo)注相應(yīng)標(biāo)簽[8,9];(3)不同主觀性所致,即標(biāo)簽的標(biāo)注非全由專家進行標(biāo)注,這是由于可靠的標(biāo)簽是一項耗時且昂貴的任務(wù),因此有些標(biāo)簽是從非專家處獲得,且不同的標(biāo)注人員根據(jù)不同角度對標(biāo)簽進行標(biāo)記得到的結(jié)果不完全一致[10,11];(4)來自數(shù)據(jù)編碼或通信問題也可能導(dǎo)致樣本標(biāo)簽出現(xiàn)錯誤[12].
從嘈雜的標(biāo)簽中學(xué)習(xí)一直以來都是一項長期挑戰(zhàn),在研究其對分類器或分類算法的影響時發(fā)現(xiàn),標(biāo)簽噪聲可能受到以下3 個因素影響:數(shù)據(jù)特征、數(shù)據(jù)的真實標(biāo)簽和標(biāo)簽特性,根據(jù)這些因素相互間的依賴關(guān)系進行分析可以將標(biāo)簽噪聲分為3 類[13,14]:隨機標(biāo)簽噪聲(Random Classification label Noise,RCN)、類標(biāo)簽噪聲(Class-Conditional label Noise,CCN)和實例相關(guān)標(biāo)簽噪聲(Instance-Dependent label Noise,IDN).如圖1所示,這些模型的依存關(guān)系復(fù)雜性從左到右依次增加,其分別表示為錯誤標(biāo)簽與實例和真實標(biāo)簽均無關(guān)、錯誤標(biāo)簽只與真實標(biāo)簽有關(guān)、錯誤標(biāo)簽只與實例特征有關(guān).其中x表示觀察到的實例特征,y表示真實標(biāo)簽,表示相應(yīng)的噪聲標(biāo)簽,隨機變量e表示該實例特征是否受到標(biāo)簽噪聲帶來的錯誤影響.
圖1 標(biāo)簽噪聲類型
通常情況下,帶有標(biāo)簽噪聲的數(shù)據(jù)在現(xiàn)實生活中無處不在,直接使用標(biāo)簽噪聲的數(shù)據(jù)會對實驗產(chǎn)生很大的影響,研究發(fā)現(xiàn)標(biāo)簽噪聲產(chǎn)生的影響大致分為3 類:(1)標(biāo)簽噪聲下的分類方法導(dǎo)致預(yù)測性能降低,例如分類時經(jīng)常使用的線性分類器、kNN 分類器都會受到標(biāo)簽噪聲的影響[15].同時,標(biāo)簽噪聲也會影響常用的決策樹、支持向量機等方法.(2)訓(xùn)練特征數(shù)和模型復(fù)雜性增加,例如由于標(biāo)簽噪聲的影響,SVM 中支持向量的數(shù)量明顯增加,導(dǎo)致其模型更加復(fù)雜[7];標(biāo)簽噪聲需要進行多次訓(xùn)練才會達到指定的性能指標(biāo)[16].(3)觀察到的類別出現(xiàn)頻率可能會發(fā)生變化,如標(biāo)簽噪聲對某種疾病發(fā)病率產(chǎn)生的影響[8].
近年來,硬件設(shè)備的不斷提高使得越來越多的研究者開始傾向于在一般情況下的研究,即進行實驗時所采集的數(shù)據(jù)基本都是被污染的、有噪聲的.目前通過網(wǎng)絡(luò)爬蟲或眾包等方法采集的數(shù)據(jù)大部分都包含噪聲,這些數(shù)據(jù)顯然掩蓋了實例特征和其類別之間的真實關(guān)系;同時在根據(jù)數(shù)據(jù)創(chuàng)建模型或者基于數(shù)據(jù)進行決策的學(xué)習(xí)中,使用存在噪聲的數(shù)據(jù)會在構(gòu)建分類器的時間、分類的準(zhǔn)確性以及分類器大小等方面降低系統(tǒng)性能,也會增加學(xué)習(xí)所需的樣本數(shù)量和相應(yīng)模型的復(fù)雜性.因此設(shè)計適應(yīng)于與標(biāo)簽噪聲有關(guān)的學(xué)習(xí)算法在研究中具有重要的研究意義和應(yīng)用價值.
在標(biāo)簽噪聲學(xué)習(xí)算法的有關(guān)研究中,不同的研究人員針對不同的分類情況進行研究,有根據(jù)數(shù)據(jù)集噪聲嘈雜程度進行區(qū)分,有根據(jù)噪聲類型劃分等.與大多數(shù)研究不同,本文主要側(cè)重于噪聲結(jié)構(gòu)的建模方式對其進行區(qū)分,其方式分為顯式處理和隱式處理.目前,有很多學(xué)習(xí)算法都對標(biāo)簽數(shù)據(jù)在嘈雜環(huán)境中的學(xué)習(xí)能力進行了研究[17],本文分析有關(guān)標(biāo)簽噪聲相關(guān)處理學(xué)習(xí)算法如圖2所示,具體分析如下.
圖2 標(biāo)簽噪聲處理方法
顯式處理即以某種方式對噪聲進行建模并操縱該模型的輸入流.通常情況下,使用標(biāo)簽噪聲學(xué)習(xí)時,最先想到的是對標(biāo)簽噪聲進行清理,其旨在消除或糾正訓(xùn)練數(shù)據(jù)中標(biāo)記錯誤的示例,該步驟可以在訓(xùn)練前完成,也可以和主模型訓(xùn)練同時進行.
噪聲清理中最簡單的方式是直接刪除分類器中分類錯誤的訓(xùn)練實例,也有將異常值影響較大的實例或看起來比較可疑的實例刪除[18],但這些方式會造成數(shù)據(jù)嚴(yán)重缺失,最終導(dǎo)致算法的準(zhǔn)確性降低.因此,研究者正在找尋更有效的方式來清理標(biāo)簽噪聲.有學(xué)者使用過濾投票[19]的方式進行噪聲清理,簡單理解為:當(dāng)一個集合中的所有(或幾乎所有)學(xué)習(xí)者都同意刪除該實例時,該實例將被刪除,此方式能夠很好地解決數(shù)據(jù)嚴(yán)重缺失問題,但也容易誤刪某些正確的實例.
文獻[20] 則提出了一種自集成標(biāo)簽過濾框架(Self-Ensemble Label Filtering,SELF),該框架采取漸進式過濾,過濾策略基于標(biāo)簽和最大似然預(yù)測之間的一致性來確定潛在的標(biāo)簽,當(dāng)模型預(yù)測相應(yīng)的標(biāo)簽具有最高可能性的正確類別時,才會將該標(biāo)簽用于訓(xùn)練,經(jīng)過測試發(fā)現(xiàn)該框架在訓(xùn)練時間足夠長的情況下也不易過擬合,同時該技術(shù)可以和不同的半監(jiān)督損耗兼容,但其在噪聲比較高的情況下表現(xiàn)不佳.
文獻[21]將傳統(tǒng)的SLR (Single-Label Recognition)和MLR (Multi-Label Recognition)問題轉(zhuǎn)換成LDL(Label Distribution Learning)問題,提出了端到端的學(xué)習(xí)框架DLDL (Deep Label Distribution Learning),其主要利用深層ConvNet 在特征學(xué)習(xí)和分類器學(xué)習(xí)中的標(biāo)簽歧義性來學(xué)習(xí)標(biāo)簽分布,ConvNet 最后一個全連接層激活函數(shù)的概率分布為:
最終的標(biāo)簽分布y可以根據(jù)學(xué)習(xí)到的 θ得到,實驗結(jié)果表明在訓(xùn)練集很小的情況下,DLDL 也有助于防止網(wǎng)絡(luò)過度擬合,但DLDL 中標(biāo)簽分布固定,無法更新.
為解決標(biāo)簽分布無法更新問題,文獻[22] 則提出了名為PENCIL (Probabilistic End-to-end Noise Correction for Learning with noisy labels)的端到端框架,其獨立于骨干網(wǎng)絡(luò)結(jié)構(gòu),通過端到端方式在學(xué)習(xí)網(wǎng)絡(luò)參數(shù)和標(biāo)簽中維護并更新標(biāo)簽分布來校正噪聲標(biāo)簽,在迭代過程中,損失函數(shù)(2)用于更新操作,其中yd為噪聲標(biāo)簽,
其中,α 和 β為超參.研究表明該框架在不需要輔助的干凈數(shù)據(jù)集或有關(guān)噪聲的先驗信息的條件下也容易部署,但該方法在噪聲較高時該方法會失效.
文獻[23] 則提出的新穎框架中引入了一種名為AVNC (Adaptive Voting Noise Correction)的技術(shù)來精確識別和校正潛在的噪聲標(biāo)簽,該框架的核心是噪聲處理.主要包括過濾和校正兩個步驟.首先在過濾階段,經(jīng)過M輪K折交叉驗證后對式(3)進行降序排列,
并根據(jù)=+1來確定噪聲,即將數(shù)據(jù)集分為噪聲和干凈數(shù)據(jù)集,然后通過校正步驟嘗試預(yù)測噪聲數(shù)據(jù)集中的正確標(biāo)簽.該AVNC 根據(jù)K折交叉驗證預(yù)測實例生成的高質(zhì)量的數(shù)據(jù)集來構(gòu)建模型,從而對噪聲進行校正.但ANVC 僅針對二分類標(biāo)簽進行研究,在多類情況下其噪聲校正性能會很低.
對此,文獻[24]使用重加權(quán)策略對稱噪聲標(biāo)簽進行研究,并將該策略應(yīng)用到SVM 和MLR 兩個常規(guī)的分類器,如IWMLR 的分類概率分別為:
但該方法主要適用于RCN 模型下的對稱噪聲標(biāo)簽,并不適用于非對稱噪聲,且其權(quán)重并不容易準(zhǔn)確估計.
有學(xué)者則將人類學(xué)習(xí)方式融入到模型學(xué)習(xí)中,即先對簡單任務(wù)學(xué)習(xí),然后逐步學(xué)習(xí)較困難的任務(wù),從而建立一個可靠的模型.如Bengio 等人[25]在2009年提出了課程學(xué)習(xí)(Curriculum Learning,CL)框架,Kumar等人[26]在2010年提出一種類似的學(xué)習(xí)方式,即自步學(xué)習(xí)(Self-Paced Learning,SPL),但是兩者都沒有應(yīng)用到標(biāo)簽噪聲中,無法解決實際應(yīng)用中的問題.有研究將CL 思想融入到嘈雜標(biāo)簽學(xué)習(xí)中,即從干凈的標(biāo)簽慢慢轉(zhuǎn)移到噪聲標(biāo)簽的學(xué)習(xí).
文獻[27]利用CL 優(yōu)勢的同時,結(jié)合隨機梯度下降(Stochastic Gradient Descent,SGD)具有減少時間和降低存儲成本的優(yōu)點,首次兩者更新過程結(jié)合在一起并提出了漸進式隨機學(xué)習(xí)(Progressive Stochastic Learning,POSTAL),主要通過設(shè)定的動態(tài)閾值Dth=Dth?μ√來控制更新區(qū)域,該更新方式在初始時期只能在可靠標(biāo)簽上建立健壯模型,隨后逐漸降低該動態(tài)閾值并更新嘈雜標(biāo)簽,但是其課程通常是預(yù)定義的,忽略了反饋信息,同時對于小批量的SGD 訓(xùn)練非常困難.
為此,基于深層神經(jīng)網(wǎng)絡(luò)的記憶效應(yīng),有研究專門針對小批量損失情況下的實例進行訓(xùn)練來處理嘈雜標(biāo)簽.例如,文獻[28]則提出了Mentornet 網(wǎng)絡(luò)在minibatch 上根據(jù)相應(yīng)的反饋信息來更新課程,該網(wǎng)絡(luò)能夠克服損壞標(biāo)簽的過度擬合,但容易累積錯誤信息;文獻[29]提出的Co-teaching 以對稱方式交叉訓(xùn)練兩個網(wǎng)絡(luò),即將在小批量數(shù)據(jù)中過濾的噪聲樣本傳遞給對等網(wǎng)絡(luò)來更新參數(shù),解決了Mentornet 的累積錯誤問題,但訓(xùn)練時間太長,兩個網(wǎng)絡(luò)容易達到收斂共識;文獻[30]則在Co-teaching 的基礎(chǔ)上進行改進,提出的Co-teaching+采用分歧更新策略來訓(xùn)練網(wǎng)絡(luò),能夠明顯提高DNN 抵御噪聲標(biāo)簽的魯棒性,但當(dāng)數(shù)據(jù)集噪聲率極高時,卻很難適用于小批量訓(xùn)練.mini-batch 下相應(yīng)的網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)如圖3所示.
圖3 mini-batch 相關(guān)網(wǎng)絡(luò)
隱式處理即不對噪聲進行顯式建模,而是設(shè)計更加通用的算法來消除噪聲的負面影響.使用固有噪聲容忍方法能夠?qū)崿F(xiàn)噪聲的魯棒性,該方法主要在風(fēng)險最小化的框架內(nèi)進行研究,且風(fēng)險最小化的穩(wěn)健性主要取決于損失函數(shù).大量研究也表明,損失函數(shù)的處理會使標(biāo)簽噪聲在訓(xùn)練時魯棒性更好.
在二分類問題中,0-1 損失對于對稱或均勻標(biāo)簽噪聲體現(xiàn)出很好的魯棒性[31],通常非鉸鏈損失函數(shù)(Unhinged Loss)[32,33]、斜坡?lián)p失函數(shù)(Ramp Loss)[31]和S 型損失函數(shù)(Sigmoidal Loss)[31]也應(yīng)用于二分類研究中.但僅對二分類情況下的標(biāo)簽噪聲進行研究是無法滿足實際情況下的大多數(shù)問題.因此有學(xué)者提出魯棒風(fēng)險最小化方法,用于通過估計標(biāo)簽損壞概率來學(xué)習(xí)多類分類的神經(jīng)網(wǎng)絡(luò).
文獻[34]針對多類分類中常見的損失函數(shù)進行研究,定義了分類器f的最小化風(fēng)險損失函數(shù)滿足:
然后通過反向傳播用隨機梯度下降方法進行學(xué)習(xí),并對比基于分類交叉熵(Categorical Cross Entropy,CCE),均方誤差(Mean Square Error,MSE)和平均絕對值誤差(Mean Absolute Error,MAE)在不同類型標(biāo)簽下的實驗,結(jié)果表明MAE 具有很好的魯棒性,但是單獨的MAE 會增加訓(xùn)練的難度,特別是在復(fù)雜數(shù)據(jù)集上,會直接導(dǎo)致最終的性能下降.
CCE 是一種非對稱且無界的損耗函數(shù),收斂速度快,但對標(biāo)簽噪聲比較敏感.因此,文獻[35]提出了截斷的Lq損失函數(shù)(TruncatedLqLoss),如式(6):
為了凸顯MAE 的噪聲魯棒性和CCE 的隱式加權(quán)的優(yōu)勢,使用負Box-Cox 變換作為損失函數(shù),即在繼承MAE 魯棒性的同時也繼承了CCE 收斂速度快的特點,但其對閾值k有嚴(yán)格的要求,同時在求全局最小值時,修剪步驟計算過于復(fù)雜,并且在相似度高的數(shù)據(jù)集上會錯誤標(biāo)記非常相似的類.
也有單獨針對交叉熵(Cross Entropy,CE)損失函數(shù)進行改進,如文獻[36]提出一種允許在訓(xùn)練過程中可棄權(quán)的損失函數(shù),深層棄置分類器損失函數(shù)(Deep Abstaining Classifier,DAC)如式(7),式中pk+1表示棄權(quán)可能性,α表示相應(yīng)懲罰.該策略允許模型放棄對某些數(shù)據(jù)點的預(yù)測,同時繼續(xù)學(xué)習(xí)和改善未棄權(quán)樣本的分類性能.該方法易于實現(xiàn),且只需更改損失函數(shù)就可和現(xiàn)有任意DNN 架構(gòu)一起使用,但若隨機標(biāo)簽中存在不明顯噪聲時,該方法并不適用.
文獻[37]則對CE 在標(biāo)簽噪聲下容易產(chǎn)生過擬合問題進行分析,受對稱KL 散度(Symmetric KL-Divergence)啟發(fā)提出的反向交叉熵(Reverse Cross Entropy,RCE)能夠很好地容忍噪聲,同時將RCE 和CE 進行結(jié)合提出了對稱交叉熵(Symmetric cross entropy Learning,SL),如式(8)中,α 和 β 為解耦超參,α用于解決CE 中的過擬合問題,而 β對應(yīng)于RCE 的魯棒性.SL 使用RCE 的噪聲魯棒性特點對稱地增強了CE 中的學(xué)習(xí)不足和過度擬合問題,該方法在手動損壞的嘈雜標(biāo)簽上有很好的性能,但對真實數(shù)據(jù)下比較相似的類容易混淆.
文獻[38]則針對CCE 進行研究,提出在網(wǎng)絡(luò)誤差計算中進行修整,用更可靠的誤差度量代替CCE,即基于修剪絕對值準(zhǔn)則的修剪分類交叉熵(Trimmed Categorical Cross-Entropy,TCCE),損失函數(shù)定義為:
其中,q1:N≤···≤qN:N是每個觀測值的有序損耗,即:
該方法能夠在較大噪聲水平下產(chǎn)生很好的性能,但在噪聲過高時,性能沒有CCE 好,且無法獲得干凈數(shù)據(jù)標(biāo)簽的最高準(zhǔn)確度.
有研究使用噪聲轉(zhuǎn)換矩陣處理噪聲標(biāo)簽,即該矩陣定義了一個類別轉(zhuǎn)換為另一個類別的可能性,文獻[39]使用的前向和后向兩種校正方法即采用的該策略,該損失校正與應(yīng)用程序和網(wǎng)絡(luò)體系結(jié)構(gòu)無關(guān),但現(xiàn)實中的噪聲過渡矩陣并不是一直可用的,而且也很難得到準(zhǔn)確的估計.
同時上述方式并沒有針對像本文所提及的IDN 模型下的標(biāo)簽噪聲進行研究,這類噪聲函數(shù)通常會設(shè)置有嚴(yán)格的要求,如給實例錯誤標(biāo)簽設(shè)定統(tǒng)一邊界.這些苛刻的要求一般都很難應(yīng)用到實際情況中,因此一些研究通常不對標(biāo)簽噪聲的生成過程做出假設(shè),而隱式地處理實例相關(guān)的標(biāo)簽噪聲.
對深層神經(jīng)網(wǎng)絡(luò)的可傳遞性觀察發(fā)現(xiàn),使用轉(zhuǎn)移學(xué)習(xí)可以很好地避免過擬合,即在較大數(shù)據(jù)集上預(yù)訓(xùn)練模型的同時在較小數(shù)據(jù)集上進行微調(diào),該策略必須保證兩任務(wù)之間存在很大相關(guān)性,不能過于松散.文獻[40]對一般情況下的噪聲標(biāo)簽進行研究發(fā)現(xiàn),只在干凈標(biāo)簽上微調(diào)的效果并沒有同時在干凈和嘈雜的標(biāo)簽上效果好,因此引入一個含有少量干凈和大量嘈雜標(biāo)簽的通用框架CNN,同時使用標(biāo)簽噪聲類型進行建模,如圖4所示(其中 θ1和 θ2分別表示CNN 中的參數(shù)集,y和z分別表示真實標(biāo)簽和標(biāo)簽噪聲類型,x和分別表示觀察到的圖像和嘈雜標(biāo)簽),最后將其集成到端到端的深度學(xué)習(xí)系統(tǒng)中.該方法在處理一般情況下標(biāo)簽噪聲的同時也可以處理多類問題,但在只有嘈雜標(biāo)簽情況下訓(xùn)練網(wǎng)絡(luò)時,該模型會出現(xiàn)漂移現(xiàn)象.
圖4 標(biāo)簽噪聲概率圖形模型
綜上所述,顯式和隱式兩種分類方法對標(biāo)簽噪聲的處理都可以達到很好的效果.由于噪聲行為本身的特殊性,顯式處理對噪聲本身進行建模,并在訓(xùn)練過程中使用建模后的信息來獲得更好的性能.而隱式處理則是針對標(biāo)簽噪聲的魯棒性進行研究,并不是直接對噪聲行為本身進行改進.如表1所示總結(jié)了每個算法的優(yōu)缺點.
表1 顯示處理和隱式處理算法優(yōu)缺點總結(jié)
3.1.1 數(shù)量趨勢
本文針對2015~2019年頂級會議上的論文進行調(diào)研,統(tǒng)計并分析和標(biāo)簽噪聲相關(guān)論文數(shù)如圖5所示.
(1)圖5(a)中可以很明顯地看出,有關(guān)標(biāo)簽噪聲的各類會議在2015年屈指可數(shù),但這之后其呈現(xiàn)出快速增長的趨勢,雖然每年都存在小幅度波動,但絲毫不影響其整體性發(fā)展.
(2)圖5(b)中可以發(fā)現(xiàn),2015~2019年中關(guān)于噪聲的研究文獻明顯增長,特別是在2019年,其研究文獻已經(jīng)達到2015年的4 倍,可以預(yù)計,未來對標(biāo)簽噪聲的研究會越來越多,亦有可能呈現(xiàn)爆發(fā)性增長,其將會成為人工智能領(lǐng)域的一個熱門研究對象.
(3)上述頂級會議論文中,針對標(biāo)簽噪聲的學(xué)習(xí)不僅僅是關(guān)于理論知識的研究,同時也包含其實際應(yīng)用中的研究,理論與應(yīng)用兩方面的研究從側(cè)面體現(xiàn)了關(guān)于標(biāo)簽噪聲學(xué)習(xí)的重要性.
3.1.2 熱點趨勢
處理標(biāo)簽噪聲是一個開放性問題,本文根據(jù)其特點和實際應(yīng)用性將其熱點趨勢大致分為4 種情況:
(1)多角度性:參閱文獻可以看出,針對標(biāo)簽噪聲研究方法多種多樣,但大部分研究主要針對以下幾方面,如:處理噪聲敏感的標(biāo)簽;類的相似性過高下的誤判;訓(xùn)練過程中的過擬合;不同噪聲比下的誤差過大;不同網(wǎng)絡(luò)間優(yōu)勢相結(jié)合等等.顯而易見,從算法不同角度及其本身進行剖析一直是該領(lǐng)域研究熱點.
(2)通用性:有文獻設(shè)計出與應(yīng)用程序和網(wǎng)絡(luò)體系都無關(guān)的方法,也有設(shè)計出可以和任意DNN 架構(gòu)一起使用的方法,這些設(shè)計從側(cè)面反映出其方法對環(huán)境的非依賴性,同時方法的通用性會進一步減少研究成本,由此可推斷出學(xué)者會針對此方面做進一步研究.
(3)適用性:上述研究基本針對人工合成噪聲數(shù)據(jù),其準(zhǔn)確率雖然不錯,但并未對真實數(shù)據(jù)研究,為增強噪聲數(shù)據(jù)的適用性,可以預(yù)測未來將逐漸針對如網(wǎng)絡(luò)爬蟲、眾包等真實數(shù)據(jù)或更復(fù)雜的環(huán)境進行研究.
(4)易于實現(xiàn)性:雖然現(xiàn)有框架下的研究對標(biāo)簽噪聲處理取得了不錯效果,但若應(yīng)用到實際情況,其效果不盡其然,因此如何設(shè)計出能夠有效處理標(biāo)簽噪聲且易于實現(xiàn)的方法必將成為研究熱點.
圖5 頂級會議相關(guān)文獻統(tǒng)計
雖然標(biāo)簽噪聲的研究在理論層面和工程領(lǐng)域都有豐碩的研究成果,但其在實際應(yīng)用中仍存在很多問題.
(1)雖然標(biāo)簽噪聲清理方法能夠用去除或糾正錯誤標(biāo)簽的實例,但這些方法很難將信息豐富的示例與有害的錯誤貼標(biāo)簽的示例明顯區(qū)分,同時過度清洗也可能會將分類器的性能降低.
(2)大多數(shù)損失函數(shù)對標(biāo)簽噪聲并不是完全魯棒且有些對異常值敏感,對于處理方式過于復(fù)雜的損失函數(shù),容易產(chǎn)生過擬合現(xiàn)象.
(3)現(xiàn)有方法對標(biāo)簽噪聲的相關(guān)研究假設(shè)了一定的不實際的前提條件,同時有很少文獻針對一般情況下的標(biāo)簽噪聲進行研究,如大多數(shù)研究并不是基于網(wǎng)絡(luò)爬蟲等進行研究,無法將其一般化于各類數(shù)據(jù)情況下的標(biāo)簽噪聲.
(4)多分類情況下,標(biāo)簽噪聲在破壞原始干凈數(shù)據(jù)分布的同時會導(dǎo)致標(biāo)簽浮動噪聲問題,其容易限制模型的泛化能力;且多特征數(shù)據(jù)中有些標(biāo)簽相關(guān)性能比較微弱,需要仔細辨別.
(5)有關(guān)標(biāo)簽噪聲的應(yīng)用問題,在不同場景下應(yīng)對策略也有所不同,需要針對標(biāo)簽噪聲的場景適用性問題作出進一步研究.
本文根據(jù)噪聲結(jié)構(gòu)的建模方式對標(biāo)簽噪聲的處理方法從顯式和隱式兩大方面做出系統(tǒng)性梳理和總結(jié).從眾多文獻可以看出,在訓(xùn)練前直接刪除數(shù)據(jù)會造成數(shù)據(jù)嚴(yán)重缺失,目前大部分研究主要使用“訓(xùn)練-清洗數(shù)據(jù)-再訓(xùn)練”此種迭代方式進行研究,且逐漸傾向于多網(wǎng)絡(luò)方式結(jié)合、監(jiān)督和非監(jiān)督技術(shù)結(jié)合或損失函數(shù)相關(guān)處理方面等;但大部分研究都有相應(yīng)的特定場景,且最終效果并不樂觀,和實際情況下不同場景的應(yīng)用有很大差距.因此需要研究出一種具有通用性好、適用性強并且易于實現(xiàn)的方法來處理不同場景下的標(biāo)簽噪聲.