摘要:在深度學(xué)習(xí)算法的使用過程中,樣本被正確標(biāo)注與否直接影響著深度學(xué)習(xí)模型的構(gòu)建與學(xué)習(xí)的效果。這些算法標(biāo)注數(shù)據(jù)的過程是一個高成本、費精力的過程,并且在標(biāo)注數(shù)據(jù)的過程中由于受到各種主客觀因素的影響,往往會導(dǎo)致標(biāo)簽噪聲的產(chǎn)生,這種情況在模型實際應(yīng)用中非常常見。為了更好地研究和解決標(biāo)簽噪聲這類問題,找到較為合理的模型標(biāo)簽噪聲解決方案,嘗試從深度學(xué)習(xí)的角度出發(fā),研究現(xiàn)有的標(biāo)簽噪聲學(xué)習(xí)算法有關(guān)文獻,并將那些能讓標(biāo)簽噪聲被有效訓(xùn)練、合理消除的模型進行更深入研究。
關(guān)鍵詞:深度學(xué)習(xí);標(biāo)簽噪聲;標(biāo)簽噪聲學(xué)習(xí)算法
一、前言
深度學(xué)習(xí)算法在許多領(lǐng)域中都有著廣泛運用,當(dāng)下比較常見的應(yīng)用場景有文本分析、圖像識別等。在這些領(lǐng)域中去應(yīng)用深度學(xué)習(xí)算法,需要大量的數(shù)據(jù)支撐,因此實現(xiàn)深度學(xué)習(xí)算法的前提,是基于大數(shù)據(jù)。
在確定模型算法的前提下,對模型結(jié)果有關(guān)鍵影響的步驟是特征處理。由于現(xiàn)實中的數(shù)據(jù)往往比模型設(shè)計時采用的樣本數(shù)據(jù)更為復(fù)雜,許多算法模型一開始并不能完全滿足數(shù)據(jù)擬合或其他指標(biāo)的要求。運用模型參數(shù)調(diào)參的方法或許可以提升預(yù)測的效果,但效果還是不如在模型初期就進行特征處理。
深度學(xué)習(xí)算法在模型初期就對大量的數(shù)據(jù)集進行了標(biāo)記,因此提升了準(zhǔn)確性,在模型預(yù)測方面具有較大的優(yōu)勢。但這類方法需要大量數(shù)據(jù)收集的操作,付出的時間成本較高。
相對節(jié)約時間的做法有構(gòu)建數(shù)據(jù)集、運用眾包標(biāo)注和自動標(biāo)注。但這類方法也存在一些弊端,即可能導(dǎo)致一些數(shù)據(jù)帶有標(biāo)簽噪聲,成為低質(zhì)量的數(shù)據(jù)。目前,有很多學(xué)者為了解決這一問題,提出了使用深度學(xué)習(xí)模型去消除標(biāo)簽噪聲的方法,但生成的模型中對于噪聲的處理經(jīng)常存在過擬合的情況,導(dǎo)致模型應(yīng)用性較差,不便于進一步推廣。
數(shù)據(jù)標(biāo)簽噪聲過多,對模型評價體系也有不良影響。在一些數(shù)據(jù)帶有噪聲的實驗過程中,數(shù)據(jù)訓(xùn)練和驗證會出現(xiàn)模型錯誤的情況,因為標(biāo)簽噪聲對分類器的準(zhǔn)確性有較大的影響。
針對上述問題,本文將從以下幾個方面展開研究:
1.介紹標(biāo)簽噪聲產(chǎn)生的原因,包括人為因素、數(shù)據(jù)損壞和數(shù)據(jù)集不平衡等。例如,在人工標(biāo)注數(shù)據(jù)時,由于主觀判斷不一致或者操作失誤,可能會導(dǎo)致標(biāo)簽錯誤。而在數(shù)據(jù)傳輸或存儲過程中,可能出現(xiàn)數(shù)據(jù)損壞的情況,導(dǎo)致標(biāo)簽噪聲的產(chǎn)生。
2.思考如何通過深度學(xué)習(xí)算法來處理標(biāo)簽噪聲問題,包括顯式處理方法和隱式處理方法,并且討論如何選擇合適的算法來處理標(biāo)簽噪聲,以及如何評估算法的性能。顯式處理方法通常包括數(shù)據(jù)清洗、重新標(biāo)注和噪聲魯棒性損失函數(shù)等。而隱式處理方法則包括基于樣本權(quán)重、基于模型選擇和基于集成學(xué)習(xí)等。
通過選擇算法來解決標(biāo)簽噪聲時,需要考慮數(shù)據(jù)集大小、噪聲類型和比例、計算資源和時間限制等因素。此外,還需要根據(jù)實際應(yīng)用場景選擇合適的評估指標(biāo)??梢允褂脺?zhǔn)確率、召回率、F1值和AUC等指標(biāo),還可以通過交叉驗證和模型選擇的方法來評估算法在不同數(shù)據(jù)集上的泛化能力。通過選擇合適的算法、進行合理的評估,可以有效地消除標(biāo)簽噪聲對模型性能的影響。
二、標(biāo)簽噪聲的概述
(一)標(biāo)簽噪聲的產(chǎn)生
標(biāo)簽噪聲具有復(fù)雜性的特征,其產(chǎn)生主要受到如下幾種因素的影響:1.因為缺乏充足的標(biāo)注信息,對類別數(shù)據(jù)不能更完整、全面的描述;2.由于低質(zhì)量數(shù)據(jù)的辨識度不高且逐漸降低,專家難以完成對標(biāo)簽的準(zhǔn)確標(biāo)注;3.由于數(shù)據(jù)編碼出現(xiàn)問題、通信出現(xiàn)問題,致使標(biāo)簽也出錯;4.主觀性差異因素影響,對于標(biāo)簽的標(biāo)注,因可靠標(biāo)簽需耗費一定的時間和較多的成本,所以除了讓專家標(biāo)注之外,也會讓非專家標(biāo)注,而標(biāo)注人員不同,其標(biāo)記的結(jié)果也不同[1]。
(二)標(biāo)簽噪聲的類型
學(xué)習(xí)標(biāo)簽是具有挑戰(zhàn)性的,標(biāo)簽噪聲在數(shù)據(jù)特征、數(shù)據(jù)真實標(biāo)簽、標(biāo)簽特性等因素的相互作用下,能劃分為三種類型:隨機標(biāo)簽噪聲、類標(biāo)簽噪聲、實例相關(guān)標(biāo)簽噪聲。其中,隨機標(biāo)簽噪聲的依存關(guān)系復(fù)雜性比較小,實例相關(guān)標(biāo)簽噪聲的依存關(guān)系復(fù)雜性比較大。在這一關(guān)系前提下可明確與錯誤標(biāo)簽的關(guān)系類型,錯誤標(biāo)簽與實例相關(guān)標(biāo)簽噪聲、真實標(biāo)簽都是沒有關(guān)系的,錯誤標(biāo)簽僅與真實標(biāo)簽有關(guān)系,錯誤標(biāo)簽只與實例特征有關(guān)系[2]。
(三)標(biāo)簽噪聲的影響
在實際生活中,帶有標(biāo)簽噪聲的數(shù)據(jù)肯定是普遍存在的,如果對標(biāo)簽噪聲數(shù)據(jù)進行直接運用就會影響實驗,其所形成的影響可分為三種類型:第一,是所觀察的類別出現(xiàn)頻率波動變化,比如標(biāo)簽噪聲影響了某種疾病的發(fā)病率。第二,是基于標(biāo)簽噪聲的分類方法降低了預(yù)測性能,比如標(biāo)簽噪聲影響了用于分類的線性分類器、kNN分類器,以及影響了決策樹、支持向量機等[3]。第三,是增加訓(xùn)練過程中的特征數(shù)、增加模型復(fù)雜度,例如標(biāo)簽噪聲會影響SVM算法中的支持向量數(shù),使結(jié)果呈現(xiàn)增長趨勢,也使得模型復(fù)雜化,為達到性能指標(biāo)要求需對標(biāo)簽噪聲展開更多訓(xùn)練。
在深度學(xué)習(xí)算法的經(jīng)典數(shù)據(jù)案例中,有一個名為CIFAR-100的數(shù)據(jù)樣例。這個數(shù)據(jù)包含40%的標(biāo)簽噪聲,我們可以通過這個數(shù)據(jù)的經(jīng)典圖例來了解標(biāo)簽噪聲對數(shù)據(jù)預(yù)測的影響。如圖1所示,左為訓(xùn)練集,右為測試集。其中的橙色曲線為無論數(shù)據(jù)存在噪聲與否都用神經(jīng)網(wǎng)絡(luò)算法進行擬合的結(jié)果,而綠色曲線則是采用了一定正則化的結(jié)果,藍色曲線則是剔除了標(biāo)簽噪聲影響的干凈數(shù)據(jù)集的結(jié)果??梢钥吹?,在訓(xùn)練集數(shù)據(jù)上,不管是否有標(biāo)簽噪聲,深度學(xué)習(xí)模型都可以給到很高的預(yù)測結(jié)果。但是在測試集中可以看到,對于存在標(biāo)簽噪聲的數(shù)據(jù),模型可推廣性是比較差的,準(zhǔn)確性不高,說明存在過擬合。使用了正則化技術(shù)的模型雖然能做出一定提升,但是跟不含標(biāo)簽噪聲的數(shù)據(jù)結(jié)果相比還是存在一定差距。所以,除了做正則化改善標(biāo)簽噪聲問題以外,應(yīng)該還需要一些其他的方法繼續(xù)提升。
三、標(biāo)簽噪聲學(xué)習(xí)算法
按照噪聲結(jié)構(gòu)的不同建模方式將標(biāo)簽噪聲處理方法分為兩類,一種是顯式處理,一種是隱式處理。
(一)顯式處理
顯式處理指的是采取某一手段完成噪聲建模,同時對模型的輸入流加以控制。在標(biāo)簽噪聲學(xué)習(xí)中,需先清理標(biāo)簽噪聲,將訓(xùn)練數(shù)據(jù)中標(biāo)記出錯的示例進行清除,進行這一舉措的時間可在訓(xùn)練前或在訓(xùn)練主要模型時。對于噪聲的清理,其實有一種最為簡單的方法,那就是將訓(xùn)練實例中分類器所錯誤分類的直接刪除,但是這種方法會影響數(shù)據(jù)的完整性,導(dǎo)致產(chǎn)生數(shù)據(jù)缺少的問題以及算法準(zhǔn)確性降低的問題[4]。為此,許多學(xué)者還在不斷探究更加有效的噪聲清理方法。如有學(xué)者提出在噪聲清理過程中可采取噪聲投票,即對于實例的刪除征求全部學(xué)習(xí)者的意見,均同意時就可刪除,這樣能夠避免有些正確的實例被誤刪。還有學(xué)者提出將SLR與MLR問題轉(zhuǎn)變?yōu)長DL問題,通過DLDL框架能夠進行端到端的學(xué)習(xí)。這一框架對標(biāo)簽分布的學(xué)習(xí)是以標(biāo)簽歧義性為基礎(chǔ)的,通過特征學(xué)習(xí)、分類器學(xué)習(xí)中的深層ConvNet而實現(xiàn),其中ConvNet最后的全連接層激活函數(shù)的概率分布由如下公式計算得出:
通過θ的學(xué)習(xí)獲得標(biāo)簽分布y,當(dāng)訓(xùn)練集比較小時,學(xué)習(xí)框架DLDL還能對過度擬合網(wǎng)絡(luò)實現(xiàn)規(guī)避,而其也存在不足,即其中的標(biāo)簽是不能更新的[5]。
(二)隱式處理
隱式處理指的是通過利用具有通用性的算法來將噪聲產(chǎn)生的不良影響消除掉,保持噪聲魯棒性需采取固有的噪聲容忍方式,對于隱式處理的應(yīng)用常見于框架風(fēng)險比較小時,其中損失函數(shù)會對風(fēng)險的最小化程度產(chǎn)生影響。在很多研究中能夠發(fā)現(xiàn)訓(xùn)練過程中具有較好魯棒性的標(biāo)簽噪聲通常是損失函數(shù)得到較好的處理時。以二分類問題為例,對稱表現(xiàn)噪聲、均勻標(biāo)簽噪聲在0-1損失情況下的魯棒性更好,在有關(guān)二分類問題的研究中,常見的損失函數(shù)有斜坡?lián)p失函數(shù)、S型損失函數(shù)等。
四、算法選擇的考量
能不能直接進行數(shù)據(jù)集的學(xué)習(xí)是受到多種因素影響的,根據(jù)對不同因素的考量,需選擇不同的模型。主要包括如下三種因素:
(一)數(shù)據(jù)集的大小
當(dāng)所收集的數(shù)據(jù)比較小的時候,一般需要繼續(xù)采集,采取有效的方式對數(shù)據(jù)進行強化,如將數(shù)據(jù)旋轉(zhuǎn)、將新數(shù)據(jù)復(fù)制等。這樣可以大大地提升數(shù)據(jù)集訓(xùn)練的精準(zhǔn)性,在樣本量增加的基礎(chǔ)上獲得更好的訓(xùn)練結(jié)果。當(dāng)所收集的數(shù)據(jù)集是正常大小范疇的時候,則需多角度地進行考量,從其他方面對標(biāo)簽噪聲學(xué)習(xí)進行進一步的分析,包括噪聲量的大小、學(xué)習(xí)任務(wù)難易程度等。
(二)噪聲量的大小
當(dāng)噪聲標(biāo)簽的規(guī)模比較大時,模型的復(fù)雜性就會被提升,而模型的預(yù)測性就會被降低。譬如以分割醫(yī)學(xué)中的圖像任務(wù)為例,通常這類場景會較大程度地影響模型結(jié)果。通過經(jīng)典的MNIST數(shù)據(jù)也可以例舉噪聲標(biāo)簽比例與模型精度的關(guān)系,如圖2所示??梢钥吹?,隨著數(shù)據(jù)中噪聲標(biāo)簽的比例不斷上升,到達一定程度時是會嚴(yán)重影響模型精度的。由于標(biāo)簽噪聲模型存在差異,因而在處理噪聲量時會表現(xiàn)出差異化的能力,如噪聲量較大,需先考慮以數(shù)據(jù)為基礎(chǔ)的標(biāo)簽噪聲學(xué)習(xí)算法,如標(biāo)簽修正、DivideMix學(xué)習(xí)策略、樣本重加權(quán)等。反之,噪聲量較小,則這些方法就不再適用,而需考慮以半監(jiān)督、損失為基礎(chǔ)的模型[6]。
(三)算法學(xué)習(xí)任務(wù)的困難度
針對困難樣本的學(xué)習(xí)是標(biāo)簽噪聲學(xué)習(xí)的難點之一??梢栽黾雍唵螛颖驹谟?xùn)練集中的占比,減少困難樣本的比例、增強對困難樣本的學(xué)習(xí)力度從而使得模型提高泛化能力。在模型訓(xùn)練的步驟中加大困難樣本的學(xué)習(xí)力度,離不開干凈驗證集的輔助,還需要顧及模型和損失等。模型過程也可結(jié)合實際需要,選擇樣本重加權(quán)、刪除樣本等辦法對數(shù)據(jù)進行處理。
五、算法評價
標(biāo)簽噪聲學(xué)習(xí)算法模型的評價可以從五個屬性方面進行,包括:
(一)適配性
伴隨深度學(xué)習(xí)的研究發(fā)展,網(wǎng)絡(luò)結(jié)構(gòu)也在更新和發(fā)展,但前提是其能力可以滿足各式各樣的網(wǎng)絡(luò)結(jié)構(gòu)需要。這里指的是標(biāo)簽噪聲算法可以快速適應(yīng)適配最先進的網(wǎng)絡(luò)體系結(jié)構(gòu)。如魯棒損失的適配性就比較高,能與各種網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,使網(wǎng)絡(luò)性能得到提升,并使網(wǎng)絡(luò)結(jié)構(gòu)始終有魯棒性。
(二)訓(xùn)練損耗
硬件技術(shù)的升級是保障深度學(xué)習(xí)的關(guān)鍵。在網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練中,因訓(xùn)練方式不同,模型參數(shù)、模型輸出的過程會出現(xiàn)不同的顯存損耗、不同的時間計量成本。訓(xùn)練損耗是指讓標(biāo)簽噪聲算法的顯存損耗不會隨著訓(xùn)練而增加,也不會出現(xiàn)其他額外的計算成本,保持其魯棒性得到提升,以及算法效率得到提高。
(三)高噪聲
在實際應(yīng)用場景下噪聲率的分布是有不同的輕重分布占比的,對比不同程度的噪聲率,標(biāo)簽噪聲算法會表現(xiàn)出更強的噪聲魯棒性。這一屬性的含義是指利用標(biāo)簽噪聲算法可以有效地對抗強噪聲。
(四)超參數(shù)敏感性
超參數(shù)是在深度學(xué)習(xí)的控制訓(xùn)練中產(chǎn)生的,模型性能在很大程度上受到敏感超參數(shù)取值差異性的影響,需從實驗中尋找最好的超參數(shù),對于模型而言非常關(guān)鍵,這就需要對差異化取值的超參數(shù)進行有關(guān)敏感性的綜合考量。
(五)弱正則化
當(dāng)標(biāo)簽噪聲算法較為溫和時,只能實現(xiàn)輕微噪聲的處理,如果是干凈標(biāo)簽的情況,反之會降低其性能,但并不會因沒有噪聲而很大程度上影響精度。此屬性是指在輕微噪聲情況下,標(biāo)簽噪聲算法應(yīng)該讓性能得到提高。以魯棒結(jié)構(gòu)為基礎(chǔ)的標(biāo)簽噪聲算法,在中小型數(shù)據(jù)集標(biāo)簽噪聲中是表現(xiàn)出魯棒性的,對于噪聲的抑制作用比較小,且其對真實世界輕微噪聲情況的處理能力還高于干凈標(biāo)簽情況下的能力。
基于這幾個屬性,不同算法之間有著明顯差異性,如魯棒結(jié)構(gòu)不支持適配性、高噪聲、超參數(shù)敏感性,僅支持弱正則化,對高噪聲不敏感,訓(xùn)練損耗為中度。模型正則化支持適配性、弱正則化,對高噪聲、超參數(shù)敏感性不敏感,訓(xùn)練損耗較少。元偽標(biāo)簽支持適配性、高噪聲,不支持超參數(shù)敏感性、弱正則化,訓(xùn)練損耗較多。標(biāo)簽平滑支持適配性、弱正則化,不支持高噪聲,對超參數(shù)敏感性不敏感,訓(xùn)練損耗較少。對抗訓(xùn)練支持適配性、高噪聲,不支持超參數(shù)敏感性、弱正則化,訓(xùn)練損耗較多等。
六、結(jié)語
標(biāo)簽噪聲算法在現(xiàn)階段研究中所提出的種類是比較多樣的,然而對于噪聲標(biāo)簽下的深入學(xué)習(xí)往往缺少全面性的研究,且在研究中也存在比較多的問題。本文從標(biāo)簽噪聲是如何產(chǎn)生的開始、標(biāo)簽噪聲的類型與影響有哪些等問題出發(fā)對其進行概述,以及標(biāo)簽噪聲的學(xué)習(xí)算法、算法選擇考量、算法評價等多方面進行了歸納與綜述,對于了解和提升標(biāo)簽噪聲算法具有一定的研究幫助。在這之后還需對標(biāo)簽噪聲這類問題開展更加深入的研究、更多的實踐,通過更多實際的案例和數(shù)據(jù)進行這類算法的優(yōu)化和實現(xiàn),讓噪聲結(jié)構(gòu)實現(xiàn)均衡分布。
參考文獻
[1]佟強,刁恩虎,李丹,等.分類任務(wù)中標(biāo)簽噪聲的研究綜述[J].科學(xué)技術(shù)與工程,2022,22(31):13626-13635.
[2]汪敏,伍文靜,劉瀚陽,等.噪聲標(biāo)簽識別與糾正的置信度預(yù)測方法[J].西北大學(xué)學(xué)報(自然科學(xué)版),2022,52(05):857-867.
[3]Jiang Runqing,Yan Yan,Xue JingHao,Wang Biao,Wang Hanzi. When Sparse Neural Network Meets Label Noise Learning: A Multistage Learning Framework.[J]. IEEE transactions on neural networks and learning systems,2022,PP.
[4]Zhang Chuang,Shen Li,Yang Jian,Gong Chen. Towards harnessing feature embedding for robust learning with noisy labels[J]. Machine Learning,2022,111(9).
[5]伏博毅,彭云聰,藍鑫,等.基于深度學(xué)習(xí)的標(biāo)簽噪聲學(xué)習(xí)算法綜述[J/OL].計算機應(yīng)用:1-14[2023-03-18].
[6]杜玉.帶噪聲標(biāo)簽圖像分類問題研究[D].桂林:桂林電子科技大學(xué),2022.
作者單位:中國人民大學(xué)
■ 責(zé)任編輯:尚丹