汪 敏,伍文靜,劉瀚陽(yáng),閔 帆
(1.西南石油大學(xué) 電氣信息學(xué)院,四川 成都 610500;2.西交利物浦大學(xué) 人工智能與先進(jìn)計(jì)算學(xué)院,江蘇 蘇州 215123;3.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)
典型的弱監(jiān)督場(chǎng)景包括不完全監(jiān)督(incomplete supervision)、不確切監(jiān)督(inexact supervision)和不準(zhǔn)確監(jiān)督(inaccurate supervision)[1],其中,噪聲標(biāo)簽是最典型的一種不準(zhǔn)確監(jiān)督場(chǎng)景[2]。在使用傳統(tǒng)的監(jiān)督學(xué)習(xí)解決分類(lèi)問(wèn)題時(shí),通常假設(shè)數(shù)據(jù)集樣本都具有正確標(biāo)簽,然而,噪聲標(biāo)簽在真實(shí)數(shù)據(jù)中無(wú)處不在?,F(xiàn)實(shí)中,給數(shù)據(jù)標(biāo)注標(biāo)簽的任務(wù)大部分是人為完成的,而數(shù)據(jù)信息量較少、標(biāo)注人員本身的專(zhuān)業(yè)限制和個(gè)體間差異都會(huì)導(dǎo)致數(shù)據(jù)標(biāo)注的結(jié)果不一致,從而很難獲得標(biāo)簽全部正確的強(qiáng)監(jiān)督信息。且噪聲標(biāo)簽對(duì)模型性能的影響極大,不僅會(huì)使模型分類(lèi)準(zhǔn)確性嚴(yán)重下降,同時(shí)也會(huì)增加模型的復(fù)雜度。由于數(shù)據(jù)集規(guī)模巨大且類(lèi)型復(fù)雜,通常無(wú)法人工逐一檢查并糾正標(biāo)簽,因此,如何在弱監(jiān)督狀態(tài)下消除噪聲標(biāo)簽對(duì)分類(lèi)器模型的影響,是一項(xiàng)極具挑戰(zhàn)的任務(wù)。
目前,噪聲標(biāo)簽學(xué)習(xí)已逐漸成為弱監(jiān)督學(xué)習(xí)領(lǐng)域的熱點(diǎn)研究問(wèn)題之一,針對(duì)這一問(wèn)題,眾多專(zhuān)家學(xué)者提出了許多解決方法[3]。這些方法一般分為對(duì)噪聲容忍[4]和對(duì)噪聲魯棒性建模[5]兩類(lèi)。對(duì)固有噪聲的容忍方法是最早被提出的噪聲標(biāo)簽處理方法,發(fā)展初期,這類(lèi)方法大多基于估計(jì)的噪聲轉(zhuǎn)移矩陣[6],以了解標(biāo)簽如何在不同類(lèi)之間切換,構(gòu)建滿(mǎn)足統(tǒng)計(jì)一致性的學(xué)習(xí)算法,一般利用預(yù)先訓(xùn)練的模型和干凈數(shù)據(jù)集直接計(jì)算估計(jì)轉(zhuǎn)移矩陣[7-8],或間接使用聯(lián)合優(yōu)化技術(shù)、EM算法等計(jì)算轉(zhuǎn)移矩陣中的元素[9-10]。但估算的噪聲變換矩陣不一定準(zhǔn)確,且不普遍適用,極有可能影響目標(biāo)魯棒分類(lèi)器的性能。為減小噪聲標(biāo)簽對(duì)分類(lèi)器學(xué)習(xí)的影響,擴(kuò)大適用范圍,現(xiàn)階段的研究通常圍繞魯棒性損失展開(kāi)[11-12],其實(shí)質(zhì)是通過(guò)添加正則項(xiàng)或修改網(wǎng)絡(luò)概率等方式,使風(fēng)險(xiǎn)最小化,提高模型準(zhǔn)確度,例如對(duì)損失函數(shù)的改進(jìn)方法MAE、Lq和DualT等[13-14]。然而這類(lèi)算法并不完全抗噪,且只在訓(xùn)練數(shù)據(jù)被少量噪聲干擾時(shí)有效,表現(xiàn)出抗噪的不穩(wěn)定性。
噪聲魯棒性建模主要包括噪聲過(guò)濾和重加權(quán)。其中,最簡(jiǎn)單的方法是直接清理噪聲數(shù)據(jù)[15],其基本思想是根據(jù)基分類(lèi)器的預(yù)測(cè)結(jié)果進(jìn)行噪聲標(biāo)簽數(shù)據(jù)的識(shí)別,并刪除該部分樣本,代表算法包括過(guò)濾投票、SELF和CEROS[16-18]。但現(xiàn)有的算法大多認(rèn)為噪聲數(shù)據(jù)過(guò)濾方法易造成數(shù)據(jù)缺失,進(jìn)而影響模型準(zhǔn)確性,因此,更多地采用重加權(quán)策略對(duì)噪聲數(shù)據(jù)進(jìn)行研究。類(lèi)似概率性局部離群因子算法(pLOF)[19-20],對(duì)樣本相對(duì)重要程度進(jìn)行新的定量分配[21-23],能夠有效降低噪聲樣本對(duì)算法的影響。受人類(lèi)“先易后難”的學(xué)習(xí)方式啟發(fā),穩(wěn)定的CL學(xué)習(xí)框架[24]先學(xué)習(xí)干凈標(biāo)簽,再學(xué)習(xí)噪聲標(biāo)簽,解決了權(quán)重不易準(zhǔn)確估計(jì)的問(wèn)題。將CL思想融入噪聲標(biāo)簽的學(xué)習(xí)中,相繼出現(xiàn)了Mentornet網(wǎng)絡(luò)、Co-teaching和Co-teaching+等[25-26]方法,明顯增強(qiáng)了模型的魯棒性。然而噪聲魯棒性建模的基礎(chǔ)是一定量的干凈數(shù)據(jù),由于目前的數(shù)據(jù)標(biāo)記場(chǎng)景復(fù)雜,很難對(duì)噪聲分布做出合理假設(shè),因此,在現(xiàn)有的實(shí)際場(chǎng)景中大多無(wú)法提供所需求的干凈數(shù)據(jù)。
為了克服這些問(wèn)題,本文提出了噪聲標(biāo)簽識(shí)別與糾正的置信度預(yù)測(cè)方法(confidence prediction method for noise label identification and correction,CPRC),通過(guò)定義置信度推斷方法,建立置信度連接,迭代實(shí)現(xiàn)置信度最優(yōu)的噪聲標(biāo)簽識(shí)別與糾正。首先,將數(shù)據(jù)樣本按置信度與距離的不同分類(lèi),在樣本分類(lèi)的基礎(chǔ)上,定義初始可信樣本選擇策略,篩選優(yōu)質(zhì)的可信樣本,建立樣本間置信度動(dòng)態(tài)預(yù)測(cè)的基礎(chǔ)。其次,根據(jù)數(shù)據(jù)間固有的分布特性,分析樣本標(biāo)簽誤差與距離之間的聯(lián)系,建立樣本之間的置信度連接,設(shè)計(jì)兩種基于樣本關(guān)聯(lián)度的標(biāo)簽概率預(yù)測(cè)方法,推斷樣本標(biāo)簽置信度。最后,迭代搜索最優(yōu)置信度樣本,優(yōu)化更新樣本預(yù)測(cè)標(biāo)簽,結(jié)合閾值與預(yù)測(cè)標(biāo)簽進(jìn)行樣本處理,識(shí)別并糾正噪聲標(biāo)簽。
在獲得Y*的過(guò)程中,引入如下幾個(gè)概念。給定置信度閾值β1,E={xi|b(xi)≥β1}為高置信度樣本集合,這里b(xi)除與置信度閾值有關(guān),還受標(biāo)簽變化影響;E′?E,為可信樣本集合,其元素還需要滿(mǎn)足標(biāo)簽一致性條件;R=XE′為不可信樣本集。為準(zhǔn)確識(shí)別與糾正噪聲標(biāo)簽,對(duì)不可信樣本進(jìn)行迭代搜索,每一輪迭代只選擇一個(gè)置信度最高的優(yōu)質(zhì)樣本,即
(1)
其中:λ是鄰域半徑;δ(E,R,λ)為E在R中的λ鄰域。在每次獲得最大置信度樣本的搜索過(guò)程中,考慮樣本間的可信關(guān)系約束。
在本文的方法中,主要分為初始可信樣本篩選、樣本標(biāo)簽置信度預(yù)測(cè)和噪聲標(biāo)簽識(shí)別與糾正3個(gè)模塊。首先,定義初始可信樣本選擇策略,篩選優(yōu)質(zhì)的可信樣本;然后,通過(guò)標(biāo)簽概率預(yù)測(cè)方法推斷樣本標(biāo)簽置信度;最后,迭代搜索不可信樣本中的最高置信度樣本,利用置信度閾值識(shí)別噪聲樣本,通過(guò)softmax標(biāo)簽預(yù)測(cè),實(shí)現(xiàn)噪聲標(biāo)簽糾正。CPRC算法框架如圖1所示。
圖1 CPRC算法框架
由于噪聲的隨機(jī)性,通常不存在絕對(duì)干凈的樣本。為獲得可信度較高的近似干凈的樣本,本文通過(guò)對(duì)樣本數(shù)量與標(biāo)簽比例的假設(shè),篩選符合條件的可信樣本。
首先,構(gòu)建樣本xi以λ為半徑的鄰域Hλ(xi)={xj∈X{xi}∣d(xi,xj)≤λ},根據(jù)樣本之間存在的置信度b(xi)與距離d(xi,xj)的差異,將鄰域內(nèi)的樣本進(jìn)行詳細(xì)分類(lèi)。
對(duì)置信度b(xi)而言,若b(xi)≥β1,xi∈E為高置信度樣本;若b(xi)<β1,xi∈XE為低置信度樣本。則鄰域Hλ(xi)可細(xì)分為高置信度鄰域HE(xi)={xj∈X{xi}∣xj∈E∩Hλ(xi)}與低置信度鄰域HU(xi)={xj∈X{xi}∣xj∈Hλ(xi)HE(xi)}。若進(jìn)一步考慮可信樣本集,在高置信度鄰域內(nèi)又有可信鄰域HE′(xi)={xj∈X{xi}∣xj∈E′∩Hλ(xi)}。
其次,聚集鄰域Hλ(xi)內(nèi)與xi標(biāo)簽相同的樣本xj,記標(biāo)簽yj=l,將符合條件的樣本簇表示為
Cl(xi)={xj∈Hλ(xi)∪xi∣yj=l}。
(2)
計(jì)算標(biāo)簽l在鄰域內(nèi)所有樣本標(biāo)簽中所占的比例,
(3)
最后,設(shè)置樣本篩選閾值α1和α2,當(dāng)鄰域Hλ(xi)內(nèi)的樣本總數(shù)不小于α1,且與xi標(biāo)簽相同的樣本所占比例M(xi)大于α2時(shí),則認(rèn)為樣本xi為初始可信樣本,其標(biāo)簽完全可信,設(shè)其置信度b(xi)=1,并加入可信樣本集E′。
圖2B~2D舉例說(shuō)明了初始可信樣本篩選的不同情況。假設(shè)閾值α1=8,α2=1/2,在半徑為λ的鄰域中,圖2B關(guān)于x10的鄰域內(nèi)共有9個(gè)樣本,|Hλ(x10) |+1=10>α1,其中,x10與x5、x6、x7、x9標(biāo)簽相同,且該類(lèi)標(biāo)簽數(shù)量最多,|Cl(x10) |=5,此時(shí)M(x10)=1/2≥α2,滿(mǎn)足條件,認(rèn)為x10是初始可信樣本,令其置信度b(x10)=1;圖2C關(guān)于x1的鄰域內(nèi)共有7個(gè)樣本,|Hλ(x1) |+1=8≥α1,其中,x1與x2、x3的標(biāo)簽相同,且該類(lèi)標(biāo)簽數(shù)量最多,|Cl(x1) |=3,但M(x1)=3/8<α2,不滿(mǎn)足條件;圖2D中,關(guān)于x6的鄰域內(nèi)共有6個(gè)樣本,則|Hλ(x6)|+1=7<α1,不滿(mǎn)足條件。
圖2 初始可信樣本篩選
本文噪聲標(biāo)簽識(shí)別與糾正方法CPRC基于置信度的預(yù)測(cè),對(duì)于任意樣本xi∈X,CPRC建立樣本之間的連接關(guān)系,推理計(jì)算各個(gè)樣本的置信度。
2.3.1 樣本關(guān)聯(lián)度計(jì)算 通常認(rèn)為,樣本之間越接近,標(biāo)簽不一致的概率就越低。利用數(shù)據(jù)之間這種固有的分布特性,本文使用標(biāo)簽不一致統(tǒng)計(jì)方法[27],分析樣本標(biāo)簽誤差與樣本間距離的關(guān)系,得到樣本對(duì)之間的標(biāo)簽不一致概率,表示樣本間的連接關(guān)系。
首先,考慮所有樣本以λp為半徑的鄰域,根據(jù)式(4)計(jì)算鄰域內(nèi)樣本對(duì)(xi,xj)的標(biāo)簽不一致誤差p(λp),
(4)
其中,Hλp={(xi,xj)∈X×X∣d(xi,xj)≤λp}是相對(duì)于鄰域半徑λp的相鄰樣本對(duì)。
圖3詳細(xì)展示了標(biāo)簽關(guān)聯(lián)度及樣本置信度計(jì)算的不同情況??紤]鄰域半徑λp=0.3,則有(x1,x5)、(x2,x3)、(x2,x6)共3組樣本對(duì)的樣本間距離小于等于λp。其中,(x2,x6)具有不同標(biāo)簽,則p(λp)=1/3;取λp=0.58,則有(x1,x5)、(x1,x6)、(x2,x3)、(x2,x4)、(x2,x6)、(x3,x4)、(x3,x6)、(x4,x5)、(x4,x6)、(x5,x6)共10組樣本對(duì)的樣本間距離小于λp,其中,僅(x1,x5)、(x2,x3)、(x4,x6)共3組樣本對(duì)具有相同標(biāo)簽,則p(λp)=7/10。
然后,擬合標(biāo)簽不一致曲線φ(λp)。本文經(jīng)驗(yàn)性地選擇了30個(gè)不同大小、類(lèi)別、維度和形狀的數(shù)據(jù)集對(duì)標(biāo)簽不一致誤差p(λp)進(jìn)行統(tǒng)計(jì),獲得統(tǒng)計(jì)函數(shù)的估計(jì)值進(jìn)行擬合,得到實(shí)際的標(biāo)簽不一致統(tǒng)計(jì)函數(shù),
φ(λp)=(804.3λ-1.381)/(λ3+1 621λ2+286.2λ+1 221)。
(5)
最后,根據(jù)樣本間的距離λp,查詢(xún)?chǔ)?λp),得到樣本間標(biāo)簽不一致的概率,表示為樣本間的連接關(guān)系,即樣本關(guān)聯(lián)度
a(xi,xj)=1-φ(d(xi,xj))。
(6)
2.3.2 樣本置信度計(jì)算 定義樣本間的連接關(guān)系,獲得樣本關(guān)聯(lián)度后,通過(guò)兩種基于樣本關(guān)聯(lián)度的標(biāo)簽概率預(yù)測(cè)方法,推斷樣本標(biāo)簽置信度b(xi)。
若樣本xi的鄰域內(nèi)只有一個(gè)高置信度樣本xj,通常采用單實(shí)例置信度推斷方法。此時(shí),xi相對(duì)于xj的單實(shí)例置信度為
bs(xi,xj)=b(xj)a(xi,xj)。
(7)
圖3B~3C舉例說(shuō)明了單實(shí)例置信度的計(jì)算步驟。對(duì)于待預(yù)測(cè)樣本x1,首先通過(guò)鄰域半徑λp查詢(xún)x1與高置信度樣本x3的標(biāo)簽不一致概率φ(λp),通過(guò)樣本關(guān)聯(lián)度a(x1,x3),利用式(7)計(jì)算樣本x1的置信度bs(x1,x3)。
若樣本xi的鄰域內(nèi)有多個(gè)高置信度樣本,則使用鄰域置信度推理方法。此時(shí),xi的鄰域置信度為
bo(xi,HE(xi))=bs(xi,xj)+
(1-bs(xi,xj))×
(8)
其中:bs(xi,xj)是最近高置信度鄰居xj(xj=x1nn(xi))的置信度;xl是鄰域內(nèi)除xj外的其他高置信度樣本。
通常認(rèn)為,樣本間越接近,樣本標(biāo)簽相同的概率越大;鄰域內(nèi)相同標(biāo)簽的樣本數(shù)量越多,待預(yù)測(cè)樣本標(biāo)簽越趨同。因此,在鄰域置信推理方法中加入指示函數(shù)I(yl),
(9)
當(dāng)xl與xj的標(biāo)簽相同時(shí),取I=1,否則為I=-1,以此增大不同標(biāo)簽樣本間的置信度差異。
圖3 樣本置信度預(yù)測(cè)
基于初始可信樣本的篩選與樣本置信度的計(jì)算,通過(guò)迭代搜索不可信樣本集R=XE′中的最高置信度樣本,結(jié)合置信度閾值和對(duì)樣本的標(biāo)簽預(yù)測(cè),識(shí)別并糾正噪聲樣本,具體步驟如下。
第1步:在δ(E,R,λ)={xi∈R|d(xi,xj)<λ,xj∈E}內(nèi),搜索一個(gè)擁有最高置信度的優(yōu)質(zhì)不可信樣本
xt=arg maxx∈δ(E,R,λ)b(x)。
(10)
(11)
算法1給出了CPRC的完整步驟,包括初始可信樣本篩選、樣本標(biāo)簽置信度預(yù)測(cè)、噪聲標(biāo)簽識(shí)別與糾正3個(gè)部分。第1~2行通過(guò)約束條件選擇高質(zhì)量的初始可信樣本;第3~6行通過(guò)樣本間標(biāo)簽與距離的差異,計(jì)算樣本置信度;第7~20行搜索擁有最大置信度的不可信樣本xt,根據(jù)被查詢(xún)樣本xt與其最近高置信度鄰居xj的標(biāo)簽一致性,使用softmax預(yù)測(cè)結(jié)果糾正xt的標(biāo)簽。最后采用任意監(jiān)督算法對(duì)樣本進(jìn)行分類(lèi)。
算法1噪聲標(biāo)簽識(shí)別與糾正的置信度預(yù)測(cè)方法(CPRC)
輸入 含錯(cuò)誤標(biāo)簽的訓(xùn)練集D,樣本篩選閾值α1、α2,置信度閾值β1、β2
輸出 分類(lèi)標(biāo)簽L
1)利用樣本篩選閾值α1、α2獲得初始可信樣本集E′;
2)E←E∪E′;
∥步驟1篩選初始可信樣本
3)根據(jù)式(5)查詢(xún)標(biāo)簽不一致概率φ(λp);
4)根據(jù)式(6)計(jì)算樣本關(guān)聯(lián)度a;
5)fori←1 to |R| do
6) 根據(jù)式(7)和(8)得到樣本置信度b(xi);
∥步驟2計(jì)算樣本置信度
7) 根據(jù)式(10)搜索最高置信度樣本xt;
8) fori←1 to |E′|do
10) end for
11) ifb(xt)>β1then
12) 更新高置信度樣本集E←E∪xt;
14) 更新可信樣本集E′←E′∪xt;
15) end if
16) end if
17) ifb(xt)>β2且yt≠yjthen
19) end if
20) end for
∥步驟3識(shí)別并糾正標(biāo)簽
21)L←Supervisedclassify (D)。
為驗(yàn)證本文所提CPRC算法的有效性,選取了6組多分類(lèi)測(cè)試數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),包括Aggregation、DLA0.01、Seeds、Page-blocks、Penbase和Balance-scale。詳細(xì)的數(shù)據(jù)集信息如表1所示。
表1 本文使用的多分類(lèi)數(shù)據(jù)集
由于樣本標(biāo)簽的準(zhǔn)確性對(duì)監(jiān)督學(xué)習(xí)的分類(lèi)性能有顯著影響,故本文采用樣本分類(lèi)準(zhǔn)確率,即預(yù)測(cè)精度Acc作為評(píng)價(jià)指標(biāo),
(12)
其中:n是數(shù)據(jù)集總樣本數(shù),e是錯(cuò)誤分類(lèi)的樣本數(shù)量。
對(duì)于每個(gè)數(shù)據(jù)集,選取40%進(jìn)行訓(xùn)練,60%用于測(cè)試。為了保證實(shí)驗(yàn)的準(zhǔn)確性,在每個(gè)數(shù)據(jù)集上,隨機(jī)化重復(fù)10次實(shí)驗(yàn),計(jì)算平均分類(lèi)準(zhǔn)確率和方差并進(jìn)行分類(lèi)性能統(tǒng)計(jì)分析。為獲得最優(yōu)實(shí)驗(yàn)結(jié)果,根據(jù)經(jīng)驗(yàn),將CPRC方法的樣本篩選閾值設(shè)置為α1=8,α2=0.8,置信度閾值設(shè)置為β1=0.95,β2=0.5。
為了驗(yàn)證CPRC是否能夠有效提升監(jiān)督分類(lèi)算法的精度,本文實(shí)驗(yàn)將1NN、3NN、Tree和Bagging 4種經(jīng)典的監(jiān)督分類(lèi)器作為基分類(lèi)器,其中,1NN和3NN是兩種最常用的最近鄰分類(lèi)算法;對(duì)于Tree,本文采用分類(lèi)回歸樹(shù)CART;Bagging結(jié)合了多種弱分類(lèi)算法,能有效降低泛化誤差。設(shè)置20%的噪聲率,在4種基分類(lèi)器上應(yīng)用CPRC算法,分別在6個(gè)數(shù)據(jù)集上進(jìn)行分類(lèi)實(shí)驗(yàn),表2和表3給出了其與不使用任何噪聲處理算法的分類(lèi)對(duì)比結(jié)果,對(duì)分類(lèi)性能最好的結(jié)果進(jìn)行加粗顯示?!癈PRC-”表示采用CPRC進(jìn)行標(biāo)簽糾正降噪后,再使用分類(lèi)器進(jìn)行分類(lèi)。
表2列出了1NN、3NN在6個(gè)數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率,以及在1NN、3NN上應(yīng)用CPRC進(jìn)行標(biāo)簽糾正降噪后的分類(lèi)準(zhǔn)確率。使用CPRC算法的分類(lèi)器與不采取任何降噪措施的分類(lèi)器相比,在所有6個(gè)數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率都有3%左右的精度提升。例如,在Aggregation數(shù)據(jù)集上,1NN的分類(lèi)準(zhǔn)確率為79.53%,CPRC-1NN的分類(lèi)準(zhǔn)確率為86.27%,精度提升了8%左右。在Pageblocks數(shù)據(jù)集上,CPRC-1NN的分類(lèi)準(zhǔn)確率為85.89%,遠(yuǎn)高于1NN (76.41%)。
由表3的結(jié)果可知,在Tree和Bagging分類(lèi)器上應(yīng)用CPRC算法后,在6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相比于未使用CPRC算法的基分類(lèi)器均有不同程度的提升。由于Bagging對(duì)噪聲不敏感,Page-blocks和Penbase數(shù)據(jù)集在CPRC-Bagging上的分類(lèi)準(zhǔn)確率分別為94.82%和97.78%,雖然略低于在Bagging上的分類(lèi)準(zhǔn)確率(94.83%和98.01%),但僅相差0.01%~0.23%,且在其他數(shù)據(jù)集上,CPRC仍然能夠進(jìn)行噪聲標(biāo)簽的有效識(shí)別與糾正。
根據(jù)表2和表3的實(shí)驗(yàn)結(jié)果,本文提出的CPRC算法在6個(gè)數(shù)據(jù)集上整體表現(xiàn)優(yōu)異,顯著提高了經(jīng)典監(jiān)督分類(lèi)器的分類(lèi)性能,可有效提升監(jiān)督分類(lèi)算法的精度。
表2 CPRC在1NN和3NN上的分類(lèi)準(zhǔn)確率
表3 CPRC在Tree和Bagging上的分類(lèi)準(zhǔn)確率
圖4進(jìn)一步展示了在不同噪聲環(huán)境下CPRC算法的性能??紤]噪聲率分別為10%,15%,20%,25%,30%,4種監(jiān)督分類(lèi)器在不同噪聲率下都實(shí)現(xiàn)了性能的顯著提升。例如,對(duì)于Aggregation數(shù)據(jù)集,在30%的噪聲率下,3NN和CPRC-3NN的準(zhǔn)確率分別為83.24%和91.84%。對(duì)于Balance-scale數(shù)據(jù)集,受15%的噪聲率影響,1NN和CPRC-1NN的準(zhǔn)確率分別為65.61%和70.35%。在25%的噪聲率下,數(shù)據(jù)集DLA0.01的分類(lèi)準(zhǔn)確率由Tree的78.72%提升到CPRC-Tree的86.89%。
圖4 不同噪聲環(huán)境下4種監(jiān)督分類(lèi)器在應(yīng)用CPRC算法后的性能對(duì)比
實(shí)驗(yàn)結(jié)果表明,本文提出的CPRC算法在不同的噪聲環(huán)境下均能有效識(shí)別并糾正噪聲,降低了噪聲標(biāo)簽對(duì)模型分類(lèi)性能的影響,具有良好的魯棒性。
為進(jìn)一步驗(yàn)證CPRC算法的優(yōu)越性能,將CPRC-3NN、CPRC-Bagging與DPNLD[28]、LNPCC[29]兩種先進(jìn)的噪聲標(biāo)簽學(xué)習(xí)算法進(jìn)行比較。其中,DPNLD是基于密度峰值的高光譜圖像噪聲標(biāo)簽檢測(cè)算法,LNPCC主要討論標(biāo)簽噪聲下半監(jiān)督學(xué)習(xí)中的粒子競(jìng)爭(zhēng)與合作。實(shí)驗(yàn)中采用的源碼及配置信息嚴(yán)格引用原文以確保最佳性能,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 CPRC與DPNLD、LNPCC的性能對(duì)比
從圖5可以看出,在不同的噪聲率下(10%,15%, 20%, 25%, 30%), 相比于DPNLD和LNPCC,CPRC算法具有穩(wěn)定的標(biāo)簽識(shí)別與糾正能力,魯棒性更好。相較于LNPCC,在Aggregation、Seeds數(shù)據(jù)集上應(yīng)用CPRC算法,其分類(lèi)精度并不理想,但比DPNLD更具優(yōu)勢(shì),且有效提升了基分類(lèi)器的效果。而在Page-blocks、Balance-scale、DLA0.01上,CPRC算法相較于DPNLD和LPNCC均有不同程度的性能提升。例如,在Page-blocks上,加入25%的噪聲,DPNLD和LPNCC算法下的分類(lèi)精度分別為89.62%和93.51%,CPRC-Bagging則表現(xiàn)出94.97%的準(zhǔn)確率。特別地,對(duì)于數(shù)據(jù)集DLA0.01,由于特征之間高度相關(guān),特征變量冗余,導(dǎo)致算法LNPCC與DPNLD不收斂,標(biāo)簽識(shí)別與糾正能力降低,但CPRC依然有優(yōu)異的表現(xiàn)。
綜上,從標(biāo)簽識(shí)別與糾正的角度考慮,與幾種目前先進(jìn)的噪聲標(biāo)簽學(xué)習(xí)算法相比,CPRC綜合表現(xiàn)更佳,具有較強(qiáng)的魯棒性;從模型分類(lèi)性能的角度考慮,在不同噪聲比下,CPRC均能有效識(shí)別并糾正噪聲標(biāo)簽,在不同類(lèi)型基礎(chǔ)分類(lèi)器上的分類(lèi)性能都更優(yōu)越。
其次,本文使用的初始可信樣本篩選策略建立在對(duì)樣本數(shù)量與標(biāo)簽比例的假設(shè)基礎(chǔ)上,所選擇的初始可信樣本需滿(mǎn)足“鄰域內(nèi)樣本總數(shù)不小于α1,且與其標(biāo)簽相同的樣本所占比例大于α2”的條件?;趯?shí)驗(yàn)中所設(shè)置的參數(shù)α1=8,α2=0.8,對(duì)于數(shù)據(jù)集Penbase,至多挑選出67個(gè)初始可信樣本,占所有干凈樣本總數(shù)的2.7%;對(duì)于數(shù)據(jù)集Balance-scale,挑選出的初始可信樣本數(shù)量?jī)H在干凈樣本總數(shù)的8%~12%之間,均無(wú)法篩選出大規(guī)模可信樣本。未來(lái)需要進(jìn)一步考慮初始可信樣本選擇的理論模型和理論證明。
為降低噪聲標(biāo)簽對(duì)模型分類(lèi)性能的影響,本文提出了一種噪聲標(biāo)簽識(shí)別與糾正的置信度預(yù)測(cè)方法(CPRC),通過(guò)定義置信度推斷方法,建立置信度連接,迭代搜索最高置信度樣本進(jìn)行噪聲標(biāo)簽識(shí)別與糾正。對(duì)不同類(lèi)型基礎(chǔ)分類(lèi)器在不同噪聲比下進(jìn)行了實(shí)驗(yàn),表明CPRC對(duì)初始可信樣本的篩選有效,考慮樣本間標(biāo)簽誤差與距離的置信度計(jì)算方法準(zhǔn)確,使用閾值與預(yù)測(cè)標(biāo)簽進(jìn)行標(biāo)簽識(shí)別與糾正的處理方式合理。
未來(lái)的研究工作主要包括以下兩個(gè)部分:
1)減少標(biāo)簽識(shí)別與糾正過(guò)程中的閾值使用,進(jìn)一步優(yōu)化噪聲標(biāo)簽識(shí)別的敏感程度與噪聲標(biāo)簽糾正的準(zhǔn)確率;
2)改進(jìn)初始可信樣本的篩選策略,加強(qiáng)初始可信樣本的信任程度,降低錯(cuò)誤篩選的樣本對(duì)標(biāo)簽識(shí)別與糾正的負(fù)面影響。