張開放,蘇華友,竇 勇
(國防科技大學(xué)計算機學(xué)院, 湖南 長沙 410073)
在機器學(xué)習(xí)領(lǐng)域,多分類任務(wù)[1 - 3]是指將樣本實例分為3個及以上類別之一的問題(將樣本實例分類為2個類別之一稱為二分類)。由于分類算法和模型的局限性,對分類器的分類結(jié)果進行準確性評估是一個必須面對的問題[4,5]。另一方面,由于分類器過擬合現(xiàn)象的存在,恰當(dāng)?shù)剡x擇準確率評價指標(biāo)顯得十分重要。現(xiàn)有的一些評價指標(biāo),諸如準確率[3]、Kappa系數(shù)[6]和F1值[3]等,都是基于混淆矩陣對總體分類效果進行的評估。它們很難給出單個類別的分類效果,這在某些實際應(yīng)用中是不足以滿足用戶需求的(例如在MNIST(Mixed National Institute of Standards and Technology database)手寫字符體識別任務(wù)中,數(shù)字0出現(xiàn)的概率和重要性往往會比其他數(shù)字大和高)。
本文將該方法引入多分類任務(wù)模型評估場景。該方法最初運用于地震預(yù)測領(lǐng)域[7],后被引入遙感圖像目標(biāo)識別效果評估領(lǐng)域[8,9],用于評估識別的效率。本文針對機器學(xué)習(xí)領(lǐng)域的多分類任務(wù),對該方法進行拓展和遷移應(yīng)用,并給出了理論推導(dǎo)過程。基于MNIST手寫字符體識別和CIFAR-10(Canadian Institute For Advanced Research, 10 classes)數(shù)據(jù)集的多分類任務(wù)實驗結(jié)果表明,與已有模型準確率評估方法相比,上述方法可以較好地評估模型分類準確率。值得一提的是,同樣是基于混淆矩陣進行推理,該方法計算簡單,并且可以同時給出分類器整體以及每一個類別的分類效果,對于評估和改進訓(xùn)練過程具有一定的指導(dǎo)意義,同時在特定的任務(wù)背景下應(yīng)用前景廣闊。
本文的主要工作如下所示:
(1)提出了一種新的多類別分類效果評價指標(biāo),該指標(biāo)考慮真實標(biāo)簽和預(yù)測標(biāo)簽之間的數(shù)值差異,可以更好地反映分類模型的分類效果。
(2)從數(shù)學(xué)上給出了所提指標(biāo)的理論推導(dǎo)及其性質(zhì)證明。
(3)通過該指標(biāo)可同時獲得總體和單個類別分類效果,以改進分類模型訓(xùn)練過程。
(4)在不同的應(yīng)用中評估了各指標(biāo)在MNIST和CIFAR-10數(shù)據(jù)集上的分類效果,以驗證其有效性和魯棒性。
本節(jié)主要介紹幾種常見的模型準確率評價指標(biāo)及其不足。不失一般性,考慮表1所示的三分類問題的混淆矩陣。表1中,l、m、n分別代表類別1、類別2、類別3的真實樣本數(shù),r、s、t分別代表結(jié)果中預(yù)測為3個類別的樣本數(shù);w是所有樣本的總數(shù);a、b、c代表被正確分類的樣本數(shù),d、f、g、e、i*、h代表被錯誤分類的樣本數(shù)。
Table 1 Confusion matrix of the three-category task表1 三分類問題混淆矩陣
準確率作為分類問題最原始的評價指標(biāo),定義為正確預(yù)測的樣本占總樣本的百分比。對于表1所示的混淆矩陣,有:
(1)
顯然,這一指標(biāo)沒有考慮非對角線因素,也就是忽略了諸多的邊界樣本信息,尤其是在各個類別樣本數(shù)量不均衡的情況下,它不能很好地評估分類效果的好壞。
PR曲線是描述精準率、召回率變化關(guān)系的曲線。其中P代表精準率(Precision),又叫查準率,是針對分類結(jié)果而言的,定義為所有被預(yù)測為正的樣本中真實標(biāo)簽為正的樣本的概率;R代表召回率(Recall),又叫查全率,是針對真實標(biāo)簽而言的,定義為所有實際為正的樣本中被分類為正的樣本的概率。曲線最初是針對二分類任務(wù)場景提出的,混淆矩陣如表2所示。其中,m、n分別代表類別1和類別2的真實樣本數(shù),s、t分別代表分類結(jié)果中預(yù)測為2個類別的樣本數(shù);w是所有樣本的總數(shù);a、b代表被正確分類的樣本數(shù),c、d代表被錯誤分類的樣本數(shù)。表1和表2的a、b、c和d僅有局部意義,分別適用于三分類場景和二分類場景。
Table 2 Confusion matrix of the two-category task表2 二分類問題混淆矩陣
其PR值的計算如式(2)所示:
(2)
對于多分類問題,實際上會獲得多組混淆矩陣,也就會得到多組PR值,此時有2種處理方法:宏平均(macro-average)和微平均(micro-average)。宏平均是先計算每個混淆矩陣的PR值,然后再分別取平均;微平均則是計算出全局混淆矩陣的平均正負樣本數(shù),然后再計算整體的值。
這樣,對于上述三分類問題,采用宏平均方式計算如式(3)所示:
(3)
其中,Pi和Ri分別代表類別i的精準率和召回率,具體計算方法為:P1=a/r,P2=b/s,P3=c/t;R1=a/l,R2=b/m,R3=c/n。
采用微平均方式(對于沒有漏檢的多分類任務(wù)而言,實際就是2.1節(jié)中的準確率)計算如式(4)所示:
(4)
可以看出,宏平均雖然加入了更多的非對角線元素,但是仍然只能給出所有類別整體的分類效果,而微平均則和2.1節(jié)的準確率等價。同時,PR值是一對此消彼長的統(tǒng)計量,在實際應(yīng)用中要做好兩者的兼顧和取舍。
為了解決PR值的上述問題,調(diào)和PR值,研究人員提出了F-measure(或F-score)方法,即:
(5)
特別地,當(dāng)β=1時,認為PR值同等重要,稱F1值;有些情況下,如果認為P值更重要,就調(diào)整β值小于1;反之,若認為R值比較重要,則調(diào)整β值大于1。
雖然F-score給了更大的調(diào)節(jié)空間,一方面很難根據(jù)實際場景量化β值,另一方面仍然無法給出單個類別的分類評估結(jié)果。
Kappa系數(shù)是統(tǒng)計學(xué)中的概念,一般用于一致性檢驗,也可以用來作為衡量分類精度的指標(biāo)。其計算方法如式(6)所示:
(6)
其中,Po代表總體分類精度(即2.1節(jié)中的準確率),Pe計算方法如式(7)所示:
(7)
其中,rowi和coli分別代表第i個類別的真實樣本個數(shù)和分類預(yù)測的樣本個數(shù),具體為:row1=l,row2=m,row3=n;col1=r,col2=s,col3=t。一般情況下,根據(jù)Kappa系數(shù)大小進行如表3所示的一致性等級劃分。
Table 3 Consistency level of Kappa coefficient表3 Kappa 系數(shù)一致性等級劃分
同樣,無法避免的是上述Kappa系數(shù)仍然不能給出單個類別分類結(jié)果的準確率評估。同時,這種等級劃分的適用范圍有限,等級劃分缺乏一定的合理性,不能適應(yīng)應(yīng)用場景的變化遷移和滿足用戶特定的具體需求。
據(jù)作者所知,這方面的工作很少。然而,在一些特定的應(yīng)用場景中,文獻[10-13]進行了一些相關(guān)的工作。文獻[14,15]研究了評估檢索系統(tǒng)的問題,并定義了一些類似于AP(Average Precision)的指標(biāo)。文獻[16-18]通過數(shù)學(xué)分析和一些特定實驗比較了AP和其他一些指標(biāo)。文獻[19,20]提出了一些改進措施,以克服平均精度(mAP)的缺陷。文獻[21-23]探究了在其他一些領(lǐng)域改變評價指標(biāo)的可能性。但是,上述所有工作都只是試圖調(diào)整或采用AP指數(shù)以在某些特定的應(yīng)用場景中獲得更好的性能[24 - 28]。他們很少關(guān)注怎樣去克服AP及類似指標(biāo)的固有缺點,且應(yīng)用場景受限[29 - 32]。
R方法是由許紹燮院士在1973年提出的,最初運用于地震預(yù)測的準確率評估,后來(1989年)給出了更嚴格的理論推導(dǎo)和證明,并由王曉青研究員等人(1999年,2002年)進行了進一步的改進和推廣[7]。Dou等人[9](2004年)將其引入遙感圖像分類效果評估,給出了理論推導(dǎo),并進行了適當(dāng)改進,稱之為R′方法?;谏鲜鲈?,這里給出應(yīng)用于多分類任務(wù)場景的評估方法,并仍稱之為R′方法。
不失一般性,仍以表2中的二分類問題為例,先給出R′方法的一般原理,然后進行多分類任務(wù)的拓展和推廣。
以類別1為例,該類別的分類效率R(1)定義如下:對該類別進行正確分類的概率與樣本被預(yù)測為這個類別的概率之差,如式(8)所示:
R(m|s)=P(s|m)-P(s)
(8)
其中,P(s|m)代表該類別被正確分類的概率,計算方法如下:正確分類的樣本數(shù)與該類別樣本總數(shù)之比,如式(9)所示:
(9)
P(s)代表樣本被預(yù)測為該類別的概率,如式(10)所示:
(10)
同樣,P(m)代表這一類別在總樣本中的出現(xiàn)概率,如式(11)所示:
(11)
綜上,可得:
(12)
進而有:
R(m|s)+P(m)=P(s|m)-P(s)+P(m)=
(13)
根據(jù)實際的分類結(jié)果,考慮以下3種可能出現(xiàn)的情況:
(1)該類別預(yù)測樣本數(shù)小于該類別實際的樣本數(shù),即a≤s (14) (2)該類別預(yù)測樣本數(shù)大于該類別實際的樣本數(shù),即a≤m (15) (3)分類結(jié)果完全正確,即a=m=s時: R(m|s)+P(m)=1 (16) 根據(jù)R(1)值的定義,可得R(m|s)+P(s)=P(s|m)≥0,即R(m|s)≥-P(s)。所以有: -P(s)≤R(m|s)≤1-P(m) (17) 也就是說,R(1)∈[-P(s),1-P(m)]。它越接近于1-P(m),表明分類效果越好。為方便評估,本文進行以下改進,并定義為R′(1): R′(m|s)=R(m|s)+P(m)= P(s|m)-P(s)+P(m)= P(s|m)-[P(s)-P(m)] (18) 這樣,R′(1)∈[P(m)-P(s),1]。R′(1)值越接近于1,分類效果越好。 對于多分類(假設(shè)類別數(shù)為n)問題,顯然不止一個類別需要預(yù)測。為此,對上述推理進行以下推廣。 設(shè)x表示總樣本中所有類別真實樣本的總數(shù),y代表最終的分類預(yù)測結(jié)果,xi代表第i個類別的真實樣本數(shù)量,yi代表第i個類別的預(yù)測樣本數(shù)量,對于機器學(xué)習(xí)領(lǐng)域的多分類任務(wù)而言,每一個樣本都會有一個預(yù)測標(biāo)簽,所以有: (19) 基于此,第i個類別分類正確的概率計算如式(20)所示: P(yi)=P(yi|y)P(y) (20) 其中,P(yi|y)代表樣本被分為第i個類別的條件概率,P(y)代表樣本參與分類的概率(對于本文中的多分類任務(wù)場景,該概率實際為1)。 進而,對所有類別而言,分類結(jié)果和真實標(biāo)簽一致的概率如式(21)所示: (21) 其中,P(yi|xi)代表第i個類別被正確分類的條件概率。 根據(jù)3.1節(jié)的結(jié)論,對于第i個類別有: R′(xi|yi)=P(yi|xi)-[P(yi)-P(xi)] (22) 進而對所有類別而言,有: R′(x|y)=P(y|x)-[P(y)-P(x)]= (23) 其中,ai代表第i個類別的樣本中被正確預(yù)測的樣本數(shù)量。該值越接近1,表明總體的分類效果越好。 這樣,就可以通過這種方法同時獲得分類器整體的分類效果評估值R′(x|y)和單個樣本分類效果的評估值R′(xi|yi)。在某些應(yīng)用場景下,用戶如果特別關(guān)注某一類別的分類效果,可以在保證總體分類效果的前提下,通過調(diào)節(jié)R′(xi|yi)來滿足特殊分類需要。 上文給出了在多分類任務(wù)場景下的R′方法。值得注意的是,該方法與Dou等人[9]的R′方法有2點不同:(1)應(yīng)用場景不同。如式(8)描述的那樣,多分類任務(wù)場景下,該指標(biāo)評估每個類別被正確分類的概率,并以樣本數(shù)作為統(tǒng)計標(biāo)準。與之不同的是,Dou等人的方法以遙感圖像像元的多少表征目標(biāo)識別概率的高低。(2)適用條件不同。遙感圖像識別往往包含像元的錯漏現(xiàn)象,也就是某些像元不屬于任何一個目標(biāo)。而在一般的多分類任務(wù)場景下,正如式(20)中描述的那樣,樣本參與分類的概率P(y)=1,也就是不存在樣本不被歸類的情況。 本文的實驗基于MNIST手寫字符體識別任務(wù)。這是一個n=10的多分類問題。采用一種典型人工神經(jīng)網(wǎng)絡(luò)(LeNet-5)進行訓(xùn)練和測試,得到在測試樣本精度最高的參數(shù)設(shè)置下的測試樣本混淆矩陣,并計算出第2節(jié)描述的各評價指標(biāo),將在4.1節(jié)給出,以觀察R′方法的評價效果;同時,基于不同超參數(shù)設(shè)置,給出不同模型下R′值對分類器的評估結(jié)果,將在4.2節(jié)給出,以評估R′方法的魯棒性;4.3節(jié)通過改變某些樣本的容量或者標(biāo)簽,對比在不改變上述容量或者標(biāo)簽的情況下,這些類別的值的變化,以此來進一步驗證此方法對于單個類別的評估效果;4.4節(jié)則將上述實驗遷移到CIFAR-10數(shù)據(jù)集(對應(yīng)的神經(jīng)網(wǎng)絡(luò)模型采用VGG)并試圖從另一個角度說明R′方法的有效性。 實驗中,測試樣本最終在模型(最終測試準確率為98.06%)下得出如表4所示的混淆矩陣(表中行表示實際標(biāo)簽,列表示預(yù)測標(biāo)簽;表中同時給出了每個類別的R′值)。基于混淆矩陣,計算得出表5所示的各個評價指標(biāo)取值(PR值項分別給出P值和R值,用P/R表示)。 Table 4 Confusion matrix of the test samples表4 測試樣本分類結(jié)果混淆矩陣 Table 5 Evaluation indices of test samples classification result表5 測試樣本分類結(jié)果評價指標(biāo) 可以看出,在給定的參數(shù)設(shè)置下,R′值給出了與現(xiàn)有的評價指標(biāo)相近的分類器評估取值。值得一提的是,表4說明了R′值可以同時給出整體預(yù)測結(jié)果的評估指標(biāo)以及單個類別的評估指標(biāo),這是其他指標(biāo)無法做到的。為進一步說明R′值的上述特性,圖1給出了10個類別在不同指標(biāo)體系下評估結(jié)果的雷達圖(對于R′值以外的評估指標(biāo),由于它們只給出了整體的分類效果評估值,這里對所有類別賦予同樣的該評估值)。 Figure 1 Appraised values for different categories of classification results under each indicator圖1 各個指標(biāo)下不同類別分類結(jié)果的評估值 同樣可以看出,除了R′值以外,其他的評估指標(biāo)雷達圖均為正十邊形(每個類別具有相同的全局評估值)。而對R′值而言,可以清楚地看出,實驗結(jié)果對數(shù)字0,1,2,7識別率較高,對數(shù)字4識別率最差(數(shù)字3,5,6,8,9則介于兩者之間)。這給某些場景下的特殊應(yīng)用需求提供了直觀、便利的評估結(jié)果和模型選擇方法。 為進一步驗證R′值的魯棒性(在不同參數(shù)設(shè)置下,R′值對不同模型的評價結(jié)果有無差異),本節(jié)進行了不同超參數(shù)設(shè)置(實際是不同學(xué)習(xí)率)下的10組實驗,并對比其分類結(jié)果的評估值,如表6(作為參考,同時給出了其他指標(biāo)的評估R′值;或者更直觀地將值繪制為圖2的形式)所示。 可以看出,對于不同超參數(shù)設(shè)置下的分類結(jié)果,R′值給出了不同的評估結(jié)果。R′值根據(jù)不同模型的好壞,給出了其實際效果的評估結(jié)果,這說明了R′方法的魯棒性。 本節(jié)的實驗采取改變訓(xùn)練樣本標(biāo)簽的方法,以此來控制樣本容量變化。具體而言,又分為以下2個步驟:首先分別去除類別0和類別6的某些樣本,減少類別0和類別6樣本的容量,并通過R′方法來評估分類效果,稱之為改變前;然后恢復(fù)這些訓(xùn)練樣本的原始標(biāo)簽,同樣通過R′方法來評估分類效果,稱之為改變后。 Figure 2 Classifier values under different hyper-parameter settings圖2 不同超參數(shù)設(shè)置下分類器值 改變前后保持模型的其他參數(shù)不變。 表7給出了樣本標(biāo)簽改變前后各個類別以及整體的R′值。 Table 6 Evaluation values of the classifier under different hyper-parameter settings表6 不同超參數(shù)設(shè)置下分類器評估值 Table 7 R′ value of each category before and after changing the sample label表7 改變樣本標(biāo)簽前后各個類別的R′值 可以看出,在恢復(fù)類別0和類別6的樣本容量之前(也就是改變前),他們的R′值很小(分別為0.117 6和0.388 1,如表7中加粗部分所示),對應(yīng)的類別4和類別8的R′值也得到一定的影響(分別為0.873 9和0.886 6,如表7中加粗部分所示)?;謴?fù)樣本原始容量之后(也就是改變后),類別0和類別6對應(yīng)的R′值得到顯著提升(分別為0.989 2和0.972 3,如表7中加粗部分所示),對應(yīng)的類別4和類別8的R′值也得到一定的提升(分別為0.974 4和0.978 7,如表中加粗部分所示)。值得說明的是,這對于優(yōu)化和改進訓(xùn)練過程具有顯著的指導(dǎo)意義,即可以通過觀察單一類別或者某一些類別R′值的變化,采取必要的手段(如樣本均衡)來改進訓(xùn)練過程。 回到3.2節(jié)的關(guān)于R′值方法推廣。3.2節(jié)中給出了某一單個類別的R′值計算方法,如式(22)所示。 考察式(22),R′值方法在評估分類效果的時候,除了考慮在真實標(biāo)簽中樣本被正確預(yù)測的概率P(si|mi)之外,還進一步結(jié)合了樣本被正確預(yù)測和錯誤預(yù)測的差異,即P(si)-P(mi)。對于實驗中因改變樣本標(biāo)簽而導(dǎo)致樣本不均衡的情形,這一差異被R′方法很好地提取了出來。 具體而言,考察表8和表9所示的訓(xùn)練樣本容量改變前后的測試樣本的混淆矩陣。表格中的行表示測試樣本真實標(biāo)簽在2次實驗中未發(fā)生變化,而表示預(yù)測標(biāo)簽的每一列則發(fā)生了一定的變化(尤其對類別0、類別4、類別6和類別8而言,如表7中加粗部分所示)。這解釋了上述實驗中這些類別值變化的原因。進一步說,R′方法可以很好地發(fā)現(xiàn)和指導(dǎo)解決訓(xùn)練過程中因樣本不均衡等原因?qū)е碌姆诸愋Чu估的差異問題,進而指導(dǎo)和改進訓(xùn)練過程。 為進一步說明R′方法的有效性和適用性,本節(jié)實驗采用另一個多分類任務(wù)場景的經(jīng)典數(shù)據(jù)集CIFAR-10進行驗證。 CIFAR-10數(shù)據(jù)集是一個更接近普適物體的彩色圖像數(shù)據(jù)集,一共包含10個類別的RGB彩色圖像:飛機(airplane)、汽車(automobile)、鳥類(bird)、貓(cat)、鹿(deer)、狗(dog)、蛙類(frog)、馬(horse)、船(ship)和卡車(truck)。數(shù)據(jù)集中每幅圖像的尺寸為32 × 32,每個類別有6 000幅圖像,數(shù)據(jù)集中一共有50 000幅訓(xùn)練圖像和10 000幅測試圖像。與MNIST的灰度圖像不同,CIFAR-10數(shù)據(jù)集由3通道RGB彩色圖像組成,圖像尺寸也比MNIST的28 × 28更大。此外,數(shù)據(jù)集是現(xiàn)實世界的真實物體,圖像噪聲更大,物體的比例、特征也都不盡相同,識別難度更大。但是,值得注意的是,CIFAR-10數(shù)據(jù)集樣本更加均衡,每個類別的樣本數(shù)量都是6 000,這對于進一步驗證4.3節(jié)實驗的設(shè)計思路更加方便和有效。 Table 8 Confusion matrix 1 before sample label changes表8 改變樣本標(biāo)簽前的混淆矩陣1 Table 9 Confusion matrix 1 after sample label changes表9 改變樣本標(biāo)簽后的混淆矩陣1 同樣采用4.3節(jié)的實驗設(shè)計方法,通過改變測試樣本的標(biāo)簽來模擬樣本不均衡的現(xiàn)象(這里將cat類別部分樣本去除,將deer類別部分樣本去除)。表10和表11分別給出了對應(yīng)的混淆矩陣(表中同時給出了各個類別和整體上分類效果的評估R′值,表中最后一列的all代表整體分類效果的R′值)。 從表10和表11中可以看出,在恢復(fù)類別cat和類別deer的樣本容量之前(也就是改變前),它們的R′值很低(分別為0.1和0.1,如表10中加粗部分所示),對應(yīng)的類別dog和類別horse的值也受到一定的影響(分別為0.808 3和0.811 7,如表11中加粗部分所示)?;謴?fù)原始標(biāo)簽之后(也就是改變后),類別cat和類別deer對應(yīng)的R′值得到顯著提升(分別為0.761 4和0.884 1,如表11中加粗部分所示),對應(yīng)的類別dog和類別horse的R′值也得到一定的提升(分別為0.821 3和0.896 9,如表11中加粗部分所示),整體的分類效果評估指標(biāo)也從0.718 9提高到0.873 0。 Table 10 Confusion matrix 2 before sample label changes表10 改變樣本標(biāo)簽前的混淆矩陣2 Table 11 Confusion matrix 2 after sample label changes表11 改變樣本標(biāo)簽后的混淆矩陣2 上述實驗說明了R′方法對于CIFAR-10數(shù)據(jù)集的適用性和有效性,進一步說明了R′方法的可拓展性及其應(yīng)用場景。 此外,結(jié)合4.3節(jié)和4.4節(jié)的實驗結(jié)果,也就是樣本容量發(fā)生變化前后評估指標(biāo)的對比,可以看出該方法對不平衡數(shù)據(jù)集同樣適用。也就是說,它不會因為樣本數(shù)量的不均衡而影響對分類結(jié)果的評價,因為正如3.2節(jié)所強調(diào)的那樣,該方法可以單獨對每一個類別進行評估而不僅僅是對整體分類效果進行評估。在不平衡數(shù)據(jù)集上,即使整體的分類效果較好,對于樣本數(shù)較少的類別而言,無論它的分類效果如何,它的評價指標(biāo)都會被單獨地呈現(xiàn)出來。這一點正是該方法的一個突出特點。 多分類任務(wù)模型準確率評估一直是一個值得討論的問題,這不僅要涉及到模型選擇問題,也對模型訓(xùn)練過程具有很好的指導(dǎo)意義。本文針對多分類任務(wù)場景下,尤其是用戶關(guān)心特定類別分類效果的實際情況,現(xiàn)有的多分類任務(wù)準確率評價指標(biāo)的不足,介紹和引入了用于評估模型分類準確率的R′方法。該方法具有嚴格的數(shù)學(xué)理論推導(dǎo)過程,不僅可以評估分類器整體的分類效果,而且還可以給出每一個類別的分類效果,不僅可以用于模型選擇,而且對于更好地指導(dǎo)訓(xùn)練過程具有一定的意義。通過與已有評價方法的對比,基于MNIST的手寫字符體識別任務(wù)和CIFAR-10數(shù)據(jù)集的多分類任務(wù)的實驗驗證,表明該方法具有很好的魯棒性和有效性,可以用于多分類任務(wù)的分類準確率評估場景。同時值得一提的是,不僅對文中實驗驗證采用的MNIST手寫字符體識別和CIFAR-10數(shù)據(jù)集分類這2個多分類任務(wù),該方法還可以擴展到任意場景下的多分類任務(wù)問題,具有廣泛的應(yīng)用前景。3.2 R′方法在多分類任務(wù)下的推廣
4 實驗及結(jié)果分析
4.1 不同評價指標(biāo)的對比
4.2 不同分類結(jié)果下R′值的對比
4.3 R′值對單個類別的評估效果
4.4 CIFAR-10數(shù)據(jù)集實驗結(jié)果
5 結(jié)束語