鄭德重, 楊媛媛, 黃浩哲, 謝 哲, 李文濤
(1. 中國(guó)科學(xué)院上海技術(shù)物理研究所 醫(yī)學(xué)影像信息學(xué)實(shí)驗(yàn)室, 上海 200080; 2. 中國(guó)科學(xué)院大學(xué),北京 100049; 3. 復(fù)旦大學(xué)附屬腫瘤醫(yī)院, 上海 200032)
在處理機(jī)器學(xué)習(xí)分類問(wèn)題時(shí),模型準(zhǔn)確率的提高總是會(huì)被優(yōu)先關(guān)注.較高的準(zhǔn)確率固然很重要,但在有限樣本的情況下,學(xué)習(xí)到的模型準(zhǔn)確率可能很高,但模型的可靠性并不一定很高.在統(tǒng)計(jì)學(xué)中,置信度是度量系統(tǒng)可靠性的一個(gè)典型指標(biāo).置信度的重要性在于,如果一個(gè)決策支持系統(tǒng)對(duì)某個(gè)樣本進(jìn)行預(yù)測(cè)的信心太低,則可能需要人類專家參與決策過(guò)程.在實(shí)際應(yīng)用中,置信度還具有識(shí)別未知類別樣本的能力.因?yàn)楫?dāng)分類時(shí),如果置信度較低,則表明要鑒別的樣本與建立模型時(shí)用到的樣本差異度較大.借助置信度能夠擴(kuò)大樣本訓(xùn)練范圍,通過(guò)再訓(xùn)練改善模型,提高模型的泛化能力[1-4].因此,良好的置信度應(yīng)該是模型設(shè)計(jì)的一部分[1].在部署任何機(jī)器學(xué)習(xí)分類模型時(shí),好的模型不僅要求有較高的準(zhǔn)確率,而且還要能以較高的置信度進(jìn)行正確分類.
機(jī)器學(xué)習(xí)中大多數(shù)生成的模型本質(zhì)上都是概率模型,可以直接得到這樣的置信度.但大多數(shù)判別模型無(wú)法直接獲得每個(gè)類的預(yù)測(cè)概率,而是將相關(guān)的非概率分?jǐn)?shù)作為一種替代,如支持向量機(jī)(SVM)分類器中的最大間隔[1,5-6].在評(píng)估一個(gè)神經(jīng)網(wǎng)絡(luò)模型的好壞時(shí),通常會(huì)使用各種不同類型的分?jǐn)?shù)來(lái)衡量模型的置信度.常用的方法是將最后一級(jí)輸出單元通過(guò)Softmax軟件歸一化.此外,還可以利用輸出單元的熵來(lái)計(jì)算,當(dāng)預(yù)測(cè)某個(gè)樣本的不確定性越低時(shí),熵越小.雖然這些從輸出端得到的分?jǐn)?shù)與置信度相關(guān),但使用這些分?jǐn)?shù)度量置信度也存在一些缺陷,一些不可察覺(jué)的擾動(dòng)可能改變神經(jīng)網(wǎng)絡(luò)的輸出值.文獻(xiàn)[7]通過(guò)實(shí)驗(yàn)在圖像分類樣本中加入噪聲擾動(dòng),原本能夠正確分類的樣本在加入擾動(dòng)后可以得到完全相反的預(yù)測(cè)結(jié)果,而加入噪聲的圖像在人的視覺(jué)觀察中感覺(jué)不到任何變化.神經(jīng)網(wǎng)絡(luò)相比于人類在對(duì)數(shù)據(jù)的理解方面存在巨大差異,可能存在某些反直覺(jué)的情況“盲區(qū)”,也間接說(shuō)明了神經(jīng)網(wǎng)絡(luò)可能存在某些人類難以覺(jué)察的不確定性,這種不確定將會(huì)直接影響輸出結(jié)果和置信度[7-8].對(duì)于分類而言,將最后一級(jí)單元通過(guò)Softmax軟件獲得的概率最大值視為分類置信度是不準(zhǔn)確的,因?yàn)檫@種方式忽略了與其余類預(yù)測(cè)概率間的關(guān)系,與真正的置信度之間有時(shí)存在著一定的偏差[3,9].既然從模型的外部計(jì)算出來(lái)的置信度不一定能夠代表其真實(shí)的概率估計(jì),那么可以嘗試從模型內(nèi)部入手.
為了獲得一個(gè)對(duì)于神經(jīng)網(wǎng)絡(luò)分類模型可靠的置信度分?jǐn)?shù),許多研究者將注意力集中在神經(jīng)網(wǎng)絡(luò)的嵌入階段,這些嵌入層被證明可以在許多相關(guān)任務(wù)中提供更好的語(yǔ)義表示[10-12].使用這種語(yǔ)義表示,通過(guò)估計(jì)嵌入空間中樣本的局部密度來(lái)計(jì)算置信度分?jǐn)?shù),進(jìn)而可以計(jì)算樣本屬于不同類別的概率.基于此,本文在嵌入空間提出一種基于距離置信度分?jǐn)?shù)(DCS)的計(jì)算方法來(lái)度量模型的置信度.此方法不依賴于特定的分類模型,可以嵌入任何分類器中進(jìn)行置信度計(jì)算.通過(guò)實(shí)驗(yàn)證明所提方法不僅可以用在單一模態(tài)分類模型中,還可對(duì)此進(jìn)行擴(kuò)展,將其用在多模態(tài)分類模型的置信度度量中.綜上所述,本文的主要貢獻(xiàn)如下:① 提出一種不依賴于特定分類模型的置信度度量方法,該方法不僅可以用在單模態(tài)分類問(wèn)題,還可以用在多模態(tài)分類問(wèn)題中;② 對(duì)于多模態(tài)分類問(wèn)題,該方法可以量化評(píng)估單模態(tài)數(shù)據(jù)對(duì)于模型最終決策的影響,同時(shí)還可以知道不同模態(tài)信息對(duì)于最終決策時(shí)的重要程度差異.
本文提出的基于距離置信度分?jǐn)?shù),主要借鑒以往兩方面的研究:神經(jīng)網(wǎng)絡(luò)置信度分?jǐn)?shù)和多模態(tài)融合研究.因此,下文將從這兩個(gè)方面介紹相關(guān)工作.
Bayes模型在數(shù)學(xué)上提供了一種用來(lái)計(jì)算置信度的基礎(chǔ)框架.文獻(xiàn)[13-14]使用神經(jīng)網(wǎng)絡(luò)上的參數(shù)計(jì)算后驗(yàn)分布,用于估計(jì)預(yù)測(cè)不確定性來(lái)進(jìn)行置信度的度量.文獻(xiàn)[15]利用Bayes網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)結(jié)合多模態(tài)信息對(duì)非常規(guī)性突發(fā)事件的可能性進(jìn)行量化評(píng)估.雖然利用Bayes方法來(lái)計(jì)算置信度的數(shù)學(xué)理論成熟,但在實(shí)際應(yīng)用中實(shí)現(xiàn)起來(lái)相對(duì)困難,且計(jì)算成本高.文獻(xiàn)[16]提出在模型測(cè)試時(shí)用dropout操作作為Bayes網(wǎng)絡(luò)的一種簡(jiǎn)單替代,通過(guò)輸出結(jié)果觀察模型的不確定性.文獻(xiàn)[17]提出使用對(duì)抗訓(xùn)練來(lái)改進(jìn)網(wǎng)絡(luò)基于熵分?jǐn)?shù)的不確定性度量方法.模型置信度通常是從輸出端的激活函數(shù)或其歸一化中計(jì)算得到的,這些方法大多是通過(guò)對(duì)模型輸出端進(jìn)行外部觀測(cè),并將觀測(cè)結(jié)果用于計(jì)算模型置信度.鑒于通過(guò)外部輸出計(jì)算置信度有較多不足之處,希望能找到一種通過(guò)模型內(nèi)部觀測(cè)的方法,即找到一種能夠代表真實(shí)概率估計(jì)的方法來(lái)計(jì)算置信度.
在度量學(xué)習(xí)研究領(lǐng)域中,如人臉識(shí)別、圖像檢索等,通過(guò)嵌入的方法可以學(xué)習(xí)從原始特征空間到一個(gè)低維稠密向量空間(嵌入空間)的映射,在該空間中樣本的相似度可以通過(guò)距離進(jìn)行度量.文獻(xiàn)[18]在使用ImageNet數(shù)據(jù)集訓(xùn)練一個(gè)深層網(wǎng)絡(luò)時(shí),通過(guò)嵌入得到一個(gè)圖像語(yǔ)義豐富的表示,并在此基礎(chǔ)上進(jìn)行分類.文獻(xiàn)[10]基于深度嵌入的度量學(xué)習(xí)思想,在有限標(biāo)記的成對(duì)樣本之間進(jìn)行相似性學(xué)習(xí),完成不同圖像的匹配任務(wù).文獻(xiàn)[11]通過(guò)提取圖像特征學(xué)習(xí)高層次的嵌入語(yǔ)義來(lái)實(shí)現(xiàn)圖像壓縮.文獻(xiàn)[1]還通過(guò)對(duì)抗性實(shí)驗(yàn)證明嵌入空間不僅含有豐富的語(yǔ)義信息,而且還具有一定的抗干擾能力.由此可知,通過(guò)嵌入方式可以將網(wǎng)絡(luò)提取的特征從原來(lái)的特征空間映射到一個(gè)稠密的、可度量的嵌入空間中.在這個(gè)嵌入空間對(duì)樣本進(jìn)行局部概率密度估計(jì),有望找到一種可以度量模型的置信度分?jǐn)?shù).
融合不同來(lái)源的信息主要有3種方式:早期融合、中期融合和后期融合.早期融合是在訓(xùn)練模型之前,將不同模態(tài)的特征串聯(lián)起來(lái),然后從串聯(lián)特征中進(jìn)行學(xué)習(xí).中期融合首先是對(duì)各個(gè)單模態(tài)數(shù)據(jù)的特征進(jìn)行一些初步學(xué)習(xí),然后將學(xué)到的初級(jí)特征通過(guò)第2階段融合加工進(jìn)一步學(xué)習(xí),最后將這些學(xué)習(xí)到的綜合特征用于最終決策.中期融合方式目前大多是通過(guò)深度學(xué)習(xí)來(lái)實(shí)現(xiàn)的[19].后期融合方式是針對(duì)各種不同模態(tài)數(shù)據(jù)獨(dú)立使用不同算法,然后根據(jù)任務(wù)特點(diǎn)使用一些技術(shù)組合方式進(jìn)行最終決策.早期融合方式的主要優(yōu)勢(shì)是可以識(shí)別不同模態(tài)特征之間的關(guān)系,但該方式無(wú)法充分利用每種模態(tài)數(shù)據(jù)中自己的模式.早期融合只適用于相同類型數(shù)據(jù)間的融合,不同類型之間的數(shù)據(jù)不能直接融合,例如圖像數(shù)據(jù)和文本數(shù)據(jù).此外,早期融合方式著重于組合不同模態(tài)的特征,因此其通常具有很高的特征與樣本比,容易導(dǎo)致分類時(shí)模型過(guò)擬合.后期融合方式與中期融合方法相比,后期融合方法實(shí)現(xiàn)更簡(jiǎn)單,但無(wú)法充分利用不同模態(tài)間的交互信息,只能通過(guò)每種模態(tài)信息獨(dú)立判斷后進(jìn)行綜合決策.中期融合方式目前在利用模式內(nèi)信息和模式間交互信息方面具有一定的優(yōu)勢(shì),并且可以充分利用深度學(xué)習(xí)強(qiáng)大的特征提取能力[20].本文提出的基于距離置信度分?jǐn)?shù)來(lái)評(píng)估多模態(tài)分類模型置信度就是通過(guò)中間融合方式融合信息的.
接下來(lái),先介紹兩種通常使用的從外部輸出端得到的模型置信度分?jǐn)?shù).然后再介紹所提的從內(nèi)部嵌入空間評(píng)估模型的置信度分?jǐn)?shù)計(jì)算方法,最后介紹這種新的置信度分?jǐn)?shù)在多模態(tài)分類模型中的構(gòu)建.
給定一個(gè)訓(xùn)練好的模型,通常使用以下兩種分?jǐn)?shù)來(lái)評(píng)估分類的置信度:基于最大距離置信度分?jǐn)?shù)(MMCS)和基于熵置信度分?jǐn)?shù)(ECS).文獻(xiàn)[21]的實(shí)證研究表明,對(duì)外部輸出而言,用這兩種方法是相對(duì)有效的評(píng)估模型置信度的方法,文獻(xiàn)[1]也曾用這兩種分?jǐn)?shù)評(píng)估模型的置信度.兩種分?jǐn)?shù)定義如下:① 基于最大距離的置信度分?jǐn)?shù).歸一化后,網(wǎng)絡(luò)輸出層中的最大激活單元.② 基于熵的置信度分?jǐn)?shù).網(wǎng)絡(luò)輸出層中激活單元的(負(fù))熵.
所提出的基于距離置信度分?jǐn)?shù)的主要思路是借鑒度量學(xué)習(xí)方法,在網(wǎng)絡(luò)特征提取后添加一層嵌入層,將原來(lái)網(wǎng)絡(luò)中提取的特征進(jìn)行映射,映射到一個(gè)語(yǔ)義豐富且可以度量的稠密空間中.在該嵌入空間中估計(jì)樣本的局部密度,進(jìn)而計(jì)算模型置信度,如圖1所示.由圖1可知,左側(cè)特征提取部分用來(lái)提取樣本特征;右側(cè)兩層全連接層,一個(gè)用于嵌入獲得樣本的向量表示,一個(gè)用于映射到輸出以獲取相應(yīng)的預(yù)測(cè)值.
圖1 基于距離置信度分?jǐn)?shù)的計(jì)算示意圖Fig.1 Schematic diagram of distance confidence score calculation
(1)
圖2 最近k個(gè)點(diǎn)的密度估計(jì)Fig.2 Estimation of density of the nearest k points
(2)
式中:max (·)為測(cè)試樣本xi預(yù)測(cè)類別最大的分?jǐn)?shù),即最有可能的分類.
2.2.2利用中心損失提高嵌入效果 在度量學(xué)習(xí)應(yīng)用中,鑒別的樣本對(duì)象之間差異度相對(duì)較小,其分類模型要在能夠?qū)ζ溥M(jìn)行細(xì)粒度鑒別的同時(shí)保持穩(wěn)健性.早期主要是通過(guò)交叉熵?fù)p失來(lái)訓(xùn)練優(yōu)化模型的,之后有學(xué)者提出了三重態(tài)損失訓(xùn)練模型,但在訓(xùn)練過(guò)程中三重態(tài)樣本配對(duì)組合的差異度會(huì)影響模型的學(xué)習(xí)速度[22].文獻(xiàn)[23]提出將中心損失用于面部識(shí)別,根據(jù)中心損失的梯度更新每個(gè)mini-batch中心,作為三重態(tài)損失的一種替代取得了良好的效果.文獻(xiàn)[24]在少樣本學(xué)習(xí)中使用了類似的方法,不斷更新mini-batch的中心來(lái)進(jìn)行優(yōu)化,在場(chǎng)景識(shí)別任務(wù)中取得了不錯(cuò)的效果.中心損失優(yōu)化時(shí),最小化具有相同標(biāo)簽的樣本到其樣本中心之間的距離,將屬于同一類的數(shù)據(jù)點(diǎn)聚集在一起,以獲得在嵌入空間更好的向量表示[24].為了提高嵌入表達(dá)效果,使用中心損失來(lái)優(yōu)化模型.中心損失可表示為
(3)
式中:Lso為交叉熵?fù)p失;Lcen為中心損失;f(xi)為第i個(gè)訓(xùn)練樣本通過(guò)網(wǎng)絡(luò)后得到的高維特征向量;hci∈RD為ci的樣本中心,ci為xi的樣本類別標(biāo)簽,xi∈RD,D為特征向量的維度;M為mini-batch的樣本數(shù)量;λ為超參數(shù).
圖3 基于距離置信度分?jǐn)?shù)的多模態(tài)分類網(wǎng)絡(luò)構(gòu)建示意圖Fig.3 Schematic diagram of multimodal classification network construction based on distance confidence score
由上述可知,嵌入層添加在模型的特征提取模塊之后,對(duì)于多模態(tài)分類模型可以使用相同的方法在各自模態(tài)特征提取后添加嵌入層用于計(jì)算置信度,如圖3所示,其中:N為輸入信息序號(hào).在單一模態(tài)分類中由于信息源只有一個(gè),不用考慮模式中特征重要程度的差異.但在多模態(tài)分類中,由不同信息來(lái)源間的模式提取到的特征重要程度存在差異,因此引入注意力機(jī)制.注意力機(jī)制最早在計(jì)算機(jī)視覺(jué)任務(wù)中提出,隨后在自然語(yǔ)言處理領(lǐng)域也開(kāi)始逐漸應(yīng)用,隨著B(niǎo)ERT(Bidirectional Encoder Representation from Transformers)模型和GPT(Generative Pre-Training)模型在該領(lǐng)域中取得顯著的效果,人們也越來(lái)越注意到注意力機(jī)制.注意力機(jī)制可以幫助模型將提取到的特征賦予不同權(quán)重,對(duì)關(guān)鍵、重要信息進(jìn)行強(qiáng)化,幫助模型做出更加準(zhǔn)確的判斷[25-28].在多模態(tài)分類網(wǎng)絡(luò)的特征提取階段,為了強(qiáng)化不同模態(tài)提取自己的關(guān)鍵信息,在各自模態(tài)中做了注意力機(jī)制的處理.在提取圖像特征時(shí),使用了通道注意力和空間注意力機(jī)制[29];在對(duì)文本類結(jié)構(gòu)化信息提取時(shí),使用了自注意力機(jī)制[27];最后,在各自模態(tài)信息特征提取完成后再添加一個(gè)嵌入層,獲取各自模態(tài)的高維向量表示,用來(lái)計(jì)算多模態(tài)分類任務(wù)中單一模態(tài)信息的置信度.在多模態(tài)分類網(wǎng)絡(luò)的特征融合階段,將各模態(tài)信息進(jìn)行連接,并將連接后的所有信息再次嵌入,對(duì)多模態(tài)信息融合信息進(jìn)行再次學(xué)習(xí),其嵌入向量表示可以用來(lái)計(jì)算特征融合后的置信度.
圖4 MNIST分類網(wǎng)絡(luò)Fig.4 MNIST classification network
在本節(jié)中,將通過(guò)3個(gè)實(shí)驗(yàn)任務(wù)來(lái)評(píng)估所提置信度分?jǐn)?shù).3個(gè)任務(wù)分別為:?jiǎn)文B(tài)分類任務(wù)MNIST數(shù)據(jù)分類、單模態(tài)分類任務(wù)CIFAR-10數(shù)據(jù)分類、多模態(tài)分類任務(wù)肺部腺癌數(shù)據(jù)分類.上述提到的需進(jìn)行比較的3種置信度分?jǐn)?shù)分別為:① 外部輸出得到的基于最大距離的置信度分?jǐn)?shù);② 外部輸出得到的基于熵的置信度分?jǐn)?shù);③ 所提出的通過(guò)內(nèi)部嵌入得到的基于距離的置信度分?jǐn)?shù).
(1) MNIST數(shù)據(jù)分類.手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,該數(shù)據(jù)包含6×104個(gè)訓(xùn)練集示例,1×104個(gè)測(cè)試集示例,是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)數(shù)據(jù)集合的子集.
(2) CIFAR-10數(shù)據(jù)分類.由10個(gè)類的6×104張32像素×32像素的彩色圖像組成,每個(gè)類包含 6×103張圖像,有5×104張訓(xùn)練圖像和1×104張測(cè)試圖像.
(3) 肺部腺癌數(shù)據(jù)分類.來(lái)自一家三甲醫(yī)院采集的肺腺癌數(shù)據(jù),包含 1 675 個(gè)樣本,其中532例浸潤(rùn)性肺腺癌和 1 143 例非浸潤(rùn)性腺癌.每個(gè)樣本數(shù)據(jù)有3種模態(tài)數(shù)據(jù):高分辨計(jì)算機(jī)斷層掃描(HRCT)圖像數(shù)據(jù)、患者的結(jié)構(gòu)化臨床基本信息和血液檢查信息.
3.2.1MNIST單模態(tài)分類 該任務(wù)中,使用了一個(gè)由6層卷積層和2層全連接層構(gòu)成的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如圖4所示.其中:每個(gè)卷積層的卷積核參數(shù)用符號(hào)表示,如32@5×5表示32個(gè)5×5的卷積核.第1層全連接提取樣本向量表示用于估計(jì)概率密度,進(jìn)而計(jì)算所提出的DCS.第2層全連接輸出用于計(jì)算MMCS和ECS.該實(shí)驗(yàn)分別使用了交叉熵?fù)p失與中心損失來(lái)進(jìn)行優(yōu)化比較.
3.2.2CIFAR-10單模態(tài)分類 對(duì)于CIFAR-10分類任務(wù),使用了常規(guī)的ResNet50模型的特征提取器和2層全連接層構(gòu)成的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如圖5所示.其中:z為每個(gè)殘差模塊的輸入;sg(g=1, 2, 3, 4)為殘差模塊;RelU為激活函數(shù).模型首先提取圖像特征,然后經(jīng)過(guò)2層全連接,第1層將ResNet50模型提取特征進(jìn)行嵌入,用來(lái)獲取樣本的向量表示,進(jìn)而計(jì)算所提出的DCS.第2層全連接輸出用于計(jì)算MMCS和ECS.該實(shí)驗(yàn)中,同樣使用了交叉熵?fù)p失和中心損失來(lái)進(jìn)行優(yōu)化比較.
圖5 CIFAR-10分類網(wǎng)絡(luò)Fig.5 CIFAR-10 classification network
圖6 基于注意力機(jī)制的圖像特征提取Fig.6 Image feature extraction based on attention mechanism
3.2.3肺部腺癌多模態(tài)分類 肺部腺癌多模態(tài)數(shù)據(jù)包含1組圖像數(shù)據(jù)和2組結(jié)構(gòu)化文本數(shù)據(jù).對(duì)多模態(tài)數(shù)據(jù)進(jìn)行分類的網(wǎng)絡(luò)由兩部分組成:不同模態(tài)信息特征提取和多模態(tài)特征融合決策.
在特征提取部分,針對(duì)圖像數(shù)據(jù)使用了添加注意力機(jī)制的ResNet50網(wǎng)絡(luò)結(jié)構(gòu).在ResNet50網(wǎng)絡(luò)結(jié)構(gòu)的基本殘差模塊中,添加通道注意力和空間注意力兩種注意力模塊,用以提高圖像重要部位的特征提取能力,如圖6所示.其中:C為卷積核的通道數(shù)量;G為卷積核深度;H、W分別為卷積核的高和寬;ωch為通道注意力輸出權(quán)重;ωsp為空間注意力輸出權(quán)重;Sigmod為轉(zhuǎn)換函數(shù).對(duì)于另外兩組結(jié)構(gòu)化文本數(shù)據(jù),使用了多層感知機(jī)提取特征,同時(shí)使用了自注意力模塊來(lái)提高重要信息的提取能力,如圖7所示.其中:ωse為自注意力輸出權(quán)重;tanh為激活函數(shù).
圖7 基于注意力機(jī)制的結(jié)構(gòu)化文本特征提取Fig.7 Structured text feature extraction based on attention mechanism
多模態(tài)特征融合決策部分如圖8所示.首先, 將不同模態(tài)提取來(lái)的特征進(jìn)行第1次嵌入,該嵌入空間的特征可以用來(lái)計(jì)算所提出的DCS,該分?jǐn)?shù)可以反應(yīng)不同模態(tài)信息的置信度.然后,將這些高維向量進(jìn)行拼接并進(jìn)行第2次嵌入,第2次嵌入空間的高維特征向量可以用來(lái)計(jì)算融合特征的DCS.最后,通過(guò)一層全連接進(jìn)行輸出,輸出的向量用來(lái)計(jì)算MMCS和ECS.在該實(shí)驗(yàn)中,使用中心損失來(lái)對(duì)模型進(jìn)行優(yōu)化.
圖8 多模態(tài)特征融合Fig.8 Multimodal feature fusion
Brier分?jǐn)?shù)(BS)是一種用來(lái)評(píng)估模型預(yù)測(cè)概率準(zhǔn)確性的指標(biāo),是一種成本函數(shù)[30].Brier分?jǐn)?shù)越低,其預(yù)測(cè)概率越準(zhǔn)確,模型不確定性越低,置信度更高;反之,則置信度更低.Brier分?jǐn)?shù)的取值范圍為0~1.二分類Brier 分?jǐn)?shù)的計(jì)算公式如下:
(4)
式中:Pi為預(yù)測(cè)概率;oi為二分類預(yù)測(cè)輸出值,oi∈{0, 1}.對(duì)于多分類Brier 分?jǐn)?shù)BSmut,其計(jì)算公式如下:
(5)
(6)
q=0, 1, …,Q-1
式中:Pij為多分類預(yù)測(cè)概率;oij為多分類預(yù)測(cè)輸出值;Q為預(yù)測(cè)輸出值可能的數(shù)量, 如10分類,則Q=10.
實(shí)驗(yàn)對(duì)每個(gè)模型進(jìn)行30次訓(xùn)練迭代,計(jì)算每個(gè)訓(xùn)練迭代次數(shù)中的3種置信度分?jǐn)?shù):由外部輸出計(jì)算的MMCS、ECS和由內(nèi)部嵌入計(jì)算的DCS,觀察其變化規(guī)律.在3個(gè)任務(wù)中選擇訓(xùn)練出來(lái)的最佳模型,比較所獲得模型的性能指標(biāo):準(zhǔn)確率、接受者操作特征曲線下面積(AUC)、Brier分?jǐn)?shù).
由熵的定義可以知道,熵是預(yù)測(cè)結(jié)果不確定性的度量,不是預(yù)測(cè)每種可能性的度量分?jǐn)?shù),無(wú)法計(jì)算其Brier分?jǐn)?shù).基于熵的分?jǐn)?shù)只用來(lái)觀察其變化規(guī)律,不計(jì)算Brier分?jǐn)?shù),所以在實(shí)驗(yàn)中約定將外部輸出得到的MMCS作為外部Brier分?jǐn)?shù)(BSo),將內(nèi)部嵌入得到的DCS作為內(nèi)部Brier分?jǐn)?shù)(BSI).
圖9 MNIST數(shù)據(jù)集上的模型準(zhǔn)確率和AUC隨E的變化曲線Fig.9 Model accuracy and AUC versus E on MNIST dataset
3.5.1MNIST 模型訓(xùn)練中,準(zhǔn)確率A、AUC隨訓(xùn)練迭代次數(shù)(E)的變化規(guī)律,如圖9所示.由圖9可知,隨著訓(xùn)練次數(shù)的增加,模型準(zhǔn)確率和AUC逐步提高,最后趨于穩(wěn)定,使用中心損失優(yōu)化可以得到更高的準(zhǔn)確率和AUC.3種置信度分?jǐn)?shù)MMCS、ECS和DCS隨E的變化曲線,如圖10所示,其中:δ為置信度分?jǐn)?shù).由圖10可知,隨著E的增加,從輸出端得到的MMCS和從內(nèi)部得到的DCS都是逐漸增大后趨于穩(wěn)定的,兩者最后趨于相同,而ECS則是逐漸減小后趨于穩(wěn)定的(見(jiàn)圖10(a)).通過(guò)變化曲線的一階差分可以知道,DCS和ECS正相關(guān)(見(jiàn)圖10(b)),DCS與ECS負(fù)相關(guān)(見(jiàn)圖10(c)).3種置信度分?jǐn)?shù)間的相關(guān)系數(shù)如表1所示,其中:R為線性相關(guān)系數(shù).
圖10 MNIST數(shù)據(jù)集上3種置信度分?jǐn)?shù)隨E的變化曲線Fig.10 Three kinds of confidence scores versus E on MNIST dataset
表1 MNIST數(shù)據(jù)集上3種置信度分?jǐn)?shù)間的相關(guān)系數(shù)
當(dāng)訓(xùn)練穩(wěn)定后,使用不同損失函數(shù)得到的最佳模型結(jié)果如表2所示.使用中心損失優(yōu)化可以得到準(zhǔn)確率和AUC,并且通過(guò)內(nèi)部計(jì)算嵌入得到的Brier分?jǐn)?shù)更低,反映出通過(guò)內(nèi)部參數(shù)計(jì)算出來(lái)的置信度分?jǐn)?shù)更加接近真實(shí)情況.
表2 MNIST數(shù)據(jù)集上由不同損失函數(shù)訓(xùn)練獲得的模型性能
3.5.2CIFAR-10 模型訓(xùn)練中每個(gè)E的準(zhǔn)確率、AUC隨E的變化規(guī)律,如圖11所示.由圖11可知,隨著E的增加, 模型準(zhǔn)確率和AUC逐步提高,最后趨于穩(wěn)定,使用中心損失優(yōu)化可以得到更高的準(zhǔn)確率和AUC.3種置信度分?jǐn)?shù)隨E的變化曲線如圖12所示.由圖12可知,隨著E的增加,從輸出端得到的MMCS和從內(nèi)部得到的DCS都是逐漸增大最后趨于穩(wěn)定, 最后兩者趨于相同, 而ECS則是逐漸減小后趨于穩(wěn)定的(見(jiàn)圖12(a)).通過(guò)變化曲線的一階差分可以知道,DCS和ECS正相關(guān)(見(jiàn)圖12(b)),DCS與ECS負(fù)相關(guān)(見(jiàn)圖12(c)).3種置信度分?jǐn)?shù)間的相關(guān)系數(shù)如表3所示.
圖11 CIFAR-10數(shù)據(jù)集上的模型準(zhǔn)確率和AUC隨E的變化曲線Fig.11 Model accuracy and AUC versus E on CIFAR-10 dataset
表3 CIFAR-10數(shù)據(jù)集上3種置信度分?jǐn)?shù)間的相關(guān)系數(shù)
圖12 CIFAR-10數(shù)據(jù)集上3種置信度分?jǐn)?shù)隨E的變化曲線Fig.12 Three kinds of confidence scores versus E on CIFAR-10 dataset
當(dāng)訓(xùn)練過(guò)程穩(wěn)定后,使用不同損失函數(shù)得到的最佳模型結(jié)果如表4所示.與MNIST類似,使用中心損失優(yōu)化可以得到準(zhǔn)確率和AUC,并且通過(guò)內(nèi)部計(jì)算嵌入得到的Brier分?jǐn)?shù)更低,反映出通過(guò)內(nèi)部參數(shù)計(jì)算出來(lái)的置信度分?jǐn)?shù)更加接近真實(shí)情況.
表4 CIFAR-10數(shù)據(jù)集上由不同損失函數(shù)訓(xùn)練得到的模型性能
3.5.3肺部腺癌 對(duì)于肺部腺癌多模態(tài)數(shù)據(jù)分類任務(wù),不再對(duì)優(yōu)化器方面進(jìn)行比較,該任務(wù)全部都使用中心損失優(yōu)化以獲得更好的嵌入表示.訓(xùn)練中模型的準(zhǔn)確率和AUC,如圖13所示.由圖13可知,隨著E的增加,模型的準(zhǔn)確率、AUC逐步提高,最后趨于穩(wěn)定.當(dāng)多模態(tài)數(shù)據(jù)加入后,相比于原來(lái)的單一模態(tài)圖像數(shù)據(jù),模型性能得到了提高.通過(guò)由輸出端得到的MMCS、ECS和由內(nèi)部嵌入得到的DCS隨E的變化如圖14所示.通過(guò)變化曲線的一階差分可以知道,DCS和ECS正相關(guān)(見(jiàn)圖14(b)),DCS與ECS負(fù)相關(guān)(見(jiàn)圖14(c)).3種置信度分?jǐn)?shù)間的相關(guān)系數(shù)如表5所示.
當(dāng)訓(xùn)練穩(wěn)定后,使用不同損失函數(shù)得到的最佳模型表現(xiàn)如表6所示.由表6可以看到,多模態(tài)數(shù)據(jù)可以增加模型分類的準(zhǔn)確率、AUC,并且通過(guò)內(nèi)部計(jì)算嵌入得到的Brier分?jǐn)?shù)更低,反映出通過(guò)內(nèi)部參數(shù)計(jì)算出來(lái)的置信度分?jǐn)?shù)更加接近真實(shí)情況.
圖13 肺部腺癌數(shù)據(jù)集上的模型準(zhǔn)確率和AUC隨E的變化曲線Fig.13 Model accuracy and AUC versus E on adenocarcinoma dataset
圖14 肺部腺癌數(shù)據(jù)集上3種置信度分?jǐn)?shù)隨E的變化曲線Fig.14 Three kinds of confidence scores versus E on adenocarcinoma dataset
表5 肺部腺癌數(shù)據(jù)集上3種置信度分?jǐn)?shù)間的相關(guān)系數(shù)
表6 肺部腺癌數(shù)據(jù)集上的多模態(tài)分類模型性能
表7 基于距離置信度分?jǐn)?shù)的多模態(tài)數(shù)據(jù)Tab.7 Multimodal data based on distance confidence score
3.5.4結(jié)果分析 通過(guò)上述3組不同的實(shí)驗(yàn)數(shù)據(jù)可以知道,使用中心損失可以在獲得更好的嵌入表示的同時(shí)提高模型的性能(準(zhǔn)確率、AUC和置信度).另外,所提通過(guò)嵌入得到的基于距離的置信度分?jǐn)?shù)與輸出得到的基于最大距離的置信度分?jǐn)?shù)和基于熵的置信度分?jǐn)?shù)一樣可以作為一種度量模型的置信度方法,且所提方法更能真實(shí)地反應(yīng)概率預(yù)測(cè)情況.此外,相比兩種由外部參數(shù)計(jì)算得到的置信度分?jǐn)?shù)而言,在處理多模態(tài)數(shù)據(jù)分類時(shí),所提出的基于距離的置信度分?jǐn)?shù)不僅可以獲得模型整體的置信度,還可以獲得多模態(tài)數(shù)據(jù)基于自身信息在判斷時(shí)的置信度,并可以量化不同模態(tài)信息的重要程度.
本文提出一種在嵌入空間基于距離的置信度分?jǐn)?shù)計(jì)算方法來(lái)度量模型的置信度.該方法在處理單一模態(tài)分類任務(wù)時(shí),與其他通過(guò)模型輸出端計(jì)算置信度分?jǐn)?shù)方法相似,可以作為一種度量模型置信度的手段.在處理多模態(tài)融合分類任務(wù)時(shí),不僅可以用來(lái)度量模型整體的置信度,還可以用來(lái)評(píng)估和量化多模態(tài)數(shù)據(jù)對(duì)于模型最后判斷時(shí)的置信度影響,知道各種模態(tài)數(shù)據(jù)對(duì)于決策的重要程度.這一點(diǎn)在實(shí)際應(yīng)用中對(duì)模型可靠性和可解釋性都有要求的場(chǎng)合中具有重要意義.