畢以鎮(zhèn),馬煥,張長青
增廣模態(tài)收益動(dòng)態(tài)評(píng)估方法
畢以鎮(zhèn),馬煥,張長青*
(天津大學(xué) 智能與計(jì)算學(xué)部,天津 300350)( ? 通信作者電子郵箱zhangchangqing@tju.edu.cn)
針對(duì)獲取新模態(tài)難度大、收益差異大的問題,提出了一種增廣模態(tài)收益動(dòng)態(tài)評(píng)估方法。首先,通過多模態(tài)融合網(wǎng)絡(luò)得到中間特征表示和模態(tài)融合前后的預(yù)測結(jié)果;其次,將兩個(gè)預(yù)測結(jié)果的真實(shí)類別概率(TCP)引入置信度估計(jì),得到融合前后的置信度;最后,計(jì)算兩種置信度的差異,并將該差異作為樣本以獲取新模態(tài)所帶來的收益。在常用多模態(tài)數(shù)據(jù)集和真實(shí)的醫(yī)學(xué)數(shù)據(jù)集如癌癥基因組圖譜(TCGA)上進(jìn)行實(shí)驗(yàn)。在TCGA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與隨機(jī)收益評(píng)估方法和基于最大類別概率(MCP)的方法相比,所提方法的準(zhǔn)確率分別提高了1.73~4.93和0.43~4.76個(gè)百分點(diǎn),有效樣本率(ESR)分別提升了2.72~11.26和1.08~25.97個(gè)百分點(diǎn)。可見,所提方法能夠有效評(píng)估不同樣本獲取新模態(tài)所帶來的收益,并具備一定可解釋性。
多模態(tài)分類;多模態(tài)融合;置信度估計(jì);增廣模態(tài);表示學(xué)習(xí)
描述現(xiàn)實(shí)中客觀事物時(shí),通常采用多種描述形式,如圖像、文本等。在機(jī)器學(xué)習(xí)中,為了提高模型的性能,也常將多種模態(tài)數(shù)據(jù)作為輸入。近年來,隨著傳感器成本的降低,多模態(tài)數(shù)據(jù)也越來越容易獲取,許多任務(wù)面對(duì)的通常也是多模態(tài)數(shù)據(jù),因此合理利用多種模態(tài)數(shù)據(jù)受到國內(nèi)外學(xué)者的廣泛關(guān)注。隨著深度學(xué)習(xí)的成功應(yīng)用,深度多模態(tài)融合[1]也被廣泛研究和應(yīng)用,并且在語義分割[2-3]、動(dòng)作識(shí)別[4-5]等領(lǐng)域[6-8]都取得了顯著的成效。
實(shí)際應(yīng)用中,部分高精度模態(tài)的數(shù)據(jù)不能通過廉價(jià)的傳感器獲取,如在醫(yī)學(xué)領(lǐng)域,一些復(fù)雜的醫(yī)學(xué)檢查需要借助成本高昂的醫(yī)學(xué)儀器獲取,因此獲取完整的醫(yī)學(xué)多模態(tài)數(shù)據(jù)通常需要花費(fèi)高昂的時(shí)間和經(jīng)濟(jì)成本。多模態(tài)融合決策中,在某些情況下,利用部分模態(tài)甚至單模態(tài)數(shù)據(jù)也能夠獲得可靠的預(yù)測結(jié)果,因此評(píng)估不同樣本增加新的模態(tài)后是否更有利于決策,以及根據(jù)收益高低找出對(duì)新的模態(tài)有更迫切需求的樣本可以很大程度地減少獲取多模態(tài)數(shù)據(jù)集所帶來的成本。
針對(duì)以上問題,本文提出一種動(dòng)態(tài)評(píng)估不同樣本在增加新的模態(tài)后所獲收益的方法,根據(jù)已有模態(tài)的信息有效評(píng)估當(dāng)前樣本獲取新的模態(tài)信息后所獲收益。
本文的主要工作如下:
1)研究了一種新的問題情景,即如何根據(jù)樣本已有的模態(tài)信息判斷加入新的模態(tài)是否更有利于分類,并評(píng)估加入新的模態(tài)后所獲收益;同時(shí)提出了一種更加合理的評(píng)價(jià)指標(biāo)——有效樣本率(Effective Sample Rate, ESR),對(duì)比不同的收益評(píng)估方法。
2)提出了一種基于置信度估計(jì)的增廣模態(tài)收益動(dòng)態(tài)評(píng)估方法,找出增加新的模態(tài)后所獲收益更高的樣本,在框架下增強(qiáng)了方法的合理性和可解釋性。
3)在模擬數(shù)據(jù)集和真實(shí)醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,利用本文的收益評(píng)估方法評(píng)估樣本的增廣模態(tài)收益相較于一般的收益評(píng)估方法有顯著的性能提升,驗(yàn)證了所提方法的有效性。
由于多模態(tài)數(shù)據(jù)的廣泛性,多模態(tài)融合技術(shù)已經(jīng)取得較大進(jìn)展。根據(jù)融合方式,可以分為基于聚合的融合(Aggregation-based fusion)、基于對(duì)齊的融合(Alignment-based fusion)和混合方式[9]?;诰酆系娜诤贤ㄟ^某種特定的操作方式使多個(gè)模態(tài)的特征信息融合到一個(gè)網(wǎng)絡(luò),具體的操作方式有取平均[10]、級(jí)聯(lián)[11]和自注意力[3]等;但是這種方式容易忽視聚合操作后模態(tài)內(nèi)信息的傳播?;趯?duì)齊的融合通過一種正則損失對(duì)齊不同模態(tài)的特征信息,并保留每個(gè)模態(tài)內(nèi)信息的傳播;但是由于模態(tài)間的弱信息交換,該方式容易導(dǎo)致模態(tài)交互不充分。
針對(duì)聚合的融合方式的缺點(diǎn),Du等[12]在特征融合的同時(shí),也保留了每個(gè)模態(tài)內(nèi)信息的傳播。基于對(duì)齊的融合方式通常采用最大均值差異(Maximum-Mean-Discrepancy, MMD)[13]約束不同模態(tài)的特征分布。MMD最初被用于判斷兩個(gè)分布是否一致,但使用MMD約束不同模態(tài)的特征分布會(huì)削弱每個(gè)模態(tài)獨(dú)有信息。針對(duì)上述問題,Wang等[14]在關(guān)注模態(tài)間共有特征的同時(shí),還保留了每個(gè)模態(tài)獨(dú)有的信息。Wang等[9]提出一種更精細(xì)的融合方式,根據(jù)網(wǎng)絡(luò)剪枝的思想[15],在信道級(jí)別融合不同模態(tài)特征。
根據(jù)融合的時(shí)刻[16],多模態(tài)融合技術(shù)可以分為前期融合[17]、后期融合[18]和混合融合[19]。前期融合是融合模態(tài)提取的特征,后期融合是融合模態(tài)的決策結(jié)果,混合融合結(jié)合了前期融合的預(yù)測結(jié)果和單個(gè)模態(tài)的預(yù)測結(jié)果。
在本文進(jìn)行收益評(píng)估時(shí),需要根據(jù)單模態(tài)的信息評(píng)估多模態(tài)融合后的收益。本文使用的多模態(tài)融合方法是在基于對(duì)齊的融合方式的基礎(chǔ)上進(jìn)行了一定調(diào)整,不僅能夠獲取多模態(tài)融合后的預(yù)測結(jié)果,也能夠獲取單模態(tài)的預(yù)測結(jié)果。
面對(duì)不完整的多模態(tài)數(shù)據(jù)時(shí),現(xiàn)有的大部分多模態(tài)學(xué)習(xí)方法都是采用兩步的方式:首先通過某種計(jì)算方法[20-21]構(gòu)建完整的多模態(tài)數(shù)據(jù),其次在得到的完整多模態(tài)數(shù)據(jù)上訓(xùn)練一個(gè)多模態(tài)模型;或者借助一個(gè)輔助推理過程生成補(bǔ)全缺失的模態(tài)數(shù)據(jù)[22]。也有一些更加靈活的方式,Wu等[23]提出了一種利用隱變量分解實(shí)現(xiàn)跨模態(tài)生成的模型,不需要多步訓(xùn)練和額外的推理步驟。Zhang等[24]提出了CPM-Nets(Cross Partial Multi-view Networks)模型,能夠直接學(xué)習(xí)隱層表示到原始模態(tài)數(shù)據(jù)的映射。
雖然本文的問題情景與模態(tài)缺失補(bǔ)全都是針對(duì)不完整的多模態(tài)數(shù)據(jù),但是模態(tài)缺失補(bǔ)全方法重點(diǎn)是更好地利用不完整的多模態(tài)數(shù)據(jù)和提高補(bǔ)全模態(tài)的質(zhì)量。本文方法的重點(diǎn)是根據(jù)當(dāng)前已有的模態(tài)信息評(píng)估樣本獲取新的模態(tài)信息所獲收益,即收益評(píng)估面向的是真實(shí)模態(tài)信息的獲取。
盡管深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用,但是在智能醫(yī)學(xué)、自動(dòng)駕駛等實(shí)際應(yīng)用[25-26]中,安全性仍然非常重要,即評(píng)估一個(gè)模型可能出錯(cuò)的時(shí)間是非常重要的。置信度是評(píng)估模型預(yù)測結(jié)果可靠性的指標(biāo)。在分類任務(wù)中,最基本的置信度估計(jì)方法是最大類別概率(Maximum Class Probability, MCP),即采用Softmax層預(yù)測類別的概率作為該樣本的置信度估計(jì),但是該方法存在置信度估計(jì)過高的問題。Guo等[27]和Liang等[28]分別針對(duì)置信度校準(zhǔn)和分布外檢測(Out-Of-Distribution, OOD)任務(wù),提出使用Temperature Scaling校準(zhǔn)模型預(yù)測結(jié)果的置信度;但是他們都沒有考慮MCP在預(yù)測錯(cuò)誤的情況下置信度過高的問題。Corbière等[29]提出了真實(shí)類別概率(True Class Probability, TCP),將真實(shí)類別的概率作為預(yù)測的置信度,有效地解決了MCP在分類錯(cuò)誤的情況下置信度過高的問題。
與置信度估計(jì)任務(wù)相關(guān)的還有不確定性估計(jì)。不確定估計(jì)的經(jīng)典方法是貝葉斯方法,將它應(yīng)用到神經(jīng)網(wǎng)絡(luò),可以得到預(yù)測結(jié)果的期望和方差,通常將方差作為預(yù)測結(jié)果的不確定性。Gal等[30]提出通過采樣一些隨機(jī)網(wǎng)絡(luò)的預(yù)測結(jié)果,使用蒙特卡洛dropout預(yù)測網(wǎng)絡(luò)的后驗(yàn)分布。
為了避免模型出錯(cuò)時(shí)出現(xiàn)過自信的情況,本文采用TCP[29]估計(jì)置信度。與Corbière等[29]的工作相比,本文的問題情景面向多模態(tài)數(shù)據(jù),為了后續(xù)增廣模態(tài)收益評(píng)估任務(wù),需要同時(shí)估計(jì)多個(gè)模態(tài)融合后預(yù)測結(jié)果的置信度。
本文提出的增廣模態(tài)收益動(dòng)態(tài)評(píng)估方法主要包括兩部分:基于多模態(tài)融合網(wǎng)絡(luò)的置信度估計(jì)和基于置信度估計(jì)的收益評(píng)估。置信度估計(jì)的主要框架如圖1所示,首先訓(xùn)練一個(gè)多模態(tài)融合網(wǎng)絡(luò),如圖1中步驟1所示,得到提取的中間特征表示和模態(tài)融合前后的預(yù)測結(jié)果,再將中間特征表示作為置信度估計(jì)網(wǎng)絡(luò)的輸入,并利用兩個(gè)預(yù)測結(jié)果的真實(shí)類別概率作為信息訓(xùn)練置信度估計(jì)網(wǎng)絡(luò),從而將信心估計(jì)轉(zhuǎn)化為回歸任務(wù),如圖1步驟2所示。其次,利用置信度估計(jì)網(wǎng)絡(luò)得到測試樣本的兩種置信度的預(yù)測結(jié)果,將兩種置信度的差異作為樣本增加新的模態(tài)后所獲收益。
2.2.1多模態(tài)融合網(wǎng)絡(luò)
基于對(duì)齊的融合對(duì)應(yīng)的損失函數(shù)可以寫為:
其中:是融合權(quán)重;是對(duì)齊約束,常用的對(duì)齊約束是最大均值差異(MMD)[13]?;趯?duì)齊的融合如圖2(b)所示,首先,針對(duì)不同模態(tài)設(shè)計(jì)不同的特征提取主干網(wǎng)絡(luò);其次,在所有模態(tài)子網(wǎng)絡(luò)學(xué)習(xí)特征的過程中施加對(duì)齊約束,使每個(gè)模態(tài)的特征分布對(duì)齊,例如,如果使用MMD約束,則不同模態(tài)的特征分布會(huì)趨于一致。
式(4)由兩部分組成:左邊部分的目的是訓(xùn)練每個(gè)模態(tài)的子網(wǎng)絡(luò),使單模態(tài)網(wǎng)絡(luò)能夠捕獲較好的中間特征表示和得到單模態(tài)的分類結(jié)果;右邊部分的目的是學(xué)習(xí)模態(tài)融合的自適應(yīng)權(quán)重和得到融合后的預(yù)測結(jié)果。上述模型本質(zhì)上是一個(gè)多任務(wù)學(xué)習(xí)(Multi-task Learning)類型的目標(biāo)函數(shù)。
2.2.2置信度估計(jì)網(wǎng)絡(luò)
第二步是訓(xùn)練置信度估計(jì)網(wǎng)絡(luò),對(duì)多模態(tài)融合網(wǎng)絡(luò)進(jìn)行置信度估計(jì)。
用單模態(tài)數(shù)據(jù)估計(jì)多模態(tài)融合后置信度的合理性分析:對(duì)于多模態(tài)數(shù)據(jù),模態(tài)之間存在一定的關(guān)聯(lián)性,如果在某個(gè)模態(tài)上兩個(gè)樣本接近,通常它們?cè)谄溆嗄B(tài)上也具有概率上的相似性,也傾向于得到相近的融合結(jié)果。在第3章將通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證該方法的合理性。
綜上所述,多模態(tài)置信度估計(jì)算法如算法1所示。
算法1 多模態(tài)置信度估計(jì)算法。
5) END FOR
12) END FOR
15) END FOR
本節(jié)將介紹通過置信度估計(jì)網(wǎng)絡(luò)對(duì)樣本進(jìn)行增廣模態(tài)收益評(píng)估。為了體現(xiàn)出使用融合前后置信度收益評(píng)估的合理性與優(yōu)越性,首先介紹一種樸素的收益評(píng)估方法。
簡單直接的方法是將融合后網(wǎng)絡(luò)預(yù)測結(jié)果的置信度作為樣本增廣模態(tài)的收益,即如果一個(gè)樣本的兩種模態(tài)融合后置信度較高,則融合后的預(yù)測結(jié)果可靠,說明融合利于分類,因此將融合后置信度作為該樣本增加新的模態(tài)后的收益。但是上述方法只考慮了融合后的置信度,而有些樣本單模態(tài)的預(yù)測結(jié)果已有較高的置信度,可能導(dǎo)致融合后置信度也較高,即融合后置信度高并不能體現(xiàn)增加第2個(gè)模態(tài)所帶來的收益。本文提出的收益評(píng)估方法綜合考慮了融合前后置信度的變化,通過多模態(tài)融合網(wǎng)絡(luò)中的單模態(tài)子網(wǎng)絡(luò)得到測試樣本的中間特征表示,并將它輸入置信度估計(jì)網(wǎng)絡(luò)中得到兩種置信度估計(jì),將兩種置信度差異作為樣本增廣模態(tài)的收益。
本文收益評(píng)估算法如算法2所示。
算法2 收益評(píng)估算法。
5) END FOR
為了驗(yàn)證本文方法的有效性,在hand[31]和CMU-MOSEI[32]兩個(gè)多模態(tài)常用數(shù)據(jù)集和兩個(gè)真實(shí)醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
hand是手寫數(shù)字?jǐn)?shù)據(jù)集,一共有2 000個(gè)樣本,共包含6個(gè)模態(tài),本文實(shí)驗(yàn)選用其中的兩個(gè)模態(tài)。CMU-MOSEI是用于多模態(tài)情感分析的數(shù)據(jù)集,共有22 777個(gè)樣本,包含3個(gè)模態(tài),分別是文本、視頻和音頻,且具有情感的標(biāo)簽,情感從negative到positive共有7個(gè)類別,標(biāo)簽的數(shù)值在[-3,3]。本文實(shí)驗(yàn)選用了文本和視頻兩個(gè)模態(tài),文本作為模態(tài)1,視頻作為模態(tài)2。
兩個(gè)醫(yī)學(xué)數(shù)據(jù)集分別是癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)數(shù)據(jù)集[33]和皮膚病學(xué)(Dermatology)數(shù)據(jù)集[34]。TCGA計(jì)劃是由美國國家癌癥研究所和美國國家人類基因組研究所于2006年聯(lián)合啟動(dòng)的項(xiàng)目,其中收錄了多種癌癥相關(guān)的研究數(shù)據(jù)。本文使用TCGA-GBM和TCGA-LGG兩個(gè)項(xiàng)目的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),包括全視野切片圖像和基因組分析,以及對(duì)應(yīng)的癌癥等級(jí)、生存時(shí)長等。
TCGA數(shù)據(jù)集的分類任務(wù)為癌癥等級(jí)預(yù)測。原始類別信息包括3個(gè)等級(jí),即等級(jí)2、等級(jí)3、等級(jí)4。模態(tài)1和2分別為全視野切片圖像(組織學(xué)圖像數(shù)據(jù))和基因組特征,如圖3所示。原始數(shù)據(jù)集共有769個(gè)樣本,實(shí)驗(yàn)數(shù)據(jù)預(yù)處理參照Chen等[33]的處理方式。首先清洗數(shù)據(jù),由于部分樣本基因組特征不完整和癌癥等級(jí)標(biāo)簽缺失,可用樣本數(shù)為664;其次處理全視野切片圖像,將原始全視野切片圖像分割成多個(gè)感興趣區(qū)域(Region Of Interest, ROI),處理后664個(gè)樣本的全視野切片圖像被分割為1 325個(gè)ROI;最后處理模態(tài)對(duì)應(yīng)關(guān)系,將原始全視野切片圖像的基因組特征作為模態(tài)2。
圖3 組織切片圖像
Dermatology數(shù)據(jù)集被用于Eryhemato鱗狀疾病類型診斷。樣本數(shù)為366,每個(gè)樣本由34個(gè)屬性組成,其中前11個(gè)屬性和最后1個(gè)屬性是臨床表現(xiàn),其余23個(gè)屬性是組織病理學(xué)特征。在Dermatology實(shí)驗(yàn)中,劃分前11個(gè)屬性(臨床表現(xiàn))作為模態(tài)1,組織病理學(xué)特征作為模態(tài)2。Dermatology數(shù)據(jù)集有6個(gè)類別,用0到5表示,代表6種鱗狀疾病類型:銀屑病、皮脂腺性皮炎、扁平苔蘚、玫瑰糠疹、慢性皮炎和毛癬。
表1詳細(xì)列舉了各個(gè)數(shù)據(jù)集每個(gè)模態(tài)的維度和類別數(shù)。
表1 數(shù)據(jù)集說明
本文提出的收益評(píng)估方法基于兩個(gè)子網(wǎng)絡(luò):多模態(tài)融合網(wǎng)絡(luò)和置信度估計(jì)網(wǎng)絡(luò)。其中,多模態(tài)融合網(wǎng)絡(luò)的目標(biāo)是使得多模態(tài)數(shù)據(jù)訓(xùn)練的融合模型在性能上不低于單模態(tài)數(shù)據(jù)訓(xùn)練的模型。因此,本節(jié)通過比較單模態(tài)和多模態(tài)融合網(wǎng)絡(luò)的準(zhǔn)確率驗(yàn)證多模態(tài)融合部分的有效性。
在實(shí)驗(yàn)過程中,數(shù)據(jù)集按3∶1∶1劃分為訓(xùn)練集、驗(yàn)證集和測試集,保存驗(yàn)證集上表現(xiàn)最好的模型。不同數(shù)據(jù)集采用不同的網(wǎng)絡(luò)結(jié)構(gòu):對(duì)于圖像數(shù)據(jù)(TCGA)采用卷積神經(jīng)網(wǎng)絡(luò)提取特征,對(duì)于單維特征(hand和Dermatology)采用全連接網(wǎng)絡(luò),對(duì)于序列信號(hào)(CMU-MOSEI)采用Transformer提取特征。
各個(gè)數(shù)據(jù)集中模態(tài)1、模態(tài)2和融合后的分類準(zhǔn)確率如表2所示。在4個(gè)數(shù)據(jù)集上,融合后分類準(zhǔn)確率均為最高,驗(yàn)證了所提融合方法的優(yōu)越性和有效性。
表2 多模態(tài)與單模態(tài)準(zhǔn)確率比較 單位:%
2.2.2節(jié)從理論上分析了使用單模態(tài)數(shù)據(jù)估計(jì)融合后的置信度的可行性,本節(jié)通過置信度估計(jì)網(wǎng)絡(luò)收斂性分析實(shí)驗(yàn)進(jìn)一步驗(yàn)證該結(jié)論。
圖4是分別在hand數(shù)據(jù)集和Dermatology數(shù)據(jù)上訓(xùn)練階段的均方誤差(Mean Squared Error, MSE)損失的變化趨勢。隨著迭代次數(shù)的增加,MSE損失逐漸減小,并最終趨于穩(wěn)定。在醫(yī)學(xué)數(shù)據(jù)集上收斂較快,一方面說明了單模態(tài)數(shù)據(jù)的特征能夠擬合融合后置信度,另一方面是因?yàn)槭褂昧溯^為簡單的網(wǎng)絡(luò)模型,即2到3層的全連接網(wǎng)絡(luò)。因此,使用單模態(tài)數(shù)據(jù)估計(jì)融合后置信度是可行的。
圖4 MSE變化趨勢
為了更加全面地評(píng)估不同收益評(píng)估方法,將收益評(píng)估方法應(yīng)用到樣本排序任務(wù)上,如圖5所示。按照不同的收益評(píng)估方法對(duì)測試樣本排序,即按照收益由高到低的方式,理想地,收益高的樣本增加新的模態(tài)信息后更有利于分類。
圖5 樣本排序示意圖
由于缺乏現(xiàn)有的方法對(duì)比,主要將本文方法與以下方法比較:
1)隨機(jī)收益評(píng)估方法。隨機(jī)收益評(píng)估方法與現(xiàn)實(shí)中獲取多模態(tài)數(shù)據(jù)基本假設(shè)保持一致,即無差別為每個(gè)樣本獲取新的模態(tài)。在隨機(jī)收益評(píng)估方法中,每個(gè)樣本增加新的模態(tài)所獲收益均相同。
2)基于MCP的評(píng)估方法。由于在測試階段只有單模態(tài)數(shù)據(jù),如果不使用輔助模型擬合回歸,只能夠得到分類結(jié)果的MCP;因此,可以將它作為評(píng)估方法,單模態(tài)的MCP越小,說明越需要獲取新的模態(tài)。
本文采用準(zhǔn)確率和有效樣本率(ESR)這兩個(gè)指標(biāo)。
3.4.1準(zhǔn)確率對(duì)比
首先,通過不同收益評(píng)估方法得到測試集中樣本增加新的模態(tài)后所獲收益;其次,按照收益由高到低對(duì)測試樣本排序,根據(jù)排序結(jié)果依次向測試集中加入新的模態(tài)信息;最后,通過多模態(tài)融合網(wǎng)絡(luò)和相應(yīng)單模態(tài)網(wǎng)絡(luò)得到分類準(zhǔn)確率。如果樣本被選中增加新的模態(tài),則將該樣本兩個(gè)模態(tài)輸入融合網(wǎng)絡(luò)中得到對(duì)應(yīng)分類結(jié)果;否則輸入單模態(tài)信息到它的單模態(tài)網(wǎng)絡(luò)得到分類結(jié)果,通過計(jì)算得到測試集的分類準(zhǔn)確率。為了提高實(shí)驗(yàn)的可靠性,隨機(jī)收益評(píng)估方法的準(zhǔn)確率為5次隨機(jī)排序的平均準(zhǔn)確率。
表3是各個(gè)數(shù)據(jù)集模態(tài)缺失情況和對(duì)應(yīng)測試集大小。實(shí)際應(yīng)用中,通常難以獲取高精度的模態(tài),因此在Dermatology數(shù)據(jù)集的臨床表現(xiàn)(模態(tài)1)和組織病理學(xué)特征(模態(tài)2)中,將組織病理學(xué)特征作為待獲取的模態(tài);在TCGA數(shù)據(jù)集的組織切片圖像(模態(tài)1)和基因測序(模態(tài)2)中,將基因測序作為待獲取的模態(tài)。
表3 模態(tài)缺失說明
注:“√”表示包含該模態(tài),“×”表示不包含該模態(tài)。
圖6為3種評(píng)估方法的準(zhǔn)確率對(duì)比結(jié)果。如圖6所示,在4個(gè)數(shù)據(jù)集上,與隨機(jī)收益評(píng)估方法相比,當(dāng)比例相同時(shí),按照本文方法得到的樣本排序結(jié)果增加新的模態(tài)信息達(dá)到的準(zhǔn)確率更高,即本文方法更有效。隨著樣本比例的提高,準(zhǔn)確率均呈上升趨勢,但本文方法在開始階段準(zhǔn)確率上升更快,說明本文方法更關(guān)注單模態(tài)難以正確分類的樣本。在TCGA數(shù)據(jù)集上,當(dāng)比例為0.8時(shí),本文方法的準(zhǔn)確率達(dá)到最高(66.23%),相較于隨機(jī)收益評(píng)估方法(61.30%),提升了4.93個(gè)百分點(diǎn),整體提升范圍為1.73~4.93個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果也符合2.3節(jié)中的分析,使用融合前后預(yù)測結(jié)果置信度的差異作為增廣模態(tài)收益的評(píng)估是合理的,即融合后預(yù)測結(jié)果置信度比單模態(tài)置信度高,說明增加新的模態(tài)后更利于分類。與基于MCP的方法相比,在hand數(shù)據(jù)集上,本文方法擁有相當(dāng)?shù)谋憩F(xiàn);但在TCGA數(shù)據(jù)集上,本文方法明顯優(yōu)于基于MCP的方法,準(zhǔn)確率提升了0.43~4.76個(gè)百分點(diǎn),說明僅使用單模態(tài)的置信度作為增廣模態(tài)的收益不夠全面。
圖6 不同數(shù)據(jù)集上的準(zhǔn)確率比較
3.4.2有效樣本率對(duì)比
為了更直觀地驗(yàn)證本文方法的有效性,本文提出了一個(gè)新的實(shí)驗(yàn)指標(biāo)——有效樣本率(ESR)。
定義1 如果某個(gè)樣本的單模態(tài)分類結(jié)果是錯(cuò)誤的,而多模態(tài)融合的分類結(jié)果是正確的,則該樣本被稱為有效樣本。有效樣本是只利用已有的單模態(tài)信息無法得到可靠分類結(jié)果的樣本,即歧義比較大的樣本。因此,有效樣本相較于其他樣本更需要增加新的模態(tài)信息輔助模型作出進(jìn)一步預(yù)測,即有效樣本的增廣模態(tài)收益相較于其他樣本更高。
定義2 增加新模態(tài)樣本中有效樣本所占比例稱為有效樣本率。
圖7是4個(gè)數(shù)據(jù)集上不同方法有效樣本率的對(duì)比結(jié)果。如圖7所示,在4個(gè)數(shù)據(jù)集上,當(dāng)比例較小時(shí),本文方法的有效樣本率遠(yuǎn)高于隨機(jī)評(píng)估的方法的有效樣本率。與隨機(jī)收益評(píng)估方法相比,盡管在TCGA數(shù)據(jù)集上準(zhǔn)確率差異相較于hand數(shù)據(jù)集小,但有效樣本率明顯提升,在開始階段(當(dāng)比例為0.1時(shí)),提高了11.26個(gè)百分點(diǎn)。同時(shí),本文方法的有效樣本率始終高于隨機(jī)收益評(píng)估方法,整體提升了2.72~11.26個(gè)百分點(diǎn),與基于MCP的方法相比,在開始階段(當(dāng)比例小于0.6時(shí)),提升了1.08~25.97個(gè)百分點(diǎn),說明在統(tǒng)計(jì)意義上本文方法對(duì)有效樣本給出了較高的收益評(píng)估。
圖7 不同數(shù)據(jù)集上有效樣本率比較
Fig. 7 Comparison of effective sample rate on different datasets
3.5.1有效樣本率比較
如2.3節(jié)所述,簡單直接的收益評(píng)估方法(以下簡稱為簡單方法)是將融合后預(yù)測結(jié)果置信度作為樣本增廣模態(tài)的收益。融合后置信度高一定程度上能夠說明融合后模型對(duì)于預(yù)測結(jié)果是較為自信的。為了驗(yàn)證綜合考慮融合前后置信度的有效性,在準(zhǔn)確率和有效樣本率指標(biāo)上對(duì)比了本文方法和簡單方法。
準(zhǔn)確率對(duì)比結(jié)果如圖8所示,僅使用融合后置信度作為樣本的收益在準(zhǔn)確率指標(biāo)上遠(yuǎn)低于本文方法。主要原因是融合后置信度高僅說明融合后模型對(duì)該樣本的預(yù)測結(jié)果比較自信,但無法說明該樣本融合后置信度高是由于增加了新的模態(tài),所以僅將融合后置信度作為收益不夠全面。而本文方法不僅考慮了融合后的置信度,也考慮了單模態(tài)網(wǎng)絡(luò)的置信度,利用它們的差值作為評(píng)估指標(biāo)具有更強(qiáng)的可解釋性。
圖8 本文方法與簡單方法的準(zhǔn)確率對(duì)比
圖9為有效樣本率在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比。從圖9可以看出,本文方法的有效樣本率均遠(yuǎn)高于僅使用融合后置信度信息評(píng)估的方法,因此融合后置信度高不一定代表該樣本增加新的模態(tài)的信息帶來了增益;同時(shí)也說明了本文方法同時(shí)考慮單模態(tài)和融合后兩種置信度的合理性與優(yōu)越性。
圖9 本文方法與簡單方法的有效樣本率對(duì)比
3.5.2多模態(tài)融合消融實(shí)驗(yàn)
多模態(tài)融合的消融實(shí)驗(yàn)主要是自適應(yīng)權(quán)重加權(quán)(加權(quán)融合)和等權(quán)重(平均融合)兩種方法的比較,表4是兩種方法準(zhǔn)確率結(jié)果。
表4 加權(quán)融合和平均融合的準(zhǔn)確率對(duì)比 單位:%
表4中,平均融合表示直接對(duì)兩個(gè)模態(tài)子網(wǎng)絡(luò)的預(yù)測結(jié)果取平均,加權(quán)融合表示對(duì)預(yù)測結(jié)果取加權(quán)平均。由表4可以看出,加權(quán)融合相較于平均融合,在準(zhǔn)確率上有所提升。在TCGA數(shù)據(jù)集上,平均融合的準(zhǔn)確率低于表現(xiàn)好的模態(tài)(模態(tài)2),是由于分類性能差的單模態(tài)網(wǎng)絡(luò)(模態(tài)1)是過自信的,即無論對(duì)錯(cuò),都傾向于輸出一個(gè)較高的置信度,導(dǎo)致最終融合模型準(zhǔn)確率降低,符合2.2.1節(jié)中對(duì)等權(quán)重融合方式缺點(diǎn)的分析。
綜合以上理論分析和實(shí)驗(yàn)結(jié)果分析,自適應(yīng)權(quán)重在一定程度上能夠反映各個(gè)單模態(tài)網(wǎng)絡(luò)的分類性能,相較于平均融合更合理。
表5 的訓(xùn)練結(jié)果
本文針對(duì)醫(yī)學(xué)領(lǐng)域難以獲取新模態(tài)、收益差異大的問題,提出了一種新的問題情景,并針對(duì)該問題情景提出了可解釋的、動(dòng)態(tài)的增廣模態(tài)收益評(píng)估方法。在多模態(tài)常用數(shù)據(jù)集和真實(shí)醫(yī)學(xué)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提樣本增廣模態(tài)收益評(píng)估方法不僅具有優(yōu)越的性能,同時(shí)也具有良好的可解釋性。目前的模型隨著模態(tài)的增加復(fù)雜度呈指數(shù)增加。在未來的工作中,將會(huì)進(jìn)一步提高模型的泛用性,擴(kuò)展到兩個(gè)模態(tài)以上的情況。
[1] RAMACHANDRAM D, TAYLOR G W. Deep multimodal learning: a survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6):96-108.
[2] LEE S, PARK S J, HONG K S. RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 4990-4999.
[3] VALADA A, MOHAN R, BURGARD W. Self-supervised model adaptation for multimodal semantic segmentation[J]. International Journal of Computer Vision, 2020, 128(5): 1239-1285.
[4] FAN L, HUANG W, GAN C, et al. End-to-end learning of motion representation for video understanding[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6016-6025.
[5] GARCIA N C, MORERIO P, MURINO V. Modality distillation with multiple stream networks for action recognition[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11212. Cham: Springer, 2018: 106-121.
[6] BALNTAS V, DOUMANOGLOU A, SAHIN C, et al. Pose guided RGBD feature learning for 3D object pose estimation[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3876-3884.
[7] 吳明暉,張廣潔,金蒼宏. 基于多模態(tài)信息融合的時(shí)間序列預(yù)測模型[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(8): 2326-2332.(WU M H, ZHANG G J, JIN C H. Time series prediction model based on multimodal information fusion[J]. Journal of Computer Applications, 2022, 42(8): 2326-2332.)
[8] 余娜,劉彥,魏雄炬,等. 基于注意力機(jī)制和金字塔融合的RGB-D室內(nèi)場景語義分割[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(3): 844-853.(YU N, LIU Y, WEI X J, et al. Semantic segmentation of RGB-D indoor scenes based on attention mechanism and pyramid fusion[J]. Journal of Computer Applications, 2022, 42(3): 844-853.)
[9] WANG Y, HUANG W, SUN F, et al. Deep multimodal fusion by channel exchanging[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 4835-4845.
[10] HAZIRBAS C, MA L, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based cnn architecture[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNCS 10111. Cham: Springer, 2017: 213-228.
[11] ZENG J, TONG Y, HUANG Y, et al. Deep surface normal estimation with hierarchical RGB-D fusion[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 6146-6155.
[12] DU D, WANG L, WANG H, et al. Translate-to-recognize networks for RGB-D scene recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 11828-11837.
[13] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two-sample test[J]. Journal of Machine Learning Research, 2012, 13: 723-773.
[14] WANG J, WANG Z, TAO D, et al. Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9909. Cham: Springer, 2016: 664-679.
[15] LIU Z, LI J, SHEN Z, et al. Learning efficient convolutional networks through network slimming[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2755-2763.
[16] BALTRU?AITIS T, AHUJA C, MORENCY L P. Multimodal machine learning: a survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 423-443.
[17] CASTELLANO G, KESSOUS L, CARIDAKIS G. Emotion recognition through multiple modalities: face, body gesture, speech[M]// PETER C, BEALE R. Affect and Emotion in Human-Computer Interaction: From Theory to Applications, LNCS 4868. Berlin: Springer, 2008: 92-103.
[18] RAMIREZ G A, BALTRU?AITIS T, MORENCY L P. Modeling latent discriminative dynamic of multi-dimensional affective signals[C]// Proceedings of the 2011 International Conference on Affective Computing and Intelligent Interaction, LNCS 6975. Berlin: Springer, 2011: 396-406.
[19] LAN Z Z, BAO L, YU S I, et al. Multimedia classification and event detection using double fusion[J]. Multimedia Tools and Applications, 2014, 71(1): 333-347.
[20] CAI T, CAI T T, ZHANG A. Structured matrix completion with applications to genomic data integration[J]. Journal of the American Statistical Association, 2016, 111(514): 621-633.
[21] TRAN L, LIU X, ZHOU J, et al. Missing modalities imputation via cascaded residual autoencoder[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4971-4980.
[22] TSAI Y H H, LIANG P P, ZADEH A, et al. Learning factorized multimodal representations[EB/OL]. (2019-05-14) [2023-01-20].https://arxiv.org/pdf/1806.06176.pdf.
[23] WU M, GOODMAN N. Multimodal generative models for scalable weakly-supervised learning[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 5580-5590.
[24] ZHANG C, HAN Z, CUI Y, et al. CPM-Nets: cross partial multi-view networks[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 559-569.
[25] AMODEI D, OLAH C, STEINHARDT J, et al. Concrete problems in AI safety[EB/OL]. (2016-07-25) [2023-01-20].https://arxiv.org/pdf/1606.06565.pdf.
[26] JANAI J, GüNEY F, BEHL A, et al. Computer vision for autonomous vehicles: problems, datasets and state of the art[J]. Foundations and Trends?in Computer Graphics and Vision, 2020, 12(1/2/3): 1-308.
[27] GUO C, PLEISS G, SUN Y, et al. On calibration of modern neural networks[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1321-1330.
[28] LIANG S, LI Y, SRIKANT R. Enhancing the reliability of out-of-distribution image detection in neural networks[EB/OL]. (2020-08-30) [2023-01-20].https://arxiv.org/pdf/1706.02690.pdf.
[29] CORBIèRE C, THOME N, BAR-HEN A, et al. Addressing failure prediction by learning model confidence[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 2902-2913.
[30] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 1050-1059.
[31] DUI R. Multiple Features dataset in UCI machine learning repository[DS/OL]. [2023-01-20].http://archive.ics.uci.edu/ml/datasets/multiple+features.
[32] ZADEH A A B, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2018: 2236-2246.
[33] CHEN R J, LU M Y, WANG J, et al. Pathomic fusion: an integrated framework for fusing histopathology and genomic features for cancer diagnosis and prognosis[J]. IEEE Transactions on Medical Imaging, 2022, 41(4): 757-770.
[34] ILTER N, GUVENIR H. Dermatology dataset in UCI machine learning repository[DS/OL]. [2023-01-20].https://archive.ics.uci.edu/ml/datasets/dermatology.
Dynamic evaluation method for benefit of modality augmentation
BI Yizhen, MA Huan, ZHANG Changqing*
(,,300350,)
Focused on the difficulty and big benefit difference in acquiring new modalities, a method for dynamically evaluating benefit of modality augmentation was proposed. Firstly, the intermediate feature representation and the prediction results before and after modality fusion were obtained through the multimodal fusion network. Then, the confidence before and after fusion were obtained by introducing the True Class Probability (TCP) of two prediction results to confidence estimation. Finally, the difference between two confidences was calculated and used as an sample to obtain the benefit brought by the new modality. Extensive experiments were conducted on commonly used multimodal datasets and real medical datasets such as The Cancer Genome Atlas (TCGA). The experimental results on TCGA dataset show that compared with the random benefit evaluation method and the Maximum Class Probability (MCP) based method, the proposed method has the accuracy increased by 1.73 to 4.93 and 0.43 to 4.76 percentage points respectively, and the Effective Sample Rate (ESR) increased by 2.72 to 11.26 and 1.08 to 25.97 percentage points respectively. It can be seen that the proposed method can effectively evaluate benefits of acquiring new modalities for different samples, and has a certain degree of interpretability.
multimodal classification; multimodal fusion; confidence estimation; modality augmentation; representation learning
1001-9081(2023)10-3099-08
10.11772/j.issn.1001-9081.2022101510
2022?10?11;
2023?01?24;
畢以鎮(zhèn)(1998—),男,山東濰坊人,碩士研究生,主要研究方向:多模態(tài)學(xué)習(xí)、機(jī)器學(xué)習(xí); 馬煥(1998—),男,河北唐山人,碩士研究生,主要研究方向:多模態(tài)學(xué)習(xí)、不確定性估計(jì); 張長青(1982—),男,河南安陽人,副教授,博士生導(dǎo)師,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別。
TP391.4
A
2023?02?02。
BI Yizhen, born in 1998, M. S. candidate. His research interests include multimodal learning, machine learning.
MA Huan,born in 1998, M. S. candidate. His research interests include multimodal learning, uncertainty estimation.
ZHANG Changqing, born in 1982, Ph. D., associate professor. His research interests include machine learning, pattern recognition.