邱凱星,馮 廣
(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
在圖像分類(lèi)發(fā)展初期,大部分研究都是圍繞著單標(biāo)簽圖像分類(lèi)任務(wù)進(jìn)行開(kāi)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的各類(lèi)骨干網(wǎng)絡(luò)在眾多大型單標(biāo)簽圖像數(shù)據(jù)集上已經(jīng)達(dá)到較高的分類(lèi)準(zhǔn)確率,如AlexNet[1]、VGG[2]、GoogLeNet[3]和ResNet[4]等。而現(xiàn)實(shí)生活中的圖像往往具有豐富的語(yǔ)義信息,無(wú)法使用單一標(biāo)簽對(duì)應(yīng)圖像中的所有實(shí)體、背景或?qū)傩?因此標(biāo)簽對(duì)于圖像區(qū)域的關(guān)注程度是不一致的,而CNN 具有卷積核參數(shù)共享的特性,圖像中的歐氏空間信息在CNN 進(jìn)行特征提取時(shí)便難以與現(xiàn)實(shí)生活中不規(guī)則的語(yǔ)義拓?fù)浣Y(jié)構(gòu)所對(duì)應(yīng)。
近年來(lái),多標(biāo)簽圖像分類(lèi)的研究開(kāi)始成為熱點(diǎn)之一,同時(shí)也是一項(xiàng)具有挑戰(zhàn)性的研究任務(wù)。多標(biāo)簽圖像分類(lèi)并不是單標(biāo)簽圖像分類(lèi)工作的簡(jiǎn)單疊加[5],圖像的多標(biāo)簽可以在多個(gè)語(yǔ)義維度上對(duì)圖片的內(nèi)容和屬性進(jìn)行表達(dá)與概括,且標(biāo)簽與標(biāo)簽之間的語(yǔ)義通常具有一定的關(guān)聯(lián)性,其豐富程度與完整性是單標(biāo)簽所不能比擬的。在具體應(yīng)用上,多標(biāo)簽圖像分類(lèi)能夠打破以往單標(biāo)簽圖像分類(lèi)的局限性,使計(jì)算機(jī)對(duì)圖像的處理能夠融入具體的語(yǔ)義空間。
在多標(biāo)簽圖像分類(lèi)的相關(guān)研究中,傳統(tǒng)的解決思路是基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)[6],從而使整體網(wǎng)絡(luò)能夠進(jìn)行圖像特征提取與標(biāo)簽語(yǔ)義關(guān)聯(lián)的工作。針對(duì)圖像標(biāo)簽間的依賴(lài)性與共現(xiàn)關(guān)系問(wèn)題,Wang 等[7]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)標(biāo)簽進(jìn)行了處理,提出了CNN-RNN 框架用于學(xué)習(xí)聯(lián)合圖像標(biāo)簽嵌入;Zhang 等[8]使用完全卷積的定位架構(gòu),提出了區(qū)域潛在語(yǔ)義依賴(lài)模型RLSD,在識(shí)別小物體方面有突出的性能。隨著圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks, GCN)[9]的提出,許多學(xué)者開(kāi)始陸續(xù)研究GCN 在多標(biāo)簽圖像分類(lèi)中的應(yīng)用效果,通過(guò)建立標(biāo)簽的詞嵌入表示以輔助分類(lèi)。Chen 等[10]提出用于多標(biāo)簽圖像分類(lèi)的ML-GCN 模型,在標(biāo)簽上建立有向圖,從而能夠得到相應(yīng)的語(yǔ)義拓?fù)浞诸?lèi)。此外,為有效融合圖像與標(biāo)簽的特征信息,Wang 等[11]引入了多模態(tài)分解雙線性池化作為組件,提出了一種基于快速圖卷積網(wǎng)絡(luò)模型F-GCN,對(duì)多標(biāo)簽圖像有較好的分類(lèi)效果。
現(xiàn)階段部分研究工作使用注意力機(jī)制[12]作為提升模型性能的有效手段,如Wang 等[13]通過(guò)堆疊注意力模塊構(gòu)建殘差注意力網(wǎng)絡(luò)(Residual Attention Network),從而使模塊的注意力感知特征隨層數(shù)的深入而自適應(yīng)變化;Yan等[14]提出包含特征細(xì)化網(wǎng)絡(luò)和相關(guān)性學(xué)習(xí)網(wǎng)絡(luò)的特征注意網(wǎng)絡(luò)(Feature Attention Network,F(xiàn)AN),構(gòu)建自頂向下的特征融合機(jī)制來(lái)細(xì)化更重要的特征;Guo等[15]基于人類(lèi)視覺(jué)感知的一致性,提出了原始圖像與轉(zhuǎn)換后圖像作為輸入的雙分支網(wǎng)絡(luò),從而使網(wǎng)絡(luò)獲得注意力的一致性,還有CTran[16]和Q2L[17]等模型都有不錯(cuò)的性能表現(xiàn)。這些方法都能夠有效地對(duì)標(biāo)簽信息進(jìn)行建模,但在分類(lèi)的泛化能力上仍有待提升。
關(guān)于多標(biāo)簽圖像分類(lèi)的相關(guān)工作大多聚焦于標(biāo)簽與標(biāo)簽之間特征的相關(guān)性研究,容易忽略圖像多區(qū)域特征信息提取、圖像實(shí)例特征區(qū)域與標(biāo)簽語(yǔ)義關(guān)系構(gòu)建等重點(diǎn)問(wèn)題[18]。為解決上述2 個(gè)多標(biāo)簽圖像分類(lèi)中的重點(diǎn)問(wèn)題,本文提出基于雙重特征注意力的多標(biāo)簽圖像分類(lèi)模型(Dual Feature Attention, DFA),主要工作如下:
1)構(gòu)建圖像特征注意力模塊,提高模型對(duì)圖像多區(qū)域特征信息的提取能力。
2)構(gòu)建聯(lián)合特征注意力模塊,對(duì)圖像特征與標(biāo)簽嵌入進(jìn)行跨模態(tài)特征融合,提高模型對(duì)圖像實(shí)例特征區(qū)域與標(biāo)簽語(yǔ)義的相關(guān)性學(xué)習(xí)能力。
本文所提出的基于雙重特征注意力的多標(biāo)簽圖像分類(lèi)模型如圖1所示,主要由4個(gè)部分組成,分別是骨干網(wǎng)絡(luò)、圖像特征注意力模塊(Image Feature Attention Block,IFAB)、聯(lián)合特征注意力模塊(Combined Feature Attention Block,CFAB)和分類(lèi)器。
圖1 基于雙重特征注意力的多標(biāo)簽圖像分類(lèi)模型結(jié)構(gòu)
首先,使用ResNet101[4]作為骨干網(wǎng)絡(luò)對(duì)圖像I進(jìn)行特征提取,使用conv4輸出,得到圖像特征F∈RC′×H′×W′,其中C′為通道數(shù),H′為特征圖的高,W′為特征圖的寬;然后,圖像特征注意力模塊將圖像特征F進(jìn)行空間注意力加權(quán)表征,得到帶有多區(qū)域注意力信息的圖像特征F′∈RC′×H′×W′;接著,將標(biāo)簽嵌入L∈RN×C′與圖像特征F′輸入到聯(lián)合特征注意力模塊中,得到帶有圖像特征聯(lián)合標(biāo)簽語(yǔ)義注意力信息的標(biāo)簽嵌入L′∈RN×C′,其中N為多標(biāo)簽類(lèi)別數(shù),C′為標(biāo)簽特征維度,與特征圖通道數(shù)相同;最后,把標(biāo)簽嵌入L′={l′1,l′2,…,l′N(xiāo)}輸入到多通道獨(dú)立分類(lèi)器fpred={f1,f2,…,fN}中,得到結(jié)果P={p1,p2,…,pN},其中l(wèi)i∈R1×C′,pi∈R。具體過(guò)程可表示為:
圖像特征注意力模塊的目的是加強(qiáng)圖像空間多區(qū)域特征信息的利用,在學(xué)習(xí)過(guò)程中增加網(wǎng)絡(luò)對(duì)感興趣區(qū)域特征的關(guān)注,以重點(diǎn)學(xué)習(xí)與標(biāo)簽對(duì)應(yīng)的圖像區(qū)域特征,其結(jié)構(gòu)如圖2所示。
圖2 圖像特征注意力模塊
注意力機(jī)制提出之初多應(yīng)用于自然語(yǔ)言處理領(lǐng)域中,利用多頭自注意力模塊使句子中的每一個(gè)單詞都能夠獲取自身與該句子其它詞匯之間的特征相關(guān)性。同樣地,注意力機(jī)制應(yīng)用于圖像處理領(lǐng)域中,由于圖像像素與句子單詞的自然一維順序不同,因此需要對(duì)圖像像素添加位置編碼,使注意力機(jī)制能夠關(guān)注到圖像的空間區(qū)域特征。
對(duì)圖像特征注意力模塊輸入的圖像特征圖F添加位置編碼PE ∈RC′×H′×W′,得到帶位置編碼的特征圖FP∈RC′×H′×W′:
特征圖經(jīng)過(guò)Flatten 展平后輸入Transformer Encoder 層學(xué)習(xí)圖像多區(qū)域注意力信息,得到帶注意力信息的特征圖Fattn∈R(H′×W′)×C′:
其中,h是注意力頭的數(shù)量,WO∈Rhdv×C′是多頭注意力中的可學(xué)習(xí)權(quán)重參數(shù),為縮放因子,和分別是對(duì)于給定輸入FP的線性映射可學(xué)習(xí)權(quán)重參數(shù)。
可知,F(xiàn)attn的每個(gè)特征信息都是通過(guò)注意力權(quán)重對(duì)FP加權(quán)求和得出,即:
此外,為加強(qiáng)該模塊的學(xué)習(xí)泛化能力,避免網(wǎng)絡(luò)性能退化,增強(qiáng)數(shù)據(jù)特征分布穩(wěn)定性,添加Dropout、Residual和LayerNorm結(jié)構(gòu),具體地:
經(jīng)過(guò)上述處理后,圖像特征注意力模塊可表示為:
圖像特征與標(biāo)簽嵌入特征二者之間是屬于跨模態(tài)特征,而在本文所研究的多標(biāo)簽圖像分類(lèi)任務(wù)中,圖像特征實(shí)例區(qū)域與標(biāo)簽語(yǔ)義的相關(guān)性學(xué)習(xí)是影響模型分類(lèi)效果的重要環(huán)節(jié)。聯(lián)合特征注意力模塊的目的是加強(qiáng)模型對(duì)圖像特征與標(biāo)簽嵌入聯(lián)合特征的利用,在學(xué)習(xí)過(guò)程中構(gòu)建圖像特征區(qū)域與對(duì)應(yīng)標(biāo)簽嵌入的關(guān)聯(lián)關(guān)系,其結(jié)構(gòu)如圖3所示。
圖3 聯(lián)合特征注意力模塊
在2.2 節(jié)中,本文介紹了使用注意力機(jī)制對(duì)圖像多區(qū)域特征進(jìn)行關(guān)聯(lián)性學(xué)習(xí)。同樣地,在聯(lián)合特征注意力模塊中,使用注意力機(jī)制對(duì)圖像特征信息與標(biāo)簽嵌入進(jìn)行跨模態(tài)相關(guān)性學(xué)習(xí),把圖像多區(qū)域特征信息深度融合于標(biāo)簽嵌入中。在此過(guò)程,該模塊也同樣進(jìn)行標(biāo)簽間的語(yǔ)義共現(xiàn)性學(xué)習(xí),以增強(qiáng)多標(biāo)簽圖像的分類(lèi)效果。
圖像特征與標(biāo)簽嵌入的數(shù)據(jù)分布不一致,進(jìn)行注意力學(xué)習(xí)前需要對(duì)聯(lián)合跨模態(tài)特征表征A進(jìn)行標(biāo)準(zhǔn)化處理,以增強(qiáng)數(shù)據(jù)特征的穩(wěn)定性。隨后經(jīng)過(guò)注意力學(xué)習(xí)可得到帶有跨模態(tài)注意力信息的聯(lián)合特征
在帶有跨模態(tài)注意力信息的聯(lián)合特征A′中,包含了圖像特征與標(biāo)簽嵌入特征,且其中的標(biāo)簽嵌入特征已經(jīng)學(xué)到了全局的關(guān)聯(lián)關(guān)系,包括圖像特征與標(biāo)簽嵌入的關(guān)聯(lián)關(guān)系和各標(biāo)簽嵌入之間的特征語(yǔ)義共現(xiàn)關(guān)系。該部分標(biāo)簽嵌入特征用于后續(xù)分類(lèi)器進(jìn)行多標(biāo)簽分類(lèi)預(yù)測(cè)。因此,帶有圖像特征聯(lián)合標(biāo)簽語(yǔ)義注意力信息的標(biāo)簽嵌入L′∈RN×C′可由聯(lián)合特征A′切片求得:
經(jīng)過(guò)上述處理后,聯(lián)合特征注意力模塊可表示為:
二值交叉熵(Binary Cross Entropy, BCE)損失函數(shù)是多標(biāo)簽分類(lèi)任務(wù)中最常用的損失函數(shù),在本文提出的模型中也同樣適用。該損失函數(shù)衡量預(yù)測(cè)值與真實(shí)標(biāo)簽之間的差距,但在樣本標(biāo)簽分布不均衡的情況下,BCE無(wú)法準(zhǔn)確地表征模型的真實(shí)性能。為使模型能夠更好地學(xué)習(xí)與收斂,本文模型使用非對(duì)稱(chēng)損失函數(shù)(Asymmetric Loss,ASL)[19],以提高多標(biāo)簽圖像分類(lèi)任務(wù)中正負(fù)樣本不均衡情況下模型的性能表現(xiàn):
式中,yk為真實(shí)標(biāo)簽值,pk為預(yù)測(cè)值,K為總類(lèi)別數(shù),γ+和γ-分別為正負(fù)樣本損失對(duì)總體損失貢獻(xiàn)的調(diào)節(jié)指數(shù),在本文模型中設(shè)置γ+=0、γ-=4 以增強(qiáng)負(fù)樣本對(duì)總體損失的貢獻(xiàn);pm,k稱(chēng)為概率轉(zhuǎn)移,用于清除或減輕簡(jiǎn)單負(fù)樣本對(duì)總體損失的貢獻(xiàn),使網(wǎng)絡(luò)模型更關(guān)注于困難負(fù)樣本,m為概率轉(zhuǎn)移的調(diào)節(jié)參數(shù),用于調(diào)節(jié)上述概率轉(zhuǎn)移中清除或減輕貢獻(xiàn)的程度,在本文模型中設(shè)置m=0.05。
為驗(yàn)證本文所提出模型的有效性,在多標(biāo)簽圖像分類(lèi)公開(kāi)數(shù)據(jù)集PASCAL VOC 2007[20]和MS COCO 2014[21]上進(jìn)行相關(guān)實(shí)驗(yàn)。
1)VOC 2007 數(shù)據(jù)集一共包含9963 張圖片,其中訓(xùn)練集5011 張,測(cè)試集4952 張,分為20 個(gè)標(biāo)簽類(lèi)別,各標(biāo)簽類(lèi)別涵蓋生活中常見(jiàn)的物體,例如飛機(jī)、汽車(chē)、貓、房子、人和沙發(fā)等,是用于評(píng)價(jià)多標(biāo)簽圖像分類(lèi)性能的基準(zhǔn)數(shù)據(jù)集。
2)COCO 2014 數(shù)據(jù)集是一個(gè)大型圖像數(shù)據(jù)集,包含82783 張訓(xùn)練圖片和40775 張測(cè)試圖片,共有80個(gè)標(biāo)簽類(lèi)別,每張圖片的平均標(biāo)簽類(lèi)別為2.9個(gè),常用于目標(biāo)檢測(cè)、語(yǔ)義分割和多標(biāo)簽圖像分類(lèi)等領(lǐng)域,能有效地驗(yàn)證模型的泛化性能。
衡量多標(biāo)簽圖像分類(lèi)性能的好壞,最常用的評(píng)價(jià)指標(biāo)是平均精度均值(mean Average Precision,mAP)。該評(píng)價(jià)指標(biāo)是由數(shù)據(jù)集中各類(lèi)的平均精度(Average Precision,AP)取平均求得:
其中,K為總類(lèi)別數(shù),APk是評(píng)價(jià)第k類(lèi)數(shù)據(jù)在不同召回率r下模型精度pk(r)的性能表現(xiàn),即:
此外,在多標(biāo)簽圖像分類(lèi)中也常使用類(lèi)平均精度(Class Precision,CP)、類(lèi)平均召回率(Class Recall,CR)、類(lèi)平均F1 值(Class F1,CF1)和全局平均精度(Overall Precision,OP)、全局平均召回率(Overall Recall,OR)、全局平均F1 值(Overall F1,OF1)作為輔助評(píng)價(jià)指標(biāo):
3.3.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)平臺(tái)為Ubuntu 18.04 系統(tǒng),處理器為48 核 Intel(R) Xeon(R) Platinum 8255C CPU @2.50 GHz,內(nèi)存為172 GB,使用4 塊NVIDIA Ge-Force RTX 3090 顯卡加速訓(xùn)練,編程語(yǔ)言為Python 3,使用深度學(xué)習(xí)框架Pytorch進(jìn)行相關(guān)實(shí)驗(yàn)。
3.3.2 實(shí)驗(yàn)參數(shù)
本文實(shí)驗(yàn)使用ResNet101 的預(yù)訓(xùn)練權(quán)重參數(shù)并在訓(xùn)練過(guò)程中對(duì)其進(jìn)行微調(diào)。對(duì)于輸入的訓(xùn)練圖像先把分辨率統(tǒng)一調(diào)整為576×576,隨后使用RandAugment[22]與隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng),最后進(jìn)行標(biāo)準(zhǔn)化處理后輸入骨干網(wǎng)絡(luò)。在實(shí)驗(yàn)過(guò)程中,本文使用指數(shù)滑動(dòng)平均策略(Exponential Moving Average,EMA)輔助模型訓(xùn)練,衰減參數(shù)設(shè)置為0.9;使用梯度累積增加批處理大小,其他實(shí)驗(yàn)參數(shù)及超參數(shù)的設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)
3.4.1 對(duì)比分析
為驗(yàn)證本文提出模型的有效性,選取相關(guān)主流模型進(jìn)行對(duì)比實(shí)驗(yàn)分析。由于不同模型采用的評(píng)價(jià)數(shù)據(jù)集不完全一致,為避免實(shí)驗(yàn)誤差,對(duì)于不同的數(shù)據(jù)集將選用不同的模型進(jìn)行對(duì)比,以保證對(duì)比公平性。
在PASCAL VOC 2007 數(shù)據(jù)集中,本文模型將與RLSD[8]、HCP[6]、FAN[14]、SSGRL[24]、LDR[25]、MLGCN[9]、F-GCN[11]和P-GCN[26]進(jìn)行對(duì)比,詳細(xì)實(shí)驗(yàn)結(jié)果如表2所示。
表2 PASCAL VOC 2007數(shù)據(jù)集實(shí)驗(yàn)結(jié)果單位:%
本文所提出模型DFA 在VOC 2007 數(shù)據(jù)集上的mAP 達(dá)到了94.6%,超越主流算法模型。在各項(xiàng)標(biāo)簽類(lèi)別的平均精度AP中,部分類(lèi)別達(dá)到了較高的水平,例如Aero、Train 和Person 標(biāo)簽,分別為99.8%、99.3%和99.0%;此外本文模型DFA 共有12 項(xiàng)達(dá)到了最優(yōu),其中部分類(lèi)別有較大的提升,例如Bottle、Table 和Cow 標(biāo)簽,相比最近提出的LDR 模型分別提升了6.4、3.6和2.6個(gè)百分點(diǎn);其余未達(dá)最優(yōu)的類(lèi)別也能達(dá)到較高的平均精度。
在MS COCO 2014 數(shù)據(jù)集中,本文模型將與SRN[27]、FAN、ML-GCN、P-GCN、F-GCN、SSGRL、MCAR[28]、C-Tran、TDRG[29]和Q2L 進(jìn)行對(duì)比。為準(zhǔn)確對(duì)比各模型結(jié)構(gòu)性能上的優(yōu)異程度,此處所選對(duì)比模型的評(píng)價(jià)指標(biāo)結(jié)果均以ResNet101 作為骨干網(wǎng)絡(luò)得出,詳細(xì)實(shí)驗(yàn)結(jié)果如表3所示。
表3 MS COCO 2014數(shù)據(jù)集實(shí)驗(yàn)結(jié)果單位:%
由表3 可知,本文模型DFA 在mAP、CF1 和OF1等主要評(píng)估指標(biāo)上超越了現(xiàn)行主流的算法模型,相比基線方法C-Tran 分別提升1.6、1.4 和1.4 個(gè)百分點(diǎn)?;€方法C-Tran 的思想是使用注意力機(jī)制對(duì)圖像特征與標(biāo)簽特征進(jìn)行關(guān)聯(lián)學(xué)習(xí),搭建分類(lèi)Transformer對(duì)跨模態(tài)特征進(jìn)行融合,通過(guò)對(duì)輸入的訓(xùn)練標(biāo)簽添加狀態(tài)嵌入并進(jìn)行掩碼處理以提升模型泛化能力,但在圖像特征提取中直接使用骨干網(wǎng)絡(luò)輸出的特征信息,缺乏對(duì)高階圖像特征的注意力關(guān)注。Q2L 模型的思想同樣是使用注意力機(jī)制加強(qiáng)圖像特征與標(biāo)簽特征的信息交互,通過(guò)Transformer Decoder 的交叉注意力把骨干網(wǎng)絡(luò)輸出的圖像高階特征指導(dǎo)標(biāo)簽的學(xué)習(xí),但在一定程度上同樣忽略了對(duì)圖像多區(qū)域特征信息的提取,對(duì)于部分標(biāo)簽容易漏檢或錯(cuò)檢。本文所提模型的思路是通過(guò)注意力機(jī)制,構(gòu)建圖像特征注意力模塊對(duì)圖像多區(qū)域特征進(jìn)行自注意力提取,加強(qiáng)對(duì)圖像特征的學(xué)習(xí),并構(gòu)建聯(lián)合特征注意力模塊,使圖像多區(qū)域特征與標(biāo)簽語(yǔ)義嵌入能夠相互關(guān)聯(lián)并融合。實(shí)驗(yàn)結(jié)果表明,本文所提模型更能有效地對(duì)圖像多區(qū)域特征信息進(jìn)行提取并與標(biāo)簽信息進(jìn)行融合,分類(lèi)平均精度均值達(dá)到了86.7%,相比同樣使用注意力機(jī)制的C-Tran 和Q2L 有較大的提升,在整體性能表現(xiàn)與召回率上均取得最優(yōu)結(jié)果。
3.4.2 結(jié)構(gòu)參數(shù)分析
從本文模型與其他主流模型在2 個(gè)多標(biāo)簽圖像分類(lèi)數(shù)據(jù)集上的對(duì)比結(jié)果可以看出,本文模型已達(dá)到SOTA 性能。為研究本文模型中2 種特征注意力模塊中層數(shù)的敏感性,探究最優(yōu)的模型結(jié)構(gòu)參數(shù),設(shè)置2項(xiàng)對(duì)比實(shí)驗(yàn)。首先把聯(lián)合特征注意力模塊中Encoder的層數(shù)n設(shè)定為3,分別驗(yàn)證圖像特征注意力模塊中Encoder的層數(shù)m從1~4時(shí)的性能表現(xiàn),結(jié)果如圖4所示。
圖4 mAP在不同圖像特征注意力模塊層數(shù)中的性能變化
可以看出,當(dāng)圖像特征注意力模塊中Encoder 的層數(shù)m=3時(shí),模型的性能表現(xiàn)最好。而在設(shè)置不同層數(shù)時(shí),模型的性能表現(xiàn)波動(dòng)不大,差距較小,表明該模型結(jié)構(gòu)參數(shù)靈敏度較低,具有較好的健壯性。
同樣地,把圖像特征注意力模塊中Encoder 的層數(shù)m設(shè)定為3,分別驗(yàn)證聯(lián)合特征注意力模塊中Encoder 的層數(shù)n從1~4 時(shí)的性能表現(xiàn),結(jié)果如圖5 所示。聯(lián)合特征注意力模塊中Encoder 的層數(shù)n=3 時(shí),模型性能也取得最大值,各層值間表現(xiàn)相當(dāng)。
圖5 mAP在不同聯(lián)合特征注意力模塊層數(shù)中的性能變化
綜上,本文模型在圖像特征注意力模塊和聯(lián)合特征注意力模塊層數(shù)均為3 時(shí)取得最優(yōu)結(jié)果,各結(jié)構(gòu)參數(shù)寬容度高,表現(xiàn)出較好的魯棒性。
多標(biāo)簽圖像分類(lèi)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),本文提出了一種基于雙重特征注意力的多標(biāo)簽圖像分類(lèi)模型,通過(guò)構(gòu)建圖像特征注意力模塊和聯(lián)合特征注意力模塊,解決現(xiàn)行算法中過(guò)度關(guān)注標(biāo)簽依賴(lài)性和圖像多區(qū)域特征與標(biāo)簽語(yǔ)義難融合等問(wèn)題。在公共數(shù)據(jù)集PASCAL VOC 2007 和COCO 2014 上的實(shí)驗(yàn)表明,本文模型性能優(yōu)于現(xiàn)有方法,注意力機(jī)制對(duì)圖像區(qū)域特征與跨模態(tài)特征的關(guān)系構(gòu)建融合行之有效。但本文模型對(duì)多標(biāo)簽圖像分類(lèi)中存在的正負(fù)樣本不均衡問(wèn)題仍然考慮不足。標(biāo)簽樣本不均衡會(huì)影響模型的學(xué)習(xí)能力,對(duì)學(xué)習(xí)過(guò)程造成干擾。下一步將對(duì)此問(wèn)題進(jìn)行深入研究,如改進(jìn)注意力模塊或重構(gòu)損失函數(shù)等。