朱旭東,熊 贇
(1.復(fù)旦大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200433;2.上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗室,上海 200433)
圖像多標(biāo)簽分類技術(shù)作為計算機(jī)視覺領(lǐng)域的經(jīng)典技術(shù),在圖像識別、檢測等場景下得到廣泛應(yīng)用,具有重要研究意義。如何通過有效學(xué)習(xí)標(biāo)簽之間相關(guān)性的信息,提升多標(biāo)簽的分類效果,已受到越來越多研究人員的關(guān)注。目前,多標(biāo)簽場景下還存在數(shù)據(jù)分布不均衡、正負(fù)樣本學(xué)習(xí)等問題?,F(xiàn)有對多標(biāo)簽關(guān)系的建模多基于標(biāo)簽信息統(tǒng)計,一定程度上捕捉了標(biāo)簽相關(guān)信息,但僅使用標(biāo)簽統(tǒng)計信息的標(biāo)簽泛化性較差,容易產(chǎn)生不同樣本分布類別間的偏差,不能有效利用圖像信息學(xué)習(xí)標(biāo)簽關(guān)系。
本文提出一種基于圖結(jié)構(gòu)與多層次注意力的圖像多標(biāo)簽分類算法,通過建立不同尺度大小的特征層次空間,對特征層次空間注意力和通道注意力的權(quán)重進(jìn)行分析與學(xué)習(xí)。此外,將不同特征層次和不同特征通道的注意力權(quán)重與圖像信息進(jìn)行疊加,促進(jìn)局部信息和整體信息的融合,從而獲取標(biāo)簽語義空間和對應(yīng)圖像特征空間之間的關(guān)系信息。另外,通過分析標(biāo)簽相關(guān)性建立標(biāo)簽語義空間和圖像特征空間的聯(lián)系,并對標(biāo)簽語義特征和圖像特征進(jìn)行融合,引入圖像特征信息和圖注意力機(jī)制進(jìn)行動態(tài)圖模型更新。
多標(biāo)簽分類的主要任務(wù)是建立標(biāo)簽信息空間和數(shù)據(jù)特征空間的對應(yīng)關(guān)系,與普通單標(biāo)簽分類任務(wù)最大的區(qū)別在于多標(biāo)簽分類中,同一實(shí)體的數(shù)據(jù)特征空間和標(biāo)簽信息空間存在多個映射關(guān)系。
在圖像多標(biāo)簽分類的相關(guān)研究中,文獻(xiàn)[1]在圖像特征空間進(jìn)行劃分學(xué)習(xí),文獻(xiàn)[2-4]注重對圖像中不同標(biāo)簽對應(yīng)目標(biāo)的圖像特征進(jìn)行學(xué)習(xí),充分利用圖像特征與分類相關(guān)的信息,但這些文獻(xiàn)中所提算法忽略了標(biāo)簽相關(guān)性信息和標(biāo)簽語義信息,其中MRAR 算法[2]通過循環(huán)注意力模塊提取圖像特征不同區(qū)域信息,ORVA算法[3]通過引入無序循環(huán)網(wǎng)絡(luò)對圖像特征進(jìn)行加權(quán)學(xué)習(xí)。文獻(xiàn)[5]通過概率分布計算輔助標(biāo)簽分類,文獻(xiàn)[6-8]利用標(biāo)簽語義信息融合圖像特征輔助圖像分類,但這些方法對標(biāo)簽相關(guān)性信息利用不充分。其中,文獻(xiàn)[6]所提到的CMA 算法通過融合標(biāo)簽信息和圖像進(jìn)行多模態(tài)學(xué)習(xí),而文獻(xiàn)[8]所提的LGS 算法利用相似性網(wǎng)絡(luò)捕捉標(biāo)簽與圖像對應(yīng)關(guān)系。文獻(xiàn)[9-11]對標(biāo)簽間關(guān)系進(jìn)行建模,其中CNN-RNN 算法[11]利用序列神經(jīng)網(wǎng)絡(luò)構(gòu)建標(biāo)簽關(guān)系,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的圖像特征進(jìn)行學(xué)習(xí),MLGCN 算法[12]和FGCN 算法[13]等通過構(gòu)建多標(biāo)簽圖模型,并利用圖模型中的邊定義標(biāo)簽共現(xiàn)關(guān)系。這些方法建模的標(biāo)簽關(guān)系利用了標(biāo)簽相關(guān)信息進(jìn)行輔助分類,但是泛化性和類別分類能力不平衡,有待改進(jìn)。
針對現(xiàn)有方法存在的一些問題,如MLGCN算法[12]在構(gòu)建多標(biāo)簽關(guān)系時,只考慮到標(biāo)簽統(tǒng)計信息,容易造成標(biāo)簽關(guān)系過擬合問題;FGCN 算法[13]在對標(biāo)簽關(guān)系模型進(jìn)行更新時,只使用標(biāo)簽信息,沒有利用到圖像特征信息,使得構(gòu)建的標(biāo)簽關(guān)系無法有效輔助圖像特征分類。本文提出基于動態(tài)圖的多層級注意力(Multi Level Attention based Dynamic Graph,MLADG)算法,通過結(jié)合基于知識先驗和標(biāo)簽共現(xiàn)相關(guān)性建立的圖模型進(jìn)行標(biāo)簽信息和圖像特征融合,并采用圖注意力動態(tài)更新機(jī)制進(jìn)行模型學(xué)習(xí)。
本節(jié)主要介紹圖像多標(biāo)簽分類算法MLADG,算法的主要框架包括通過多尺度多通道圖像注意力機(jī)制學(xué)習(xí)圖像特征,標(biāo)簽語義引導(dǎo)注意力機(jī)制融合標(biāo)簽語義,通過在共現(xiàn)關(guān)系和先驗知識上的標(biāo)簽圖模型結(jié)構(gòu),動態(tài)更新捕捉圖像特征和標(biāo)簽之間關(guān)系。圖1 為MLADG 模型整體架構(gòu)示意圖(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版)。
多標(biāo)簽分類問題中標(biāo)簽間的相互關(guān)系包含多標(biāo)簽分類的有效輔助信息。對于給定圖像I的標(biāo)簽序列L=[l1,l2,…,ln],標(biāo)簽序列中任一標(biāo)簽li通過詞嵌入層的權(quán)重矩陣W獲得對應(yīng)的低維表征向量ei。標(biāo)簽詞語通常具有多種詞性和詞義,標(biāo)簽語義嵌入重點(diǎn)關(guān)注標(biāo)簽在詞嵌入模型中所具有的名詞詞性代表的語義。通過Glove 模型獲得圖像標(biāo)簽詞語義信息。定義圖像多標(biāo)簽共現(xiàn)關(guān)系圖模型Gs={Vs,Es},其中節(jié)點(diǎn)關(guān)系集合Vs∈{νs1,νs2,…,νsc}表示嵌入的標(biāo)簽特征信息;邊集合為Es∈{es1,es2,…,esc}為圖像多標(biāo)簽間共現(xiàn)關(guān)系,包含與每條邊相關(guān)非負(fù)權(quán)值。對于其中一條邊eij的值由pij=P(νi|νj)確定,即當(dāng)標(biāo)簽lj標(biāo)記情況下標(biāo)簽li同時進(jìn)行標(biāo)記。同理,pji表示當(dāng)標(biāo)簽li標(biāo)記的情況下標(biāo)簽lj同時標(biāo)記的概率。
標(biāo)簽共現(xiàn)圖通過統(tǒng)計標(biāo)簽共現(xiàn)次數(shù),可以有效學(xué)習(xí)到標(biāo)簽的分布情況。但標(biāo)簽共現(xiàn)圖受訓(xùn)練集數(shù)據(jù)分布影響很大,可能同時存在共現(xiàn)次數(shù)較多的標(biāo)簽關(guān)系,造成頻率偏差,使得模型分類準(zhǔn)確性受到數(shù)據(jù)分布不均衡的影響。為此,除共現(xiàn)關(guān)系圖外,借助知識圖譜ConceptNet[14]信息構(gòu)建知識先檢驗關(guān)系圖Gk={Vk,Ek},其中節(jié)點(diǎn)集合Vk∈{νk1,νk2,…,νkc}為嵌入的標(biāo)簽語義特征,邊集合Ek∈{ek1,ek2,…,ekc}為知識圖譜中標(biāo)簽相關(guān)性。ConceptNet 中各個標(biāo)簽知識實(shí)體通過多元組形式構(gòu)成,將各個標(biāo)簽在知識圖譜中同一元組的數(shù)量占該實(shí)體全部元組比重作為邊權(quán)重。
對于構(gòu)建的標(biāo)簽共現(xiàn)圖Gs和標(biāo)簽知識圖Gk,分別對其邊權(quán)重矩陣進(jìn)行標(biāo)準(zhǔn)化后得到設(shè)定圖融合參數(shù)λ∈(0,1),最終得到的多標(biāo)簽信息融合圖的計算式如式(1)所示:
多標(biāo)簽圖像數(shù)據(jù)集I={i1,i2,…,in}中圖片i所包含的圖像特征空間信息與標(biāo)簽信息空間存在映射關(guān)系。但在圖像中,真正對確定其標(biāo)簽有幫助的特征信息只是圖像局部的關(guān)鍵特征信息,除此之外還存在對確定圖像標(biāo)簽類別存在干擾的噪聲信息。通過多尺度多通道圖像特征注意力模塊在不同特征尺度和維度上對每個標(biāo)簽語義對應(yīng)的重點(diǎn)信息進(jìn)行提取,標(biāo)簽映射注意力模塊負(fù)責(zé)捕捉標(biāo)簽語義信息和圖像特征信息相關(guān)性。
2.2.1 多通道注意力模塊
給定的多標(biāo)簽圖像中不同標(biāo)簽所對應(yīng)的圖像區(qū)域目標(biāo)大小不同,占據(jù)更大圖像區(qū)域的標(biāo)簽可以提供更多的圖像特征信息。通過進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),多標(biāo)簽對應(yīng)的圖像特征也分布在特征空間的各個通道。選取殘差網(wǎng)絡(luò)ResNet 作為圖像特征提取的主干神經(jīng)網(wǎng)絡(luò),將殘差網(wǎng)絡(luò)不同層次卷積層Conv1、Conv2、Conv3 的輸出特征V1、V2、V3作為多尺度注意力的輸入,其中Conv1 為ResNet 中第1 個BottleNeck模塊最后一層卷積層,Conv2 為ResNet 中第2 個BottleNeck 最后一層卷積層,Conv3 為ResNet 中第3 個BottleNeck 最后一層卷積層。相應(yīng)的V1表示較淺層特征信息,V2和V3分別表示中間層和深層特征信息。此外,對于每一層圖像特征,通過多通道分組注意力模塊得到圖像通道特征注意力A1、A2、A3,再通過softmax 函數(shù)獲得歸一化后的注意力信息A′1、,最后圖像I對應(yīng)的特征表示如式(2)所示:
圖像I經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)特征提取后得到的特征空間為X∈RH×W×C,其中:H和W分別表示特征尺度的高和寬;D表示特征空間的通道數(shù)。對于某個特定的類別lc通過多通道注意力機(jī)制獲得其相應(yīng)注意力權(quán)重信息ac,將權(quán)重信息和特征空間進(jìn)行點(diǎn)積運(yùn)算可以獲得加權(quán)后的特征信息。對于全部類別的注意力信息空間A∈H×W,通過注意力學(xué)習(xí)后得到的圖像信息表征如式(3)所示:
通過C個1×1 卷積對特征空間X∈RH×W×D進(jìn)行降維至X′∈RH×W×C,對X′中第ci個通道內(nèi)特征進(jìn)行注意力加權(quán)為加權(quán)處理后 的ci通道特征,μx和σx分別為X特征空間中特征信息的均值和方差。的表達(dá)式如式(4)所示:
隨后通過設(shè)置特征恢復(fù)參數(shù)γ和β生成注意力權(quán)重,表達(dá)式如式(5)所示:
其中:aci為特征通道ci中學(xué)習(xí)到的注意力權(quán)重信息。
2.2.2 標(biāo)簽引導(dǎo)模塊
為促進(jìn)標(biāo)簽語義特征和圖像特征的融合,更好地學(xué)習(xí)圖像特征的標(biāo)簽意義,對于嵌入學(xué)習(xí)到的標(biāo)簽lc的標(biāo)簽詞語義ec,通過特征向量余弦相似度的計算捕捉標(biāo)簽語義和圖像特征對應(yīng)關(guān)系,可以得出標(biāo)簽k在特征ν的位置i處的注意力
2.2.3 動態(tài)特征圖融合更新
標(biāo)簽共現(xiàn)關(guān)系圖和知識先驗圖注重于標(biāo)簽相關(guān)性和標(biāo)簽語義知識的挖掘,圖模型的構(gòu)建依賴于靜態(tài)的標(biāo)簽統(tǒng)計信息和知識信息。為利用圖像信息對圖模型進(jìn)行更新,本文采取基于圖注意力[15]模式的動態(tài)特征融合圖更新模塊。具體實(shí)現(xiàn)方式:標(biāo)簽融合圖最后一層輸出Gf和多尺度注意力模塊輸出特征Vf進(jìn)行Concat 融合,得到動態(tài)圖模型的輸入信息hi。
之后,通過如式(9)所示的圖注意力公式計算得出動態(tài)特征融合圖注意力神經(jīng)網(wǎng)絡(luò)中注意力系數(shù)αij:
在模型訓(xùn)練的過程中,不同批次數(shù)據(jù)的輸入提供動態(tài)的圖像信息,通過對多尺度模塊輸出特征的動態(tài)變化更新圖注意力層的輸入,使得模型在捕捉多標(biāo)簽相關(guān)性的同時保持對圖像特征信息的敏感性。
為驗證本文算法的有效性,選取2 個數(shù)據(jù)集進(jìn)行實(shí)驗,并和相關(guān)算法進(jìn)行對比。實(shí)驗采用ResNet101[16]模型作為圖像特征提取器,在8×1 080 ti顯卡服務(wù)器訓(xùn)練,使用的優(yōu)化器為SGD,動量參數(shù)設(shè)置為0.9,初始學(xué)習(xí)率為0.01,訓(xùn)練周期為100,特征融合參數(shù)λ設(shè)置為0.5。
圖像多標(biāo)簽分類評價指標(biāo)最常用的指標(biāo)為平均均值精度(mean Average Precision,mAP),同時也會采用平均每類精度(Class Precision,CP)、平均每類召回(Class Recall,CR)、平均每類(Class F1,CF1)以及整體平均精度(Overall Precision,OP)、整體平均召回(Overall Recall,OR)、整體平 均(Overall F1,OF1)。相關(guān)表達(dá)式分別如式(11)~式(16)所示。
使用VOC-2007[17]和COCO-2014[18]數(shù)據(jù)集。其中,VOC-2007 數(shù)據(jù)集包括Person、Animal、Vehicle 等20 個標(biāo)簽類別,分 為train、val、test 這3 部分,共有9 963 張圖片;COCO-2014 數(shù)據(jù)集是使用最為廣泛的圖像數(shù)據(jù)集之一,包含共80 現(xiàn)實(shí)場景常見類別,82 783 張訓(xùn)練圖片,40 775 張測試圖片。
為評估本文算法的有效性,選取ResNet101[16]、CNN-RNN[11]、RMIC[19]、MLGCN[12]、F-GCN[20]5 種算法進(jìn)行對比實(shí)驗分析。
ResNet101 算法通過設(shè)置殘差模塊解決多層神經(jīng)網(wǎng)絡(luò)隨網(wǎng)絡(luò)深度增加帶來的梯度彌散問題,ResNet101 是其中神經(jīng)網(wǎng)絡(luò)共101 層的版本。CNNRNN 算法通過卷積神經(jīng)網(wǎng)絡(luò)特征提取器和序列神經(jīng)網(wǎng)絡(luò)的結(jié)合,建立多標(biāo)簽序列捕捉多標(biāo)簽相關(guān)性,為圖像分類提供輔助信息。RMIC 算法基于強(qiáng)化學(xué)習(xí)中原始多標(biāo)簽問題框架,通過組合圖像特征和前序標(biāo)簽信息作為下一輪標(biāo)簽預(yù)測的新狀態(tài)。MLGCN 算法通過以標(biāo)簽為節(jié)點(diǎn),標(biāo)簽相關(guān)性為邊構(gòu)建圖模型,邊權(quán)重為標(biāo)簽共現(xiàn)概率,使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖模型更新。F-GCN 算法提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的快速模型,利用多模態(tài)分解雙線性池化融合圖像信息和標(biāo)簽嵌入信息,以端到端方式進(jìn)行訓(xùn)練。
不同算法在各個數(shù)據(jù)集的實(shí)驗結(jié)果如表1、表2所示。其中表1 為VOC-2007 數(shù)據(jù)集下的實(shí)驗結(jié)果,表2 為COCO-2014 數(shù)據(jù)集下的實(shí)驗結(jié)果,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表1 不同算法在VOC-2007 數(shù)據(jù)集下的實(shí)驗結(jié)果對比Table1 Comparison of experimental results of different algorithms on VOC-2007 data set %
表2 不同算法在COCO-2014 數(shù)據(jù)集下的實(shí)驗結(jié)果對比Table2 Comparison of experimental results of different algorithms on COCO-2014 data set %
從表1、表2 中可得以下結(jié)論:
1)本文所提MLADG 算法在VOC-2007 和COCO-2014 兩個數(shù)據(jù)集中,在mAP、CP、OP 等指標(biāo)上超過另外5 個對比算法。MLADG 算法在圖像多標(biāo)簽分類的任務(wù)上有較好的表現(xiàn)。
2)由于MLGCN 算法相對于Resnet101 算法增加了對于標(biāo)簽共現(xiàn)數(shù)據(jù)信息的學(xué)習(xí),因此指標(biāo)有明顯提升。但使用標(biāo)簽共現(xiàn)關(guān)系,可能導(dǎo)致數(shù)量較少的標(biāo)簽種類被正確分類的概率降低,而數(shù)量較多的標(biāo)簽種類更易被分類。本文算法能夠增強(qiáng)對圖像特征和標(biāo)簽相關(guān)性的關(guān)系學(xué)習(xí)。
3)F-GCN 算法相對于MLGCN 算法增加標(biāo)簽語義信息和圖像特征信息的融合,有助于標(biāo)簽語義指導(dǎo)圖像特征的學(xué)習(xí),而MLADG 算法通過動態(tài)學(xué)習(xí),能夠更好地利用圖像特征更新圖模型。
為驗證MLADG 算法相關(guān)模型設(shè)置的有效性,將原有模型中的各結(jié)構(gòu)通過以下設(shè)置:
1)多尺度多通道注意力驗證。移除多尺度多通道注意力模塊,直接使用ResNet101 算法提取的特征進(jìn)行后續(xù)運(yùn)算,其他保持不變。
2)標(biāo)簽引導(dǎo)注意力驗證。移除標(biāo)簽引導(dǎo)注意力模塊,其他保持不變。
3)動態(tài)圖更新驗證。移除動態(tài)特征圖更新機(jī)制,只使用圖注意力網(wǎng)絡(luò),其他保持不變。
圖2 為MLADG 算法中各結(jié)構(gòu)有效性消融實(shí)驗的結(jié)果。由圖2 可知,有效性實(shí)驗中各結(jié)構(gòu)的移除均導(dǎo)致圖像多標(biāo)簽分類各指標(biāo)的下降,說明MLADG 中各結(jié)構(gòu)對于提高圖像多標(biāo)簽分類效果均有正向作用,且各結(jié)構(gòu)能有效協(xié)同。其中多尺度多通道注意力模塊對mAP、CP、OP 的影響最大,說明該模塊對圖像中重點(diǎn)信息注意力的學(xué)習(xí)有效。此外,移除標(biāo)簽引導(dǎo)注意力模塊指標(biāo)下降,說明該模塊對標(biāo)簽信息和圖像特征的融合有效引導(dǎo)了圖像信息的學(xué) 習(xí)。相 比于MLGCN[12]等算法,MLADG 算法將標(biāo)簽關(guān)系圖和圖像特征信息分開學(xué)習(xí),動態(tài)特征圖能夠?qū)D像特征學(xué)習(xí)和標(biāo)簽關(guān)系建模結(jié)合,在mAP 指標(biāo)上相對于靜態(tài)更新的標(biāo)簽關(guān)系圖提升了1.2%。
圖2 MLADG 模塊消融實(shí)驗Fig.2 Ablation experiment of MLADG module
對MLADG 建模的多標(biāo)簽信息關(guān)系圖中標(biāo)簽關(guān)系進(jìn)行可視化,如圖3 所示。對于兩個標(biāo)簽li和lj,第i行第j列的示意圖方格表示為pi,j=P(li|lj),顏色越深表示標(biāo)簽間相關(guān)性越強(qiáng)。
圖3 多標(biāo)簽相關(guān)性可視化示意圖Fig.3 Visualization diagrammatic sketch of multi label correlation
由圖3 中可知,MLADG 算法能夠?qū)D像多標(biāo)簽中標(biāo)簽相關(guān)性進(jìn)行清晰有效地建模。
為證明MLADG 算法中相關(guān)參數(shù)的有效性,本文在VOC-2007 數(shù)據(jù)集下進(jìn)行不同參數(shù)驗證實(shí)驗。
在MLADG 算法中,參數(shù)λ為標(biāo)簽共現(xiàn)圖和知識先驗圖平衡參數(shù),參數(shù)k為圖注意力神經(jīng)網(wǎng)絡(luò)層數(shù)。在參數(shù)敏感性實(shí)驗中,將λ在0~1 間進(jìn)行遍歷,將圖注意力層數(shù)由1~6 進(jìn)行遍歷,實(shí)驗其他參數(shù)設(shè)置和硬件環(huán)境配置與對比實(shí)驗相同。
圖4和圖5分別為參數(shù)k和參數(shù)λ驗證實(shí)驗的結(jié)果,由圖4 可知,當(dāng)k=2 時,本文所提MLADG 算法達(dá)到最好的效果。這可能是當(dāng)k=1 時圖注意力層過淺,無法有效建模多標(biāo)簽關(guān)系,而當(dāng)k過大時可能存在標(biāo)簽特征嵌入過度平滑的問題,導(dǎo)致模型測試指標(biāo)的下降。由圖5 可知,隨著參數(shù)λ增加,融合多標(biāo)簽圖模型中標(biāo)簽共現(xiàn)圖模型所占權(quán)重不斷增大,mAP 指標(biāo)逐漸上升,直到λ 達(dá)到0.7 后開始下降。這可能是因為標(biāo)簽共現(xiàn)圖模型中包含更豐富的標(biāo)簽相關(guān)性信息,但由于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布差異性以及數(shù)據(jù)集中不同類別圖像樣本數(shù)量不均衡分布對模型訓(xùn)練的影響,導(dǎo)致分類器在不同類別圖像樣本中的分類能力偏差較大,整體指標(biāo)降低。因此在參數(shù)λ過大時,融合多標(biāo)簽圖模型中標(biāo)簽相關(guān)性信息容易出現(xiàn)不平衡的現(xiàn)象。
圖4 k 參數(shù)在VOC-2007 數(shù)據(jù)集上的效果驗證Fig.4 Effect of parameter k in VOC-2007 data set
圖5 λ 參數(shù)在VOC-2007 數(shù)據(jù)集上的效果驗證Fig.5 Effect of parameter λ in VOC-2007 dataset
在圖像多標(biāo)簽分類中,根據(jù)標(biāo)簽關(guān)系進(jìn)行建模存在標(biāo)簽與圖像間學(xué)習(xí)關(guān)聯(lián)性弱的問題,且容易導(dǎo)致過擬合。本文提出一種基于多層次注意力和動態(tài)圖注意力機(jī)制的圖像多標(biāo)簽分類算法MLADG。通過構(gòu)建多標(biāo)簽信息圖模型建立標(biāo)簽關(guān)系,將使用多層次注意力獲取的多層次圖像特征信息與標(biāo)簽語義信息進(jìn)行融合,構(gòu)建標(biāo)簽語義和圖像特征相關(guān)性,并將動態(tài)圖模型引入圖像信息中以更新模型。實(shí)驗結(jié)果表明,在相同測試環(huán)境下,與MLGCN、F-GCN 等圖像多標(biāo)簽分類算法相比,本文算法在mAP、CP、OP 等指標(biāo)上均取得了較好效果。下一步將進(jìn)行更高階維度的標(biāo)簽相關(guān)性學(xué)習(xí),如多個標(biāo)簽間連續(xù)相關(guān)性的學(xué)習(xí),并從標(biāo)簽互斥角度對標(biāo)簽關(guān)系的定義進(jìn)行深度挖掘。