厙向陽(yáng),車(chē)子豪,董立紅
(西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710054)
網(wǎng)絡(luò)技術(shù)的快速發(fā)展促進(jìn)了數(shù)字圖像的傳播,使得用戶可以通過(guò)互聯(lián)網(wǎng)的檢索工具搜索訪問(wèn)感興趣的圖像資源。但互聯(lián)網(wǎng)的檢索工具無(wú)法理解圖像內(nèi)容和語(yǔ)義,從而無(wú)法確定哪些圖像滿足查詢要求,在這種情況下,圖像標(biāo)注是一個(gè)必需的過(guò)程[1]。然而互聯(lián)網(wǎng)中圖像的數(shù)量呈爆炸式增長(zhǎng),僅靠人工標(biāo)注是無(wú)法滿足需求的。因此,圖像標(biāo)注轉(zhuǎn)向?qū)で髾C(jī)器學(xué)習(xí)算法來(lái)自動(dòng)完成。目前圖像自動(dòng)標(biāo)注方法可分為兩類:基于生成模型的方法[2-4]計(jì)算已標(biāo)注圖像特征和標(biāo)注詞的聯(lián)合概率分布,然后使用該模型計(jì)算每個(gè)標(biāo)簽匹配待標(biāo)注圖像的概率;基于判別模型的方法[5-9]將圖像標(biāo)注問(wèn)題視為分類問(wèn)題,使用圖像的視覺(jué)特征訓(xùn)練分類器,通過(guò)訓(xùn)練的分類器將待標(biāo)注圖像劃分到一個(gè)或多個(gè)標(biāo)簽類別中。近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的判別模型為圖像標(biāo)注提供了多種方法。文獻(xiàn)[7]提出了CNN-MSE方法,通過(guò)改進(jìn)均方誤差函數(shù)來(lái)訓(xùn)練CNN網(wǎng)絡(luò)。文獻(xiàn)[8]在CNN模型中加入多標(biāo)簽平滑單元構(gòu)成CNN-MLSU模型。深入分析現(xiàn)有工作,發(fā)現(xiàn)基于CNN的圖像自動(dòng)標(biāo)注研究仍面臨兩個(gè)問(wèn)題:①CNN模型中,通過(guò)不斷降采樣過(guò)程使得深層的卷積層具有較大的感受野,如果感受野遠(yuǎn)大于物體的大小,那么很容易忽略小物體的特征,使圖片中較小的物體不容易被標(biāo)注和學(xué)習(xí)。②由于圖像自動(dòng)標(biāo)注數(shù)據(jù)集中訓(xùn)練樣本不足且標(biāo)注類別之間數(shù)量差異較大,使得訓(xùn)練出來(lái)的模型泛化性能較差。為解決以上問(wèn)題,本文采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造端到端的圖像標(biāo)注模型,選擇VGG16作為基網(wǎng)絡(luò),在其基礎(chǔ)上引入特征融合機(jī)制融合不同卷積層提取的多尺度特征,最后在網(wǎng)絡(luò)訓(xùn)練時(shí)使用代價(jià)敏感損失函數(shù),來(lái)緩解標(biāo)簽分布不平衡引發(fā)的問(wèn)題,進(jìn)一步提升網(wǎng)絡(luò)的性能。
卷積神經(jīng)網(wǎng)絡(luò)由4個(gè)部分組成:輸入層、特征提取層、全連接層和分類器。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(1)輸入層。接收預(yù)處理后的圖像數(shù)據(jù)。
(2)卷積層。假設(shè)X為原始圖像,X0為預(yù)處理后輸入網(wǎng)絡(luò)的圖像。Xi為第i層卷積特征圖,由卷積核和偏置項(xiàng)計(jì)算出,卷積計(jì)算過(guò)程如下式
Xi=f(Xi-1?wi+bi)
(1)
式中:wi表示第i層卷積中卷積核的權(quán)重矩陣;bi表示第i層卷積的偏置項(xiàng);?表示2D卷積運(yùn)算操作;f(·) 表示激活函數(shù),一般采用線性整流函數(shù)(ReLU),公式如下
(2)
(3)池化層。池化層也稱子采樣層,通常使用平均池化(mean pooling)或最大池化(max pooling)。卷積操作后為了減少特征維數(shù),降低數(shù)據(jù)復(fù)雜度,對(duì)特征進(jìn)行池化操作,通過(guò)對(duì)下采樣子區(qū)域取平均值或最大值來(lái)對(duì)特征圖進(jìn)行下采樣。特征提取層通過(guò)對(duì)特征圖重復(fù)執(zhí)行卷積和池化操作,來(lái)遞歸提取高層特征。
(4)全連接層。在卷積神經(jīng)網(wǎng)絡(luò)的最后一般會(huì)連接全連接層來(lái)得到最后的分類結(jié)果,經(jīng)過(guò)特征提取層對(duì)圖像數(shù)據(jù)進(jìn)行非線性特征提取后,輸入到全連接層對(duì)特征進(jìn)行聚合。將特征提取層看成自動(dòng)提取圖像特征的過(guò)程,提取完特征以后,仍需要通過(guò)全連接層來(lái)完成分類的任務(wù)。
(5)分類器。常用的分類器有Softmax分類器和Sigmoid分類器,分類器可以將最后一層全連接層的輸出轉(zhuǎn)換為當(dāng)前樣本屬于每類標(biāo)簽的概率分布情況。
Inception結(jié)構(gòu)僅是簡(jiǎn)單的對(duì)不同尺度的特征圖進(jìn)行融合,因此,文獻(xiàn)[10]設(shè)計(jì)了Selective kernel(SK)網(wǎng)絡(luò)將多分支網(wǎng)絡(luò)結(jié)構(gòu)與軟注意力機(jī)制相結(jié)合,有選擇地融合不同尺度的特征信息,使網(wǎng)絡(luò)更好獲取不同感受野提取的信息。SK網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要包含Split、Fuse和Select這3個(gè)操作。
圖2 SK網(wǎng)絡(luò)結(jié)構(gòu)
Split:使用不同尺寸的卷積核對(duì)輸入特征圖X進(jìn)行特征提取,得到特征圖U1和U2。
Fuse:通過(guò)對(duì)特征圖U1、U2進(jìn)行逐元素相加,然后進(jìn)行全局平均池化操作得到特征圖S。將特征圖S輸入全連接層進(jìn)行線性變換,提取通道維度的信息,具體操作如下所示
Z=δ(β(WS))
(3)
式中:δ(·) 為ReLU激活函數(shù),β(·) 為批標(biāo)準(zhǔn)化操作。W∈Rd×c表示全連接層的參數(shù),d為經(jīng)過(guò)全連接層后輸出的維度。
Select:特征Z輸入全連接層,再使用Softmax函數(shù)來(lái)進(jìn)行歸一化得到U1,U2的通道權(quán)重a和b。然后將通道權(quán)重乘以對(duì)應(yīng)的U1,U2得到A1,A2。最后,將A1,A2逐元素相加得到最終的融合特征A。
(4)
(5)
多標(biāo)簽損失(multi label loss,ML Loss)函數(shù)定義為
(6)
式中:N表示樣本數(shù)量;C表示標(biāo)簽類別數(shù);yij∈[0,1] 表示網(wǎng)絡(luò)預(yù)測(cè)第i個(gè)樣本中包含第j個(gè)標(biāo)簽的概率,yij由下式計(jì)算
(7)
式中:xj為網(wǎng)絡(luò)模型最后一層第j個(gè)神經(jīng)元的輸出。
融合不同卷積層的特征可以提高網(wǎng)絡(luò)的學(xué)習(xí)能力,低層的卷積特征具有較多的細(xì)節(jié)特征,但是噪聲多;高層卷積特征語(yǔ)義信息豐富,但分辨率低,易忽略細(xì)小特征。直接將高低層特征連接在一起來(lái)融合特征會(huì)引入大量無(wú)用特征,增加網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,影響網(wǎng)絡(luò)的性能。因此,本文借鑒SK網(wǎng)絡(luò)的思想去融合不同層提取的多尺度特征,使得融合的特征能夠更加全面的描述圖像的內(nèi)容,并改進(jìn)損失函數(shù)引入代價(jià)敏感學(xué)習(xí),使得不同類型標(biāo)簽的誤分類代價(jià)具有較大差異。
首先將預(yù)處理后的樣本輸入到網(wǎng)絡(luò)模型中,利用預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)模型的卷積層進(jìn)行特征提取生成特征圖;其次將得到的特征圖輸入到采樣層進(jìn)行維度調(diào)整,再輸入L2歸一化層;然后特征融合層融合不同卷積層提取的多尺度特征;最后連接融合特征與全連接層的神經(jīng)元,通過(guò)分類器得到每個(gè)標(biāo)簽標(biāo)注樣本的概率,提取前K個(gè)概率最大的標(biāo)簽作為標(biāo)注結(jié)果。訓(xùn)練過(guò)程中使用代價(jià)敏感損失函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,經(jīng)過(guò)多次訓(xùn)練獲得最終的圖像標(biāo)注模型。
本文對(duì)損失函數(shù)進(jìn)行了修改加入權(quán)重敏感系數(shù)和錯(cuò)分敏感系數(shù),設(shè)計(jì)代價(jià)敏感的多標(biāo)簽損失(cost sensitive multi label loss,CSML Loss)函數(shù),計(jì)算公式如下
(8)
(9)
式中:Smin表示數(shù)據(jù)集中出現(xiàn)頻率最低的標(biāo)簽的數(shù)量;Sj表示數(shù)據(jù)集中第j個(gè)標(biāo)注詞出現(xiàn)的頻率;β表示權(quán)重控制系數(shù),通過(guò)調(diào)節(jié)β值可以控制不同標(biāo)簽在計(jì)算損失值時(shí)的權(quán)重。
式(8)中的錯(cuò)分敏感系數(shù)用來(lái)控制難易標(biāo)簽的權(quán)重,可以看出當(dāng)預(yù)測(cè)值yij越接近真實(shí)值時(shí),錯(cuò)分敏感系數(shù)值越小。通過(guò)降低簡(jiǎn)單標(biāo)簽在計(jì)算損失值時(shí)的權(quán)重,從而降低簡(jiǎn)單標(biāo)簽的損失值,使得網(wǎng)絡(luò)把訓(xùn)練的重點(diǎn)放在難標(biāo)注的標(biāo)簽上。權(quán)重敏感系數(shù)用來(lái)控制不同類別標(biāo)簽的權(quán)重,通過(guò)提高低頻標(biāo)簽的權(quán)重,從而增加低頻標(biāo)簽的損失值,使得損失函數(shù)把訓(xùn)練的重點(diǎn)放在低頻標(biāo)簽上。因此,低頻標(biāo)簽和難標(biāo)注的標(biāo)簽在計(jì)算損失值時(shí)將被賦予較大的權(quán)重,而高頻標(biāo)簽和易標(biāo)注的標(biāo)簽將被賦予較小的權(quán)重。
2.3.1 模型框架
為了更好地解決圖像自動(dòng)標(biāo)注領(lǐng)域存在的問(wèn)題,本文在VGG16模型基礎(chǔ)上設(shè)計(jì)了新的網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。網(wǎng)絡(luò)模型包含有13層卷積層、4層最大池化層、3層采樣層、1層特征融合層和3層全連接層。卷積層使用的是VGG16在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的參數(shù)進(jìn)行初始化。本文網(wǎng)絡(luò)主要是在VGG16框架中添加特征融合層來(lái)融合高低卷積層提取的多尺度特征,從而提高網(wǎng)絡(luò)的標(biāo)注性能。
圖3 本文算法網(wǎng)絡(luò)結(jié)構(gòu)
為保證卷積特征在輸入特征融合層時(shí)在通道維度上相匹配,采樣層使用1×1的卷積在通道維度上進(jìn)行降維或者升維操作。由于不同卷積層特征的激活值不同,直接對(duì)多尺度特征進(jìn)行操作,會(huì)導(dǎo)致網(wǎng)絡(luò)無(wú)法穩(wěn)定訓(xùn)練。因此,在輸入特征融合層前進(jìn)行L2歸一化操作,對(duì)卷積特征進(jìn)行歸一化。
2.3.2 特征融合層
特征融合層融合操作主要分為3個(gè)部分:①?gòu)木矸e特征中提取多尺度特征;②改進(jìn)SK網(wǎng)絡(luò)融合特征;③融合層融合多尺度特征。
使用自適應(yīng)最大池化(adaptive max pool,Ada-MaxPool)操作提取多尺度特征,自適應(yīng)最大池化中輸入任意大小的特征圖,都能產(chǎn)生指定大小的輸出。因此,使用不同尺寸的自適應(yīng)最大池化操作就可以提取到不同尺度的圖像特征。自適應(yīng)最大池化首先需要根據(jù)輸出特征圖的大小計(jì)算濾波器的尺寸(Size)和步長(zhǎng)(Stride),然后將得到的尺寸和步長(zhǎng)輸入最大池化中提取特征,Size和Stride的計(jì)算公式如下
Stride=floor(inputSize÷outputSize)
(10)
Size=inputSize-(outputSize-1)×Stride
(11)
式中:floor(·) 為向下取整,inputSize為輸入特征的尺寸,outputSize為輸出特征的尺寸。
多尺度特征的提取過(guò)程如圖4所示,使用自適應(yīng)最大池化操作將圖中a×a×N的特征圖轉(zhuǎn)化為1×1×N、2×2×N、4×4×N的特征圖。將3層卷積層的特征都經(jīng)過(guò)自適應(yīng)最大池化層進(jìn)行多尺度特征提取,相同尺寸的特征輸入到改進(jìn)SK網(wǎng)絡(luò)中進(jìn)行融合。
圖4 多尺度特征提取
改進(jìn)SK網(wǎng)絡(luò)融合特征。如圖5所示,與原始的SK網(wǎng)絡(luò)相比,本文去掉了Split操作,改為直接輸入從不同卷積層中提取的多尺度特征。使用SK網(wǎng)絡(luò)不僅能在通道維度上加強(qiáng)重要特征并壓縮無(wú)用特征,還能根據(jù)不同層卷積特征的重要程度來(lái)融合特征,使得不同層提取出來(lái)的特征可以相互補(bǔ)充,并且該過(guò)程由網(wǎng)絡(luò)自主學(xué)習(xí)。該操作包含以下步驟:
圖5 改進(jìn)SK網(wǎng)絡(luò)結(jié)構(gòu)
(1)輸入相同尺寸的特征圖F1、F2、F3進(jìn)行對(duì)應(yīng)位置元素相加得到融合特征F。再對(duì)融合特征F=[f1,f2,…,fc] 在通道維度上進(jìn)行全局平均池化操作,得到代表每個(gè)通
道上全局信息的特征S∈R1×c, 計(jì)算公式如下所示
(12)
(2)特征S經(jīng)過(guò)兩層全連接層,第一層對(duì)特征S進(jìn)行降維得到特征圖Z∈R1×d; 第二層對(duì)特征圖Z進(jìn)行升維,然后使用Softmax函數(shù)激活,生成各層卷積特征的注意力權(quán)重a,b,e∈R1×c。 具體計(jì)算公式如下所示
Z=ReLU(W1S)
(13)
(14)
式中:W1∈Rd×c表示第一層全連接層的參數(shù),Wa、Wb、We∈Rc×d表示第二層全連接層的參數(shù)。
(3)根據(jù)計(jì)算的注意力權(quán)重對(duì)特征圖F1、F2、F3加權(quán)更新并融合,得到融合后的特征V=[v1,v2,…,vc], 如式(15)所示
V=a·F1+b·F2+e·F3
(15)
最終得到融合后尺寸為1×1×N、2×2×N、4×4×N的特征圖,并將3種不同尺度的特征輸入到融合層中。
融合多尺度特征。融合層結(jié)構(gòu)如圖6所示,先通過(guò)flatten操作將特征圖展開(kāi),scale操作對(duì)展開(kāi)后的特征使用不同的權(quán)重系數(shù)來(lái)進(jìn)行縮放,最后通過(guò)concat操作將多尺度特征連接起來(lái)輸入到全連接層。scale操作中的權(quán)重系數(shù)可以看作去除偏置項(xiàng)的神經(jīng)元,重要的特征設(shè)置較大的權(quán)重系數(shù),輔助特征設(shè)置較小的權(quán)重系數(shù),并且設(shè)置的權(quán)重系數(shù)可以在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中自適應(yīng)調(diào)節(jié),自動(dòng)更新不同融合特征的權(quán)重值。
圖6 融合層結(jié)構(gòu)
3.1.1 數(shù)據(jù)集
IAPR TC-12數(shù)據(jù)集包括19 627張圖片和291個(gè)標(biāo)注詞,其中17 665張圖片用于訓(xùn)練,1962張圖像用于測(cè)試。數(shù)據(jù)集涵蓋了運(yùn)動(dòng)、城市、風(fēng)景、動(dòng)物、建筑物和植物。訓(xùn)練集中平均每張圖片包含5.7個(gè)標(biāo)注,平均每個(gè)標(biāo)簽標(biāo)注347.7張圖片,最少標(biāo)注詞的訓(xùn)練樣本量只有44張,最多標(biāo)注詞的訓(xùn)練樣本量有4999張。
ESP game數(shù)據(jù)集包括20 770張圖片和268個(gè)標(biāo)注詞,其中18 689張圖片用于訓(xùn)練,2081張圖像用于測(cè)試。數(shù)據(jù)集涵蓋了徽標(biāo)、繪畫(huà)、風(fēng)景和個(gè)人肖像。訓(xùn)練集中平均每張圖片包含4.7個(gè)標(biāo)注,平均每個(gè)標(biāo)簽標(biāo)注326.7張圖片,最少標(biāo)注詞的訓(xùn)練樣本量只有18張,最多標(biāo)注詞的訓(xùn)練樣本量有4553張。
3.1.2 評(píng)價(jià)指標(biāo)
(1)平均準(zhǔn)確率P。計(jì)算數(shù)據(jù)集中每個(gè)標(biāo)簽正確預(yù)測(cè)占實(shí)際預(yù)測(cè)的比例,并根據(jù)該數(shù)據(jù)集中的標(biāo)簽類別數(shù)量進(jìn)行求和平均,計(jì)算公式如下
(16)
式中:N表示標(biāo)簽類別數(shù);Precision(yi)表示在數(shù)據(jù)集中正確預(yù)測(cè)標(biāo)簽yi的總數(shù);Prediction(yi)表示在數(shù)據(jù)集中預(yù)測(cè)標(biāo)簽yi的總數(shù)。
(2)平均召回率R。計(jì)算數(shù)據(jù)集中每個(gè)標(biāo)簽正確預(yù)測(cè)占真實(shí)標(biāo)注的比例,并根據(jù)該數(shù)據(jù)集中的標(biāo)簽類別數(shù)量進(jìn)行求和平均,計(jì)算公式如下
(17)
式中:N表示標(biāo)簽類別數(shù);Precision(yi)表示在數(shù)據(jù)集中正確預(yù)測(cè)標(biāo)簽yi的總數(shù);Ground(yi)表示在數(shù)據(jù)集中真實(shí)標(biāo)注標(biāo)簽yi的總數(shù)。
(3)綜合性能F1。由于平均召回率和平均準(zhǔn)確率都是重要的評(píng)價(jià)指標(biāo),只有當(dāng)平均召回率和平均準(zhǔn)確率都高時(shí),模型才有良好的性能。因此,需要計(jì)算F1值,以反映模型的綜合性能,計(jì)算公式如下
(18)
(4)N+指數(shù)。統(tǒng)計(jì)至少正確預(yù)測(cè)過(guò)1次的標(biāo)簽個(gè)數(shù),表示模型在數(shù)據(jù)集所有標(biāo)簽上的覆蓋性能,計(jì)算公式如下
(19)
式中:N表示總的樣本數(shù);Sgn(·)表示符號(hào)函數(shù)計(jì)算公式如下
(20)
實(shí)驗(yàn)基于Tensorflow深度學(xué)習(xí)框架,使用NVIDIA TITANXp GPU進(jìn)行計(jì)算,操作系統(tǒng)為Ubuntu16.04,編程語(yǔ)言為Python。訓(xùn)練中參數(shù)設(shè)置見(jiàn)表1。
表1 參數(shù)設(shè)置
3.3.1 實(shí)驗(yàn)方案
方案1:探究SK網(wǎng)絡(luò)中降維全連接層節(jié)點(diǎn)數(shù)d對(duì)網(wǎng)絡(luò)性能的影響。將降維全連接層節(jié)點(diǎn)數(shù)分別設(shè)置為32,64,128進(jìn)行對(duì)比實(shí)驗(yàn)。
方案2:損失函數(shù)比較。使用多標(biāo)簽損失(ML Loss)函數(shù)和代價(jià)敏感的多標(biāo)簽損失(CSML Loss)函數(shù)訓(xùn)練本文設(shè)計(jì)的網(wǎng)絡(luò)與原始VGG16進(jìn)行對(duì)比實(shí)驗(yàn)。
方案3:本文方法與其它圖像標(biāo)注方法進(jìn)行對(duì)比。與近些年提出的先進(jìn)方法進(jìn)行對(duì)比,涉及方法包括:KCCA、2PKNN_ML、SEM、SNDF、ADA、CNN-Regression、CNN-MSE和CNN-MLSU。
3.3.2 結(jié)果分析
方案1:降維全連接層節(jié)點(diǎn)數(shù)對(duì)網(wǎng)絡(luò)性能影響的實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 不同融合方案性能對(duì)比
從表2可以看出,當(dāng)降維全連接層節(jié)點(diǎn)數(shù)為32和64時(shí),網(wǎng)絡(luò)都可以取得較優(yōu)的性能;當(dāng)降維全連接層節(jié)點(diǎn)數(shù)為128時(shí),網(wǎng)絡(luò)性能較差。節(jié)點(diǎn)數(shù)在取32時(shí),不僅能夠保證網(wǎng)絡(luò)性能,而且還可以減少網(wǎng)絡(luò)的參數(shù)量。因此,本文網(wǎng)絡(luò)將降維全連接層節(jié)點(diǎn)數(shù)d設(shè)置為32。
方案2:損失函數(shù)比較方案的實(shí)驗(yàn)結(jié)果見(jiàn)表3、表4。
表3 損失函數(shù)性能對(duì)比(IAPR TC-12)
表4 損失函數(shù)性能對(duì)比(ESP game)
對(duì)表3、表4分析可以得出,代價(jià)敏感多標(biāo)簽損失(CSML Loss)函數(shù)相比于多標(biāo)簽損失(ML Loss)函數(shù),在IAPR TC-12數(shù)據(jù)集和ESP game數(shù)據(jù)集上均有較好表現(xiàn),尤其在平均召回率和N+指數(shù)上有明顯提升。N+指數(shù)和平均召回率可以表明本文提出的損失函數(shù)能夠緩解訓(xùn)練中標(biāo)注類別不平衡對(duì)網(wǎng)絡(luò)的影響,提升對(duì)低頻詞的標(biāo)注性能。表中數(shù)據(jù)還可以分析出本文改進(jìn)的網(wǎng)絡(luò)相比于原始VGG16取得了更好的效果,并且本文網(wǎng)絡(luò)的參數(shù)僅為0.77億個(gè),遠(yuǎn)小于VGG16中1.35億個(gè)參數(shù)。
方案3:對(duì)比不同圖像標(biāo)注方法在IAPR TC-12和ESP game數(shù)據(jù)集上的平均準(zhǔn)確率P、平均召回率R和綜合性能F1。表5給出了本文方法與其它圖像標(biāo)注算法在IAPR TC-12 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比,表6給出了本文方法與其它圖像標(biāo)注算法在ESP game數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比。
表5 本文算法與其它圖像標(biāo)注方法實(shí)驗(yàn)結(jié)果性能對(duì)比(IAPR TC-12)
表6 本文算法與其它圖像標(biāo)注方法實(shí)驗(yàn)結(jié)果性能對(duì)比(ESP game)
通過(guò)表5可以看出,本文方法相比于最近提出的SEM方法,在平均召回率與平均準(zhǔn)確率上高出3個(gè)和4個(gè)百分點(diǎn);與同樣使用卷積神經(jīng)網(wǎng)絡(luò)的CNN-MLSU方法相比,本文方法在平均召回率和平均準(zhǔn)確率上高出4個(gè)和1個(gè)百分點(diǎn)。綜合來(lái)看本文方法在IAPR TC-12數(shù)據(jù)集上與其它的方法相比,雖然平均準(zhǔn)確率低于2PKNN_ML方法,但本文模型的平均召回率和綜合性能F1優(yōu)于其它方法。通過(guò)表6可以看出,在ESP game數(shù)據(jù)集上,本文提出的方法較其它方法在各項(xiàng)評(píng)價(jià)指標(biāo)上都有較好表現(xiàn),與較先進(jìn)的SEM方法相比,雖然在平均召回率上存在差距,但在平均準(zhǔn)確率上優(yōu)于SEM,在綜合評(píng)價(jià)指標(biāo)F1值上也不相上下。從整體來(lái)看本文提出的方法較其它方法在平均準(zhǔn)確率和平均召回率上都取得一個(gè)較好的結(jié)果,從而使得綜合性能F1與其它方法相比具有明顯的提升。
表7列出了本文方法在IAPR TC-12測(cè)試集上有代表性的標(biāo)注結(jié)果,每幅測(cè)試圖像根據(jù)本文方法給出的結(jié)果選擇概率最大的前5個(gè)標(biāo)簽作為圖像的標(biāo)注結(jié)果。其中表7的第一和第二個(gè)示例,場(chǎng)景簡(jiǎn)單且圖像中物體特征明顯,本文方法得出的標(biāo)注結(jié)果與真實(shí)標(biāo)簽匹配度高。在第二和第三個(gè)示例的標(biāo)注中“people”,“man”以及“house”,“building”是具有相近語(yǔ)義的標(biāo)注詞,本文方法雖然未能準(zhǔn)確預(yù)測(cè)出真實(shí)的標(biāo)簽,但預(yù)測(cè)出的標(biāo)簽同樣也符合圖像的語(yǔ)義。表中第三個(gè)示例,真實(shí)標(biāo)注顯然遺漏了標(biāo)簽“sky”,該標(biāo)簽在圖像中占據(jù)了很大的區(qū)域;在第四個(gè)示例中,“camera”和“hat”被識(shí)別標(biāo)注,但由于其在圖像中占據(jù)區(qū)域較小而被真實(shí)標(biāo)注忽略,事實(shí)上“camera”和“hat”也符合圖像本身的語(yǔ)義。表中第三、第四個(gè)示例中預(yù)測(cè)的新標(biāo)簽是對(duì)圖像中真實(shí)標(biāo)簽的擴(kuò)充,能夠更加精確地描述圖像的語(yǔ)義信息。
表7 IAPR TC-12數(shù)據(jù)集上的預(yù)測(cè)效果
本文在VGG16的基礎(chǔ)上加入特征融合機(jī)制,融合多尺度特征提高對(duì)圖像中不同尺度對(duì)象的標(biāo)注能力。同時(shí),引入代價(jià)敏感損失函數(shù),在一定程度上提升了低頻標(biāo)簽的召回
率,有效解決了訓(xùn)練過(guò)程中標(biāo)簽類別不平衡引發(fā)的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在標(biāo)注性能上有所提升,優(yōu)于其它經(jīng)典方法和近年來(lái)所提出的先進(jìn)方法。但本文方法未探究標(biāo)注詞之間的關(guān)系,無(wú)法通過(guò)標(biāo)注詞之間的關(guān)系來(lái)改善標(biāo)注結(jié)果。如何挖掘標(biāo)注詞之間錯(cuò)綜復(fù)雜的關(guān)系,是未來(lái)研究的關(guān)鍵問(wèn)題。