李雯莉,張素蘭,張繼福,胡立華
(太原科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,太原 030024)
E-mail:zhsulan@126.com
網(wǎng)絡(luò)圖像數(shù)據(jù)的爆炸性增長以及圖像標記的主觀性和隨意性,造成了大量圖像的標簽缺失和語義噪聲,不能很好地描述圖像內(nèi)容.而且這些海量的圖像數(shù)據(jù)通常都包含著豐富的語義內(nèi)容,但標簽的不完備卻給基于文本的圖像檢索帶來了巨大挑戰(zhàn),影響了其他相關(guān)產(chǎn)業(yè)的發(fā)展.為豐富圖像標簽內(nèi)容,提高圖像檢索準確率,許多研究者已對缺失標簽進行自動補全的圖像標簽完備方法展開了深入研究[1-4].
近年來,國內(nèi)外對圖像標簽的完備標注研究取得了一定的成果.目前的研究工作中,一些學(xué)者將給圖像標簽補足問題轉(zhuǎn)化為標簽矩陣補足問題,其中,Wu L等人[5]提出了一種TMC模型,并且通過矩陣的形式將標簽和圖像之間的關(guān)系展示出來,借助搜索與之最為相似的圖像部分加以進行標簽補足;Guillaumin M等人提出基于K-近鄰圖像的標簽傳播算法[6],使用圖像底層視覺特征進行一系列特征融合加權(quán)尋找視覺近鄰?fù)瓿蓤D像標簽傳播,根據(jù)視覺近鄰將相似度更高的相關(guān)標簽傳播給待標注圖像.這兩種方法提高了圖像標注量,但缺少對標簽本身相關(guān)度的分析,影響標注效果.Wu B等人[3]通過將缺少標簽的多標簽學(xué)習(xí)(MLML)問題視為從提供的標簽信息傳播到缺失標簽的節(jié)點依賴關(guān)系圖,通過不同的標簽依賴關(guān)系以構(gòu)建兩種不同類型的混合圖(基于MG-CO的同類共現(xiàn)混合圖和基于MG-SL的稀疏-低秩混合圖),將圖像間相似性作為無向邊連接不同圖像間的標簽節(jié)點,利用語義層次結(jié)構(gòu)作為有向邊來連接不同的類,或在所有標簽上嵌入高階相關(guān)性,分別基于這兩種圖,將MLML問題轉(zhuǎn)化為凸優(yōu)化問題,進行標簽的完備;Zhang Y等[7]提出利用標簽之間的協(xié)方差矩陣描述成對標簽之間的相關(guān)性,但缺少與圖像本身底層特征的聯(lián)系;劉杰等人[8]聯(lián)合兩種不同模態(tài)(視覺模態(tài)和文本模態(tài))的主題分布概率,構(gòu)造圖像之間的關(guān)系模型,通過計算基于不同模態(tài)下先驗、后驗聯(lián)合概率分布完成標簽標注,雖然考慮文本模態(tài)對標注結(jié)果的影響,但由于很難精確得到圖像與標簽之間的分布關(guān)系,標注效果改善不大,造成了一定的誤差.黎健成等人[9]嘗試構(gòu)建多標簽排名損失函數(shù)輸出圖像標簽結(jié)果,但其未處理標簽樣本忽視了圖像-標簽間的局部包含關(guān)系,影響了標注結(jié)果.雖然圖像完備標注已經(jīng)取得一定的成果,但也存在以下不足:1)需要選擇組合圖像底層特征,不能主動學(xué)習(xí)圖像特征,可能會導(dǎo)致圖像部分視覺信息缺失,導(dǎo)致標注不精確;2)缺失了語義標簽本身的相關(guān)性的研究,將圖像不同貢獻程度的標簽內(nèi)容同等權(quán)重處理,忽視了標簽語義分布的不均勻性和相關(guān)性.
建立缺失標簽圖像低層的視覺特征與標簽之間的關(guān)系,并有效地改善語義標簽是提高圖像標簽完備標注精度的一個關(guān)鍵.深度卷積神經(jīng)網(wǎng)絡(luò)因具有深層網(wǎng)絡(luò)結(jié)構(gòu)并能夠主動學(xué)習(xí)并抽象出圖像的底層特征,具有更強大的表達能力,在各種視覺識別任務(wù)中顯示出巨大潛力[10,11].概念格因能很好地將概念之中包含與層次之間的關(guān)系展示出來,成為一種構(gòu)建高效數(shù)據(jù)分析與知識提取的工具[12-14].因此,為提高圖像完備標注的精度和召回率,本文采用CNN提取圖像低層視覺特征與標簽的關(guān)系,并通過概念相關(guān)度計算,利用概念格對待完備圖像進行標簽補足,提出了一種基于CNN和概念格的圖像完備標注方法.
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)通常由輸入層、卷積層(convolutional layer)、池化層(pooling layer,也稱為取樣層)、全連接層及softmax層[15]構(gòu)成,具有局部連接、權(quán)值共享、池化操作及多層結(jié)構(gòu)[16]等四個特點.由于CNN具有深層的網(wǎng)絡(luò)結(jié)構(gòu),并且可以通過非線性多層變換主動學(xué)習(xí)圖像特征,具有很強的表現(xiàn)力,因此,本文嘗試利用卷積神經(jīng)網(wǎng)絡(luò)對圖像標簽進行圖像的完備標注.
2.1.1 卷積層與池化層
卷積層是CNN特征提取最重要的環(huán)節(jié),每一層采用3個卷積核串聯(lián),步長設(shè)置為1,后接一個池化層.通過卷積提取低級特征(例如邊緣),并通過權(quán)重分布連接上層實體表面的局部區(qū)域,并將局部加權(quán)和傳遞給非線性函數(shù)Relu函數(shù)以獲取卷積層的輸出值.假設(shè)第i層為卷積層,為第i層的卷積核;表示為前一層的輸出特征,則輸出圖像值為式(1):
(1)
其中,×表示卷積運算,ai,j表示第i層第j個卷積核輸出的特征值,wb表示第i層特征映射增加的偏置值,f(·)為激活函數(shù),這里取Relu函數(shù),即為式(2):
(2)
池化層緊接著卷積層之后,常用的池化操作有最大池化、均值池化等.由于卷積過程中存在或多或少的冗余信息(即重復(fù)卷積的元素),需要每個神經(jīng)元對局部接受域進行池化操作,起到二次提取特征的作用.本文采用最大池化操作,采用規(guī)模大小為2×2的池化核,效果如圖1所示.
2.1.2 全連接層
在CNN結(jié)構(gòu)中,全連接層中的每個單元與其前一層的所有單元加以全連接,以此進一步將卷積層、池化層中具有類別區(qū)分性的局部信息加以優(yōu)化整合.為了提升CNN網(wǎng)絡(luò)性能,最后一層全連接層的輸出值被傳遞給最后一個輸出層,通常采用Softmax邏輯回歸.為避免訓(xùn)練過擬合,常采用正則化方法,不參與CNN的前后向傳播過程,使部分隱藏層節(jié)點失效,有效地降低神經(jīng)元之間相互適應(yīng)的復(fù)雜性,進而提升借助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來獲得的圖像特征的品質(zhì).
圖1 規(guī)模2×2的最大池化操作示意圖Fig.1 Schematic diagram of the maximum pooling operation of scale 2×2
概念格(concept lattice)是20世紀80年代初由德國Wille教授提出的[17],因每個概念及上下層概念之間隱含地表示了屬性之間的關(guān)聯(lián)關(guān)系,成為一種有效的數(shù)據(jù)分析方法和知識表示工具.概念格也被稱為形式概念分析(Formal concept Analysis,簡稱FCA),參照文獻[18,20],本文給出相關(guān)定義:
定義 1.在概念格理論之中,一般會將形式背景作為一個三元組C=(U,A,R),在這之中,對象集即為U,屬性集即為A,及一個二元關(guān)系.若對于一個對象與任意屬性,存在關(guān)系R,那么稱為“對象u具有屬性a”,記為uRa.如表1所示,表中用“x”標記出對象與屬性之間的映射關(guān)系.
表1 對象U與屬性A的形式背景Table 1 Formal background of object U and attribute A
定義 2.對于任意一個二元組z= (I,T),I?U,T?A,在對象集和屬性集上分別滿足如下運算:
f(I)={a∈A|?u∈I,uRa}
g(T)={u∈U|?a∈T,uRa}
若f(I)=T,g(T)=I,則定義z=(I,T)是基于形式背景C(U,A,R) 這一基礎(chǔ)之上的形式概念,所以形式概念z的外延即為I,而形式概念z的內(nèi)涵即為T.
定義 3.設(shè)z1=(I1,T1)、z2=(I2,T2)表示形式背景C(U,A,R)上的兩個形式概念,若:
z1≤z2?I1?I2?(T1?T2)
則z1是z2的子類節(jié)點,z2是z1父類節(jié)點.將用這種偏序關(guān)系組成的集合稱為C上的概念格,記為
雖然CNN在圖像標注領(lǐng)域取得了很大進展,能夠逐層抽象特征圖的重要信息,但由于方法本身高度依賴于真實邊界框,當(dāng)將其轉(zhuǎn)移到?jīng)]有任何邊界框信息的多標簽數(shù)據(jù)集時,可能會限制其泛化能力.如某幅圖像存在缺失標簽“cloud”"和“sky”,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)標注之后,只標注“cloud”,缺失了標簽“sky”.但在一般情況下,“cloud”和“sky”并不完全孤立,存在依存關(guān)系,被用來標注同一幅圖像的概率極高,如果在語義上不加處理,會影響圖像的標注效果.因此,針對上述問題,本文從圖像語義相關(guān)度的角度,根據(jù)概念格的結(jié)構(gòu)特征以及語義相似度計算的基本思想,通過對標簽貢獻值進行排序來完成標簽的預(yù)測,對深度卷積神經(jīng)網(wǎng)絡(luò)的標注結(jié)果進行改善,本文提出了一種基于CNN和概念格語義擴展的圖像完備標注模型,如圖2所示.
圖2 基于CNN和概念格語義擴展的圖像完備標注模型圖Fig.2 Image completion annotation model based on CNN and concept lattice semantic extension
與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)有了顯著的提高,通過構(gòu)建具有多個隱含層的非線性網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)復(fù)雜函數(shù)逼近,使用特征映射來學(xué)習(xí)圖像的內(nèi)容潛在地尋找圖像中的各種目標.本文采用類似于2014年大規(guī)模視覺識別挑戰(zhàn)賽提出的卷積神經(jīng)網(wǎng)絡(luò)方法[19]對圖像特征進行提取,為了更好地初始化卷積神經(jīng)網(wǎng)絡(luò)模型,需要對基于ImageNet預(yù)先訓(xùn)練的模型參數(shù)進行微調(diào),通過調(diào)整競賽中VGG-Net模型,以此來完成模型的訓(xùn)練,與其不同的是本文為增加數(shù)據(jù)量,進行了對數(shù)據(jù)旋轉(zhuǎn)、尺度縮放處理和均值化過程.本文采用VGG-Net中性能更好的VGG19模型,包含19個隱藏層(12個卷積層,4個池化層和2個全連接層)、1個輸入層和1個輸出層.整個網(wǎng)絡(luò)均使用相同大小的卷積核(3×3)和最大池化大小(2×2),輸入圖像大小均為224×244.具體過程如下:
1)采用VGG19模型進行預(yù)訓(xùn)練,使用ImageNet數(shù)據(jù)集訓(xùn)練,并調(diào)試網(wǎng)絡(luò)參數(shù)至最佳通用狀態(tài).
2)使用Multi-Scale做數(shù)據(jù)增強,將圖像縮放到不同尺寸S,滿足輸入要求.令處理后的待標注圖像為I0,則I=[f0,f1,…,fm]T,其中fm為原始像素,m為像素數(shù).
3)初始化圖像標簽數(shù)量,為不陷入局部最優(yōu),減少過擬合,將其作為深度網(wǎng)絡(luò)有效的監(jiān)督信息,對其Normalized cut聚類分割,結(jié)果如圖3所示.
4)輸入CNN網(wǎng)絡(luò),將高維的輸入圖像轉(zhuǎn)化為低維的抽象的信號特征,將邊緣特征抽象組合成更為簡單的特征輸出.
5)為減少卷積操作后存在的冗余信息及降低特征維數(shù),采用最大池化操作.設(shè)第i層為池化層,輸入的圖像值.為fi,分割成的圖像塊區(qū)域為Rk(k=1,2,…,k),如式(3)下:
(3)
圖3 Normalized cut圖像分割可視化圖Fig.3 Normalized cut image segmentation visualization
6)進行全連接層計算.對倒數(shù)第二個全連接層輸出的4096*1的向量做softmax回歸,得到特征向量,在得到的20個由深度網(wǎng)絡(luò)提取到的特征做softmax回歸得到標簽的概率中選擇最大的一個作為圖像塊的標簽,計算如式(4)所示,重復(fù)該步驟直至所有圖像塊被標記,得到初始標注集合W0.
(4)
本文把節(jié)3.1去掉softmax層的CNN模型,作為一個圖像通用特征提取器,因輸出特征包含了卷積層和池化層使其具有全局和局部的特征表現(xiàn),具有更強的抽象表現(xiàn)能力,為每個圖像提取全連接層第二層輸出的4096維特征向量并保存再使用PCA進行維數(shù)縮減以保持80%的特征差異,最終輸出對應(yīng)的圖像特征.對得到的圖像歸一化之后為256×256然后轉(zhuǎn)換為向量,若選擇性搜索后得到的圖像個數(shù)為N,則圖像轉(zhuǎn)換成大小為65535*N的向量矩陣.后對該矩陣SVD分解,得到降序排列的特征值,利用特征值計算權(quán)值,得到相似圖像的權(quán)重,如式(5)所示:
(5)
其中,λi表示圖像的特征值.其次,將由深度網(wǎng)絡(luò)得到的權(quán)重值wi大于0.5的圖像塊對應(yīng)圖像構(gòu)成近鄰圖像集合I,由圖像特征搜索到的近鄰圖像與對應(yīng)標簽生成形式背景,利用圖像標簽之間的語義相關(guān)度來描述圖像之間的相似程度,據(jù)此計算近鄰圖像的語義相關(guān)度.
假設(shè)待標注圖像I0,得到k張(假設(shè)k=5)與其最相似的近鄰圖像I1-I5,獲取圖像I0及其近鄰圖像所有的標簽并入集合T中,則Ik={I0,I1,I2,I3,I4,I5},T={“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”}.根據(jù)定義1構(gòu)造近鄰圖像與標簽映射關(guān)系并進行歸一化處理,即存在映射關(guān)系“x”的將其置換為1,反之,記為0,構(gòu)造出形式背景G,如表2所示.為方便表示,分別用“t1-t10”
表2 形式背景G表Table 2 Formal background G
按序表示標簽集合中的詞,并依形式背景G構(gòu)造Hasse圖,如圖4所示.
圖4 形式背景G的Hasse圖Fig.4 Hasse image of formal background G
概念格是一種有效的語義層次分析工具,為利用概念格進行圖像標簽語義相關(guān)性分析,本文定義了如下一些語義相關(guān)度概念.
定義 4.概念-概念相關(guān)度Rel(dist(zi,zj)).由圖4可知,兩個概念之間形成的通路越短,則概念間的相似度越大,若Dist(zi,zj)表示一個格結(jié)構(gòu)中兩個概念之間形成通路的最短路徑長度,則基于概念-概念之間的相關(guān)度計算公式如(6)定義如下:
Rel(dist(zi,zj))=τ/(τ+Dist(zi,zj))
(6)
其中,Rel(dist(zi,zj))表示概念zi和概念zj間的語義相關(guān)度;τ為大于0的實數(shù),這里取τ=1.
定義 5.外延-概念相關(guān)度Rel(I,z).隨著深度的增加,由定義2可知,概念節(jié)點中外延數(shù)逐漸減少,共同擁有的內(nèi)涵數(shù)就會越具體,概念之間的相似度也會隨之減小.因此,本文通過考慮概念節(jié)點間的關(guān)系和概念節(jié)點所處的深度對圖像語義相關(guān)度的影響,給出基于外延-概念的相關(guān)度計算公式如式(7)定義如下:
Rel(I,z)=(|Ii|∩|Ii|)/max
((|Ii|,|Ii|))×(1+σ)(dep1+dep2)
(7)
其中,Rel(I,z)表示的是基于外延-概念的相關(guān)度, |Ii|∩|Ij|表示的是概念zi=(Ii,Ti)和概念zj=(Ij,Tj)間相同的外延個數(shù);dep1和dep2分別代表的是概念節(jié)點zi和概念節(jié)點zj所處的深度,設(shè)概念格頂層概念的層次為1,其節(jié)點深度為上鄰節(jié)點概念層數(shù)加1;σ是為體現(xiàn)概念節(jié)點深度對其影響的修正參數(shù),這里取σ=0.1.
定義 6.內(nèi)涵-概念相關(guān)度Rel(T,z).概念格結(jié)構(gòu)中,概念與概念之間距離越遠,則外延所共同擁有的內(nèi)涵數(shù)越少.由此可以得出,隨著概念格Hasse圖概念節(jié)點的深度增大,概念外延的語義相關(guān)度與外延共同擁有的內(nèi)涵數(shù)成正相關(guān)性.因此,本文通過考慮概念節(jié)點間的關(guān)系和概念節(jié)點所處的深度對相關(guān)度的影響,提出基于內(nèi)涵-概念的相關(guān)度計算公式如式(8)定義如下:
Rel(T,z)=(|Ti|∩|Ti|)/max
((|Ti|,|Ti|))×(1+σ)(dep1+dep2)
(8)
其中,Rel(T,z)表示的是概念-內(nèi)涵的相關(guān)度,|Ti|∩|Tj|表示的是概念節(jié)點zi和概念節(jié)點zj所擁有共同內(nèi)涵數(shù)的個數(shù);σ是修正參數(shù),作用同定義5.
根據(jù)定義4、定義5及定義6,依據(jù)式(6)、式(7)、式(8)計算出每個概念節(jié)點之間的相關(guān)度Rel(zi,zj),降序排列得到近鄰圖像對其圖像語義的支持度并將其歸一化,利用相似圖像之間的語義相關(guān)度,進一步衡量圖像之間相似程度,可以大大減少噪聲圖像標簽的加入.因此,綜合考慮概念-概念、外延-概念、內(nèi)涵-概念以上三者對圖像語義相關(guān)度的影響,本文給出基于概念格的圖像語義相關(guān)度公式(8)定義如下:
Rel(zi,zj)=Rel(I,z)×α+Rel(T,z)+
Rel(dist(zi,zj))×γ
(9)
其中,α、β、γ是各部分所占的權(quán)重比,且α+β+γ=1.由于內(nèi)涵和外延在概念對中具有同等大小的權(quán)重比,根據(jù)概念格的對偶原則,本文取α=β=0.25,則γ=0.5.
據(jù)此計算所有概念之間的語義相關(guān)度,如在形式背景G中,從節(jié)點#2和#3、#3和#4存在上下位關(guān)系,節(jié)點#2和#15為同層次概念,由式(9)可以得出如下關(guān)系:
Rel(z2,z3)=(1/2+3/6)×0.25×(1+0.1)3+4+
1/2×0.5≈0.737
Rel(z2,z15)=(0+1/6)×0.25×(1+0.1)4+4+
1/(1+2)×0.5≈0.257
Rel(z3,z4)=(2/4+1/3)×0.25×(1+0.1)2+3+
1/2×0.5≈0.585
可以得到:
Rel(z2,z15) 由此可知,父節(jié)點的語義相似度要比同層次概念節(jié)點的高,同時,隨著概念格層次的逐漸加深,父子節(jié)點之間的語義相似度也會隨之增大.我們將包含同一對象的不同概念節(jié)點相關(guān)度疊加得到圖像之間的語義相關(guān)度,例如由節(jié)點#2、#3、#4可知待標注圖像I0與圖像I1的語義相關(guān)度為1.322,與圖像I5的語義相關(guān)度為0.257.由此可得,待標注圖像Ii與訓(xùn)練集Ij視覺相似度.當(dāng)待標注圖像Ii越高時,圖像Ij與Ii的語義相關(guān)度越高時,其標簽貢獻值越大,越有可能被標記. 通過節(jié)3.2計算圖像標簽之間的語義相關(guān)度,獲取一系列同待標注圖像關(guān)聯(lián)密切的近鄰圖像標簽作為候選標簽,對初始預(yù)測標簽進行語義擴展.由于近鄰圖像與待標注圖像的相似度程度不同,且一般與待標注圖像語義相關(guān)度更相近的圖像對標注結(jié)果影響更大.由于圖像集I是根據(jù)圖像底層特征搜索降序而得,并且同時考慮了底層特征與高層語義的相似性,兼顧近鄰圖像語義對標注結(jié)果的影響,從而避免某些標簽過少或過多,改善標注結(jié)果,豐富圖像的語義內(nèi)容.因此,本文融合CNN標注結(jié)果并結(jié)合近鄰圖像與待標注圖像的語義相關(guān)度,從視覺和語義兩個角度,篩選候選標簽集中關(guān)聯(lián)程度強的候選標簽,從而保留支持度更高的標簽標記圖像. 根據(jù)式(5)獲取的圖像塊權(quán)重大小wi,從視覺角度,將其作為近鄰圖像Ik對待標注圖像的支持度指標之一;根據(jù)概念格獲得近鄰圖像與待標注圖像的語義相關(guān)度,計算候選標簽集中每個關(guān)鍵詞對待標注圖像的支持度sup(tgj,Ii): (10) 其中,φ(Ik,tj)近鄰圖像Ik與標簽tgj的所屬關(guān)系,若近鄰圖像Ik被賦予標簽tgj,則φ(Ik,tj)=1,反之為0.得到每個標簽詞的分數(shù)之后,將sup(tgj,Ii)進行歸一化處理,為減少不相關(guān)的標簽語義詞,本文將支持度大于0.01的候選標簽詞保留,去除標簽噪聲后,作為待標注圖像最終的的標簽詞. 結(jié)合上述通用CNN模型以及概念格語義相關(guān)度計算規(guī)則,給出本文方法主要步驟,具體如下: 輸入:待完備圖像I0,初始標簽集合W0,已訓(xùn)練好卷積神經(jīng)網(wǎng)絡(luò)CNN. Step 1.預(yù)處理.利用Ncut算法對圖像進行分塊,每塊圖像為不同聚類區(qū)域; Step 2.圖像特征提取.對每塊圖像進行選擇性搜索,得到每一塊子圖像感興趣區(qū)域,利用CNN得到抽象特征圖; Step 3.初始候選標簽獲取.將特征圖做softmax線性回歸,通過式(4),得到標記圖像的標簽概率,以及輸出初始標簽集合W0; 本文在數(shù)據(jù)集Corel5k上做了對比試驗.實驗過程中隨機抽取一定數(shù)量的圖像進行模型性能測試,分為訓(xùn)練集、驗證集、測試集.軟件環(huán)境為MATLAB 2018b.另外,進行深度學(xué)習(xí)的相關(guān)服務(wù)器配置:4塊1080TI11G顯卡,2個CPU 64G內(nèi)存(Intel i7-6900K 26核、56線程).表3是實驗相關(guān)數(shù)據(jù)集的介紹. 表3 實驗數(shù)據(jù)集表Table 3 Introduction to experimental data sets 本文采用準確率Precision、召回率Recall以及F-measure作為本文方法的性能評價指標.其中,準確率Precision指的是正確預(yù)測為正占全部預(yù)測為正的比例;召回率Recall指的是正確預(yù)測為正占全部正樣本的比例,F(xiàn)-measure指的是查準率和召回率調(diào)和均值的2倍.公式如下: 其中,TP指的是預(yù)測標簽中與圖像相關(guān)且預(yù)測正確的圖像總數(shù);FP指的是預(yù)測標簽中與圖像無關(guān)卻被標記的圖像總數(shù);FN指的是將預(yù)測標簽中將正類預(yù)測為負類數(shù)的圖像總數(shù). 為了衡量深度卷積神經(jīng)網(wǎng)絡(luò)模型的性能,本文首先從分類器的角度來衡量模型的標注準確率,分別給出了不同深度訓(xùn)練模型VGG16和VGG19在數(shù)據(jù)集MS Coco和VOC 2012上的ROC-AUC曲線圖,如圖5(a)和圖5(b)所示. 圖5 不同深度網(wǎng)絡(luò)ROC-AUC比較圖Fig.5 Comparison of different depth networks ROC-AUC 由圖5可知,雖然兩個卷積網(wǎng)絡(luò)模型均表現(xiàn)出良好的學(xué)習(xí)能力,但VGG19的曲線更靠近左上方,模型的泛化能力要更強,預(yù)測精度可達91%,證明VGG19模型在訓(xùn)練數(shù)據(jù)上的損失函數(shù)值更小,擁有更好的抽象特征的能力,這可以為下一步提取訓(xùn)練集通用特征提供可靠的保障.因此,本文選用VGG19網(wǎng)絡(luò)結(jié)構(gòu)作為模型初始標注的預(yù)訓(xùn)練模型. 為驗證概念格語義擴展的有效性,針對候選標簽集中最終標記的不同標簽個數(shù),展示一組不同預(yù)測個數(shù)對Precision以及Recall影響的P-R曲線.本文設(shè)置兩組實驗進行對比,一組基于VGG19模型對待標注圖像進行多標簽排序標注,另一組在獲得初始標注之后,利用概念格對CNN標注結(jié)果進行語義擴展改善.首先將測試集圖像調(diào)整為256×256,然后從每幅圖像中隨機提取224×224(及其水平映射),通過減去每個提取的圖像塊的平均值進行預(yù)處理,輸入CNN的第一卷積層,直至最后輸出softmax層產(chǎn)生1000類的概率分布,選取候選標簽集中Top-5作為圖像的最終標簽.訓(xùn)練網(wǎng)絡(luò)時,本文使用動量為0.9且重量衰減為0.0005的隨機梯度下降來訓(xùn)練網(wǎng)絡(luò).為了克服過度擬合,對全連接層中前兩層都進行丟失率為50%的刪除操作.將所有層的學(xué)習(xí)率均初始化為0.01,每20步下降到當(dāng)前速率的十分之一(總共90步),訓(xùn)練完成后保存網(wǎng)絡(luò)模型.實驗結(jié)果如圖6所示. 圖6 P-R曲線圖Fig.6 P-R curve 由圖6可以得出,曲線剛開始無明顯變化,隨著圖像召回率Recall的增加,基于VGG-net網(wǎng)絡(luò)多標簽排序算法標注精度率先開始下降,而本文方法在保證準確率的基礎(chǔ)上,召回率更高,說明本文方法更優(yōu).該實驗表明,采用概念格對圖像進行語義相關(guān)度分析對提高圖像標注標簽的召回率具有重要意義.當(dāng)召回率達到54.74%,準確率開始下降,這是因為在概念格對標簽進行語義擴展時,當(dāng)候選標簽集預(yù)測個數(shù)不斷增大,會有一部分噪聲標簽被標記圖像,造成過度標注.由于很多標簽詞存在關(guān)聯(lián)性,利用圖像-標簽之間的上下位關(guān)系,在視覺近鄰的基礎(chǔ)上,可以得出圖像之間的語義關(guān)聯(lián)程度.在預(yù)測標準個數(shù)一定的情況下,若僅根據(jù)圖像的邊界特征進行分類識別和標注,不足以豐富圖像的標簽語義內(nèi)容,且準確率和召回率顯然不如本文中的方法,這證明了本文方法對標簽改善的有效性,在某種程度上提高標簽標記的可能性. 本文選用數(shù)據(jù)集Corel5k作為對比實驗的驗證數(shù)據(jù)集,它擁有50個類別,每張圖片大小為192×128,每張圖片均有1~5個標簽,選取Corel5k中的500張測試集(263個標簽)進行測試,并與之前的一些經(jīng)典的圖像標注算法進行對比,對比方法包括:TMC標注模型[5]、特征融合和語義相似(Feature Fusion and Semantic Similarity,F(xiàn)FSS)[21]和標簽傳播算法(Tag Propagation,TagProp)[6]、Muti-Label CNN[9]方法. 表4 實驗結(jié)果比較表Table 4 Comparison of experimental results 表4中部分算法數(shù)據(jù)來源于其對應(yīng)的文獻.通過表4可以看出,與傳統(tǒng)的標簽傳播算法相比,準確率和召回率有顯著提升,本文方法在準確率和召回率上分別達到40%、51%,與文獻[21]相比,本文方法利用深度學(xué)習(xí)網(wǎng)絡(luò)摒棄復(fù)雜的特征融合,利用大數(shù)據(jù)集輔助特征學(xué)習(xí)遷移微調(diào)網(wǎng)絡(luò),有更強的區(qū)分效果,準確率提高了13%.同時通過與Muti-Label CNN算法比較的實驗結(jié)果可以看出,雖然準確率相差不大,但進行語義擴展改善后的算法比多標簽排序策略的深度卷積神經(jīng)網(wǎng)絡(luò)的召回率提高了16%,改進效果明顯.這是由于當(dāng)待標注圖像Ii與訓(xùn)練集Ij視覺相似度越高時,圖像Ij與Ii擁有的共同標簽數(shù)越多,標簽貢獻值越大,支持度更高;由于圖像集Ik是根據(jù)圖像底層特征搜索降序而得,并且同時考慮了底層特征與高層語義的相似性,兼顧近鄰語義對標注結(jié)果的影響,從而避免某些標簽過少或過多,改善標注結(jié)果,豐富圖像的語義內(nèi)容. 為進一步說明語義改善的有效性,表5給出了部分圖像的標注實例.表5中第二列為圖像的初始標簽,即圖像的不完備標注詞,第三列為初始預(yù)測標簽概率直方圖,表中第四列為本文方法改善后的標注標簽結(jié)果.其中,標粗的為正確預(yù)測且標注的標簽詞,未標粗標注詞為圖像中不涉及但被本文方法標注的標簽詞. 表5 標注實例展示Table 5 Annotation instances 從表5中可以看出,在初始標簽預(yù)測階段,本文方法可以利用卷積神經(jīng)網(wǎng)絡(luò)準確識別圖像中某些具體的內(nèi)容,并且在最終預(yù)測標簽列中產(chǎn)生出的Top-5標簽,都能夠很好的反映像內(nèi)容,對圖像語義進行完備,但若僅利用深度模型按照單目標個體標注圖像,顯然是是不合理的,不能更好的反映圖像內(nèi)容.實際生活中,每幅圖像含有多個目標,具有多個語義標簽,會由一些標簽產(chǎn)生相關(guān)的派生標簽詞匯,而深度學(xué)習(xí)網(wǎng)絡(luò)并不能很好的學(xué)習(xí)這一語義的底層特征,造成標簽標注不完備.比如,在第二幅圖中,能反映圖像的場景抽象標簽“party”不存在于圖像內(nèi)容之中,但利用概念格提取標簽相關(guān)性,改善圖像標簽標注后,能夠擴展圖像標簽語義內(nèi)容.總的來說,利用深度網(wǎng)絡(luò)獲取初始標簽,可以有效地提高初始標簽的準確率,改善人工標注耗時長的問題,避免復(fù)雜的特征融合過程,再結(jié)合概念格處理標簽相關(guān)性,能有效地改善標注結(jié)果.但從第三幅圖像的標注結(jié)果來看,不僅存在“horse”,與此同時被標記上“cow”,兩者雖相關(guān)性較高,但圖中未出現(xiàn)“cow”這一具象物體,由此,我們可以看出,利用概念格提取標簽相關(guān)性,雖能擴展圖像標簽語義內(nèi)容,但可能會存在標注過度的現(xiàn)象.因此,若能進一步利用概念格細化粒度分析圖像與標簽正負相關(guān)性,去除標注結(jié)果中的噪聲標簽,將對圖像檢索、圖像標注有很大的改善效果. 本文提出一種基于CNN和概念格語義擴展的圖像完備方法.通過構(gòu)建CNN通用模型獲得待標注圖像的初始預(yù)測標簽并獲取圖像底層特征,在此基礎(chǔ)上構(gòu)造概念格對圖像語義標簽擴展,有效地豐富圖像標簽語義信息,改善標簽召回率.通過將改善后的模型結(jié)果與傳統(tǒng)的CNN標注結(jié)果對比,證明概念格能有效擴展圖像標簽語義內(nèi)容;通過對比傳統(tǒng)標簽傳播算法通用的評價指標,驗證本文方法對提升標簽召回率的有效性.本文下一步的工作是利用概念格細化粒度并結(jié)合圖像與標簽正負相關(guān)性分析圖像的標簽語義,減小不同模態(tài)(圖像視覺-語義標簽)的距離,進一步提高圖像完備標注精度.3.3 標簽預(yù)測
3.4 算法描述
4 實驗結(jié)果與分析
4.1 性能評價指標
4.2 基于不同深度模型在不同數(shù)據(jù)集的標注準確率比較
4.3 概念格語義擴展改善的實驗結(jié)果與分析
4.4 基于數(shù)據(jù)集Corel5k的實驗結(jié)果與分析
4.5 標注實例
5 結(jié) 論