田 楓,李 闖,劉 芳,李婷玉,張 蕾,劉志剛
1(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,大慶 163318)
2(中國石油天然氣股份有限公司 冀東油田分公司,唐山 063004)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,圖像,文本,視頻,音頻,三維模型等多媒體數(shù)據(jù)量越來越多,多媒體信息檢索[1]發(fā)展迅速,其中跨媒體檢索是研究熱點.跨媒體檢索[2]是指任意使用一種媒體數(shù)據(jù)對其他媒體數(shù)據(jù)在語義層面進行相關(guān)性檢索,實現(xiàn)多媒體數(shù)據(jù)在語義上的互通.其難點在于,不同媒體類型的數(shù)據(jù)表示形式不一致,導(dǎo)致它們之間存在異構(gòu)性.而且,不同媒體類型的數(shù)據(jù)特征維度高,導(dǎo)致檢索效率低是具有挑戰(zhàn)性的問題.針對此問題,哈希學(xué)習(xí)將不同媒體數(shù)據(jù)從高維表示空間映射到低維漢明空間,同時將原始數(shù)據(jù)的相關(guān)性盡可能保留到漢明空間,使在同一語義下的不同媒體數(shù)據(jù)具有相似的哈希碼.因此,哈希學(xué)習(xí)成為研究跨媒體檢索的一類代表性方法.
目前主流的跨媒體哈希檢索方法主要分為兩類:一類是無監(jiān)督跨媒體哈希方法和有監(jiān)督跨媒體哈希方法.其無監(jiān)督跨媒體哈希是指不使用語義標簽信息進行學(xué)習(xí),而是通過捕捉底層數(shù)據(jù)的結(jié)構(gòu),分布以及拓撲信息來學(xué)習(xí)哈希函數(shù).例如媒體間哈希(Inter-Media Hashing,IMH)[3],協(xié)同矩陣分解哈希(Collective MatrixFactorization Hashing,CMFH)[4],跨媒體相似檢索的潛在語義稀疏哈希(Latent Semantic Sparse Hashing for cross modal similarity search,LSSH)[5]等方法.有監(jiān)督跨媒體哈希方法主要利用語義標簽信息的指導(dǎo)學(xué)習(xí)哈希函數(shù).如跨視角哈希(Cross View Hashing,CVH)[6],最大語義關(guān)聯(lián)跨媒體檢索(Semantic Correlation Maximization,SCM)[7],語義保留哈??缑襟w檢索(Semantics Preserving Hashing,SePH)[8]等方法,而以上這些方法盡管利用語義標簽信息減輕了不同媒體類型數(shù)據(jù)之間的異構(gòu)差距,但是在哈希函數(shù)學(xué)習(xí)的過程中沒有使用深層次的特征表示.深度學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)強化媒體之間相關(guān)性學(xué)習(xí),可以大幅度提升檢索效果.深度視覺語義哈希(Deep Visual-Semantics Hashing,DVSH)[9],通過利用CNN和LSTM分別提取圖像表示和文本表示,為圖像和文本數(shù)據(jù)分別學(xué)習(xí)哈希函數(shù),同時保留了模態(tài)內(nèi)和模態(tài)間的相關(guān)性.深度跨模態(tài)哈希(Deep Hashing Cross Modal Retrieval,DCMH)[10]是這類方法的一個代表,它是一個端到端的框架,將圖像和文本的特征學(xué)習(xí)與哈希學(xué)習(xí)統(tǒng)一起來,將不同模態(tài)間的相關(guān)性保留到哈希碼,實現(xiàn)比較好的效果.再如,基于三元組的跨模態(tài)深度哈希方法[11],利用Triplet 損失函數(shù)學(xué)習(xí)圖像和文本之間的相似性,增強對模態(tài)間相關(guān)性的學(xué)習(xí).
綜上所述,為了使得語義相似的媒體對象哈希碼的距離較小,語義不相似的媒體對象哈希碼的距離較大,使得漢明空間和語義空間具備結(jié)構(gòu)性保持,進而提高模型的檢索效果,本文提出基于柯西分布的深度哈希跨媒體檢索方法,該方法使用基于柯西函數(shù)的損失函數(shù),減小同類別下哈希碼之間距離的同時,增加不同類別間哈希碼的距離,從而提高模型的檢索效果.
本文方法的整體框架示意如圖1所示,通過神經(jīng)網(wǎng)絡(luò)為不同媒體類型的數(shù)據(jù)學(xué)習(xí)哈希函數(shù),再利用哈希函數(shù)將不同媒體類型的數(shù)據(jù)映射到一個公共的漢明空間,得到統(tǒng)一的哈希碼.在公共的漢明空間內(nèi),不同于現(xiàn)有的基于交叉熵的關(guān)聯(lián)損失函數(shù),本文引入基于柯西分布的跨媒體損失函數(shù),它不但能夠縮小語義相似媒體對象的哈希碼之間的距離,而且可以增大語義不相似的媒體對象的哈希碼距離,從而提高跨媒體檢索效果.
圖1 整個算法的流程示意圖
本文以圖像和文本為例進行介紹,令X=表示圖像集合,xi表示第i張圖像,Y=表示文本集合,yj表示第j張圖像所對應(yīng)的文本,S表示圖像文本對的相似矩陣,如果Sij=1,表示圖像和文本相似,他們至少有一個共同的類,否則,Sij=0,表示圖像和文本不相似,他們分別屬于不同的類.
本文的主要任務(wù)是為不同媒體類型的數(shù)據(jù)學(xué)習(xí)哈希函數(shù).設(shè)gx(x)∈{-1,1}k×n表示圖像的哈希函數(shù),gy(y)∈{-1,1}k×n表示文本的哈希函數(shù),k表示哈希碼的長度.而哈希碼是通過哈希函數(shù)將數(shù)據(jù)映射成二進制碼,則圖像的哈希碼bix=gx(x),文本的哈希碼byi=gy(x).同時,本文使用漢明距離表示漢明空間內(nèi)哈希碼之間的相似性,距離越小哈希碼相似程度越高.若Sij=1,表示哈希碼與之間的距離較小,若Sij=0,表示哈希碼與之間的距離較大.
本文的網(wǎng)絡(luò)框架主要分為兩部分,一部分用于提取圖像特征,另一部分用于提取文本特征.
對于圖像數(shù)據(jù),我們對ResNet-34[12]做了一些改變,網(wǎng)絡(luò)配置如表1所示,總共有10 層,其中前8 層為卷積層,第9為全連接層,第10 層是將圖像特征映射到漢明空間,而在第10 層的特征維度應(yīng)該與哈希碼的長度一致,每個卷積層內(nèi)參數(shù)的含義如表1所示.
表1 圖像神經(jīng)網(wǎng)絡(luò)配置
“kernel num*size*size”描述了關(guān)于卷積核的信息,“num”表示輸出通道數(shù),size*size 表示卷積核的大小.
“stride size*size”描述了關(guān)于卷積操作的步長,“stride”表示步長大小
“BN[13]”表示對網(wǎng)絡(luò)層進行歸一化
“max_pool:size*size”描述了下采樣的大小,
“avg_pool:size*size”描述了下采樣的大小.
每一個全連接層的數(shù)字.例如“4096”表示這個全連接層的輸出維度,k表示哈希碼長度.
對于一個圖像樣本xi,本文方法獲得哈希碼hix是通過閾值函數(shù)獲得,即hix=sgn(fx(xi,θx)),θx為圖像網(wǎng)絡(luò)參數(shù),由于sgn 函數(shù)它是一個離散的函數(shù),不能進行反向傳播,由于tanh 函數(shù)的取值范圍為[-1,1],同時也能夠減少圖像網(wǎng)絡(luò)輸出層的值與hix的誤差,因此本文在圖像神經(jīng)網(wǎng)絡(luò)的輸出值使用tanh 函數(shù).
對于文本數(shù)據(jù),我們使用詞袋模型對文本數(shù)據(jù)進行預(yù)處理,再輸入兩層玻爾茲曼機獲得句子的深度特征表示,文本神經(jīng)網(wǎng)絡(luò)配置如表2所示,前兩層的激活函數(shù)使用ReLU,最后一層使用tanh 函數(shù),同時特征長度與哈希碼的長度保持一致.
表2 文本神經(jīng)網(wǎng)路配置
對于每一個文本yj,本文方法獲得的哈希碼hyj是通過閾值函數(shù)獲得,即hyj=sgn(fy(yj,θy)),θy為文本網(wǎng)絡(luò)參數(shù),與圖像神經(jīng)網(wǎng)絡(luò)輸出層的設(shè)置一樣,由于閾值函數(shù)不能反向傳播,對文本神經(jīng)網(wǎng)絡(luò)輸出層的值使用tanh 函數(shù).
令{xi,yj} 表示一組圖像和文本數(shù)據(jù)對,sij表示xi與yj的相似關(guān)系,hix和hyj分別表示xi與yj的哈希碼,由條件概率可知:
目前方法大多數(shù)使用Sigmoid 函數(shù)作為式(2)的實現(xiàn),Sigmoid 函數(shù)的定義如下:
將哈希碼之間的漢明距離 φij映射為0和1 之間的相似度.圖2中顯示了Sigmoid 函數(shù)的輸出隨著 φij的變化情況.如圖2所示,當 φij小于k/2(k為哈希碼長度)時,Sigmoid 映射后的相似度值區(qū)分能力較弱,只有當 φij接近于k/2 時,區(qū)分能力才較強.該分析結(jié)果說明,Sigmoid 函數(shù)對跨媒體檢索性能影響較大.
圖2 Sigmoid 函數(shù)與Cauchy 分布的輸出隨漢明距離φij的變化情況
如圖2所示,采用Sigmoid 函數(shù),當兩個媒體對象的漢明距離較小時,其相似度區(qū)分能力很弱.但是如果采用柯西(Caughy)分布作為式(2)中σ (φij)的實現(xiàn),當漢明距離小于k/2 時,兩個函數(shù)的輸出存在明顯的差異,Caughy 分布的輸出使得映射后得相似度值區(qū)分能力較強,進而可提高語義相近得媒體對象得檢索性能.
綜上所述,將式(4)帶入式(2)并化簡后,可得改進后得損失函數(shù):
根據(jù)1.2 節(jié)可知,由于圖像和文本神經(jīng)網(wǎng)絡(luò)輸出層使用tanh 函數(shù),圖像和文本特征向量的取值范圍是[-1,1],所以哈希碼存在量化誤差,使用跨媒體哈希碼,需要學(xué)習(xí)哈希函數(shù),則哈希碼量化損失表示為式(6):
其中,α為平衡損失函數(shù)的參數(shù).
結(jié)合式(4),式(6),得到本文方法的目標函數(shù)為:
由于目標函數(shù)是一個非凸問題,若在求解一個變量的同時固定其他變量,此時目標函數(shù)就變成凸優(yōu)化問題,可以使用梯度求導(dǎo)解決此問題,因此本文采用一種交替迭代求解的策略獲得目標函數(shù)的近似最優(yōu)解,具體的求解過程如下所示.
(1)更新 θx,固定θy,B 時,利用反向傳播算法學(xué)習(xí)提取圖像特征的CNN 網(wǎng)絡(luò)參數(shù)θx,對于每一個圖像樣本xi,梯度計算的公式為:
同時,利用反向傳播算法計算?L/?θx.
(2)更新 θy,固定θx,B 時,還是利用反向傳播算法學(xué)習(xí)提取文本特征的神經(jīng)網(wǎng)絡(luò)參數(shù)θy,對于每一個文本樣本yj,梯度的計算公式為:
同時,利用反向傳播算法計算?L/?θy.
(3)更新B,固定θx,θy時;目標函數(shù)式(7)可以重寫為式(10)為:
對式(10)進行進一步整理可得如下公式:
顯然,在上述公式中tr((hy)Thy)和tr(BTB)都為常數(shù)值,因此B的解為:
迭代該算法,直到滿足收斂準則.
對于那些不在訓(xùn)練集的樣本點,首先將它們轉(zhuǎn)化為哈希碼.特別地,給一個圖像的樣本查詢點xq,與之對應(yīng)的圖像哈希碼bqx通式(13)得到:
同理,對于一個文本的樣本查詢點yq,與之對應(yīng)的文本哈希碼byq可由式(14)得到.
如1.1 節(jié)所述,本文方法只是以圖文互相檢索為例,事實上,本文可以擴展為任意兩個媒體進行檢索,主要區(qū)別在于獲取特征的方法.
本文的基于柯西分布的深度哈希 跨媒體檢索方法在Flickr-25k[14],IAPR TC-12[15],MS_COCO[16]三個標準數(shù)據(jù)集上進行試驗,并與最大語義關(guān)聯(lián)哈希(SCM)[7],深度跨模態(tài)哈希方法(DCMH)[10],在圖像檢索文本,文本檢索圖像兩個任務(wù)進行了性能分析.
Flickr-25k 數(shù)據(jù)集共包含25 015 張圖像組成,每張圖像都有幾個文本標記相關(guān)聯(lián),每張圖片大概有標記8 個或者9 個,數(shù)據(jù)集總共24 個類別標簽,都是由人工標注的.本文選組標記單詞出現(xiàn)次數(shù)高于20的樣本作為實驗數(shù)據(jù),最終實驗數(shù)據(jù)為20 015 個圖像文本對.
IAPR TC-12 數(shù)據(jù)集共包含20 000 張圖像以及相對應(yīng)的文本句子,總共275 個類別標簽,通過對數(shù)據(jù)集預(yù)處理之后,去除沒有類別標簽的數(shù)據(jù),實驗數(shù)據(jù)總共挑選19 998 個圖像文本對.
MS COCO 數(shù)據(jù)集共包含82 785 張訓(xùn)練集圖像和40 504 張驗證集圖像,同時每張圖像都有5 條描述的句子,80 個類別標簽,在本次實驗中,去掉沒有類別標簽和沒有文本的描述的圖像,同時選取最能描述圖像的句子作為文本數(shù)據(jù),最終實驗數(shù)據(jù)有122 218 個圖像文本對.
本文的實驗在深度學(xué)習(xí)框架PyTorch 上進行,對于圖像,使用ImageNet[17]的預(yù)訓(xùn)練模型初始化圖像特征提取網(wǎng)絡(luò)ResNet-34,并對輸出層網(wǎng)絡(luò)參數(shù)進行隨機初始化,對于文本,使用詞袋模型對文本數(shù)據(jù)進行預(yù)處理,然后輸入到多層玻爾茲曼機中,獲得其深度特征表示.
本文使用Rmscrop對訓(xùn)練網(wǎng)絡(luò)模型,學(xué)習(xí)參數(shù)配置如下:圖像網(wǎng)絡(luò)的初始化學(xué)習(xí)率為0.0 001,文本網(wǎng)絡(luò)的初始化學(xué)習(xí)率0.0003,學(xué)習(xí)率每訓(xùn)練15 次迭代后學(xué)習(xí)率變?yōu)楫斍爸档?/2,式(7)中參數(shù)α=1,γ=10.
使用平均精度均值(Mean Average Precision,MAP)評價模型,具體地,存在一個查詢樣本q 及其返回結(jié)果的列表,平均準確率(Average Precision,AP)的定義為:
其中,Nq表示查詢樣本q在數(shù)據(jù)庫中真正與之相關(guān)的樣本數(shù)目,nq是查詢樣本q檢索數(shù)據(jù)庫返回的結(jié)果總數(shù),P(m)表示前m個檢索結(jié)果的平均精度,I(m)=1表示第m個檢索樣本與查詢樣本相似,否則,I(m)=0表示第m個檢索樣本與查詢樣本不相似.所有查詢樣本AP的平均值即為MAP.
本文方法與其他基準模型在Flickr-25k,IAPR TC-12,MSCOCO 數(shù)據(jù)集上MAP的結(jié)果如表3所示.本次實驗主要有兩個任務(wù):(1) Text-Image:表示為圖像檢索文本,(2) Image-Text:表示為文本檢索圖像與當前最好的模型DCMH[10]相比,在Flickr-25k 數(shù)據(jù)集上的圖像檢索文本的任務(wù),本文方法在哈希碼為16 位時提高了2.02%,32 位時提高了2.11%,64 位時提高了1.57%;同時在文本檢索圖像時,本文方法在哈希碼16 位時提高了3.01%,32 位時提高了2.98%,64 位時提高了3.41%;在IAPR TC-12 數(shù)據(jù)集上的文本檢索圖像時,本文方法在哈希碼為16 位時提高了3.45%,在32 位時3.88%,在64 位時提高了5.32%,同時在圖像檢索文本的任務(wù),本文方法在哈希碼為16 位時提高了12.61%,32 位時提高了10.29%,64 位時提高了13.45%;在MSCOCO數(shù)據(jù)集上的文本檢索圖像時,本文方法在哈希嗎16 位時提高了8.68%,32 位時提高了7.71%,64 位時提高了8.53%,同時在圖像檢索文本任務(wù),本文方法在哈希碼為16 位時提高了6.80%,32 位時提高了4.31%,64 位時提高了5.47%.以上的數(shù)據(jù)表明了本文方法可以學(xué)習(xí)到更有判別能力的哈希碼.
表3 在Flickr-25k,IAPR TC-12,MSCOCO 數(shù)據(jù)集上的MAP 值
本文方法與DCMH[10]都是以監(jiān)督式的深度學(xué)習(xí)為基礎(chǔ)的.DCMH 方法是基于交叉熵的關(guān)聯(lián)損失函數(shù),使用Sigmoid 函數(shù)表示不同媒體對象哈希碼的語義相似度,只有漢明距離在k/2 周圍時,不同媒體對象哈希碼的語義相似度才具有判別力,而本文方法通過引入柯西分布提出基于柯西分布的關(guān)聯(lián)損失函數(shù),使不同媒體對象哈希碼的距離更小,獲取更具有判別力的語義相似度,進而提升跨媒體哈希檢索效果.
為了夠驗證Caughy 參數(shù)γ與漢明空間內(nèi)聚集區(qū)域大小的關(guān)系,設(shè)置r=2,5,10,20,30,50,設(shè)置哈希碼長度為64 位,設(shè)置哈希碼聚集的區(qū)域半徑為r=2,4,10,20,30,50.在Flickr-25k 數(shù)據(jù)集實驗結(jié)果如圖3所示,當γ={2,5,10}時,模型檢索準確率呈上升趨勢,當 γ={10,20,50}時,r={2,5} 時,模型的檢索準確率在下降,模型在r=10時模型比較穩(wěn)定.
圖3 不同的漢明距離在不同γ 下的準確率
另外,本文在表4和表5分別展示了本文方法的文本檢索圖像和圖像檢索文本兩個任務(wù)在Flickr-25k數(shù)據(jù)集上的一些例子.在表4和表5中,最左邊的一列代表查詢樣本的標簽,中間列代表查詢樣本,最右邊的一列代表檢索結(jié)果,哈希碼的長度為64 bit.表4展示文本檢索圖像的例子,中間列為圖像,最右邊列為圖像檢索文本的結(jié)果,該結(jié)果通過計算查詢圖像的哈希碼與被檢索文本哈希碼之間的漢明距離,再按照漢明距離從小到大按順序排列,獲得與查詢圖像最相似的文本.同理.表5展示圖像檢索像的例子,中間列為文本,最右邊列為文本檢索圖像的結(jié)果.
表4 文本檢索圖像的例子
表5 圖像檢索文本的例子
本文提出了一種基于柯西分布的深度哈??缑襟w檢索模型,它能夠產(chǎn)生質(zhì)量較高哈希碼.通過在Flickr-25k,IAPR TC-12和MSCOCO 三個數(shù)據(jù)集上與現(xiàn)有方法的對比,證明本文方法在跨媒體圖文檢索任務(wù)上的有效性.但本文方法只是圖文之間的檢索,下一步工作將他們應(yīng)用到其他媒體類型數(shù)據(jù),例如圖像與視頻相互檢索,文本與視頻相互檢索.