田少驊 胡琦瑤 蒙澤新 王炅昱
摘 要:現(xiàn)今主流的圖像檢索技術(shù)需人工添加數(shù)據(jù)集標簽后,方可對深度學(xué)習(xí)網(wǎng)絡(luò)進行訓(xùn)練。但人為添加標簽會花費大量時間及精力,并且對圖片標簽的描述有一定的條件性和規(guī)則性,因此添加的標簽不能夠很好地代表大眾的視覺習(xí)慣,不利于神經(jīng)網(wǎng)絡(luò)的深度訓(xùn)練,得到的結(jié)果準確率不盡如人意。為解決這些問題,文中提出了一種基于提取標簽顯著性區(qū)域的深度學(xué)習(xí)圖像檢索方法。首先,對圖片集進行網(wǎng)絡(luò)標簽粗過濾,去除與圖片無關(guān)的噪聲標簽;其次,提取已知圖像的顯著性區(qū)域,對顯著性區(qū)域標簽進行向量化;將確定顯著性區(qū)域圖像的三元組作為VGG16網(wǎng)絡(luò)的輸入,通過三元組目標函數(shù)對圖像進行學(xué)習(xí);通過漢明距離的判斷,得到檢索的相似圖片。實驗對比表明,現(xiàn)有方法的準確率相比原有方法準確性提高了3%。
關(guān)鍵詞:顯著性區(qū)域;標簽向量化;word2vec;圖像三元組;圖像檢索;哈希編碼
中圖分類號:TP391.41文獻標識碼:A文章編號:2095-1302(2020)09-00-04
0 引 言
傳統(tǒng)圖像檢索技術(shù)缺點明顯,如人工工作量大,且一幅圖像只有一個哈希編碼,無法準確代表人類的視覺習(xí)慣,同時檢索精確度大大降低。現(xiàn)有的網(wǎng)絡(luò)用戶圖像分享系統(tǒng)在快速發(fā)展,如Flickr,Photobucker,Picasa WebAlbums,這些系統(tǒng)不僅提供了大量且豐富的數(shù)據(jù)標簽,更因其標簽具有人類視覺的習(xí)慣特點,有利于更好地進行深度網(wǎng)絡(luò)訓(xùn)練?;诖?,本文改進了傳統(tǒng)的網(wǎng)絡(luò)檢索技術(shù),對已知數(shù)據(jù)庫的圖片進行初步噪聲過濾,提取顯著性區(qū)域的向量標簽,并對其進行深度網(wǎng)絡(luò)訓(xùn)練得到哈希編碼,以提高檢索精確度。利用數(shù)據(jù)集圖片哈希編碼和被檢索圖片之間哈希編碼的漢明距離來判斷圖像的相似度,從而得到被檢索的圖像信息。這種基于提取顯著性區(qū)域網(wǎng)絡(luò)標簽的深度學(xué)習(xí)圖像檢索方法將大大提高檢索精度,減少人工的工作量。
1 粗過濾網(wǎng)絡(luò)標簽
考慮到使用NUS-WIDE數(shù)據(jù)集直接過濾網(wǎng)絡(luò)標簽十分困難,所以本文將網(wǎng)絡(luò)標簽的過濾問題轉(zhuǎn)換為視覺內(nèi)容與圖像標簽相關(guān)度排序問題。本文采用Aixin Sun[1]等人提出的內(nèi)聚性和分散性方法來判斷標簽是否可以被剔除。該方法的核心思想:在數(shù)據(jù)集NUS-WIDE中,若有已知特定標簽的圖像集P,那么從圖像集P中任意抽取的一組圖像集C,他們之間的相似度一定小于圖像集P之間的相似度。圖像越相似,底層特征的特征向量距離越小,計算過程如下。
(1)使用K-means聚類算法分別迭代整個圖像集P、聚類中心CP以及含有具體標簽d的圖像集p的聚類中心Cpd。
(2)計算P的分散距離sdP和內(nèi)聚距離cdP。
(3)從P中隨意抽取N個圖片,并計算其內(nèi)聚距離cdC,以及C與P的分散距離sdC。
(4)如果P的內(nèi)聚距離cdP小于或等于C的內(nèi)聚距離cdC,且P的分散距離sdP大于或等于C與P的分散距離sdC,則保留該標簽;否則,剔除該標簽。
2 標簽顯著性區(qū)域提取
2.1 顯著性區(qū)域集合
采用二值化賦范特性(BING)[2]算法提取圖片顯著性區(qū)域。一個圖片可以擁有多個顯著性區(qū)域,考慮到不同的人看同一幅圖片的重點會有所不同,所以多個顯著性區(qū)域會大大增強檢索技術(shù)的精確度,而BING算法很好地將整幅圖像的檢索技術(shù)轉(zhuǎn)換為基于顯著性區(qū)域的檢索技術(shù)。
使用全局特征信息(GIST)[3]算法提取每一個顯著性區(qū)域的特征向量,得到其512維的特征向量。為了挖掘圖片的相似度,通過每兩個顯著性區(qū)域的512維特征向量的歐氏距離來判斷樣本之間的相似度。計算公式如下所示:
提取的顯著性區(qū)域的歐氏距離越小則相似度越高,當其值小于設(shè)定的閾值時,則判定2個顯著性區(qū)域之間為相似。通過計算,形成顯著性區(qū)域的相似集合和不同顯著區(qū)域的集合。
本文將NUS-WIDE數(shù)據(jù)集中的每一張圖片都提取顯著性區(qū)域,一張圖片將被劃分為多個部分。之后,將這些顯著性區(qū)域提取特征向量,通過歐氏距離將顯著性區(qū)域重新分類,形成新標簽的顯著性區(qū)域集合。
2.2 語義標簽向量化
圖片的語義標簽一般是具有強烈鮮明特點的名詞或者形容詞,此時,顯著性區(qū)域?qū)⒏菀壮蔀橛脩籼砑泳W(wǎng)絡(luò)標簽的目標,并且相似的顯著性區(qū)域會更加容易出現(xiàn)相同的語義標簽。本文采用word2vec算法提取標簽的特征向量,使用TF-IDF[4]算法對已提取的標簽向量進行再次量化。通過TF-IDF算法能夠?qū)Υ诌^濾后的標簽進行處理,得到相似的語義網(wǎng)絡(luò)標簽。具有相似語義的網(wǎng)絡(luò)標簽,其特征向量也相似。提取詞語的詞頻TF和權(quán)值參數(shù)IDF,得到顯著性區(qū)域標簽的特征向量。
2.3 顯著性區(qū)域標簽向量化
得到圖片的相似顯著性區(qū)域的集合以及顯著性語義標簽的特征向量之后,將顯著性區(qū)域與語義標簽建立對應(yīng)關(guān)系。
對相似的顯著區(qū)域所在圖像的TF-IDF標簽向量按位進行向量求和,將數(shù)值最大的索引位index所代表的標簽向量作為這些相似的顯著性區(qū)域共同的語義標簽。具體的計算公式如下所示:
式中:N表示N個圖像有相似顯著性區(qū)域;R表示一張圖中的標簽數(shù)目;P表示指定圖片中的指定標簽的向量;index表示標簽通過位計算后的最高索引。本文將最終得到的最大索引量作為該特定顯著性區(qū)域的向量標簽。
3 深度網(wǎng)絡(luò)模型訓(xùn)練
近年來,哈希方法[5-6]是解決近似最近鄰檢索問題的主流方法。
無監(jiān)督哈希算法通過圖片數(shù)據(jù)對哈希函數(shù)進行訓(xùn)練,由于不包含有圖片的網(wǎng)絡(luò)標簽,即圖片的文字信息,所以訓(xùn)練的結(jié)果不盡如人意。而基于CNN的有監(jiān)督哈希學(xué)習(xí)[7-8]卻取得了較好的實驗結(jié)果,能夠處理復(fù)雜的文字信息。
在提取顯著性區(qū)域的標簽后,本文將顯著性區(qū)域的標簽作為判斷圖像是否相似的標準。如果幾幅圖像的顯著性區(qū)域標簽相同,則可判定為相似;否則,為不相似。
3.1 顯著性三元組
建立圖片的顯著性三元組作為深度網(wǎng)絡(luò)的輸入信息。每3張圖片為一組,其中兩張圖片為顯著性區(qū)域吻合的圖片,另一張圖片的顯著性區(qū)域完全不相同。通過提取一系列的三元組,將這些集合作為深度網(wǎng)絡(luò)模型訓(xùn)練的輸入。基于圖片顯著性區(qū)域而非整幅圖像的網(wǎng)絡(luò)訓(xùn)練將大大提高檢索精確度。圖像三元組示例如圖2所示。
3.2 深度學(xué)習(xí)模型
本文選擇使用大規(guī)模圖像識別的深度卷積網(wǎng)絡(luò)VGG16作為深度學(xué)習(xí)的模型。對網(wǎng)絡(luò)模型進行優(yōu)化,去掉VGG16的最后一個全連接層,添加三個全連接層,分別為:Dense_1,共1 024個神經(jīng)元;Dense_2,共512個神經(jīng)元;Dense_3,共64個神經(jīng)元。優(yōu)化的全連接層減少了計算量。
為了防止過擬合,本文選擇L2正則化約束,并在后三個全連接層兩兩之間添加dropout,對Dense_3輸出加L1正則化約束,使得輸出特征稀疏化,以利于之后對其進行哈希化。
將網(wǎng)絡(luò)最后的輸出圖像特征當作嵌入空間,并使網(wǎng)絡(luò)進行空間中數(shù)據(jù)語義分布的計算,使得相似的漢明距離更近,不相似的漢明距離更遠。
3.3 哈希函數(shù)訓(xùn)練
本文選擇tanh作為激活函數(shù),有利于進行公式哈?;?,且輸出特征是零中心,有利于網(wǎng)絡(luò)梯度下降。在Dense_3進行哈?;幚恚沟眉せ詈瘮?shù)映射為(-1,1),輸出特征映射為0或1,以節(jié)省存儲空間。利用漢明距離計算特征向量間相似性的時間復(fù)雜度相比歐式距離更低。
當給定顯著性區(qū)域的特征向量時,將Dense_3的輸出值作為該區(qū)域的特征向量,對該特征向量的每一位都進行式(9)所示的運算,即可得到本文需要的二進制哈希編碼。
4 實驗結(jié)果
用戶輸入一張圖片,首先會提取一張圖片的顯著性區(qū)域,接著將提取的信息輸入VGG16網(wǎng)絡(luò)進行學(xué)習(xí),最終獲得其特征標簽向量并對其進行哈?;?。圖像檢索流程如圖3所示。
分別計算此哈希編碼與數(shù)據(jù)集中顯著性區(qū)域的哈希編碼間的漢明距離,將漢明距離最小的前n個哈希碼所對應(yīng)的圖像作為最終返回的檢索結(jié)果。實驗中,分別以16位、32位、48位、64位的哈希碼輸出。
NUS-WIDE[10]數(shù)據(jù)集為本次顯著性區(qū)域的網(wǎng)絡(luò)標簽的深度學(xué)習(xí)圖像檢索方法測試所用數(shù)據(jù)集。因該數(shù)據(jù)集存在的方式是圖像的網(wǎng)絡(luò)地址,而其中一部分網(wǎng)絡(luò)地址已經(jīng)失效,所以本文選擇了有效部分的網(wǎng)絡(luò)地址所代表的圖像作為最終訓(xùn)練測試集。如果檢索出來的圖像與被檢索的圖像大于等于一個共同的網(wǎng)絡(luò)標簽,則可判定它們相似。本文采用平均精度(MAP)作為評價指標。
為了更好地檢測圖像檢索的精確度,將本文的方法(SNDIR)與現(xiàn)今主流的圖像檢索技術(shù)[11-13]進行對比測試,具體如圖4所示。
采用不同長度哈希碼的MAP結(jié)果經(jīng)對比可以明顯得出,在使用不同長度的哈希碼進行圖像檢索時,本文的SNDIR方法的MAP明顯優(yōu)于主流圖像檢索方法[14-15],證明了該檢索方法能夠很好地利用網(wǎng)絡(luò)標簽使檢索結(jié)果達到滿意的效果。SNDIR方法在不同哈希編碼長度下檢索圖片的效果均優(yōu)于基于弱監(jiān)督的圖像檢索方法,但在哈希編碼比較短的情況下,SNDIR的圖像檢索方法與傳統(tǒng)基于有監(jiān)督圖像檢索方法相比并未顯示出優(yōu)越性,而當哈希編碼較長時,SNDIR檢索效果的優(yōu)越性比較突出。
當哈希編碼長度增長時,SNDIR方法的MAP出現(xiàn)了轉(zhuǎn)折性大幅度增長,所以在進行網(wǎng)絡(luò)訓(xùn)練時應(yīng)盡量選用長度較長的哈希編碼,使得檢索效果精確度得到提升?;陲@著性區(qū)域網(wǎng)絡(luò)標簽的圖像檢索方法有著更加豐富的網(wǎng)絡(luò)標簽,而更加精細的標簽會使得網(wǎng)絡(luò)學(xué)習(xí)更加精確。
5 結(jié) 語
本文論述的是一種基于顯著性區(qū)域網(wǎng)絡(luò)標簽的深度學(xué)習(xí)圖像檢索技術(shù),利用算法直接提取圖片的顯著性區(qū)域并進行向量化,同時也對網(wǎng)絡(luò)標簽進行向量化處理,找出不同顯著性區(qū)域最適合的特征向量。之后通過三元組的學(xué)習(xí)輸出后,對顯著性區(qū)域的特征向量進行哈?;幚?,得到二進制特征向量。檢索時,輸入圖片,最終根據(jù)顯著性區(qū)域的哈希編碼間的漢明距離求得數(shù)據(jù)集中圖像的相似度,得到與被檢索圖像相似的圖。
與傳統(tǒng)的圖片檢索技術(shù)相比,本文的方法更節(jié)省人力。本文使用的訓(xùn)練圖片有相對豐富的網(wǎng)絡(luò)資源,且更加細致,更符合人類的視覺習(xí)慣。通過實驗測試,證明了相比主流的圖像檢索技術(shù),在使用長哈希編碼的基礎(chǔ)上,使用本文方法檢索圖像更加精確。
注:本文通訊作者為胡琦瑤。
參考文獻
[1] SUN A,BHOWMICK S S. Quantifying tag representativeness of visual content of social images [C]// Proceedings of the 18th ACM international. conference on Mult-imedia. ACM,2010:471-480.
[2] Ming Ming Cheng,Ziming Zhang,Wen Yan Lin,et al. BING: Binarized normed gradients for objectness estimation at 300 fps [Z].Computational Visual Media,2018.
[3] Torralba,Murphy,F(xiàn)reeman,et al. Con-text-based vision system for place and object recognition[C]// Proceedings Ninth IEEE International Conference on Com-puter Vision. IEEE,2008.
[4]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J].計算機科學(xué), 2016(6):214-217.
[5] GIONIS A,INDYK P,MOTWANI R. Similarity search in high dimensions via hashing [J].Vldb,1999(6):518-529.
[6] JAIN P,KULIS B,GRAUMAN K. Fast image search for learned metrics [Z]. 2008.
[7] LIU W,WANG J,JI R,et al. Supervised hashing with kernels [C]// Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on. IEEE,2012:2074-2081.
[8] NOROUZI M,BLEI D M. Minimal loss hashing for compact binary codes[C]// Proceedings of the 28th international conference on machine learning(ICML-11). 2011:353-360.
[9] LIN K,YANG H F,HSIAO J H,et al. Deep learning of binary hash codes for fast image retrieval [C]// Proceedings of the I-EEE conference on computer vision and pattern recognition workshops,2015:27-35.
[10] CHUA T S,TANG J,HONG R,et al. NUS-WIDE:a real-world web image database from National University of Singap-ore [C]// Proceedings of the ACM internat-ional conference on image and video retr-ieval. ACM,2009:48.
[11] WANG J,KUMAR S,CHANG S F. Semi-supervised hashing for scalable image retrieval [C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:1-40.
[12] WEISS Y,TORRALBA A,F(xiàn)ERGUS R. Spectral hashing [C]// Advances in neural information processing systems,2009:1753-1760.
[13] YANG H F,LIN K,CHEN C S. Supervised learning of semantics-preserving hash via deep convolutional neural networks [J]. IEEE transactions on pattern analysis and machine intelligence,2018,40(2):437-451.
[14] XIA R,PAN Y,LAI H,et al. Supervised hashing for image retrieval via image representation learning [Z]. AAAI,2014.
[15] ZHANG R,LIN L,ZHANG R,et al. Bit-scalable deep hashing with regularized similarity learning for image retrieval and person re-identification [J]. IEEE transactions on image processing,2015,24(12):4766-4779.