?
基于深度自學(xué)習(xí)的圖像哈希檢索方法*
通信地址:650223 云南省昆明市云南開(kāi)放大學(xué)云南省干部在線學(xué)習(xí)學(xué)院Address:Yunnan Province Cadres Online Learning College,Yunnan Open University,Kunming 650223,Yunnan,P.R.China
歐新宇1,2,伍嘉3,朱恒4,李佶5
(1.云南開(kāi)放大學(xué)云南省干部在線學(xué)習(xí)學(xué)院,云南 昆明 650223;
2.華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430074;3.云南開(kāi)放大學(xué)經(jīng)濟(jì)與管理學(xué)院,云南 昆明 650223;
4.云南大學(xué)信息學(xué)院,云南 昆明 650091;5.昆明長(zhǎng)水國(guó)際機(jī)場(chǎng)信息部,云南 昆明 650000)
摘要:基于監(jiān)督學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)被證明在圖像識(shí)別的任務(wù)中具有強(qiáng)大的特征學(xué)習(xí)能力。然而,利用監(jiān)督的深度學(xué)習(xí)方法進(jìn)行圖像檢索,需要大量已標(biāo)注的數(shù)據(jù),否則很容易出現(xiàn)過(guò)擬合的問(wèn)題。為了解決這個(gè)問(wèn)題,提出了一種新穎的基于深度自學(xué)習(xí)的圖像哈希檢索方法。首先,通過(guò)無(wú)監(jiān)督的自編碼網(wǎng)絡(luò)學(xué)習(xí)到一個(gè)具有判別性的特征表達(dá)函數(shù),這種方法降低了學(xué)習(xí)的復(fù)雜性,讓訓(xùn)練樣本不需要依賴于有語(yǔ)義標(biāo)注的圖像,算法被迫在大量未標(biāo)注的數(shù)據(jù)上學(xué)習(xí)更強(qiáng)健的特征。其次,為了加快檢索速度,拋棄了傳統(tǒng)利用歐氏距離計(jì)算相似性的方法,而使用感知哈希算法來(lái)進(jìn)行相似性衡量。這兩種技術(shù)的結(jié)合確保了在獲得更好的特征表達(dá)的同時(shí),獲得了更快的檢索速度。實(shí)驗(yàn)結(jié)果表明,提出的方法優(yōu)于一些先進(jìn)的圖像檢索方法。
關(guān)鍵詞:自學(xué)習(xí);感知哈希算法;棧式自編碼算法;無(wú)監(jiān)督學(xué)習(xí);圖像檢索
1引言
基于內(nèi)容的圖像檢索[1~4]的核心思想是通過(guò)比較圖像的語(yǔ)義相似性,從圖像數(shù)據(jù)庫(kù)中找出與查詢圖像最相近的圖片集合,并根據(jù)相似度進(jìn)行排序。在大規(guī)模的圖像檢索任務(wù)中,相似性的度量通常是采用一種有效的索引結(jié)構(gòu)來(lái)對(duì)整幅圖像進(jìn)行全局描述。例如,倒排文檔[5]、哈希算法[6]和基于顏色空間的直方圖[2]。然而,由于查詢目標(biāo)的多樣性,簡(jiǎn)單的全局相似性衡量并不是總能得到較滿意的結(jié)果。例如,方向梯度直方圖(HoG)特征[4]比較適合描述結(jié)構(gòu)復(fù)雜的圖像,而具有顏色顯著性的圖像又適合于使用基于顏色、紋理特征的檢索[3]。因此,如何用同樣的算法高效地完成不同分布圖像的檢索成了基于內(nèi)容的圖像檢索的關(guān)鍵。要實(shí)現(xiàn)這一目標(biāo),需要解決以下兩個(gè)方面的問(wèn)題:
(1)對(duì)圖像提取更深層次、更普遍的特征,例如高層的語(yǔ)義信息,并將特征轉(zhuǎn)換成可表達(dá)的形式。
(2)對(duì)于提出的特征,尋找一種更加快速的方法進(jìn)行檢索,以保證檢索算法的實(shí)時(shí)性。
對(duì)于第(1)個(gè)問(wèn)題,本文將深度學(xué)習(xí)引入到特征學(xué)習(xí)中。深度學(xué)習(xí)[7~9]展現(xiàn)了其在這方面的強(qiáng)大性,利用深層次的網(wǎng)絡(luò),算法可以實(shí)現(xiàn)圖像信息的語(yǔ)義化學(xué)習(xí),將原始的像素表達(dá)變成一種可識(shí)別的信息。與此同時(shí),深度網(wǎng)絡(luò)可以輕松地輸出特征表達(dá),用于分類或檢索。
對(duì)于第(2)個(gè)問(wèn)題,本文采用了一種快速的相似性對(duì)比技術(shù)——哈希編碼,相對(duì)于傳統(tǒng)的歐氏距離的衡量方法,哈希算法[6,10],特別是感知哈希算法,具有更優(yōu)秀的性能。
2相關(guān)工作
通常如果有一個(gè)足夠強(qiáng)大的機(jī)器學(xué)習(xí)算法,為了獲得更好的性能,最有效的方法之一是給這個(gè)算法提供更多的數(shù)據(jù)。人們總是可以嘗試獲取更多的已標(biāo)注的數(shù)據(jù),例如,使用手工標(biāo)注,或采用類似亞馬遜土耳其機(jī)器人AMT(Amazon Mechanical Turk)[11]的自動(dòng)標(biāo)注工具,然而這種方法成本很高,并且難以完成,特別是在大數(shù)據(jù)下并不現(xiàn)實(shí)。如果算法能夠從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)特征,那么我們可以輕易獲得大量無(wú)標(biāo)注的數(shù)據(jù),并從中學(xué)習(xí)到有用的特征。盡管一個(gè)已標(biāo)注的樣本蘊(yùn)含的信息遠(yuǎn)比未標(biāo)注的樣本信息多,但如果能讓算法有效地利用大量無(wú)標(biāo)注的數(shù)據(jù),將比大規(guī)模的手工構(gòu)建特征和標(biāo)注數(shù)據(jù),獲得更好的性能。自學(xué)習(xí)可以利用大量未標(biāo)注的數(shù)據(jù),學(xué)習(xí)出較好的特征描述。在解決一個(gè)具體的分類或檢索問(wèn)題時(shí),可以基于這些學(xué)習(xí)出的特征和任意的已標(biāo)注的數(shù)據(jù)(可能是少量的),使用有監(jiān)督學(xué)習(xí)方法完成微調(diào),并進(jìn)一步提高分類和檢索的性能。
無(wú)監(jiān)督特征學(xué)習(xí)和深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的方法被用來(lái)從無(wú)標(biāo)注的數(shù)據(jù)中進(jìn)行特征提取。近來(lái)有很多基于無(wú)監(jiān)督學(xué)習(xí)框架成功的案例文獻(xiàn),例如RBMs[12]、autoencoders[13,14]、sparse coding[15]、K-means[16]。本文利用無(wú)監(jiān)督學(xué)習(xí)和感知哈希技術(shù)相結(jié)合,擴(kuò)展到圖像檢索領(lǐng)域,獲得了較好的效果。
3基于自學(xué)習(xí)的特征提取
無(wú)監(jiān)督特征學(xué)習(xí),通常有兩種方式,一種是帶限制性條件的半監(jiān)督學(xué)習(xí),它要求未標(biāo)注的樣本xu和已標(biāo)注的樣本xl具有相同的分布,可以想象的是,在實(shí)踐中常常無(wú)法滿足這種要求。自學(xué)習(xí)(Self-Taught Learning)[17]是一種更為一般、更強(qiáng)大的學(xué)習(xí)方式,它不要求未標(biāo)注的樣本xu和已標(biāo)注的樣本xl來(lái)自同樣的分布。圖1顯示了本文提出的基于深度自學(xué)習(xí)哈希的圖像檢索方法的通用框架,包含兩個(gè)明顯的步驟:離線階段和在線階段。離線階段通過(guò)未標(biāo)注的數(shù)據(jù)訓(xùn)練一個(gè)稀疏自編碼網(wǎng)絡(luò),從中得到有用的特征。然后利用該訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)去訓(xùn)練待查詢數(shù)據(jù),并將其生成的特征通過(guò)哈希算法生成哈希編碼。在線階段,同樣將查詢數(shù)據(jù)輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中生成特征,之后將該特征利用訓(xùn)練階段相同的哈希算法生成哈希編碼,再計(jì)算該編碼與已生成的訓(xùn)練數(shù)據(jù)哈希編碼的漢明距離,從而獲得檢索結(jié)果。
Figure 1 Workflow of self-taught learning hashing for image retrieval圖1 基于自學(xué)習(xí)的圖像哈希檢索方法工作流程圖
(1)簡(jiǎn)單縮放:將原始數(shù)據(jù)的每一個(gè)維度的值進(jìn)行重新調(diào)節(jié)(對(duì)于彩色圖像分別對(duì)每個(gè)通道獨(dú)立操作),使得數(shù)據(jù)最終落在[0,1]的區(qū)間內(nèi)。具體如公式(1)所示:
xi=xi/255
(1)
(2)逐樣本均值消減:對(duì)圖像的每個(gè)數(shù)據(jù)點(diǎn)移除該樣本的均值,實(shí)現(xiàn)移除直流分量,即移除圖像平均亮度,因?yàn)橥ǔN覀儗?duì)圖像的亮度并不感興趣。如果x(i)∈Rn代表圖像I的每一個(gè)像素的亮度(灰度值)值,則可用以下算法進(jìn)行零均值化:
(3)白化:該步驟的主要目的是去除相鄰像素之間的相關(guān)性,降低輸入的冗余性,簡(jiǎn)單地說(shuō),通過(guò)白化操作,可以使學(xué)習(xí)算法的輸入具有:特征間相關(guān)性較低、所有特征具有相同方差的性質(zhì)。同時(shí),白化也類似于一個(gè)低通濾波器,它可以將高頻部分過(guò)濾掉,這有助于抑制噪聲。常見(jiàn)的方法包括PCA白化和ZCA白化??紤]到本文的算法不需要事先對(duì)數(shù)據(jù)進(jìn)行降維,因此ZCA方法進(jìn)行白化處理更合理。假設(shè)有R是任意正交矩陣(或旋轉(zhuǎn)或反射矩陣),即滿足RRT=RTR=I,令R等于特征矩陣U,即R=U,可以定義ZCA白化的結(jié)果為:
(2)
其中,第一項(xiàng)J(W,b)是均方差項(xiàng),第二項(xiàng)是規(guī)則化項(xiàng)(也叫權(quán)重衰減項(xiàng)),主要用于降低權(quán)重的幅度,防止過(guò)擬合,其中λ是權(quán)值衰減參數(shù),本文實(shí)驗(yàn)中λ=0.003。
梯度下降每一次迭代都按照如下公式對(duì)W和b進(jìn)行更新:
(3)
(4)
(1)進(jìn)行前向傳導(dǎo)計(jì)算,利用式(3)的前向傳導(dǎo)公式,得到L2,L3,…,Lnl層的激活值。
(2)對(duì)輸出層,計(jì)算殘差:
(3)對(duì)各隱層,計(jì)算殘差:
(4)計(jì)算偏導(dǎo)值:
(5)
(6)
在獲得了關(guān)于W(l)和b(l)的偏導(dǎo)值之后,將式(5)和式(6)分別代入式(3)和式(4)中,通過(guò)批量梯度下降算法的迭代步驟來(lái)最小化代價(jià)函數(shù)J(W,b)的值,進(jìn)而求解神經(jīng)網(wǎng)絡(luò)。
其中J(W,b)如式(2)所定義,而β是控制系數(shù)性懲罰因子的權(quán)重,本文中β=3。
類似地,隱層的殘差也修正為:
深度學(xué)習(xí)相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大優(yōu)點(diǎn)是逐層貪婪算法,通過(guò)將自編碼器“?;钡街饘迂澙酚?xùn)練法中,可以預(yù)訓(xùn)練整個(gè)深度神經(jīng)網(wǎng)絡(luò)。棧式自編碼神經(jīng)網(wǎng)絡(luò)是一個(gè)由多層稀疏自編碼器組成的神經(jīng)網(wǎng)絡(luò),其前一層自編碼器的輸出作為后一層自編碼器的輸入。逐層貪婪算法首先利用原始輸入來(lái)訓(xùn)練網(wǎng)絡(luò)的第一層,得到其參數(shù)W1、b1;然后網(wǎng)絡(luò)的第一層將原始輸入解碼成為由隱藏單元激活值組成的向量A,接著把A作為第二層的輸入,接著訓(xùn)練第二層的參數(shù)W2、b2;以此類推,采用同樣的方法得到第n層Wn、bn,即輸出層的參數(shù)。在訓(xùn)練每一層參數(shù)的時(shí)候,固定其他各層參數(shù)保持不變。為了得到更好的結(jié)果,在預(yù)訓(xùn)練完成之后,可以通過(guò)反向傳播算法同時(shí)調(diào)整所有層的參數(shù)以改善結(jié)果,這個(gè)稱為微調(diào)(Fine-Tuning)。圖2是一個(gè)包含三個(gè)隱層神經(jīng)元的基于棧式自編碼的自學(xué)習(xí)網(wǎng)絡(luò)??梢钥吹?,特征層一直接使用x作為輸入,然后將生成的結(jié)果作為特征層二的輸入;相似地,特征層三也使用特征層二的輸出作為輸入;最后特征層三的輸出被直接當(dāng)作樣本的特征表達(dá),進(jìn)行后續(xù)處理。
Figure 2 Self-taught learning network based on stacked autoencoders圖2 基于棧式自編碼網(wǎng)絡(luò)的自學(xué)習(xí)網(wǎng)絡(luò)
4基于感知哈希的檢索
得到了圖像的特征表達(dá)之后,通過(guò)感知哈希算法可以獲得最終的檢索結(jié)果,算法的主要步驟如下:
(1) 利用哈希激活函數(shù)將特征碼轉(zhuǎn)換成[0,1]的表達(dá)。
Y=sigmoid(X)
其中,X為輸入圖像矩陣,Y為經(jīng)過(guò)sigmoid函數(shù)所生成的像素值規(guī)范到[0,1]的變換矩陣。
(2) 分別計(jì)算每個(gè)圖像所有特征值的平均值。
(3) 二值化。
比較特征值與均值的大小,并進(jìn)行二值化,大于均值的記為1,小于或等于均值的記為0。
(4) 計(jì)算哈希值。
將上述的比較結(jié)果組合起來(lái)構(gòu)成一個(gè)n位的二值整數(shù),這就是一幅圖片的指紋。這個(gè)組合的順序并不重要,只需要保證所有采樣圖片都采用同樣的次序。
(5) 哈希檢索。
在得到指紋后,將圖片庫(kù)的圖片與待檢索圖片進(jìn)行按位比對(duì),并根據(jù)相同位數(shù)的個(gè)數(shù)進(jìn)行升序排列,獲得有序的檢索結(jié)果。這一步相當(dāng)于計(jì)算兩個(gè)指紋的漢明距離:
5實(shí)驗(yàn)及結(jié)果分析
本文在MNIST數(shù)據(jù)集上評(píng)估了自學(xué)習(xí)哈希(STLH)算法在不同條件下的性能,并且對(duì)比了目前四種比較優(yōu)秀的二進(jìn)制哈希算法:LSH(Locality Sensitive Hashing)[18]、SH(Spectral Hashing)[6]、SSH(Semi-Suppervised Hashing)[17]和RBMs(Restricte Boltzmann Machines)[19]。所有實(shí)驗(yàn)均基于Windows 8.1 x64操作系統(tǒng),1.8 GHz CPU和8 GB RAM內(nèi)存。
MNIST默認(rèn)包含70 000個(gè)手寫(xiě)數(shù)字樣本,其中訓(xùn)練樣本60 000個(gè),測(cè)試樣本10 000個(gè),每個(gè)樣本大小為28*28像素,每個(gè)采樣數(shù)據(jù)都被分配了0~9中的一個(gè)標(biāo)簽。為了驗(yàn)證無(wú)監(jiān)督學(xué)習(xí)的有效性,我們僅使用了原始的60 000個(gè)訓(xùn)練樣本,將其中共計(jì)29 404個(gè)5~9的數(shù)字作為無(wú)標(biāo)簽數(shù)據(jù)用于訓(xùn)練學(xué)習(xí)算法,并對(duì)剩余的0~4的數(shù)進(jìn)行訓(xùn)練,學(xué)習(xí)特征。0~4的數(shù)字平均分成兩部分,其中15 298個(gè)數(shù)字作為訓(xùn)練集去學(xué)習(xí)哈希函數(shù)和結(jié)構(gòu)化哈希查詢表,剩下的15 298個(gè)0~4的數(shù)字作為測(cè)試算法效率的測(cè)試數(shù)據(jù)。圖像的灰度值直接作為768維特征向量被使用。對(duì)于LSH算法,隨機(jī)選擇零均值和單位協(xié)方差的高斯分布去構(gòu)造哈希表。對(duì)于RBMs,直接使用Torralba A等[20]提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。
本文使用漢明排序來(lái)量化評(píng)估檢索性能。漢明距離使用每一個(gè)測(cè)試樣本在訓(xùn)練樣本中的查詢結(jié)果進(jìn)行計(jì)算和排序。查詢結(jié)果根據(jù)返回圖像的距離進(jìn)行排序,并依據(jù)其對(duì)應(yīng)的語(yǔ)義標(biāo)簽來(lái)計(jì)算其準(zhǔn)確性。圖3a展示了8位、16位、32位、48位、64位、96位、128位、256位共計(jì)8組不同的編碼長(zhǎng)度下,整個(gè)樣本的平均正確率曲線。可以看到相比其他學(xué)習(xí)方法,STLH方法始終具有2倍的圖像檢索正確率。此外,圖3b顯示了48位編碼下的平均正確率-召回率曲線,可以看出STLH算法在漢明空間中具有較大的性能優(yōu)勢(shì)。圖3c是不同算法的訓(xùn)練時(shí)間,RBMs算法具有最昂貴的訓(xùn)練代價(jià),大約是其他算法的3個(gè)數(shù)量級(jí),而STLH也有2個(gè)數(shù)量級(jí)的訓(xùn)練代價(jià)。由于算法的訓(xùn)練是離線完成的,并不直接影響查詢的效率,因此該代價(jià)是可以接受的。與此同時(shí),對(duì)于查詢時(shí)間來(lái)說(shuō),RBMs需要10倍的時(shí)間通過(guò)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)去計(jì)算二進(jìn)制代碼;SH算法生成編碼的時(shí)間略多于其他三種算法;STLH算法雖然使用的是神經(jīng)網(wǎng)絡(luò),但由于它具有較簡(jiǎn)單的結(jié)構(gòu),因此其特征碼生成時(shí)間幾乎和LSH和SSH算法相當(dāng)??傮w來(lái)看,特征碼生成時(shí)間可以排序?yàn)椋篟BMs?SH>TLSH≈SSH≈LSH。
Figure 3 Petrieval performance comparison of the five methods on MNIST dataset圖3 MNIST數(shù)據(jù)集上五種方法的檢索性能對(duì)比圖
為了可視化最近鄰的查詢質(zhì)量,本文在圖4中展示了一個(gè)樣本分別使用五種不同算法的查詢結(jié)果。其中最左邊的第一個(gè)框內(nèi)的數(shù)字是待查詢樣本,由上至下分別是使用了48位編碼的LSH、SS、RBMs、SSH、STLH算法的檢索結(jié)果。可以看出STLH算法和SSH算法在前49個(gè)查詢結(jié)果中都獲得了100%的正確率,算法效果都很理想。
為了比較不同的輸出編碼長(zhǎng)度對(duì)檢索效果的影響,我們使用了正確率-召回率曲線來(lái)衡量算法的性能。其中:
在圖5中可以看到,隨著編碼長(zhǎng)度的增加,圖像檢索的性能也隨著增加。這主要是因?yàn)樵谧晕覍W(xué)習(xí)網(wǎng)絡(luò)中,較多的隱層神經(jīng)元可以學(xué)習(xí)到更多豐富的細(xì)節(jié)特征,從而提高圖像的識(shí)別能力,而最后一個(gè)隱層神經(jīng)元的數(shù)量即圖像最終的編碼長(zhǎng)度,因此編碼長(zhǎng)度直接影響了圖像最終的檢索性能。在MNIST數(shù)據(jù)集上,當(dāng)輸出的隱層神經(jīng)元增加到64個(gè)時(shí),算法的性能基本上趨于穩(wěn)定。這主要是因?yàn)镸NIST數(shù)據(jù)集的樣本屬于灰度圖像,且前景和背景顏色具有較高的對(duì)比度,因此不需要太多的神經(jīng)元就可以學(xué)習(xí)到較好的特征。
Figure 4 Retrieval results of the five methods on MNIST dataset圖4 五種算法在MNIST數(shù)據(jù)集上距離最近的49個(gè)查詢結(jié)果圖
Figure 5 PR-curve of different code length圖5 不同編碼大小的正確率-召回率曲線
圖6展示了不同深度(STLH-1~4分別代表包含1~4個(gè)隱層的自學(xué)習(xí)網(wǎng)絡(luò))的自學(xué)習(xí)網(wǎng)絡(luò)對(duì)檢索性能的影響,可以看到由于MNIST數(shù)據(jù)的特殊性,更深層次的網(wǎng)絡(luò)并沒(méi)有對(duì)性能有所提升,相反隨著神經(jīng)網(wǎng)絡(luò)深度的增加,梯度逐漸產(chǎn)生了衰減,反而影響了整體的平均性能。但是,可以預(yù)測(cè)的是,當(dāng)使用較復(fù)雜的彩色圖像進(jìn)行訓(xùn)練,更深的神經(jīng)網(wǎng)絡(luò)可以比淺層的神經(jīng)網(wǎng)絡(luò)獲得更好的性能,因?yàn)樗梢詫W(xué)到更豐富的細(xì)節(jié)特征。
Figure 6 PR-curves of different depths圖6 不同深度的網(wǎng)絡(luò)下的正確率-召回率曲線
6結(jié)束語(yǔ)
本文提出了一種利用自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)去高效地學(xué)習(xí)圖像的哈希表達(dá)的方法,并進(jìn)一步進(jìn)行檢索排序。該方法通過(guò)無(wú)標(biāo)注的數(shù)據(jù)去訓(xùn)練自學(xué)習(xí)網(wǎng)絡(luò),這有效地回避了獲取大量已標(biāo)注數(shù)據(jù)的困難,同時(shí),利用自學(xué)習(xí)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),學(xué)習(xí)到了比其他算法更好的特征表達(dá)。同時(shí)利用感知哈希算法,進(jìn)行特征檢索,大大地提高了檢索的性能。實(shí)驗(yàn)表明,本文提出的算法不僅是有效的,而且還獲得了較好的效果。
參考文獻(xiàn):附中文
[1]Jegou H,Douze M,Schmid C.Product quantization for nearest neighbor search [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(1):117-128.
[2]Wang Jian-feng,Xiao Guo-qiang,Jiang Jian-min.An image retrieval algorithm based on the HSI color space accumulative histogram [J].Computer Engineering & Science,2007,29(4):55-58.(in Chinese)
[3]Wu Yong-ying,Ma Xiao-fei.Implementation of the CBIR system based on colour,space and texture features [J].Computer Engineering & Science,2005,27(6):40-42.(in Chinese)
[4]Cai Li-jun.Research on content-based image retrieval with relevance feedback[D].Kaifeng:Henan University,2013.(in Chinese)
[5]Liu Jin-ling.Chinese junk SMS retrieval based on query words expansion[J].Computer Engineering,2011,37(8):52-54.(in Chinese)
[6]Weiss Y,Torralba A,Fergus R.Spectral hashing[J].Proc NIPS, 2008,282(3):1753-1760.
[7]Krizhevsky A,Sutskever I,Hinton G E.Image netclassification with deep convolutional neural networks[C]∥Advances in Neural Information Processing System,2012:1.
[8]Oquab M,Bottou L E O,Laptev I,et al.Learning and transferring mid-level image representations using convolutional neural networks[C]∥Proc of IEEE Conference on Computer Vision and Pattern Recognition,2014:1.
[9]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[J].arXiv preprint arXiv:1311.2524.2013.
[10]Lu Min, Huang Ya-lou, Xie Mao-qiang, et al. Rank hash similarity for fast similarity search [J].Information Processing & Management,2013,49(1):158-168.
[11]Ipeirotis P G. Analyzing the Amazon mechanical turk marketplace[J].XRDS:Crossroads,The ACM Magazine for Students,2010,17(2):16-21.
[12]Hinton G E,Osindero S,Teh Y.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[13]Hinton G E.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[14]Bengio Y, Lamblin P, Popovici D, et al.Greedy layer-wise training of deep networks[C]∥Advances in Neural Information Processing Systems,2007:153.
[15]Lee H,Battle A,Raina R,et al.Efficient sparse coding algorithms[C]∥Advances in Neural Information Processing Systems,2007:801.
[16]Coates A,Ng A Y,Lee H.An analysis of single-layer networks in unsupervised feature learning[J].Journal of Machine Learning Research,2011,15:215-223.
[17]Wang J, Kumar S, Chang S.Semi-supervised hashing for scalable image retrieval[C]∥Proc of CVPR’10,2010:1.
[18]Gionis A,Indyk P,Motwani R,et al.Similarity search in high dimensions via hashing[C]∥Proc of International Conference on Very Large Data Bases,2000:518-529.
[19]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[20]Torralba A,Fergus R,Weiss Y.Small codes and large image databases for recognition[C]∥Proc of IEEE Conference on Computer Vision & Pattern Recongnition,2008:1-8.
[2]王劍峰,肖國(guó)強(qiáng),江健民.基于HSI色彩空間累加直方圖的圖像檢索算法[J].計(jì)算機(jī)工程與科學(xué),2007,29(4):55-58.
[3]吳永英,馬笑飛.基于顏色、空間和紋理特征的CBIR系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2005,27(6):40-42.
[4]蔡利君.基于內(nèi)容的交互式圖像檢索技術(shù)的若干問(wèn)題研究[D].開(kāi)封:河南大學(xué),2013.
[5]劉金嶺.基于查詢?cè)~擴(kuò)展的中文垃圾短信檢索[J].計(jì)算機(jī)工程,2011,37(8):52-54.
歐新宇(1982-),男,云南昆明人,博士,副教授,CCF會(huì)員(E200038862G),研究方向?yàn)樯疃葘W(xué)習(xí)、機(jī)器學(xué)習(xí)、圖像檢索和計(jì)算機(jī)視覺(jué)。E-mail:ouxinyu@hust.edu.cn
OU Xin-yu,born in 1982,PhD,associate professor,CCF member(E200038862G),his research interests include deep learning,machine learning,image retrieval, and computer vision.
伍嘉(1976-),女,云南昆明人,副教授,研究方向?yàn)橛?jì)算機(jī)科學(xué)與教育、多媒體技術(shù)和電子商務(wù)。E-mail:252586696@qq.com
WU Jia,born in 1976,associate professor,her research interests include computer science and education,multimedia technology, and e-Commerce.
朱恒(1981-),男,云南昆明人,碩士,助理研究員,研究方向?yàn)檐浖こ毯托畔z索。E-mail:39208790@qq.com
ZHU Heng,born in 1981,MS,assistant researcher,his research interests include software engineering, and information retrieval.
李佶(1989-),男,云南昆明人,助理工程師,研究方向?yàn)橛?jì)算機(jī)軟件工程、數(shù)據(jù)庫(kù)和集群計(jì)算。E-mail:mrli2002@hotmail.com
LI Ji,born in 1989,assistant engineer,his research interests include software engineering,database, and cluster computing.
Image hashing retrieval method based on deep self-learning
OU Xin-yu1,2,WU Jia3,ZHU Heng4,LI Ji5
(1.Yunnan Province Cadres Online Learning College,Yunnan Open University,Kunming 650223;
2.School of Computer Science & Technology,Huazhong University of Science and Technology,Wuhan 430074;
3.School of Economics and Management,Yunnan Open University,Kunming 650223;
4.School of Information Science and Engineering,Yunnan University,Kunming 650223;
5.Department of Information,Kunming Changshui International Airport,Kunming 650000,China)
Abstract:Convolutional neural networks are an established powerful self-learning ability in image recognition tasks. However, supervised deep learning methods are prone to over-fitting when the labeled data are small or noisy. To solve these problems, we propose a novel deep self-learning image hashing retrieval method, an unsupervised learning. First, we can obtain a function with discriminative features via unsupervised auto-encoding networks, which reduces learning complexity, thus enabling training images not to rely on their semantic labels. The algorithm is, therefore, forced to learn more robust features from the massive unlabeled data. In order to speed up the query, a perceptual hash algorithm is employed. The combination of these two techniques guarantee a better feature description and a faster query speed without depending on labeled data. Experimental results demonstrate that the proposed approach is superior to some of state-of-the-art methods.
Key words:self-learning;perceptual hash algorithm;stacked auto-encoding algorithm;unsupervised learning;image retrieval
作者簡(jiǎn)介:
doi:10.3969/j.issn.1007-130X.2015.12.029
中圖分類號(hào):TP391.7
文獻(xiàn)標(biāo)志碼:A
基金項(xiàng)目:云南省教育廳應(yīng)用基礎(chǔ)研究計(jì)劃資助項(xiàng)目(2012Y503);云南省科技廳應(yīng)用基礎(chǔ)研究計(jì)劃項(xiàng)目青年資助項(xiàng)目(2012FD064);云南開(kāi)放大學(xué)科學(xué)研究基金資助項(xiàng)目(2014-05);國(guó)家自然科學(xué)基金資助項(xiàng)目(61274092)
收稿日期:修回日期:2015-03-13
文章編號(hào):1007-130X(2015)12-2386-07