邵福波,黃 靜
(1.中國中車股份有限公司博士后科研工作站,北京 100161;2.青島科技大學(xué),山東 青島 266100)
隨著數(shù)碼設(shè)備的普及以及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,圖像在人們?nèi)粘I钪械闹匾匀找嬖黾樱罅康膱D像、視頻數(shù)據(jù)在醫(yī)學(xué)影像、數(shù)字圖書館、工業(yè)產(chǎn)權(quán)、遙感系統(tǒng)等許多領(lǐng)域得到應(yīng)用,從而產(chǎn)生了對可以有效檢索多媒體數(shù)據(jù)系統(tǒng)的需求。而圖像檢索實現(xiàn)了對圖像庫的有效查詢和管理,它是指從大規(guī)模圖像數(shù)據(jù)庫中檢索出與文本查詢或視覺查詢相關(guān)的圖像。因此,從大量的數(shù)字圖像中快速準(zhǔn)確地檢索到用戶所需圖像的研究成為一個有意義且急需解決的課題。
自20世紀(jì)70年代,人們就開始了對圖像檢索的研究,當(dāng)時主要是基于文本的圖像檢索(text-based image retrieval,TBIR),利用文本來描述圖像的特征,然后借助文本匹配進行圖像的檢索。目前基于文本的檢索技術(shù)已經(jīng)發(fā)展成熟,如Page-Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等[1]。TBIR的特點是快速精準(zhǔn),但存在以下缺點:首先,文本標(biāo)注圖像不能全面地反映圖像本身的重要信息,圖像的豐富內(nèi)容使得文字描述顯得較為匱乏;其次,海量的圖像造成人工標(biāo)注工作量大,需要耗費大量的人力和時間;最后,文字的標(biāo)識帶有很大的主觀性,再加上人們對圖像資源的管理要求也越來越高,雖然TBIR 已經(jīng)被成功地商業(yè)化應(yīng)用,例如百度搜索、谷歌搜索等,但不能滿足網(wǎng)絡(luò)上日新月異的各類圖像的檢索需求。
90年代以后,出現(xiàn)了基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)技術(shù),它是對圖像的內(nèi)容,如圖像的顏色、紋理、形狀等低層特征進行分析和查詢的圖像檢索技術(shù)。通過對圖像的視覺內(nèi)容進行數(shù)學(xué)描述來提取圖像特征,這些低層特征的數(shù)學(xué)描述能夠反映圖像本身的視覺內(nèi)容。圖像特征的相似度度量是在對圖像特征提取的基礎(chǔ)上,按照某種相似度計算方法進行相似度計算(比如歐式距離),通過對相似度結(jié)果進行排序,檢索到用戶所需的圖像。CBIR檢索系統(tǒng)利用了計算機快速計算的能力,自動對圖像內(nèi)容進行特征提取和相似度度量,既得到了圖像的視覺特征,又克服了文本標(biāo)注的缺陷,大大提高了檢索效果,其特點是全局特征的運算速度較快、實現(xiàn)簡單。除此之外,檢索系統(tǒng)還可以通過相關(guān)反饋機制動態(tài)調(diào)整低層特征的提取方式和相似度度量算法來優(yōu)化檢索過程,得到更加接近人類視覺感知的檢索結(jié)果[2],這種利用圖像的全局特征進行圖像檢索的思想直到2003年都一直處于主導(dǎo)地位[3]。
在2004年,Lowe[4]提出了完善的尺度不變特征變換(scale-invariant feature transform,SIFT),于是,以SIFT為代表的局部特征描述符逐漸興起,局部特征描述符解決了全局描述符對亮度、變換、遮擋等不變性差的問題,隨后出現(xiàn)了依賴于BoW模型的詞典學(xué)習(xí)算法、FV算法、VLAD算法等[3],利用編碼的思想,在有效的局部特征的基礎(chǔ)上采用聚類等算法來獲得圖像的整體表達(dá)。為了克服基于簡單視覺特征的圖像檢索方法的不足,人們提出了基于語義的圖像檢索(semantic-based image retrieval,SBIR)技術(shù),與CBIR不同的是,SBIR是基于文字的查詢,包含了自然語言處理和傳統(tǒng)的圖像檢索技術(shù)[5-6]。SBIR是解決“語義鴻溝”的重要方法及思路,它不僅考慮了低層視覺特征,而且考慮了圖像的高層特征,如空間關(guān)系、場景和情感等方面的圖像信息。近年來,隨著深度學(xué)習(xí)理論的發(fā)展以及計算機性能的快速提升,出現(xiàn)了利用神經(jīng)網(wǎng)絡(luò)進行特征提取的圖像檢索算法。在2012年,Krizhevsky等[7]在 ImageNet LSVRC大賽上利用AlexNet取得了最高的準(zhǔn)確率,隨后興起了一些基于深度學(xué)習(xí)的圖像檢索算法,廣泛應(yīng)用于圖像檢索、圖像分類、目標(biāo)識別以及圖像語義分割等領(lǐng)域。在深度學(xué)習(xí)算法中尤其是卷積神經(jīng)網(wǎng)絡(luò)的檢索效果最為突出,它利用多個卷積層和池化層的組合得到圖像的視覺特征,并與反饋及分類技術(shù)相結(jié)合實現(xiàn)了較好的檢索結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)缺點是提取出來的特征向量沒有記錄圖像的空間位置信息,以人臉識別為例,當(dāng)人的五官的位置錯誤排列時,卷積神經(jīng)網(wǎng)絡(luò)依然會認(rèn)為圖像是一張正常的人臉。在 2017 年,深度學(xué)習(xí)之父Geoffrey Hinton[8]在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上研究出了膠囊網(wǎng)絡(luò),它克服了卷積神經(jīng)網(wǎng)絡(luò)的缺點,不僅記錄了圖像的整體信息,還記錄了圖像局部特征之間的位置信息,并且在手寫數(shù)字識別數(shù)據(jù)集上取得了前所未有的好結(jié)果。實驗結(jié)果表明,膠囊網(wǎng)絡(luò)在圖像的重構(gòu)和預(yù)測,以及圖像去噪等方面均取得了較好的結(jié)果。因此,從膠囊網(wǎng)絡(luò)的特點出發(fā),對模型的參數(shù)以及網(wǎng)絡(luò)深度進行調(diào)整,膠囊網(wǎng)絡(luò)將同樣可以應(yīng)用于圖像更為復(fù)雜的圖像檢索領(lǐng)域[9]。
圖像檢索經(jīng)歷了從文本到視覺內(nèi)容進行檢索的發(fā)展歷程,并且依托計算機技術(shù),進入了深度學(xué)習(xí)的時代[8]。目前圖像檢索技術(shù)已經(jīng)廣泛地應(yīng)用于日常生活以及商業(yè)化領(lǐng)域,但是依然存在一些不足之處,接下來將從四個方面進行介紹,并對圖像檢索的未來研究方向進行簡要分析。
(1)更有效地利用圖像深度特征。影響圖像檢索性能的關(guān)鍵是圖像特征的質(zhì)量,具有判別能力的信息多隱藏在深度特征中,而圖像的深度特征是高維且稀疏的。為了更好地得到圖像的表達(dá),更有效地利用這些圖像深度特征將成為未來研究的一個突破點。
(2)特定應(yīng)用場景下的圖像檢索。目前存在的圖像檢索算法均屬于通用圖像檢索算法,目的是對任意類型的圖像均實現(xiàn)有效的檢索。而隨著多媒體技術(shù)的發(fā)展,行業(yè)內(nèi)的圖像資源的價值會越來越重要,因此針對特定應(yīng)用場景的圖像檢索算法的研究會變得越來越有意義,例如基于草圖的圖像檢索、場景檢索、商品檢索、圖標(biāo)檢索、情感檢索、主題檢索等[10]。
(3)質(zhì)量以及通用性更佳的標(biāo)準(zhǔn)數(shù)據(jù)集。目前圖像檢索研究中可供選擇的標(biāo)準(zhǔn)數(shù)據(jù)集有多個,但都存在一些不足之處,例如圖像分辨率各不相同,圖像類型較單一(集中在建筑物、風(fēng)景、室內(nèi)物品方面)等。而圖像檢索是一個與實際生活密切相關(guān)的研究領(lǐng)域,因此,數(shù)據(jù)集中的圖像應(yīng)該更傾向于生活中更多的情景,構(gòu)建更大、更通用、質(zhì)量更高的標(biāo)準(zhǔn)數(shù)據(jù)集。
(4)客觀的圖像檢索評價指標(biāo)。目前多采用查全率和查準(zhǔn)率用于評價檢索效果,這一指標(biāo)的目標(biāo)是讓檢索系統(tǒng)從圖像庫中找到更多的相似圖像,是體現(xiàn)在數(shù)量上的評價指標(biāo),而在設(shè)計檢索系統(tǒng)時可能根據(jù)實際需求,以犧牲少量的相似圖像為代價來實現(xiàn)更好地檢索速度,此時查全率和查準(zhǔn)率將不再適用于這樣的檢索系統(tǒng)。因此,應(yīng)該從人的主觀意圖方面探索出新的評價指標(biāo)[11]。
實際生活中對圖像資源信息的需求為圖像檢索技術(shù)的發(fā)展提供了動力,從最初的文本檢索到基于內(nèi)容的圖像檢索,同時隨著人們對圖像的理解逐漸深入,出現(xiàn)了行為檢索、情感檢索等。從最初的單一方向發(fā)展逐漸轉(zhuǎn)變?yōu)槎喾较虻慕徊姘l(fā)展,例如編碼技術(shù)、圖像理解、圖像識別,均與檢索技術(shù)的發(fā)展相輔相成。并且隨著計算機性能的提升,圖像理論知識和深度學(xué)習(xí)算法的發(fā)展,使得圖像檢索在日常生活中的應(yīng)用更為廣泛。