王娜
摘要:對圖像檢索技術(shù)進行了研究,提出了一種基于視覺和語義的圖像檢索算法。首先使用稠密的尺度不變特征轉(zhuǎn)換構(gòu)造視覺單詞的方式來描述圖像的視覺內(nèi)容,然后依據(jù)一種基于概率隱語義分析的自適應(yīng)不對稱學(xué)習(xí)方法去融合并學(xué)習(xí)視覺模態(tài)和文本模態(tài)信息得到的語義特征對查詢圖像進行初步檢索,最后在此結(jié)果集上對選出的語義相關(guān)圖像按視覺內(nèi)容相似度排序輸出。通過實驗表明,利用視覺和語義的算法能夠提高圖像的檢索效果,具有更好的檢索性能。
關(guān)鍵詞:文本語義;視覺內(nèi)容;圖像檢索;數(shù)據(jù)建模與學(xué)習(xí)
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)25-0178-02
Abstract: The technology of image retrieval is studied, and an image retrieval algorithm Based on vision and semantics is proposed.The first use of dense scale invariant feature transform structure of visual Words to describe visual content of image, then the adaptive asymmetrical learning method Based on probabilistic analysis to integrate and learn the semantic mode and text mode information, the query image is initially retrieved, finally, the selected semantic related images are sorted out according to the similarity of the visual content in the result set.Experiments show that the algorithm can improve the retrieval effect and improve the retrieval performance.
Key words: Text semantics; Visual content; image retrieval; Data modeling and learning
隨著科學(xué)技術(shù)的飛速發(fā)展,在我們生活中的各個領(lǐng)域都離不開計算機。當(dāng)今網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和存儲技術(shù)日新月異,圖像被各行各業(yè)廣泛的使用,其來源和數(shù)據(jù)庫的規(guī)模都在不斷擴大和增長。怎樣從眾多的圖像庫中尋找圖像信息?這就需要一種有效的圖像檢索技術(shù)能準(zhǔn)確、快速地查找圖像,并且成為近年來研究領(lǐng)域關(guān)注的熱點。
本文提出了一種基于視覺內(nèi)容和文本語義的圖像檢索算法,有效地提高了圖像檢索的性能。
1 基于視覺內(nèi)容和文本語義的圖像檢索算法
1.1 概述
當(dāng)今,常用的圖像檢索技術(shù)有兩種:TBIR、CBIR。TBIR效果較好,主要利用圖像的標(biāo)注進行文本搜索進而完成圖像的檢索,但由于圖像數(shù)據(jù)集的不斷擴大,致使這種技術(shù)已經(jīng)滿足不了應(yīng)用的需要[1]。CBIR主要應(yīng)用在醫(yī)學(xué)圖像檢索、指紋識別、等領(lǐng)域,是通過高維索引和特征提取完成圖像的檢索,但由于語義存在鴻溝,使得該技術(shù)也不能完全滿足用戶需求。由于TBIR和CBIR都存在缺陷,因此很多學(xué)者把這兩種技術(shù)融合起來,盡可能地提高圖像檢索的性能。
本文提出了一種基于視覺內(nèi)容和文本語義的圖像檢索算法,該算法為了充分發(fā)揮視覺和文本的優(yōu)勢,通過考慮選取特征、確定視覺和文本的權(quán)值、分層檢索三個方面進而提高了檢索的性能。
1.2 數(shù)據(jù)建模、學(xué)習(xí)
本文中釆用的數(shù)據(jù)建模算法為PLSA,分別對圖像的視覺和文本建模后,采用自適應(yīng)不對稱的學(xué)習(xí)方法把它們的信息進行融合形成一個新概率模型,在此模型中把視覺和語義的特征也關(guān)聯(lián)起來了[3]。對于圖像而言,在建模時需使用BOW算法先描述有效的視覺詞再建模,而對于文檔則可以直接對文本詞建模。
1.2.1 描述圖像內(nèi)容
通??梢酝ㄟ^BOW模型與向量化被提取的視覺特征相結(jié)合對訓(xùn)練集圖像的視覺內(nèi)容進行描述,本文采用DSIFT方式對視覺單詞進行構(gòu)造進而完成圖像視覺內(nèi)容的描述,步驟如下:
(1) 縮放訓(xùn)練集中的所有圖像至統(tǒng)一大小,并將其分解為E×F子塊,對間隔G個像素進行采樣,然后得到SIFT描述子;
(2) 采用聚類生成描述子字典,獲得視覺單詞;
(3) 在視覺字典中找到圖像中每個子塊最接近的單詞,并進行標(biāo)記。對圖像中單詞出現(xiàn)的次數(shù)進行統(tǒng)計,生成直方圖,得到基于BOW模型描述的圖像視覺內(nèi)容。
至此,訓(xùn)練集中的所有圖像可以同時描述一個視覺詞和文本詞的集合,為基于PLSA算法的圖像建模、學(xué)習(xí)奠定了基礎(chǔ)。
1.2.2 自適應(yīng)不對稱學(xué)習(xí)
上述方法只是通過文本信息構(gòu)造一個把視覺和文本相關(guān)聯(lián)的語義空間。為了更好地利用圖像的文本和視覺信息,這里采用一種自適應(yīng)不對稱學(xué)習(xí)方法,加權(quán)由學(xué)習(xí)兩種信息獲得的主題分布,采用自適應(yīng)方式對兩種信息進行不對稱地融合,這樣會使圖像的視覺內(nèi)容和語義更好地在一個共享的語義空間內(nèi)關(guān)聯(lián)。
經(jīng)研究得出:如果在圖像視覺詞直方圖中分布出現(xiàn)稀疏或高峰時,視覺信息能更好地體現(xiàn)出圖像內(nèi)容;如果在圖像視覺詞直方圖中分布出現(xiàn)均勻的情況時,則文本信息能更好地體現(xiàn)出圖像內(nèi)容。為此,判斷對圖像內(nèi)容影響大小的主要因素可以根據(jù)視覺詞直方圖的分布情況。在統(tǒng)計學(xué)中,對象的分布熵可以判定直方圖分布的稀疏情況,因此,可以通過統(tǒng)計視覺詞的分布熵對視覺信息與文本信息影響圖像內(nèi)容的百分比進行計算,如式(6),也就是所謂的融合權(quán)值:endprint
1.3 檢索算法描述
基于提高圖像檢索性能的基本思想,本文提出了一種基于視覺內(nèi)容與文本語義的檢索算法,具體如下所述:
(1) 通過DSIFT構(gòu)造視覺單詞的方法描述訓(xùn)練集中所有圖像的視覺內(nèi)容,得到基于BOW模型的視覺詞[v(di)],并對所有圖像的文本語義進行處理,得到文本詞[w(di)];
(2) 采用PLSA算法建模學(xué)習(xí)視覺詞[v(di)]和文本詞[w(di)],獲得視覺模態(tài)和文本模態(tài)相對應(yīng)的主題分布[Pv(sd)]和[Pw(td)];
(3) 對所有圖像視覺詞的分布摘[H(v(di))]進行計算,然后通過權(quán)值的確定對視覺主題分布[Pv(sdi)]與文本主題分布[Pw(tdi)]進行融合,進而獲得混合主題分布[P(zdi)];
(4) 采用疊入算法學(xué)習(xí)混合主題分布[P(zdi)],得到視覺詞與文木詞的分布[P(vz)]與[P(wz)];
(5) 計算未知語義測試集圖像的基于BOW模型的視覺詞[v(dnew)],再次采用疊入算法對[v(dnew)]進行處理并學(xué)習(xí)[P(vz)],獲得主題分布[P(zdnew)];
(6) 根據(jù)[P(wz)]、[P(zdnew)]及式(5)可獲得語義信息[P(wdnew)],[dnew]的語義特征就是排序后選擇的最大后驗概率的若干文本詞;
(7) 比較庫中文本和待查詢圖像的語義特征,對包含該語義特征的圖像進行挑選,即語義相關(guān)圖像集;
(8) 對相關(guān)圖像集的視覺特征和待查詢圖像自動獲取的視覺特征的相似度進行計算,基于歐式距離由小到大排序輸出圖像,即最終檢索的結(jié)果[4]。
2 結(jié)束語
隨著圖像數(shù)據(jù)庫規(guī)模的急劇增長,圖像檢索有著廣闊的應(yīng)用前景[5]。有效的檢索超大規(guī)模的圖像數(shù)據(jù)庫已成為當(dāng)前多媒體領(lǐng)域的研究熱點。經(jīng)研究,基于視覺內(nèi)容與文本語義的圖像檢索算法的檢索效率高于基于視覺信息的圖像檢索算法,可以獲得更好的檢索效果。
參考文獻:
[1] 史美艷.基于語義的圖像檢索技術(shù)研究[D].山東大學(xué),2011.
[2] K.R. Castleman. 數(shù)字圖像處理[M]. 北京:清華大學(xué)出版社, 2003.
[3] 顧昕.基于文本語義和視覺內(nèi)容的圖像檢索技術(shù)研究[D]. 廈門:廈門大學(xué),2014.
[4] 李平,陳向東.一種基于Zernike分布矩與Contourlet變換相融合的彩色圖像檢索算法[J].華中師范大學(xué)學(xué)報:自然科學(xué)版,2015,49(2):190-194.
[5] Dengsheng Zhang, Md Monirul Islam, Guojun Lu.A review on antomatic image annotation techniques[J]. Pattern Recognition,2012,45(1):436-362.endprint