鄭 好
(南京理工大學(xué)圖書館 江蘇 南京 210094)
基于圖書館應(yīng)用圖像檢索中的用戶研究綜述
鄭 好
(南京理工大學(xué)圖書館 江蘇 南京 210094)
基于圖像內(nèi)容檢索一定程度上提高圖像檢索效果,但抽取出來(lái)的圖像低層特征與人對(duì)圖像的語(yǔ)義理解之間存在很大的差距,而將用戶作為圖像檢索研究中的一個(gè)出發(fā)點(diǎn)能夠很好的減少語(yǔ)義鴻溝現(xiàn)象。本文總結(jié)了基于用戶研究的圖像檢索方法,包括基于相關(guān)反饋、基于感興趣區(qū)域、基于用戶情感等相關(guān)方法,對(duì)每種方法的含義、原理及應(yīng)用進(jìn)行總結(jié)。
圖像檢索;用戶研究;相關(guān)反饋;感興趣區(qū)域;用戶情感
隨著多媒體技術(shù)的高速發(fā)展和Internet的普及,數(shù)字圖像的數(shù)量快速增長(zhǎng),我們已經(jīng)進(jìn)入讀圖時(shí)代。圖像以其內(nèi)容豐富、表現(xiàn)直觀等特點(diǎn),已在國(guó)防軍事、工業(yè)制造、醫(yī)療衛(wèi)生、新聞媒體和大眾娛樂(lè)等領(lǐng)域發(fā)揮著重要作用。但是隨著日益增大的圖像數(shù)據(jù)庫(kù),圖像無(wú)序化問(wèn)題也越來(lái)越突出,如何在龐大的圖像數(shù)據(jù)庫(kù)中快速找到用戶感興趣的圖像已成為一個(gè)亟待解決的問(wèn)題。
Internet網(wǎng)中圖像的檢索經(jīng)歷了兩個(gè)階段:第一階段是以關(guān)鍵字為基礎(chǔ)的檢索;第二階段是以圖像內(nèi)容為基礎(chǔ)的檢索。以關(guān)鍵字為基礎(chǔ)的檢索是基于文本的檢索,由于圖像內(nèi)容復(fù)雜,不同個(gè)體理解不一致,難以用文字描述圖像,并且對(duì)圖像標(biāo)注費(fèi)時(shí)費(fèi)力,基于文本的圖像檢索效果并不能很好地滿足用戶的需求。在20c90s開(kāi)始出現(xiàn)基于內(nèi)容圖像檢索(Content-Based Image Retrieval,CBIR),借助于對(duì)圖像從低層到高層進(jìn)行自動(dòng)處理和分析來(lái)描述其內(nèi)容,并根據(jù)內(nèi)容進(jìn)行檢索[2]。它是將圖像表示為高維空間中的矢量,這些矢量是由從圖像中提取的顏色、紋理、形狀等底層特征組成的。基于內(nèi)容的圖像檢索在一定程度上提高了圖像檢索的效果,但又出現(xiàn)的一個(gè)很嚴(yán)重的問(wèn)題—語(yǔ)義鴻溝:抽取出來(lái)的圖像低層特征與人對(duì)圖像的語(yǔ)義理解之間存在很大的差距,用戶仍然不能找到滿意的圖像。研究者發(fā)現(xiàn)將用戶作為圖像檢索研究中的一個(gè)出發(fā)點(diǎn)能夠很好的減少語(yǔ)義鴻溝現(xiàn)象。目前研究者提出多種方法,包括:(1)相關(guān)反饋法,其思想是通過(guò)人機(jī)交互,讓系統(tǒng)能夠根據(jù)用戶的選擇猜測(cè)用戶的檢索意圖,并能自動(dòng)地調(diào)整相似度量準(zhǔn)則;(2)感興趣區(qū)檢測(cè)法,其思想是以分割后的區(qū)域的特征來(lái)描述圖像,并以區(qū)域?yàn)閱挝粊?lái)匹配圖像,以找到用戶感興趣的圖像;(3)基于用戶的情感出發(fā),以用戶情感為線索檢索圖像,其目標(biāo)是以圖像可能激發(fā)的人的主觀體驗(yàn)(即情感語(yǔ)義特征,或者感性特征)為中間橋梁,實(shí)現(xiàn)用戶檢索需求與圖像之間的匹配。
相關(guān)反饋法是基于內(nèi)容的圖像檢索中最常用的方法,其檢索過(guò)程有如下幾個(gè)步驟:(1)提交初始檢索,系統(tǒng)返回初始檢索結(jié)果;(2)用戶對(duì)排序前10(或前20)的結(jié)果評(píng)價(jià)是否和本次檢索相關(guān),相關(guān)稱為正反饋樣本,不相關(guān)稱為負(fù)反饋樣本;(3)系統(tǒng)根據(jù)用戶提交的反饋對(duì)檢索優(yōu)化,將新的檢索結(jié)果返回;(4)如果用戶仍不滿意,可重復(fù)反饋。
根據(jù)相關(guān)反饋算法所采用的檢索模型把算法分為查詢點(diǎn)移動(dòng)、特征權(quán)重調(diào)整、基于概率模型、基于機(jī)器學(xué)習(xí)、基于聚類分析等方法。
(1)查詢點(diǎn)移動(dòng):查詢點(diǎn)移動(dòng)算法是通過(guò)用戶的反饋信息,改變數(shù)據(jù)庫(kù)中每幅圖像與查詢圖像之間的距離,使相似點(diǎn)靠近查詢圖像,不相似的點(diǎn)遠(yuǎn)離查詢圖像。
(2)特征權(quán)重調(diào)整:對(duì)圖像不同的特征賦予不同的權(quán)值,系統(tǒng)根據(jù)用戶的反饋信息,把用戶認(rèn)為與查詢圖像相似的特征賦予較大的權(quán)重而不相似的特征賦予較小的權(quán)重,然后根據(jù)調(diào)整后的權(quán)重計(jì)算圖像間的相似度。曹奎等提出一種新的基于灰關(guān)聯(lián)分析(GRA)的相關(guān)反饋技術(shù),它使用GRA來(lái)描述“例子圖像”與“相關(guān)圖像”之間的關(guān)系,并據(jù)此更新查詢向量和特征的權(quán)重,據(jù)此自動(dòng)更新圖像的相似度量和用戶的查詢需求。
(3)基于概率模型:把相關(guān)反饋看成是一個(gè)分類問(wèn)題,大部分情況下考慮的是兩類分類問(wèn)題。以貝葉斯(Bayesian)理論等為基礎(chǔ),通過(guò)用戶的反饋信息,估計(jì)每一幅圖像與查詢圖像的相關(guān)概率,將高概率的圖像檢索出來(lái),從而提高檢索效率。張亮等提出一種基于動(dòng)態(tài)學(xué)習(xí)用戶模型的貝葉斯概率檢索方法。通過(guò)對(duì)歷史反饋信息的長(zhǎng)期學(xué)習(xí),動(dòng)態(tài)估算用戶模型,從而預(yù)測(cè)目標(biāo)圖像的概率分布。
(4)基于機(jī)器學(xué)習(xí):將交互過(guò)程看做一個(gè)訓(xùn)練過(guò)程,通過(guò)對(duì)訓(xùn)練樣本的學(xué)習(xí),逐步了解用戶的具體查詢目的,并建立圖像特征與用戶查詢目的間對(duì)應(yīng)的模型,根據(jù)該模型來(lái)進(jìn)行新一輪的檢索。常小紅等從機(jī)器學(xué)習(xí)的角度出發(fā),提出了一種基于RBFN的相關(guān)反饋算法。即在檢索階段用戶對(duì)檢索結(jié)果標(biāo)記為相關(guān)圖像、模糊相關(guān)圖像和不相關(guān)圖像,然后將這些反饋信息作為訓(xùn)練樣本,動(dòng)態(tài)地建立RBFN的結(jié)構(gòu),這個(gè)過(guò)程反復(fù)進(jìn)行,直到用戶得到滿意的結(jié)果或失去耐心為止[8]。
(5)基于聚類分析:首先對(duì)特征空間進(jìn)行聚類劃分,形成不同的圖像類,相關(guān)圖像落在一類中或距離較近的類中,而不相關(guān)圖像則落入距離較遠(yuǎn)的類中,然后計(jì)算每?jī)蓚€(gè)類之間的權(quán)重作為類間相似度的度量。通過(guò)調(diào)整類的大小和類間權(quán)重,進(jìn)一步減小相似類間距,并使不相似的類遠(yuǎn)離。陳光鵬、楊育彬等在圖像檢索中引入蟻群算法的思想,來(lái)建立圖像的語(yǔ)義網(wǎng)絡(luò),將用戶反饋日志轉(zhuǎn)化為圖像的語(yǔ)義關(guān)聯(lián)信息并存儲(chǔ)在語(yǔ)義關(guān)聯(lián)矩陣中。
(6)結(jié)合機(jī)器學(xué)習(xí)和聚類分析:有些學(xué)者將以上幾種方法綜合起來(lái)應(yīng)用,如陳旭文等提出了一種綜合用戶反饋信息時(shí)空特性的用戶反饋學(xué)習(xí)方法—時(shí)空特性支持向量機(jī)(SKSVM)方法。在學(xué)習(xí)中,時(shí)空特性支持向量機(jī)(SKSVM)根據(jù)用戶反饋信息的空間特性,強(qiáng)化用戶感興趣的正例集合,弱化用戶不感興趣的負(fù)例集合,合理利用正負(fù)例子蘊(yùn)涵的信息;同時(shí)在時(shí)間上考慮反饋信息的時(shí)間特性,強(qiáng)化最近的反饋信息,實(shí)現(xiàn)快速準(zhǔn)確的跟蹤用戶的查詢需求。
研究表明用戶在觀察圖像的時(shí)候,最容易引起用戶注意的部分往往是用戶感興趣的部分,也就是圖像中最“與眾不同”的部分,與周圍其他部分相比更加顯著的部分。于是產(chǎn)生感興趣區(qū)檢測(cè)法ROI(region of interest),這種方法的基本思想是以分割后的區(qū)域的特征來(lái)描述圖像,選取用戶最感興趣的關(guān)鍵區(qū)域來(lái)描述圖像,并以區(qū)域?yàn)閱挝粊?lái)匹配圖像。這種檢索方法區(qū)分了區(qū)域的重要程度,進(jìn)一步消除冗余信息,回避了精確分割的困難,并明顯地降低圖像處理的復(fù)雜度,提高運(yùn)算速度。
基于感興趣區(qū)域方法的關(guān)鍵是獲得用戶感興趣區(qū)域,總結(jié)近年來(lái)的研究可以歸納為三種方法:(1)人機(jī)交互;(2)自動(dòng)化方法;(3)視點(diǎn)跟蹤技術(shù)。
(1)人機(jī)交互
人機(jī)交互的方法是目前最常用的獲取感興趣區(qū)域的方法,它是基于各種算法將圖像劃分區(qū)域,由用戶選擇圖像中的若干區(qū)域作為感興趣區(qū)。如郝紅衛(wèi)等提出先由用戶選擇感興趣區(qū)域,然后提取所選區(qū)域的多種特征,分別構(gòu)造相應(yīng)的分類器,最后通過(guò)對(duì)各分類器結(jié)果的集成得到檢索結(jié)果。實(shí)驗(yàn)結(jié)果表明,這種方法能夠準(zhǔn)確獲取用戶的查詢意圖,具有更高的查準(zhǔn)率。金磊等提出了一種基于用戶感興趣區(qū)域的圖像檢索算法。該算法首先對(duì)樣例進(jìn)行多分辨率樹(shù)狀分解,再由用戶選擇分解后的任意多個(gè)感興趣的子圖,提取子圖的特征以進(jìn)行相似性度量,并應(yīng)用相關(guān)反饋以更好地捕獲用戶的檢索意圖。高和蓓等采用基于目標(biāo)的圖像分割的方法把圖像分成幾個(gè)目標(biāo)區(qū)域,提取能表達(dá)該區(qū)域內(nèi)容的特征向量并保存在特征庫(kù)里,然后再通過(guò)與用戶的交互,確定用戶感興趣的區(qū)域,把這些感興趣區(qū)域投射劍目標(biāo)區(qū)域上,繼而用這些區(qū)域的若干特征來(lái)表示該區(qū)域內(nèi)容,并從圖像數(shù)據(jù)庫(kù)中查詢具有相應(yīng)特征區(qū)域的圖片反饋給用戶。
(2)自動(dòng)化方法
李麗君認(rèn)為感興趣區(qū)域是圖像中顯著的像素集合,這些像素稱為顯著點(diǎn)或興趣點(diǎn)?;陲@著點(diǎn)劃分圖像,更符合人眼的視覺(jué)感知特性,有助于用戶理解圖像,并且顯著點(diǎn)能夠有效地捕捉到圖像的局部信息。李麗君提出的方法是利用最小差錯(cuò)概率準(zhǔn)則,檢測(cè)圖像的顯著點(diǎn)。顯著點(diǎn)是顯著度圖的局部最大值,顯著點(diǎn)通過(guò)將后面點(diǎn)送到峰值檢測(cè)模塊識(shí)別出來(lái)。
(3)視點(diǎn)跟蹤技術(shù)
人眼注視運(yùn)動(dòng)傳遞了大量反映個(gè)體心理活動(dòng)的信息。趙孟凱等提出了一種利用視點(diǎn)跟蹤技術(shù)檢測(cè)感興趣區(qū)的方法,通過(guò)實(shí)時(shí)捕獲人眼的注視點(diǎn),客觀地獲得用戶興趣信息,根據(jù)注視點(diǎn)位置計(jì)算用戶興趣度,最終提取圖像感興趣區(qū)。這種方法在高分辨率及保證精度的前提下,同時(shí)滿足交互自然性和實(shí)時(shí)性的要求。
目前的圖像檢索大多是基于低層物理特征的相似性匹配,對(duì)用戶的愛(ài)好、情感等主觀感性化因素考慮較少。感性信息處理通過(guò)讓計(jì)算機(jī)能夠模擬和識(shí)別用戶的偏好、喜愛(ài)等主觀信息,適應(yīng)不同用戶的不同需求。基于此,出現(xiàn)了基于用戶情感的圖像檢索。
基于用戶情感的方法的基本原理:借鑒心理學(xué)中的“維量”思想,建立情感空間;同時(shí),抽取圖像的主色調(diào)、不變拒、顏色和灰度分布,這些較容易引起情感變化的特征作為圖像的視覺(jué)特征,建立圖像的特征空間;采用支持向量機(jī)的方法建立圖像的低層特征空間到用戶的高層情感空間之間的映射,自動(dòng)注釋用戶未曾評(píng)估的圖像,實(shí)現(xiàn)了圖像情感注釋,在情感空間進(jìn)行公共情感檢索,快速獲得用戶情感信息。檢索流程包括感性提問(wèn)的接收和轉(zhuǎn)化、檢索匹配、檢索結(jié)果的反饋、相關(guān)反饋。具體的基于情感的圖像檢索過(guò)程如下例所示:(1)用戶提出帶有情感色彩的檢索要求,如檢索“美麗的”的圖片,檢索子系統(tǒng)根據(jù)情感用戶模型獲取侯選圖像顯示給用戶;(2)通過(guò)交互,系統(tǒng)記錄用戶的反饋信息;(3)采用合適的學(xué)習(xí)機(jī)制,動(dòng)態(tài)調(diào)節(jié)用戶情感模型,以使系統(tǒng)能夠?qū)崿F(xiàn)個(gè)性化的情感圖像檢索。
王勝惠等將可視化交互式遺傳算法應(yīng)用到情感圖像檢索中,提出了一種可視化交互式遺傳算法(VIGA)模型,允許用戶參加遺傳搜索過(guò)程,用戶可以通過(guò)對(duì)整個(gè)搜索過(guò)程加一個(gè)導(dǎo)向的信號(hào),引導(dǎo)遺傳過(guò)程朝用戶的主觀情感方向發(fā)展,這樣不僅能夠加快收斂速度和減少用戶疲勞,而且能夠更準(zhǔn)確的反映出用戶的主觀情感,在更高程度上實(shí)現(xiàn)圖像的感性搜索。
縱觀圖像檢索技術(shù)的發(fā)展,從基于文本的關(guān)鍵字檢索發(fā)展到基于內(nèi)容的圖像檢索是圖像檢索領(lǐng)域的重大跨越。但是基于內(nèi)容的圖像檢索中低層次的物理特征與用戶高層次的語(yǔ)義需求之間出現(xiàn)嚴(yán)重的不匹配現(xiàn)象,進(jìn)而發(fā)現(xiàn)在圖像檢索中考慮用戶的因素,從用戶的相關(guān)反饋、用戶感興趣區(qū)域、用戶情感、用戶圖像檢索中的交互行為等角度考慮都能不同程度地提高圖像檢索系統(tǒng)的檢索結(jié)果。因此要提高圖像檢索的檢索效果,用戶研究是研究重點(diǎn)。
[1]馬超,唐治德,.相關(guān)反饋技術(shù)在圖像檢索系統(tǒng)中的應(yīng)用[J].重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2007,(1):81-84.
[2]張亮,周向東,張琪,施伯樂(lè).圖像檢索中基于長(zhǎng)期學(xué)習(xí)的動(dòng)態(tài)用戶模型[J].軟件學(xué)報(bào),2005,(2):233-238.
[3]常小紅,張明,.基于RBFN的交互式圖像檢索方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,(9):31-34.
[10]陳旭文,朱紅麗.一種高效的圖像檢索方法[A]..[C].:,2007.
[4]官倩寧,田卉,覃團(tuán)發(fā),.基于ROI多特征和相關(guān)反饋的圖像檢索算法[J].計(jì)算機(jī)科學(xué),2008,(5):257-259+269.
[5]趙孟凱,張菁,卓力,沈蘭蓀,.基于視點(diǎn)跟蹤的感興趣區(qū)檢測(cè)方法[J].數(shù)據(jù)采集與處理,2010,(1):50-55.
[6]王上飛,陳恩紅,李金龍,王煦法,.基于感性的圖像評(píng)估與檢索[J].模式識(shí)別與人工智能,2001,(3):297-301
[7]王勝惠,王上飛,王煦法.可視化交互式遺傳算法及其在圖像感性檢索中的應(yīng)用[J].小型微型計(jì)算機(jī)系統(tǒng),2004,(3):399-403.