曾倩倩 張婷婷
摘要 多媒體信息已經(jīng)成為現(xiàn)代人們生活中不可或缺的一個(gè)部分,網(wǎng)絡(luò)技術(shù)的介入功能也在不斷地發(fā)展當(dāng)中,網(wǎng)絡(luò)上發(fā)布的信息也由單一的文本逐漸發(fā)展為由圖像、視頻、音頻組成的綜合信息。而且,隨著自媒體時(shí)代的到來(lái),各種移動(dòng)終端的普及使得網(wǎng)絡(luò)信息的增長(zhǎng)呈現(xiàn)出一種指數(shù)型的增長(zhǎng)。因此,怎么能在浩如煙海的數(shù)據(jù)庫(kù)里達(dá)到一個(gè)快速、高效的檢索圖像已經(jīng)越來(lái)越被人們所關(guān)注,也是我們現(xiàn)在需要著重研究的一個(gè)課題。本文主要研究在圖像檢索中圖像的特征表示模型以及多信息融合的問(wèn)題。
【關(guān)鍵詞】圖像檢索 特征表示模型 多信息融合
1 圖像檢索的發(fā)展過(guò)程
在傳統(tǒng)的圖像管理方式來(lái)說(shuō),一般是以文本系統(tǒng)為主的一種檢索。要是用戶(hù)想要查詢(xún)一副圖像的時(shí)候,需要一個(gè)一個(gè)文件進(jìn)行瀏覽才能夠很好的找到所需要的圖像。但是隨著圖像文件數(shù)量的大幅度增加,傳統(tǒng)的查找方式顯得太低效,因?yàn)橐晕募?chǔ)存的方式對(duì)圖像的使用和操作相對(duì)簡(jiǎn)單,這種以文件管理圖像的方式一直到現(xiàn)在依然在使用。
在上世紀(jì)七十年代的時(shí)候,數(shù)據(jù)庫(kù)的專(zhuān)家就已經(jīng)著手研究怎么才能對(duì)圖像數(shù)據(jù)以更好的方式更搞笑的方式管理,那個(gè)時(shí)候,主要方法是對(duì)一些圖像進(jìn)行一些標(biāo)注或者建立一些關(guān)鍵詞來(lái)進(jìn)行更有效的檢索,然后再將圖像的儲(chǔ)存路徑和圖像上面標(biāo)注的關(guān)鍵詞建立一種聯(lián)系。八十年代,隨著改革開(kāi)放的進(jìn)行,多媒體技術(shù)開(kāi)始發(fā)展,在圖像的獲取、創(chuàng)作及其儲(chǔ)存技術(shù)都得到了相當(dāng)大的發(fā)展,但是對(duì)于圖像信息的管理依然沒(méi)有更多的重視。到了九十年代,計(jì)算機(jī)視覺(jué)技術(shù)和www的發(fā)展開(kāi)始?jí)汛笃饋?lái),網(wǎng)絡(luò)上的多媒體信息的產(chǎn)生、創(chuàng)作、儲(chǔ)存、傳輸以及訪問(wèn)量都呈現(xiàn)一個(gè)指數(shù)上漲的趨勢(shì),大部分都是圖像信息。因此,只是簡(jiǎn)單的對(duì)圖像加入一些標(biāo)注和關(guān)鍵詞已經(jīng)遠(yuǎn)遠(yuǎn)不夠了,為了突破傳統(tǒng)檢索的很多弊端,很多專(zhuān)家開(kāi)始把研究方向改為在圖像中包含的信息作為圖像索引。也就是基于圖像內(nèi)容的圖像檢索方法。
因此,盡管基于內(nèi)容的圖像檢索在近年來(lái)獲得了相當(dāng)大的發(fā)展,但是依然有著很多的關(guān)鍵性的問(wèn)題遲遲得不到很好的解決,限制著圖像檢索的性能。
2 基于文本的圖像檢索的問(wèn)題
在前面已經(jīng)提到,早期的時(shí)候,圖像檢索大多數(shù)都是以關(guān)鍵詞和自由文本的方式來(lái)進(jìn)行檢索,在這樣的方式下,文本標(biāo)注的質(zhì)量以及準(zhǔn)確度直接影響著后續(xù)圖像的檢索的高效性。除此之外,因?yàn)閳D像的涉及范圍比較廣泛,現(xiàn)有的技術(shù)根本達(dá)不到對(duì)圖像自動(dòng)生成文本描述,因此大多數(shù)的TBIR系統(tǒng)依然采用的是人工標(biāo)注,這樣的技術(shù)主要存在著以下的問(wèn)題:
(1)工作量大。隨著自媒體時(shí)代的發(fā)展,每個(gè)人都是一個(gè)圖片的形成終端,因此網(wǎng)絡(luò)上圖片的數(shù)量較之以前增長(zhǎng)迅速,用以前人工標(biāo)注的方式對(duì)每隔圖片進(jìn)行標(biāo)注相應(yīng)的文本幾乎成了一項(xiàng)不可能完成的工作,這樣的繁瑣以及耗時(shí),無(wú)疑成為了現(xiàn)在的最主要的問(wèn)題,但是沒(méi)有進(jìn)行文本標(biāo)注的圖片是不能被檢索出來(lái),這就使得現(xiàn)有的技術(shù)形成了一個(gè)相當(dāng)大的矛盾。
(2)不同的人對(duì)一幅圖像有著完全不同的理解,即使是同一個(gè)人,換一個(gè)工作環(huán)境或者心態(tài),也會(huì)造成對(duì)一幅圖像理解的差異,這就使得在文本標(biāo)注上的個(gè)人主觀性,與工作人員所經(jīng)歷的事情以及當(dāng)時(shí)環(huán)境有著很大的影響,不利于后續(xù)的圖像檢索的進(jìn)行。
(3)圖像所包含的信息是全方位的,所包含的信息也是巨大的,然而文本標(biāo)注畢竟有限,不能起到一個(gè)很好的標(biāo)注作用,不能起到檢索的關(guān)鍵作用。
(4)因?yàn)閳D片的復(fù)雜性以及世界性,也就伴隨著語(yǔ)言上的差異,世界各地的人用不同的語(yǔ)言上傳的圖像可能不能被其他語(yǔ)種的人很好的檢索,這就給索引的建立以及后續(xù)文本的標(biāo)注和匹配造成了很大的障礙。
3 基于內(nèi)容圖像檢索的研究現(xiàn)狀
在圖像檢索技術(shù)發(fā)展了這么多年的基礎(chǔ)上,基于內(nèi)容的圖像檢索技術(shù)已經(jīng)去的了不小的進(jìn)步,各種新方法層出不窮。有一些著名的學(xué)術(shù)期刊經(jīng)常會(huì)發(fā)表文章介紹圖像技術(shù)的發(fā)展,而且這些新技術(shù)在應(yīng)用方面已經(jīng)去的了很有效的成果,也得到了社會(huì)上的廣泛關(guān)注和支持。很多大學(xué)現(xiàn)在都在開(kāi)展關(guān)于這方面的研究,取得了很大的效果。
盡管如此,基于內(nèi)容圖像的檢索依然有較多的關(guān)鍵問(wèn)題需要我們大力關(guān)注。現(xiàn)不說(shuō)其他各種特征提取的方法,單單從基于內(nèi)容的圖像檢索的發(fā)展方向上來(lái)說(shuō),本來(lái)我們是希望根據(jù)圖像的內(nèi)容來(lái)判定圖像之間的相似的程度來(lái)實(shí)現(xiàn)我們最開(kāi)始想要的圖像檢索,這里面我們所說(shuō)的內(nèi)容是指人們對(duì)圖像的普遍理解,而不只是圖像本身所包含的視覺(jué)特征,在實(shí)際情況中,傳統(tǒng)意義上的視覺(jué)特征并不能很好的表達(dá)圖像索要表達(dá)出來(lái)的東西。所以,這些年來(lái),很多專(zhuān)家開(kāi)始研究對(duì)高層的基于語(yǔ)義的圖像檢索技術(shù)。一幅圖像所包含的最高層語(yǔ)義應(yīng)該是它表現(xiàn)出來(lái)的情感特征以及感性的信息,這就隨之發(fā)展出來(lái)了基于感性?xún)?nèi)容的圖像檢索技術(shù)?,F(xiàn)在發(fā)展的方向就是多媒體的感性信息處理,這就又給人們對(duì)圖像信息的處理提出了一個(gè)新的挑戰(zhàn)領(lǐng)域。
3.1 基于內(nèi)容的圖像檢索的特點(diǎn)
3.1.1 從圖像的內(nèi)容中提取信息線索
基于圖像所包含內(nèi)容的檢索突破了以前基于關(guān)鍵詞以及標(biāo)注檢索的局限性,現(xiàn)在的直接對(duì)圖像進(jìn)行分析處理并且提取其特征的方式,讓我們?cè)跈z索圖像中更好的接近我們想要找到的圖像。
3.1.2 提取圖像特征的方法多種多樣
我們現(xiàn)在對(duì)圖像的特征提取可以是顏色、形狀、紋理、輪廓、空間結(jié)構(gòu)等各種特征,大大豐富了傳統(tǒng)方式下對(duì)圖像提取的準(zhǔn)確度,讓人們可以能在有限的時(shí)間內(nèi)更高效的提取出圖像的特征,找到自己想要的圖像。
3.1.3 人機(jī)交互進(jìn)行檢索
現(xiàn)在的圖像多種多樣,紛繁雜亂,使得人們對(duì)于大量的圖像不能進(jìn)行一個(gè)很好的辨識(shí),而如果計(jì)算機(jī)可以把這些特征都已經(jīng)分析完整,就可以讓人們?cè)跈z索圖像中更快更精確的餓著到自己想要的圖像,大大提高圖像的檢索效率。因此,在使用基于內(nèi)容的圖像檢索系統(tǒng)時(shí),人與計(jì)算機(jī)是在互相配合的情況下進(jìn)行檢索的,這就是人機(jī)交互作用的優(yōu)點(diǎn)所在。
3.1.4 基于內(nèi)容的圖像檢索僅僅是近似匹配
在我們檢索的過(guò)程當(dāng)中,我們找到的圖像知識(shí)一種相似度交稿的近似匹配,我們還需要一步一步的逐步求精,不斷的縮小圖像的范圍,才能更好的找到自己想要找的圖像。
3.2 關(guān)于CBIR的研究發(fā)展的方向
3.2.1 特征提取
一副圖像的主要特征可以包括兩個(gè)方面,一方面是圖像的低層特征,另一方面是圖像的語(yǔ)義特征。底層特征主要包括的內(nèi)容是圖像的顏色、背景、形狀、輪廓、紋理以及空間結(jié)構(gòu)等基礎(chǔ)的特征,這些基本特征完全可以通過(guò)計(jì)算機(jī)自動(dòng)進(jìn)行或者是人機(jī)交互的方式完成。圖像的語(yǔ)義特征指的是對(duì)圖像內(nèi)容的抽象特征,是一種定性特征。語(yǔ)義特征的提取不能直視依靠計(jì)算機(jī)完成,因?yàn)橛?jì)算進(jìn)不能進(jìn)行人的思維的闡述,所以,語(yǔ)義特征的提取一般是通過(guò)人工或者是人機(jī)交互的方式來(lái)完成。在CBIR進(jìn)行檢索的時(shí)候,可以在不用的應(yīng)用領(lǐng)域做出不同的特征或者特征組合進(jìn)行檢索,比如,在衛(wèi)星系統(tǒng)當(dāng)中,對(duì)于圖像的紋理特征提取是最為重要的,而在商標(biāo)的配準(zhǔn)系統(tǒng)中,商標(biāo)的形狀以及顏色構(gòu)成特征是最為重要的。在圖去玩這些主要特征之后,圖像檢索的主要任務(wù)就變成衡量圖像之間的相似度,然后完成整個(gè)圖像的檢索。
3.2.2 有效檢索
怎么樣才能有效的完成一副圖像的檢索,首先解決的就是有效儲(chǔ)存的問(wèn)題以及選取合適的相似度的問(wèn)題。對(duì)于一些圖像的特征,他們之間有可能完全沒(méi)有任何的順序存在,也可能具有多重的相關(guān)特征,因此,在圖像的檢索問(wèn)題上,需要選擇一種合適的數(shù)據(jù)結(jié)構(gòu)模型使得圖像檢索變得高效、精準(zhǔn)。目前,我們?cè)趫D像檢索中常用的數(shù)據(jù)結(jié)構(gòu)模型有:k-d樹(shù),R-樹(shù)及變種等等。在這種數(shù)據(jù)結(jié)構(gòu)模型中,每一種都有著自己的優(yōu)點(diǎn)及其缺點(diǎn),因此我們?cè)趫D像檢索的過(guò)程中,需要首先考慮我們要提取的圖像的特征。與此同時(shí),合理的相似度量的方法也是進(jìn)行有效圖像檢索的關(guān)鍵所在,現(xiàn)在常用的相似度量方式主要有以下幾種:歐氏距離、城區(qū)距離、二次式距離、直方圖交等。不同的相似肚量方法也有著自己的優(yōu)缺點(diǎn),有自己的使用范圍,所以在圖像檢索中的選擇也需要做出一定的選擇才能達(dá)到圖像檢索的有效性。
3.2.3 用戶(hù)接口
圖像檢索的最后是要交付于用戶(hù)的,所以在圖像的檢索系統(tǒng)中,用戶(hù)接口也是一個(gè)相當(dāng)重要的一環(huán),他起到了一個(gè)把用戶(hù)和檢索系統(tǒng)連接起來(lái)的作用。用戶(hù)可以通過(guò)這個(gè)接口選一種合適自己檢索的查詢(xún)機(jī)制來(lái)檢索結(jié)果。
4 小結(jié)
本文結(jié)合了這么多年類(lèi)的圖像檢索的發(fā)展經(jīng)驗(yàn),對(duì)圖像檢索現(xiàn)有的問(wèn)題提出了一些自己的看法,關(guān)于圖像檢索的發(fā)展和現(xiàn)在的檢索所需要完善的地方做出了一些分析。但是由于本人的學(xué)識(shí)及其閱歷有限,不能夠分析的面面俱到,希望能夠以此文引起廣大學(xué)者以及有關(guān)專(zhuān)家的關(guān)注。
參考文獻(xiàn)
[1]張貝貝,基于內(nèi)容的圖像檢索若干關(guān)鍵問(wèn)題研究[D].遼寧師范大學(xué),2013.
[2]雷亮.互聯(lián)網(wǎng)環(huán)境下圖像檢索若干問(wèn)題研究[D].重慶大學(xué),2011.
[3]李勇,基于內(nèi)容的圖像檢索技術(shù)研究[D].吉林大學(xué),2009.
[4]王禹,基于內(nèi)容的圖像檢索技術(shù)研究[D].中國(guó)人民解放軍信息工程大學(xué),2003.
[5]唐昌華,一種基于內(nèi)容的圖像檢索方法的研究[D],東北師范大學(xué),2007.