姚弘
(南通職業(yè)大學(xué)電子工程系,江蘇 南通 226007)
隨著信息技術(shù)特別是多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的普及與發(fā)展及應(yīng)用,數(shù)字圖像的數(shù)量正以驚人的速度增長(zhǎng)。一方面,網(wǎng)絡(luò)成了多媒體信息發(fā)布和獲取的重要來(lái)源;另一方面,許多領(lǐng)域(數(shù)字圖書(shū)館、醫(yī)療圖像等領(lǐng)域)每天都在不斷產(chǎn)生和使用大量的圖像和視頻等多媒體資源。因此,如何將數(shù)字圖像處理、計(jì)算機(jī)視覺(jué)技術(shù)與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,建立基于對(duì)圖像內(nèi)容自動(dòng)或半自動(dòng)描述的新一代圖像視頻數(shù)據(jù)庫(kù)就成為迫切的需求?;趦?nèi)容的圖像檢索(CBIR)是解決這一問(wèn)題的關(guān)鍵技術(shù)之一。
CBIR不同于傳統(tǒng)的檢索手段,它是利用圖像的顏色、紋理、形狀、對(duì)象的空間關(guān)系等基本特征進(jìn)行檢索,并把這些量化特征與圖像存儲(chǔ)在一起。其特點(diǎn)是:直接從媒體內(nèi)容中提取信息線索;基于內(nèi)容的檢索是一種近似匹配;特征提取和索引建立常需要用人機(jī)交互的方法,學(xué)習(xí)人的主觀相似度感受。它主要使用的是基于相似度量的示例查詢(xún)方法。
基于內(nèi)容的描述是基于內(nèi)容的圖像檢索的前提。圖像內(nèi)容既包括了顏色、紋理、形狀、空間結(jié)構(gòu)等低層次視覺(jué)特征,又包括了導(dǎo)出特征或邏輯特征的檢索和場(chǎng)景描述,包含對(duì)目標(biāo)意義的復(fù)雜推理等的高層語(yǔ)義特征。
檢索進(jìn)行查詢(xún)的層次基本可分為三層:
(1)基于原始數(shù)據(jù)的查詢(xún)。這是最低層次的查找,每一幅圖像為象素點(diǎn)的簡(jiǎn)單有序的集合體,查詢(xún)時(shí)相似性的度量標(biāo)準(zhǔn)是點(diǎn)對(duì)點(diǎn)的比較。這個(gè)層次的比較是非常具體的,只有在使用相對(duì)精確匹配時(shí)才有用。
(2)基于特征的查詢(xún)。這是較高層次的查詢(xún),在基于特征的層次上描述圖像。圖像特征包括原始屬性:顏色、紋理、形狀等,也包括脫離了原始性的抽象屬性:灰度直方圖,顏色直方圖,空間頻譜圖。不同的特征可以被分成不同的特征矢量組。圖像的區(qū)域劃分基本上是根據(jù)特征矢量的不同特征,同一個(gè)區(qū)域內(nèi)的特征矢量具有相同的屬性。在n維特征空間的查詢(xún),實(shí)質(zhì)上就是目標(biāo)特征矢量的相似性度量。數(shù)據(jù)庫(kù)內(nèi)的圖像文件的特征矢量集以及抽取方法,被事先抽取并保存。查詢(xún)時(shí),使用給出的模板,圖像按照庫(kù)內(nèi)保存的方法抽取目標(biāo)特征矢量。
(3)基于語(yǔ)義的查詢(xún)。這是最高層次的查詢(xún)??梢钥醋魇腔趯?duì)象的查詢(xún)。查詢(xún)圖像中包括的具體的物體,發(fā)生的場(chǎng)景,圖像所描述的感性色彩等都屬于這個(gè)層次的查詢(xún)。
目前實(shí)現(xiàn)圖像檢索的手段有很多,包括基于分?jǐn)?shù)維的圖像檢索、基于多顏色空間的圖像檢索方法、基于內(nèi)容的圖像檢索、基于區(qū)域的圖像匹配算法的關(guān)鍵技術(shù)研究、基于顏色特征的圖像檢索方法等等。而且基于圖像處理技術(shù)的日趨成熟,檢索的效果也越來(lái)越好,但仍未上升到圖像語(yǔ)義的圖像檢索階段。
作為圖像的基本特征:顏色,人們針對(duì)它已經(jīng)設(shè)計(jì)了很多種算法,包括顏色直方圖、加權(quán)顏色直方圖、顏色聚合度、模板匹配、模糊顏色連通直方圖、顏色恒常性顏色檢索等等,所有這些包括其中一些非常經(jīng)典的算法的都沒(méi)有很好的解決圖像特征提取與匹配。因?yàn)樗麄兺际且揽拷y(tǒng)計(jì)學(xué)對(duì)圖像處理,而統(tǒng)計(jì)學(xué)一般都會(huì)舍棄統(tǒng)計(jì)中出現(xiàn)較小概率的事件從而達(dá)到較高效率的匹配,因此這樣做在匹配結(jié)果上無(wú)論如何都不會(huì)使人滿(mǎn)意。而且統(tǒng)計(jì)學(xué)往往只統(tǒng)計(jì)顏色信息往往就忽略了空間分布導(dǎo)致了損失了大量有用的圖像信息。
圖像的顏色特征可以是各種顏色的比例分布以及顏色的空間分布等,目前,大部分的檢索系統(tǒng)都采用顏色比例分布作為顏色基本特征,這方面算法的研究,也多以此為基點(diǎn),這就是圖像領(lǐng)域中的直方圖法。具體做法是,在確定顏色空間的基礎(chǔ)上,統(tǒng)計(jì)每種顏色分量的像素?cái)?shù)占圖像總像素?cái)?shù)的比例,得到圖像各種顏色分量的比例分布—直方圖,最后把直方圖作為圖像的顏色特征進(jìn)行圖像檢索。
顏色直方圖包含三種具體表達(dá)方式:一般直方圖、累加直方圖和二維直方圖。
1)一般直方圖:記S(x)j為圖像P中某一特征值為Xj的像素的個(gè)數(shù)為P中的總象素?cái)?shù)。對(duì)其作歸一化處理,即h(xj)=S(xj)/N=S。圖像P的該S特征的直方圖為H(P)=[h(x1),h(x2),…,h(xn)]。式中,n 為某一特征取值的個(gè)數(shù)。事實(shí)上,直方圖就是某一特征的概率分布。
3)二維直方圖:設(shè)圖像X={xmn}大小為M×N,由X采用3×3或5×5點(diǎn)陣屏畫(huà)得到的圖像為,它的大小也為Y={ym}n,由x和y構(gòu)成一個(gè)二元組。稱(chēng)二元組(x,y)={(xmn,ymn)}M×N為圖像 的“廣義圖像”,廣義圖像的直方圖就是二維直方圖。
二維直方圖中含有原圖像顏色的空間分布信息,對(duì)于兩幅顏色組成接近而空間分布不同的圖像,它們?cè)诙S直方圖空間的距離相對(duì)傳統(tǒng)直方圖空間就會(huì)被拉大,從而能夠好的區(qū)別開(kāi)來(lái)。
圖像的匹配方法目前有很多,如何用數(shù)值來(lái)有效的表示圖像在顏色上的相似度,這便是圖像的相似性度量問(wèn)題。在模式識(shí)別技術(shù)中,特征的相似性度量一般采用距離法,即用特征向量的空間距離來(lái)表示。在直方圖檢索中,通過(guò)對(duì)直方圖之間的距離的設(shè)定,當(dāng)它們的距離小于給定的閾值時(shí),即認(rèn)為符合檢索結(jié)果。常用的距離度量有絕對(duì)距離、歐式距離、馬氏距離、二次距離等。
形狀是刻畫(huà)物體的本質(zhì)特征之一,在二維圖像空間中,形狀通常被認(rèn)為是一條封閉的輪廓曲線所包圍的區(qū)域,所以對(duì)形狀的描述涉及到對(duì)輪廓邊界的描述以及對(duì)這個(gè)邊界所包圍區(qū)域的描述。目前的基于形狀檢索方法大多圍繞著從形狀的外輪廓特征和形狀的區(qū)域特征建立圖像索引??偟膩?lái)說(shuō),形狀表示法可以分為2類(lèi):基于邊界的和基于區(qū)域的。前者僅使用形狀外邊界,而后者則用了整個(gè)形狀的區(qū)域信息。
在基于形狀的圖像檢索中有3個(gè)問(wèn)題需要解決。首先,形狀通常與圖像中的特定目標(biāo)對(duì)象有關(guān),因此形狀比顏色和紋理的語(yǔ)義性更強(qiáng),要獲得目標(biāo)的形狀參數(shù),先要進(jìn)行圖像分割,所以形狀特性會(huì)受到圖像分割效果的影響。其次,描述目標(biāo)的形狀是一個(gè)非常復(fù)雜的問(wèn)題,人對(duì)形狀的感覺(jué)是視網(wǎng)膜感受和現(xiàn)實(shí)世界的知識(shí)相結(jié)合的結(jié)果。事實(shí)上,目前還沒(méi)有找到與人的主觀感覺(jué)相一致的形狀模型。第三,從不同的視角獲得的形狀可能會(huì)有很大差別,為了準(zhǔn)確進(jìn)行形狀匹配,需要解決平移、縮放、旋轉(zhuǎn)中的不變性問(wèn)題。形狀的表示方法有兩類(lèi):基于邊界的表示和基于區(qū)域的表示。這兩種表示方法的典型代表分別是傅里葉描述子和不變矩。傅里葉描述子的基本思想是用對(duì)圖像進(jìn)行傅里葉變換得到的邊界作為形狀描述。其中一個(gè)優(yōu)點(diǎn)就是把二維問(wèn)題簡(jiǎn)化為一維問(wèn)題。傅里葉變換的高頻分量對(duì)應(yīng)細(xì)節(jié)而低頻分量對(duì)應(yīng)總體形狀。所以可以只用一些對(duì)應(yīng)低頻分量的傅里葉系數(shù)來(lái)近似描述邊界形狀。文獻(xiàn)[4]比較了基于區(qū)域的方法、基于邊界的方法和兩種方法的綜合使用,實(shí)驗(yàn)結(jié)果表明,兩種方法綜合使用效果更好。
在許多類(lèi)圖像中,紋理是一種十分重要的特征。例如,大部分航空和衛(wèi)星遙感圖像、醫(yī)學(xué)顯微圖像以及石油地球物理勘探所得到的人工地震剖面圖像等,都可以看成是由不同類(lèi)型紋理所組成的。因此研究對(duì)紋理的描述、紋理圖像的分割、分類(lèi)等,不僅是圖像處理領(lǐng)域的重要理論研究課題,同時(shí)也有著廣泛的應(yīng)用前景。對(duì)紋理圖像的描述常借助紋理的統(tǒng)計(jì)特性或結(jié)構(gòu)特性進(jìn)行,對(duì)基于空域的性質(zhì)也??赊D(zhuǎn)換到頻域進(jìn)行活動(dòng),所以常用的紋理描述方法是:統(tǒng)計(jì)法、頻域法、結(jié)構(gòu)法。統(tǒng)計(jì)法從圖像有關(guān)屬性的統(tǒng)計(jì)分析出發(fā);結(jié)構(gòu)法則力圖找出紋理基元,再?gòu)慕Y(jié)構(gòu)組成上探索紋理的組成規(guī)律。一般來(lái)說(shuō),統(tǒng)計(jì)分析方法能夠取得較好的效果,所以一直占據(jù)著主導(dǎo)地位。
早期的研究方法主要有馬爾可夫隨機(jī)場(chǎng)理論 GMRF(Gaussian Markov random field)和吉布斯分布(Gibbs distribution)理論。這些方法主要考慮了一定范圍內(nèi)圖像點(diǎn)的關(guān)系。隨著小波的出現(xiàn)及其在圖像處理中的應(yīng)用,基于多尺度多分辨率的算法逐漸成為主流。
Michael Unser采用如下算法:①對(duì)紋理圖像進(jìn)行小波變換;②計(jì)算各予頻帶內(nèi)小波系數(shù)的平方和的均值作為特征向量;③通過(guò)計(jì)算Bayes距離,礙出樣本與各融知紋理的相似度,從麗進(jìn)行分類(lèi)。
與基于低層物理特征查詢(xún)不同,語(yǔ)義特征查詢(xún)是基于文字的查詢(xún),包含了自然語(yǔ)言處理和傳統(tǒng)圖像檢索技術(shù)。這種檢索方法的目標(biāo)是最大限度地減小圖像簡(jiǎn)單視覺(jué)特征與豐富的語(yǔ)義之間的語(yǔ)義鴻溝(semantic gap)??s小語(yǔ)義鴻溝的辦法有2種:由高層語(yǔ)義導(dǎo)出低層特征和由低層特征向高層語(yǔ)義的轉(zhuǎn)換。圖像語(yǔ)義具有模糊性、復(fù)雜性、抽象性,一般包括3個(gè)語(yǔ)義層次:特征語(yǔ)義、目標(biāo)和空間關(guān)系語(yǔ)義、高層語(yǔ)義。特征語(yǔ)義就是圖像的顏色、形狀、紋理等低級(jí)視覺(jué)特征,與視覺(jué)感知直接相連;目標(biāo)語(yǔ)義和空間關(guān)系語(yǔ)義需要識(shí)別和提取圖像中的目標(biāo)類(lèi)別、目標(biāo)之間的空間位置等關(guān)系,涉及到模式識(shí)別和邏輯推理的相關(guān)技術(shù);高層語(yǔ)義主要涉及圖像的場(chǎng)景語(yǔ)義(如海濱、街道、室內(nèi)等)、行為語(yǔ)義(如表演、超越、進(jìn)攻等)和情感語(yǔ)義(如平靜、和諧、振奮等)。一般而言,高層的圖像語(yǔ)義往往建立在較低層次的語(yǔ)義獲得的基礎(chǔ)上,并且層次越高,語(yǔ)義越復(fù)雜,涉及的領(lǐng)域知識(shí)越多?;谡Z(yǔ)義的圖像檢索一般指的是基于目標(biāo)和高級(jí)語(yǔ)義的圖像檢索方法。
在基于內(nèi)容的檢索中,由于檢索算法比較多,需要對(duì)各種算法的檢索結(jié)果進(jìn)行評(píng)判,以比較其優(yōu)劣。從研究情況來(lái)看,對(duì)于系統(tǒng)的響應(yīng)時(shí)間和吞吐率的評(píng)價(jià)論述的較少,對(duì)檢索效果評(píng)價(jià)更多地放在對(duì)檢索結(jié)果的正確與否,主要使用查找率評(píng)價(jià)檢索效果。
查全率和查準(zhǔn)率越高,說(shuō)明該檢索算法的效果越好。查全率反映系統(tǒng)檢索相關(guān)圖像的能力,而查準(zhǔn)率則反映系統(tǒng)拒絕無(wú)關(guān)圖像的能力。
綜上所述,可以看出基于內(nèi)容的圖像檢索仍然是一個(gè)開(kāi)放性的研究課題,其研究將涉及認(rèn)知科學(xué)、人工智能、模式識(shí)別、圖像處理、信息檢索等多個(gè)領(lǐng)域。對(duì)于基于內(nèi)容的圖像檢索中存在的重要問(wèn)題,在圖像處理和模式識(shí)別方面今后較長(zhǎng)的時(shí)間內(nèi)仍需要繼續(xù)完善圖像特征的提取、表達(dá)、相似性度量。目前國(guó)際上MPEG標(biāo)準(zhǔn)化組織正在制定的MPEG-7標(biāo)準(zhǔn),其目標(biāo)就是實(shí)現(xiàn)集高層語(yǔ)義特征和低層視覺(jué)特征的基于內(nèi)容的多特征綜合檢索,今后研究的熱點(diǎn)之一將是高層的基于語(yǔ)義內(nèi)容的圖像檢索。尋找快速智能的檢索算法和如何設(shè)計(jì)用戶(hù)的反饋方式并充分反饋信息也是今后一個(gè)重要的研究方向。
[1]劉忠偉,章毓晉.綜合利用顏色和紋理特征的圖像檢索[J].通信學(xué)報(bào),1999,20(5):36240.
[2]Ashish Kapoor,Rosalind W.Picard.Real-Time,Fully Automatic Upper Facial Feature Tracking[C].Proceedings from 5th International Conference on Automatic Face and Gesture Recognition,2002
[3]Merlo E.Reverse Engineering[J].IEEE,1993,41(3):171-173,176-178.
[4]Milner R.Communication and Concurrency[J].IEEE Soft2ware,1989,37(4):268-280.
[5]王琨,齊會(huì)來(lái),楊波,張子華.基于紋理的圖像檢索算法.空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,9(3):54-57.
[6]Manjunath B S,Ohm J R,Vasudevan V V,et a1.Color and Texture Descriptors[J].IEEE Tram on Circuits and Systems for Video Technology,2001,11(6):703-715.
[7]Barber M.MPEG 一 7 Visual Shape Descriptors[J].IEEE Tram On Circuits and Systems for Video Technology,2001,11(6):716-719.
[8]徐慶,楊維維,陳生潭.基于內(nèi)容的圖像檢索技術(shù).計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(1):126-131.