隨著多媒體數(shù)據(jù)庫的廣泛應(yīng)用,人們在工作生活中每天都不斷產(chǎn)生和使用海量的圖像和視頻等多媒體資源,對多媒體信息的有效檢索手段逐漸引起人們的重視,尤其是對多媒體圖像檢索技術(shù)的研究,更是成為國內(nèi)外研究的熱點,也成為未來信息高速公路、數(shù)字圖書館等重大項目中的關(guān)鍵技術(shù)。
1 圖像檢索技術(shù)發(fā)展
作為圖像處理技術(shù)的一個新的重要研究內(nèi)容,圖像檢索的目標是從圖像數(shù)據(jù)庫中快速準確地提取出與查詢相關(guān)的圖像或圖像序列。從系統(tǒng)的發(fā)展演變歷程來看,圖像檢索系統(tǒng)可分為兩代:第一代圖像檢索系統(tǒng)的特點是在離線狀態(tài)下,先由注解員通過手工為數(shù)據(jù)庫內(nèi)的圖像進行注解,提供出檢索時所需的索引;檢索時,用戶輸入字符串利用索引進行檢索。由于這種方式不但受注解員的觀點的影響,而且一些圖像信息和特征很難用文字來描述清楚,不利于用戶快速高效檢索圖像,因此逐步產(chǎn)生了基于圖像內(nèi)容進行檢索的第二代圖像檢索技術(shù)——基于內(nèi)容的圖像檢索(CBIR – Content Based Image Retrieval)。
圖像的內(nèi)容即圖像的特征,CBIR技術(shù)克服了傳統(tǒng)方法的不足,通過分析圖像的內(nèi)容,從大量靜止或活動視頻圖像庫中查找含有特定物體的圖像進行特征匹配,即圖像特征的相似性度量來實現(xiàn)圖像的檢索。
早期CBIR的研究重點是視覺特征提取,后來在語義特征、多維索引、用戶接口、系統(tǒng)設(shè)計等方面又有所發(fā)展。近年來研究者又引進了更多領(lǐng)域的知識:從知識表示的角度運用人工智能領(lǐng)域的推理和神經(jīng)網(wǎng)絡(luò)技術(shù)提取特征和分類圖像;構(gòu)造面向?qū)ο蟮腃BIR系統(tǒng);開發(fā)面向Web的CBIR系統(tǒng);并行CBIR技術(shù)也被提上了議程。
2 圖像檢索關(guān)鍵技術(shù)
一個典型的基于內(nèi)容圖像檢索系統(tǒng)框架結(jié)構(gòu)如圖1所示。其中,圖像數(shù)據(jù)建立模塊提取每一數(shù)據(jù)庫圖像的特征,并將其儲存于數(shù)據(jù)庫中,以當作該數(shù)據(jù)庫圖像的索引。圖像數(shù)據(jù)查詢模塊則請求用戶輸入某一查詢圖像,并提取該圖像的特征,同時將此特征與儲存于數(shù)據(jù)庫中的數(shù)據(jù)庫圖像的特征作比對,按照相似度的大小輸出與查詢圖像相似的圖像。接著,用戶可以根據(jù)自己的需要,將自己對查詢結(jié)果的意見反饋給系統(tǒng),進而重新檢索和輸出。其中的關(guān)鍵技術(shù)包括圖像特征提取,相似性度量,相關(guān)反饋技術(shù)等。
2.1 特征提取
特征提取是基于內(nèi)容的圖像檢索的基礎(chǔ),常見的用于描述圖像的內(nèi)容特征主要包括:顏色、紋理、形狀、對象等。
(1)顏色特征
顏色是描述一幅圖像最簡便而且有效的特征。顏色直方圖的方法是最早用于基于顏色特征進行圖像檢索的方法。由于顏色直方圖具有簡單且對圖像的大小、旋轉(zhuǎn)變化不敏感等特點,得到了研究人員的廣泛關(guān)注。在基于顏色特征的檢索算法中通常用顏色統(tǒng)計直方圖、累積直方圖來表示圖像的顏色特征。
(2)紋理特征
紋理是基于內(nèi)容圖像檢索的一個常用特征,它反映了關(guān)于圖像表面的結(jié)構(gòu)安排和周圍環(huán)境的關(guān)系?;诩y理特征的圖像檢索已有很多研究成果。常用的描述紋理的方法有3種:結(jié)構(gòu)法,統(tǒng)計法,頻譜法。結(jié)構(gòu)法是將圖像中非常具有結(jié)構(gòu)規(guī)律的特征加以分析;統(tǒng)計法是對圖像中的顏色強度的空間分布信息進行統(tǒng)計;而頻譜法則是利用傅立葉變換、小波變換等把圖像從空域轉(zhuǎn)換到頻域后進行處理。
(3)形狀特征
形狀特征也是人類視覺系統(tǒng)進行物體識別時所識別的關(guān)鍵信息之一,圖像的形狀信息不隨圖像顏色等特征的變化而變化,是物體穩(wěn)定的特征,特別是對于圖形來說,形狀是它唯一重要的特征。
通常來說,形狀特征有兩種表示方法,一種是基于輪廓的特征,一種是基于區(qū)域的特征。前者只用到物體的外邊界,而后者則關(guān)系到整個形狀區(qū)域。這兩類形狀特征的最典型方法分別是傅立葉描述符和形狀不變矩。
(4)空間關(guān)系特征
由于圖像的顏色、紋理和形狀等多種特征反映的都是圖像的整體特征,而無法體現(xiàn)圖像中所包含的對象或物體,因此,圖像中對象所在的位置和對象之間的空間關(guān)系同樣是圖像檢索中非常重要的特征,包含空間關(guān)系的圖像特征可以彌補其它圖像特征不能確定物體空間關(guān)系的不足。
提取圖像空間關(guān)系特征可以有兩種方法:一是首先對圖像進行自動分割,劃分出圖像中所包含的對象或顏色區(qū)域,然后根據(jù)這些區(qū)域?qū)D像作索引;另一種方法則簡單的將圖像均勻劃分為若干規(guī)則子塊,對每個圖像子塊提取特征建立索引。
2.2 相似性度量
圖像的相似性度量,既是圖像檢索技術(shù)中的一個關(guān)鍵問題,也是其中的一個難點。圖像的相似性度量建立在圖像內(nèi)容的基礎(chǔ)上,這里所說的“內(nèi)容”等同于圖像的特征。根據(jù)“內(nèi)容”的不同含義,圖像的相似性度量也建立在不同的含義上。圖像的顏色、形狀、紋理被認為是第一層次上的特征,具有相對直觀的特點。語義內(nèi)容是第二層次上的特征,具有相對主觀抽象的特點。目前對圖像相似性度量的研究主要集中在第一層次上,即基于圖像的顏色、紋理、形狀等特征。
一般,基于內(nèi)容的圖像檢索的相似性度量可分為幾何矩陣模型和集合理論模型:通常我們使用的是幾何矩陣模型,將圖像的特征向量看成是特征空間中的點,兩個點之間的距離表示它們之間的相似程度。
但是,通過人類心理實驗表明,距離度量方法和人對相似性的感知判斷之間存在一定差距。因此,人們又提出了集合理論模型。1977年,Tversky提出了著名的特征對比模型(contrast model)。與幾何距離不同,該模型不把每個實體看作特征空間的一個點,而將每個實體用一個特征集來表示。這一理論揚棄了幾何模型下相似度度量的優(yōu)缺點,提出了一個廣泛的理論衡量方法,但它還不夠?qū)嵱?,只適合那些特征明顯的對象。
2.3 相關(guān)反饋
在基于內(nèi)容的圖像檢索中,反饋是調(diào)整技術(shù)以適應(yīng)用戶需求和提高檢索精度的常用手段。特別在借助語義概念進行的檢索中,反饋是實現(xiàn)人機交互,從而將用戶知識結(jié)合進查詢中去的重要方法。
比較常用和比較成熟的反饋方法是相關(guān)反饋(relevance feedback),用戶根據(jù)先前檢索結(jié)果借助權(quán)重調(diào)整已有的查詢要求以給檢索系統(tǒng)提供更多更直接的信息,從而使系統(tǒng)能更好的滿足用戶的需求。其實質(zhì)是個“指導性學習分類”,基本思想是:在檢索過程中允許用戶對檢索結(jié)果進行評價和標記,每次檢索的結(jié)果,通過人機交互,用戶指出哪些是與查詢圖像相關(guān)的,哪些是不相關(guān)的,然后將用戶標記的相關(guān)信息作為訓練樣本反饋給系統(tǒng)進行學習,以指導下一次檢索,從而使檢索結(jié)果更加符合用戶的需要。
3 小結(jié)
本文對多媒體圖像檢索技術(shù)進行了淺顯的研究分析,但圖像數(shù)據(jù)庫種類繁多,圖像內(nèi)容千變?nèi)f化,文中所介紹的方法未必適用于每一種圖像數(shù)據(jù)庫的檢索。隨著越來越多的人對這一技術(shù)的關(guān)注與深入研究,并逐漸實現(xiàn)其實用化,在多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的高度發(fā)展與普及的大背景下是具有十分重要的現(xiàn)實意義的。