趙宏偉,陳 霄,石景海,馬凌蛟
(吉林大學計算機科學與技術學院,長春130012)
隨著車輛的不斷增多和公路不斷擴展,交通標志成為交通中不可缺的組成部分。未來城市交通趨勢逐漸傾向無人自主駕駛,因此理解交通標示成為自主駕駛機器人必備的功能[1-4]。傳統(tǒng)的基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)只能滿足人們對簡單目標數(shù)據(jù)的檢索識別,取而代之的是一種基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR),它以其高效的檢索速度以及準確的查詢精度越來越被研究者們所關注,也成為解決交通標志快速識別問題的重要途徑。
基于內(nèi)容的圖像檢索其目標是圖像本身,建立索引的方法是通過提取圖像的底層特征(如顏色、形狀、紋理等),然后通過計算比較這些特征和查詢條件之間的距離,以決定兩幅圖像的相似程度,最終把相似度達到設定閾值的圖像數(shù)據(jù)反饋給查詢用戶。本文所提出的基于顏色和形狀特征的圖像檢索技術正是這一領域的研究內(nèi)容,并將該方法應用于自主移動機器人,可以快速準確地辨別重要的交通標志。
顏色特征是圖像檢索中最基礎、最廣泛的特征,因為顏色是直接刺激人類視覺的第一感官,而且不同的顏色往往營造出不同的氛圍,有時不同的顏色更會影響人對同一事物的理解[5]。如在交通標志中,紅色代表禁止,黃色代表警告,綠色代表允許,藍色代表輔助。此外,顏色特征有著與生俱來的優(yōu)越性,因為在計算機識別過程中,顏色特征被量化為各種向量和各種矩陣,這樣就把整幅圖片完全用數(shù)學符號表示出來,更容易被我們計算和識別。顏色特征具有很強的魯棒性,它不受空間位置等條件的約束,同時,能很好地表示圖像的明暗變化與飽和程度等許多有助于人們理解的高級語義。所以,顏色特征是最基礎的特征,又是最重要的特征。然而,顏色特征也是有缺點的,它沒有辦法表示圖像的空間信息,即對顏色分布相同,而空間分布不同的圖像,沒有辦法識別。由于顏色本身的特征,現(xiàn)在一般采用顏色直方圖、顏色矩、顏色熵等方法進行特征提取。
RGB(Red,Green,Blue)顏色空間是最基本的、應用最廣泛的顏色空間,幾乎所有的其它空間都可以通過RGB空間進行轉(zhuǎn)換[6-7]。RGB空間是一種基于笛卡爾坐標系統(tǒng)的顏色空間,采用了神經(jīng)心理學中三基色,即紅、綠、藍作為整個空間的三維單位坐標。當三基色的亮度都為零時,此時為空間的原點,表示黑色;當三基色的亮度達到最大時,此時為空間最大值點,表示白色;其它頂點分別是當兩個值達到最大,一個值達到最小時的點,分別表示品紅(紅加藍)、藍綠(綠加藍)和黃(紅加綠)。RGB各通道之間有著極大的相關性,R、G之間的相關性系數(shù)為0.98,R、B之間的相關性系數(shù)為0.74,B、G之間的相關性系數(shù)為0.94。RGB顏色空間對圖像的空間分布和平移、旋轉(zhuǎn)具有魯棒性;但反應圖像的信息不夠直觀,不符合人類視覺的感知。
HSV(Hue,Saturation,Value)顏色空間是一種面向人類視覺感知的顏色空間模型[7-8]。它不像RGB顏色空間那樣是從硬件的角度出發(fā),而是從人類視覺感知的角度出發(fā),所以更符合人類的感知。
Hue色度是指光的顏色,主要取決于波長; Saturation飽和度是指圖像顏色的深淺程度,主要取決于色調(diào)的純度;Value亮度是指光的明暗程度,主要取決于物體的反射率。
HSV顏色空間模型為圓錐體。圓錐的頂面為一圓形,當V=1時,代表的顏色較亮的區(qū)域。當色彩H繞V軸旋轉(zhuǎn)時,每經(jīng)過120°會變換一種基色。其中紅色對應0°,綠色對應120°,藍色對應240°。在HSV顏色空間模型中,每種顏色在旋轉(zhuǎn)180°后為它的顏色補色。因為飽和度S的取值是從0到1,所以,圓錐頂面的半徑為單位1。圓錐的頂點代表黑色。圓錐的頂面中心處代表白色。從數(shù)學的角度上說,HSV模型中的V軸對應于RGB顏色空間中的主對角線。HSV顏色空間比RGB顏色空間的優(yōu)越性在于:(1)亮度分量不依靠圖像本身的顏色信息;(2)飽和度分量與人類視覺感受符合度高。因此,HSV顏色空間更加符合人類視覺的感知(見圖1)。在基于顏色的圖像檢索實驗中,HSV空間方法性能總體要比RGB顏色空間性能優(yōu)秀。
圖1 RGB與HSV檢索結果對比圖Fig.1 RGB and HSV retrieval result contrast chart
形狀是圖像最重要的可視化內(nèi)容,是人類視覺系統(tǒng)進行物體識別時所需要的關鍵信息之一[9]。它不隨周圍環(huán)境,如亮度等的變化而變化,是物體的穩(wěn)定信息。形狀特征較顏色特征具有更高一級的語義特征,這使檢索結果更加令人滿意。同時在交通標志里,形狀特征也伴隨著一些語義特征,如圓形代表警示,三角形代表禁止,配合顏色特征更加有助于人們對圖像的理解。可以說,形狀是人們視角語義上的第一印象,對形狀的理解往往決定了人們對整幅圖像涵義的理解。但是,形狀特征提取目前還沒有找到統(tǒng)一、相對優(yōu)越的方法。目前,研究者們一般只能根據(jù)所要檢索的圖片設計相應的算法,而且所檢索的圖像都相對簡單,當遇到復雜圖像時,往往束手無策。目前形狀特征提取方法主要分為兩種方法:基于邊緣的特征提取和基于輪廓的特征提取。但無論采用哪種方法,其核心思想都是圖像分割法。
(1)幾何不變矩
矩是指分量值與該分量所具有的權值的乘積。1962年,Hu等提出了不變矩理論以及基于代數(shù)不變量的矩不變量,并將一組線性無關的幾何矩組成非線性矩組,通過該矩組導出了一組具有平移、旋轉(zhuǎn)和尺度變化不變性的矩,稱之為不變矩。不變矩是一種圖像統(tǒng)計特征,該特征從圖像的灰度分布的多個不同階矩表示圖像在灰度值方面的分布特征。
設f(x,y)為一離散數(shù)字圖像,則其p+q階矩定義為
其p+q階中心矩定義為
式中:x-=m10/m00,y-=m01m00表示該區(qū)域的重心坐標。中心矩表示圖像中不同級的像素圍繞其重心的分布情況。為了使中心矩具有縮放無關性,可以對中心矩進行標準化操作,稱標準化后的中心矩為標準中心矩??杀硎緸?/p>
(2)ART描述
ART(Angular Radial Transform)是一種基于區(qū)域的形狀描述符,同時也是一種基于矩的圖像描述符。它通過角半徑變換方法將形狀信息轉(zhuǎn)換為一組角半徑變換系數(shù),通過該角半徑變換系數(shù)組描述圖像的形狀信息[10]。ART既可以描述單個連通區(qū)域,也可以描述多個不連通區(qū)域,并具有良好的魯棒性,能夠很好地識別并提取目標對象的旋轉(zhuǎn)變換。
ART變換的系數(shù)可以表示為:
式(5)中:Fnm是在序數(shù)(n,m)的ART系數(shù),f(ρ,θ)是基于極坐標的圖像灰度值方程,是ART的核函數(shù)(kernel function)。V*nm(ρ,θ)是其復共軛函數(shù),其具體表示為:
其中
綜合多特征檢索其概念是廣義的,它既包括同一特征之間的多特征綜合,也包括圖像各種特征(如顏色、形狀、紋理或空間位置等)之間的綜合特征。本文根據(jù)實際需要,設計并實驗了一種綜合顏色特征和形狀特征相結合的匹配算法。算法首先計算圖像的特征向量,然后分配給各個特征權重關系,最后通過調(diào)整各種向量特征之間的權重比,從而達到效果最佳的目的。
設HR、HG、HB分別為圖像q的對應紅、綠、藍分量的歸一化的直方圖,相似性匹配可以用直方圖歐氏距離來計算。而形狀特征則采用輪廓方向直方圖。
通過結合顏色直方圖的相似度與輪廓方向直方圖的相似度,可以將基于顏色的圖像檢索與基于形狀的圖像檢索結果相結合。設q為目標圖像,t為數(shù)據(jù)庫中圖像,Dc代表基于顏色直方圖的相似度,Ds代表基于輪廓方向直方圖的相似度。則兩幅圖像間的綜合相似性計算如下:
其中,ωc和ωs分別為對顏色的加權和對形狀的加權。為了驗證結合顏色和形狀檢索的優(yōu)越性,可對僅用顏色特征、僅用形狀特征以及結合使用顏色與形狀特征的檢索算法進行試驗比較。為了檢驗旋轉(zhuǎn)不變性,將庫中每幅圖像都任意縮放和旋轉(zhuǎn)作為查詢圖像進行檢索。
在研究綜合多特征的匹配技術時,首先將其進行歸一化處理,然后根據(jù)不同特征向量的重要程度分配不同的權值。一般情況下,如果在沒有合適想法,會默認地將兩種特征向量平均分配,即各占0.5。然后根據(jù)每種特征的優(yōu)劣及重要性,調(diào)整權值的比例系數(shù)。這就可以對某個特定查詢動態(tài)地調(diào)整權重,以反映特征的不同的重要性。如何調(diào)整Wij特征之間的權重將是人們亟待解決的問題。
對應于Wij不同的特征向量,Rij反映了在整個權值分配過程中,研究者對不同特征的傾向程度。它提供了一種人機交互的反饋方式,能夠使研究者在最短的時間內(nèi),調(diào)整和改進算法。
假設RT是第一次檢索中由總相似度S得出的NRT幅相似圖像所組成的集合
令Score是用戶對圖像RTi所給出的反饋得分值組成的集合:
理論上講,相關性越強,采用的技術手段越多,反饋越精確,效果越好。但采用的相關技術多會給研究者和系統(tǒng)之間的交互帶來不便。試驗證明,5級相關性是簡便性與精確性的最佳平衡點。
此外,根據(jù)其中的任一特征的rij相似度S(rij)計算所得的與Q最相似的NRT幅圖像所組成的集合為:
計算rij的權值。不難發(fā)現(xiàn),如果RT集和RTij集重合越多,則相應的Wij值也越大。即,更大程度上適合研究者需要的特征,將被賦予更大的權值系數(shù),即獲得更大的重視程度。
在本文中,假設顏色特征與形狀特征的權值為λ1和λ2,則有如下關系:
解得λ=0.618。
下面將在實驗部分驗證λ的權重比傳統(tǒng)0.5權重的性能更優(yōu)越。
實驗在 Windows XP系統(tǒng)下采用 Visual C++6.0編譯環(huán)境(見圖2)。選取國家標準GB5768-1999道路交通標志中的的警告標志,禁令標志和指示標志共116幅作為標準數(shù)據(jù)集,實驗數(shù)據(jù)集通過旅行家自主移動機器人配套2自由度云臺收集。實驗分為兩組:一組通過標準數(shù)據(jù)集檢測顏色形狀特征權重問題;另一組通過實景圖像中交通標志驗證算法性能。
圖2 模擬實驗結果示意圖Fig.2 Simulation results schemes
通過實驗驗證分析λ權值,將交通標志圖像每次分辨率遞減至原來的1/2,構成5層金字塔結構表示待識別交通標志距離漸遠,上文中所提當權值為λ=0.618時,綜合多特征的檢索算法在查全率與查準率都比權重λ=0.5時高。兩種特征權值檢索結果對比圖如圖3所示。
圖3 兩種特征權值檢索結果對比圖Fig.3 Two feature weight retrieval result contrast
利用上文將采樣圖像最為實驗數(shù)據(jù)與基于顏色特征和基于形狀特征的檢索算法進行對比。從圖4可以看出,本文方法在查全率和查準率上性能高于單一其他兩種方法。
圖4 3種特征檢索結果對比圖Fig.4 Three feature retrieval result contrast chart
利用自主移動機器人上云臺攝像頭實際采集的200幅實景圖像進行實驗(見圖5)。本文算法雖然花費了相對較多的運算時間,但在檢索準確性能上要高于其他兩種方法。
圖5 三種特征檢索精度和響應時間對比圖Fig.5 Three feature retrieval precision and response time contrast chart
本文在深入研究綜合多特征的匹配算法后,經(jīng)過數(shù)學分析及理論研究,計算出了一種顏色特征與形狀特征相結合的權值系數(shù)。實驗表明,該權重系數(shù)比已有方法更加適合旅行家機器人平臺,能達到更精確更快速的目的。此外本文以Visual C++6.0為開發(fā)平臺,設計并實現(xiàn)了道路交通標志識別的模擬系統(tǒng)。該系統(tǒng)能夠?qū)D片進行低級的圖像處理工作,并根據(jù)本文所改進的算法檢索圖片。本文通過現(xiàn)有機器人配件獲取圖像數(shù)據(jù),以SQL Server 2000為數(shù)據(jù)庫,創(chuàng)造了測試所需要的圖像庫。通過實驗證明,改進的算法提高了圖像的查全率和查準率,同時,算法在檢索時間上也有明顯提高。
[1]Cyganek B.Circular road signs recognition with affine moment invariants and the probabilistic neural classifier[C]//M Inter national Conference on Adaptive Natural Computing Algorithms.2007:508-516.
[2]Wang Tao,Zheng Nan-ning,Xin Jing-min,etal.Integratingmillimeter wave radar with amonocular vision sensor for on-Road obstacle detection applications[J].Sensors,2011,11(9):8992-9008.
[3]Miura J,Kanda T,Shirai Y.An active vision system for real time traffic sign recognition[C]//MIEEE Intelligent Transpor tation Systems.2000:52-57.
[4]Fleyeh H.Shadow and highlight invariant color segmentation algorithm for traffic signs[C]//IEEE Conference on Cybernetics and Intelligent Systems.2006: 1-7.
[5]Gevers T,Smeuder A W M.Evaluating color and shape invariant image indexing of consumer photograph[C]// Proceedings of the1st International Conference on Visual Information Systems.Melbourne,Astralia,1996:254-261.
[6]Gevers T,Smeuder A W M,Content-based image retrieval by viewpoint-invariant image indexing[C]//Image and Vision Computing.1999:475-488.
[7]Zhang Y J,Liu ZW,He Y.Comparision and improvement of color-based image retrieval techniques[C]// Storage and Retrieval for Image and Video Databases VI.SIPE,1997:371-382.
[8]Bergholm F.Edge focusing[C]//IEEE Trans Pattern A-nalysis and Machine Intelligence.1987:726-741.
[9]Chellappa R,Bagdazian.Fourier coding of image boundaries[C]//IEEE Trans.Pattern Anal Mach Intell. 1984:102-105.