張東波,陳紅磊,文登偉,湯紅忠,許海霞
1(湘潭大學 信息工程學院,湖南 湘潭 411105)
2(機器人視覺感知與控制技術國家工程實驗室(湖南大學),湖南 長沙 410012)
通訊作者:張東波,E-mail:zhadonbo@163.com
現(xiàn)實生活中存在大量的圓形圖像目標識別問題,例如車標、圖標、圖徽、商標、標簽、硬幣、裝飾物上的圓形花紋和圖案等.在很多場合,圓形圖像印制、擺放的角度具有隨意性,因此圖案常出現(xiàn)不同角度的旋轉(zhuǎn).為了解決現(xiàn)實場景中圓形圖像目標的識別,首先要保證在特征提取和圖像描述時的抗旋轉(zhuǎn)變換能力,這樣才能保證在只獲得少量特定角度訓練樣本前提下實現(xiàn)任意角度圓形圖像目標的識別,從而避免搜集和存儲大量的各種角度的圓形圖像樣本.以往的文獻中沒有專門針對圓形圖像目標識別的研究,但是在各種應用案例中有相關的研究報道,例如對硬幣圖案的識別、車標的識別、LOGO 標簽的識別等.
圖像目標識別一直是計算機視覺領域的熱點研究問題,其通常包括圖像預處理、特征提取與描述、分類器設計與學習等環(huán)節(jié),其中,特征提取與描述最為關鍵,需要綜合考慮鑒別能力、計算復雜性和魯棒性等因素.針對圓形圖像目標的識別問題,我們希望構建一種具有廣泛適用性的抗旋轉(zhuǎn)高效高鑒別的特征提取與描述方法.
圖像目標檢測與識別的常用特征描述算子分為浮點型和二值型兩類:浮點型描述子通?;谔荻扔嬎?通過梯度值和梯度方向信息進行描述,著名的有SIFT[1],SURF[2],MROGH[3],HOG[4]等,其優(yōu)點是鑒別能力強,但計算量大比較耗時.二值描述算子中有代表性的是LBP[5],BRIEF[6],ORB[7],BRISK[8],FREAK[9]等,二值描述算子通常直接比較圖像像素之間灰度大小,優(yōu)點在于計算簡單,計算和匹配效率高,缺點是由于量化信息損失,其鑒別能力較弱.
為了實現(xiàn)抗旋轉(zhuǎn)特征提取和圖像描述,需要考慮兩個方面的問題:一是在特征計算時應該具有抗旋轉(zhuǎn)變換能力,二是通過池化操作對圖像做整體描述時應該具有旋轉(zhuǎn)不變性.方向校正是特征計算和池化操作常用的抗旋轉(zhuǎn)技術手段,SIFT 和SURF 算子通過估計局部主梯度方向作為參考方向,然后做適當?shù)姆较蛐蕦崿F(xiàn)抗旋轉(zhuǎn)變換.但由于梯度方向估計可能存在±20°的誤差[10],因此易導致偏差.LBP 為了獲得旋轉(zhuǎn)不變特征模式[5],則通過排序策略找到具有最小模式值的模式特征作為代表模式.該處理策略在梯度方向直方圖中也可以借用,例如找到最大梯度方向,然后以此為基準,按順時針或逆時針方向重新排列梯度方向直方圖.但是此類方法易受噪聲和其他因素干擾,有時難以獲得穩(wěn)定的排序關系.也有研究人員采用成對特征點的梯度方向夾角取代方向,由于夾角和旋轉(zhuǎn)無關,因此可實現(xiàn)旋轉(zhuǎn)不變描述[11].構建局部坐標系統(tǒng)也是在特征計算階段常用的一種抗旋轉(zhuǎn)變換策略,例如樊彬的局部旋轉(zhuǎn)不變坐標系統(tǒng)[10]、文獻[12]采用的徑向梯度變換,局部坐標系統(tǒng)在獲得旋轉(zhuǎn)不變性能力上,具有嚴謹?shù)睦碚撝?有相對穩(wěn)定的性能.
在對圖像整體描述時的特征池化操作中,通常會采用格狀空間劃分,但如果不做方向校正的話,格狀空間不具備旋轉(zhuǎn)不變性.現(xiàn)有文獻中,最典型的旋轉(zhuǎn)不變描述有環(huán)狀空間劃分[13]和基于灰度排序的池化策略[14].
· 環(huán)狀空間劃分原理簡單,具有天然的旋轉(zhuǎn)不變性,因此在做旋轉(zhuǎn)不變描述時,其特征表達最為穩(wěn)定.但由于對圖像空間的描述比較粗糙,造成空間信息損失,因此特征鑒別能力不強.這也是很多特征描述方法不采用環(huán)狀空間劃分而往往采用格狀空間劃分的原因,例如SIFT,HOG 等;
· 灰度排序則通過對灰度區(qū)間的量化和排序?qū)崿F(xiàn)和旋轉(zhuǎn)無關的圖像描述,其在實際應用中也有不錯的性能表現(xiàn).但是灰度強度易受照明的影響,此外,該方法對目標遮擋和污漬敏感,因此實際應用中也有較大的局限性.
鑒于上述分析,本文提出一種針對圓形圖像目標的抗旋轉(zhuǎn)高效高鑒別特征提取與描述方法.該方法為了解決特征計算的抗旋轉(zhuǎn)能力,采用了徑向變換技術,同時,充分利用了圓形圖像目標本身呈中心對稱的外觀特點,采用環(huán)狀空間特征池化策略,并且利用空間對稱區(qū)域結構的描述提升了環(huán)狀空間描述的鑒別能力.此外,由于該方法屬于二值模式特征,其繼承了傳統(tǒng)二值模式特征計算和匹配高效的優(yōu)點.
局部二值模式(local binary pattern,簡稱LBP)是一種簡單有效的特征提取算法,原LBPp,r是通過比較中心像素和半徑為r的圓形鄰域的P個像素點的灰度大小來實現(xiàn)微觀鄰域結構的描述.LBP 具有原理簡單、單調(diào)照明變化不變性等優(yōu)點,改進后的LBP 具有旋轉(zhuǎn)不變性,因此廣泛應用在圖像匹配與圖像識別等領域,特別是在紋理分析與人臉識別領域.
為了降低模式數(shù)目,可以只保留有重要意義的模式結構,因此,研究人員提出了統(tǒng)一模式,統(tǒng)一模式在一次二進制循環(huán)計算中只產(chǎn)生兩次變化.為了實現(xiàn)旋轉(zhuǎn)不變性,Ojala 等人[5]又提出了旋轉(zhuǎn)不變LBP,通過旋轉(zhuǎn)圓形鄰域可以得到一系列初始定義LBP 值,取其中最小值作為該鄰域LBP 值,旋轉(zhuǎn)不變模式記作.結合統(tǒng)一和旋轉(zhuǎn)不變模式原理,可以得到旋轉(zhuǎn)不變統(tǒng)一模式.以鄰域p=8 為例,其模式數(shù)目從最初的28=256 種減少到10 種.由于兼具統(tǒng)一模式和旋轉(zhuǎn)不變模式的特點,在圖像識別領域得到廣泛應用,特別是在需要提取旋轉(zhuǎn)不變特征的場合.旋轉(zhuǎn)不變統(tǒng)一二值模式由下式(1)計算:
Fig.1 Illustration of the calculation of LBP and 圖1 LBP 和計算示例圖
考慮到圓形圖案的外觀特點,在進行圖像整體描述時,為了獲得旋轉(zhuǎn)不變性,我們很自然地考慮采用環(huán)形特征池化操作.但是環(huán)形空間劃分本身鑒別能力弱,不利于后續(xù)識別.如果采用經(jīng)典的旋轉(zhuǎn)不變統(tǒng)一模式特征,其只能描述10 種結構模式,不利于圖像細節(jié)的描述,這會影響特征的鑒別能力.因此,為了既能保留環(huán)形空間在處理旋轉(zhuǎn)不變描述時的天然優(yōu)勢,同時又能彌補環(huán)形空間劃分造成的空間信息損失,有必要利用更多的空間結構信息來有效提高特征的鑒別能力.本文充分利用圓形圖案中心對稱的特點,提出一種基于空間對稱位置描述的二值模式特征提取方法.
為了獲得旋轉(zhuǎn)不變描述,我們引入局部徑向坐標變換技術,并按照給定樣本點的徑向與切向方向選取鄰域點進行編碼.提取樣本點b的旋轉(zhuǎn)不變二值模式原理如圖2 所示:c為圖像中心,沿cb方向稱為徑向坐標軸,垂直cb方向稱為切向坐標軸,b為新的局部坐標系統(tǒng)原點.分別在徑向r和切向t方向找到對稱的與p點的距離為d的4 個鄰域點,沿逆時針分別記作b1,b2,b3,b4,其中,徑向方向上的鄰近點為b1,b3,切向方向上的鄰近點為b2,b4,然后按照b1,b2,b3,b4的順序與b點的像素值進行比較,由公式(2)得到二進制數(shù)編碼T=(T1T2T3T4):
將4 位二進制數(shù)T按下式轉(zhuǎn)化為10 進制數(shù),即可得到對應的編碼值:
其中,I(b)為b點的像素值,I(bi)為所取點bi的像素值,F為編碼值.該二值編碼方法可以描述16 種二值模式,與旋轉(zhuǎn)不變統(tǒng)一模式相比,其不僅具有旋轉(zhuǎn)不變性,而且可以表示更多的細節(jié)信息.
在構建局部坐標系統(tǒng)時,需要進行浮點數(shù)插值計算,這需要大量的計算時間代價.為了避免插值計算,提高計算速度,我們可以采用近似計算,其原理如圖3 所示:在圓形區(qū)域內(nèi),將圖像中心徑向方向以45°為單位,劃分8個扇區(qū),如圖3 虛線所分隔扇區(qū).環(huán)狀空間中采樣點的近似編碼計算示例如圖4~圖7 所示.
Fig.2 Diagram of local radial coordinate transformation圖2 局部徑向坐標變換示意圖
Fig.3 Sector schematic for radial approximate coding圖3 徑向近似計算的扇區(qū)示意圖
如圖4 所示,假設點A,B,C分別為圓上一點,它們與圖像中心夾角分別為θA<22.5°,22.5°<θB<67.5°,67.5°<θC<112.5°,圖5~圖7 給出了3 個點在3×3 鄰域內(nèi)的近似編碼計算實例.此時,點A的編碼起始位置b1為鄰域水平方向右邊像素點,即圖5 中像素值為120 的位置,按逆時針方向分別取右、下、左、上這4 個點進行編碼.對于點B來說,則編碼起始位置b1為鄰域右上角像素點,即圖6 中像素值為137 的位置,此時按右上、右下、左下、左上的順序取對角線的4 個點,實現(xiàn)逆時針編碼.而點C的編碼起始位置b1則為鄰域垂直方向上方像素點,即圖7中像素值為128 的位置,按上、右、下、左順序取4 個點實現(xiàn)逆時針編碼.點A,B,C編碼計算過程示意圖分別如圖5~圖7 所示.
Fig.4 Location of points A,B,C圖4 點A,B,C 所在位置圖
Fig.5 Encoding calculation process of point A圖5 點A 編碼計算過程圖
Fig.6 Encoding calculation process of point B圖6 點B 編碼計算過程圖
Fig.7 Encoding calculation process of point C圖7 點C 編碼計算過程圖
在對圓形物體ROI 區(qū)域中的每個點進行編碼后,考慮到圓形圖案中心對稱的特點,我們采用環(huán)狀空間特征池化策略;同時,為了提升環(huán)狀空間描述的鑒別能力,我們提出空間對稱結構對的方式提取成對點的特征模式.
由于圓形物體的ROI 區(qū)域為圓形,因此可將該區(qū)域按照等面積的原則劃分為若干個交疊的圓環(huán)區(qū)域,如圖8 所示,其中,第m個圓環(huán)包含的區(qū)域半徑為,其中,n為圓環(huán)的個數(shù),R為圓形ROI 區(qū)域半徑.假設(x0,y0)為ROI 圓形區(qū)域的中心點,(i,j)為區(qū)域內(nèi)任意一點,(i′,j′)為(i,j)的對稱點,則兩者之間的坐標關系由公式(4)求得:
分別對(i,j)與其對稱點(i′,j′)按照第1.2 節(jié)所述的徑向坐標變換方式計算其局部二值模式和編碼值,其中,點(i,j)編碼值記為F1,點(i′,j′)編碼值記為F2.為了確保點對模式編碼與旋轉(zhuǎn)無關,有必要按照大小排序關系進行組合.如果F1>F2,則點對模式表示為(F1,F2),否則表示為(F2,F1).統(tǒng)計圓環(huán)內(nèi)所有點對,按照出現(xiàn)頻率即可獲得該圓環(huán)內(nèi)所有點對模式的直方圖描述,記作hm.根據(jù)組合關系,模式對有162=256 種組合,因此,hm是一個256 維的特征向量.考慮到對稱性,實際計算時,點(i,j)只需要在圓環(huán)上半部分取樣,這可以避免不必要的重復統(tǒng)計.
影響模式對統(tǒng)計穩(wěn)定性的因素主要有兩個:一是ROI 區(qū)域中心位置估算誤差,二是圖像噪聲和干擾.為了獲得穩(wěn)定的統(tǒng)計結果,我們不是直接統(tǒng)計單個點對的直方圖,而是在當前點(i,j)和對稱點(i′,j′)一定鄰域內(nèi)各自尋找代表性模式作為該點的模式表示.根據(jù)實際圖像不同的特點,我們設計了兩種方式.
· 如果圓形圖案紋理細節(jié)信息比較豐富,則我們采用主模式選擇編碼.即:在點(i,j)的M×M鄰域內(nèi)統(tǒng)計出現(xiàn)次數(shù)最多的編碼模式值,將該模式值作為點(i,j)的代表模式,記為F1;同樣統(tǒng)計對稱點(i′,j′)的代表模式,記為F2,我們將這種特征提取方式稱為鄰域代表模式;
· 如果圓形圖案主要由線條、邊緣輪廓構成,沒有豐富的紋理細節(jié),則我們采用主梯度選擇編碼.即:尋找點(i,j)的M×M鄰域內(nèi)梯度幅值最大的點,并取其徑向變換二值模式值作為點(i,j)的代表模式,記為F1;按同樣原理確定對稱點(i′,j′)的代表模式,記為F2.我們將這種特征提取方式稱為鄰域主梯度代表模式.需要注意的是,在計算梯度時,同樣應該在新的局部徑向r,t坐標系統(tǒng)內(nèi)進行計算,這樣才能保證旋轉(zhuǎn)不變性.
將圓形物體所在的ROI 圓形區(qū)域按等面積劃分為n個交疊圓環(huán),計算每個圓環(huán)內(nèi)的對稱結構模式對;然后統(tǒng)計圓環(huán)內(nèi)的特征模式對直方圖,記為hm(256 維的特征向量);最終,按從內(nèi)環(huán)到外環(huán)的順序組裝起來得到最終的圖像特征描述:
其中,hm表示第m個圓環(huán)的特征向量,m=1,2,...,n.
Fig.8 Schematic diagram of symmetrical structure圖8 對稱結構模示意圖
抗旋轉(zhuǎn)對稱結構模式特征提取算法步驟如下.
1)提取圓形圖像ROI 區(qū)域,并確定其中心位置;
2)對于ROI 區(qū)域內(nèi)每個點,按照局部徑向坐標變換選取4 個鄰域點,并采用近似計算方式,計算該點的抗旋轉(zhuǎn)編碼模式值;
3)將整個ROI 區(qū)域按照等面積的原則劃分出相互交疊的n個圓環(huán);
4)依次統(tǒng)計第m個(m=1,…,n)圓環(huán)內(nèi)關于圓形區(qū)域中心點O對稱的點對(i,j)與(i′,j′)的模式,并選擇主模式編碼或主梯度選擇編碼方式,統(tǒng)計完圓環(huán)內(nèi)所有點對后,按照出現(xiàn)頻率即可獲得該圓環(huán)內(nèi)所有模式對組合的直方圖描述,記作hm;
5)將n個圓環(huán)提取到的特征向量,按照從內(nèi)環(huán)到外環(huán)順序組裝得到最終的圖像特征描述,記為
實驗采用了歐元硬幣、QQ 表情和車標這3 個數(shù)據(jù)集.歐元硬幣數(shù)據(jù)集由12 個主要歐盟國家的歐元硬幣組成,所有國家硬幣正面圖案相同,反面圖案由每一個國家自行設計,均不相同.硬幣數(shù)據(jù)集包含2 歐元、1 歐元、50 歐分、20 歐分、10 歐分5 種幣值,我們采集了不同幣值的正反面硬幣圖像8 430 張.其中,2 歐元2 603 張,1歐元2 240 張,50 歐分1 030 張,20 歐分1 291 張,10 歐分1 266 張.圖9 給出了德國、盧森堡和葡萄牙的5 種幣值的反面圖案.硬幣檢測的目的是通過識別反面圖案實現(xiàn)硬幣國別的判別.
QQ 表情數(shù)據(jù)集是截取騰訊聊天軟件中的表情獲得的,共包括52 種不同的表情,每種表情圖片按5 度加以旋轉(zhuǎn),可擴充為72 張圖片,總共獲得3 744 張圖片.QQ 表情圖片示例如圖10 所示.
車標數(shù)據(jù)集通過對各種車型的網(wǎng)上實物圖像截取、建立.我們專門選擇了15 種近似圓形的車標圖案,其中,每種車型截取了100 張圖片,共1 500 張,部分車標圖片如圖11 所示.
Fig.9 Part of the euro coin figures圖9 部分歐元硬幣圖片
Fig.10 Part of QQ expression pictures圖10 部分QQ 表情圖片
Fig.11 Part of the car logo pictures圖11 部分車標圖片
表1 給出了3 個數(shù)據(jù)集的基本信息.我們之所以采用上述3 個數(shù)據(jù)集,是因為這3 個數(shù)據(jù)集有各自不同的特性.它們在色彩、紋理、光照、圖案復雜程度方面有明顯差異,這可以充分檢驗方法的適應性和魯棒性.
Table 1 Experimental dataset basic information表1 實驗數(shù)據(jù)集信息
數(shù)據(jù)圖像中目標的ROI 圓形區(qū)域?qū)Ρ疚乃惴ㄌ卣魈崛【哂兄匾饔?由于歐元硬幣圖像有確定的單一背景,通過簡單的背景差分和形態(tài)學操作,較容易確定硬幣的位置和ROI 區(qū)域.而對于QQ 表情和車標圖片,由于我們重點關注的是圓形圖像識別的問題,因此在收集數(shù)據(jù)集時,我們已經(jīng)人為地將圓形圖像目標從原圖中剪切并保存下來,后續(xù)算法只需在剪切下來的方形子圖中做內(nèi)切圓即可確定其ROI 圓形區(qū)域.
本文方法是基于圓形圖像呈現(xiàn)中心對稱的特點而設計的,通過徑向變換技術和鄰域模式選擇策略,特征表達對于旋轉(zhuǎn)和噪聲具有較強的魯棒性.因此,該方法命名為“中心-對稱魯棒二值模式”,簡記為CS_RBP(central symmetry robust binary pattern).由于本文方法和傳統(tǒng)的LBP方法以及HOG 方法在特征提取和采樣方式上相似,因此我們主要比較LBP,HOG 方法,以及采用類似的中心對稱結構和鄰域模式選取策略的LBP 方法和本文提出的CS_RBP 方法在歐元硬幣數(shù)據(jù)集、QQ 表情數(shù)據(jù)集和車標數(shù)據(jù)集這3 個圓形圖案數(shù)據(jù)集上的實驗結果.其中,分類器模型選擇的是線性SVM.
2.2.1 關鍵參數(shù)選取實驗
有兩個重要參數(shù)對CS_RBP 方法檢測性能影響較大:一是環(huán)形空間的數(shù)目;二是在選擇鄰域代表模式時,鄰域窗口的大小.為了獲得最佳識別性能,有必要通過實驗方式確定合適的參數(shù)值.以硬幣圖像為例,表2 給出了將硬幣圖像歸一化為200×200 后,鄰域M×M取為3×3,5×5,7×7,9×9,11×11 這5 種模式,圓環(huán)個數(shù)m分別取16,18,20,22,24,26,28 等情況下的硬幣國別識別結果.
Table 2 M×M neighborhood size and number of rings m selection experiment表2 M×M 鄰域大小及圓環(huán)個數(shù)m 選取實驗
從實驗結果觀測可知,鄰域大小的選取比環(huán)狀空間數(shù)目更為重要.在同等鄰域大小下,環(huán)狀空間數(shù)目對識別性能的影響比較小,檢測結果波動幅度很小.表2 中,每一行加粗的數(shù)據(jù)是在該鄰域大小下,在某環(huán)狀數(shù)目下的最好識別結果.在3×3 鄰域時,環(huán)數(shù)為20,22,24 時有最好結果;而在5×5 鄰域時,環(huán)數(shù)為28 時有最好結果;7×7 鄰域時,環(huán)數(shù)為26 時有最好結果;9×9 鄰域時,環(huán)數(shù)為16 時有最好結果;11×11 鄰域時,則環(huán)數(shù)為28 時有最好結果.在同等鄰域下,環(huán)數(shù)取多少有最好結果沒有明顯的規(guī)律.同時可觀測到:隨著鄰域增大,9×9 和11×11 兩組實驗結果的波動相對比鄰域窗口較小的3×3,5×5 和7×7 的實驗結果波動幅度要大一些.另外,觀測每一列的數(shù)據(jù)可知:在環(huán)數(shù)固定后,鄰域過大和過小都會導致識別性能下降.在所有7 列數(shù)據(jù)中,除了環(huán)數(shù)22 時,5×5 鄰域有最好結果外(下劃線數(shù)據(jù)),其他列中均是在鄰域7×7 時取得最佳識別性能.最終的最好識別結果為100%,其中鄰域為7×7、環(huán)數(shù)26.鑒于上述實驗結果,7×7 鄰域、環(huán)數(shù)26 是一組較佳的參數(shù).在后續(xù)實驗中,我們均選用該組參數(shù)進行實驗測試和比較.
2.2.2 不同算法在3 個數(shù)據(jù)集上的實驗
針對歐元硬幣數(shù)據(jù)集、QQ 表情數(shù)據(jù)集和車標數(shù)據(jù)集,我們分別采用不同比例的訓練樣本進行實驗.用來比較的LBP 特征是最常用的LBP 統(tǒng)一旋轉(zhuǎn)不變模式,選取了(p,r)=(8,1)和(p,r)=(8,2)兩組參數(shù).在我們的CS_RBP 方法中,模式編碼時選取了d=1 和d=2 兩組參數(shù).同時,考慮到本文方法改進時所采取的對稱結構、鄰域代表模式等手段同樣可用于原來的LBP 特征提取,因此,也可以結合對稱模式實現(xiàn)單點、基于鄰域的代表模式或主梯度代表模式這3 種算法形式,因此,我們總共比較了單點、鄰域代表模式、鄰域主梯度代表模式、單點、鄰域代表模式、鄰域主梯度代表模式、CS_RBP4,1單點、CS_RBP4,1鄰域代表模式、CS_RBP4,1鄰域主梯度代表模式、CS_RBP4,2單點、CS_RBP4,2鄰域代表模式、CS_RBP4,2鄰域主梯度代表模式等算法.此外,本文方法和實驗所用的LBP 類方法均屬于密集采樣,與傳統(tǒng)HOG 特征方法的描述方式相似,因此,HOG 特征描述也是一種適合和本文特征方法對比的方法.表3~表5 給出了上述方法在不同訓練集占比下對硬幣、QQ 表情和車標進行識別的實驗結果.為了在7×7 鄰域、環(huán)數(shù)26 參數(shù)下取得好的結果,其中圖片尺寸均歸一化為200×200.在灰度歐元硬幣數(shù)據(jù)集上,提取的特征維數(shù)為260 維,單點、鄰域代表模式、鄰域主梯度代表模式的特征維數(shù)1 320 維,CS_RBP單點、CS_RBP 鄰域代表模式、CS_RBP 梯度鄰域主梯度代表模式的特征維數(shù)均為3 536 維,在彩色QQ 表情數(shù)據(jù)集和車標數(shù)據(jù)集上,分別提取R,G,B 這3 個通道特征,再合并為一個最終特征,此時提取的特征維數(shù)為780 維、單點、鄰域代表模式、鄰域主梯度代表模式的特征維數(shù)3 960 維,CS_RBP單點、CS_RBP 鄰域代表模式、CS_RBP 梯度鄰域主梯度代表模式的特征維數(shù)均為10 608 維.HOG 特征的block單元由8×8 像素構成,2×2 個block 構成一個cell 單元,最后提取的特征維數(shù)為20 736 維.表3~表5 中給出了不同方法在3 個數(shù)據(jù)集上的測試結果,其中,占比是指即訓練樣本集占總數(shù)據(jù)集圖片的比例.
由表3~表5 可以看出:在3 個數(shù)據(jù)集上,所有方法被分成5 組,其中,第1 組為表中第2 行,第2 組為表中第3行、第4 行,第3 組為表中第5 行~第8 行,第4 組為表中第9 行~第12 行、第5 組為表中第13 行~第16 行.在傳統(tǒng)LBP 方法組中,方法的識別率高于方法,說明適當增大鄰域半徑可以捕獲更多的鄰域信息,對于提高識別率有幫助.在不采用鄰域選擇策略的單點模式對方法組中,在3 個數(shù)據(jù)集上,單點與CS_RBP 單點的方法普遍表現(xiàn)較差.原因在于:一是圖像ROI 區(qū)域中心位置估算存在誤差,二是圖像本身噪聲的干擾.此時,直接將該點的編碼值作為模式值難以獲得穩(wěn)定的特征表達.但是CS_RBP 單點方法性能仍高于單點方法,原因在于CS_RBP 可以編碼16 種模式,多于方法的10 種模式,能表達圖像更多的細節(jié)信息.此外,在3 個數(shù)據(jù)集上,CS_RBP 的鄰域代表模式方法與鄰域主梯度代表模式方法的識別率也均高于的鄰域代表模式方法與鄰域主梯度代表模式方法,充分說明CS_RBP 方法特征的鑒別能力強于傳統(tǒng)LBP 特征模式.表明采用局部徑向坐標變換技術后,同樣是基于鄰域選擇策略的主模式,具有16 個模式種類的CS_RBP 優(yōu)于只有10 個模式種類.同時,在,CS_RBP 方法中,基于鄰域的代表模式均遠高于其對應的單點類的方法,表明基于鄰域選擇策略的代表模式魯棒性強,能夠很好地克服圖像ROI 區(qū)域中心位置估算誤差以及圖像本身的噪聲與干擾的影響.
Table 3 Euro coin recognition accuracy表3 歐元硬幣數(shù)據(jù)集識別率
Table 4 QQ expression recognition accuracy表4 QQ 表情數(shù)據(jù)集識別率
Table 5 Car logo recognition accuracy表5 車標數(shù)據(jù)集識別率
LBP 方法比較適合提取紋理特征,但是在紋理信息比較缺乏的QQ 表情和車標數(shù)據(jù)集中,對應的LBP 方法的性能遠低于本文的方法.這也說明本文方法適應性強,對于紋理豐富和紋理缺乏的圖像均能適用.值得注意的是:鄰域半徑增大后,很多時候CS_RBP4,2并沒有取得CS_RBP4,1更好的性能,反而還有所下降.原因是局部徑向坐標變換的旋轉(zhuǎn)不變二值模式的近似計算在半徑增大后,計算誤差會增加,尤其是當圖像鄰域中含有細節(jié)紋理信息時,例如在含有較多紋理信息的硬幣數(shù)據(jù)集和因為色差產(chǎn)生的具有紋理變化的QQ 表情數(shù)據(jù)集測試時.
由表3~表5 可知:在訓練集占比為8%的歐元硬幣數(shù)據(jù)集與占比為16%的QQ 表情數(shù)據(jù)集上,能夠達到的最好識別率100%均為本文方法所取得;只有在車標數(shù)據(jù)集中,獲得的最好識別率100%由HOG 方法取得.同時,我們可觀察到:只需要較少比例的訓練樣本,例如歐元硬幣數(shù)據(jù)集中訓練集占比為8%、QQ 表情數(shù)據(jù)集中訓練集占比16%,本文方法均達到100%的識別率.但是對于車標數(shù)據(jù)集,盡管車標圖案不旋轉(zhuǎn),但是由于圖像在自然場景下獲取,背景、照明和視角均有較大變化,因此仍然需要較多的訓練樣本,本文方法才能保證其識別性能.
由于HOG 特征本身沒有考慮旋轉(zhuǎn)不變性問題,因此其對于旋轉(zhuǎn)圖案識別效果不理想,特別是在樣本數(shù)較少的情況下,由于樣本很難涵蓋各種旋轉(zhuǎn)角度,此時HOG 方法識別性能較差.例如在硬幣數(shù)據(jù)集中,在訓練樣本數(shù)為2%時,HOG 特征識別率只有57.46%,而LBP 和CS_RBP 鄰域代表模式能達到90%以上的識別率;在訓練樣本數(shù)為4%時,HOG 特征識別率只有67.73%,而LBP 和CS_RBP 鄰域代表模式多數(shù)情況能達到95%以上的識別率;在訓練樣本數(shù)為8%時,HOG 特征識別率雖然可以達到83.44%,但是仍遠低于LBP,CS_RBP 鄰域代表模式和鄰域主梯度代表模式的識別率.在QQ 表情圖像集中,相似的情況也能在HOG 方法和CS_RBP 鄰域主梯度代表模式中觀察到.但是對于車標數(shù)據(jù)集,由于車標圖像本身無旋轉(zhuǎn)變化且邊緣結構信息顯著,此時HOG 特征表現(xiàn)優(yōu)異,在訓練樣本占比15%,30%,45%這3 種情況下都得到了100%的識別準確率.這是因為HOG 特征描述利用的是梯度信息,其在對抗照明變化上要優(yōu)于LBP 和CS_RBP 特征方法.但是一旦圖像發(fā)生旋轉(zhuǎn),則HOG 特征的性能難以得到保證,這在歐元硬幣的檢測和QQ 表情數(shù)據(jù)集中已經(jīng)得到驗證.
2.2.3 計算效率比較
CS_RBP 作為二值描述算子,計算原理簡單,與其他二值描述算子一樣具有高效的優(yōu)點.表6 給出了幾種代表性的浮點數(shù)值型描述子HOG,SIFT 和SURF,以及二值描述算子BRIEF,FREAK 和本文CS_RBP 方法在進行單點特征提取所花時間的比較.其中:HOG 單個Cell 特征提取約耗時1.9ms;SIFT 和SURF 算子需要2.5ms 和1.4ms;而CS_RBP 方法只需0.045ms,效率是HOG 的42 倍、SIFT 的56 倍、SURF 的31 倍.由于CS_RBP 在尋找對稱模式時計算原理比BRISK 和FREAK 復雜一些,因此時間消耗上略有增加.CS_RBP 算法運行環(huán)境:CPU為i5-4590,4GB 內(nèi)存,Matlab 2014a.
Table 6 Comparison single point feature extraction time of different descriptors表6 描述子單個點特征提取時間比較
2.2.4 抗旋轉(zhuǎn)性能測試
為驗證本文算法特征的抗旋轉(zhuǎn)特性,以德國2 歐元硬幣背面圖像為例,如圖12 所示,分別提取初始樣本和旋轉(zhuǎn)不同角度后該硬幣圖像的特征,特征向量之間的相關度由公式(6)計算:
其中,HY和HM分別表示初始樣本圖片和旋轉(zhuǎn)后圖片的特征向量,〈·,·〉表示向量內(nèi)積.
Fig.12 Test picture rotation schematic圖12 測試圖片旋轉(zhuǎn)示意圖
P(HY,HM)表示HY和HM的相關系數(shù),可以衡量特征的抗旋轉(zhuǎn)能力,平均相關度越大且標準差越小,則抗旋轉(zhuǎn)性越強.每次旋轉(zhuǎn)15 度,我們計算了原始圖像和旋轉(zhuǎn)后圖像的特征相關度,表7 給出了本文4 種方法和LBP,HOG特征在圖像旋轉(zhuǎn)后的相關度值.
Table 7 Average correlation of the features after rotation of the sample images表7 樣本圖片旋轉(zhuǎn)后的特征平均相關度
從表7 可知,本文的4 種算法在每個旋轉(zhuǎn)角度的相關度均比HOG 特征高,同時標準差也較小.本文4 種算法的平均相關度分別為0.845,0.905,0.885,0.789,遠高于HOG 特征的0.614,其中,CS_RBP4,2鄰域代表模式表現(xiàn)最為穩(wěn)定,平均相關度值達到0.905,標準差0.035.LBP 特征模式我們采用的是旋轉(zhuǎn)不變模式,因此其本身具有旋轉(zhuǎn)不變性,在所有旋轉(zhuǎn)角度情況下,其特征相關度均為1.盡管如此,但是LBP 旋轉(zhuǎn)不變模式信息損失較大,不利于圖像細節(jié)的描述,因此特征的鑒別能力不足.而本文方法在盡可能保留抗旋轉(zhuǎn)描述特性的同時,利用空間對稱位置結構信息有效提高了特征的鑒別能力,從而達到抗旋轉(zhuǎn)高鑒別二值模式特征提取的目的.
2.2.5 原始特征計算方法和近似計算方法對比
在基于局部徑向坐標變換的旋轉(zhuǎn)不變二值模式計算時,我們采用了近似計算方法.為了驗證近似方法的可靠性,與原始算法進行了對比測試.考慮到原始特征計算方法相當耗時,我們只選取了部分歐元硬幣進行實驗,其中,2 歐元硬幣580 張,1 歐元硬幣552 張,50 歐分硬幣252 張,20 歐分硬幣312 張,10 歐分硬幣312 張,實驗結果見表8.
Table 8 Initial feature calculation method is compared with the recognition result of approximate calculation method in euro coin recognition表8 原始特征計算方法與近似計算方法在歐元硬幣識別上的識別結果對比
從表8 可看出,4 種情況下的原始特征計算方法與近似計算方法上在最終的分類精度上相差無幾;而近似計算方法由于避免了大量的浮點數(shù)插值計算,從而大大提高了計算效率;原始特征計算方法對200×200 大小的圖像進行的特征提取耗時約30s,而近似計算辦法耗時僅需1s.
針對圓形圖案中心對稱的特點,本文提出一種基于空間對稱結構模式對的圖像二值特征描述方法.由于引入了局部徑向變換技術,在抗旋轉(zhuǎn)特性的同時,使得能夠表達的基本模式達到16 種,多于的10 種模式,因此能夠更多地描述圖像的微觀結構細節(jié)信息;并且通過組成對稱模式對,充分利用了圓形圖像的空間結構信息,因此提升了特征的鑒別能力.在具有旋轉(zhuǎn)情況的歐元硬幣和QQ 表情數(shù)據(jù)集上,均取得了優(yōu)于原LBP 特征和HOG 特征提取方法的識別性能.由于算法專門針對旋轉(zhuǎn)的圓形物體圖像識別問題,因此CS_RBP 方法在抗旋轉(zhuǎn)能力上具有很強的魯棒性.在訓練集占比為8%的歐元硬幣數(shù)據(jù)集與訓練集占比16%QQ 的表情數(shù)據(jù)集中,本文方法均達到100%的識別率.說明本文方法只需少量的代表性訓練樣本即可達到良好的性能,不需要存儲大量的不同旋轉(zhuǎn)角度的訓練樣本集.此外,CS_RBP 作為一種高效的二值描述算子,具有和其他二值描述算子一樣的優(yōu)點.單點計算時間只需0.045ms,效率是HOG 的42 倍、SIFT 算子的56 倍、SURF 算子的31 倍.