陳 輝
摘要 本文對車牌識別中的字符的結(jié)構(gòu)特征提取方法和統(tǒng)計特征提取方法做了概述,并對二者進行了比較,分析其二者各自的利弊。
關(guān)鍵詞 車牌識別;字符;提取
中圖分類號 U491文獻標(biāo)識碼 A文章編號 1674-6708(2009)05-0035-02
0引言
字符識別的特征提取主要有結(jié)構(gòu)特征提取方法和統(tǒng)計特征提取方法兩種方法。車牌字符,包括漢字、英文和數(shù)字,有其特殊的結(jié)構(gòu)特征,如筆畫、拓?fù)潼c、結(jié)構(gòu)突變點等等,這些結(jié)構(gòu)特征可區(qū)別性強、穩(wěn)定性好,可以作為特征用來進行分類。這種以字符圖像的自身結(jié)構(gòu)作為提取特征,與設(shè)定好的模板進行相關(guān)計算,得到與字符相似度最大的模板,從而判斷其所屬的類別,稱為結(jié)構(gòu)特征提取方法。另外一種方法是統(tǒng)計特征提取方法,這種方法,需要對整個字符圖像進行變換,在大量訓(xùn)練集樣本中估計統(tǒng)計特征的分類情況、設(shè)定分類器,然后根據(jù)識別器的分類曲面進行分類判別。
1字符的結(jié)構(gòu)特征提取方法
結(jié)構(gòu)特征提取方法的基本思想是把字符圖像分割簡化為若干基元,如筆畫、拓?fù)潼c、結(jié)構(gòu)突變點等,與模板對比,觀察必要的基元是否存在,不可以有的基元是否出現(xiàn),從而判斷所屬的類別。在字符識別的早期,這種方法得到了廣泛的應(yīng)用,如何得到以基元表示的結(jié)構(gòu)信息是結(jié)構(gòu)特征提取方法的重點。目前為止,主要有根據(jù)骨架、輪廓和筆畫得到結(jié)構(gòu)基元的方法。在這里面,最常使用的是將字符細(xì)化得到骨架作為結(jié)構(gòu)基元。
中軸變換(medial axis transform,MAT)是一種用來確定物體骨架的細(xì)化技術(shù),中軸變換具有邊界B的區(qū)域R的MAT是這樣確定的。對每個R中的點P,我們在B中搜尋與它最近的點,如果對P能找到多于一個這樣的點(即有2個或以上的B中的點與P同時最近),就可認(rèn)為P屬于R的中線或骨架,或者說P是1個骨架點。理論上講,每個骨架點保持了其與邊界距離最小的性質(zhì),所以如果用以每個骨架點為中心的圓的集合,就可以恢復(fù)出原始的區(qū)域來。具體就是以每個骨架點為圓心,以前述最小距離為半徑作圓周。它們的包絡(luò)就構(gòu)成了區(qū)域的邊界,填充圓周就得到區(qū)域?;蛘咭悦總€骨架點為圓心,以所有小于和等于最小距離的長度為半徑作圓,這些圓的并集就覆蓋了整個區(qū)域。
圖1是一些區(qū)域和它們的用歐氏距離算出的骨架。由圖(a)和圖(b)可知,對較細(xì)長的物體其骨架常能提供較多的形狀信息,而對較粗短的物體則骨架提供的信息較少。注意,有時用骨架表示區(qū)域受噪聲的影響較大,例如比較圖(c)和圖(d),其中圖(d)中的區(qū)域與圖(c)中區(qū)域只有一點兒差別(可認(rèn)為由噪聲產(chǎn)生),但兩者的骨架相差很大。
基于骨架的結(jié)構(gòu)特征提取方法,在保持字符特征的基礎(chǔ)上,大大簡化了字符的表達,減少了字符的信息量,但它也有自身的缺點,它過多的依賴于圖像的細(xì)化質(zhì)量。當(dāng)圖像中有墨點或粘連的框線時細(xì)化常常會產(chǎn)生拓?fù)浣Y(jié)構(gòu)上的變化。
輪廓可以反映字符圖像的結(jié)構(gòu),提取方法簡單,結(jié)果確定,是一種較好的數(shù)據(jù)信息源。輪廓提取的方法,是在提取字符骨架的基礎(chǔ)上掏空內(nèi)部點,我們首先按從上往下,從左往右的順序找到其第一個黑點,也就是0點,然后找其點的各方位的點,每個點都與0點相比較,如果所有值都相等,那么這個點就為此圖的內(nèi)部點,就去掉此點信息,將此點的值設(shè)為1,然后重新尋找新的內(nèi)部點,如果不是所有的都相等,那么直接尋找下一個點信息。輪廓相對于骨架,帶入了更精確的位置,也節(jié)省了細(xì)化的運算量,但它易受到筆畫寬度和斷線的影響。并且預(yù)先設(shè)定的規(guī)則中有很多涉及位置參數(shù),適于質(zhì)量較好的圖像。
另外,字符的局部筆畫特征是很重要的標(biāo)志性特征。可用于區(qū)分“由”與“田”,“于” 和“干”的局部差異。
結(jié)構(gòu)特征提取方法的缺點在于難以擺脫字體變形及噪聲的影響。字體變形對結(jié)構(gòu)的影響幾乎無規(guī)律可循,因而容易造成規(guī)則庫的片面性。即使能夠得到較為全面的規(guī)則庫,也存在規(guī)則的靈活應(yīng)用問題,這些問題嚴(yán)重影響系統(tǒng)性能。因此,僅靠模板的機械性匹配句法和規(guī)則的推理方法是遠(yuǎn)遠(yuǎn)不夠的。
2字符的統(tǒng)計特征提取方法
統(tǒng)計特征提取方法是通過選取同一類字符中相對穩(wěn)定的分類性能好的共有統(tǒng)計特征作為特征向量,包括字符的位置特征、筆畫特征、水平投影直方圖和垂直方向投影直方圖特征、矩特征等等。字符經(jīng)過頻域變換或其它變換后得到統(tǒng)計特征,然后在大量訓(xùn)練集樣本中估計統(tǒng)計特征的分類情況,設(shè)定分類器,最后根據(jù)識別器的分類曲面進行分類判別。大量字符的統(tǒng)計特征經(jīng)過提取和分類后形成關(guān)于字符原型知識,構(gòu)成識別字符的模板信息,存儲在識別系統(tǒng)中。在識別時首先提取相同的統(tǒng)計特征,然后與識別系統(tǒng)存儲的字符原型知識匹配比較,根據(jù)比較結(jié)果確定字符的最終分類。
統(tǒng)計特征包括全局特征和局部特征。全局特征包括字符歐拉數(shù)特征、外圍輪廓特征、方向鏈碼、周邊面積等,局部特征包括網(wǎng)格特征、線段梯度、線段方向長度、筆畫密度等。全局特征對平移和旋轉(zhuǎn)具有不變性,對局部變化不敏感,抗干擾能力強,但容易忽視某些重要的局部信息無法正確區(qū)分相似字,計算代價也較大;局部特征區(qū)分相似字的能力較強,但是無法適應(yīng)不同的書寫風(fēng)格。
3結(jié)構(gòu)方法和統(tǒng)計方法的比較
結(jié)構(gòu)方法和統(tǒng)計方法各有利弊,結(jié)構(gòu)方法的優(yōu)點是對細(xì)節(jié)的變化比較敏感,能夠較好的分辨出結(jié)構(gòu)上的細(xì)微的差別,在區(qū)分字形相近,結(jié)構(gòu)上有細(xì)微差別的字符時,通常會比較有效。缺點是魯棒性較差,對噪聲比較敏感,容易受到干擾,而且由于對字符結(jié)構(gòu)特征的描述要占用大量的存儲資源,因此,算法在實現(xiàn)上相對復(fù)雜、識別速度也比較慢。統(tǒng)計方法的優(yōu)點是對噪聲不敏感,有較好的魯棒性和穩(wěn)定性,缺點是對細(xì)節(jié)上的細(xì)微差別反映不靈敏,不能很好地區(qū)分字與字之間的一些細(xì)節(jié)上的差異,無法對字符進行細(xì)分類。在實際的應(yīng)用中,我們應(yīng)該結(jié)合結(jié)構(gòu)方法和特征方法的優(yōu)點,特征提取在保證系統(tǒng)識別的穩(wěn)定性和準(zhǔn)確率的同時,也要兼顧好系統(tǒng)的識別速度和處理時間,處理好速度和識別率之間矛盾。