史建偉,章 韻
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023)
近年來,車牌識(shí)別LPR(license plate recognition)技術(shù)受到了廣泛的關(guān)注和研究。商業(yè)化方案中,部分車牌識(shí)別公司都具有較好的商業(yè)化版本,應(yīng)用也較為廣泛,包括成都火眼臻視、北京精英智通科技等。現(xiàn)階段的一些車牌識(shí)別技術(shù),將檢測(cè)、分割和識(shí)別三者進(jìn)行結(jié)合,該方案過程流程較為復(fù)雜,對(duì)于圖像模糊粘連處理有一定難度,另外,車牌識(shí)別還容易受天氣、顏色、光線等因素的影響。
本文的主要貢獻(xiàn)如下:
(1)所提出的輕量級(jí)網(wǎng)絡(luò)模型可以通過一次前向傳播過程基本完成車牌端到端的檢測(cè)與識(shí)別的任務(wù),無需對(duì)車牌字符預(yù)先進(jìn)行分割,由深度神經(jīng)網(wǎng)絡(luò)自身進(jìn)行學(xué)習(xí),并進(jìn)行精細(xì)化的自動(dòng)提取操作,節(jié)約了車牌識(shí)別的時(shí)間,提升了系統(tǒng)的識(shí)別效率,相比于其它模型,訓(xùn)練時(shí)間短,收斂速度快。
(2)本文改進(jìn)YOLOv3網(wǎng)絡(luò),擴(kuò)展多尺度檢測(cè)的功能,細(xì)化定位精度,提升車牌定位效率。
(3)本文利用BGRU+CTC改進(jìn)識(shí)別網(wǎng)絡(luò)完成對(duì)已定位車牌的無字符分割的識(shí)別任務(wù),明顯縮短訓(xùn)練時(shí)間,提升了網(wǎng)絡(luò)的收斂速度和識(shí)別準(zhǔn)確率。
車牌定位的目的主要是在圖像中獲取車牌的位置,常用的做法是利用邊界框bounding box在圖像中標(biāo)出車牌位置,傳統(tǒng)的定位算法主要有4個(gè)方向[1]:邊緣特征、顏色特征、字符特征和紋理特征,一般來說,顏色和邊緣特征的應(yīng)用范圍較廣,因?yàn)檐嚺频男螤钶^為固定,其邊緣的密度相較其它圖像更高,故而邊緣特征在車牌檢測(cè)中的使用率也較高。Chen J利用組合顏色特征和邊緣信息來提取牌照[2]。在基于顏色分割的定位中,HSV顏色空間模型作用于車牌顏色閾值分割。在去除二進(jìn)制圖像中的噪聲之后,使用形態(tài)學(xué)操作來填充某些斷開區(qū)域的間隙。然后,利用基于輪廓形狀比和滿足車牌特征的輪廓區(qū)域的尺寸來提取目標(biāo)區(qū)域。然而,傳統(tǒng)定位方法的精度和速度有待提高。最近幾年,目標(biāo)檢測(cè)算法取得了很大的突破,算法主要有兩類,一類以區(qū)域建議為基礎(chǔ),再進(jìn)行分類和回歸的目標(biāo)檢測(cè)算法,如RCNN[3]、Mask RCNN[4],一類是基于回歸的端到端的檢測(cè)算法,如SSD[5]、YOLO[6]等,前者首先產(chǎn)生目標(biāo)候選框,然后再對(duì)候選框進(jìn)行分類與回歸的處理,擁有較高的精度,后者采用回歸的方式進(jìn)行端到端的定位,速度較快,但精度略低。
車牌識(shí)別階段,傳統(tǒng)識(shí)別技術(shù)傾向于先對(duì)車牌字符采取分割的操作,然后使用光學(xué)字符識(shí)別(OCR)技術(shù)識(shí)別每個(gè)被分割的字符。Chen J實(shí)現(xiàn)了利用支持向量機(jī)(SVM)來識(shí)別中國(guó)車牌字符[2]。通過在兩種類型的字符之間設(shè)計(jì)SVM,使用可以識(shí)別多個(gè)字符的多類分類器。結(jié)果表明,該方法在字母數(shù)字特征上表現(xiàn)良好,但對(duì)于漢字識(shí)別并不理想。Zherzdev S等提出了LPR-Net的概念[7],它是由輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)組成,因此可以端到端的方式進(jìn)行訓(xùn)練并且不需要預(yù)先的字符分割,實(shí)驗(yàn)結(jié)果表明,該模型的識(shí)別準(zhǔn)確率可達(dá)95%。
然而,大多數(shù)現(xiàn)有算法僅在受限條件下或使用復(fù)雜的圖像捕獲系統(tǒng)才能很好地工作。在相對(duì)復(fù)雜的環(huán)境中進(jìn)行車牌識(shí)別的難度依然較大。相關(guān)挑戰(zhàn)諸光線照明不夠、扭曲、遮擋或模糊。傳統(tǒng)的車牌定位和識(shí)別的方法通常將上述兩個(gè)模塊視為兩個(gè)獨(dú)立的任務(wù),并分別通過不同的方法來解決它們。然而,二者其實(shí)是高度相關(guān)的。因此,本文提出了端到端的車牌定位和識(shí)別的方案,優(yōu)化了車牌識(shí)別系統(tǒng),提高了識(shí)別速度和準(zhǔn)確。
系統(tǒng)的網(wǎng)絡(luò)模型圖1所示,由車牌定位,車牌識(shí)別兩個(gè)部分組成。首先利用改進(jìn)的YOLOv3檢測(cè)網(wǎng)絡(luò)對(duì)車牌做定位,獲取車牌的角點(diǎn)坐標(biāo)后,進(jìn)行裁剪,并送入識(shí)別網(wǎng)絡(luò),再對(duì)車牌做特征提取,采用BGRU進(jìn)行序列標(biāo)注和譯碼的操作,最后利用CTC Loss優(yōu)化目標(biāo)函數(shù)在各個(gè)數(shù)據(jù)點(diǎn)的損失函數(shù)值,從而輸出識(shí)別的車牌結(jié)果。
圖1 系統(tǒng)模型框架
YOLO可以獲取到圖像的整體信息,使用單個(gè)網(wǎng)絡(luò)完成整個(gè)檢測(cè)的方法,大大提升了同類目標(biāo)檢測(cè)算法的速度;YOLOv2[8]引入了anchor。同時(shí)使用了K-means方法,對(duì)anchor數(shù)量進(jìn)行了討論,在精度和速度之間做出折中。并且修改了網(wǎng)絡(luò)結(jié)構(gòu),去掉了全連接層,改成了全卷積結(jié)構(gòu)。在YOLOv2的基礎(chǔ)上,YOLOv3[9]改進(jìn)了不少,比如多標(biāo)簽分類,多尺度檢測(cè)等,該變化使得檢測(cè)速度大大加快,同時(shí),在檢測(cè)精度上也有很大的提升,該模型使用了很多表現(xiàn)良好的3*3和1*1的卷積方案,該網(wǎng)絡(luò)對(duì)于小物體的檢測(cè)效果也有一定的提升,隨著輸出的特征圖的數(shù)量和尺度的變積層,另外,在后續(xù)進(jìn)行多尺度檢測(cè)時(shí)也采用了一些殘差網(wǎng)絡(luò)模塊,正是由于采用了多尺度的檢化,先驗(yàn)框的尺寸也需要相應(yīng)的調(diào)整。YOLOv2已經(jīng)開始采用K-means聚類得到先驗(yàn)框的尺寸,YOLOv3引入了Faster R-CNN采用bounding box[10]的思想,為每種下采樣尺度設(shè)定3種先驗(yàn)框,總共聚類出9種尺寸的先驗(yàn)框,針對(duì)COCO數(shù)據(jù)集和VOC數(shù)據(jù)集都采用了3個(gè)尺度的進(jìn)行目標(biāo)檢測(cè),尺度小的物體用大的先驗(yàn)框,反之,尺度大的物體則用小的先驗(yàn)框。
相比于YOLOv2使用Softmax預(yù)測(cè)錨點(diǎn)框中包含物體的概率,YOLOv3則將其替換為了邏輯回歸(Logistic Regression),當(dāng)預(yù)測(cè)的目標(biāo)類別很復(fù)雜的時(shí)候,邏輯回歸進(jìn)行分類則顯得更為有效。
YOLOv3在訓(xùn)練的過程中,采用Logistic Regression和交叉熵Cross Entropy對(duì)類別進(jìn)行預(yù)測(cè),該方案讓YOLOv3能夠?qū)蝹€(gè)目標(biāo)采用多標(biāo)簽分類的策略。
YOLOv3中,引入了FPN[11]網(wǎng)絡(luò),與此同時(shí),采用高層的細(xì)粒度特征和高語義信息和低層的粗粒度特征,再結(jié)合上采樣的技術(shù),將不同層次的特征進(jìn)行融合,從而對(duì)目標(biāo)物體進(jìn)行3個(gè)不同尺度特征層次的檢測(cè)。
然而,在目標(biāo)檢測(cè)物的在圖像中占比較小時(shí),也會(huì)存在如下問題:
(1)其所對(duì)應(yīng)的檢測(cè)區(qū)域的像素所呈現(xiàn)的信息量則是受限的,故而導(dǎo)致了一些較為通用的目標(biāo)檢測(cè)算法在某些小物體檢測(cè)的場(chǎng)景下效果不佳,相比專門為了檢測(cè)小物體而設(shè)計(jì)的算法,更易受到本身場(chǎng)景的限制,應(yīng)用范圍有限的,通用性有待提高。
(2)在訓(xùn)練階段,對(duì)于小物體的標(biāo)注容易存在偏差,在目標(biāo)物體較小的情況下,標(biāo)記的誤差會(huì)對(duì)檢測(cè)效果產(chǎn)生較大的影響。
本文對(duì)YOLOv3的原有檢測(cè)網(wǎng)絡(luò)進(jìn)行優(yōu)化,將其檢測(cè)深度擴(kuò)展為4個(gè)尺度,該方案使其對(duì)較小車牌的檢測(cè)更為精細(xì),錨點(diǎn)框的選取更為準(zhǔn)確,同時(shí),也使得網(wǎng)絡(luò)本身更好地利用低層和高層的不同級(jí)別的細(xì)粒度特征實(shí)現(xiàn)多尺度檢測(cè)。
改進(jìn)算法YOLOv3-LPR的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中的DBL即為Conv(卷積)+BN(批歸一化)+Leaky Relu(帶泄露修正線性單元)的組合,BN和Leaky Relu不可分,是網(wǎng)絡(luò)中的最小組件,resn(n位數(shù)字)是殘差結(jié)構(gòu),表示res_block(殘差塊)中有多少個(gè)res_unit(殘差單元),其為網(wǎng)絡(luò)的最大組件,concat則代表張量拼接,其會(huì)將中層以及后層的上采樣進(jìn)行拼接,該操作與殘差層的add含義不同,拼接操作會(huì)增加張量的維度,而殘差層的add是直接相加并不會(huì)帶來張量數(shù)量的擴(kuò)充。
圖2 改進(jìn)的多尺度檢測(cè)框架YOLOv3-LPR結(jié)構(gòu)
整個(gè)網(wǎng)絡(luò)主要利用上采樣的方式來實(shí)現(xiàn)多尺度的feature map(特征層),圖中concat連接的是兩個(gè)尺度一樣的張量,將52×52尺度與104×104尺度通過(2,2)上采樣進(jìn)行拼接,擴(kuò)展為網(wǎng)絡(luò)的第4個(gè)尺度,進(jìn)而擴(kuò)充張量的維度,增加檢測(cè)的細(xì)粒度,提升對(duì)于小物體的檢測(cè)效果。
在傳統(tǒng)的LPR框架中,如文獻(xiàn)[7]所述,字符分割對(duì)車牌識(shí)別的成功有很大的影響。如果分割不合適,則牌照將被錯(cuò)誤識(shí)別,即使我們有一個(gè)高性能的識(shí)別器,可以處理各種大小,字體和旋轉(zhuǎn)的字符。然而,字符分割過程較為復(fù)雜,其分割效果對(duì)識(shí)別影響很大,且易受到噪聲和不良照明的影響。傳統(tǒng)的識(shí)別方案中通常采用了許多預(yù)處理,分割和識(shí)別的方法,但未能取得較好的效果。故而,在這一部分中,我們使用一種新的識(shí)別技術(shù),將車牌中的字符視為未分段的序列,并從序列標(biāo)記的角度來解決問題。
2.4.1 LSTM+CTC識(shí)別模型的改進(jìn)
相比傳統(tǒng)的車牌識(shí)別算法,如模板匹配,SVM,ANN等,普遍存在速度慢,精度不高的問題,尤其在中文車牌的識(shí)別上,此類算法對(duì)于漢字的識(shí)別效果并不理想,近年來,LSTM+CTC的方案成為了端到端車牌識(shí)別算法的主流,但本文所采用的BGRU+CTC的識(shí)別算法相較于LSTM+CTC在網(wǎng)絡(luò)訓(xùn)練時(shí)間,收斂速度,識(shí)別精度上都有所提升。
基于序列標(biāo)記的車牌識(shí)別的整個(gè)過程如圖3所示。它主要由3個(gè)子部分組成。首先,將牌照邊界框轉(zhuǎn)換成一系列特征向量, 然后使用Adam和BP算法訓(xùn)練具有GRU(gated recurrent unit)的RNN模型以標(biāo)記序列特征。最后將CTC(connectionist temporal classification)應(yīng)用于RNN(recurrent neural network)的輸出層,分析RNN的標(biāo)記結(jié)果并生成最終識(shí)別結(jié)果。
圖4則為BGRU序列識(shí)別過程對(duì)應(yīng)的參數(shù)模型,該方法允許在沒有字符級(jí)別分割和識(shí)別的情況下重新識(shí)別整個(gè)車牌,明顯改善了傳統(tǒng)識(shí)別模式依賴先分割后識(shí)別的方案,減少了識(shí)別過程所需的時(shí)間。GRU可以幫助捕獲序列中的特征之間的相互依賴性,利用待標(biāo)語素左側(cè)和右側(cè)上下文的信息,通過門限機(jī)制實(shí)現(xiàn)對(duì)長(zhǎng)距離依賴的建模,并且在處理低質(zhì)量圖像時(shí)依然可以取得不錯(cuò)的效果。因此,本文模型采用BGRU級(jí)聯(lián)的構(gòu)造結(jié)構(gòu),很好地利用了GRU本身的特性,同時(shí)也增強(qiáng)了其序列識(shí)別的性能。另外,精密的CNN模型所學(xué)習(xí)到的高級(jí)特征對(duì)于這種方法的成功也至關(guān)重要。
圖3 序列識(shí)別模型
2.4.2 序列特征生成
CNN具有從圖像中學(xué)習(xí)信息表示的強(qiáng)大能力。這里應(yīng)用預(yù)訓(xùn)練的7層CNN模型從裁剪的車牌圖像中提取順序特征表示。受He P等[12]工作的啟發(fā),我們用滑動(dòng)窗口的方式在整個(gè)圖像中提取相應(yīng)的特征。首先,對(duì)圖像做一定的預(yù)處理,將每一個(gè)檢測(cè)到的車牌轉(zhuǎn)為灰度圖像,然后將車牌的大小調(diào)整為164*48,其高度與CNN模型的輸入高度相同,中文車牌是由7個(gè)字符組成,其中包含1位省份漢字簡(jiǎn)稱和6位字母和數(shù)字的混合體,另外中國(guó)車牌共有31個(gè)省份,混合體中包含10個(gè)阿拉伯?dāng)?shù)字和24個(gè)英文字母(O和I不計(jì)算在內(nèi)),故而全連接層共有65個(gè)類,而最終根據(jù)所需的位數(shù),利用Softmax層做分類。經(jīng)過序列識(shí)別網(wǎng)絡(luò)的處理,全連接層輸出了18*66維(含1位空格符)的特征向量,候選車牌圖像上的特征也被從左到右被依次提取,本文中該特征圖從左往右依次和7個(gè)字符信息網(wǎng)絡(luò)層相對(duì)應(yīng),并利用Dropout進(jìn)行隨機(jī)(rate=0.25)刪除一些隱藏神經(jīng)元,分類層輸出的7位結(jié)果對(duì)應(yīng)網(wǎng)絡(luò)的識(shí)別結(jié)果。這不僅保存了序列信息,同時(shí)還獲取了有效的RNN的上下文信息,其特征向量之間的相互關(guān)系對(duì)字符識(shí)別有很大幫助。
圖4 BRGU序列識(shí)別模型
2.4.3 序列標(biāo)注
RNN較為特殊,該網(wǎng)絡(luò)具有對(duì)過去的上下文信息進(jìn)行預(yù)測(cè)的能力。且相比對(duì)每個(gè)特征進(jìn)行單獨(dú)的處理,該機(jī)制使得序列識(shí)別操作更加的穩(wěn)定??紤]到RNN在訓(xùn)練期間容易產(chǎn)生梯度爆炸的可能,我們采用了LSTM(long short-term memory)的變體GRU。它包含一個(gè)存儲(chǔ)器單元和更新,重置兩個(gè)乘法門,比LSTM少了一個(gè)門函數(shù),在參數(shù)規(guī)模上也比LSTM少了1/4,所以整體上GRU的訓(xùn)練和網(wǎng)絡(luò)收斂速度要快于LSTM,可以長(zhǎng)時(shí)間存儲(chǔ)上下文,并獲取序列特征之間的長(zhǎng)程依賴關(guān)系。
序列標(biāo)識(shí)即對(duì)特征序列中的每一層特征都用GRU遞歸處理,每一次都會(huì)用一個(gè)非線性狀態(tài)的函數(shù)g(·)來對(duì)狀態(tài)ht進(jìn)行更新,該函數(shù)會(huì)進(jìn)一步將當(dāng)前特征xt和處于鄰接狀態(tài)的ht-1或ht+1作為輸入
隨后是Softmax層,其將GRU的狀態(tài)轉(zhuǎn)換為7個(gè)類的概率分布
整個(gè)特征序列被最終轉(zhuǎn)換為概率估計(jì)序列p={p1,p2,…pL},其長(zhǎng)度與輸入序列相等。
2.4.4 序列譯碼
最后,本文的網(wǎng)絡(luò)將概率估計(jì)P的序列轉(zhuǎn)換為字符串,其中,CTC專門設(shè)計(jì)用于序列標(biāo)記任務(wù),可以解決輸入特征和輸出標(biāo)簽之間對(duì)齊關(guān)系不確定的時(shí)間序列問題,也無需數(shù)據(jù)預(yù)分割。它能夠直接將預(yù)讀序列解碼為輸出標(biāo)簽。故而,本文中選擇具有反向傳播的梯度下降算法Adam算法來訓(xùn)練網(wǎng)絡(luò),將它直接連接到GRU的輸出,CTC的輸入恰好是GRU的輸出激活,另外,采取序列譯碼的策略是為了利用GRU的輸出序列進(jìn)一步獲取具有最大概率的近似路徑的最優(yōu)解。
為了驗(yàn)證本文車牌定位算法和識(shí)別算法的有效性進(jìn)行了相應(yīng)的仿真實(shí)驗(yàn),實(shí)驗(yàn)平臺(tái)為Intel(R) Xeon(R) CPU E5-2643 v4 @ 3.40 GHz,8 GB RAM,NVIDIA GeForce GTX 1080 Ti,采用CUDA8.0 加速,車牌定位,識(shí)別的模型的實(shí)驗(yàn)數(shù)據(jù)來源停車場(chǎng),收費(fèi)站,CCPD[13]開源數(shù)據(jù)集和廣東省智能交通系統(tǒng)重點(diǎn)實(shí)驗(yàn)室的開源數(shù)據(jù)集Open-ITS,共計(jì)14 484張,其中識(shí)別部分的數(shù)據(jù)需先對(duì)原圖進(jìn)行車牌檢測(cè)并裁剪,示例數(shù)據(jù)如圖5所示,此前有采用過利用OPENCV和車牌字體生成的數(shù)據(jù),效果并不理想,故而本文采用的數(shù)據(jù)均為真實(shí)數(shù)據(jù)。
圖5 識(shí)別模型訓(xùn)練數(shù)據(jù)樣例
在車牌定位模型中改進(jìn)了YOLOv3模型,擴(kuò)展了多尺度檢測(cè)的功能,融合了多級(jí)細(xì)粒度的特征[14],訓(xùn)練時(shí)為了避免產(chǎn)生過擬合的現(xiàn)象,同時(shí)也為了提升模型訓(xùn)練速度,選用動(dòng)量常數(shù)為0.9,學(xué)習(xí)率為動(dòng)態(tài)衰減,初始值為0.001,衰減步長(zhǎng)為40 000,衰減率為0.0005,批大小為64,最大迭代50 200次,框架為DarkNet。車牌定位的目的主要是為了獲得車牌所在的區(qū)域,為后續(xù)的車牌識(shí)別做準(zhǔn)備,由于車牌定位的精度直接影響了車牌識(shí)別的效果,故而,采用反應(yīng)定位坐標(biāo)準(zhǔn)確度的平均IOU(intersection over union)指標(biāo)來衡量車牌定位的有效性,該指標(biāo)值越大,則定位越準(zhǔn)確,效果越好,相關(guān)網(wǎng)絡(luò)訓(xùn)練參數(shù)變化散點(diǎn)圖如圖6所示。
圖6 網(wǎng)絡(luò)訓(xùn)練參數(shù)收斂散點(diǎn)圖
如表1所示,因檢測(cè)尺度的深化,改進(jìn)算法YOLOv3-LPR復(fù)雜度有所增加,在檢測(cè)速度上,盡管比原有算法低了4.4 fps,但是mAP值卻提高0.6,綜合性能有所提升。
表1 多尺度檢測(cè)算法效果比較
端到端的車牌識(shí)別模型訓(xùn)練共使用了14 484張圖片,采用分步策略,批大小為128,訓(xùn)練周期為25,每個(gè)訓(xùn)練周期數(shù)據(jù)迭代800次。同時(shí)利用Adam算法優(yōu)化梯度下降,學(xué)習(xí)率為動(dòng)態(tài)衰減,框架為Keras; 在保證其它參數(shù)不變的情況下,與現(xiàn)階段比較流行,且效果很好的車牌識(shí)別方法BLSTM+CTC在訓(xùn)練時(shí)間Batch/Time,CTC Loss和識(shí)別準(zhǔn)確率Accuracy這3個(gè)方面進(jìn)行比較,驗(yàn)證本文識(shí)別算法的有效性,結(jié)果如圖7,圖8,圖9所示。相較于一些比較傳統(tǒng)的算法,如模板匹配,HOG+SVM,BP神經(jīng)網(wǎng)絡(luò)等,其本身與BLSTM+CTC和BGRU+CTC的效果有較大差距,故識(shí)別模型驗(yàn)證階段并未做比較。
圖7 BLSTM+CTC和BGRU+CTC的訓(xùn)練時(shí)間對(duì)比
圖8 BLSTM+CTC和BGRU+CTC的CTC Loss對(duì)比
圖9 BLSTM+CTC和BGRU+CTC的識(shí)別準(zhǔn)確率對(duì)比
從圖7可以看出,在相同周期內(nèi),BLSTM+CTC的訓(xùn)練時(shí)間明顯高于BGRU+CTC的訓(xùn)練時(shí)間,這是因?yàn)镚RU網(wǎng)絡(luò)本身包含一個(gè)存儲(chǔ)器單元和更新,重置兩個(gè)乘法門,比LSTM少了一個(gè)門函數(shù),從而,在矩陣乘法的數(shù)量上有所下降,參數(shù)規(guī)模也比LSTM少了1/4,所以整體上BGRU+CTC的訓(xùn)練和網(wǎng)絡(luò)收斂速度要快于BLSTM+CTC,在數(shù)據(jù)量比較大的情況下,BGRU+CTC可以節(jié)省很多的訓(xùn)練時(shí)間。
為了更完整的顯示CTC Loss變化的細(xì)節(jié),故將圖8中的Epoch=1狀態(tài)時(shí)BLSTM+CTC和BGRU+CTC的值略去了,其分別為6.6563和5.2852,從圖上可以清晰地發(fā)現(xiàn),盡管從第5個(gè)Epoch開始,兩者的CTC Loss值趨近一致,但在訓(xùn)練的初始階段,BGRU的CTC Loss值下降速度更快,與此同時(shí),CTC Loss的變化速度也直接影響了識(shí)別準(zhǔn)確率Accuracy的大小。
如圖9所示,BGRU+CTC的結(jié)構(gòu)在更短的時(shí)間內(nèi)獲得了相對(duì)較高的準(zhǔn)確率,在Epoch=3時(shí)就達(dá)到了96.33%,相較之下,BLSTM+CTC卻只有94.75%,低了約1.5%;另外,從整個(gè)周期來看,BGRU+CTC取得最高準(zhǔn)確率為Epoch=18時(shí)的98.42%,但BLSTM+CTC取得的最高準(zhǔn)確率則為Epoch=21時(shí)的97.92%,與前者相比,略低了0.5%,從平均值看,BGRU+CTC準(zhǔn)確率為97.08%,BLSTM+CTC為96.28%;故而,綜上比較,BGRU+CTC識(shí)別模型的效果更好。
如表2所示,本文改進(jìn)算法YOLOv3-LPR+BGRU+CTC相較其它算法,識(shí)別準(zhǔn)確率最高,盡管提高了模型復(fù)雜度,在時(shí)間上有所增加,但是綜合性能還是最優(yōu)的。
從上述實(shí)驗(yàn)數(shù)據(jù)的對(duì)比中,不難發(fā)現(xiàn),在定位方法一致時(shí),識(shí)別模塊采用BGRU+CTC,其車牌的識(shí)別的準(zhǔn)確率有一定的提升,且由于BGRU的結(jié)構(gòu)相較于BLSTM更加的簡(jiǎn)潔,故而在識(shí)別速度方面也具有一定的優(yōu)勢(shì);另外,在定位模塊進(jìn)行多尺度改進(jìn)的算法,相較于原算法,其模型復(fù)雜度有所提升,故而,識(shí)別速度有所減慢,識(shí)別時(shí)間增加了3.71 ms,但對(duì)系統(tǒng)整體性能的影響不大,然而,改進(jìn)后的模型的識(shí)別準(zhǔn)確度卻提升了0.35%;其次,對(duì)比改進(jìn)后的YOLOv3-LPR和OPENCV兩個(gè)定位模塊,實(shí)驗(yàn)結(jié)果表明識(shí)別速度有顯著提升,其識(shí)別時(shí)間大約減少了39%,綜合考慮各項(xiàng)指標(biāo),本文模型YOLOv3-LPR+BGRU+CTC表現(xiàn)出的效果最優(yōu)。
表2 定位+識(shí)別算法效果比較(OpenITS)
針對(duì)傳統(tǒng)車牌識(shí)別方法準(zhǔn)確率不高,速度慢的問題,本文提出了定位-識(shí)別一體化模型,簡(jiǎn)化了識(shí)別流程,實(shí)現(xiàn)了車牌的端到端的定位和識(shí)別,在定位模型中,改進(jìn)YOLOv3的多尺度檢測(cè),使其對(duì)于車牌有更好的定位性能,在識(shí)別模型中,改進(jìn)傳統(tǒng)的BLSTM+CTC識(shí)別模型的架構(gòu),優(yōu)化識(shí)別效果,通過實(shí)例驗(yàn)證,本文改進(jìn)的模型整體效果良好,其在識(shí)別率和可靠性方面具有一定的優(yōu)勢(shì)。