作者簡(jiǎn)介:張桐彬(1997—),工程師,研究方向:高速公路機(jī)電工程(監(jiān)控、收費(fèi)、通信)相關(guān)系統(tǒng)設(shè)計(jì)。
摘要:針對(duì)高速公路場(chǎng)景下ETC車道車牌識(shí)別的準(zhǔn)確度與速度需求,文章提出一種面向高速公路的文本檢測(cè)與文本識(shí)別算法整體方案。該方案選擇CTPN作為文本檢測(cè)網(wǎng)絡(luò),通過(guò)CRNN+CTC、DenseNet+CTC兩種文本識(shí)別算法對(duì)比研究后,選擇前者作為該環(huán)境下的文本識(shí)別網(wǎng)絡(luò)。經(jīng)實(shí)際項(xiàng)目應(yīng)用表明,該識(shí)別系統(tǒng)能夠準(zhǔn)確識(shí)別車牌,具有速度快、識(shí)別率高等優(yōu)點(diǎn),有較高的實(shí)用價(jià)值。
關(guān)鍵詞:車牌識(shí)別;文本檢測(cè);文本識(shí)別;CTPN;CRNN
中圖分類號(hào):U495
0 引言
目前,隨著自動(dòng)化與計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,高速公路管理方式逐漸向著調(diào)度自動(dòng)化的智慧交通發(fā)展。全國(guó)高速公路基本取消了省界收費(fèi)站,實(shí)現(xiàn)“收費(fèi)一張網(wǎng)”。基于此背景,電子收費(fèi)系統(tǒng)(Electronic Toll Collection,ETC)逐漸成為了研究熱點(diǎn),而車牌識(shí)別的準(zhǔn)確率則決定了整體系統(tǒng)能否高效且準(zhǔn)確地運(yùn)作。
場(chǎng)景文本檢測(cè)主要致力于實(shí)現(xiàn)將自然場(chǎng)景圖片中的文本信息發(fā)現(xiàn)并定位,而對(duì)文字的識(shí)別沒(méi)有要求[1]。文本檢測(cè)的方法分為傳統(tǒng)算法以及深度學(xué)習(xí)算法。Zhou X等[2]提出了基于管道的多分支結(jié)構(gòu),實(shí)現(xiàn)了圖像中不同文本方向和文本區(qū)域的劃分,通過(guò)非極大值抑制生成候選框。Tian Z等[3]提出了文本檢測(cè)連接網(wǎng)絡(luò)(Connectionist Text Proposal Network,CTPN),將整體文本檢測(cè)作為連續(xù)小尺度矩形文本框的檢測(cè),利用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行上下文的關(guān)聯(lián)檢測(cè),并用VGG16作為網(wǎng)絡(luò)的特征提取。
在檢測(cè)到場(chǎng)景中的有效文本后,下一步則是對(duì)場(chǎng)景圖像中剪裁后的文本區(qū)域進(jìn)行文字識(shí)別。傳統(tǒng)的光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)可以將打印的文檔文件識(shí)別出來(lái)[4]。高速公路的監(jiān)控圖像可通過(guò)圖像處理后利用OCR進(jìn)行模板匹配,從而達(dá)到車牌文本的識(shí)別。但傳統(tǒng)圖像處理方法通常包含很多步驟,系統(tǒng)較為繁瑣。目前文本識(shí)別的主流方法一般采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。Shi B[5]等提出了端到端的不定長(zhǎng)文本識(shí)別網(wǎng)絡(luò)CRNN+CTC,該網(wǎng)絡(luò)利用BiLSTM學(xué)習(xí)字符圖像中的上下文關(guān)系,有效提升文本識(shí)別準(zhǔn)確率,并根據(jù)CTC(Connectionist Temporal Classification)[6]轉(zhuǎn)錄層進(jìn)行文本識(shí)別算法的優(yōu)化。Huang G[7]等提出了DenseNet+CTC網(wǎng)絡(luò),利用Dense Block模型將所有網(wǎng)絡(luò)層連接起來(lái),更好地利用特征中的信息,但由于Dense block層對(duì)特征圖的重復(fù)利用會(huì)導(dǎo)致顯存占用較高。
車牌識(shí)別的準(zhǔn)確度直接影響聯(lián)網(wǎng)收費(fèi)系統(tǒng)的聯(lián)動(dòng)及管理。本文結(jié)合目前的研究成果及高速公路場(chǎng)景下車牌的特點(diǎn),通過(guò)文本檢測(cè)與文本識(shí)別兩部分常用算法精度的對(duì)比,設(shè)計(jì)了一種面向高速公路場(chǎng)景的車牌檢測(cè)與識(shí)別算法方案。
1 方案與方法
1.1 車牌識(shí)別整體流程
高速公路車牌識(shí)別系統(tǒng)的主要步驟包括采集圖像,在圖像中檢測(cè)到車牌文本,將檢測(cè)到的文本進(jìn)行識(shí)別,最終輸出結(jié)果。其中采集的圖像是高速公路道路監(jiān)控或收費(fèi)車道攝像機(jī)拍攝的車輛行駛的視頻或圖像;檢測(cè)車牌文本為在采集的圖像中通過(guò)文本檢測(cè)算法定位出車牌字符;文本識(shí)別為將檢測(cè)出的文本通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,并得到最終的結(jié)果。
1.2 算法設(shè)計(jì)
1.2.1 文本檢測(cè)算法
CTPN適用于復(fù)雜場(chǎng)景圖像中以行為單位分布的字符檢測(cè)[8]。整體網(wǎng)絡(luò)利用字符高度的易檢測(cè)性,把圖像文本行的檢測(cè)轉(zhuǎn)換成多個(gè)小型候選框的檢測(cè)。首先利用CNN網(wǎng)絡(luò)進(jìn)行特征提取,然后將結(jié)果輸入至雙向長(zhǎng)短期記憶網(wǎng)絡(luò)中,通過(guò)Reshape操作得到空間序列,并設(shè)定好空間序列的寬高以定位文字位置。經(jīng)過(guò)上述計(jì)算與邊框回歸處理后,可以在文本圖像中得到豎直條狀的文本預(yù)測(cè)框,接著將所有相連的豎直條狀文本預(yù)測(cè)框聯(lián)通在一起,即可得到相應(yīng)的文本位置。
1.2.2 文本識(shí)別算法
針對(duì)高速公路場(chǎng)景常用的中英文本及數(shù)字,根據(jù)文本檢測(cè)提取的文本特征,分別用CRNN+CTC網(wǎng)絡(luò)與DenseNet+CTC網(wǎng)絡(luò)進(jìn)行文本識(shí)別,并將兩種算法的識(shí)別結(jié)果進(jìn)行比對(duì),得到更適用于高速公路的車牌識(shí)別網(wǎng)絡(luò)。
1.2.2.1 CRNN網(wǎng)絡(luò)
CRNN通過(guò)在卷積層中設(shè)置遞歸網(wǎng)絡(luò),對(duì)序列上下文進(jìn)行建模,最后利用CTC轉(zhuǎn)錄層把遞歸層中得到的標(biāo)簽分布通過(guò)壓縮或合并,得到最終的結(jié)果。CRNN的網(wǎng)絡(luò)流程如圖1所示[9]。
1.2.2.2 DenseNet網(wǎng)絡(luò)
DenseNet網(wǎng)絡(luò)包括CNN層、RNN層和組成轉(zhuǎn)錄層的CTC(如圖2所示),其中每一層都以前饋方式直接與其他每一層連接。DenseNet網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)可以讓網(wǎng)絡(luò)整體中某層的輸入是該層之前所有層的輸入累加組合值,同時(shí)每一層的特征圖也作為輸入傳遞給下面的所有層。
1.2.2.3 CTC轉(zhuǎn)錄層
CRNN與DenseNet網(wǎng)絡(luò)中均使用轉(zhuǎn)錄層CTC用于解決輸入和輸出序列長(zhǎng)度不一的問(wèn)題,并整合RNN層輸出的結(jié)果。CTC最基本的解決思路是對(duì)齊的思想,其利用后驗(yàn)概率計(jì)算,對(duì)于給定的序列X={x1,x2……xn}及其對(duì)應(yīng)的標(biāo)簽數(shù)據(jù)Y={y1,y2……yn},其目的是找到X與Y之間的映射關(guān)系。對(duì)于已經(jīng)定位好的文字區(qū)域圖片,可以基于RNN網(wǎng)絡(luò)并結(jié)合CTC進(jìn)行文本識(shí)別。例如,若得到一個(gè)單幀的預(yù)測(cè)結(jié)果為“-aa-p-pp-ll-e-”,其中-代表空白標(biāo)簽。根據(jù)上述的規(guī)則,得到最終的序列為“apple”。將這個(gè)轉(zhuǎn)換的規(guī)則用B表示,可以得到CTCLoss,如式(1)。
CTC所定義的標(biāo)簽序列的后驗(yàn)概率為:
式中1表示標(biāo)簽序列,其后驗(yàn)概率等于通過(guò)CTC兩條規(guī)則得到的所有1和π的概率總和。
式(3)中右側(cè)的p為單幀預(yù)測(cè)序列第t項(xiàng)概率分布中πt對(duì)應(yīng)標(biāo)簽的概率值。CTC Loss是CRNN及DenseNet模型對(duì)應(yīng)的損失函數(shù)。
1.3 評(píng)價(jià)指標(biāo)
對(duì)于文字檢測(cè)樣本而言,目前常用精確率P(precision)、召回率R(recall)以及F值(F-Measure)作為評(píng)價(jià)模型好壞的指標(biāo)。
本文所采用的評(píng)價(jià)指標(biāo)為文本檢測(cè)相對(duì)應(yīng)的競(jìng)賽評(píng)價(jià)準(zhǔn)則,其規(guī)則為:根據(jù)檢測(cè)結(jié)果的矩形框與Ground-truth矩形框進(jìn)行比對(duì),兩者重疊部分的面積和并集部分的面積相除,所得到的結(jié)果進(jìn)行衡量,若用上文中提到的P、R、F表示則分別定義為公式(4)~(6)。
式中:Tp——正確檢測(cè)的結(jié)果集合;
T——Groundtruth的集合;
E——檢測(cè)結(jié)果的集合。
對(duì)于文本識(shí)別最終效果的評(píng)價(jià)指標(biāo),目前研究該課題的學(xué)者一般采用平均編輯距離正確率和文本識(shí)別全對(duì)率進(jìn)行衡量。前者較為寬松,其通過(guò)真實(shí)文本與預(yù)測(cè)文本之間的編輯距離來(lái)衡量,指標(biāo)值越高,預(yù)測(cè)值準(zhǔn)確率越接近真實(shí)值,若兩者完全一致,則平均編輯距離為1;后者則十分嚴(yán)格,其要求圖片中的文本全部正確識(shí)別才可算作正向指標(biāo)。由于車牌識(shí)別結(jié)果的準(zhǔn)確性對(duì)高速收費(fèi)或監(jiān)控系統(tǒng)的工作效率起到了關(guān)鍵作用,故本文采用全對(duì)率作為文本識(shí)別的評(píng)價(jià)指標(biāo)。
2 結(jié)果與分析
2.1 數(shù)據(jù)集制作
以CTPN作為文本檢測(cè)網(wǎng)絡(luò),選取高速公路場(chǎng)景中監(jiān)控?cái)z像機(jī)所拍到的車輛圖片作為訓(xùn)練數(shù)據(jù)集,通過(guò)LabelImg工具進(jìn)行了標(biāo)注,并使用python腳本將xml生成為txt標(biāo)簽格式。如圖3所示。
以CRNN和DenseNet作為文本識(shí)別的網(wǎng)絡(luò),選取車牌圖片作為數(shù)據(jù)集。車牌一般由各省份的漢字簡(jiǎn)稱、26個(gè)英文字母、10個(gè)阿拉伯?dāng)?shù)字以及其他特殊漢字組成。特殊漢字包括且不限于“警”“電”等。將數(shù)據(jù)集分為兩類,第一類較為清晰,清晰測(cè)試集中均為分辨率較高的白底綠牌。第二類則為真實(shí)場(chǎng)景測(cè)試集。
2.2 實(shí)驗(yàn)結(jié)果分析
2.2.1 文本檢測(cè)結(jié)果分析
CTPN網(wǎng)絡(luò)采用隨機(jī)梯度下降算法進(jìn)行訓(xùn)練。
由訓(xùn)練結(jié)果可以看出,CTPN在圖像中的文本檢測(cè)表現(xiàn)較好,展示的高速公路監(jiān)控圖中的文本精確率均達(dá)預(yù)期值。根據(jù)本文上一節(jié)介紹的文本檢測(cè)評(píng)價(jià)指標(biāo)中的公式(4)~(6)進(jìn)行計(jì)算,最終得到測(cè)試結(jié)果精確率為98.3%,召回率為95.8%,綜合指標(biāo)為97.3%。
2.2.2 文本識(shí)別結(jié)果分析
2.2.2.1 CRNN+CTC實(shí)驗(yàn)結(jié)果
CRNN+CTC網(wǎng)絡(luò)的訓(xùn)練分為預(yù)訓(xùn)練及精確度調(diào)整訓(xùn)練。最終將訓(xùn)練完成的模型利用驗(yàn)證集進(jìn)行測(cè)試,準(zhǔn)確率達(dá)到97.6%。為了進(jìn)一步識(shí)別自然場(chǎng)景的文本,在預(yù)訓(xùn)練權(quán)重模型的基礎(chǔ)上,加入了與CRNN數(shù)據(jù)集格式相匹配的黃綠車牌數(shù)據(jù)集共5萬(wàn)張,將上述訓(xùn)練數(shù)據(jù)集按照6∶2∶2的比例劃分成訓(xùn)練集、驗(yàn)證集以及測(cè)試集,進(jìn)行CRNN模型的精確度調(diào)整。最終經(jīng)驗(yàn)證集檢測(cè),識(shí)別準(zhǔn)確率達(dá)到98.8%。訓(xùn)練過(guò)程中對(duì)驗(yàn)證集的測(cè)試所得acc值與loss值如圖4所示。
2.2.2.2 DenseNet+CTC實(shí)驗(yàn)結(jié)果
DenseNet+CTC網(wǎng)絡(luò)的訓(xùn)練將數(shù)據(jù)集按照5∶2∶3的比例劃分成訓(xùn)練集、驗(yàn)證集及測(cè)試集。最終將訓(xùn)練完成的模型利用驗(yàn)證集進(jìn)行測(cè)試,模型準(zhǔn)確率達(dá)到0.940 3,其訓(xùn)練過(guò)程中的loss值和acc值變化曲線如圖5所示。
2.2.2.3 網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)結(jié)果
在網(wǎng)上隨機(jī)選取500張車牌圖片作為CRNN和DenseNet算法的評(píng)估樣本。表1為CRNN網(wǎng)絡(luò)與DenseNet網(wǎng)絡(luò)分別在車牌測(cè)試集的測(cè)試評(píng)價(jià)結(jié)果。經(jīng)計(jì)算,CRNN全對(duì)率為0.982 5;DenseNet全對(duì)率為0.893 2。經(jīng)綜合考慮,選擇CRNN作為高速公路場(chǎng)景下的車牌識(shí)別網(wǎng)絡(luò)。
3 結(jié)語(yǔ)
針對(duì)高速公路場(chǎng)景下車牌識(shí)別的需求,本文提出了面向高速公路的車牌檢測(cè)與識(shí)別算法解決方案。首先實(shí)現(xiàn)了基于CTPN的車牌文本檢測(cè);其次對(duì)比了CRNN與DenseNet兩種車牌文本識(shí)別網(wǎng)絡(luò)的效果,并最終選用CRNN實(shí)現(xiàn)了車牌文本識(shí)別?;贑TPN進(jìn)行車牌文本檢測(cè)和車牌文本識(shí)別,并將算法成果成功應(yīng)用到大慶至廣州高速公路南康至龍南段改擴(kuò)建工程項(xiàng)目的車牌識(shí)別實(shí)踐中,實(shí)現(xiàn)了準(zhǔn)確識(shí)別的系統(tǒng)。針對(duì)高速公路環(huán)境的車牌識(shí)別,論文所提出的方法正確率較高,符合應(yīng)用需求,解決了市場(chǎng)上車牌識(shí)別算法的局限性。此成果也可為場(chǎng)景文本檢測(cè)與識(shí)別提供一定的參考。
參考文獻(xiàn)
[1]曹 琎. 自然場(chǎng)景中漢字識(shí)別關(guān)鍵技術(shù)研究[D]. 西安:西安電子科技大學(xué),2010.
[2]Zhou X Y,Yao C,Wen H,et al. EAST: An efficient and accurate scene text Detector[C]. IEEE Conference on Computer vision and pattern recognition,2017.
[3]Tian Z,Huang W,He T,et al.Detecting Text in Natural Image with Connectionist Text Proposal Network[C]. European Conference on Computer Vision. Springer (ECCV),Cham,2016.
[4]Pan H,Huang W,Yu Q,et al. Reading Scene Text in Deep Convolutional Sequences[J]. AAAI Press,2016(2):3 501-3 508.
[5]Shi B,Xiang B,Cong Y . An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2016,39(11):2 298-2 304.
[6]Billa J. Improving LSTM-CTC based ASR performance in domains with limited training data[J]. 2017(7):1707 00722.
[7]Huang G,Liu Z,Laurens V,et al. Densely Connected Convolutional Networks[J]. IEEE Computer Society,2016(1):2 261-2 269.
[8]Tian Z,Huang W L,He T,et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]. European conference on computer vision,2016.
[9]Wei L,Cao L,D Zhao,et al. CRNN: Integrating classification rules into neural network[C]. Neural Networks (IJCNN),The 2013 International Joint Conference on. IEEE,2013.
收稿日期:2023-04-08