*基金項(xiàng)目:福建省教育科學(xué)“十四五”規(guī)劃2022年度課題(編號(hào) FJJKGZ22-057),福建省中青年教師教育科研項(xiàng)目(科技類)(編號(hào) JAT201269)和閩南師范大學(xué)福建省粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)驗(yàn)室開放課題基金(編號(hào) 2020L004)的成果之一。
收稿日期:2024-5-12
作者簡介:林璐穎(1981-),福建漳州人,碩士,講師,研究方向:計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。Email:lly2022a@163.com。
摘要:車牌識(shí)別易受到天氣或光照條件等不可預(yù)見干擾的影響。因此,文章提出了一種無需分割的車牌識(shí)別框架,該網(wǎng)絡(luò)模型結(jié)合了先進(jìn)的深度學(xué)習(xí)方法和設(shè)計(jì)思想,采用了深度可分離卷積來極大地降低計(jì)算量。與之前相比,它以更低的計(jì)算要求實(shí)現(xiàn)了更高的識(shí)別精度。在兩個(gè)不同的數(shù)據(jù)集上對(duì)所提方法的有效性進(jìn)行了評(píng)估,并獲得了超過99%識(shí)別準(zhǔn)確率和70以上的幀率,該方法穩(wěn)健高效,值得推廣。
關(guān)鍵詞:車牌識(shí)別,深度學(xué)習(xí),深度可分離卷積
中圖分類號(hào):TP391.14
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-9545(2024)02-0000-(06)
DOI:10.19717/j.cnki.jjun.2024.02.017
自動(dòng)車牌識(shí)別在現(xiàn)代交通系統(tǒng)中發(fā)揮著至關(guān)重要的作用,如交通監(jiān)控和車輛違章檢測。盡管在該領(lǐng)域已經(jīng)涌現(xiàn)出了大量方法[1-3],但在現(xiàn)實(shí)世界的應(yīng)用中仍然存在諸多挑戰(zhàn)。例如,車牌圖像高度失真或模糊、照明條件差以及和寒冷的天氣條件等都會(huì)顯著影響識(shí)別效果。由于大多數(shù)以前的解決方案都依賴于額外的規(guī)則(例如,車牌中允許的最大字符數(shù))來提高其準(zhǔn)確性,或在特定于環(huán)境的數(shù)據(jù)集上驗(yàn)證各自方法(使用單個(gè)相機(jī)或從相同的視角收集圖像),或者缺乏多樣性(例如只識(shí)別具有相同背景顏色的單一類別的車輛或車牌),常常只在有限的場景中表現(xiàn)良好。然而,一個(gè)強(qiáng)大的車牌識(shí)別系統(tǒng)應(yīng)當(dāng)適應(yīng)不同的環(huán)境條件。傳統(tǒng)的車牌識(shí)別方法通常是基于分割的方法,即先進(jìn)行字符檢測,然后進(jìn)行字符識(shí)別。這種方法需要精確的字符分割,即使使用穩(wěn)健的字符識(shí)別器,分割過程的錯(cuò)誤也會(huì)導(dǎo)致車牌識(shí)別錯(cuò)誤。然而,在真實(shí)世界的場景中,由于模糊的圖像和環(huán)境因素降低了字符分割的準(zhǔn)確性,這些方法不適合真實(shí)世界的應(yīng)用。此外,字符檢測和識(shí)別過程的解耦也帶來了額外的計(jì)算成本。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人們提出了越來越多的在不進(jìn)行字符分割的情況下解決車牌識(shí)別的創(chuàng)新思路[4]。無分割方法通常從車牌中提取特征,并將其傳遞給CNN或RNN模型來識(shí)別字符序列。這些方法往往表現(xiàn)出更好的性能和準(zhǔn)確性。
1車牌識(shí)別方法概述
文章的主要目的是提出一種實(shí)時(shí)、高精度的車牌識(shí)別方法?;诜指畹姆椒ㄍǔP枰冗M(jìn)行字符分割,然后進(jìn)行字符識(shí)別來預(yù)測車牌字符序列。文章提出的模型與基于分割的方法不同,該模型在不進(jìn)行分割的情況下處理整個(gè)車牌圖像。同時(shí)還使用CTC(聯(lián)結(jié)主義時(shí)間分類)損失進(jìn)行無分割訓(xùn)練,使得無需標(biāo)注車牌中字符的位置。首先,直接從原始圖像中裁剪出RGB車牌圖像作為模型的輸入,而不是具有車輛和其他背景信息的原始圖像。這可以通過各種檢測解決方案輕松實(shí)現(xiàn)。例如,先前的工作[5]使用YOLOv2或最新的YOLOv3作為車牌檢測器和車輛檢測器。文章在幾個(gè)需要車牌檢測的實(shí)驗(yàn)中簡單地使用YOLOv3作為車牌檢測器。由于文章主要集中在車牌識(shí)別任務(wù)上,因此沒有介紹檢測部分方法的細(xì)節(jié)。
現(xiàn)有的很多強(qiáng)大網(wǎng)絡(luò),如AlexNet、VGGNet或GoogLeNet,在最近的工作中廣受歡迎。然而,要構(gòu)建一個(gè)快速、輕量級(jí)的網(wǎng)絡(luò),大規(guī)模使用這些單片網(wǎng)絡(luò)并不是最好的選擇。文章所提出網(wǎng)絡(luò)的基本構(gòu)建塊主要受到Inception ResNet v2[7]和Xception[6]的啟發(fā)。Inception網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò),它通過適當(dāng)數(shù)量的參數(shù)實(shí)現(xiàn)了卓越的性能;然而,由于其復(fù)雜的設(shè)計(jì),在車牌識(shí)別應(yīng)用中的計(jì)算成本仍然太高。在[7]中,改進(jìn)版本的具有殘差連接的Inception防止了梯度消失,意味著Inception ResNet v1和v2的性能略好于它們的前代。另一方面,Xception網(wǎng)絡(luò)雖然不如前者強(qiáng)大,但得益于采用深度可分離卷積,效率明顯更高,并且需要更少的參數(shù)來匹配前者的性能。為了在準(zhǔn)確性和計(jì)算效率之間取得良好的平衡,分別利用兩者的一部分來構(gòu)建文章的車牌識(shí)別專用網(wǎng)絡(luò),而不是直接使用這兩個(gè)重型網(wǎng)絡(luò)。用于構(gòu)建車牌識(shí)別模型的構(gòu)建塊如圖1所示。值得一提的是,在實(shí)驗(yàn)過程中,發(fā)現(xiàn)用LeakyReLU代替ReLU可以提高整體效率。因此,在這項(xiàng)工作中,主要使用LeakyReLU作為激活函數(shù)。
1.1仿射變換模塊
傾斜的車牌圖像在現(xiàn)實(shí)世界中很常見,經(jīng)常導(dǎo)致預(yù)測不準(zhǔn)確??紤]到這一點(diǎn),文章在車牌識(shí)別階段之前校正輸入圖像的傾斜。為了校正傾斜的車牌圖像,應(yīng)用仿射變換對(duì)其進(jìn)行去銳化,以便在車牌識(shí)別階段,每個(gè)車牌都與從正面視圖捕獲的車牌相似。為了精確地消除失真的車牌圖像,訓(xùn)練了一個(gè)仿射變換模型來捕捉車牌的四個(gè)端點(diǎn),并將它們傳遞給校正算法。分別對(duì)幾種仿射變換算法進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)OpenCV庫提供的算法比其他算法更穩(wěn)定。因此,最終在實(shí)現(xiàn)過程中采用了它。圖2顯示了仿射變換模型的詳細(xì)結(jié)構(gòu)。結(jié)果表明,仿射變換模型可以帶來大約1~3%的識(shí)別精度提升。
1.2車牌識(shí)別模塊
文章所提出的無分割車牌識(shí)別模型的網(wǎng)絡(luò)架構(gòu)如圖2所示。
首先,使用預(yù)先訓(xùn)練的CNN模型提取圖像特征,該模型在輸入大小為128×32的車牌邊界框上滑動(dòng),并應(yīng)用主成分分析(PCA)來降低特征維數(shù),從而生成大小為32×8的特征圖,然后將其傳送到具有雙向CudnnLSTM層的DNN模型,然后經(jīng)過全連接層以獲得順序特征。最后,將CTC應(yīng)用于序列LSTM特征的解碼和字符序列的預(yù)測。網(wǎng)絡(luò)結(jié)構(gòu)的詳細(xì)參數(shù)如表1所示。
在實(shí)驗(yàn)過程中,還觀察到,盡管較高的輸入大小會(huì)產(chǎn)生更準(zhǔn)確的結(jié)果,但128×32是網(wǎng)絡(luò)的最佳選擇,可以在準(zhǔn)確性和性能之間達(dá)到很好的權(quán)衡。為了提高效率,還試圖將特征圖大小減小到16×4,但這導(dǎo)致了結(jié)果變得很不準(zhǔn)確。
1.3模型訓(xùn)練
要實(shí)現(xiàn)準(zhǔn)確的預(yù)測通常需要對(duì)大量樣本進(jìn)行模型訓(xùn)練。然而,現(xiàn)有的數(shù)據(jù)集通常是小規(guī)模的,因此不能滿足這一要求。考慮到這一點(diǎn),首先使用自動(dòng)編碼器來訓(xùn)練文章模型,這是一種無監(jiān)督的學(xué)習(xí)算法,只允許在少數(shù)標(biāo)記樣本上訓(xùn)練模型,然后使用遷移學(xué)習(xí)來增強(qiáng)模型。其次,利用imgaug庫通過生成模糊和失真的圖像來增強(qiáng)訓(xùn)練樣本。imgaug庫生成的示例如圖3所示。
此外,由于一些車牌字母在有些地區(qū)相對(duì)不常見(例如,I和O),因此單獨(dú)合成了不常見的字符來生成偽造的車牌圖像,并使用它們來訓(xùn)練模型。因此,首先從數(shù)據(jù)集中隨機(jī)選擇分離的字符,然后測量當(dāng)前選擇的字符和部分完成的車牌之間的相似性,以確定該字符應(yīng)該保留還是丟棄。為了使制作的車牌與真實(shí)車牌相似,遵循了表2中所示的所有車牌字符組合的法律規(guī)則來制作車牌。
實(shí)驗(yàn)結(jié)果表明,制作的樣品具有與真實(shí)車牌相似的字符分布,不僅有利于字符不頻繁的車牌的準(zhǔn)確性,而且有利于整體性能。
2實(shí)驗(yàn)結(jié)果和分析
介紹了文章方法在AOLP數(shù)據(jù)集和UFPR-ALPR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。盡管CCPD數(shù)據(jù)集包括大量的車牌圖像,但由于非ASCII字符用于表示省份代碼,因此沒有對(duì)此數(shù)據(jù)集進(jìn)行評(píng)估,因?yàn)槲恼碌哪P蜁翰恢С址茿SCII字符。同時(shí),選取識(shí)別準(zhǔn)確性和運(yùn)行時(shí)間作為性能指標(biāo),并與最先進(jìn)的方法進(jìn)行了比較。
所有的模型都是使用NVIDIA GeForce RTX 2080 Ti進(jìn)行訓(xùn)練的,每個(gè)數(shù)據(jù)集都提供了特定的圖像,并且在GTX 1070上進(jìn)行測試。
2.1在AOLP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
面向應(yīng)用的車牌基準(zhǔn)數(shù)據(jù)集(AOLP)包括2049張臺(tái)灣車牌圖像,分為門禁(AC)、執(zhí)法(LE)和道路巡邏(RP)場景。在這三個(gè)子集中,LE子集似乎是最具挑戰(zhàn)性的,與現(xiàn)實(shí)世界場景最為相似。LE子集包含757張違反交通法規(guī)的車輛圖像,這些圖像是在各種照明和天氣條件下從路邊攝像頭拍攝的,圖像背景上布滿了路標(biāo),有時(shí)單個(gè)幀甚至包含多個(gè)車牌。相比之下,AC和RP子集或多或少是剛性場景,因?yàn)榇蠖鄶?shù)車輛都非??拷鼣z像頭。
在這個(gè)實(shí)驗(yàn)中,將所提出的方法與四種方法文獻(xiàn)[3,8-10]分別進(jìn)行了比較。遵循與文獻(xiàn)[8]和文獻(xiàn)[10]中相同的訓(xùn)練/測試劃分方式:兩個(gè)子集用于訓(xùn)練,一個(gè)子集用于測試。實(shí)驗(yàn)結(jié)果如表3所示。它們表明,所提出的方法不僅識(shí)別精度優(yōu)于之前的三項(xiàng)工作文獻(xiàn)[3,8-9],而且識(shí)別速度也比這些方法更快,即使在GTX 1070等性能較弱的硬件上也是如此。雖然文章方法的錯(cuò)誤率略高于文獻(xiàn)[10],但運(yùn)行速度是文獻(xiàn)[10]的兩倍,這表明仍有改進(jìn)的空間。例如,可以通過使用更重或更復(fù)雜的模型來進(jìn)行更準(zhǔn)確的預(yù)測,從而犧牲一定的運(yùn)行時(shí)間。在表4中,還分析了一些失敗案例。識(shí)別失敗的原因主要是由圖像質(zhì)量差引起的。此外,數(shù)據(jù)集包含了一些即使人類也難以識(shí)別的圖像,例如表4中的第一個(gè)樣本,其中第一個(gè)和最后一個(gè)字符均被周圍環(huán)境阻擋。
2.2在UFPR-ALPR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
UFPR數(shù)據(jù)集由4500個(gè)圖像組成,其中1800用于測試,1800用于訓(xùn)練,900用于驗(yàn)證。在該數(shù)據(jù)集中,從靜態(tài)攝像機(jī)拍攝的視頻中提取的圖像被劃分為不同的子集,每個(gè)子集包含30個(gè)僅具有一輛車的圖像。實(shí)際上,每張圖像都是原始視頻的一幀,因此與AOLP數(shù)據(jù)集相比,背景沒有顯著變化。文章使用與[5]中相同的設(shè)置進(jìn)行了實(shí)驗(yàn),不同之處在于文章使用YOLOv3進(jìn)行車輛和車牌檢測,而之前的實(shí)驗(yàn)只需要車牌識(shí)別。因此,該數(shù)據(jù)集不像AOLP數(shù)據(jù)集那樣具有挑戰(zhàn)性,圖像質(zhì)量也遠(yuǎn)優(yōu)于AOLP(UFPR數(shù)據(jù)集中的圖像為1920×1080,而AOLP中的圖像約為320×480甚至更低),但為了驗(yàn)證其穩(wěn)健性和環(huán)境采用能力,仍在各種數(shù)據(jù)集上評(píng)估該方法。
在這個(gè)實(shí)驗(yàn)中,將所提出的方法與[5]進(jìn)行了比較。因?yàn)槊總€(gè)子集都包含相同車輛的圖像,可以簡單地使用多數(shù)投票來產(chǎn)生每個(gè)子集的最終預(yù)測結(jié)果。實(shí)驗(yàn)結(jié)果如表5所示??梢园l(fā)現(xiàn),預(yù)測模型不能正確預(yù)測兩排車牌。在測試集中的60輛不同的車輛中,12輛摩托車都配備了兩排牌照。在文章的網(wǎng)絡(luò)設(shè)計(jì)中,由于CTC模型將車牌視為單行內(nèi)的字符集合,因此當(dāng)前提出的方法不能完全識(shí)別具有多行的車牌。在表6中同樣演示并分析了失敗的案例。
在相同的數(shù)據(jù)集上進(jìn)行了另一個(gè)實(shí)驗(yàn),即不包含摩托車。從整個(gè)數(shù)據(jù)集中隨機(jī)選擇了50個(gè)子集,這些子集僅由非摩托車車輛的圖像組成,其余圖像用于訓(xùn)練,結(jié)果如表7所示。在沒有多排牌照的情況下的結(jié)果表明,盡管該方法目前僅限于單排牌照,但在不同國家的各種環(huán)境下,該方法仍然是穩(wěn)健和足夠準(zhǔn)確的。由于無分割識(shí)別架構(gòu)和YOLOv3的最新改進(jìn),該方法明顯實(shí)現(xiàn)了比[5]高得多的運(yùn)行幀率。如果完全排除車牌檢測,則提出的方法實(shí)現(xiàn)了94.00%的準(zhǔn)確率,而[5]在字符分割和識(shí)別方面分別獲得了95.97%和90.37%的準(zhǔn)確率。因此文章所提方法確實(shí)優(yōu)于其他的工作。
3結(jié)語
文章提出了一種新的實(shí)時(shí)網(wǎng)絡(luò)架構(gòu),它不僅簡化了在現(xiàn)實(shí)世界應(yīng)用中部署的高效車牌識(shí)別網(wǎng)絡(luò),而且提高了整體準(zhǔn)確性。在兩個(gè)不同的數(shù)據(jù)集上評(píng)估了所提出的方法,并將結(jié)果與最先進(jìn)的方法進(jìn)行了比較,表明該方法可以同時(shí)實(shí)現(xiàn)了出色的識(shí)別精度和快速的運(yùn)行時(shí)間。在后續(xù)工作中,打算引入去模糊算法,以提高復(fù)雜環(huán)境下的精度,并計(jì)劃進(jìn)一步優(yōu)化仿射變換模型,以減少整個(gè)運(yùn)行時(shí)間和由不正確的傾斜校正引起的誤差。此外,計(jì)劃識(shí)別多排車牌和具有非ASCII字符的車牌,以支持UFPR-ALPR中的場景。
第2期""""""""""
參考文獻(xiàn):
[1]李書強(qiáng),周鳳敏,劉雪峰,等.基于YOLOv5的車牌識(shí)別技術(shù)分析[J].電子技術(shù),2023,52(7):52.
[2]鄔忠萍,劉新廠,郝宗波.基于并行CNN和識(shí)別策略優(yōu)化的車牌識(shí)別方法研究[J].南京師大學(xué)報(bào)(自然科學(xué)版),2023,46(3):98.
[3]Hsu GS,Chen JC,Chung YZ. Application-oriented license plate recognition[J]. IEEE transactions on vehicular technology,2012,62(2):552.
[4]Cheang TK,Chong YS,Tay YH. Segmentation-free vehicle license plate recognition using ConvNet-RNN[J]. arXiv preprint arXiv:1701.06439,2017.
[5]Laroca R,Severo E,Zanlorensi LA,et al. A robust real-time automatic license plate recognition based on the YOLO detector[C]. 2018 international joint conference on neural networks (IJCNN) IEEE,2018:1.
[6]Chollet F. Xception:deep learning with depthwise separable convolutions[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2017:1251.
[7]Szegedy C,Ioffe S,Vanhoucke V,et al. Inception-v4,inception-resnet and the impact of residual connections on learning[C].Proceedings of the AAAI conference on artificial intelligence,2017:4278.
[8]Li H,Shen C. Reading car license plates using deep convolutional neural networks and LSTMs[J]. arXiv preprint arXiv,2016,16(1):05610 .
[9]Wu Y,Li J. License plate recognition using deep FCN[C].Cognitive Systems and Signal Processing: Third International Conference,2017:225.
[10]Zhuang J,Hou S,Wang Z,et al. Towards human-level license plate recognition[C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018:306.
End-to-End Efficient License Plate Recognition Based on
Depth-wise Separable Convolution Networks
LIN Luying
(Electronic Information Department, Zhangzhou Institute of Technology,Zhangzhou,F(xiàn)ujian 363000,China)
ABSTRACT" In the real world, license plate recognition still faced many challenges and was affected by unforeseeable interference such as weather or lighting conditions. To this end, a segmentation-free license plate recognition framework was proposed, which combined advanced deep learning methods and design ideas, and adopted depth-wise separable convolutions to greatly reduce computational complexity. Compared with previous work, it achieved higher recognition accuracy with lower computational requirements. The effectiveness of the proposed method was evaluated on two different datasets, and over 99% recognition accuracy and a frame rate of over 70 were obtained, indicating that the method was not only robust but also efficient.
KEY WORDS" license plate recognition;deep learning;depth-wise separable convolution
(責(zé)任編輯" 胡安娜)