摘" 要:隨著計算機(jī)計算能力的提升,人工智能技術(shù)在傳統(tǒng)領(lǐng)域的應(yīng)用推動了智能化的發(fā)展。傳統(tǒng)車牌識別算法在簡單場景下表現(xiàn)良好,但面對圖像畸變、模糊等復(fù)雜場景時,其魯棒性則顯著降低。該研究結(jié)合YOLOv5深度學(xué)習(xí)模型和Tesseract-OCR庫,開發(fā)了一種適應(yīng)復(fù)雜場景的高效車牌識別系統(tǒng)。系統(tǒng)分為車牌檢測和字符識別兩部分,顯著提升了在不利條件下的識別性能和系統(tǒng)魯棒性。實驗結(jié)果表明,系統(tǒng)在多種復(fù)雜場景下的車牌檢測和字符識別平均精確率分別為98.56%和96.56%,證明了該方法的有效性和優(yōu)越性能。
關(guān)鍵詞:深度學(xué)習(xí);YOLOv5;Tesseract-OCR;車牌識別;魯棒性
中圖分類號:TP391.4" 文獻(xiàn)標(biāo)識碼:A" 文章編號:2096-4706(2024)23-0053-05
License Plate Detection and Recognition Based on Deep Learning
LIU Lingyuan
(School of International Education, Neusoft Institute Guangdong, Foshan" 528225, China)
Abstract: With the improvement of computer computing power, the application of Artificial Intelligence technology in traditional fields promotes the development of intelligence. While traditional license plate recognition algorithms perform well in simple scenarios, their robustness significantly decreases in complex situations characterized by image distortion and blurriness. This research develops an efficient license plate recognition system suitable for complex scenarios by integrating the YOLOv5 Deep Learning model and the Tesseract-OCR library. The system is divided into two parts of license plate detection and character recognition, substantially improving recognition performance and system robustness under adverse conditions. Experimental results demonstrate that the system achieves average precision rates of 98.56% for license plate detection and 96.56% for character recognition across various complex scenarios, proving the effectiveness and superior performance of the approach.
Keywords: Deep Learning; YOLOv5; Tesseract-OCR; license plate recognition; robustness
0" 引" 言
隨著社會快速的發(fā)展和人們生活水平的提高,機(jī)動車輛數(shù)量的快速增長不僅帶來了便利,也引發(fā)了諸如交通事故和道路擁堵等嚴(yán)重交通問題。為應(yīng)對這些挑戰(zhàn),國家交通管理部門制定了統(tǒng)一的車牌標(biāo)準(zhǔn)[1],車牌識別技術(shù)隨即成為智能交通系統(tǒng)(Intelligent Traffic System, ITS)不可或缺的一部分。近年來,隨著計算機(jī)計算能力的快速提升,智能交通系統(tǒng)的發(fā)展趨勢迅速向智能化轉(zhuǎn)變。例如,Smith等人指出,人工智能和大數(shù)據(jù)技術(shù)在交通管理中的應(yīng)用顯著提高了交通系統(tǒng)的效率和安全性[2]。面對傳統(tǒng)車牌識別技術(shù)在處理復(fù)雜場景時的局限性,本研究利用最新的深度學(xué)習(xí)技術(shù),結(jié)合YOLOv5深度學(xué)習(xí)模型和Tesseract-OCR庫,開發(fā)了一個高效的車牌識別系統(tǒng)。與傳統(tǒng)方法相比,該系統(tǒng)在光線不足、圖像模糊、傾斜等惡劣條件下展現(xiàn)了更高的魯棒性和準(zhǔn)確性。實驗結(jié)果表明,該系統(tǒng)在多種復(fù)雜場景下都能達(dá)到高召回率和準(zhǔn)確率,展現(xiàn)了在智能交通管理應(yīng)用中的巨大潛力。
1" 研究方向
1.1" 車牌檢測技術(shù)與字符識別技術(shù)的發(fā)展
車牌檢測技術(shù)歷經(jīng)重大變革,從20世紀(jì)90年代依賴邊緣檢測和字符定位的傳統(tǒng)圖像處理方法,轉(zhuǎn)向采用深度學(xué)習(xí)技術(shù)。早期,Kanayama等人[3]通過Sobel算子的邊緣檢測顯著改善了車牌區(qū)域的識別,而特定的字符定位算法,如文獻(xiàn)[4]中探討的,優(yōu)化了車牌位置的準(zhǔn)確識別,盡管這些方法對標(biāo)準(zhǔn)環(huán)境有效,但在復(fù)雜背景或車牌磨損情況下效果受限。計算機(jī)技術(shù)和深度學(xué)習(xí)的進(jìn)步促使車牌檢測朝基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型轉(zhuǎn)變。尤其是,YOLO模型的引入,標(biāo)志性地提高了檢測精度并增強(qiáng)了對復(fù)雜情況的處理能力[5],代表了車牌識別技術(shù)在適應(yīng)環(huán)境變化方面取得的革命性進(jìn)展,顯著提高了系統(tǒng)的實用性和可靠性。
字符識別在車牌識別過程中占據(jù)著核心地位。面對斷裂或連續(xù)字符,傳統(tǒng)基于字符分割的方法遇到顯著挑戰(zhàn)。深度學(xué)習(xí)的引入,不僅開啟了新的可能性,如Laraca等人[6]通過CNN網(wǎng)絡(luò)改進(jìn)字符分割,提升了識別準(zhǔn)確性,也推動了相關(guān)車牌數(shù)據(jù)集的構(gòu)建。Zherzdev等人[7]提出的LPRNet,一種基于卷積神經(jīng)網(wǎng)絡(luò)的端到端車牌識別算法,無須字符預(yù)切割即可實現(xiàn)高達(dá)95%的實時識別準(zhǔn)確率,標(biāo)志著識別技術(shù)的一大突破。國內(nèi)研究,如白明雷[8]利用基于YOLOv3和DB算法的CRNN算法對漁船編號板文本進(jìn)行識別,達(dá)到99.47%的高準(zhǔn)確率,進(jìn)一步證明了深度學(xué)習(xí)在提升字符識別精確度及系統(tǒng)魯棒性方面的潛力。這些技術(shù)進(jìn)展不僅展示了深度學(xué)習(xí)在字符識別中的巨大潛力,也預(yù)示著未來研究將探索更先進(jìn)的模型和算法,旨在全面提升車牌識別系統(tǒng)的性能。
1.2" 主要研究內(nèi)容
本文主要研究基于深度學(xué)習(xí)的車牌識別系統(tǒng),重點在于通過優(yōu)化算法和技術(shù)手段提高車牌定位和字符識別的準(zhǔn)確性及效率。主要研究內(nèi)容包括:
1)車牌定位與算法優(yōu)化:探索適用于復(fù)雜背景和磨損車牌的定位算法,重點優(yōu)化算法以減少車牌定位時間,同時保證高準(zhǔn)確率。
2)字符分割與識別:研究高效的字符分割技術(shù),從車牌圖像中確提取單個字符。應(yīng)用深度學(xué)習(xí)模型和分類算法提高字符識別準(zhǔn)確性和魯棒性。
3)錯誤影響因素分析:分析影響車牌定位和識別準(zhǔn)確性的主要因素,包括環(huán)境因素、實際場景中的問題以及車輛本身的固有因素。針對這些因素,研究相應(yīng)的解決方案和優(yōu)化策略。
為實現(xiàn)上述研究目標(biāo),車牌識別系統(tǒng)分為三個主要組成部分:圖像采集系統(tǒng)、圖像處理系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)。圖像采集系統(tǒng)負(fù)責(zé)獲取車牌圖像,圖像處理系統(tǒng)執(zhí)行車牌定位、字符分割和字符識別等關(guān)鍵步驟,最后識別出的車牌信息傳遞給數(shù)據(jù)庫管理系統(tǒng)進(jìn)行存儲和管理。
2" 車牌檢測
2.1" 基于YOLOv5的目標(biāo)檢測算法的優(yōu)勢
在車牌識別應(yīng)用中,目標(biāo)檢測技術(shù)的選擇至關(guān)重要。傳統(tǒng)算法依賴于手動設(shè)計的特征,如邊緣檢測和顏色分析,但在復(fù)雜環(huán)境中的準(zhǔn)確性受限。而深度學(xué)習(xí)模型,盡管在多任務(wù)上表現(xiàn)優(yōu)異,但通常被視為“黑盒”,缺乏解釋性且對計算資源和數(shù)據(jù)的需求高。使用YOLOv5進(jìn)行車牌檢測具有顯著優(yōu)勢。有研究表明,基于輕量化YOLOv5的快速頭盔和車牌檢測方法具有較高的準(zhǔn)確性,Wei等人[9]研究發(fā)現(xiàn),輕量級的YOLOv5模型在保持高檢測準(zhǔn)確率的同時,顯著減少了模型的計算負(fù)載和內(nèi)存需求,使其適合部署在資源有限的設(shè)備上,并提高了檢測速度。
2.2" 網(wǎng)絡(luò)設(shè)計
YOLOv5車牌檢測網(wǎng)絡(luò)采用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)構(gòu),通過卷積層、池化層和全連接層的組合來提取圖像特征并進(jìn)行分類或回歸任務(wù)。具體設(shè)計如下:
1)輸入層。Mosaic數(shù)據(jù)增強(qiáng)技術(shù):用于改善模型對小尺寸目標(biāo)的識別能力,這對于車牌檢測尤為重要;自適應(yīng)錨框計算:在訓(xùn)練期間幫助改善預(yù)測準(zhǔn)確性,特別是車牌的準(zhǔn)確定位。
2)主干網(wǎng)絡(luò)。Focus結(jié)構(gòu):優(yōu)化輸入圖像的特征提取過程,通過將圖像切片重組,提高特征提取的效率;CSP結(jié)構(gòu):增強(qiáng)網(wǎng)絡(luò)的特征提取和學(xué)習(xí)能力,通過跨階段部分連接減少計算量,提高網(wǎng)絡(luò)性能和效率。
3)頸部結(jié)構(gòu)。FPN和PAN結(jié)構(gòu)結(jié)合:構(gòu)建多尺度特征提取網(wǎng)絡(luò),提升對不同尺度目標(biāo)的識別性能。
4)預(yù)測層。CIoU_LOSS:優(yōu)化預(yù)測框與實際目標(biāo)框的對應(yīng)關(guān)系,通過考慮邊界框的重疊率、中心點距離和邊界長度,使定位更加精確;非極大值抑制方法:精簡預(yù)測結(jié)果,確保檢測精度。
2.3" 網(wǎng)絡(luò)訓(xùn)練
網(wǎng)絡(luò)訓(xùn)練過程涉及前向傳播和反向傳播兩個階段,具體內(nèi)容如下:
1)前向傳播:前向傳播是指輸入數(shù)據(jù)通過網(wǎng)絡(luò)層進(jìn)行前向計算,得到預(yù)測結(jié)果。假設(shè)輸入數(shù)據(jù)為X,網(wǎng)絡(luò)參數(shù)為θ,輸出預(yù)測結(jié)果為:
其中,f為網(wǎng)絡(luò)的前向計算過程。
在YOLOv5中,前向傳播通過一系列卷積層、池化層和全連接層對輸入圖像進(jìn)行特征提取和目標(biāo)檢測,最終輸出預(yù)測的邊界框和類別概率。
2)反向傳播:反向傳播通過計算損失函數(shù)和梯度下降來調(diào)整網(wǎng)絡(luò)參數(shù)。損失函數(shù)L(θ)為預(yù)測結(jié)果和真實標(biāo)簽之間的差異:
通過梯度下降更新參數(shù):
其中,η為學(xué)習(xí)率??刂泼看螀?shù)更新的步長。通過多次迭代,參數(shù)逐漸收斂到使損失函數(shù)最小的值。
YOLOv5模型的訓(xùn)練使用了CCPD2019數(shù)據(jù)集,該數(shù)據(jù)集包含約340 000張720×1 160尺寸的圖片,共有8種類型。數(shù)據(jù)預(yù)處 理包括將標(biāo)注轉(zhuǎn)換為模型兼容格式,并將數(shù)據(jù)集以80%為訓(xùn)練和20%為驗證的比例分配。訓(xùn)練采用遷移學(xué)習(xí)和遞減學(xué)習(xí)率策略,利用NVIDIA GeForce RTX 3080 GPU和32 GB RAM完成了300個訓(xùn)練周期,具體參數(shù)設(shè)置如表1所示。
經(jīng)過訓(xùn)練,模型展現(xiàn)了99%以上的精確度和接近100%的召回率,證明了其在復(fù)雜車牌識別任務(wù)上的高效性能。訓(xùn)練過程的關(guān)鍵性能指標(biāo),包括精確度、召回率和mAP,均顯示出穩(wěn)定提升,如圖1所示。
本章深入分析了YOLOv5在車牌檢測方面的優(yōu)勢,特別是快速、準(zhǔn)確的檢測能力在處理高動態(tài)范圍和不同光照條件下的圖像時的表現(xiàn)。這些特點對實時車牌識別系統(tǒng)的構(gòu)建至關(guān)重要。然而,值得注意的是車牌識別的另一關(guān)鍵環(huán)節(jié)——字符識別,也同樣需要強(qiáng)大的技術(shù)支持以確保系統(tǒng)的整體效率。未來的研究可能會進(jìn)一步探索如何優(yōu)化這一過程,以提高車牌識別系統(tǒng)的性能和可靠性。
3" 車牌字符識別
YOLOv5對車牌進(jìn)行精確檢測之后,車牌上字符的準(zhǔn)確識別是接下來的關(guān)鍵步驟。本章介紹了利用Tesseract-OCR進(jìn)行字符識別的流程,它能有效處理各種光照和角度下的車牌圖像。
3.1" Tesseract-OCR的優(yōu)勢
Tesseract-OCR作為開源OCR引擎,在文本識別領(lǐng)域內(nèi)的應(yīng)用得益于其對多語言的支持和持續(xù)的社區(qū)開發(fā)。特別是,Tesseract通過集成長短期記憶網(wǎng)絡(luò)(LSTM)來提高其文本識別能力,這一點在其最新版本中得到了體現(xiàn)。盡管Tesseract在處理含有多種字體、尺寸和布局的復(fù)雜文檔時可能面臨挑戰(zhàn),它的開源和免費(fèi)特性使其成為一個經(jīng)濟(jì)高效的解決方案。相較于基于CNN的OCR技術(shù),Tesseract在資源有限的環(huán)境中展現(xiàn)出其獨(dú)特的優(yōu)勢。與此同時,基于CNN的OCR技術(shù),如通過深度學(xué)習(xí)模型實現(xiàn)的OCR解決方案,被證明在處理復(fù)雜文檔或低質(zhì)量圖像方面具有更高的準(zhǔn)確率。這類技術(shù)能夠識別不同字體、大小和布局中的文本,顯示出比基于規(guī)則的OCR解決方案更強(qiáng)的適應(yīng)性和準(zhǔn)確性[10]。
3.2" 圖像預(yù)處理與字符識別
圖像預(yù)處理是字符識別的關(guān)鍵一步。首先,車牌圖像被轉(zhuǎn)換為灰度圖(如圖2所示),以簡化圖像信息。接著,采用Canny邊緣檢測算法(如圖3所示)強(qiáng)調(diào)圖像中的邊緣,減少噪聲干擾。最后,通過霍夫變換(如圖4所示)糾正圖像傾斜,確保字符識別的準(zhǔn)確性。經(jīng)過預(yù)處理的圖像輸入Tesseract-OCR后,即使在復(fù)雜情況下也能準(zhǔn)確識別出車牌上的字符(如圖5所示)。這顯示了Tesseract-OCR在車牌字符識別應(yīng)用中的有效性。
Tesseract-OCR的集成提升了車牌識別系統(tǒng)的準(zhǔn)確率和適應(yīng)性。結(jié)合YOLOv5的車牌定位優(yōu)勢,本研究提供了一個高效且準(zhǔn)確的車牌識別解決方案。未來的研究將聚焦于提高識別效率和減少誤識率,以期構(gòu)建一個更加精準(zhǔn)和穩(wěn)定的車牌識別系統(tǒng)。
4" 實驗及結(jié)果分析
4.1" 實驗與評估指標(biāo)
本研究的測試集由5 000張不同場景的車牌圖像組成,分為五組:標(biāo)準(zhǔn)、遠(yuǎn)距離、低光照、傾斜、雨雪霧,每組1 000張,如圖6至圖10所示。每個場景的圖像都是為了測試車牌檢測模型在不同條件下的魯棒性和準(zhǔn)確性。為了全面評估模型的性能,我們采用了交并比(IoU)來評估矩形檢測框的準(zhǔn)確性,并將車牌檢測視作一個二分類問題,其中模型的效果通過召回率、精確度、準(zhǔn)確率等指標(biāo)綜合評估。
4.2" 性能評估結(jié)果
表2匯總了車牌檢測和字符識別在不同測試場景下的性能表現(xiàn)。
在標(biāo)準(zhǔn)測試場景下,車牌檢測的召回率和準(zhǔn)確率均超過99%,而字符識別也表現(xiàn)出了相似的高效率。在遠(yuǎn)距離和低光照這些更具挑戰(zhàn)性的場景中,雖然性能略有下降,但系統(tǒng)仍然展現(xiàn)了較高的準(zhǔn)確性和穩(wěn)定性,證明了其方法的魯棒性。
5" 結(jié)" 論
本研究成功開發(fā)了一種基于YOLOv5和Tesseract-OCR的高效車牌定位與識別系統(tǒng)。通過在5 000張不同場景下的車牌圖像上進(jìn)行綜合測試,該系統(tǒng)證明了其在高準(zhǔn)確率和魯棒性方面的能力,特別是在標(biāo)準(zhǔn)、傾斜和惡劣天氣場景下的出色表現(xiàn)。盡管在低光照和遠(yuǎn)距離條件下面臨挑戰(zhàn),系統(tǒng)的整體性能表明了它在實際應(yīng)用場景中的巨大潛力。為了進(jìn)一步提升系統(tǒng)的性能和實用性,未來的研究將集中在數(shù)據(jù)集擴(kuò)展這方面,主要通引入更多樣化的車牌圖像,增強(qiáng)模型的泛化能力和對復(fù)雜環(huán)境的適應(yīng)性。
參考文獻(xiàn):
[1] BRUGGE M H T,NIJHUIS J A G,SPAANENBURG L,et al. License Plate Recognition [J].Knowledge-based intelligent techniques in character recognition,1999:261-296.
[2] 劉雨飛.面向智能交通區(qū)塊鏈應(yīng)用的分片關(guān)鍵技術(shù)研究 [D].北京:北京交通大學(xué).
[3] KANAYAMA K,F(xiàn)UJIKAWA Y,F(xiàn)UJIMOTO K,et al. Development of Vehicle-License Number Recognition System Using Real-Time Image Processing and its Application to Travel-Time Measurement [C]//Proceedings of the 41st IEEE Vehicular Technology Conference.St.Louis:IEEE,1991:798-804.
[4] 李麗亞.人工智能中圖像識別技術(shù)的發(fā)現(xiàn)與應(yīng)用研究 [J].長江信息通信,2022,35(1):134-136.
[5] SMONTAZZOLLI S,JUNG C. Real-Time Brazilian License Plate Detection and Recognition Using Deep Convolutional Neural Networks [C]//2017 30th SIBGRAPI Conference on Graphics,Patterns and Images (SIBGRAPI).Niteroi:IEEE,2017:55-62.
[6] LAROCA R,SEVERO E,ZANLORENSI L A,et al. A Robust Real-Time Automatic License Plate Recognition Based on the YOLO Detector [C]//2018 International Joint Conference on Neural Networks (IJCNN).Rio de Janeiro:IEEE,2018:1-10.
[7] ZHERZDEV S,GRUZDEV A. LPRNet: License Plate Recognition via Deep Convolutional Neural Network [J/OL].arXiv:1806.10447 [cs.CV].[2024-05-08].https://export.arxiv.org/abs/1806.10447.
[8] 白明雷.基于神經(jīng)網(wǎng)絡(luò)的車牌號識別方法研究 [D].青島:中國石油大學(xué)(華東),2016.
[9] WEI C Y,ZHAO T,QING Q X. Fast Helmet and License Plate Detection Based on Lightweight YOLOv5 [J].Sensors,2023,23(9):4335.
[10]李濤.基于深度學(xué)習(xí)的復(fù)雜場景下車載圖像目標(biāo)檢測方法研究 [D].重慶:重慶大學(xué),2018.
作者簡介:劉凌遠(yuǎn)(1995—),男,漢族,云南昆明人,碩士研究生,研究方向:軟件開發(fā)、機(jī)器學(xué)習(xí)。