中圖分類號:TB9;TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-5124(2025)06-0049-07
License plate detection method in complex scenarios based on improved YOLOv7
LIANG Xiuman, ZHANG Jingtao, LIU Zhendong (School ofElectrical Engineering,North China UniversityofScience and Technology,Tangshan O63210,China)
Abstract: Nowadays, license plate detection technology is developing rapidly; however,the effective detection of license plates in complex scenarios remains a challenging research point. To address this problem,a license plate detection method in complex scenarios based on improved YOLOv7 (you only look once v7) is proposed. First, a lightweight self-attention backbone feature extraction network is proposed to replace the YOLOv7 backbone network.Furthermore, the ordinary convolution in the feature fusion network is replaced with a fulldimensional dynamic convolution. At the same time, a CA (coordinate atention) module is embedded to enhance the model's feature fusion capability.On this basis,the lossfunction in the original algorithm is replaced with a superior SIoU (SCYLLA intersection over union)loss function to improve detection efficiency. Experiments using the CCPD (Chinese city parking dataset) screened out license plate images in challnging complex scenes. The experimental results revealed that the detection speed of the proposed improved YOLOv7 algorithm was significantly improved, with FPS (frames per second) increasing from the original 81.9 frames/s to120 frames/s.Simultaneously, the mAP reached 95.1% ,upby 2.9 percentage points. The model size is
36.1 MB.Real-time detection of license plates in complex scenes isachieved, meeting lightweight requirements. This improvement enhances both the detection speed and precision.
Keywords: license plate detection technology; YOLOv7 algorithm; lightweight network; atention mechanism; loss function
0 引言
隨著我國人民生活水平提高,機動車輛已經(jīng)成為了最主要的交通方式之一。汽車數(shù)量的不斷增加,所帶來的弊端也非常明顯,其中最為嚴(yán)重的就是管理車輛非常困難。區(qū)分車輛最明顯的標(biāo)志是車牌,所以,監(jiān)控如何準(zhǔn)確并快速地選取車牌成為對大量車輛管理的關(guān)鍵。傳統(tǒng)檢測算法在復(fù)雜場景中采集的車牌圖像很難識別。近年關(guān)于來深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)1的研究不斷涌出,越來越多的學(xué)者采用深度學(xué)習(xí)的方法來提升車牌檢測的速度和精度,減小網(wǎng)絡(luò)模型,已經(jīng)成為當(dāng)今主流的研究方向。
目前,國內(nèi)外諸多學(xué)者針對復(fù)雜場景下車輛和車牌的檢測展開研究,并取得了顯著成效。文獻(xiàn)[2]通過改進(jìn)的SSD車輛識別算法對區(qū)域中的車輛進(jìn)行檢測,經(jīng)測試,車輛的檢測準(zhǔn)確率最高達(dá)到 95.3% 且具備較高的實時性和環(huán)境適應(yīng)性。文獻(xiàn)[3]為了檢測在部分復(fù)雜交通環(huán)境中拍攝的車牌圖像,提出了一種輕量的車牌檢測算法,采用輕量化特征提取的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),提高了檢測速度,平均精度達(dá)到89.2% ,但仍需提高。文獻(xiàn)[4]提出了一種基于注意力機制的車牌快速定位方法,對光照、車輛密集、低分辨率等場景進(jìn)行快速而準(zhǔn)確的定位,速度快精度高,但并未加人識別模塊,不能識別出車牌信息。文獻(xiàn)[5]運用圖像去霧技術(shù)對霧天的車輛車牌進(jìn)行檢測,有著 99.3% 的識別精度和68幀/s的檢測速率,速度有待提高。文獻(xiàn)[6]采用限定對比度自適應(yīng)直方圖均衡化的方法,霧雨雪天氣下的車牌檢測準(zhǔn)確率達(dá)到了 88% 。文獻(xiàn)[7]提出生成式的數(shù)據(jù)增強方式,優(yōu)化車牌檢測網(wǎng)絡(luò)結(jié)構(gòu),使之能夠應(yīng)對旋轉(zhuǎn)及小目標(biāo)等問題,同時優(yōu)化提高檢測識別效果,綜合識別精確度達(dá)到了 93.72% 。文獻(xiàn)[8]提出一種基于前景極性檢測和改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的車牌識別方法,平均精度達(dá)到 92% ,但是檢測速度較慢。
對復(fù)雜場景中的車牌進(jìn)行有效檢測仍存在一些難點,即在復(fù)雜場景中檢測精度良好但檢測速度較慢,或是檢測速度快檢測精度卻達(dá)不到要求,準(zhǔn)確率和速度達(dá)不到良好的平衡性;或者模型較大對硬件要求高?;诖耍疚尼槍?fù)雜場景的車牌快速準(zhǔn)確檢測問題,提出了一種通過改進(jìn)YOLOv7算法的網(wǎng)絡(luò)結(jié)構(gòu)、更換損失函數(shù)和部分卷積、引入注意力機制的方法,實現(xiàn)對復(fù)雜場景下的車牌進(jìn)行實時檢測,檢測效果優(yōu)勢明顯。
1 YOL0v7目標(biāo)檢測算法
目前,YOLO(youonlylookonce)系列網(wǎng)絡(luò)在單階段檢測算法中表現(xiàn)突出,本文使用的是基于2022年發(fā)表的YOLOv7網(wǎng)絡(luò)進(jìn)行改進(jìn)所生成的算法。在5\~160幀/s范圍內(nèi),YOLOv7的檢測效果超過所有已提出的檢測算法,其網(wǎng)絡(luò)架構(gòu)如圖1所示。
YOLOv7網(wǎng)絡(luò)模型的主干網(wǎng)絡(luò)由3部分組成[9],各部分功能與YOLOv5[10]相同,即輸人部分(input)、主干特征提取網(wǎng)絡(luò)部分(backbone,又稱主干網(wǎng)絡(luò))、檢測頭部分(head)。與YOLOv5不同的是,YOLOv7將neck層與head層合稱為head層。
如圖1所示,圖片開始從輸入部分進(jìn)行數(shù)據(jù)的增強操作,也就是預(yù)處理,被送入主干特征提取網(wǎng)絡(luò);主干特征提取網(wǎng)絡(luò)部分對送過來的圖片進(jìn)行特征提取操作;再把主干網(wǎng)絡(luò)提取的特征送到head層中的neck模塊進(jìn)行特征融合,最后得到大、中、小3種尺寸的特征;最后送入檢測頭,經(jīng)過檢測后輸出結(jié)果。主干特征提取網(wǎng)絡(luò)部分主要由卷積、E-ELAN(extended efficient long-range attention network)模塊、MPConv模塊和SPPCSPC模塊構(gòu)成。預(yù)測端使用 CIoU[11] 函數(shù)(complete intersection over unionloss),主要預(yù)測信息的損失,但是CIoU存在一些弊端,就是未考慮到真實框與預(yù)測框之間方向不匹配的問題,這會導(dǎo)致預(yù)測框可能在訓(xùn)練過程中“四處游蕩”,產(chǎn)生更差的模型,影響收斂速度和效率。
2 YOL0v7算法改進(jìn)
2.1 BoTNet網(wǎng)絡(luò)
原YOLOv7網(wǎng)絡(luò)計算量較大,網(wǎng)絡(luò)層數(shù)較深,導(dǎo)致提取到的目標(biāo)位置信息不夠精準(zhǔn),檢測速度慢。為了改進(jìn)這個問題,加快網(wǎng)絡(luò)檢測速度,得到更高的準(zhǔn)確率,本文使用一種輕量化自注意力主干網(wǎng)絡(luò)BoTNet(bottleneck transformer net)[12],這是將 CNN(convolutional neuralnetwork)與 Transformer結(jié)合的主干特征提取網(wǎng)絡(luò),這種主干網(wǎng)絡(luò)繼承二者的優(yōu)點,同時使用卷積與自注意力機制最大程度保留了全局性和局部性。BoTNet網(wǎng)絡(luò)結(jié)合了用于圖像分類、目標(biāo)檢測和實例分割中的自注意力。如圖2所示,把ResNet的最后三個瓶頸塊中的 3×3 convolution卷積替換為全局自注意力(multi-headself-attention,MHSA)。
用BoTNet對YOLOv7的主干網(wǎng)絡(luò)進(jìn)行替換。該方法在目標(biāo)檢測方面改進(jìn)了基線,還減少了參數(shù),提高了網(wǎng)絡(luò)在目標(biāo)檢測任務(wù)中的表現(xiàn)。
2.2 ODConv全維動態(tài)卷積
為了進(jìn)一步降低模型的參數(shù)量和計算復(fù)雜度,將改進(jìn)后的YOLOv7特征融合網(wǎng)絡(luò)中的普通卷積塊均替換為全維動態(tài)卷積(omni-dimensionaldynamicconvolution,ODConv)。ODConv雖然只有一個卷積核,但其效果與現(xiàn)有的多核卷積相當(dāng),這受益于對其特征提取能力的改進(jìn)。ODConv通過并行策略采用多維注意力機制沿核空間的四個維度學(xué)習(xí)互補性注意力。考慮了輸入通道、輸出通道、空域等維度上的動態(tài)性,所以被命名為全維度動態(tài)卷積。在COCO(commonobjectsincontext)數(shù)據(jù)集實施的檢測任務(wù)上的實驗,驗證了ODConv的優(yōu)異性,不僅提升了模型的性能,對于輕量化模型的性能也有大幅度提升。
因為YOLOv7網(wǎng)絡(luò)中包含多個普通卷積,所以需進(jìn)一步探究全維動態(tài)卷積ODConv替換什么位置的普通卷積能達(dá)到最佳的效果,通過對不同位置的卷積進(jìn)行替換設(shè)計對比試驗,實驗以平均精度(mAP)為準(zhǔn)確率指標(biāo),其值越大說明準(zhǔn)確率越高,檢測結(jié)果越準(zhǔn)確。以幀率為速度指標(biāo),表示每秒檢測圖片的幀數(shù),其值越大說明檢測速度越快,實驗結(jié)果如表1所示。
從表1的實驗結(jié)果可以看出,算法3所展示的性能最好。僅在損失 1.3% 精度的情況下,檢測速率每秒提升了21幀。雖然算法4對檢測速度的提升最大,但也損失了大量的精度,故不采用。所以最終采用全維動態(tài)卷積替換特征融合網(wǎng)絡(luò)中的普通卷積。提升模型的輕量化性能,提高檢測速度。
2.3 CA注意力機制
注意力機制可提升模型性能,但它們通常忽略了位置信息。針對上述問題,引人坐標(biāo)注意力機制(coordinateattention,CA)[13],CA注意力機制不僅考慮了通道信息,還考慮了方向相關(guān)的位置信息,而且足夠靈活和輕量,能夠簡單插人到輕量級網(wǎng)絡(luò)的核心模塊中。本文算法將CA嵌人到特征融合網(wǎng)絡(luò)中的每個cat層之后,加強模型對特征的表達(dá)能力。CA注意力機制示意圖如圖3所示。
其中, 、YAvgPool分別表示一維水平全局池和一維垂直全局池。 C 為通道數(shù),W、 H 分別為矩陣的寬和高。
2.4 SIoU損失函數(shù)
損失函數(shù)是計算檢測圖片真實框和預(yù)測框差距的一類函數(shù)。傳統(tǒng)的損失函數(shù)依賴于邊界框回歸指標(biāo)的聚合,例如預(yù)測框和真實框之間的距離、重疊區(qū)域和縱橫比。YOLOv7中使用CIoULoss函數(shù)存在一些弊端,未考慮到真實框與預(yù)測框之間方向不匹配的問題。不僅僅是CIoU,至今所有提出和使用的損失函數(shù)如:GIoU、DIoU、EIoU等都沒有考慮到這個問題。會導(dǎo)致收斂速度較慢且效率較低。
考慮上述問題,使用一種新的損失函數(shù)SIoU,其考慮到所需回歸之間的夾角,重新定義了懲罰指標(biāo)。為了評估所提出的損失函數(shù)的有效性,該模型在COCO數(shù)據(jù)集上進(jìn)行了訓(xùn)練,該數(shù)據(jù)集包含二十多萬張圖像,標(biāo)記有一百五十萬個對象實例。結(jié)果對比CIoU損失函數(shù)提高了2.4百分點 (mAP@0.5 :0.95)和3.6百分點 (mAP@0.5) 。在訓(xùn)練階段達(dá)到了更快的收斂速度,預(yù)測性能更好。因此,使用SIoU損失函數(shù)替換原網(wǎng)絡(luò)中的CIoU,達(dá)到提升準(zhǔn)確率的目的。其參數(shù)如圖4所示。
圖中 ch 為預(yù)測框與真實框中心點的高度差, σ 為預(yù)測框與真實框中心點的距離。 α 表示預(yù)測框與真實框中心點連線與 x 軸的夾角、 β 表示預(yù)測框與真實框中心點連線與 y 軸的夾角。 B 為預(yù)測框, Bgt 為真實框。
SIoU損失函數(shù)由角度損失、距離損失、形狀損失、IoU損失函數(shù)組成。
角度損失描述了中心點連接與 x-y 軸之間的最小角度,用 A 表示。當(dāng)中心點在 x 軸或 y 軸上對齊時, 。當(dāng)中心點連接到 x 軸 45° 時,
。這一懲罰可以引導(dǎo)錨框移動到目標(biāo)框最近的軸上,減少了邊框回歸的總自由度數(shù)。
如果 αlt;45° 則收斂過程將首先最小化 α ,否則最小化 β ,為了實現(xiàn)這一點,引人了下面的定義:
其中:
ch=max(bcygt,bcy)-min(bcygt,bcy)
式中: (bcx,bcy) —預(yù)測框中心點坐標(biāo);
(bcxgt,bcygt) ——真實框中心點坐標(biāo)。
距離損失描述了中心點之間的距離,用 表示。其懲罰代價與角度代價呈正相關(guān),考慮到上面定義的角度損失,重新定義距離損失。當(dāng) α 趨于0時,距離損失的貢獻(xiàn)大幅降低。相反, α 趨于 45° 時,距離損失貢獻(xiàn)增大。距離損失定義如下式所示:
式中:
γ=2-Λ
形狀損失 的定義如下式所示:
式中:
其中, (w,h) 和 (wgt,hgt) 分別為預(yù)測框與真實框的寬高; θ 的值至關(guān)重要,它控制著對形狀損失的關(guān)注程度。 θ 的取值在2\~6之間,本實驗 θ=2 。IoU損失的定義如下式所示:
LIoUCost=1-LIoU
綜上所述最后回歸損失函數(shù)定義如下式所示:
3 實驗與結(jié)果分析
3.1 實驗配置
基于改進(jìn)YOLOv7的復(fù)雜場景車牌檢測算法采用Ubuntu20.04.4LTS操作系統(tǒng),CPU采用Intel(R) Xeon(R) Platinum 8255 C CPU @ ①2.50GHz GPU采用RTX3090,顯存 24GB ,GPU加速庫為CUDA11.3;以python3.8.10為編 程語言,以pytorch1.11.0為深度學(xué)習(xí)框架,進(jìn)行實驗。
3.2 實驗數(shù)據(jù)集
實驗采用CCPD車牌數(shù)據(jù)集和一部分自制的復(fù)雜場景中車牌的數(shù)據(jù)集,數(shù)據(jù)集均采集于各種真實場景,包括遠(yuǎn)近距離、模糊場景、強弱光照、雨雪霧天氣、傾斜角度等,總計二十萬張圖片,從每種場景的車牌圖片選取具有代表性的一千至兩千張,另外加上五百張自制復(fù)雜場景中的車牌圖片,包括新能源車牌,總計一萬張進(jìn)行實驗,數(shù)據(jù)集按照比例8:2劃分訓(xùn)練集、驗證集。另外再選取三千張圖片作為測試集,訓(xùn)練結(jié)束后對測試集進(jìn)行檢測,之后與現(xiàn)有的技術(shù)進(jìn)行對比,觀察對比實驗結(jié)果。
3.3 評價指標(biāo)
實驗以平均精度(mAP)為準(zhǔn)確率指標(biāo),其值越大說明準(zhǔn)確率越高。以幀率為速度指標(biāo),表示每秒檢測圖片的幀數(shù),其值越大說明檢測速度越快。
3.4 消融實驗
通過設(shè)計消融實驗來驗證BoTNet主干特征提取網(wǎng)絡(luò)、全維動態(tài)卷積ODConv、CA注意力機制和SIoU損失函數(shù)對整體模型的影響,采用同一設(shè)備配置和相同的數(shù)據(jù)集進(jìn)行消融實驗。實驗結(jié)果如表2所示。
從表2可看出,當(dāng)引入BoTNet主干網(wǎng)絡(luò)后,準(zhǔn)確率提高了1.4百分點;檢測速率提高了24.6幀/s;當(dāng)引入ODConv后,準(zhǔn)確率下降了0.9百分點,但檢測速率提升了18.3幀/s;增加CA注意力機制后準(zhǔn)確率提高了1.8百分點,檢測速率下降4.4幀/s。更換SIoU損失函數(shù)后,改進(jìn)YOLOv7的精確率提升了0.6百分點,檢測速率幾乎不變。和原算法相比較,改進(jìn)后的算法準(zhǔn)確率提升2.9百分點,檢測速率提升38.1幀/s。算法改進(jìn)效果明顯,
3.5 對比實驗結(jié)果
為檢驗本算法的性能,將本算法與原YOLOv7算法和雙階段目標(biāo)檢測算法中趨于成熟的SSD、FasterR-CNN算法進(jìn)行比較,還有使用同一數(shù)據(jù)集的文獻(xiàn)[3]和文獻(xiàn)[7]的方法。選取同樣的數(shù)據(jù)集和實驗環(huán)境,觀察對比實驗結(jié)果是否突出,結(jié)果如表3所示。
從表3的對比實驗結(jié)果可以看出,對于在復(fù)雜場景下拍攝的車牌圖片檢測,改進(jìn)后的YOLOv7算法在速度、精度和權(quán)重模型體積上明顯優(yōu)于YOLOv5算法、原YOLOv7算法和SSD算法。FasterR-CNN算法雖然精度可靠,但是檢測速度非常慢且權(quán)重模型體積大,對硬件要求也相對苛刻。文中提出的改進(jìn)后的YOLOv7算法將準(zhǔn)確率較原算法提升2.9百分點,同時,檢測速度每秒提升了38.1幀。本文算法準(zhǔn)確率達(dá)到 95.1% 且檢測速率達(dá)到120幀/s,權(quán)重模型體積僅有 36.1MB 。除了能精準(zhǔn)快速地檢測到復(fù)雜場景中的車牌信息外,對硬件要求較低,降低使用成本,適用于多種場景。
從圖5可以直觀看出本算法在遠(yuǎn)距離、傾斜角度、暗光、模糊和雪天場景中都能準(zhǔn)確檢測出車牌信息,證明本算法具有良好廣泛性,適用于多種復(fù)雜場景。
4結(jié)束語
針對復(fù)雜場景的車牌快速準(zhǔn)確檢測問題,對YOLOv7算法進(jìn)行改進(jìn),提出一種改進(jìn)YOLOv7的復(fù)雜場景下車牌檢測算法,結(jié)合BoTNet網(wǎng)絡(luò),替換原網(wǎng)絡(luò)中的主干特征提取網(wǎng)絡(luò),并引入全局自注意力MHSA,使網(wǎng)絡(luò)參數(shù)減少,提升檢測速度和精度。用全維動態(tài)卷積ODConv代替特征融合網(wǎng)絡(luò)中的普通卷積,提升輕量化模型的性能,并嵌入CA注意力機制增強特征提取能力。在此基礎(chǔ)上,針對原算法損失函數(shù)的弊端,使用SIoU損失函數(shù)更換原來的CIoU損失函數(shù),充分考慮到所需真實框與預(yù)測框之間不匹配的方向的問題。實驗結(jié)果表明,所提改進(jìn)算法在復(fù)雜場景檢測任務(wù)中,表現(xiàn)出良好的性能,使檢測速度和檢測精度達(dá)到了平衡,檢測精度高,速度快,泛化能力強,內(nèi)存占用小,證明所提算法在檢測復(fù)雜場景中拍攝的車牌時的優(yōu)越性。適用于智能交通、智能小區(qū)、無人駕駛等領(lǐng)域。
參考文獻(xiàn)
[1]張馳,郭媛,黎明.人工神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用綜述[J]. 計算機工程與應(yīng)用,2021,57(11):57-69. ZHANG C,GUO Y,LI. Review of development and application of artificial neural network models[J]. Computer Engineering and Applications, 2021, 57(11): 57-69.
[2]高繼東,焦鑫,劉全周,等.機器視覺與毫米波雷達(dá)信息融合 的車輛檢測技術(shù)[J].中國測試,2021,47(10):33-40. GAOJD,JIAO X,LIU ZQ,et al.Research on vehicle detection based on data fusion of machine vision and millimeterwaveradar[J].China Measurementamp;Test, 2021, 47(10): 33-40.
[3]楊玲倩.單階段的快速輕量級車牌檢測方法研究[J].現(xiàn)代 計算機,2022,28(19):38-44. YANGL Q.A single-stage study of a fast and lightweight licenseplate detection method[J]. Modern Computer, 2022, 28(19): 38-44.
[4]舒志旭.基于注意力機制的車牌快速檢測方法研究[J].光 電子·激光,2021,32(12):1313-1322. SHUZ X.Research on fast license plate detection method based on attentionmechanism[J]. Journal of Optoelectronics·Laser, 2021,32(12):1313-1322.
[5]田智源,李志偉,王修文,等.一種霧霾天氣下的端到端車牌 檢測與識別系統(tǒng)[J].制造業(yè)自動化,2023,45(1):13-16. TIAN ZY,LI Z W,WANG X W, et al. An end-to-end license plate detection and recognition system under haze weather[J]. Manufacturing Automation,2023,45(1): 13-16.
[6]丁鍵,朱洪前,任會,等.一種新型增加去霧處理的車牌檢測 算法在林區(qū)中的應(yīng)用[J].森林工程,2021,31(4):94-101. DINGJ, ZHU HQ,REN H, et al.Application of a novel algorithm for license plate detection with defogging processing in forest region[J]. Forest Engineering, 2021, 31(4): 94-101.
[7]辛莉,趙欽炎,許茜,等.基于計算機視覺的復(fù)雜場景車牌識 別算法[J].制造業(yè)自動化,2021,43(12):135-139. XINL, ZHAO Q Y, XU Q, et al.License plate recognition algorithm in complex scene based on computer vision[J]. Manufacturing Automation,2021,43(12):135-139.
[8]李婭,王興路,雷蕾,等.基于極性檢測和改進(jìn)CNN框架的 車牌識別方法[J].電子測量技術(shù),2021,44(14):26-32. LIY,WANG XL.LEI L,et al. Research of license plate recognition method based on polarity detection and improved CNN framework[J]. Electronic Measurement Technology, 2021,44(14): 26-32.
[9]WANG C Y, BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable bag-of-freebies setsnew state-of-the-art for realtimeobject detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023:7464-7475.
[10] SONG Q S,LI S B,BAI Q, et al. Object detection method for graspingrobotbasedonimprovedYOLOv5[J]. Micromachines,2021, 12(11): 1273-1280.
[11] ZHENG Z H, WANG P,REN D W,et al. Enhancing geometric factors in model learningand inference for object detection and instance segmentation[J]. IEEE Transactions on Cybernetics, 2022, 52(8): 8574-8586.
[12]SRINIVAS A,LIN T Y,PARMAR N,et al.Bottleneck transformers for visual recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:16519-16529.
[13]HOU Q,ZHOU D,F(xiàn)ENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021:13713-13722.
(編輯:莫婕)