鄒承明,縱耘博
(1.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué) 交通物聯(lián)網(wǎng)技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430070)
車(chē)牌自動(dòng)檢測(cè)(ALPD)技術(shù)是智能交通系統(tǒng)(ITS)的一個(gè)重要組成部分[1]。現(xiàn)有車(chē)牌檢測(cè)與識(shí)別的研究主要集中在不同條件下的靜態(tài)圖像上[2],如文獻(xiàn)[3]提出WPOD-NET模型,專(zhuān)注于解決非限制場(chǎng)景下的車(chē)牌檢測(cè)問(wèn)題,文獻(xiàn)[4]提出將顏色邊緣特征提取和深度學(xué)習(xí)相結(jié)合的車(chē)牌定位算法,文獻(xiàn)[5]提出檢測(cè)和識(shí)別于一體的RPnet模型。但是,上面的方法忽略了視頻幀的上下文信息。換句話(huà)說(shuō),車(chē)牌檢測(cè)并不能隨著視頻幀的推進(jìn)而鎖定該目標(biāo)的運(yùn)動(dòng),會(huì)出現(xiàn)目標(biāo)車(chē)牌“漏檢”的問(wèn)題。為了實(shí)現(xiàn)車(chē)牌跟蹤,文獻(xiàn)[6]提出基于梯度的圖像分割方法,利用圖像中強(qiáng)度等級(jí)的變化跟蹤車(chē)牌的位置,文獻(xiàn)[7]提出軌跡聚類(lèi)算法將車(chē)牌檢測(cè)與跟蹤結(jié)合起來(lái)。以上方法雖然從視頻序列中跟蹤出新的車(chē)牌,但是并沒(méi)有為同個(gè)視頻幀內(nèi)多個(gè)車(chē)牌跟蹤提出完善的解決方案。同時(shí),也不適用于圖像分辨率更低、車(chē)牌目標(biāo)更小更多的交通監(jiān)控場(chǎng)景。
基于以上討論,我們提出一種車(chē)牌檢測(cè)與跟蹤框架。通過(guò)對(duì)車(chē)輛進(jìn)行跟蹤,為視頻序列中每一個(gè)車(chē)牌分配唯一的ID,從而實(shí)現(xiàn)同時(shí)對(duì)多個(gè)車(chē)牌進(jìn)行跟蹤。并且,本文基于孿生網(wǎng)絡(luò)中的SiamRPN模型[8],提出一種具有深度特征的目標(biāo)跟蹤算法對(duì)車(chē)牌進(jìn)行穩(wěn)健跟蹤,使用性能更加優(yōu)秀的改進(jìn)的DenseNet網(wǎng)絡(luò)[9]提取特征,提升跟蹤器識(shí)別能力,用密集連接的方式實(shí)現(xiàn)特征復(fù)用。最后為了驗(yàn)證本文算法的有效性,我們創(chuàng)建了一個(gè)具有挑戰(zhàn)性的交通監(jiān)控車(chē)牌數(shù)據(jù)集進(jìn)行詳細(xì)的實(shí)驗(yàn),并與其它車(chē)牌檢測(cè)算法和目標(biāo)跟蹤算法進(jìn)行比較,取得了很有競(jìng)爭(zhēng)力的實(shí)驗(yàn)結(jié)果。
為了提升面向監(jiān)控視頻的車(chē)牌檢測(cè)性能,我們提出了一種車(chē)牌檢測(cè)與跟蹤框架。本文提出的框架通過(guò)車(chē)輛跟蹤、車(chē)牌檢測(cè)、車(chē)牌跟蹤3個(gè)模塊實(shí)現(xiàn)了車(chē)牌的檢測(cè)與跟蹤。因?yàn)樵谝曨l圖像的每一幀中,往往有多個(gè)車(chē)牌目標(biāo)。為了在連續(xù)的幀序列中唯一地識(shí)別與跟蹤車(chē)牌目標(biāo),通過(guò)車(chē)輛跟蹤,間接地為視頻序列中的每個(gè)車(chē)牌分配一個(gè)唯一的ID。作為本文工作的重點(diǎn),我們基于孿生網(wǎng)絡(luò)中的SiamRPN模型,提出了一種具有深度特征的目標(biāo)跟蹤算法,實(shí)現(xiàn)有力的跟蹤車(chē)牌,提供更加準(zhǔn)確的定位結(jié)果。
正如文獻(xiàn)[3]所提到的,車(chē)輛是許多經(jīng)典的檢測(cè)和識(shí)別數(shù)據(jù)集中的底層對(duì)象之一。我們決定不從零開(kāi)始訓(xùn)練車(chē)輛跟蹤器,而是選擇一個(gè)已知的模型來(lái)進(jìn)行車(chē)輛跟蹤。
車(chē)輛跟蹤器實(shí)現(xiàn)主要包含兩個(gè)部分:目標(biāo)檢測(cè)和目標(biāo)跟蹤。目標(biāo)檢測(cè)對(duì)象為交通監(jiān)控視頻中捕捉到的汽車(chē)、卡車(chē)等機(jī)動(dòng)車(chē)輛。然后對(duì)這些目標(biāo)進(jìn)行多幀跟蹤,將后續(xù)車(chē)輛檢測(cè)結(jié)果與跟蹤結(jié)果進(jìn)行關(guān)聯(lián),優(yōu)化最終檢測(cè)結(jié)果。
基于車(chē)輛目標(biāo)的召回率和準(zhǔn)確率考慮,本文使用YOLOv3[10]作為車(chē)輛檢測(cè)算法。同樣,基于Deep-SORT[11]的目標(biāo)跟蹤算法在多目標(biāo)實(shí)時(shí)跟蹤方面取得了很好的效果,而且可以很好滿(mǎn)足本文對(duì)于跟蹤器設(shè)計(jì)的要求,所以本文以Deep-SORT 為算法基礎(chǔ)實(shí)現(xiàn)車(chē)輛跟蹤,算法如圖1所示。具體來(lái)說(shuō),首先使用YOLOv3檢測(cè)模型獲取T幀和T-1幀的車(chē)輛位置信息;然后根據(jù)T-1的車(chē)輛位置信息,利用卡爾曼濾波器預(yù)測(cè)T幀的車(chē)輛軌跡;最后使用傳統(tǒng)的匈牙利算法,關(guān)聯(lián)T幀的車(chē)輛位置檢測(cè)信息和預(yù)測(cè)信息,實(shí)現(xiàn)車(chē)輛連續(xù)跟蹤。
圖1 基于YOLOv3與Deep-SORT的車(chē)輛跟蹤
基于上一步獲得的車(chē)輛空間信息,我們使用文獻(xiàn)[3]中的WPOD-NET對(duì)視頻中的車(chē)牌進(jìn)行檢測(cè)。因?yàn)槲覀円呀?jīng)跟蹤了每一輛目標(biāo)車(chē)輛,所以視頻中出現(xiàn)的每一個(gè)車(chē)牌都可以分配到對(duì)應(yīng)的車(chē)輛。與原算法相比,車(chē)牌檢測(cè)的輸出不僅有車(chē)牌信息,還包括對(duì)應(yīng)車(chē)輛的位置數(shù)據(jù)。本文首先將每個(gè)視頻內(nèi)車(chē)輛的空間信息格式轉(zhuǎn)換為Dt,然后調(diào)整車(chē)輛的空間大小
Dt=(f,id,x,y,w,h)
(1)
其中,(x,y)分別為車(chē)輛中心相對(duì)于圖像寬度和高度的坐標(biāo),f代表視頻幀序號(hào),id是車(chē)輛id。
因?yàn)樵谡晥D和背視圖中,車(chē)牌大小和車(chē)輛矩形邊界框的比例較大,而在傾斜圖和側(cè)視圖中兩者的比例較小。因此需要將傾斜視圖調(diào)整到正面視圖上,增大車(chē)牌面積,從而增加車(chē)牌的檢測(cè)率。調(diào)整的縮放因子的計(jì)算方式[3]如下
(2)
其中,Wv和Hv是車(chē)輛識(shí)別矩形邊界框的寬度和高度。由于Dmin≤fscmin(Wv,Hv)≤Dmax,所以Dmin和Dmax為調(diào)整車(chē)輛圖片的維度大小劃定了范圍。
最后將上一步調(diào)整后的信息送入WPOD-NET進(jìn)行檢測(cè)和反扭曲,獲得檢測(cè)后的車(chē)牌信息,輸出的信息格式如下所示
Pt=(f,id,x,y,w,h,c)
(3)
其中,(x,y)分別為車(chē)牌邊界中心相對(duì)于圖像寬度和高度的坐標(biāo),c代表置信度。和原算法相比,我們每一幀都增加了該車(chē)牌對(duì)應(yīng)的車(chē)輛id,以便下一步對(duì)車(chē)牌的跟蹤補(bǔ)全。
雖然基于WPOD-NET的車(chē)牌檢測(cè)通過(guò)實(shí)驗(yàn)驗(yàn)證是可行的,但是在實(shí)驗(yàn)進(jìn)行中也發(fā)現(xiàn)了一些問(wèn)題。比如WPOD-NET對(duì)于車(chē)牌的檢測(cè)主要是基于單幀視頻圖像進(jìn)行的,忽略了視頻前后幀的上下文信息。換句話(huà)說(shuō),車(chē)牌檢測(cè)無(wú)法有效跟蹤目標(biāo)車(chē)輛在視頻幀前進(jìn)時(shí)的運(yùn)動(dòng),有可能導(dǎo)致目標(biāo)“丟失”。為了解決這一問(wèn)題,我們提出一種具有深度特征的目標(biāo)跟蹤算法作為車(chē)牌跟蹤器,對(duì)檢測(cè)到的目標(biāo)進(jìn)行一段時(shí)間的跟蹤,恢復(fù)視頻序列車(chē)牌漏檢部分,算法框架如圖2所示。此外,對(duì)于跟蹤結(jié)果中的誤檢部分,我們使用基于ResNet-50的車(chē)牌二分類(lèi)器,去除結(jié)果中與車(chē)牌無(wú)關(guān)的候選區(qū)域,實(shí)現(xiàn)再次精確定位以提高精度。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)
1.3.1 SiamRPN
近年來(lái),基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法可以充分利用卷積特性,在保證實(shí)時(shí)性的同時(shí)提高精確度。SiamRPN在SiamFC[12]的基礎(chǔ)上,拋棄了多尺度測(cè)試,加入了區(qū)域推薦網(wǎng)絡(luò)(RPN)。該算法采用RPN子網(wǎng)絡(luò)代替了SiamFC網(wǎng)絡(luò)的互相關(guān)操作,通過(guò)回歸得到更加精確的目標(biāo)位置。RPN子網(wǎng)絡(luò)由分類(lèi)分支和回歸分支兩部分組成,這里采用類(lèi)似目標(biāo)檢測(cè)的方式生成候選跟蹤目標(biāo)。模板圖像提取的特征φ(z)通過(guò)兩個(gè)卷積層,分別增加到通道數(shù)為2K和4K的兩個(gè)分支[φ(z)]cls和[φ(z)]reg,其中K表示錨點(diǎn)個(gè)數(shù)。同理,搜索圖像提取的特征通過(guò)兩個(gè)卷積層,分成[φ(x)]cls和[φ(x)]reg兩個(gè)分支,但是通道數(shù)不變。RPN子網(wǎng)絡(luò)有如下兩個(gè)輸出
(4)
loss=Lcls+λLreg
(5)
其中,Lcls表示交叉熵?fù)p失函數(shù),Lreg表示帶正則化的平滑L1損失函數(shù),λ是超參數(shù)。
1.3.2 深度特征提取網(wǎng)絡(luò)
我們觀(guān)察到,SiamRPN仍然采用較淺的AlexNet[13]作為特征提取網(wǎng)絡(luò)。淺層網(wǎng)絡(luò)提取的特征只是目標(biāo)的一般表示。這些一般特征在一些簡(jiǎn)單場(chǎng)景中表現(xiàn)良好,但在復(fù)雜場(chǎng)景中卻無(wú)法區(qū)分干擾物或背景。研究結(jié)果表明在基于孿生網(wǎng)絡(luò)的跟蹤器,用更深的網(wǎng)絡(luò)代替AlexNet作為主干網(wǎng)絡(luò)是有效的[14],我們可以使用ResNet[15]和DenseNet用于特征提取。
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型不同的是,DenseNet通過(guò)構(gòu)建少量卷積核,密集連接生成大量可重用的feature map。這使得DenseNet的網(wǎng)絡(luò)更加深入,但并沒(méi)有顯著增加參數(shù)的數(shù)量。綜合以上討論,為了提升SiamRPN的特征提取能力,我們使用改進(jìn)后的DenseNet作為特征提取網(wǎng)絡(luò)。
傳統(tǒng)的CNN通過(guò)對(duì)上一層的輸出xl-1進(jìn)行非線(xiàn)性變換H來(lái)計(jì)算第l層的輸出
xl=Hl(xl-1)
(6)
通過(guò)連續(xù)卷積和池化,網(wǎng)絡(luò)實(shí)現(xiàn)了空間不變性,得到頂層的粗語(yǔ)義特征。然而,精細(xì)的圖像細(xì)節(jié)往往會(huì)在網(wǎng)絡(luò)的最頂端消失。
為解決梯度彌散和實(shí)現(xiàn)更深層的卷積神經(jīng)網(wǎng)絡(luò),ResNet通過(guò)加入short-cut構(gòu)造恒等映射條件,由傳統(tǒng)的擬合恒等映射轉(zhuǎn)化為優(yōu)化殘差,計(jì)算由傳統(tǒng)的乘法實(shí)現(xiàn)了加法的轉(zhuǎn)變,即輸出xl+1=Hl+1(xl)。short-cut的引入使得計(jì)算更加穩(wěn)定,緩解了深度與退化的矛盾,實(shí)現(xiàn)了深度與精確度的雙飛躍。但是恒等映射與輸出特征Hl是通過(guò)加和計(jì)算進(jìn)行組合,這會(huì)對(duì)網(wǎng)絡(luò)的信息流造成一定程度的破壞。
為了提升卷積神經(jīng)網(wǎng)絡(luò)的信息流,我們采用密集連接(DenseNet)的方式作為特征提取的骨干網(wǎng)絡(luò),密集連接網(wǎng)絡(luò)如圖3所示。卷積層(Conv)、密集連接模塊(DenseBlock)和過(guò)渡層(Transition)是近年來(lái)DenseNet研究的重要子模塊。網(wǎng)絡(luò)第一層為一個(gè)卷積核大小為7×7,步長(zhǎng)為2,填充為0的卷積層,用于提取一般特征。然后通過(guò)密集連接模塊——過(guò)渡層的堆疊搭建整個(gè)網(wǎng)絡(luò)。密集連接模塊中,第l層接收前面所有層的特征映射作為輸入
圖3 密集連接模塊
xl=Hl([x0,x1,…,xl-1])
(7)
其中,[x0,x1, …,xl-1]是由第0,1,l-1個(gè)卷積層輸出特征圖連接而成。這樣,即使是最后一層也可以訪(fǎng)問(wèn)第一層的輸入信息。Hl(*)是3個(gè)連續(xù)操作的復(fù)合函數(shù),包括批處理歸一化(BN)、線(xiàn)性整流函數(shù)(ReLU)和3*3卷積。我們將這樣的復(fù)合函數(shù)表示為一層。在這種情況下,所有層都可以訪(fǎng)問(wèn)前一層的特征圖,提升了特征圖的重用率,使得模型更加緊湊,更不容易過(guò)擬合。假設(shè)k0表示密集連接模塊的輸入層通道數(shù),每個(gè)復(fù)合函數(shù)均輸出數(shù)目為k的特征圖,則整個(gè)模塊共有k0+k×(l-1)個(gè)特征圖,其中k也被稱(chēng)之為特征通道增長(zhǎng)率。本文中超參數(shù)k設(shè)置為12。為了降低特征圖的尺寸大小,網(wǎng)絡(luò)中使用了密集連接模塊加過(guò)渡層的結(jié)構(gòu)。過(guò)渡層模塊包括1*1的卷積層與2*2的平均池化層,兩個(gè)相鄰的密集連接模塊之間由過(guò)渡層連接,通過(guò)池化操作來(lái)降低特征圖尺寸并壓縮模型。
文獻(xiàn)[14]指出,直接將 AlexNet 替換為更深層網(wǎng)絡(luò)時(shí),同時(shí)引入的padding使網(wǎng)絡(luò)失去平移等價(jià)性,特征圖不等價(jià)。這也是利用特征提取網(wǎng)絡(luò)加深,跟蹤性能不升反降的重要原因。相關(guān)性計(jì)算方式如圖4所示,E表示模板區(qū)域,A表示搜索區(qū)域,B是搜索區(qū)域A向左移動(dòng)一定距離得到的區(qū)域。沒(méi)有padding的網(wǎng)絡(luò),當(dāng)跟蹤目標(biāo)移動(dòng)一定距離時(shí),比如向左上角移動(dòng),對(duì)應(yīng)特征圖的響應(yīng)點(diǎn)也會(huì)對(duì)應(yīng)移動(dòng)一定的距離。即區(qū)域A和B分別經(jīng)過(guò)相同的特征提取網(wǎng)絡(luò)提取的特征φ(A)=φ(B),所以此時(shí)特征圖R1=R2,即
R1=φ(A)*φ(E)
R2=φ(B)*φ(E)
(8)
有padding的網(wǎng)絡(luò),此時(shí)圖中E’表示原模板區(qū)域E加上padding后影響的區(qū)域,A’和B’均為搜索區(qū)域A和B加上padding后影響的區(qū)域。如圖4中所示,被padding影響的B’的邊界已經(jīng)超過(guò)了原圖像的邊界,所以經(jīng)過(guò)特征提取網(wǎng)絡(luò)提取的特征φ(A)≠φ(B),同理特征圖R1≠R2。由此可見(jiàn),padding的影響會(huì)使得孿生網(wǎng)絡(luò)的相似性算法產(chǎn)生錯(cuò)誤。并且當(dāng)網(wǎng)絡(luò)加深的時(shí)候,感受野會(huì)急劇的增大,會(huì)很容易超出圖像邊界。通過(guò)特征圖裁剪(Crop),可以解決這個(gè)問(wèn)題。針對(duì)padding帶來(lái)的干擾,我們將Conv層的特征圖最外圍兩層裁剪(Crop1)掉,將Dense Block1、Dense Block2和Dense Block3的特征圖最外圍一層裁剪(Crop2)掉,消除padding給特征圖(feature map)邊緣帶來(lái)的影響。綜上所述,網(wǎng)絡(luò)參數(shù)見(jiàn)表1。
圖4 相關(guān)性計(jì)算
表1 特征提取模塊網(wǎng)絡(luò)參數(shù)
本實(shí)驗(yàn)使用的 Linux系統(tǒng)版本為64位CentOS 7.5。服務(wù)器的配置信息如下:處理器為Intel?Xeon?CPU E5-2678 v3 @2.50 GHz,顯卡為NVIDIA 1080Ti,內(nèi)存為220 GB。我們使用的深度學(xué)習(xí)框架為Pytorch 0.4.1。為了提高GPU的運(yùn)行效率,使用了CUDA 10.0以及cuDNN 7.0。編程語(yǔ)言及版本為Python3.6.5。
本文車(chē)牌跟蹤算法采用大型數(shù)據(jù)集ILSVRC[16]和YoutubeBB[17]進(jìn)行訓(xùn)練,模型的迭代次數(shù)為100輪,學(xué)習(xí)率從10-2衰減至10-5。
我們創(chuàng)建了一個(gè)交通監(jiān)控車(chē)牌數(shù)據(jù)集,用以測(cè)試本實(shí)驗(yàn)中所有的車(chē)牌檢測(cè)與跟蹤模型。該數(shù)據(jù)集是從中國(guó)某省會(huì)城市收集到的包含87個(gè)交通監(jiān)控視頻,在不同的環(huán)境下錄制得到。我們事先將選定好的監(jiān)控視頻每隔30幀截取一張圖片,并手動(dòng)標(biāo)注圖片中車(chē)牌的位置。最后我們將模型在監(jiān)控視頻上的運(yùn)行結(jié)果與圖像標(biāo)注的結(jié)果進(jìn)行對(duì)比,得到最終的檢測(cè)性能。
交通監(jiān)控車(chē)牌數(shù)據(jù)集包括從不同條件下的各種交通場(chǎng)景中采集的11 635張圖像,用于測(cè)試車(chē)牌檢測(cè)模型。該數(shù)據(jù)集與WPOD-NET中采用的數(shù)據(jù)集相比,分辨率低,圖像模糊,車(chē)牌目標(biāo)更小,同時(shí)每張圖像中包含的車(chē)牌目標(biāo)也可能更多。以上因素都可能會(huì)降低車(chē)牌檢測(cè)模型的性能。該數(shù)據(jù)集根據(jù)拍攝場(chǎng)景和復(fù)雜度分成了3個(gè)子數(shù)據(jù)集(G1到G3)。該數(shù)據(jù)集的部分樣本圖片如圖5所示。3個(gè)子數(shù)據(jù)集描述如下:
圖5 數(shù)據(jù)集部分樣本圖片
(1)居民小區(qū)監(jiān)控子數(shù)據(jù)集(G1)。該數(shù)據(jù)集包含1159張圖像。該場(chǎng)景下的車(chē)輛大多低于正常車(chē)速行駛,通過(guò)居民小區(qū)入口。就監(jiān)控視頻的復(fù)雜度而言,該場(chǎng)景的復(fù)雜度是3個(gè)場(chǎng)景中最簡(jiǎn)單的一個(gè)。在該場(chǎng)景中,很多車(chē)牌區(qū)域亮度非常的不均勻,有很強(qiáng)的光線(xiàn)干擾;
(2)交通道路監(jiān)控子數(shù)據(jù)集(G2)。該數(shù)據(jù)集包含5613張圖像。該場(chǎng)景下車(chē)輛一般以正常車(chē)速行駛,且一張圖像中不僅包含多個(gè)車(chē)牌,還可能包含路人、路邊等,場(chǎng)景最為復(fù)雜。該場(chǎng)景下的監(jiān)控視頻質(zhì)量也參差不齊,部分車(chē)牌的字符清晰可見(jiàn),部分車(chē)牌有不同程度的傾斜,比較模糊,用肉眼難以識(shí)別;
(3)商城入口和停車(chē)場(chǎng)監(jiān)控子數(shù)據(jù)集(G3)。該數(shù)據(jù)集包含4863張圖像。該場(chǎng)景下多是停車(chē)時(shí)拍攝,車(chē)輛非常密集,每幀圖像包含不定數(shù)量的車(chē)輛。圖像中有的車(chē)輛重疊,部分車(chē)牌不是完整的,導(dǎo)致檢測(cè)的難度較大。
目前還沒(méi)有完全統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)對(duì)各種車(chē)牌檢測(cè)系統(tǒng)的性能進(jìn)行評(píng)估。本節(jié)為了更好的與其它基準(zhǔn)車(chē)牌檢測(cè)模型進(jìn)行比較,故采用文獻(xiàn)[18]所使用的召回率(recall)和準(zhǔn)確率(precision)。這兩個(gè)評(píng)估標(biāo)準(zhǔn)都用于衡量模型的檢測(cè)性能。模型的recall和precision越高,該模型的車(chē)牌檢測(cè)和跟蹤的性能越好。precision和recall計(jì)算公式如下
(9)
其中,P代表測(cè)試樣本中的正樣本的數(shù)量,TP代表檢測(cè)和跟蹤出的樣本中的正樣本的數(shù)量,F(xiàn)P代表檢測(cè)和跟蹤出樣本的負(fù)樣本數(shù)量。準(zhǔn)確率和召回率是根據(jù)模型檢測(cè)和跟蹤的結(jié)果來(lái)進(jìn)行計(jì)算的。模型的檢測(cè)和跟蹤結(jié)果,即模型檢測(cè)和跟蹤到的區(qū)域與人工標(biāo)注區(qū)域二者的重合度,稱(chēng)之為Intersection-over-Union(IoU)。在本實(shí)驗(yàn)中,設(shè)置IoU的閾值為0.3。
表2展示了不同模型在交通監(jiān)控車(chē)牌數(shù)據(jù)集上的召回率和準(zhǔn)確率,其中WPOD-NET、WPOD-NET+VT和RPnet為車(chē)牌檢測(cè)模型,VT表示車(chē)輛跟蹤。從表2可以看出,在車(chē)輛跟蹤的基礎(chǔ)上進(jìn)行車(chē)牌檢測(cè),車(chē)牌檢測(cè)的召回率得到大幅度的提升。一方面,將車(chē)輛跟蹤信息送入WPOD-NET進(jìn)行車(chē)牌檢測(cè),降低了復(fù)雜環(huán)境中非車(chē)輛圖像的干擾;另一方面,與原算法相比,有更多含有車(chē)牌目標(biāo)的車(chē)輛送入車(chē)牌檢測(cè)模型,間接提升了車(chē)牌檢測(cè)性能。
表2 幾種模型在數(shù)據(jù)集上的性能對(duì)比
SiamRPN和本文算法是在車(chē)輛跟蹤和車(chē)牌檢測(cè)的基礎(chǔ)上,融合了車(chē)牌跟蹤。從實(shí)驗(yàn)結(jié)果我們可以看到,無(wú)論是模型檢測(cè)準(zhǔn)確率還是召回率,使用車(chē)牌跟蹤的模型均優(yōu)于只使用車(chē)牌檢測(cè)的算法,其中本文提出的方法最為出色。具體來(lái)說(shuō),在交通監(jiān)控車(chē)牌數(shù)據(jù)集的3個(gè)子數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,相比WPOD-NET,我們的模型平均檢測(cè)準(zhǔn)確率提高了10.19%,平均召回率提高了24.91%;相比RPnet,我們的模型平均檢測(cè)準(zhǔn)確率提高了29.33%,平均召回率提高了30.55%;相比SiamRPN作為車(chē)牌跟蹤器,我們的模型平均檢測(cè)準(zhǔn)確率提高了3.37%,平均召回率提高了2.05%。特別是在G2數(shù)據(jù)集上,與其它模型相比,我們的模型檢測(cè)結(jié)果比另外兩個(gè)數(shù)據(jù)集提升更為明顯。
在一些識(shí)別任務(wù)中,如果只包含IoU為0.3的車(chē)牌區(qū)域,可能無(wú)法完整識(shí)別車(chē)牌信息。我們將IoU的閾值區(qū)間設(shè)置為0.3≤IoU≤0.9,用IoU分段統(tǒng)計(jì)召回率和準(zhǔn)確率,用以衡量各算法的實(shí)用性,如圖6和圖7所示。從圖中可以看出,使用車(chē)牌跟蹤器的模型比僅使用車(chē)牌檢測(cè)算法的模型有明顯的優(yōu)勢(shì)。在IoU為0.75的閾值時(shí),召回率超過(guò)70%,比第二名高出6.89個(gè)百分點(diǎn),具有合理的實(shí)用性。
圖6 不同IoU下的綜合召回率
圖7 不同IoU下的綜合準(zhǔn)確率
本文提出一種車(chē)牌檢測(cè)與跟蹤框架。我們通過(guò)擴(kuò)展當(dāng)前最先進(jìn)的車(chē)牌檢測(cè)模型,在SiamRPN的基礎(chǔ)上,提出一種具有深度特征的目標(biāo)跟蹤算法實(shí)現(xiàn)車(chē)牌跟蹤,解決了具有挑戰(zhàn)性的交通監(jiān)控視頻中車(chē)牌檢測(cè)性能較低的問(wèn)題。我們創(chuàng)建了一個(gè)基于真實(shí)場(chǎng)景的交通監(jiān)控車(chē)牌數(shù)據(jù)集,對(duì)提出方法進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明在實(shí)際的交通監(jiān)控場(chǎng)景中,車(chē)牌檢測(cè)與跟蹤框架確實(shí)提高了檢測(cè)率,具有良好的有效性和可行性。在未來(lái)工作中,我們會(huì)開(kāi)發(fā)出一種更加魯棒的車(chē)牌檢測(cè)型。面對(duì)具有挑戰(zhàn)性的交通監(jiān)控場(chǎng)景,提升遠(yuǎn)距離、目標(biāo)模糊的車(chē)牌檢測(cè)率。