李志國 朱明
摘 要:基于深度學習的目標檢測已成為計算機視覺領域中一個重要的研究熱點,在智能交通、智能監(jiān)控、智慧社區(qū)等諸多領域有非常廣闊的應用。本文在嵌入式平臺下,利用最新anchor-free目標檢測方法,針對智慧社區(qū)中停車場出入口場景實現了實時的高質量車輛檢測,有效地提升了車輛的抓拍率和識別率。
關鍵詞:嵌入式平臺;anchor-free;車輛檢測
中圖分類號:U463 文獻標識碼:A 文章編號:1671-2064(2020)12-0047-02
0引言
智能停車場是智能社區(qū)的重要組成部分,智能停車場出入口利用智能相機對車輛進行捕獲抓拍和智能識別并自動計費,車輛檢測是智能分析的前提和關鍵。車輛檢測方法是目標檢測方法的特例。基于深度卷積網絡的目標檢測方法按照是否有錨點(anchor)可分為anchor-based和anchor-free2種,受限于anchor設計的復雜性,anchor-free得到了極大的關注和發(fā)展。本文基于anchor-free的FCOS[1]方法,通過修改主干網絡和FPN特征金字塔等設計,整個網絡可以在海思3516d平臺和Mstar平臺上達到實時處理的效果。
1 主干網絡(backbone)
MobileNet v2[2]在深度可分離卷積的基礎上引入了殘差結構,并發(fā)現ReLU的在通道數較少的Feature Map上有非常嚴重信息損失問題,由此引入了Linear Bottlenecks和Inverted Residual[3]。為了達到嵌入式平臺的實時性處理,本文采用MobileNet V2(0.25)版本,記為MobileNet-V2-0.25-modified,輸入分辨率為192×108(加邊對齊后為192×128)。
2 FPN
特征金字塔FPN主要解決的是物體檢測中的多尺度問題,通過簡單的網絡連接在基本不增加原有模型計算量情況下,大幅度提升了小物體檢測的性能。
特征金字塔FPN網絡直接在原來的網絡上做修改,每個分辨率的特征圖引入后一分辨率縮放兩倍的特征圖做相加的操作。通過這樣的連接,每一層預測所用的特征圖都融合了不同分辨率、不同語義強度的特征。同時,由于此方法只是在原網絡基礎上加上了額外的跨層連接,在實際應用中幾乎不增加額外的時間和計算量,適合在低算力的嵌入式平臺上應用。
本文采用3層FPN結構,把backbone中{stage1,stage3,stage5}記為{C3,C4,C5},其stride分別為{8,16,32},通過FPN生成記為{P3,P4,P5},具體見圖1。
3 FCOS-ours
一種基于像素級預測一階全卷積目標檢測方法,目前大多數先進的目標檢測模型,例如RetinaNet、SSD、YOLOv3、Faster R-CNN都依賴于預先定義的錨框。而FCOS是anchor box free的,即不依賴預先定義的錨框。通過去除預先定義的錨框,FCOS避免了關于錨框的復雜運算,避免了和錨框有關且對最終檢測結果非常敏感的所有超參數。由于后處理只采用非極大值抑制(NMS),FCOS比以往基于錨框的一階檢測器具有更加簡單的優(yōu)點,非常適合在嵌入式平臺下采用。
3.1訓練回歸公式
設標定框(ground-truth bounding boxes){Bi}=(x0(i),
y0(i),x1(i),y1(i),c(i))∈R4,其中(x0(i),y0(i))為標定框的左上點坐標,(x1(i),y1(i))為右下點坐標。c(i)為分類的種類,這里是車輛檢測,取值為1。如果坐標點(x,y)在標定框內部,則認為其為正樣本,否則為負樣本,設4D的向量t*=(l*,t*,r*,b*)為該點(x,y)的回歸值,則:
l*=x-x0(i),t*=y-y0(i),r*=x1(i)-x,b*=y1(i)-y。 ? ? ?(1)
和基于anchor-based方法不同,FCOS直接限制每層金字塔回歸框的大小,P3,P4,P5分別回歸的范圍為(0,64],(64, 128],(128,∞)。
3.2 損失函數
訓練損失函數分類損失和目標框的回歸損失,如公式2所示。
Lcls是focal loss,Lreg為IOU loss。Npos是正樣本的個數,λ為平衡因子,用于平衡2種損失的權重,一般取1,是指示性函數,如果則為1。
4 實驗
主要在停車場出入口進行了車輛檢測的實驗,訓練數據包括各種天氣,各種光線,各種場景下的車輛車頭數據共30k,樣例如圖2所示。訓練采用隨機梯度下降(SGD)方法,共訓練30epoch,初始學習率為0.01,并在16,24個epoch分別降低原來的0.1倍,momentum為0.9,weight decay為0.0001,訓練后生成模型大小1M,算力14M Mac。
4.1 和Mtcnn[3]效果比較
Mtcnn最初用于人臉檢測,使用3個CNN級聯的方式,實現了coarse-to-fine的算法結構,其級聯的網絡架構可以高效的用于處理停車場出入口車輛較少,目標占比較大的場景。
表1為FCOS-ours和Mtcnn效果效率比較,為了便于比較,用分割線加以區(qū)分,分割線以上是Mctnn的結果,以下為FCOS-ours的結果,No-plate1、daytime1、nighttime3分別為數據庫的名字,后面的數字代表標定框的個數。從表中可以看出,得益于backbone,FPN,損失等設計和end to end訓練方法,FCOS-ours在耗時更少的情況下,效果超過了Mtcnn
6%~10%。Mtcnn耗時不穩(wěn)定,主要和目標個數和場景復雜度相關,當檢測目標增多時耗時呈線性增加。
4.2 在嵌入式平臺下效率
Hi3516D是海思半導體針對高清攝像機產品應用開發(fā)的一款專業(yè)SOC芯片,處理器內核為ARM Cortex A9@Max.
800MHz,Mstar@1G是Mstar主頻1GHz芯片。具體耗時見表2。
5 結論
本文針對出入口車輛檢測任務,利用FCOS anchor-free目標檢測方法,通過修改主干網絡置,FPN特征金字塔等網絡配置,使基于卷積神經網絡的方法可以在嵌入式平臺下實時運行,并達到了較好的檢測效果。
參考文獻
[1] Zhi Tian,Chunhua Shen,Hao.Chen,et al.FCOS:fully convolutional one-stage object detection[M].InICCV,2019.
[2] Mark Sandler,Andrew G.Howard,Menglong Zhu,et al.Mobilenetv2:Inverted residuals and linear bottlenecks.mobile networks for classification,detection and segmentation[J].CoRR,abs,2018(10):1804-1806.
[3] Zhang,K,Zhang.Z,Li.Z,Qiao.Y,Joint face detection and alignment using multitask cascadedconvolutionalnetworks[J].IEEE Signal Processing Letters,2003(10):1499-1503.