王 偉,唐心瑤,田尚偉,梅占濤
1(長(zhǎng)安大學(xué) 信息工程學(xué)院,西安 710064)
2(安徽科力信息產(chǎn)業(yè)有限責(zé)任公司,合肥 230088)
3(內(nèi)蒙古第一機(jī)械集團(tuán)股份有限公司,包頭 014030)
在無(wú)人駕駛領(lǐng)域及智能交通應(yīng)用中,車輛三維信息的準(zhǔn)確獲取在車輛行駛路徑規(guī)劃,安全行駛及車輛違規(guī)判斷上都有著重要的應(yīng)用[1],同時(shí),詳細(xì)的車型信息對(duì)于精確檢測(cè)與統(tǒng)計(jì)車流[2],車輛違規(guī)處罰[3–6]等應(yīng)用上都提供了基礎(chǔ)數(shù)據(jù)支撐.因此在交通應(yīng)用中,十分關(guān)注車輛的三維尺寸及車型分類信息,本文所定義的車輛細(xì)粒度即為這兩類信息.
目前主流的車輛識(shí)別方法主要包括:(1)基于目標(biāo)二維局部特征的方法[7–11].這類方法利用車牌、車燈、車標(biāo)或車臉等信息,對(duì)輸入的車輛局部特征進(jìn)行傳統(tǒng)的模型識(shí)別,獲取車輛的識(shí)別結(jié)果,由于檢測(cè)精度低、特征設(shè)計(jì)復(fù)雜,這類方法在實(shí)際應(yīng)用中逐漸淡出視線.(2) 基于深度學(xué)習(xí)的方法,隨著數(shù)據(jù)集的增加及深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù)的成熟,出現(xiàn)了一批優(yōu)秀的車輛檢測(cè)及分類網(wǎng)絡(luò),尤其以YOLO 系列[12]為典型.但(1)和(2)類方法都屬于二維目標(biāo)檢測(cè)方法,僅能檢測(cè)識(shí)別出車輛目標(biāo)的存在性及粗略的型號(hào)分類,并不能獲取車輛物理尺寸等相關(guān)的其他輔助信息,做不到精細(xì)化描述.(3) 基于三維目標(biāo)檢測(cè)的方法.與二維目標(biāo)檢測(cè)相比,三維目標(biāo)檢測(cè)能夠消除圖像成像的透視形變,同時(shí)能夠在三維目標(biāo)檢測(cè)能在物理尺度上描述車輛信息,因此更加適合車輛的細(xì)粒度描述.目前基于三維的方法主要基于深度相機(jī)(RGB-D camera)[13,14],激光相機(jī)(laser camera)[15]等,而這些設(shè)備價(jià)格昂貴且數(shù)據(jù)量冗余.相比之下,單目相機(jī)(monocular camera)價(jià)格便宜維護(hù)簡(jiǎn)單,同時(shí)具有視野范圍大且數(shù)據(jù)量相對(duì)較小等優(yōu)勢(shì),一直是視頻監(jiān)控系統(tǒng)中的主流應(yīng)用,但是由于透視形變及投影造成的信息損失,直接通過(guò)單目相機(jī)獲取車輛目標(biāo)的三維信息有一定的難度.綜上,基于單目視覺(jué)下三維目標(biāo)檢測(cè)的車輛識(shí)別研究具有重要意義.
近年來(lái),基于單目視覺(jué)的車輛三維檢測(cè)算法呈上升趨勢(shì).該類算法主要基于以下兩種思路:(1)基于CAD/可變模型+局部特征設(shè)計(jì)[16–18],如Zhang 等[19]提出一種基于可變模型的車輛識(shí)別方法,主要使用Hog 特征生成初始三維車輛模型,能夠識(shí)別轎車,掀背車,公交車等常見(jiàn)的8 種車輛.Corral-Soto 等[20]也提出一種基于三維可變模型的車輛識(shí)別方法,對(duì)于擁擠高速公路下的車輛遮擋有一定的魯棒性,該方法對(duì)車輛前景根據(jù)蒙特卡洛方法和馬爾科夫鏈方法(MCMC)沿著車道線方向滑動(dòng)模型來(lái)獲取最貼合的三維模型,從而解決解決道路中的車輛相互遮擋造成的識(shí)別失效.Prokaj等[21]采用三維CAD 模型結(jié)合DPM 分類檢測(cè)器的思路,通過(guò)車輛的局部特征數(shù)據(jù)訓(xùn)練出一個(gè)能夠?qū)⒍S圖像和三維模型在幾何與視角上進(jìn)行對(duì)齊的DPM 分類檢測(cè)器.該類方法在CAD 模型庫(kù)過(guò)大時(shí),存在檢索速度慢等缺點(diǎn),同時(shí)手工設(shè)計(jì)目標(biāo)特征在深度學(xué)習(xí)流行的今天,也遠(yuǎn)遠(yuǎn)達(dá)不到理想的準(zhǔn)確率.(2)三維包絡(luò)盒+機(jī)器學(xué)習(xí).該類方法摒棄使用CAD 模型貼合車輛目標(biāo),而采用更靈活的三維包絡(luò)盒的方式進(jìn)行三維檢測(cè).Zapletal 等[22]提出將車輛三維包絡(luò)盒在逆投影空間中展開(kāi),繼而進(jìn)行訓(xùn)練實(shí)現(xiàn)精細(xì)化識(shí)別的思路,具體方法為,對(duì)于展開(kāi)的逆投影空間包絡(luò)面,首先利用HOG特征對(duì)于逆投影空間進(jìn)行描述,然后用SVM 算法進(jìn)行訓(xùn)練識(shí)別,獲取車型識(shí)別結(jié)果.由于采用的是傳統(tǒng)的手工特征設(shè)計(jì),在較復(fù)雜的數(shù)據(jù)集下,該算法的識(shí)別準(zhǔn)確率并不高,僅能達(dá)到60%.Sochor 等[23]對(duì)車輛前面,側(cè)面和頂面的二維平面圖像進(jìn)行標(biāo)準(zhǔn)化展開(kāi),然后進(jìn)行標(biāo)注,通過(guò)深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的方式學(xué)習(xí)車輛類型,在一般場(chǎng)景中精確度高達(dá)83.2%,但該方法采用3 個(gè)互相正交的消失點(diǎn)的方式對(duì)車輛進(jìn)行三維包絡(luò),而消失點(diǎn)在某些方向存在不穩(wěn)定現(xiàn)象,因此在一定視角下該類方法對(duì)于車輛的三維檢測(cè)并不穩(wěn)定.
基于上述對(duì)當(dāng)前算法的綜述分析,采用三維包絡(luò)盒+深度學(xué)習(xí)的思路開(kāi)展本文研究,與當(dāng)前已有的方法相比,本文的創(chuàng)新與貢獻(xiàn)有:
(1)前期工作中對(duì)于交通場(chǎng)景構(gòu)建了自標(biāo)定模型,本文將基于相機(jī)自標(biāo)定參數(shù),單滅點(diǎn)與車輛二維投影的幾何約束構(gòu)建車輛精細(xì)化的三維包絡(luò).
(2)對(duì)二維車輛目標(biāo)進(jìn)行逆投影空間標(biāo)準(zhǔn)化展開(kāi),構(gòu)建聯(lián)合物理尺寸標(biāo)簽的損失函數(shù),訓(xùn)練出更具區(qū)分性的車輛細(xì)粒度識(shí)別網(wǎng)絡(luò).
相機(jī)標(biāo)定是獲得三維世界空間與二維圖像空間映射關(guān)系的必要步驟,可為后續(xù)第1.2 節(jié)中的車輛3D 包絡(luò)框的構(gòu)建提供依據(jù).
如圖1所示,為道路場(chǎng)景相機(jī)空間模型示意圖,前期工作對(duì)該場(chǎng)景下的相機(jī)自動(dòng)標(biāo)定和優(yōu)化問(wèn)題進(jìn)行了相關(guān)的研究[24],是本文的基礎(chǔ).
如圖1所示,在此空間模型中,世界坐標(biāo)系包含xyz軸,相機(jī)坐標(biāo)系包含xcyczc軸,相機(jī)焦距為f,相機(jī)距離地面的高度為h,相機(jī)俯仰角和偏轉(zhuǎn)角分別為?和θ.將世界坐標(biāo)表示為齊次形式:x=[x,y,z,1]T,則在圖像坐標(biāo)中對(duì)應(yīng)為:p=[αu,αv,α]T,α≠0表示尺度因子.由文獻(xiàn)[24]推導(dǎo)可知,世界坐標(biāo)到圖像坐標(biāo)的投影方程為:
圖1 道路場(chǎng)景中相機(jī)空間模型示意圖
將式 (1) 展開(kāi)可得直觀的世界坐標(biāo)至圖像坐標(biāo)的表示形式:
由式 (2) 可知,當(dāng)給定目標(biāo)高度為z0時(shí),即可計(jì)算得圖像坐標(biāo)在世界坐標(biāo)的逆投影.標(biāo)定參數(shù)(f,h,?,θ)可通過(guò)道路標(biāo)識(shí)[25](如道路虛線,道路寬度等)間接求取.在多標(biāo)識(shí)的約束下,還可在參數(shù)空間對(duì)于標(biāo)定參數(shù)進(jìn)行迭代優(yōu)化.在文獻(xiàn)[24]中有詳盡的描述,此處不再贅述.由此,通過(guò)建立的相機(jī)空間標(biāo)定模型,可得道路場(chǎng)景下世界坐標(biāo)與圖像坐標(biāo)的投影與逆投影變換,從而獲得后續(xù)構(gòu)建車輛3D 包絡(luò)的基礎(chǔ).
基于第1.1 節(jié)中的相機(jī)標(biāo)定,可進(jìn)一步構(gòu)建車輛的3D 包絡(luò)框,為第2 節(jié)中的包絡(luò)框展開(kāi)及車輛細(xì)粒度識(shí)別奠定基礎(chǔ).
如圖2所示,為本文車輛3D 包絡(luò)框粗構(gòu)建的示意圖.設(shè)車輛3D 包絡(luò)框8 個(gè)頂點(diǎn)的世界坐標(biāo)為Pi=(xi,yi,zi),i=1,2,…,8,圖像坐標(biāo)為pi=(ui,vi),i=1,2,…,8,車輛的初始尺寸為(lv,wv,hv),分別表示車輛的長(zhǎng)度、寬度和高度,單位為m.由圖1的標(biāo)定模型可推導(dǎo)出車輛在長(zhǎng)度、寬度和高度的方向向量分別為dl=(?sinθ,cosθ,0),dw=(cosθ,sinθ,0),dh=(0,0,1).將P2作為車輛基準(zhǔn)點(diǎn),通過(guò)式(3)可得其余7 點(diǎn)坐標(biāo).
圖2 車輛三維包絡(luò)框的粗構(gòu)建
在車輛3D 框粗包絡(luò)的過(guò)程中,并不能保證所有參數(shù)均準(zhǔn)確,因此需要進(jìn)一步對(duì)粗包絡(luò)進(jìn)行調(diào)整,得到更準(zhǔn)確的車輛3D 包絡(luò)框.
參考前期工作對(duì)于車輛空間形態(tài)優(yōu)化的思路[26],將調(diào)整過(guò)程看作包絡(luò)框參數(shù)的優(yōu)化過(guò)程,優(yōu)化參數(shù)包括(lv,wv,hv),和車輛的偏轉(zhuǎn)角θv構(gòu)成的車輛空間形態(tài)向量V,V1為其初始值.構(gòu)造車輛投影凸包與車輛輪廓的約束算法如下,其中車輛輪廓使用Mask-RCNN[27]進(jìn)行提取.
算法1.車輛3D 包絡(luò)框構(gòu)建優(yōu)化算法1) 通過(guò)式(3)構(gòu)建車輛3D 粗包絡(luò),車輛初始尺寸(lv,wv,hv) 可通過(guò)Mask-RCNN 得到的車輛類型查閱車輛外廓尺寸獲取.2) 將3D 包絡(luò)的8 點(diǎn)物理坐標(biāo)代入式(2)可反求出8 個(gè)投影點(diǎn)并求凸包,獲得某組已知 V1 對(duì)應(yīng)的3D 包絡(luò)投影凸包,將式(3)得到的世界坐標(biāo)點(diǎn)通過(guò)式(2)投影至圖像坐標(biāo)中,獲得車輛投影凸包頂點(diǎn),記為{si|1≤i≤m},m為投影凸包的頂點(diǎn)數(shù)量.3)為了更好地構(gòu)建約束,在相鄰的投影凸包頂點(diǎn)等間隔插入v 個(gè)新頂點(diǎn),則稠密投影凸包可表示為{si|1≤i≤m(v+1)}.4) 求車輛輪廓C的重心O,連接Osi 獲得與 C的交點(diǎn)qi,得到約束誤差為.m(v+1)∑i=1 siqi
圖3(a)為v=4時(shí)的一組初始參數(shù)向量對(duì)應(yīng)的3D 包絡(luò),圖3(b)為初始投影凸包與車輛輪廓的差值,使用紅色線段表示,投影凸包頂點(diǎn)為P1,P2,P3,P5,P7,P8.約束函數(shù)可表示為:
其中,(l0,l1),(w0,w1),(h0,h1)為車輛長(zhǎng)度、寬度和高度的約束范圍.基準(zhǔn)點(diǎn)(u2,v2)的取值范圍為R,使用矩形區(qū)域表示.ε為θv的取值范圍的閾值.限定參數(shù)的取值,可進(jìn)一步縮小參數(shù)優(yōu)化的空間,提升優(yōu)化效率.如圖3(c)為最優(yōu)參數(shù)向量對(duì)應(yīng)的3D 包絡(luò),圖3(d)為最優(yōu)投影凸包與車輛輪廓的差值.
圖3 車輛三維包絡(luò)精細(xì)化過(guò)程實(shí)例圖
由于透視投影可知,單目視覺(jué)下的目標(biāo)會(huì)發(fā)生不同程度的透視畸變及尺度變化,事實(shí)上這對(duì)于目標(biāo)的識(shí)別有一定的影響,傳統(tǒng)的方法大多采用大量不同視角下及不同尺度下的目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練,繼而彌補(bǔ)透視畸變及尺度變化對(duì)于目標(biāo)識(shí)別產(chǎn)生的影響,而本文可利用車輛三維包絡(luò)框的標(biāo)準(zhǔn)化展開(kāi),在數(shù)據(jù)輸入端即可做透視畸變及尺度變化的校正.通過(guò)這種方式,在達(dá)到相同精度的情況下,需要更少的數(shù)據(jù)集.如圖4所示,通常視角下車輛的可視面有3 面,車輛目標(biāo)正面(F),側(cè)面(S),頂部(V) (當(dāng)然還有其他一些可視面的組合方式,本文中暫時(shí)只考慮F-S-V的可視面組合方式),可利用透視變換的原理對(duì)3 個(gè)可視面進(jìn)行矯正.
圖4 車輛三維包絡(luò)可視面示意圖
透視變換的公式如下,其功能為投影圖像至新的可視化平面.
其中,圖像像素坐標(biāo)變換前表示為(u,v),變換后為(x′,y′),T1表示線性變換,為2×2的矩陣,T2表示透視變換,為2×1的矩陣,T3表示圖像平移,為1×2的矩陣,T4為不為零的常數(shù).本文對(duì)3D 包絡(luò)框的每個(gè)可視面,利用其四邊形的每個(gè)頂點(diǎn)與變換之后的標(biāo)準(zhǔn)矩形頂點(diǎn)建立映射等式關(guān)系,即可求取對(duì)應(yīng)的透視變換矩陣,繼而可將3 個(gè)可視面進(jìn)行逆透視展開(kāi).其展開(kāi)的順序和規(guī)范如圖5(a)所示,每個(gè)面的透視形變校正結(jié)果示例圖如圖5(b)所示.設(shè)規(guī)范化的展開(kāi)圖像寬為wsd,高為hsd,如圖6所示,為一組車輛3D 包絡(luò)及標(biāo)準(zhǔn)化展開(kāi)的示例圖.事實(shí)上除了展開(kāi)的具有逆透視效果的規(guī)范化圖像之外,車輛的物理尺寸也可作為后續(xù)分類識(shí)別的有效信息.
圖5 車輛三維包絡(luò)視變換示意圖
圖6 車輛三維包絡(luò)及標(biāo)準(zhǔn)化展開(kāi)示例圖
本文設(shè)計(jì)了一種可以同時(shí)預(yù)測(cè)車輛和車輛三維尺寸的細(xì)粒度識(shí)別網(wǎng)絡(luò),如圖7所示,網(wǎng)絡(luò)輸入為由三維目標(biāo)檢測(cè)結(jié)果展開(kāi)所得標(biāo)準(zhǔn)化展開(kāi)圖 (224×224),網(wǎng)絡(luò)輸出為車輛分類vtype(Hatch-back,Sedan,SUV,Bus,Truck 共5 類)和車輛三維尺寸(lv,wv,hv).
圖7 深度網(wǎng)絡(luò)結(jié)構(gòu)圖
為了提升網(wǎng)絡(luò)整體泛化性能,防止過(guò)擬合,本文采用ResNet[28]作為backbone,網(wǎng)絡(luò)共包含兩個(gè)分支:主分支和輔助分支,這兩個(gè)分支都可以完成車輛分類和車輛三維尺寸預(yù)測(cè).其中,主分支用于訓(xùn)練和預(yù)測(cè),輔助分支借鑒了GoogleNet 網(wǎng)絡(luò)[29]中輔助分類器的結(jié)構(gòu),只在網(wǎng)絡(luò)訓(xùn)練過(guò)程中使用,能夠防止一定程度的梯度消失.
由于分類標(biāo)簽是一概率分布向量,其網(wǎng)絡(luò)輸出值比車輛實(shí)際三維尺寸標(biāo)簽小很多,因此,為了使得模型更穩(wěn)定,本文對(duì)車輛三維尺寸標(biāo)簽做了歸一化處理,具體為將標(biāo)準(zhǔn)化展開(kāi)圖中車輛尺寸像素與實(shí)際物理尺寸相比,作為最終的三維尺度因子,其值范圍在0–1 之間.如圖8所示,車輛像素尺寸標(biāo)簽大小為(lpix,wpix,hpix),物理尺寸標(biāo)簽為(lv,wv,hv),則新的標(biāo)簽設(shè)計(jì)為尺度因子:sl=lpix/lv,sw=wpix/wv,sh=hpix/hv.
圖8 車輛三維物理尺寸標(biāo)簽尺度因子設(shè)計(jì)示例圖
損失函數(shù)得設(shè)計(jì)共包含3 個(gè)部分,車輛分類損失,車輛三維尺寸回歸損失和輔助訓(xùn)練損失,如式 (6) 所示,輔助訓(xùn)練損失也由分類和回歸損失組成.具體形式如公式組 (7) 所示.
車輛分類損失Lclassifier形式為多分類交叉熵?fù)p失,如式 (7) 所示,N為網(wǎng)絡(luò)訓(xùn)練時(shí)每批次輸入的標(biāo)準(zhǔn)化展開(kāi)圖數(shù)量,K為分類數(shù),本文中分別取32和5,表示第j類的車輛分類標(biāo)簽,如果車輛屬于第j類,則=1,否則=0,表示經(jīng)過(guò)全連接層及Softmax 處理后車輛屬于第j類的概率.車輛三維尺寸回歸損失Lsize為L(zhǎng)1范數(shù)損失,如式(7)所示,lpvre,wpvre,hpvre分別表示網(wǎng)絡(luò)預(yù)測(cè)所得車輛三維尺寸尺度因子,lgvt,wgvt,hgvt分別表示車輛三維尺寸尺度因子真實(shí)歸一化標(biāo)簽值.輔助訓(xùn)練損失Lauxiliary如式 (7) 所示,Laux_classifier,Laux_size分別與Lclassifier,Lsize具有相同的形式,λc和λs分別表示分類和回歸損失在輔助訓(xùn)練損失中的權(quán)重系數(shù),本文中選取λc=λs=0.5.
本文所應(yīng)用的場(chǎng)景為道路交通視頻監(jiān)控,因此使用針對(duì)道路交通監(jiān)控場(chǎng)景下的BrnoCompSpeed 數(shù)據(jù)集[30],該數(shù)據(jù)集包含6 個(gè)交通場(chǎng)景,如圖9所示,其中,單車道寬度為3.5 m,道路虛線長(zhǎng)度為3 m,虛線間隔為6 m.同時(shí)該數(shù)據(jù)集對(duì)于經(jīng)過(guò)的每輛車都有明確的車輛記錄.表1為本文對(duì)6 個(gè)交通場(chǎng)景自動(dòng)標(biāo)定的結(jié)果.
表1 交通場(chǎng)景相機(jī)自標(biāo)定結(jié)果
圖9 BrnoCompSpeed 數(shù)據(jù)集下的交通場(chǎng)景
對(duì)于數(shù)據(jù)集的處理,首先將視頻數(shù)據(jù)集處理為圖像數(shù)據(jù)集,由于交通場(chǎng)景中車流量較小,因此本文對(duì)數(shù)據(jù)集的處理方式為,每隔10 s 截取1 幀,去除車輛目標(biāo)過(guò)小以及無(wú)車輛目標(biāo)的圖像幀,整理得到圖像數(shù)據(jù)集.對(duì)圖像數(shù)據(jù)集進(jìn)行分類,本文的分類標(biāo)準(zhǔn)是對(duì)轎車類(Car) 中的兩廂車 (Hatch-back)和三廂車(Sedan)進(jìn)行再分類,總體車輛分為Hatch-back,Sedan,SUV,Bus,Truck 共5 類,同時(shí)根據(jù)數(shù)據(jù)集提供的詳細(xì)車輛信息查取其對(duì)應(yīng)的三維尺寸(lv,wv,hv).
Mask-RCNN 網(wǎng)絡(luò)集目標(biāo)檢測(cè)分類與分割于一體,因此本文采用該網(wǎng)絡(luò)對(duì)數(shù)據(jù)集中的車輛目標(biāo)進(jìn)行預(yù)處理,獲取車輛的預(yù)分類及邊界分割結(jié)果.該網(wǎng)絡(luò)可以識(shí)別80 種不同類別目標(biāo),但對(duì)于車輛只能粗略分為Car,Bus,Truck 3 類.根據(jù)初始識(shí)別的車輛可根據(jù)統(tǒng)計(jì)給出物理尺寸取值范圍,各車輛的外輪廓尺寸取值范圍實(shí)例如表2所示.最后根據(jù)輪廓約束構(gòu)建精細(xì)化的車輛3D 包絡(luò).實(shí)例圖如圖10所示.
圖10 車輛精細(xì)化三維包絡(luò)構(gòu)建實(shí)例圖
表2 各類型車輛外輪廓尺寸范圍 (m)
對(duì)車輛三維包絡(luò)3 個(gè)可視面進(jìn)行透視變換,并對(duì)透視變換后的可視面進(jìn)行標(biāo)準(zhǔn)化展開(kāi),更多展開(kāi)實(shí)例如圖11所示.
圖11 車輛三維包絡(luò)標(biāo)準(zhǔn)化展開(kāi)實(shí)例
本次實(shí)驗(yàn)從BrnoCompSpeed 視頻數(shù)據(jù)集中截取3 000 張圖片,其中包含車輛6 000 輛,訓(xùn)練集 (4 000輛)和測(cè)試集 (2 000 輛),訓(xùn)練集和測(cè)試集均包含5 個(gè)類別的車輛,并對(duì)每輛車都標(biāo)注了對(duì)應(yīng)的車輛及三維尺寸信息,訓(xùn)練集中對(duì)較難區(qū)分的兩廂車 (Hatch-back),三廂車 (Sedan)和SUV 各1 000 輛,公交車類 (Bus)和卡車類 (Truck) 各500 輛.為了便于網(wǎng)絡(luò)的訓(xùn)練,將展開(kāi)的標(biāo)準(zhǔn)化圖像分辨率調(diào)整為224×224 大小.實(shí)驗(yàn)在配置有Intel i7-6800K CPU和GeForce GTX 1080Ti GPU的PC 機(jī)上運(yùn)行.
本文選取ResNet-101 作為主干特征提取網(wǎng)絡(luò),為了提高檢測(cè)精度,采用其在ImageNet[31]上的預(yù)訓(xùn)練參數(shù),在訓(xùn)練的過(guò)程中進(jìn)行微調(diào) (fine-tune).網(wǎng)絡(luò)的輸入的是展開(kāi)的標(biāo)準(zhǔn)化圖像,批次大小設(shè)置為32,分類輸出5 類車輛,以及回歸輸出的是車輛物理尺寸長(zhǎng)寬高.
由于本網(wǎng)絡(luò)為多任務(wù)輸出網(wǎng)絡(luò),包括車輛分類及車輛物理尺寸輸出,因此,實(shí)驗(yàn)結(jié)果可以從分類的精度及物理尺寸回歸的結(jié)果兩方面進(jìn)行分析.圖12為細(xì)粒度識(shí)別結(jié)果在測(cè)試集上的車輛P-R 曲線 (Precision-Recall curves)圖,可看出對(duì)于特征區(qū)分度較高的Bus和Truck,本文方法的分類精度均超過(guò)90%,Sedan和Hatch-back 車輛,識(shí)別率也超過(guò)80%,由于SUV的特征區(qū)分度和二廂車及三廂車不大,因此識(shí)別率稍低.
圖12 車輛分類Precision-Recall 圖
利用同樣的網(wǎng)絡(luò)結(jié)構(gòu)及數(shù)據(jù)集,本文分別用標(biāo)準(zhǔn)化展開(kāi)數(shù)據(jù)及原始圖像數(shù)據(jù)做為輸入進(jìn)行訓(xùn)練,得到不同的識(shí)別結(jié)果,以此證明本文方法對(duì)于識(shí)別結(jié)果的有益性,如表3所示,為兩類方法識(shí)別的結(jié)果對(duì)比,數(shù)值均為四舍五入的整數(shù).
表3 車輛分類平均精確度對(duì)比 (%)
通過(guò)表3可以看出,對(duì)于Bus 及Truck 等本身特征區(qū)分度很大車輛,本文算法的準(zhǔn)確率提高并不大,而對(duì)于SUV,Sedan 及Hatch-back 等特征區(qū)分度較小的車輛,本文方法的精確度有了明顯的提高.可證明本文采用的車輛目標(biāo)三維展開(kāi)規(guī)范化的輸入方法,可以有效的提高網(wǎng)絡(luò)分類的性能.
對(duì)于車輛物理尺寸的回歸輸出,本文對(duì)于預(yù)測(cè)輸出的物理尺寸Xpre=(lpre,wpre,hpre)與標(biāo)簽物理尺寸Xlabel=(llabel,wlabel,hlabel),利用式(8) 計(jì)算準(zhǔn)確率Psize,其中,∥·∥2表示歐氏距離的二范數(shù):
車輛三維尺寸的識(shí)別受視角影響比較大,如圖13所示,為測(cè)試數(shù)據(jù)集上不同偏轉(zhuǎn)視角下網(wǎng)絡(luò)預(yù)測(cè)車輛物理尺寸的平均精度.
從圖13中可以看出,當(dāng)相機(jī)偏轉(zhuǎn)角接近±45°左右時(shí),由于圖像中車輛的3 個(gè)可視面均可充分的展現(xiàn),因此在做三維包絡(luò)展開(kāi)時(shí),可以保留較多的特征信息,也有助于最終車輛三維尺寸的回歸輸出.而當(dāng)相機(jī)偏轉(zhuǎn)視角接近于0°附近時(shí),圖像中車輛目標(biāo)縱向信息消失殆盡,因此尤其對(duì)于車輛縱向長(zhǎng)度的識(shí)別影響很大,因此輸出的車輛三維尺寸精確度較低.
圖13 不同相機(jī)視角下車輛三維尺寸預(yù)測(cè)平均精度圖
表4為車輛細(xì)粒度識(shí)別方法對(duì)比,其中精度由車輛單個(gè)識(shí)別精度和追蹤過(guò)程中綜合識(shí)別精度組成.
表4 不同車輛識(shí)別方法對(duì)比
表4中BoxCars 也是采用消除透視畸變及3D 展開(kāi)輸入的方法,從中可知,本文方法與BoxCars 方法在識(shí)別精度上均有較大的提高.本文方法相比于BoxCars還可回歸輸出車輛物理尺寸信息.
本文提出一種基于車輛三維包絡(luò)展開(kāi)的車輛識(shí)別方法,該方法采用三維包絡(luò)展開(kāi)的規(guī)范化數(shù)據(jù)作為輸入進(jìn)行訓(xùn)練,不僅可以提高車輛分類的精度,而且可輸出獲得車輛物理尺寸信息.通過(guò)在BrnoCompSpeed 視頻數(shù)據(jù)集中的實(shí)驗(yàn)表明,相比于傳統(tǒng)的原始圖像數(shù)據(jù)直接輸入訓(xùn)練,基于三維包絡(luò)展開(kāi)規(guī)范化圖像數(shù)據(jù)方法,由于很大程度上消除了透視畸變及尺度因素的影響,使得目標(biāo)的特征更加突出及規(guī)范,從而較大程度提升了細(xì)粒度識(shí)別的精度.同時(shí),本文方法還可以回歸輸出車輛物理尺寸信息,更加豐富了分類車輛描述的維度.
然而,本文方法仍存在可優(yōu)化的余地,譬如車輛三維包絡(luò)展開(kāi)數(shù)據(jù)的規(guī)范程度依賴于車輛的3D 包絡(luò)準(zhǔn)確程度,而相機(jī)接近0°視角下,車輛的3D 包絡(luò)將會(huì)有較大誤差.同時(shí),與傳統(tǒng)圖像目標(biāo)識(shí)別一樣,本文對(duì)于小目標(biāo)的識(shí)別也存在較大誤差,主要原因就是小目標(biāo)本身具有的圖像特征較少,數(shù)據(jù)規(guī)范化之后有可能造成較大變形,影響分類識(shí)別結(jié)果.后續(xù)工作將會(huì)著重探索和研究車輛在不同視角下的精確包絡(luò)難題,及小目標(biāo)車輛的精確分類問(wèn)題,以進(jìn)一步提高車輛分類的準(zhǔn)確率以及穩(wěn)定性.