鄒北驥,雷太航,劉 姝,廖望旻,姜靈子
(1.中南大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410083;2.中南大學(xué) 湖南省機(jī)器視覺(jué)與智慧醫(yī)療工程技術(shù)研究中心,湖南 長(zhǎng)沙 410083)
近年來(lái),智能監(jiān)控技術(shù)不斷發(fā)展,越來(lái)越普及。在涉及汽車違法犯罪的事件中,對(duì)車輛信息的采集格外重要。為了更好地獲取車輛信息,人們?cè)诔鞘薪值缆房诤透咚俟烦鋈肟谠O(shè)置了許多攝像頭,對(duì)來(lái)往車輛進(jìn)行采集作業(yè)。借助車牌、車標(biāo)、車型等關(guān)鍵標(biāo)識(shí)來(lái)監(jiān)控車輛,在打擊各種違法犯罪活動(dòng)中發(fā)揮著重要作用。考慮城市道路場(chǎng)景中存在著車牌污損、套牌和惡意遮擋等情況,基于機(jī)動(dòng)車品牌、型號(hào)和顏色進(jìn)行識(shí)別的應(yīng)用往往更加廣泛[1]。因此,車標(biāo)識(shí)別具有很高的實(shí)用價(jià)值,不僅能在交管部門、停車區(qū)域、維修中心等場(chǎng)所為車輛的管理與引導(dǎo)提供依據(jù),還能為車牌和車型識(shí)別提供支持[2]。
面向真實(shí)拍攝的自然場(chǎng)景,車標(biāo)識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),這是因?yàn)椋旱缆穲?chǎng)景復(fù)雜,攝像頭多為廣角鏡頭且距離較遠(yuǎn),可能導(dǎo)致車輛并非圖像中的主體[2-3],如圖1所示;車標(biāo)作為車身中一小塊區(qū)域,其主體性更無(wú)法突出。此外,由于汽車通常處于高速運(yùn)動(dòng)狀態(tài),拍攝圖像很可能出現(xiàn)動(dòng)態(tài)模糊;同時(shí)受到光線、天氣、角度等眾多因素影響,成像質(zhì)量也將下降。最先興起的車標(biāo)識(shí)別依賴人工對(duì)圖像進(jìn)行核查,耗費(fèi)了大量的人力物力,促使著國(guó)內(nèi)外專家學(xué)者對(duì)智能化車標(biāo)識(shí)別開(kāi)展研究工作。
圖1 真實(shí)拍攝的道路場(chǎng)景,車輛的主體性不顯著Fig.1 Road scene captured by a real camera,where vehicles are not the main parts
現(xiàn)有的自然場(chǎng)景車標(biāo)識(shí)別方法主要分為兩類:基于傳統(tǒng)特征的方法和基于深度學(xué)習(xí)的方法?;趥鹘y(tǒng)特征的方法先采用直方圖、紋理、不變矩等傳統(tǒng)特征描述車標(biāo),再使用機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行分類預(yù)測(cè)。羅彬等[4]結(jié)合邊緣直方圖與模版匹配算法對(duì)17類車標(biāo)進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到91%。劉嘉敏等[5]采用Hu不變矩提取車標(biāo)圖像特征,在識(shí)別種類很少的車標(biāo)時(shí)性能優(yōu)越;隨著車標(biāo)種類增多,某些不變矩特征較為接近,從而影響了識(shí)別力。文獻(xiàn)[6]通過(guò)車標(biāo)車燈的拓?fù)浣Y(jié)構(gòu)先對(duì)車標(biāo)進(jìn)行定位,再利用邊緣不變矩實(shí)現(xiàn)車標(biāo)分類。Psyllos等[7]提出一種基于尺度不變特征變換的增強(qiáng)匹配框架,在1 200幅共10類的車標(biāo)數(shù)據(jù)集上取得了97%的平均準(zhǔn)確率。此類方法簡(jiǎn)單、高效,但對(duì)種類偏多的車標(biāo)識(shí)別效果較差。此外,傳統(tǒng)特征的構(gòu)建依賴于各自數(shù)據(jù)庫(kù),魯棒性不足。
基于深度學(xué)習(xí)的車標(biāo)識(shí)別方法無(wú)須人為設(shè)計(jì)特征,而是從車標(biāo)數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征表達(dá)。Huang等[8]引入預(yù)訓(xùn)練策略,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)遷移至車標(biāo)識(shí)別任務(wù)中,在一個(gè)大規(guī)模10分類數(shù)據(jù)庫(kù)上獲得了突破性成果。近些年,多種CNN結(jié)構(gòu)及其變體的有效性也得到證實(shí),如殘差網(wǎng)絡(luò)(ResNet)與Inception網(wǎng)絡(luò)聯(lián)合模型[9]、多通路樹(shù)狀CNN[10]等,均取得了比傳統(tǒng)CNN更好的車標(biāo)識(shí)別性能。值得一提的是,上述兩項(xiàng)工作僅針對(duì)車標(biāo)區(qū)域圖像開(kāi)展研究,跳過(guò)了車標(biāo)檢測(cè)步驟,對(duì)真實(shí)拍攝的復(fù)雜場(chǎng)景適用性不強(qiáng)。此類方法能自動(dòng)學(xué)習(xí)車標(biāo)特征,與傳統(tǒng)特征相比預(yù)測(cè)效果更為出色,但深層網(wǎng)絡(luò)部署較復(fù)雜,訓(xùn)練時(shí)間較長(zhǎng)。
車標(biāo)數(shù)據(jù)是訓(xùn)練車標(biāo)識(shí)別模型并且保證其泛化力的關(guān)鍵。不同工作所使用的數(shù)據(jù)庫(kù)[7-9,11]規(guī)格不一,來(lái)源也不盡相同,對(duì)于靜態(tài)、近距離、光線好等實(shí)驗(yàn)室環(huán)境下獲取的車標(biāo)樣本,識(shí)別算法的準(zhǔn)確率與實(shí)用性均有待考證[12]。據(jù)目前所知,公開(kāi)的數(shù)據(jù)庫(kù)包括Medialab LPR[11]、XMU車標(biāo)庫(kù)[8]和HFUT-VL[13],分別存在數(shù)據(jù)量小、車標(biāo)種類少、樣本僅涉及車標(biāo)區(qū)域的問(wèn)題,在現(xiàn)實(shí)應(yīng)用中的適用度不高[14-15]。為填補(bǔ)這些不足,本文建立了一個(gè)面向自然場(chǎng)景的大型車標(biāo)數(shù)據(jù)集。與文獻(xiàn)[7,9,16]相比,數(shù)據(jù)規(guī)模擴(kuò)充了近10倍,包含10 324幅真實(shí)拍攝的車輛圖片,且場(chǎng)景分布更為復(fù)雜;與文獻(xiàn)[8-9,11]相比,車標(biāo)種類擴(kuò)大了近7倍,覆蓋我國(guó)路面約95%的汽車品牌。此數(shù)據(jù)集可為車標(biāo)、車牌、車型識(shí)別等相關(guān)研究奠定數(shù)據(jù)基礎(chǔ)。
作為上述數(shù)據(jù)集的直接應(yīng)用成果,本文提出了一個(gè)基于目標(biāo)檢測(cè)和深度學(xué)習(xí)的車標(biāo)識(shí)別方法,包括車標(biāo)檢測(cè)(Vehicle Logo Detection,VLD)與車標(biāo)識(shí)別(Vehicle Logo Recognition,VLR)兩大步驟。車標(biāo)檢測(cè)算法采用YOLOv3框架[17],并結(jié)合仿射變換矩陣,快速準(zhǔn)確地從自然場(chǎng)景的車輛圖像中定位車標(biāo)感興趣區(qū)域;車標(biāo)識(shí)別算法利用50層ResNet(ResNet-50)[18],實(shí)現(xiàn)對(duì)車標(biāo)的分類預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文方法能有效應(yīng)對(duì)復(fù)雜自然場(chǎng)景中的車標(biāo)識(shí)別問(wèn)題,對(duì)于涉及多種類的車標(biāo)識(shí)別任務(wù)達(dá)到了89.0%的準(zhǔn)確度。
車標(biāo)數(shù)據(jù)的獲取是整個(gè)識(shí)別過(guò)程的根基。本領(lǐng)域內(nèi)采用的數(shù)據(jù)通常來(lái)源于已公開(kāi)的LPR庫(kù)[11]和其他采集途徑,各自存在著數(shù)據(jù)規(guī)模小、車標(biāo)種類少、成像環(huán)境部分理想化等問(wèn)題,使得車標(biāo)識(shí)別方法缺乏可信度和實(shí)用性。因此,本文構(gòu)建了一個(gè)自然場(chǎng)景下的全新實(shí)驗(yàn)數(shù)據(jù)庫(kù),所有車輛圖片均由作者拍攝所得,并標(biāo)注了車標(biāo)位置和種類。
本文精心設(shè)計(jì)了數(shù)據(jù)采集與過(guò)濾標(biāo)準(zhǔn),主要考慮以下三個(gè)方面。
1)圖片分辨率:本研究的應(yīng)用場(chǎng)景定位為道路監(jiān)控,真實(shí)監(jiān)控?cái)z像頭拍攝的道路圖片大多在500萬(wàn)像素或者更高,選用分辨率與之接近的拍攝設(shè)備以獲取貼近現(xiàn)實(shí)采集環(huán)境的車輛數(shù)據(jù)。由于蘋果和華為手機(jī)的拍攝分辨率足夠適應(yīng)當(dāng)前先進(jìn)的監(jiān)控系統(tǒng),本研究利用這兩款手機(jī)攝像頭完成數(shù)據(jù)采集工作。
2)拍攝光線、距離、角度:為了使后續(xù)研究的車標(biāo)識(shí)別方法能夠有效應(yīng)對(duì)復(fù)雜多變的成像環(huán)境,提高其魯棒性,研究對(duì)拍攝光線、距離和角度不做過(guò)多限制。采集過(guò)程中選擇在不同天氣、時(shí)間或場(chǎng)地進(jìn)行拍攝,以保證不同光照強(qiáng)度下都有充足的樣本量。如圖2所示,為獲取暗光、較暗光和強(qiáng)光下的車輛圖像,可分別在夜晚或地下停車場(chǎng)、陰雨天和晴天采集數(shù)據(jù)。同時(shí)兼顧多距離拍攝條件,采用定點(diǎn)拍攝方式,對(duì)近距離(1~5 m)和遠(yuǎn)距離(5~40 m)的來(lái)往車輛進(jìn)行采集作業(yè),如圖3所示。此外,為了避免自然場(chǎng)景過(guò)于相似,還需經(jīng)常調(diào)整拍攝位置和角度,通常選擇在道路左、右側(cè)和車輛前、后方獲取多個(gè)角度的拍攝樣本,如圖4所示。
(a) 夜晚 (b) 地下停車場(chǎng) (c) 陰天 (d) 晴天(a) Night (b) Underground parking (c) Cloudy day (d) Sunny day 圖2 不同光線下拍攝的車輛數(shù)據(jù)示例Fig.2 Examples of vehicle images captured under different illuminations
(a) 近距離 (b) 遠(yuǎn)距離(a) Short distance (b) Long distance圖3 不同距離下拍攝的車輛數(shù)據(jù)示例Fig.3 Examples of vehicle images captured under different distances
(a) 前方 (b) 左前方 (c) 右前方 (d) 俯視(a) Front (b) Front left (c) Front right (d) Overlooking圖4 不同角度下拍攝的車輛數(shù)據(jù)示例Fig.4 Examples of vehicle images captured under different views
3)各類車標(biāo)數(shù)據(jù)量:大規(guī)模、多樣化的車標(biāo)數(shù)據(jù)集是有效訓(xùn)練識(shí)別模型并且增強(qiáng)其泛化力的關(guān)鍵。數(shù)據(jù)集中各類車標(biāo)應(yīng)保持充足的樣本數(shù),考慮到車標(biāo)種類繁多,采用“地毯式”與“針對(duì)式”相結(jié)合的拍攝方式。首先通過(guò)“地毯式”拍攝高效地獲取大量自然場(chǎng)景中的車輛圖像,并對(duì)品牌進(jìn)行劃分與整理。其中,采集數(shù)排名前30的車標(biāo)已經(jīng)涵蓋我國(guó)路面約90%的品牌,期望這些種類都有100幅以上的樣本量。對(duì)于數(shù)量未達(dá)標(biāo)的車標(biāo)種類(如圖5中的標(biāo)致、五菱、起亞等),赴對(duì)應(yīng)品牌經(jīng)銷商或修理廠進(jìn)行“針對(duì)式”拍攝。其他非主流品牌(如圖5中的中華、江淮等),同樣需經(jīng)過(guò)“針對(duì)式”拍攝,保證其20~80幅采集量即可。
圖5 “地毯式”拍攝后,部分品牌采集量的分布直方圖Fig.5 The number of some vehicle brands after the “blanket” collection
本研究共采集了10 324幅自然場(chǎng)景車輛圖片,涉及67類車標(biāo),多種光線強(qiáng)度、遠(yuǎn)近距離和拍攝角度。借助labelme工具對(duì)圖像中車標(biāo)位置進(jìn)行手工標(biāo)定,數(shù)據(jù)集按照車標(biāo)種類分別存放于對(duì)應(yīng)文件夾,總大小為35.1 GB。
表1簡(jiǎn)要描述了車標(biāo)識(shí)別研究中的現(xiàn)存數(shù)據(jù)庫(kù)。顯然,它們各自存在著一些問(wèn)題,包括數(shù)據(jù)規(guī)模偏小、車標(biāo)種類少、成像環(huán)境較單一、僅含車標(biāo)區(qū)域樣本、公開(kāi)性較差。大部分工作所使用的樣本數(shù)為幾百到幾千不等;雖然文獻(xiàn)[8]包含一萬(wàn)余個(gè)樣本,其中卻只有1 000個(gè)是真實(shí)拍攝所得,其余則由數(shù)據(jù)增廣等手段獲取。文獻(xiàn)[13]公布了目前最大的數(shù)據(jù)庫(kù)HFUT-VL,但32 000幅圖像均為車標(biāo)或其附近限定區(qū)域,由此建立的車標(biāo)識(shí)別模型對(duì)真實(shí)場(chǎng)景的適用性不強(qiáng);文獻(xiàn)[7-9,16,19]同樣存在這一局限性(如圖6所示)。LPR庫(kù)[11]提供了自然場(chǎng)景下的車輛數(shù)據(jù),但部分樣本不具有車標(biāo)區(qū)域。
圖6 僅含車標(biāo)區(qū)域的樣本示例Fig.6 Examples of samples with only vehicle logos
表1 數(shù)據(jù)集各指標(biāo)對(duì)比Tab.1 Comparison of datasets
此外,車標(biāo)多樣性不足、成像復(fù)雜性不高也是大多數(shù)數(shù)據(jù)庫(kù)的共性問(wèn)題[7,11,16,19]。
本文在擴(kuò)充數(shù)據(jù)量和車標(biāo)數(shù)的基礎(chǔ)上,綜合復(fù)雜多變的拍攝環(huán)境與背景,獲取了自然場(chǎng)景中的車輛圖片,并給出車標(biāo)位置和標(biāo)簽,以期望提高分類預(yù)測(cè)的魯棒性。本數(shù)據(jù)集的各項(xiàng)指標(biāo)如表1所示??紤]到樣本的圖片內(nèi)容,還可衍生出諸多應(yīng)用場(chǎng)景,如自然場(chǎng)景車輛、車牌和車型的檢測(cè)與識(shí)別。
數(shù)據(jù)集的創(chuàng)建對(duì)于車輛及其屬性(如車牌、車標(biāo)、車型等)研究有著重要的意義。作為其直接應(yīng)用成果之一,本文還開(kāi)展了面向自然場(chǎng)景的車標(biāo)識(shí)別方法研究。整體框架如圖7所示,分為VLD和VLR兩大部分。
圖7 車標(biāo)識(shí)別整體框架Fig.7 Framework of vehicle logo recognition
VLD包括車輛及車牌檢測(cè)、圖像傾斜矯正、車標(biāo)區(qū)域定位三個(gè)步驟,實(shí)現(xiàn)了從復(fù)雜背景的車輛圖像中快速準(zhǔn)確地提取車標(biāo)感興趣區(qū)域,有效應(yīng)對(duì)自然場(chǎng)景下車標(biāo)主體不突出的問(wèn)題。
首先利用YOLOv3及Poly-YOLO框架[17,20]檢測(cè)車輛以及車牌角點(diǎn)。YOLOv3是一種高效且高精度的小目標(biāo)檢測(cè)框架,核心結(jié)構(gòu)為Darknet-53網(wǎng)絡(luò),其原理為對(duì)目標(biāo)所在的邊界框在3個(gè)特征層上進(jìn)行卷積預(yù)測(cè),并預(yù)測(cè)邊界框內(nèi)包含目標(biāo)的概率;Poly-YOLO具有針對(duì)旋轉(zhuǎn)矩形框進(jìn)行檢測(cè)的能力,能高效準(zhǔn)確獲取車牌區(qū)域及角點(diǎn)。將原始圖片送入YOLO訓(xùn)練,并獲取車輛和車牌角點(diǎn),如圖8所示。
圖8 車輛及車牌檢測(cè)Fig.8 Vehicle and license plate detection
考慮車輛區(qū)域可能存在傾斜,借助車牌角點(diǎn)坐標(biāo)關(guān)系進(jìn)行仿射變換,實(shí)現(xiàn)車輛整體的方向修正[21]。假設(shè)點(diǎn)a、c、d分別位于車牌左下角、左上角、右上角,點(diǎn)A、C、D為仿射變換后對(duì)應(yīng)點(diǎn),兩者間變換公式為:
(1)
(2)
(3)
其中,440/140為我國(guó)車輛牌照尺寸。將這三組點(diǎn)的坐標(biāo)值輸入式(4),求得仿射變換矩陣的參數(shù)θ11、θ12、θ13、θ21、θ22、θ23:
(4)
其中,[x,y]和[x′,y′]分別表示矯正前、后點(diǎn)坐標(biāo)。對(duì)車輛區(qū)域的每個(gè)點(diǎn)均按照式(4)進(jìn)行方向修正,盡可能消除圖像傾斜導(dǎo)致的背景復(fù)雜性。
最后,根據(jù)車牌與車標(biāo)的一般相對(duì)位置關(guān)系,將車牌上方1倍車牌寬度和3倍車牌高度的范圍圈定為車標(biāo)感興趣區(qū)域(如圖9所示),用于后續(xù)的識(shí)別模型訓(xùn)練。
圖9 車標(biāo)感興趣區(qū)域的定位效果示例Fig.9 Examples of vehicle logo region localization
VLR包括深度學(xué)習(xí)訓(xùn)練和車標(biāo)識(shí)別分類兩個(gè)步驟,基于深度殘差網(wǎng)絡(luò)[18]得以實(shí)現(xiàn)。該網(wǎng)絡(luò)在前向卷積層外部引入恒等映射越層連接,構(gòu)成如圖10所示的殘差單元塊,使得網(wǎng)絡(luò)能直接對(duì)殘差F(x)=H(x)-x進(jìn)行學(xué)習(xí),而無(wú)須再擬合原始映射H(x),從而解決由于層數(shù)增加帶來(lái)的退化問(wèn)題。
圖10 殘差單元塊Fig.10 Residual block
經(jīng)過(guò)對(duì)不同層數(shù)ResNet的初步試驗(yàn),對(duì)比發(fā)現(xiàn)ResNet-50的預(yù)測(cè)性能優(yōu)于ResNet-34和ResNet-101,可能的原因?yàn)椋?0層ResNet比34層網(wǎng)絡(luò)更深,特征識(shí)別力更強(qiáng);而ResNet-101對(duì)于本數(shù)據(jù)集而言結(jié)構(gòu)又過(guò)于復(fù)雜,更容易出現(xiàn)過(guò)擬合問(wèn)題。因此,后續(xù)實(shí)驗(yàn)使用ResNet-50進(jìn)行車標(biāo)識(shí)別分類。
將車標(biāo)圖像分辨率歸一化至224×224×3,送入卷積層,卷積核大小為7×7×64,填充深度為3,步長(zhǎng)為2,輸出為112×112×64;再進(jìn)入最大池化層,池化核為3×3,填充深度為0,步長(zhǎng)為2,該層輸出為56×56×64;接著經(jīng)過(guò)4個(gè)卷積塊,其中每一塊卷積12次,再進(jìn)入平均池化層,池化核為7×7,填充深度為0,步長(zhǎng)為1,輸出為1×1×2 048;每個(gè)卷積層后連接了批量標(biāo)準(zhǔn)化BN層和修正線性單元ReLU;最后通過(guò)全連接層再次卷積,經(jīng)由Softmax得到車標(biāo)分類的預(yù)測(cè)概率。
本數(shù)據(jù)集涉及眾多車標(biāo),且每一種類的樣本量不一。為測(cè)試本文車標(biāo)識(shí)別方法的有效性,依次篩選了包含65、52、42、30類車標(biāo)的6 000、5 000、4 000、3 000幅圖像作為訓(xùn)練集,以及包含各自車標(biāo)種類的1 000個(gè)樣本作為測(cè)試集,分別進(jìn)行深度學(xué)習(xí)訓(xùn)練。識(shí)別結(jié)果如表2所示,鑒于前三個(gè)訓(xùn)練集涉及車標(biāo)種類較多,而部分種類沒(méi)有充足的數(shù)據(jù)量,即數(shù)據(jù)分布不均衡,使得模型訓(xùn)練受限,因此后續(xù)實(shí)驗(yàn)將在僅含30類車標(biāo)的3 000幅訓(xùn)練圖像上開(kāi)展,訓(xùn)練后的識(shí)別模型則在互不重疊的1 000幅測(cè)試圖像上得以確立。
表2 不同訓(xùn)練集下的車標(biāo)識(shí)別性能對(duì)比Tab.2 Comparison of vehicle logo recognition on different training sets
測(cè)試集中,近距離和遠(yuǎn)距離拍攝樣本均有500幅,強(qiáng)光、弱光和暗光拍攝樣本分別有357、366和277幅。表3和表4展示了成像距離和光照條件對(duì)車標(biāo)識(shí)別準(zhǔn)確率的影響。對(duì)于近距離拍攝的車輛圖像,其車標(biāo)識(shí)別率達(dá)到了93.2%,遠(yuǎn)高于遠(yuǎn)距離拍攝樣本,原因在于遠(yuǎn)距離車輛的主體性不明顯,使得車標(biāo)區(qū)域太小且分辨率較低,一定程度上影響了預(yù)測(cè)結(jié)果。對(duì)于強(qiáng)光拍攝的車輛圖像,其車標(biāo)識(shí)別率為92.4%,隨著光照變暗,識(shí)別率逐漸降低。盡管如此,本識(shí)別算法對(duì)自然場(chǎng)景下的車輛圖像仍有85%以上的準(zhǔn)確率,對(duì)距離和亮度變化有著較好的魯棒性。
表3 不同距離拍攝下的車標(biāo)識(shí)別性能對(duì)比Tab.3 Comparison of vehicle logo recognition under different shooting distances
表4 不同光線拍攝下的車標(biāo)識(shí)別性能對(duì)比Tab.4 Comparison of vehicle logo recognition under different shooting illuminations
若剔除車輛檢測(cè)步驟,直接對(duì)原始圖像進(jìn)行車牌檢測(cè)及后續(xù)處理,研究發(fā)現(xiàn)其對(duì)近距離拍攝的樣本影響不大,對(duì)遠(yuǎn)距離樣本(特別是包含多輛汽車時(shí))影響較大,大大降低了車標(biāo)的辨識(shí)效果。若剔除圖像傾斜矯正或車標(biāo)區(qū)域定位步驟,而直接進(jìn)行其他操作,車標(biāo)識(shí)別的總體準(zhǔn)確率均呈現(xiàn)不同程度的下降(如表5所示),這也從側(cè)面烘托了VLD算法在車標(biāo)識(shí)別中的有效性。
表5 剔除部分VLD步驟下的車標(biāo)識(shí)別性能對(duì)比Tab.5 Comparison of vehicle logo recognition after removing some VLD steps
對(duì)車標(biāo)誤識(shí)別數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),當(dāng)其形狀和尺寸相近時(shí),更容易出現(xiàn)被錯(cuò)誤分類的情況。這主要體現(xiàn)在奇瑞與英菲尼迪,以及傳祺與雷克薩斯這兩組車標(biāo)種類上,如圖11所示。對(duì)奇瑞的誤識(shí)別共有7個(gè)樣本,其中6個(gè)被預(yù)測(cè)為英菲尼迪,而對(duì)英菲尼迪的誤識(shí)別共有5個(gè)樣本,全被預(yù)測(cè)為奇瑞;對(duì)傳祺的誤識(shí)別中,被預(yù)測(cè)為雷克薩斯的概率為3/5,反之為3/4。
上述實(shí)驗(yàn)結(jié)果表明,本文車標(biāo)識(shí)別方法能有效應(yīng)對(duì)復(fù)雜多變的自然場(chǎng)景,獲得較好的車標(biāo)識(shí)別效果。與其他相關(guān)工作相比,本研究覆蓋了較多的車標(biāo)種類和多樣的場(chǎng)景分布,保留了一個(gè)完整的從目標(biāo)檢測(cè)到分類的車標(biāo)識(shí)別全過(guò)程,具有更強(qiáng)的實(shí)用性。
(a) 奇瑞與英菲尼迪(a) CHERY versus INFINITI
本文詳細(xì)敘述了自然場(chǎng)景車標(biāo)數(shù)據(jù)集的創(chuàng)建過(guò)程,包括數(shù)據(jù)獲取的環(huán)境、條件及各項(xiàng)指標(biāo)對(duì)比。作為其應(yīng)用成果,提出了一種融合目標(biāo)檢測(cè)和深度學(xué)習(xí)的車標(biāo)識(shí)別方法,實(shí)現(xiàn)了對(duì)自然場(chǎng)景中的車輛進(jìn)行車標(biāo)區(qū)域定位和分類預(yù)測(cè)的全過(guò)程。實(shí)驗(yàn)結(jié)果表明,該方法在處理復(fù)雜自然場(chǎng)景且涉及多類車標(biāo)的識(shí)別任務(wù)時(shí),仍具有較好的準(zhǔn)確度,能夠滿足實(shí)際應(yīng)用的需要。
在未來(lái)的研究中,將從以下幾個(gè)方面進(jìn)行展開(kāi):繼續(xù)擴(kuò)充自然場(chǎng)景車標(biāo)數(shù)據(jù)集的規(guī)模及多樣性,期望提高自然場(chǎng)景車標(biāo)數(shù)據(jù)集的科研價(jià)值;使用更大規(guī)模的數(shù)據(jù)進(jìn)行車標(biāo)識(shí)別模型的訓(xùn)練,期望提高自然場(chǎng)景中的車標(biāo)識(shí)別方法的準(zhǔn)確率;考察車標(biāo)種類之間的關(guān)聯(lián)性,針對(duì)車標(biāo)誤識(shí)別情況,通過(guò)設(shè)計(jì)并調(diào)整損失函數(shù)的方法,期望減少相關(guān)車標(biāo)種類之間誤識(shí)別現(xiàn)象的發(fā)生。