陳立潮,朝 昕,曹建芳,2,潘理虎
1.太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原030024 2.忻州師范學(xué)院 計(jì)算機(jī)系,山西 忻州034000
在車輛普及的今天,智能交通系統(tǒng)(Intelligent Transportation System,ITS)的建設(shè)有著重要意義,ITS包括車型識(shí)別、交通流量計(jì)算和智能泊車系統(tǒng)等。細(xì)粒度車型識(shí)別技術(shù)在智能交通系統(tǒng)中占據(jù)重要地位,一般的車型識(shí)別只能簡(jiǎn)單識(shí)別出大卡車、轎車、公交車等粗粒度信息,車輛信息提供不充足,僅憑這些基礎(chǔ)數(shù)據(jù)分析,無法做到對(duì)車輛的有效識(shí)別和追蹤,細(xì)粒度車型識(shí)別能識(shí)別出更為精準(zhǔn)有用的信息,如車輛型號(hào)、制造商、生產(chǎn)年份,這些信息可以精確標(biāo)識(shí)車輛,不僅節(jié)省了人力資源,提高交通執(zhí)法效率,而且能夠有效地進(jìn)行車輛監(jiān)控,提高了有關(guān)車輛刑事案件的偵破效率,在智能交通、安防等領(lǐng)域具有重要意義[1]。
目前,已經(jīng)有許多研究者針對(duì)車型細(xì)粒度識(shí)別做了大量研究工作。Yang等人[2]構(gòu)建了一個(gè)公開的細(xì)粒度車輛圖像數(shù)據(jù)庫Comp Cars,并用經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型對(duì)細(xì)粒度車型的識(shí)別問題進(jìn)行了研究,但并未對(duì)現(xiàn)有的CNN模型作進(jìn)一步改進(jìn)。王偉等人[3]根據(jù)注意機(jī)制循環(huán)提取圖像中的顯著物體區(qū)域,融合原始圖像和提取的同類別顯著區(qū)域,再用融合層進(jìn)行分類,該方法能有效提取圖像的鑒別性部分,但準(zhǔn)確率有待提升。Hu等人[4]提出空間權(quán)重池化(Spatially Weighted Pooling,SWP)將深度學(xué)習(xí)網(wǎng)絡(luò)所提取的特征集合起來,該方法中SWP類似注意力模型,提高了主要特征表示的有效性,得到較好的識(shí)別效果。楊娟等人[5]提出基于區(qū)域建議網(wǎng)絡(luò)的細(xì)粒度車型識(shí)別方法,通過分類及回歸層得到區(qū)域候選為目標(biāo)的概率,再用目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行分類,該方法雖然獲得了較好的精度,但在極相似車型間的識(shí)別效果較差,類間距離較小。Fang等人[6]通過大規(guī)模訓(xùn)練集定位外觀變化最顯著的鑒別部分,基于整體線索和全局、局部特征中的從屬層次變化,采用SVM分類器進(jìn)行分類。該方法雖然增強(qiáng)了網(wǎng)絡(luò)的表征能力,得到了較好的識(shí)別準(zhǔn)確率,但步驟繁多,操作復(fù)雜。Wang等人[7]利用PCANet,按角度采樣數(shù)據(jù)并建立模型,融合加權(quán)局部特征和全局特征提高特征表達(dá)能力,該方法不僅要為每個(gè)角度建立一個(gè)模型,局部特征也需要人工提取,隨著車型數(shù)量增加,相似車型間細(xì)節(jié)要求增加,帶來巨大的人工開銷。劉虎等人[8]對(duì)不同卷積層的特征進(jìn)行多尺度融合,提高特征表達(dá)能力,利用中心損失函數(shù)減小類內(nèi)距離,提高車型識(shí)別能力。
上述方法都是以CNN為基礎(chǔ)網(wǎng)絡(luò)模型,通過不同方法優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使網(wǎng)絡(luò)處理圖像時(shí)得到更具識(shí)別性的特征圖。ResNet是目前CNN中應(yīng)用最為廣泛的特征提取網(wǎng)絡(luò),在圖像處理方面有著獨(dú)特的優(yōu)越性[9]。一方面繼承了CNN中局部感知和參數(shù)共享的特征,網(wǎng)絡(luò)模型的復(fù)雜度較低,另一方面采用快捷連接(shortcut)將輸入信息直接傳到輸出,解決了以往CNN在信息傳遞時(shí)存在的信息損耗、梯度消失等問題[10]。神經(jīng)科學(xué)家發(fā)現(xiàn),神經(jīng)系統(tǒng)的表征能力與系統(tǒng)中獨(dú)立神經(jīng)元的數(shù)量呈正比,在網(wǎng)絡(luò)中引入IC層是獲得獨(dú)立神經(jīng)元最快速有效的方式,獨(dú)立神經(jīng)元構(gòu)成的CNN具有更好的特征表達(dá)能力。
針對(duì)以上問題,提出融合獨(dú)立組件的ResNet的方法實(shí)現(xiàn)細(xì)粒度車型識(shí)別。首先對(duì)殘差網(wǎng)絡(luò)的下采樣層和損失函數(shù)優(yōu)化,增加下采樣層像素信息提取,然后引入中心損失函數(shù)對(duì)Softmax損失函數(shù)優(yōu)化,減小類內(nèi)距離。最后引入獨(dú)立組件層,增強(qiáng)任意一對(duì)神經(jīng)元之間的獨(dú)立性,降低模型過擬合風(fēng)險(xiǎn),提高模型的表征能力,獲得更好的類別識(shí)別效果。
2015年何凱明等人提出ResNet,并獲得ILSVRC 2015比賽冠軍。ResNet由基本的殘差(Residual block)組成,在極端情況下,如果一個(gè)恒等映射是最優(yōu)的,那么將殘差擬合為零比通過一堆非線性層來適應(yīng)一個(gè)恒等映射更容易[11]。ResNet 152是殘差網(wǎng)絡(luò)中較深的一種,深層網(wǎng)絡(luò)能夠提取到不同層次的信息,得到更抽象有鑒別力的特征圖,因此對(duì)ResNet152進(jìn)行了研究,并對(duì)結(jié)構(gòu)進(jìn)行了優(yōu)化,使網(wǎng)絡(luò)模型具有更好的表征能力以實(shí)現(xiàn)對(duì)細(xì)粒度車型的有效識(shí)別。
網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,輸入層為核大小為7×7、通道數(shù)為64的卷積層和3×3最大池化層,然后由Residual block構(gòu)建塊堆疊組成4部分:[1×1 64,3×3 64,1×1 256]×3、[1×1 128,3×3 128,1×1 512]×8、[1×1 256,3×3 256,1×1 1 024]×36和[1×1 512,3×3 512,1×1 2 048]×3,Conv5_3最后一層的激活函數(shù)設(shè)為Tanh,輸出層為7×7的平均池化和Softmax全連接分類層,其中Conv3_1、Conv4_1和Conv5_1為下采樣層,為了降低過擬合,全連接層前加入了節(jié)點(diǎn)保留率為0.1的Dropout[12]層。
圖1 細(xì)粒度車型識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)
1.2.1 下采樣層
圖像下采樣是深度學(xué)習(xí)中獲取相應(yīng)縮略圖的一種常見方法,通常做法是對(duì)于一個(gè)圖片像素值序列,每隔幾個(gè)像素值取值一次,得到的新序列即為原圖像的下采樣。原始ResNet152網(wǎng)絡(luò)下采樣層結(jié)構(gòu)為[1×1S=2,3×3S=1,1×1S=1],S為卷積核步長,通過shortcut執(zhí)行一個(gè)線性映射Ws X來匹配F(X)維度得到期望映射H(X),如式(1)所示:
下采樣層第一個(gè)卷積和shortcut核大小均為1×1步長為2,造成了近3/4像素信息的丟失。He等人[13]提出,下采樣雖然有效地降低圖片大小減少網(wǎng)絡(luò)后續(xù)計(jì)算量,但也在一定程度上增加了像素?fù)p失。細(xì)粒度車型外觀極其相似,特別是子車系間外觀區(qū)別主要集中在微小部位,較多的像素缺失會(huì)造成模型無法學(xué)習(xí)到具有鑒別性的特征,導(dǎo)致特征表達(dá)能力不足,準(zhǔn)確率低下。
為了減少關(guān)鍵特征信息損失,ResNet152網(wǎng)絡(luò)原下采樣層結(jié)構(gòu)優(yōu)化為圖2所示。如圖所示改進(jìn)后的下采樣層結(jié)構(gòu)為[1×1S=1,3×3S=2,1×1S=1],第一個(gè)卷積核的步長由2改為1,為了不改變?cè)虏蓸訉虞敵龃笮?,第二個(gè)卷積核步長設(shè)為2,shortcut中將卷積核步長改為1,并在卷積核前增加一個(gè)[2×2S=2]的平均池化,使得網(wǎng)絡(luò)能在不丟失任何像素信息的情況下,維持原輸出大小,提高網(wǎng)絡(luò)表征能力。
圖2 下采樣層結(jié)構(gòu)
1.2.2 損失函數(shù)
由于車型較多,細(xì)粒度車型中相似車型難以分辯,子車系間區(qū)分度較小,存在類別間距不明顯、類內(nèi)散度較大的情況,因此模型訓(xùn)練時(shí)應(yīng)該盡量增大類間距離,減小類內(nèi)距離,以提高網(wǎng)絡(luò)對(duì)子車系類別的識(shí)別效果,增強(qiáng)類內(nèi)聚性。
中心損失[14](Center Loss)函數(shù)通過計(jì)算每一訓(xùn)練批次特征空間中同一類別特征與特征中心的偏移量,讓網(wǎng)絡(luò)擬合偏移量,最小化類內(nèi)特征變化的同時(shí)保持不同類別之間的特征差異性,訓(xùn)練出更好的類內(nèi)聚性。Center Loss函數(shù)如式(2)所示:
其中,xi表示第i個(gè)樣本輸入,yi表示相應(yīng)的類別,cyi表示類別yi的特征中心,m為批次大小。
在多分類任務(wù)中,通常使用Softmax損失函數(shù),將全連接層神經(jīng)元的輸出,映射到(0,1)區(qū)間作為類別概率。Softmax損失函數(shù)公式如下所示:
式(3)中yi,k表示第i個(gè)樣本的真實(shí)標(biāo)簽為k,共有K個(gè)標(biāo)簽值N個(gè)樣本,pi,k表示第i個(gè)樣本預(yù)測(cè)為第k個(gè)標(biāo)簽值的概率,Softmax損失函數(shù)在一定程度上表示了真實(shí)輸出與期望輸出的差距,模型訓(xùn)練時(shí)通過擬合Softmax損失值,有效地增大類間距離。
因此本模型基于以上兩種損失函數(shù),提出引入Center Loss和原網(wǎng)絡(luò)Softmax損失函數(shù)加權(quán)聯(lián)合學(xué)習(xí)的方式,優(yōu)化網(wǎng)絡(luò)參數(shù),減小類內(nèi)散度,使網(wǎng)絡(luò)學(xué)習(xí)到更具識(shí)別力的特征。網(wǎng)絡(luò)的最終損失函數(shù)如式(4)所示,本實(shí)驗(yàn)中Center Loss的權(quán)重λ取值0.000 05:
1.2.3 融合獨(dú)立組件
細(xì)粒度車型的識(shí)別性特征微小,相對(duì)獨(dú)立的神經(jīng)元結(jié)構(gòu)可以增強(qiáng)網(wǎng)絡(luò)表征能力,提高模型對(duì)細(xì)粒度車型微小特征的提取,得到更好的識(shí)別效果,為獲得獨(dú)立神經(jīng)元,在網(wǎng)絡(luò)中引入IC,生成IC層的直觀解決方案是引入一個(gè)附加層,該層執(zhí)行獨(dú)立組件分析,以一種連續(xù)的方式將相鄰神經(jīng)元分開,應(yīng)用IC層可以獲得相對(duì)獨(dú)立的神經(jīng)網(wǎng)絡(luò),Chen等人[15]提出一種IC結(jié)構(gòu),通過結(jié)合兩個(gè)流行技術(shù)批量歸一化[16](Batch Normalization,BN)和Dropout即{BN-Dropout}來實(shí)現(xiàn)相對(duì)獨(dú)立的神經(jīng)元結(jié)構(gòu),并通過大量實(shí)驗(yàn)發(fā)現(xiàn)該IC結(jié)構(gòu)能夠使網(wǎng)絡(luò)表征能力增強(qiáng),獲得更好的收斂極限。
本文提出一種新的IC層{BN-Scale-Dropout},在BN后引入一個(gè)Scale層,實(shí)現(xiàn)對(duì)特征的二次平移縮放,進(jìn)一步減小標(biāo)準(zhǔn)化帶來的特征分布變化。CNN訓(xùn)練時(shí)每一層輸入的數(shù)據(jù)分布往往會(huì)和卷積核參數(shù)更新之前有較大的差異,導(dǎo)致網(wǎng)絡(luò)要去不斷適應(yīng)新的數(shù)據(jù)分布,進(jìn)而使得訓(xùn)練變得異常困難,BN對(duì)網(wǎng)絡(luò)進(jìn)行歸一化,使輸入均值和單位方差為零,降低內(nèi)部協(xié)變量偏移,減少內(nèi)部神經(jīng)元分布的改變,加速網(wǎng)絡(luò)的收斂,BN計(jì)算過程如下所示:
首先通過式(5)求得輸入的均值μB,其中xi為第i個(gè)神經(jīng)元的輸入,μB為其均值,再通過式(6)得到方差σ2,式(7)將輸入進(jìn)行標(biāo)準(zhǔn)化處理,使輸入均值為0,方差為1:
經(jīng)過式(6)、式(7)的處理后,上一層網(wǎng)絡(luò)所學(xué)習(xí)到的特征分布被破壞,通過公式(8)對(duì)標(biāo)準(zhǔn)化后的值進(jìn)行平移縮放處理,引入可學(xué)習(xí)重構(gòu)參數(shù)γ和β,讓網(wǎng)絡(luò)在訓(xùn)練時(shí)恢復(fù)原始網(wǎng)絡(luò)所要學(xué)習(xí)的特征分布。
Dropout通過在網(wǎng)絡(luò)層中引入隨機(jī)參數(shù)p,使神經(jīng)元以概率p輸出值,減少信息之間的聯(lián)系,以參數(shù)概率p線性減弱任何一對(duì)神經(jīng)元之間的相關(guān)性,構(gòu)造相對(duì)獨(dú)立的神經(jīng)元激活。
殘差網(wǎng)絡(luò)中通常采用{Conv2D-BN-Relu}的結(jié)構(gòu),為了使輸入與卷積核權(quán)重之間更加獨(dú)立,移除原結(jié)構(gòu)中的BN層,在每個(gè)卷積層前引入了一個(gè)IC層,即{ICConv2D-Relu},提出的IC層以連續(xù)的方式將卷積層中的每一對(duì)神經(jīng)元“分開”,IC中Dropout概率設(shè)為0.01,當(dāng)該IC層被應(yīng)用到殘差塊中時(shí),神經(jīng)元變得更加獨(dú)立,訓(xùn)練過程更加穩(wěn)定,網(wǎng)絡(luò)的表征能力顯著提高。圖3所示為提出的IC運(yùn)用到普通殘差塊中,圖4為運(yùn)用到下采樣層中。
圖3 Residual block引入IC
圖4 下采樣層引入IC
實(shí)驗(yàn)所用計(jì)算機(jī)硬件配置為Intel?Xeon?Silver 4110 CP處理器,內(nèi)核數(shù)32,GeForce GTX 1080Ti 10 GB顯卡,單精度浮點(diǎn)數(shù)為11.34 TFLOPS,雙精度浮點(diǎn)數(shù)為0.33 TFLOPS。軟件環(huán)境為Ubuntu 16.04.5 LTS4.15.0-45-generic GNU/Linux操作系統(tǒng),Python3.6程序設(shè)計(jì)語言和keras深度學(xué)習(xí)框架。
Stanford Cars-196[17]數(shù)據(jù)集是目前最常用的細(xì)粒度車型識(shí)別數(shù)據(jù)集,圖像數(shù)據(jù)包含196類共16 185張汽車圖片,其中訓(xùn)練集8 144張,測(cè)試集8 041張。每張圖片有制造商、型號(hào)和年份三個(gè)標(biāo)簽。訓(xùn)練前對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理,將所有圖像裁剪為224×224大小,Rescale為1/255,并對(duì)訓(xùn)練集做了角度旋轉(zhuǎn)、縮放、水平翻轉(zhuǎn)、水平和豎直偏移的數(shù)據(jù)增強(qiáng),擴(kuò)充后訓(xùn)練集40 720張,提升深度學(xué)習(xí)網(wǎng)絡(luò)的泛化能力,增強(qiáng)網(wǎng)絡(luò)的魯棒性。
實(shí)驗(yàn)網(wǎng)絡(luò)訓(xùn)練使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)方法,在ImageNet預(yù)訓(xùn)練權(quán)重上進(jìn)行微調(diào),批次大小為4,初始學(xué)習(xí)率(Learning rate,Lr)為0.001,第40、100個(gè)epoch時(shí),Lr下降為原來的0.1,共迭代120次,評(píng)價(jià)指標(biāo)為準(zhǔn)確率。
2.2.1 下采樣層對(duì)實(shí)驗(yàn)的影響
為了驗(yàn)證改進(jìn)后下采樣層對(duì)模型表征能力的提升作用,將下采樣層改進(jìn)前的模型和改進(jìn)后本文提出的模型IC-ResNet在Stanford Cars-196數(shù)據(jù)集上進(jìn)行訓(xùn)練測(cè)試,表1所示為同樣的實(shí)驗(yàn)環(huán)境下,未優(yōu)化下采樣層的模型測(cè)試準(zhǔn)確率為94.2%,優(yōu)化后的模型準(zhǔn)確率提升了0.5個(gè)百分點(diǎn),表明改進(jìn)下采樣層后的本文模型對(duì)實(shí)驗(yàn)結(jié)果的優(yōu)勢(shì)。并以Conv3_1下采樣層為例,圖5所示為同一車輛圖片經(jīng)過改進(jìn)與未改進(jìn)Conv3_1下采樣層提取的特征圖,其中圖5(a)為原始輸入車型圖片,經(jīng)預(yù)處理剪裁為224×224,圖片輸入訓(xùn)練后的網(wǎng)絡(luò)模型,經(jīng)過改進(jìn)的Conv3_1下采樣層后得到特征圖5(b),圖5(c)為圖片通過未改進(jìn)的Conv3_1輸出的特征圖,比較圖5(b)和圖5(c),圖5(b)保留了更多的像素信息,車輛輪廓更明顯,表明改進(jìn)下采樣層后的網(wǎng)絡(luò)模型具有更好的特征表達(dá)能力。
表1 下采樣層改進(jìn)前后準(zhǔn)確率對(duì)比
圖5 不同下采樣層特征圖
2.2.2 獨(dú)立組件對(duì)實(shí)驗(yàn)的影響
為了測(cè)試提出的IC層對(duì)實(shí)驗(yàn)的影響,設(shè)置對(duì)比實(shí)驗(yàn),分別對(duì)提出的網(wǎng)絡(luò)模型和不含IC層的模型進(jìn)行性能測(cè)試,訓(xùn)練參數(shù)的設(shè)置均保持一致,初始Lr為0.001,迭代次數(shù)為150,第40、100個(gè)epoch時(shí),Lr下降為原來的0.1。
文中提出包含IC層的網(wǎng)絡(luò)模型在訓(xùn)練時(shí)準(zhǔn)確率變化情況如圖6(a)所示,損失變化趨勢(shì)為圖6(b),圖6訓(xùn)練過程曲線光滑穩(wěn)定,準(zhǔn)確率和損失分別平滑上升和下降,50次迭代時(shí)已基本穩(wěn)定,經(jīng)過小幅度上升,第100次迭代后不再有明顯變化。圖7為未含IC層的網(wǎng)絡(luò)模型訓(xùn)練時(shí)準(zhǔn)確率和損失變化情況,圖7(a)為準(zhǔn)確率變化情況,曲線有兩次較大的波動(dòng),與圖6(a)相比準(zhǔn)確率提升較慢,150次迭代后準(zhǔn)確率才趨于平緩,圖7(b)為損失變化圖,在第25和40次迭代時(shí)波動(dòng)較大,損失擬合速度慢。通過圖6與圖7比較,在相同的訓(xùn)練環(huán)境和訓(xùn)練參數(shù)設(shè)置下,IC層降低相鄰神經(jīng)元之間的信息相關(guān)性,使網(wǎng)絡(luò)卷積層的輸入更加獨(dú)立,模型的特征提取能力增強(qiáng),讓模型的訓(xùn)練過程更穩(wěn)定,提升收斂速度。
圖6 含IC層模型準(zhǔn)確率和損失訓(xùn)練變化
圖7 無IC層模型準(zhǔn)確率和損失訓(xùn)練變化
2.2.3 與原網(wǎng)絡(luò)在子車系上的識(shí)別比較
從Stanford Cars-196測(cè)試數(shù)據(jù)集中選取4種粗粒度車型Sedan、Coupe、SUV和Convertible下的12類子車型共503張圖片,在原始ResNet152模型和優(yōu)化后的IC-ResNet方法上作選取類別準(zhǔn)確率的比較,如表2所示,屬于同一車型不同子車系的車型,外觀細(xì)微差別很難分辨,相比原始ResNet152網(wǎng)絡(luò),提出的IC-ResNet在子車系上的準(zhǔn)確率普遍較高,平均準(zhǔn)確率提升了大約4.9個(gè)百分點(diǎn),表明該方法在區(qū)分度較低的細(xì)粒度車型子車系識(shí)別上具有較好的分類效果。
表2 本文模型與ResNet152在Cars-196選取類別上的比較 %
2.2.4 與其他識(shí)別方法對(duì)比
IC-ResNet和在本實(shí)驗(yàn)數(shù)據(jù)集上的其他方法進(jìn)行準(zhǔn)確率和分類速率[18]的比較,分類效率指模型進(jìn)行數(shù)據(jù)集測(cè)試時(shí),對(duì)每張圖片進(jìn)行分類處理的平均時(shí)間開銷。
如表3所示,文獻(xiàn)[19]通過將車輛中具有分辨力的部件特征提取出來,融合后再經(jīng)過識(shí)別網(wǎng)絡(luò)進(jìn)行分類,識(shí)別結(jié)果為85.9%,但訓(xùn)練前需要人工標(biāo)注語義部件,操作復(fù)雜,OPAM[20]根據(jù)細(xì)粒度對(duì)象具有類似的總體外觀,使用最近鄰的方法找出具有區(qū)分性的三元組進(jìn)行分類,實(shí)現(xiàn)了92.2%的準(zhǔn)確率,Inception_resnet_v2網(wǎng)絡(luò)的準(zhǔn)確率和分類速率都較低分別為91.3%和54.4 ms/張,Valev等人[21]在DenseNet161上進(jìn)行訓(xùn)練測(cè)試,取得了94.6%的識(shí)別準(zhǔn)確率。ResNet152網(wǎng)絡(luò)的分類速率較高,但識(shí)別準(zhǔn)確率較低為92.6%,本文主要從增強(qiáng)網(wǎng)絡(luò)模型的表征能力入手,優(yōu)化ResNet152,提出新的獨(dú)立組件融入網(wǎng)絡(luò),減少像素信息損失,維護(hù)類內(nèi)聚性,增大類間距離,將準(zhǔn)確率提升到94.7%,相較于原ResNet152網(wǎng)絡(luò)精度提高了2.1個(gè)百分點(diǎn),分類速率對(duì)比DenseNet161提升了1.3倍。
表3 與其他方法在Cars-196上的對(duì)比
為了解決細(xì)粒度車型中子車系識(shí)別率較低的問題,提高細(xì)粒度車型識(shí)別準(zhǔn)確率,提出融合獨(dú)立組件的ResNet模型,通過優(yōu)化下采樣層,增加像素信息提取,將Softmax損失函數(shù)和中心損失函數(shù)加權(quán)融合,使網(wǎng)絡(luò)在訓(xùn)練時(shí)學(xué)習(xí)到具有類內(nèi)聚性的特征。在殘差中引入新的獨(dú)立組件構(gòu)建相對(duì)獨(dú)立的神經(jīng)元結(jié)構(gòu),提高網(wǎng)絡(luò)的表征能力,該模型在Stanford Cars-196獲得了目前最優(yōu)的識(shí)別效果。但文中方法在識(shí)別一些相近車型間準(zhǔn)確率仍遠(yuǎn)低于總體準(zhǔn)確率,特別是同一車系,存在著一些優(yōu)化空間,提出的獨(dú)立組件引入了額外需要學(xué)習(xí)的參數(shù),導(dǎo)致模型復(fù)雜度增加,存在過擬合現(xiàn)象。因此下一步工作是進(jìn)一步提升模型的表征能力,提高模型在極相似車型中的識(shí)別準(zhǔn)確率,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)減少參數(shù),減少過擬合。