王靜,黃振杰,王濤
(廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣州510006)
智能交通卡口是城市的出入動(dòng)脈的控制手段,加強(qiáng)對(duì)卡口的管理可以有效協(xié)助公安機(jī)關(guān)偵破案件,加強(qiáng)平安城市的建設(shè),而車輛的檢測(cè)與識(shí)別是智能交通系統(tǒng)的核心任務(wù)。因此,精準(zhǔn)快速地識(shí)別細(xì)粒度車型在智能交通和公共安全發(fā)揮著越來(lái)越重要的作用。
經(jīng)過(guò)科技的發(fā)展,有大量的基于計(jì)算機(jī)視覺(jué)的算法應(yīng)用于車型識(shí)別。傳統(tǒng)車型算法主要由以下兩個(gè)步驟:①采用人工設(shè)計(jì)的特征提取方法(如SIFT、LBP、HOG 等)將輸入的車輛圖片轉(zhuǎn)換為一組特征向量;②再基于該特征向量和機(jī)器學(xué)習(xí)中的分類算法(如SVM、AdaBoost、隨機(jī)森林等)來(lái)訓(xùn)練模型。Ng 等人[1]對(duì)提取到的車輛SIFT 特征進(jìn)行聚類,構(gòu)造了一個(gè)二級(jí)分類器先挑選一級(jí)品牌,再利用二級(jí)分類器對(duì)車輛類型進(jìn)行識(shí)別。文獻(xiàn)[2-3]采用Hu 的七種不變矩作為車輛特征進(jìn)行車型識(shí)別。Zhang 等人[4]使用Gabor 小波變換和HOG 金字塔來(lái)描述車輛特征并且構(gòu)造了一個(gè)級(jí)聯(lián)分類器。傳統(tǒng)方法基于人工設(shè)計(jì)的特征提取方法比較單一,通用性較差。近年來(lái),計(jì)算機(jī)視覺(jué)技術(shù)再深度學(xué)習(xí)理論[5-7]的促進(jìn)下取得巨大進(jìn)步。Deng 等人[8]針對(duì)高速公路場(chǎng)景下,引入CNN 理論可以識(shí)別出小車、客車和貨車三種粗粒度車型。Wang 等人[9]基于深度神經(jīng)網(wǎng)絡(luò)對(duì)在各個(gè)角度下拍攝的具有復(fù)雜背景的汽車圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練,可以識(shí)別出SUV、卡車、面包車以及小轎車四類。如文獻(xiàn)[9]建立了一個(gè)大規(guī)模的車輛數(shù)據(jù)庫(kù)CompCars,并在此數(shù)據(jù)集上使用AlexNet、GoogleNet 等卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。也有一系列文獻(xiàn)[10-12]提出基于圖像的三維信息重構(gòu)法來(lái)提高識(shí)別性能,但這些方法加大了整體模型的復(fù)雜度,計(jì)算耗時(shí)也更大。
雖然已經(jīng)有很多學(xué)者對(duì)車型識(shí)別做了深入研究,但是目前很多研究和方案仍然不夠健全。一是對(duì)于車型識(shí)別的屬性不夠精細(xì),沒(méi)有包含更豐富更細(xì)粒度的信息,僅是粗粒度層次的車型識(shí)別越來(lái)越無(wú)法滿足實(shí)際應(yīng)用需求;二是車型識(shí)別作為細(xì)粒度圖像分類問(wèn)題的子問(wèn)題,具有分類精細(xì),種類過(guò)多的特點(diǎn)。不同車型類別之間外觀辨別難度大。依靠人工標(biāo)記的精細(xì)化標(biāo)簽來(lái)實(shí)現(xiàn)細(xì)粒度的目標(biāo)識(shí)別代價(jià)十分昂貴,造成細(xì)粒度車型識(shí)別的訓(xùn)練數(shù)據(jù)集往往偏小。本文在智能卡口小樣本數(shù)據(jù)下,提出一種基于多任務(wù)學(xué)習(xí)的雙通道表示細(xì)粒度車型識(shí)別算法,主要從數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)策略以及設(shè)計(jì)模型的角度解決智能卡口數(shù)據(jù)樣本少,車型特征差別小導(dǎo)致過(guò)擬合的問(wèn)題。實(shí)驗(yàn)證明,在數(shù)據(jù)擴(kuò)充策略和模型結(jié)構(gòu)一致的情況下,通過(guò)遷移學(xué)習(xí)利用已有的模型在小樣本數(shù)據(jù)集中微調(diào)以及設(shè)計(jì)雙通道模型學(xué)習(xí)樣本標(biāo)簽信息和樣本標(biāo)簽之間的局部信息,提高車型識(shí)別的識(shí)別精度。對(duì)比已有的文獻(xiàn)算法,能取得較好的效果。
深度學(xué)習(xí)模型的飛速發(fā)展離不開海量的數(shù)據(jù)體系,數(shù)據(jù)增強(qiáng)為研究人員提供一種增加數(shù)據(jù)多樣性的可能。針對(duì)卡口車型樣本不足的特點(diǎn),本文在現(xiàn)有數(shù)據(jù)樣本的基礎(chǔ)上,通過(guò)對(duì)訓(xùn)練圖片進(jìn)行預(yù)處理減少過(guò)擬合發(fā)生的概率。具體為使用平移變換、縮放變換、亮度變換、水平翻轉(zhuǎn)變換、加入高斯和椒鹽噪聲生成可信數(shù)據(jù)樣本,增加訓(xùn)練樣本的多樣性,提高模型魯棒性。
針對(duì)小型圖片數(shù)據(jù)集,很少有人會(huì)從零開始去訓(xùn)練出一個(gè)神經(jīng)網(wǎng)絡(luò)模型。有一種普遍的做法是利用遷移學(xué)習(xí)方法去微調(diào)預(yù)訓(xùn)練模型,該方法主要解決規(guī)模不大,樣本數(shù)量有限的特定領(lǐng)域數(shù)據(jù)。本文首先使用通過(guò)配置不同的通道數(shù)和模塊里的殘差塊數(shù)可以得到不同的ResNet 模型;然后通過(guò)遷移學(xué)習(xí)的方法,在公開的自然攝像機(jī)環(huán)境下收集的車型識(shí)別數(shù)據(jù)集上CompCars 對(duì)深度網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)圖像的底層通用視覺(jué)特征;最后利用目標(biāo)數(shù)據(jù)集對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),使小規(guī)模圖像數(shù)據(jù)集使用深度學(xué)習(xí)的方法成為可能,以達(dá)到準(zhǔn)確率和運(yùn)行速率上的優(yōu)化。
從車輛紋理信息復(fù)雜度來(lái)說(shuō),車型系列、車型年款屬于細(xì)粒度屬性,而車輛顏色、車輛類型則屬于粗粒度屬性。通常情況下,粗粒度特征提取相對(duì)容易,而細(xì)粒度特征提取是尋找一些細(xì)微差別的局部區(qū)域,并利用這些局部區(qū)域的特性進(jìn)行分類。但是,細(xì)粒度屬性每個(gè)類別包含的訓(xùn)練樣本有限,并且難以用底層特征來(lái)表示。本文基于多任務(wù)學(xué)習(xí)的思想,從數(shù)量極少的訓(xùn)練樣本中學(xué)習(xí)樣本分類信息和樣本標(biāo)簽之間的局部信息,提出一個(gè)雙通道的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
如圖1 所示,雙通道模型具有兩個(gè)獨(dú)立的分支,每個(gè)分支具有相同的網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重。訓(xùn)練與測(cè)試時(shí)每個(gè)分支針對(duì)輸入隨機(jī)的一對(duì)樣本進(jìn)行處理并且輸出兩個(gè)分類結(jié)果。雙通道模型則是直接將圖像塊相似度計(jì)算問(wèn)題轉(zhuǎn)換成二分類問(wèn)題。通過(guò)標(biāo)簽信息的分類學(xué)習(xí)和標(biāo)簽局部分布信息的度量學(xué)習(xí)來(lái)同時(shí)訓(xùn)練一個(gè)雙通道的神經(jīng)網(wǎng)絡(luò),這兩個(gè)任務(wù)之間相互促進(jìn),利用標(biāo)簽局部分布信息的度量學(xué)習(xí)構(gòu)建帶約束的目標(biāo)函數(shù),能夠很好防止過(guò)擬合,使網(wǎng)絡(luò)更具泛化性。
圖1 基于分類學(xué)習(xí)和度量學(xué)習(xí)的雙通道模型框架圖
基于分類學(xué)習(xí)和度量學(xué)習(xí)的雙通道模型由兩種損失函數(shù)組成,因此,總目標(biāo)函數(shù)是兩種損失函數(shù)的加權(quán)和。
雙通道模型的兩個(gè)分支都使用分類損失函數(shù)Softmax,用來(lái)學(xué)習(xí)車型數(shù)據(jù)樣本和真實(shí)標(biāo)簽信息之間的誤差。車型數(shù)據(jù)集包含M 個(gè)不同類別的N 個(gè)不同樣本,分類損失函數(shù)Softmax 表達(dá)式如公式(1)所示:
其中,xi是樣本xi在各分支上的分結(jié)果的輸出。表示預(yù)測(cè)的概率。W 是模型權(quán)重參數(shù),Wt是第t 類的輸出權(quán)重,即t=1,…,M。yi是樣本xi的真實(shí)值。
雙通道模型具有兩個(gè)權(quán)重共享的獨(dú)立的分支,能夠輸入隨機(jī)的一對(duì)樣本同時(shí)輸出兩個(gè)分類結(jié)果。對(duì)于車型識(shí)別的分類問(wèn)題,雙通道模型則是直接將輸出標(biāo)簽之前的相似度計(jì)算問(wèn)題轉(zhuǎn)換成二分類問(wèn)題,用于判斷兩個(gè)樣本相似或者不相似。把雙通道模型全連接層的前一層的輸出向量作為對(duì)應(yīng)輸入樣本的特征向量,用歐氏距離定義兩個(gè)特征向量之間的距離,公式如(2)所示:
其中,Si(xi|θ)代表輸入樣本xi的時(shí)候,參數(shù)為θ 模型的輸出特征向量,Sj(xj|θ)代表輸入樣本xj的時(shí)候,參數(shù)為θ 模型的輸出特征向量。把距離結(jié)果S2作為一個(gè)判斷相似性的更高級(jí)特征向量,后面接一個(gè)只有兩類的全連接層來(lái)表示輸入的樣本xi和樣本xj是否屬于同一類,度量損失函數(shù)表達(dá)式如(3)所示:
其中,S 是樣本對(duì)xi和xj在模型中的輸出特征向量之間的距離向量S2表示預(yù)測(cè)的概率,Wt是第t類的輸出權(quán)重,即t=1,2。Yij是樣本對(duì)的真實(shí)值為相似或不相似。
將分類損失函數(shù)和度量損失函數(shù)加權(quán)和,雙通道車型識(shí)別模型的總目標(biāo)函數(shù)如公式(4)所示:
其中,α>0 是權(quán)重超參數(shù),根據(jù)樣本對(duì)的輸入策略來(lái)調(diào)節(jié)。由于雙通道模型的兩個(gè)輸出是共享權(quán)重的,所以讓兩個(gè)分類損失函數(shù)Softmax 的權(quán)重比例為1:1。
(1)CompCars 數(shù)據(jù)集
CompCars 數(shù)據(jù)集是用于細(xì)粒度分類的大規(guī)模車輛數(shù)據(jù)集,它包括互聯(lián)網(wǎng)場(chǎng)景性質(zhì)和監(jiān)控場(chǎng)景性質(zhì)下的車輛圖片。監(jiān)控場(chǎng)景下的車輛圖像與卡口車型識(shí)別數(shù)據(jù)非常相似,因此我們只選用監(jiān)控場(chǎng)景下的車輛圖片。該場(chǎng)景下的數(shù)據(jù)集一共有44481 張圖片,分辨率約是800×800,按車型系列分類,一共有281 類,例如:數(shù)據(jù)庫(kù)里的一汽轎車如圖2 所示。
圖2 CompCars數(shù)據(jù)集中部分一汽轎車樣本
(2)卡口場(chǎng)景下自建的車型識(shí)別數(shù)據(jù)集
針對(duì)智能卡口場(chǎng)景,選取了卡口常見的50 類車型系列來(lái)驗(yàn)證算法的有效性,包括大眾-寶來(lái)、大眾-高爾夫、奧迪-A3、日產(chǎn)-軒逸、日產(chǎn)-天籟等車型系列,記為CarSeries。如圖3 所示,每個(gè)車型系列大約有200 個(gè)樣本,樣本的分辨率約為600×600,樣本主要是在白天不同光照條件下和黑夜環(huán)境下采集的。
圖3 CarSeries中部分車型系列樣本
實(shí)驗(yàn)一:為了確定一個(gè)適合公開車型識(shí)別數(shù)據(jù)集CompCars 的模型容量,分別對(duì)ResNet10、ResNet14、ResNet18、ResNet34 和ResNet50 模型進(jìn)行訓(xùn)練,從模型復(fù)雜程度、預(yù)測(cè)推斷時(shí)間和準(zhǔn)確率三個(gè)方面來(lái)選擇合適層數(shù)的ResNet 模型作為實(shí)驗(yàn)的骨架網(wǎng)絡(luò)。
表1 ResNet10、ResNet14、ResNet18、ResNet34 和ResNet50的結(jié)構(gòu)細(xì)節(jié)
在ResNet18、ResNet34、ResNet50 的基礎(chǔ)上設(shè)計(jì)了ResNet10 和ResNet14,ResNet10 是在ResNet18 的基礎(chǔ)上把卷積層的層數(shù)縮減了一半,ResNet14 是在ResNet50 的基礎(chǔ)上把每層的block 的重復(fù)次數(shù)都改為1。 ResNet10、ResNet14、ResNet18、ResNet34 和ResNet50 的結(jié)構(gòu)細(xì)節(jié)如表1 所示。ResNet10、ResNet18、ResNet34 采 用 的 是 Basicblock 結(jié) 構(gòu)。ResNet14 和ResNet50 采用的是Bottleneck 結(jié)構(gòu),主要區(qū)別是引入1×1 卷積,作用是:①對(duì)通道數(shù)進(jìn)行升維和降維(跨通道信息整合),實(shí)現(xiàn)了多個(gè)特征圖的線性組合,同時(shí)保持了原有的特征圖大?。虎谙啾扔谄渌叽绲木矸e核,可以極大地降低運(yùn)算復(fù)雜度。
實(shí)驗(yàn)基本設(shè)置如下:數(shù)據(jù)集與驗(yàn)證集的劃分比例是4:1;圖片全部resize 到150×150,然后像素值縮放到0 到1 也就是除以255;權(quán)重隨機(jī)初始化;batch 大小設(shè)置為32;使用Adam 優(yōu)化器;epochs 設(shè)置為30,保存模型和繪制準(zhǔn)確率和損失曲線圖。
實(shí)驗(yàn)二:為了驗(yàn)證所提出的基于分類學(xué)習(xí)和度量學(xué)習(xí)的多任務(wù)學(xué)習(xí)算法的有效性,將設(shè)置如下的實(shí)驗(yàn)組作為比對(duì):①標(biāo)準(zhǔn)的單通道分類網(wǎng)絡(luò),使用分類損失函數(shù)Softmax,權(quán)重隨機(jī)初始化,記為OneNet_Random。②標(biāo)準(zhǔn)的單通道分類網(wǎng)絡(luò),使用分類損失函數(shù)Softmax,加載在數(shù)據(jù)集CompCars 訓(xùn)練好的模型權(quán)重,記為OneNet_PreTrain;③雙通道分類網(wǎng)絡(luò),結(jié)合分類損失函數(shù)和度量損失函數(shù),加載在數(shù)據(jù)集CompCars 訓(xùn)練好的模型權(quán)重,記為DoubleNet。
實(shí)驗(yàn)基本設(shè)置如下:數(shù)據(jù)集與驗(yàn)證集的劃分比例是4:1;圖片全部resize 到150×150,然后像素值縮放到0 到1 間,也就是除以255;batch 大小設(shè)置為64;模型收斂的判斷標(biāo)準(zhǔn)是:當(dāng)2 個(gè)epochs 內(nèi)驗(yàn)證損失函數(shù)不再下降,學(xué)習(xí)率降低為原來(lái)的1/10,當(dāng)3 個(gè)epochs 內(nèi),驗(yàn)證損失函數(shù)不再下降,提前終止訓(xùn)練,保存模型和繪制準(zhǔn)確率和損失曲線圖。
訓(xùn)練過(guò)程:首先,選擇實(shí)驗(yàn)一的ResNet 作為骨架網(wǎng)絡(luò),使用實(shí)驗(yàn)一中的設(shè)置在數(shù)據(jù)集CompCars 訓(xùn)練,直到收斂,保存模型作為下面實(shí)驗(yàn)的預(yù)訓(xùn)練模型。
(1)OneNet_Random 單通道模型:
權(quán)重隨機(jī)初始化,使用Adam 優(yōu)化器,在數(shù)據(jù)集CarSeries 上訓(xùn)練,直到收斂。
(2)OneNet_PreTrain 單通道模型:
①加載ResNet 預(yù)訓(xùn)練模型,然后修改全連接層fc的輸出類別,這時(shí)fc 層是隨機(jī)初始化的,所以,凍結(jié)除全連接層fc 外的所有層,使用Adam 優(yōu)化器,在卡口車型數(shù)據(jù)集CarSeries 上訓(xùn)練,收斂則停止訓(xùn)練。
②解凍ResNet 模型的最后兩個(gè)block,進(jìn)行微調(diào),使用SGD 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,動(dòng)量設(shè)置為0.9,繼續(xù)訓(xùn)練,直到收斂。
(3)DoubleNet 雙通道模型:
①加載ResNet 預(yù)訓(xùn)練模型,把一個(gè)全連接層改為兩個(gè)全連接層fc1、fc2 輸出,這時(shí)fc1、fc2 層是隨機(jī)初始化的。凍結(jié)所有層,損失函數(shù)權(quán)重設(shè)置為1:1:0.5,也就是使用分類損失函數(shù)和度量損失函數(shù)的加權(quán)和,訓(xùn)練多分類和二分類模型,使用Adam 優(yōu)化器,在卡口車型數(shù)據(jù)集CarSeries 上訓(xùn)練,收斂則停止訓(xùn)練。
②解凍ResNet 模型的最后兩個(gè)block,進(jìn)行微調(diào),使用SGD 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,動(dòng)量設(shè)置為0.9,損失函數(shù)權(quán)重設(shè)置為1:1:0.5,繼續(xù)訓(xùn)練,直到收斂。
實(shí)驗(yàn)三:為了驗(yàn)證所提出算法的有效性,與已有文獻(xiàn)算法進(jìn)行比較。文獻(xiàn)[13]改進(jìn)模型結(jié)構(gòu),結(jié)合Inception 模塊和ResNet 結(jié)構(gòu)作為基本模塊,使用全局平均代替全連接層,同時(shí)引入中心損失函數(shù)來(lái)進(jìn)行車型識(shí)別,記為BRSC。文獻(xiàn)[10]基于多任務(wù)學(xué)習(xí)進(jìn)行多屬性識(shí)別,通改進(jìn)AlexNet 模型,修改全連接層,實(shí)現(xiàn)車輛多屬性(車型系列、車輛類型和車輛顏色)識(shí)別,記為Multi-BestNet。
實(shí)驗(yàn)基本設(shè)置與實(shí)驗(yàn)二一致,訓(xùn)練過(guò)程如下所示。
(1)BRSC 的訓(xùn)練過(guò)程:
①首先,在數(shù)據(jù)集CompCars 訓(xùn)練直到收斂。
②然后修改全連接層fc 的輸出類別,凍結(jié)除全連接層fc 外的所有層,使用Adam 優(yōu)化器,在卡口車型數(shù)據(jù)集CarSeries 上訓(xùn)練,收斂則停止訓(xùn)練。
③解凍模型的最后兩個(gè)Inception block,進(jìn)行微調(diào),使用SGD 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,動(dòng)量設(shè)置為0.9,繼續(xù)訓(xùn)練,直到收斂。
(2)Multi-BestNet 的訓(xùn)練過(guò)程:
①首先,在數(shù)據(jù)集CompCars 訓(xùn)練直到收斂。
②然后把一個(gè)全連接層改為三個(gè)全連接層fc1、fc2、fc3 輸出,這時(shí)fc1、fc2、fc3 層是隨機(jī)初始化的,因此,除fc1、fc2、fc3 外,凍結(jié)所有層,損失函數(shù)權(quán)重設(shè)置為1:1 訓(xùn)練,收斂則停止訓(xùn)練。
③解凍模型最后3 個(gè)卷積層,進(jìn)行微調(diào),使用SGD優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,動(dòng)量設(shè)置為0.9,損失函數(shù)權(quán)重設(shè)置為1:1:1,繼續(xù)訓(xùn)練直到收斂。
(1)評(píng)價(jià)指標(biāo):使用準(zhǔn)確率來(lái)評(píng)估模型的性能,定義為:對(duì)于給定的測(cè)試數(shù)據(jù)集,分類正確的樣本個(gè)數(shù)占總樣本個(gè)數(shù)的比例。公式如(5)所示:
其中,ncorrect為被正確分類的樣本個(gè)數(shù),ntotal為測(cè)試數(shù)據(jù)集中的總樣本個(gè)數(shù)。
(2)實(shí) 驗(yàn) 一:ResNet10、ResNet14、ResNet18、ResNet34 和ResNet50 在數(shù)據(jù)集CompCars 上的準(zhǔn)確率曲線圖和識(shí)別性能分別如圖4 和表1 所示。
表2 不同層數(shù)的ResNet 模型在CompCars 上的識(shí)別和性能結(jié)果
分析表2 和圖4 可知,得益于殘差模塊的特點(diǎn),不同層數(shù)ResNet 模型都有較高的識(shí)別準(zhǔn)確率,但是ResNet14、ResNet34 和ResNet50 在小數(shù)據(jù)集上準(zhǔn)確率有小幅度的下降,說(shuō)明模型的可學(xué)習(xí)參數(shù)過(guò)多,學(xué)習(xí)到額外的噪聲,模型的泛化能力下降。ResNet10 和ResNet18 的模型擬合能力都很好,在保持準(zhǔn)確率的前提下,為了節(jié)省存儲(chǔ)空間和加快預(yù)測(cè)推斷速度,選擇ResNet10 作為實(shí)驗(yàn)二的骨干網(wǎng)絡(luò)。
(3)實(shí)驗(yàn)二:OneNet_Random、OneNet_PreTrain 和DoubleNet 的識(shí)別精度和準(zhǔn)確率曲線圖分別如圖5 和表2 所示。
表3 不同網(wǎng)絡(luò)設(shè)計(jì)在CarSeries 上的識(shí)別精度
分 析 表 3 可 知,對(duì) 比 OneNet_Random 和OneNet_PreTrain 可知,使用相似數(shù)據(jù)集上預(yù)訓(xùn)練的模型,通過(guò)微調(diào),可將其中可用的知識(shí)遷移出來(lái),從而在卡口車型數(shù)據(jù)集較小的時(shí)候,能大幅度提高車型識(shí)別的準(zhǔn)確率,提升了近8%。對(duì)比OneNet_PreTrain 和DoubleNet 的可知,顯然度量損失函數(shù)可以幫助提高Softmax 分類的效果,特別是在樣本數(shù)據(jù)比較少的時(shí)候,提升了近2%。分析圖5 的圖可知,由于OneNet_Random 的權(quán)重是隨機(jī)初始化的,訓(xùn)練準(zhǔn)確率隨著時(shí)間線性增加,而驗(yàn)證準(zhǔn)確率在第15 個(gè)epoch 時(shí)就開始達(dá)到最大值,開始上下波動(dòng),這也就意味數(shù)量小非常容易產(chǎn)生過(guò)擬合現(xiàn)象。對(duì)比OneNet_PreTrain 和DoubleNet 的準(zhǔn)確率曲線可知,DoubleNet 的曲線波動(dòng)比較平緩,而且準(zhǔn)確率提升更高,說(shuō)明度量損失函數(shù)可以幫助模型學(xué)習(xí)到更加泛化的特征。
圖5 不同網(wǎng)絡(luò)設(shè)計(jì)在CarSeries上的準(zhǔn)確率曲線圖
(4)實(shí)驗(yàn)三:BRSC、Multi-BestNet 和DoubleNet 的識(shí)別精度如表4 所示。
表4 BRSC、Multi-BestNet 和DoubleNet 在CarSeries 上的識(shí)別精度
對(duì)比BRSC 和DoubleNet 可知,Inception 模塊和ResNet 模塊都是非常優(yōu)良的子模塊,車型識(shí)別的準(zhǔn)確率都非常高,但BRSC 的網(wǎng)絡(luò)層數(shù)較深,網(wǎng)絡(luò)推斷速度較慢。對(duì)比Multi-BestNet 和DoubleNet 可知,基于多任務(wù)學(xué)習(xí)進(jìn)行多屬性識(shí)別的算法能有效提高車型識(shí)別的準(zhǔn)確率,但是Multi-BestNet 需要額外的標(biāo)注信息,在現(xiàn)實(shí)應(yīng)用中,往往很難平衡不同子任務(wù)之間的樣本數(shù)量,導(dǎo)致出現(xiàn)樣本不均衡的情況,另外,骨干網(wǎng)絡(luò)使用的是AlexNet,過(guò)多的全連接層導(dǎo)致模型較大,推斷速度較慢,而且訓(xùn)練時(shí)比較難收斂到最優(yōu)。從表4 中可以看出,DoubleNet 的車型識(shí)別準(zhǔn)確率最高,并且在模型推斷速度上優(yōu)于BRSC 和Multi-BestNet。
本文提出在小數(shù)據(jù)集下設(shè)計(jì)車型識(shí)別算法的思路和具體的方法。從數(shù)據(jù)擴(kuò)充、遷移學(xué)習(xí)策略緩和了數(shù)據(jù)量少的問(wèn)題,同時(shí),基于多任務(wù)學(xué)習(xí)的思想,結(jié)合分類學(xué)習(xí)和度量學(xué)習(xí)充分挖掘標(biāo)簽和標(biāo)簽之間的監(jiān)督信息,進(jìn)一步約束參數(shù)的學(xué)習(xí)。實(shí)驗(yàn)證明,在數(shù)據(jù)擴(kuò)充策略和模型結(jié)構(gòu)一致的情況下,對(duì)比有的文獻(xiàn)算法,提高車型識(shí)別的識(shí)別精度,能取得較好的效果。