• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Transformer的車輛年款細粒度識別研究

    2023-06-21 20:10:42徐天適文莉張華俊
    現(xiàn)代信息科技 2023年1期
    關(guān)鍵詞:視頻監(jiān)控

    徐天適 文莉 張華俊

    摘? 要:視頻監(jiān)控場景下車輛年款信息抽取對城市數(shù)智化治理有著重要意義。為實現(xiàn)細粒度車輛年款的精準(zhǔn)識別,首先,構(gòu)建了覆蓋多元采集條件及常見車輛年款的百萬級場景數(shù)據(jù)集;其次,提出了基于Transformer的車輛年款細粒度特征高效提取器;最后,結(jié)合任務(wù)特點設(shè)計了層次標(biāo)簽多任務(wù)聯(lián)合學(xué)習(xí)方法,獲得兼容全局與局部的高魯棒性特征。實驗結(jié)果表明,提出的方法在場景數(shù)據(jù)集上的Top-1準(zhǔn)確率達到95.79%,相較基于CNN的單任務(wù)方法有大幅提升。

    關(guān)鍵詞:視頻監(jiān)控;車輛年款識別;細粒度分類;vision transformer

    中圖分類號:TP391.4 文獻標(biāo)識碼:A 文章編號:2096-4706(2023)01-0075-05

    Research on Fine-Grained Recognition of Vehicle Model Year Based on Transformer

    XU Tianshi, WEN Li, ZHANG Huajun

    (GRGBanking Equipment Co., Ltd., Guangzhou? 510663, China)

    Abstract: Vehicle model year information extraction in video surveillance scenes is of great significance for urban digital intelligent governance. In order to achieve accurate identification of fine-grained vehicle model year, firstly, a mega scene dataset covering multiple collection conditions and common vehicle model year is constructed; secondly, an efficient fine-grained feature extractor of vehicle model year based on Transformer is proposed; finally, a hierarchical label multi task joint learning method is designed based on task characteristics to obtain high robustness features compatible with global and local features. The experimental results show that the Top-1 accuracy of the proposed method on the scene dataset reaches 95.79%, which is significantly improved compared with the single task method based on CNNs.

    Keywords: video surveillance; vehicle model year recognition; fine-grained classification; vision transformer

    0? 引? 言

    車輛年款細粒度識別解析出了品牌、車系、年款等車輛關(guān)鍵信息,是城市數(shù)智化治理中交通調(diào)度、違法追溯、治安管理、智慧停車等重要業(yè)務(wù)的智能決策基礎(chǔ)。城市中常見車輛有3 000款以上,并以每年近50款的速度不斷新增。然而,同一車系的相近年款僅在車燈、霧燈、前臉格柵等部件細節(jié)存在差異,區(qū)分度低;同一年款的不同車輛受成像設(shè)備、角度、光照、遮擋以及車身顏色、改裝等因素影響,差異明顯,均對車輛年款的大規(guī)模細粒度分類技術(shù)提出了更高要求。

    傳統(tǒng)車輛年款識別算法基于手工設(shè)計特征(SIFT、LBP、HOG等),將單個或者多個特征編碼后得到特征向量,輸入分類器(SVM、Adaboost、隨機森林等)得到分類結(jié)果[1],這類方法的特征描述能力有限,性能依賴于手工設(shè)計特征的可靠性及參數(shù)選擇的合理性[2],泛化能力差[3],只能處理粗粒度小規(guī)模的車輛年款分類問題。

    2012年以來,基于深度神經(jīng)網(wǎng)絡(luò)方法的迅速發(fā)展,提出了AlexNet、ResNet[4]、Mobilenet[5]、RepVgg[6]等網(wǎng)絡(luò)新結(jié)構(gòu),推動圖像分類任務(wù)不斷取得突破。ImageNet數(shù)據(jù)集上Top-1的準(zhǔn)確率也從62.5%上升到了82.7%[7]。WANG等[8]以AlexNet、GoogleNet及ResNet三種經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)作為基礎(chǔ)網(wǎng)絡(luò),將CNN方法引入到年款分類任務(wù)中。Yang[9]等在此基礎(chǔ)上結(jié)合車輛區(qū)域定位及局部關(guān)鍵差異的問題,提出基于區(qū)域建議網(wǎng)絡(luò)的細粒度識別方法,并成功應(yīng)用于細粒度年款識別。

    近兩年Vision Transformer取得了巨大進展,DeiT[10]、ViT[11]等方法使得Transformer在CV領(lǐng)域大放異彩。針對ViT的方法在尺度統(tǒng)一和樣本分辨率等方面的難題,LIU[12]等人提出了Swin Transformer的方法,構(gòu)建了層次化Transformer結(jié)構(gòu),作為通用視覺骨干網(wǎng)絡(luò),提升了圖像分類、目標(biāo)檢測和語義分割等任務(wù)的效果。

    細粒度年款識別的另一個關(guān)鍵任務(wù)是場景數(shù)據(jù)集的構(gòu)建。為有效地訓(xùn)練和評估大規(guī)模細粒度條件下的算法的性能,研究人員構(gòu)建了多個包含大量車輛圖像的公開數(shù)據(jù)集,如斯坦福Cars-196[13]、CompCars[14]、BIT-Vehicles[15]、Vehicle1M[16]、VehicleID[17]數(shù)據(jù)集等,但由于采集地點、采集條件、采集時長等條件限制導(dǎo)致數(shù)據(jù)集場景欠缺豐富性,車輛年款類型少,對現(xiàn)實場景擬合不佳。

    針對上述應(yīng)用場景中的現(xiàn)實難題,本文從數(shù)據(jù)集構(gòu)建、細粒度車輛年款識別方法及對比實驗三個方面開展工作。

    首先,構(gòu)建了業(yè)內(nèi)領(lǐng)先的車輛細粒度年款識別場景數(shù)據(jù)集,樣本覆蓋了城市中的主要車輛年款,通過自建視頻監(jiān)控采集系統(tǒng),采集了不同角度、光照、遮擋條件下的車輛樣本。

    其次,提出了一種基于Transformer結(jié)構(gòu)的車輛年款細粒度分類算法,Swin-Based Multi-Task Fine-Grained? Vehicle Types Identification(SwinMTFI)。

    最后,在公開及私有數(shù)據(jù)集上對主干網(wǎng)絡(luò)以及組件進行對比實驗,驗證基于Transformer的細粒度年款分類算法效果。

    實驗結(jié)果表明,本文提出的SwinMTFI方法無論是在Vehicle1M還是GRG_VehicleType數(shù)據(jù)集上表現(xiàn)均取得了明顯提升。其中基于Swin-L骨干網(wǎng)絡(luò),在GRG_VehicleType數(shù)據(jù)集上Top1準(zhǔn)確率達到99.25%,相較于ResNet50的CNN方法取得5.16%的提升。引入多任務(wù)機制后,基于Swin-T骨干網(wǎng)絡(luò)的Top1準(zhǔn)確率提升了0.62%,在進一步提升模型性能的同時,復(fù)用骨干網(wǎng)絡(luò)參數(shù),減少算力占用。SwinMTFI方法無論是在識別精度還是對大角度、低區(qū)分度車輛年款均取得了較好的識別結(jié)果。

    1? 車輛年款細粒度識別算法

    1.1? GRG_VehicleType數(shù)據(jù)集

    當(dāng)前城市中常見的車輛年款有3 000余種,由于采集地點、采集條件、采集時長的限制,導(dǎo)致數(shù)據(jù)集場景欠缺豐富性,車輛年款類別少,對現(xiàn)實場景擬合不佳。如表1所示,開源數(shù)據(jù)集中CompCars[14]中包含1 716種年款,平均每個年款圖片數(shù)不到80張,場景多樣性難以保證。數(shù)據(jù)集Vehicle-1M[16]包含近百萬樣本,但年款數(shù)僅400種,很難覆蓋城市中常見車輛年款。

    針對上述問題,本文構(gòu)建了車輛細粒度分類場景數(shù)據(jù)集GRG_VehicleType,包含前向年款類別3 099種,后向年款類別2 259種,共計880 675張,平均每個朝向的年款包含樣本數(shù)大于180張。如圖1所示,數(shù)據(jù)集中樣本均為從全圖中切割出來的車輛區(qū)域,樣本統(tǒng)一存儲在Image文件夾中。為了更充分記錄車輛年款信息,GRG_VehicleType數(shù)據(jù)集構(gòu)建了以品牌標(biāo)簽、車系標(biāo)簽、年款標(biāo)簽共同組成的字典表,并形成了如圖2所示的三級標(biāo)簽體系,為后續(xù)在多標(biāo)簽多任務(wù)學(xué)習(xí)及車輛重識別領(lǐng)域的拓展預(yù)留空間。

    GRG_VehicleType數(shù)據(jù)集整體制作流程如圖3所示,數(shù)據(jù)集包含三種數(shù)據(jù)源:(1)開源數(shù)據(jù)集;(2)網(wǎng)絡(luò)爬蟲;(3)園區(qū)場景監(jiān)控采集的私有數(shù)據(jù)。為保證數(shù)據(jù)集構(gòu)建過程中對現(xiàn)實場景的魯棒性,首先利用專業(yè)汽車網(wǎng)站建立基準(zhǔn)年款庫,并形成參考圖;其次,將部分開源數(shù)據(jù)集進行抽取組合,并加入私有數(shù)據(jù)形成新數(shù)據(jù)集,以參考圖為基準(zhǔn)人工核驗類別;最后,為了增加樣本均衡性,減少低質(zhì)量樣本對訓(xùn)練過程的影響,剔除樣本量20張以下的樣本類別,對含200張樣本以上的高頻類別進行隨機采樣,使得這些類別最終樣本數(shù)在200張以內(nèi)。

    1.2? 基于Swin Transformer的特征提取器

    Swin Transformer[12]是一種層次化表達的Vision Transformer(ViT)方法,在車輛年款細粒度識別任務(wù)中有著獨特優(yōu)勢。車輛年款種類繁多且不斷新增,細粒度識別難度很高;區(qū)分相似年款主要依靠車輛部件上的細節(jié)特征,反之通過車輛整體外形特征即可。例如,同一車系年份相近的兩款車可能只在霧燈、前格柵鍍鉻、是否有天窗等細節(jié)特征上有一定區(qū)分度,需要特征提取網(wǎng)絡(luò)具有聚合不同位置細粒度特征能力;同年款車輛在樣本采集角度、車身顏色、車窗特征等全局特征上存在較大差異,需要特征提取網(wǎng)絡(luò)在高水平的全局特征提取能力。此外,部分顯著的外觀特征不能用于區(qū)分車輛年款,例如車身顏色、車窗特征等,反而會對識別帶來明顯的干擾。

    如圖4所示的基于Swin Transformer的特征提取器可以很好地克服上述困難:借助多頭注意力機制帶來強大特征表達能力,克服基于卷積方法的局限性約束,匯集來自圖像任意位置的有效信息;使用移動窗口構(gòu)建ViT的輸入序列,在窗口內(nèi)計算多頭自注意力(W-MSA),大幅降低了序列的長度,提升網(wǎng)絡(luò)效率;引入移窗操作(Shifted)實現(xiàn)了移位窗口多頭自注意力(SW-MSA),使得相鄰窗口間可以進行信息交互,形成層次化的特征表達,提升了全局特征表達能力。

    首先將輸入H×W×3的RGB圖像通過拆分模塊(Patch Partition),拆分為非重疊等尺寸的圖像塊,形成輸入序列。線性嵌入層將維度為(H/4×W/4)×48的張量投影到任意維度C,得到維度為(H/4×W/4)×C的線性嵌入。輸入張量到Swin Transformer Blocks,如圖5所示。Swin Transformer模塊由一個兩層的帶有多層感知機(MLP)的非重疊局部窗口多頭自注意力模塊(W-MSA)和移位窗口多頭自注意力模塊(SW-MSA)的組合組成。在每個MSA模塊和每個MLP之前均使用歸一化層(LN),并在每個MSA和MLP之后使用殘差連接。

    這里將線性嵌入層與Swin Transformer模塊的組合稱第一個處理階段(Stage1)。隨著網(wǎng)絡(luò)的加深,圖像塊序列逐漸通過塊合并模塊(Patch Merging)減少。塊合并模塊拼接了相鄰圖像塊,使得序列長度變?yōu)榭s短至1/4,維度則擴大成2C。使用Swin Transformer模塊進行特征轉(zhuǎn)換,其分辨率保持不變。這樣的合并模塊(Patch Merging)和Swin Transformer模塊的組合重復(fù)三次,稱為骨干網(wǎng)絡(luò)的處理階段二(Stage2)到階段四(Stage4)。

    上述基準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)稱為Swin-B(Base),為了應(yīng)對不同場景對精度及速度的要求,根據(jù)不同模型的尺寸及計算復(fù)雜度,衍生出了其他系列結(jié)構(gòu),包括Swin-T(Tiny)、Swin-S(Small)、Swin-L(Large),計算復(fù)雜度與模型尺寸分別是Swin-B的0.25、0.5及2.0倍。

    本節(jié)結(jié)合細粒度車輛年款識別任務(wù)特點,設(shè)計基于Swin Transformer特征提取器,使得網(wǎng)絡(luò)能夠?qū)崿F(xiàn)兼顧全局特征與局部特征抽取,在解決大尺度變化車輛目標(biāo)特征抽取問題的同時,降低了ViT網(wǎng)絡(luò)的計算量,從而實現(xiàn)高精度的細粒度車輛年款識別。

    1.3? 層次標(biāo)簽聯(lián)合學(xué)習(xí)的車輛年款細粒度分類

    細粒度年款識別任務(wù)需結(jié)合車輛的全局特征與局部部件特征以提高細粒度識別的準(zhǔn)確率,引入了車輛的品牌、車系信息結(jié)合車輛年款標(biāo)簽,構(gòu)建3類任務(wù)的多任務(wù)學(xué)習(xí)的網(wǎng)絡(luò),可以有效地將車輛品牌、車系、年款之間的語義級別關(guān)聯(lián),得到從局部到全局的監(jiān)督變量。通過多任務(wù)的聯(lián)合學(xué)習(xí),在保持較高識別效率同時,實現(xiàn)最終聯(lián)合識別準(zhǔn)確率相比各自單任務(wù)學(xué)習(xí)時的提升。

    本文所提出的多任務(wù)細粒度車型識別網(wǎng)絡(luò)利用Swin Transformer作為特征提取器,提取高魯棒性分類特征;提出結(jié)合了車輛品牌、車系、年款細粒度分類的多任務(wù)損失函數(shù):

    Losstask=λ1Lossyear+λ2Lossseries+λ3Lossbrand

    其中,Lossyear為年款損失,Lossseries為車系損失,Lossbrand為品牌損失,均為交叉熵?fù)p失函數(shù),其中λ1=0.6,λ2=0.2,λ3=0.2。通過權(quán)重設(shè)置,將車輛年款分類任務(wù)作為主任務(wù),而品牌、車系分類作為兩個獨立的輔助任務(wù),為細粒度年款識別任務(wù)提供更多信息,從而達到正則化的效果。三個任務(wù)之間相互促進,共同為其共享的特征部分提供梯度信息。

    2? 實驗分析

    本文實驗基于Vehicle1M與本文提出的GRG_VehicleType數(shù)據(jù)集進行訓(xùn)練與測試。其中,數(shù)據(jù)集70%作為訓(xùn)練數(shù)據(jù),剩余全部作為驗證數(shù)據(jù)。

    2.1? 配置說明

    數(shù)據(jù)方面,圖片尺寸統(tǒng)一為224×224;數(shù)據(jù)增廣默認(rèn)開啟隨機水平翻轉(zhuǎn)、隨機擦除[18]。預(yù)處理采用ImageNet數(shù)據(jù)集[19]的均值和標(biāo)準(zhǔn)差進行歸一化。

    模型訓(xùn)練方面,訓(xùn)練環(huán)境為單臺8張A100顯卡GPU服務(wù)器,根據(jù)任務(wù)差異分別訓(xùn)練10至15個Epoch,BatchSize統(tǒng)一設(shè)置為32。CNN方法的基準(zhǔn)學(xué)習(xí)率設(shè)置為0.01,采用Step的方式(gamma=0.1)調(diào)整學(xué)習(xí)率,如圖6(a)所示,采用SGD進行優(yōu)化;提出的SwinMTFI方法,基準(zhǔn)學(xué)習(xí)率設(shè)置為0.000 05,采用CosineAnnealing方法結(jié)合Warmup策略調(diào)整學(xué)習(xí)率曲線,如圖6(b)所示,采用AdamW進行優(yōu)化。所有模型均采用ImageNet預(yù)訓(xùn)練權(quán)值。

    2.2? 整體性能對比

    首先對骨干網(wǎng)絡(luò)進行基準(zhǔn)測試,如表2所示,基于SwinTransformer方法與ResNet50[4]、CSPDarkNet[20]等典型CNN方法相比,計算復(fù)雜度、參數(shù)量更高,對比Mobilenetv2[5]等輕量化網(wǎng)絡(luò)差距更是明顯。Swin-T的方法與ResNet50在參數(shù)量、計算量、訓(xùn)練時長、推理速度等方面,均處于相近的水平,可以在進一步的實驗中可以作為重點對比指標(biāo)。

    圖7對比了Mobilenetv2、ResNet50、Swin-B、Swin-T四種代表性骨干網(wǎng)絡(luò)訓(xùn)練過程,圖7(a)中基于CNN的方法在第4個Epoch就基本達到收斂狀態(tài),本文提出的SwinMTFI算法在第14個Epoch時訓(xùn)練損失值的震蕩幅度較大,且整體繼續(xù)呈現(xiàn)出緩慢下降的趨勢,可見Swin-Based方法收斂難度更高,需要更長的訓(xùn)練周期。從性能看,SwinMTFI在Top1準(zhǔn)確率方面優(yōu)勢明顯,如圖7(b)所示,Swin-Based方法對比CNN-Based方法最高實現(xiàn)了5.76%的提升。

    2.3? 單任務(wù)性能分析

    分別在Vehicle1M、GRG_VehicleType數(shù)據(jù)集上進行單標(biāo)簽任務(wù)實驗,結(jié)果如表3、表4所示。Vehicle1M數(shù)據(jù)集包含近百萬樣本及400個類別,是公開數(shù)據(jù)集中數(shù)據(jù)量大且類別較多的車輛識別數(shù)據(jù)集。與Vehicle1M相比,GRG_VehicleType數(shù)據(jù)集復(fù)雜程度更高,任務(wù)難度更大,以ResNet50為例,在Vehicle1M數(shù)據(jù)集準(zhǔn)確率為96.43%,在GRG_VehicleType數(shù)據(jù)集上僅能達到90.63%。SwinMTFI方法中基于Swin Transformer的特征提取器帶來了明顯性能提升,例如,Swin-L在Vehicle1M數(shù)據(jù)集上Top1準(zhǔn)確率達到99.25%,接近了Top5準(zhǔn)確率,基本達到任務(wù)極限;基于Swin-T與ResNet50相比在GRG_VehicleType數(shù)據(jù)集上提升了4.13%,在細粒度識別任務(wù)上的具有明顯優(yōu)勢。

    2.4? 多任務(wù)性能分析

    在GRG_VehicleType數(shù)據(jù)集上進行了多標(biāo)簽對比實驗。實驗結(jié)果證明,提出的層次標(biāo)簽聯(lián)合學(xué)習(xí)的車輛年款細粒度分類方法對于無論是CNN方法還是ViT的方法均取得了明顯性能提升,且保持推理階段的計算量及計算速度不變。如表5所示,ResNet50骨干網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)取得Top1準(zhǔn)確率91.67%,單任務(wù)為90.63%,提升1.04%;Swin-T單任務(wù)精度為94.76%,多任務(wù)精度為95.38%,提升了0.62%。實驗中,基于Swin-B的SwinMTFI方法比基于Swin-L方法在多任務(wù)學(xué)習(xí)后精度略高0.01%,多任務(wù)的Swin-T與單任務(wù)的Swin-B方法精度相近,在保持精度的同時大幅降低的所需的計算量。實驗結(jié)果進一步證明了引入的Swin Transformer骨干網(wǎng)絡(luò)及層次標(biāo)簽聯(lián)合學(xué)習(xí)方法對細粒度車輛年款識別任務(wù)的適用性。

    3? 結(jié)? 論

    針對視頻監(jiān)控場景的車輛年款細粒度識別難題,本文首先構(gòu)建了一個樣本覆蓋了城市中不同角度、光照、遮擋等采集條件下的常見車輛年款的百萬級車輛細粒度年款識別場景數(shù)據(jù)集GRG_VehicleType。其次,提出了SwinMTFI算法,將Transformer的多頭自注意力機制與細粒度分類任務(wù)結(jié)合,獲得兼容全局與局部的高魯棒性特征;最后,設(shè)計了層次標(biāo)簽聯(lián)合學(xué)習(xí)的車輛年款細粒度分類方法,結(jié)合車輛的全局特征與局部部件特征進一步提高細粒度識別的準(zhǔn)確率,從而滿足了現(xiàn)實應(yīng)用的要求。在未來的研究中,我們會在場景數(shù)據(jù)集和模型推理加速等方面進行進一步的探索,以期達到更好的效果。

    參考文獻:

    [1] XIANG L D,WANG X Y. Vehicle classification algorithm based on DCNN features and ensemble learning [J/OL].[2022-08-18].http://en.cnki.com.cn/Article_en/CJFDTotal-SJSJ202006020.htm.

    [2] CSURKA G,DANCE C R,F(xiàn)AN L X,et al. Visual categorization with bags of keypoints [C]//Workshop on statistical learning in computer vision, ECCV. 2004, 1(1-22): 1-2.[2022-08-18].https://www.researchgate.net/publication/228602850_Visual_categorization_with_bags_of_keypoints.

    [3] LIU X C,LIU W,MA HD,et al. Large-scale vehicle re-identification in urban surveillance videos [C]//2016 IEEE international conference on multimedia and expo (ICME).Seattle:IEEE,2016:1-6.

    [4] HE K M,ZHANG X Y,REN SQ,et al. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.

    [5] SANDLER M,HOWARD A,ZHU M L,et al. Mobilenetv2: Inverted residuals and linear bottlenecks [C]//2018 IEEE/CVFConference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510-4520.

    [6] DING X H,ZHANG X Y,MA N N,et al. RepVGG: Making VGG-style ConvNetsGreat Again [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:13733-13742.

    [7] HE T,ZHANG Z,ZHANG H,et al. Bag of Tricks for Image Classification with Convolutional Neural Networks [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:558-567.

    [8] WANG H Y,TANG J,SHEN Z H,et al. Multitask Fine-Grained Vehicle Identification Based on Deep Convolutional Neural Networks [J].Journal of Graphics,2018,39(3):485-492.

    [9] YANG J,CAO H Y,WANG R G,et al. Fine-grained car recognition method based on region proposal networks [J].Journal of Image and Graphics,2018,23(6):837-845.

    [10] TOUVRON H,CORD M,DOUZE M,et al. Training data-efficient image transformers & distillation through attention [EB/OL].[2022-08-19].https://www.xueshufan.com/publication/3170874841.

    [11] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL].[2022-08-06].https://www.xueshufan.com/publication/3119786062.

    [12] LIU Z,LIN Y T,CAO Y,et al. Swin transformer: Hierarchical vision transformer using shifted windows [C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).Montreal:IEEE,2021:10012-10022.

    [13] KRAUSE J,STARK M,DENG J,et al. 3d object representations for fine-grained categorization [C]//2013 IEEE international conference on computer vision workshops.Sydney:IEEE,2013:554-561.

    [14] YANG L J,LUO P,LOY C C,et al. A large-scale car dataset for fine-grained categorization and verification [C]//2015 IEEE conference on computer vision and pattern recognition(CVPR).Boston:IEEE,2015:3973-3981.

    [15] DONG Z,WU Y W,PEI M T,et al. Vehicle type classification using a semisupervised convolutional neural network [J].IEEE transactions on intelligent transportation systems,2015,16(4):2247-2256.

    [16] GUO H Y,ZHAO C Y,LIU Z W,et al. Learning coarse-to-fine structured feature embedding for vehicle re-identification [EB/OL].[2022-08-08].https://dl.acm.org/doi/abs/10.5555/3504035.3504874.

    [17] LIU H Y,TIAN Y H,WANG Y W,et al. Deep relative distance learning: Tell the difference between similar vehicles [C]//2016 IEEE conference on computer vision and pattern recognition(CVPR).Las Vegas:IEEE,2016:2167-2175.

    [18] ZHONG Z,ZHENG L,KANG G L,et al. Random erasing data augmentation [J/OL].arXiv:1708.04896 [cs.CV].[2022-08-02].https://arxiv.org/abs/1708.04896.

    [19] DENG J,DONG W,SOCHER R,et al. Imagenet: A large-scale hierarchical image database [C]//2009 IEEE conference on computer vision and pattern recognition.Miami:IEEE,2009:248-255.

    [20] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. Yolov4: Optimal Speed and Accuracy of Object Detection [J/OL].arXiv:2004.10934 [cs.CV][2022-08-08].https://arxiv.org/abs/2004.10934.

    作者簡介:徐天適(1990—),男,漢族,江西瑞昌人,技術(shù)經(jīng)理,碩士研究生,研究方向:計算機視覺、人工智能系統(tǒng)。

    收稿日期:2022-08-31

    基金項目:廣州市科技計劃項目(202206030001)

    猜你喜歡
    視頻監(jiān)控
    基于特定類型物體檢測的藥店視頻監(jiān)管系統(tǒng)
    基于變電站的微機防誤系統(tǒng)的可視化監(jiān)控技術(shù)研究
    地鐵高清視頻存儲技術(shù)的應(yīng)用分析
    基于視頻圖像采集移動目標(biāo)檢測系統(tǒng)的設(shè)計
    數(shù)字化監(jiān)控系統(tǒng)的企業(yè)應(yīng)用
    廣東地區(qū)輸電線路在線監(jiān)測技術(shù)應(yīng)用探究
    35kV變電站視頻接入集中遙視系統(tǒng)研究與應(yīng)用
    基于嵌入式Linux的視頻監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)
    基于HTML5的視頻監(jiān)控微課設(shè)計淺析
    智能視頻檢索技術(shù)在校園安防建設(shè)中的發(fā)展應(yīng)用
    西畴县| 剑川县| 大同市| 固镇县| 社旗县| 昂仁县| 鄯善县| 高陵县| 介休市| 遂平县| 安多县| 英吉沙县| 清苑县| 鄂伦春自治旗| 永靖县| 保亭| 搜索| 商洛市| 格尔木市| 通州区| 木里| 莱芜市| 万宁市| 中宁县| 淄博市| 宜阳县| 东莞市| 蒙自县| 闽清县| 灵石县| 工布江达县| 广南县| 姜堰市| 家居| 成都市| 海盐县| 库车县| 宁陵县| 宁陕县| 平遥县| 建平县|