• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速自動標(biāo)定方法

      2023-04-26 08:21:40胡馨月黃懿涵劉益劍
      計算機測量與控制 2023年4期
      關(guān)鍵詞:掩膜標(biāo)定分類

      胡馨月,謝 非,3,王 軍,馬 磊,黃懿涵,劉益劍,3

      (1.南京師范大學(xué) 電氣與自動化工程學(xué)院,南京 210023;2.南京三萬物聯(lián)網(wǎng)科技有限公司,南京 210000;3.江蘇省三維打印裝備與制造重點實驗室,南京 210042)

      0 引言

      無論是計算機視覺領(lǐng)域或是深度學(xué)習(xí)領(lǐng)域,大量的數(shù)據(jù)集必不可少。目前,已經(jīng)存在大量被廣泛應(yīng)用的數(shù)據(jù)集例如coco、Labelme等,然而仍有大部分特定領(lǐng)域缺少足夠的數(shù)據(jù)集,例如在智慧交通領(lǐng)域車型識別和檢測[1],車輛數(shù)據(jù)集的分類與標(biāo)定對于研究車輛的各類特征具有重大意義,例如對車輛的目標(biāo)檢測、車輛分類、車牌識別、車輛測速和車色識別等[2-5]。目前與車輛相關(guān)的數(shù)據(jù)集有:KITTI、UA-DETRAC BDD100K數(shù)據(jù)集等[3-6]。但是這些數(shù)據(jù)集中多為正向的車輛,并不適合全部實際交通情況下的車輛識別任務(wù)。因此針對特定領(lǐng)域的數(shù)據(jù)集制作非常重要。通過人工方式對多目標(biāo)數(shù)據(jù)集進行標(biāo)注,不僅耗時耗力,并且疲勞狀態(tài)下標(biāo)記的數(shù)據(jù)質(zhì)量較低。這種方法難以快捷方便的獲取質(zhì)量高、數(shù)量多且滿足要求的多目標(biāo)數(shù)據(jù)集。

      本文結(jié)合Mask Scoring R-CNN網(wǎng)絡(luò)框架與遷移學(xué)習(xí)和深度殘差網(wǎng)絡(luò),并建立多目標(biāo)數(shù)據(jù)質(zhì)量評分機制,并且以車輛數(shù)據(jù)集為例,通過基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速自動標(biāo)定方法,對遮擋、目標(biāo)小、種類多和環(huán)境復(fù)雜情況下的車輛目標(biāo)進行實例分割并生成對應(yīng)標(biāo)簽文件,最終得到高質(zhì)量車輛標(biāo)定數(shù)據(jù)集。

      隨著深度學(xué)習(xí)方法的廣泛應(yīng)用,研究人員針對車輛目標(biāo)檢測方法和實例分割的不足也在不斷拓展研究[7-17]。彭博等通過改進的Faster R-CNN對道路中車輛進行分類和識別[7];陳辰等通過級聯(lián)Adaboost算法針對各個子問題分別訓(xùn)練檢測模型,提高車輛目標(biāo)檢測精度[8];袁功霖等人利用遷移學(xué)習(xí)和圖像增強,使得小規(guī)模數(shù)據(jù)即可訓(xùn)練出有效的識別網(wǎng)絡(luò)[9]。Yebes等采用兩階段目標(biāo)檢測網(wǎng)絡(luò)實現(xiàn)城市道路中的車輛檢測與目標(biāo)分類[10-14],但是均側(cè)重于車輛檢測中分類精度、掩膜標(biāo)定精度或訓(xùn)練時間其中某一方面,沒有對三方面進行綜合考慮。Kim等采用輕量級神經(jīng)網(wǎng)絡(luò)進行車輛檢測,提高了車輛檢測的實時性[15-16]。以上方法雖然可以實現(xiàn)圖像的檢測與定位,但是在遮擋的環(huán)境下目標(biāo)圖像分割精度較低。不適用于實時交通下的車輛識別任務(wù)及車輛數(shù)據(jù)集制作。

      本文針對人工標(biāo)定多目標(biāo)數(shù)據(jù)集時間冗長,訓(xùn)練實例分割模型需要大量數(shù)據(jù)和較長訓(xùn)練時間,且傳統(tǒng)實例分割算法中評價目標(biāo)掩膜分割質(zhì)量方法不準確的問題,開展基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速標(biāo)定方法研究,該方法可以自動對大量無標(biāo)簽數(shù)據(jù)進行自動標(biāo)注,生成大量的車輛實例分割圖像。然后,為了篩選出高質(zhì)量的標(biāo)簽文件,提出了基于MaskIoU Head的質(zhì)量判別方法,并以此建立了網(wǎng)絡(luò)評分機制,篩選出高質(zhì)量的數(shù)據(jù)集。本文方法具有以下優(yōu)點:

      1)傳統(tǒng)多目標(biāo)實例分割方法僅僅針對識別分類精度、識別速度某一方面開展研究,本文結(jié)合遷移學(xué)習(xí)、3種深度殘差神經(jīng)網(wǎng)絡(luò)和優(yōu)化網(wǎng)絡(luò)中各項超參數(shù)有效的提高了實例分割精度并大幅度降低訓(xùn)練時間和減少訓(xùn)練樣本,為后續(xù)的數(shù)據(jù)集標(biāo)定奠定了基礎(chǔ)。

      2)Mask R-CNN方法采用掩膜重疊像素點的方法衡量掩膜質(zhì)量,但是掩膜是不規(guī)則圖像。這種方法并不準確。本文結(jié)合Mask Scoring R-CNN中的MaskIoU Head分支,建立多目標(biāo)標(biāo)定圖像評分機制,對網(wǎng)絡(luò)進行監(jiān)督訓(xùn)練,可以在遮擋、目標(biāo)小、種類多和環(huán)境復(fù)雜的情況下提高實例分割精度,并對掩膜標(biāo)定質(zhì)量進行準確衡量[17]。在相同數(shù)量的圖像輸入下,相較于需要四小時左右的人工標(biāo)定,本文方法僅需7分56秒,實現(xiàn)了大量高質(zhì)量數(shù)據(jù)集快速標(biāo)定。

      1 高質(zhì)量數(shù)據(jù)集快速自動標(biāo)定架構(gòu)

      本文以高質(zhì)量車輛數(shù)據(jù)集標(biāo)定方法為例,總體框架如圖1所示,下面針對此方法的兩部分分別展開說明。

      圖1 高質(zhì)量數(shù)據(jù)集自動標(biāo)定方法

      1)車輛數(shù)據(jù)自動標(biāo)定模型訓(xùn)練部分:利用采集的車輛視頻每秒提取一幀圖像,取出少量圖像進行人工標(biāo)定(約每個類別80張圖像),將這些圖像輸入到車型實例分割網(wǎng)絡(luò)中,結(jié)合coco數(shù)據(jù)集的80分類預(yù)訓(xùn)練模型進行遷移學(xué)習(xí),減少訓(xùn)練時間和防止網(wǎng)絡(luò)過擬合。得到車型分類、位置回歸和輪廓標(biāo)定模型[18]。

      2)搭建車輛分類與標(biāo)定系統(tǒng):搭建基于Mask Scoring R-CNN的車輛分類與圖像標(biāo)定系統(tǒng),采集與第一部分類似場景下較長的一段車輛視頻,輸入車輛分類與標(biāo)定系統(tǒng),每秒提取兩幀圖像,輸入到第一部分得到的車型分類、位置回歸和輪廓標(biāo)定模型中,得到每幅圖中的車輛類別、邊界框和車輛掩膜,然后,得到標(biāo)定后車輛圖像中每輛車的分數(shù),即Smask,如果一幅圖像中全部車輛的Smask都大于90,則這幅圖像為高質(zhì)量車輛圖像,反之為低質(zhì)量圖像,保留高質(zhì)量車輛圖像與對應(yīng)的標(biāo)簽文件,生成車輛高質(zhì)量數(shù)據(jù)集。

      2 基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速標(biāo)定算法

      2.1 網(wǎng)絡(luò)結(jié)構(gòu)

      本文提出的高質(zhì)量數(shù)據(jù)自動標(biāo)定方法是基于Mask Scoring R-CNN網(wǎng)絡(luò)框架,標(biāo)定網(wǎng)絡(luò)如圖2所示。包括主干網(wǎng)絡(luò)(Backbone network)、圖像金字塔網(wǎng)絡(luò)(FPN,feature pyramid networks)、區(qū)域建議網(wǎng)絡(luò)(RPN,region proposal network)、分類與回歸分支(R-CNN Head)、掩膜分支(mask head)以及掩膜評分分支(MaskIoU head)組成。此網(wǎng)絡(luò)不僅能輸出具體類別和目標(biāo)框,還能對物體目標(biāo)輪廓進行精準分類和標(biāo)定。

      圖2 車輛圖像標(biāo)定網(wǎng)絡(luò)

      本文車輛數(shù)據(jù)自動標(biāo)定網(wǎng)絡(luò)可分為4個部分:第一部分為車輛圖像特征提取,先通過主干網(wǎng)絡(luò)(backbone network)提取圖片特征,再通過FPN網(wǎng)絡(luò)形成圖像特征金字塔。第二部分為區(qū)域生成網(wǎng)絡(luò)(RPN),該部分使用RoIAlign從每個候選區(qū)域(proposal)提取特征,篩選出目標(biāo)車輛所在區(qū)域。第三部分通過R-CNN Head對候選區(qū)域進行目標(biāo)區(qū)域分類、邊界框的回歸,同時通過Mask Head將車輛從復(fù)雜環(huán)境分離出來并對其輪廓進行預(yù)測、標(biāo)定。第四部分為車輛掩膜質(zhì)量評分部分。本文利用MaskIoU Head建立標(biāo)定的車輛圖像評分機制,對第三部分中車輛掩膜標(biāo)定質(zhì)量進行打分,通過分數(shù)衡量預(yù)測車輛掩膜與真實車輛區(qū)域的一致性,同時對車輛圖像進行取舍。經(jīng)歷4個部分后,得到車輛圖像標(biāo)定模型[19]。

      2.2 網(wǎng)絡(luò)組成部分具體設(shè)計

      2.2.1 基于殘差網(wǎng)絡(luò)的多目標(biāo)特征提取

      通過主干網(wǎng)絡(luò)從無標(biāo)簽的車輛圖像中提取特征,并通過FPN(特征金字塔)形成多尺度的特征層,增強網(wǎng)絡(luò)對小目標(biāo)的識別能力。

      主干網(wǎng)絡(luò):用來特征提取的CNN網(wǎng)絡(luò),主要檢測圖像中的高級特征,其中,主干網(wǎng)絡(luò)可以是任意的卷積層進行組合構(gòu)成的特征提取網(wǎng)絡(luò),或者是常用的高精度卷積神經(jīng)網(wǎng)絡(luò)(如:ResNet 50、ResNet101、VGG19等)。利用主干網(wǎng)絡(luò),通過卷積操作將圖像從1980*1080*3(RGB)轉(zhuǎn)變?yōu)?2×32×2048的特征圖。這個特征圖將作為特征金字塔網(wǎng)絡(luò)的輸入[20]。

      特征金字塔網(wǎng)絡(luò):使得feature map包含的特征更全面。此特征金字塔一共有五層,從第一個層提取特征后逐層傳遞到第五層,但尺度逐層下降一倍,生成不同尺度的feature maps,再將相鄰feature maps相減,得到新的feature map。使得新的特征圖既保留了低層次中包含原圖更多信息的特點,又包含高層次特征圖像中更深層次特征。本文選擇第四層特征圖作為后續(xù)網(wǎng)絡(luò)的輸入。

      2.2.2 遷移學(xué)習(xí)和生成目標(biāo)候選區(qū)域

      遷移學(xué)習(xí):遷移學(xué)習(xí)是給網(wǎng)絡(luò)中的權(quán)值一個初始值,coco數(shù)據(jù)集的80分類預(yù)訓(xùn)練模型與本文需要訓(xùn)練的車輛數(shù)據(jù)標(biāo)定模型均為圖像識別模型,可以有效防止過擬合與減少訓(xùn)練數(shù)據(jù)量,降低訓(xùn)練時間。且coco數(shù)據(jù)集中圖像拍攝于城市道路,含有非車輛圖像的類別,可以提高車輛圖像的背景與前景分類精度。因此引入遷移學(xué)習(xí)。

      建議區(qū)域網(wǎng)絡(luò)(RPN):用于生成建議區(qū)域(region proposals)作用于特征金字塔提取的feature map中,利用滑動窗口在feature map中進行掃描,找到包含目標(biāo)的區(qū)域,RPN掃描過的區(qū)域稱為錨點,錨點越多精度越高,相應(yīng)訓(xùn)練速度會降低。為了在精度與速度之間保持平衡,本文的實驗中每張圖像大約有10萬個不同大小和高寬比的錨點,以此覆蓋圖像中更多的面積,提高檢測精度。

      RoI分類器:作用于RPN網(wǎng)絡(luò)產(chǎn)生的建議區(qū)域中,可將屬于背景還是目標(biāo)的區(qū)域進行分類,屬于目標(biāo)物體的建議區(qū)域稱為正區(qū)域,屬于背景的建議區(qū)域稱為負區(qū)域。保留正區(qū)域,丟棄負區(qū)域。

      2.2.3 目標(biāo)位置回歸、分類和輪廓提取

      R-CNN Head:位置回歸與目標(biāo)分類。通過此分支將目標(biāo)分類,在feature map上對邊界框進行回歸。同時對第二部分的正區(qū)域進行合并,并判別目標(biāo)的類別。采用IoU方法對預(yù)測的邊界框進行評估。

      邊界框IoU如圖3所示。虛線框為目標(biāo)的真實邊界框(Ground truth),黑色填充部分為R-CNN Head預(yù)測的Bbox(邊界回歸框),圖3中從左到右Bbox與Ground truth之間重疊越多,說明此網(wǎng)絡(luò)邊界框預(yù)測效果越好,如圖3最右側(cè)圖形所示。

      圖3 邊界框IoU

      Mask Head:由全卷積神經(jīng)網(wǎng)絡(luò)(FCN,fully convolutional networks)構(gòu)成,在RoI分類器篩選后的正區(qū)域上生成目標(biāo)的掩膜,這層掩膜可以準確地包圍目標(biāo)物體,再通過反卷積放大到原圖,得到目標(biāo)圖像的輪廓,并將每個圖像中目標(biāo)輪廓上的像素點坐標(biāo)保存,生成對應(yīng)的標(biāo)簽文件,也是多目標(biāo)數(shù)據(jù)集標(biāo)定的關(guān)鍵之一。

      但是,主干網(wǎng)絡(luò)中進行的卷積操作會導(dǎo)致原圖信息有所丟失,在Mask Head中,將feature map反卷積到原圖后會出現(xiàn)預(yù)測掩膜與真實掩膜有一定偏差。因此需要一種方法去衡量預(yù)測掩膜的質(zhì)量。在傳統(tǒng)方法Mask R-CNN中用二者交叉面積與二者累加面積的比值方式計算MaskIoU,來衡量預(yù)測掩膜質(zhì)量,但是需要保證二者有相同的高和寬。可是這種方法計算的MaskIoU與預(yù)測掩膜并不為線性關(guān)系,因此這種方法是不準確的。

      2.2.4 基于MaskIoU Head的多目標(biāo)掩膜標(biāo)定質(zhì)量評價

      MaskIoU Head:利用卷積神經(jīng)網(wǎng)絡(luò)中回歸原理,精準地評定目標(biāo)的mask質(zhì)量,并在網(wǎng)絡(luò)訓(xùn)練中進行監(jiān)督,很好地解決了Mask R-CNN對目標(biāo)mask質(zhì)量評分不準的問題。卷積神經(jīng)網(wǎng)絡(luò)常常用來回歸兩個相似圖像,本文利用這個卷積神經(jīng)網(wǎng)絡(luò)分支對真實掩膜(Truth-mask)與預(yù)測掩膜(predict-mask)進行回歸,并計算出每個目標(biāo)mask的MaskIoU值,得到的MaskIoU值為SIoU,也是對每個目標(biāo)蒙版質(zhì)量的評價分數(shù)。該質(zhì)量評價方法用于評定標(biāo)簽文件的質(zhì)量,評估的內(nèi)容主要包括包圍目標(biāo)輪廓的精度和目標(biāo)分類精度。然后通過設(shè)置質(zhì)量閾值,將質(zhì)量低于閾值的標(biāo)簽丟棄,保留質(zhì)量高于閾值的標(biāo)簽。最后,將高于閾值的標(biāo)簽和對應(yīng)的車輛圖像數(shù)據(jù)共同構(gòu)成車輛語義分割數(shù)據(jù)集,這也是該網(wǎng)絡(luò)的數(shù)據(jù)增強結(jié)果。

      MaskIoU Head輸入結(jié)構(gòu):本文將Truth-mask和predict-mask一起作為Mask Head的輸入。其中Truth-mask存在于RoI feature中,predict-mask為Mask Head 輸出的目標(biāo)預(yù)測掩膜。由于predict-mask與RoI feature尺寸不同,因此設(shè)計了兩種輸入結(jié)構(gòu)。MaskIoU Head 的兩種輸入結(jié)構(gòu)如圖4所示。

      圖4 MaskIoU Head 的輸入結(jié)構(gòu)

      具體說明如下:圖4中左圖設(shè)計的輸入結(jié)構(gòu)是將所有的mask經(jīng)過kernel size為2,stride為2的max pooing,然后與RoI輸出的RoI feature相乘。右圖設(shè)計的輸入結(jié)構(gòu)為目標(biāo)mask不經(jīng)過最大池化直接與高分辨率的RoI feature相加。兩種結(jié)構(gòu)均可作為Mask Head的輸入。

      MaskIoU Head網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計:由 4個卷積層和3個全連接層組成。對于4個卷積層,本文將所有卷積層的核大小和濾波器個數(shù)分別設(shè)置為3和256。對于3個全連接層,本文結(jié)合R-CNN Head設(shè)計原理,將前兩個FC層輸出設(shè)置為1 024以連接所有神經(jīng)元,最后一個FC層的C為需要分類的類別數(shù),輸出屬于不同類別的蒙版分數(shù)SIoU.MaskIoU Head結(jié)構(gòu)圖如5所示。

      圖5 MaskIoU Head結(jié)構(gòu)圖

      2.3 網(wǎng)絡(luò)損失函數(shù)與評分機制

      設(shè)計完網(wǎng)絡(luò)4個部分后,需要通過損失函數(shù)來度量網(wǎng)絡(luò)的性能,以及設(shè)計評分機制來評價目標(biāo)分割效果。

      網(wǎng)絡(luò)損失函數(shù)設(shè)計:本文網(wǎng)絡(luò)結(jié)構(gòu)主要由R-CNN Head、RPN、Mask Head 和MaskIoU Head等各個分支組成,因此本文損失函數(shù)公式為:

      L=Lclass+Lbbox+Lp+Lr+Liou

      (1)

      其中:Lclass為目標(biāo)檢測分類的損失,Lbbox是回歸目標(biāo)檢測框的損失,Lmask為目標(biāo)mask分割的損失,Lp為RPN網(wǎng)絡(luò)損失,Lr為權(quán)重正則化損失。LIoU為MaskIoU Head損失函數(shù)。

      網(wǎng)絡(luò)評分機制:本文目標(biāo)車輛只屬于一個類別,這就要求本文方法在兩方面必須同時表現(xiàn)良好:1)需要對不同車型進行精確的分類;2)預(yù)測的車輛Mask和真實車輛Mask之間需要有較高的重合度,用一個目標(biāo)函數(shù)來表達這兩個任務(wù)較為困難。因此,本文將mask質(zhì)量評判標(biāo)準分解成目標(biāo)分類和掩膜回歸評分,公式為:

      Smask=Scls×SIoU

      (2)

      其中:Smask為評定目標(biāo)檢測質(zhì)量的分數(shù),Scls為RNN Head中對目標(biāo)分類效果評定的分數(shù),SIoU表示predict-mask與Truth-mask之間重合程度的分數(shù)。如果一張圖像中所有目標(biāo)的Smask均高于90分,那么這張圖像即為高質(zhì)量的目標(biāo)圖像,將這些圖像及對應(yīng)標(biāo)簽文件存儲作為相關(guān)數(shù)據(jù)集。

      3 實驗與分析

      3.1 數(shù)據(jù)預(yù)處理及少量訓(xùn)練數(shù)據(jù)標(biāo)注

      為了自動生成大量車輛高質(zhì)量數(shù)據(jù),首先需要訓(xùn)練一個車輛數(shù)據(jù)標(biāo)定模型。訓(xùn)練數(shù)據(jù)為親自采集的車輛視頻,每秒提取兩幀車輛圖像,取出少量車輛圖像,使用Labelme軟件進行人工標(biāo)注。

      其中Labelme標(biāo)記六種車型如圖6所示,圖像數(shù)據(jù)中含有800張含多種車輛的圖像。并將其劃分為680張訓(xùn)練圖像,120張驗證圖像。本文設(shè)計了6種車型進行實驗:Bus(巴士)、Car(小轎車)、MircoBus(面包車)、SUV(運動型多用途汽車)、Truck(卡車)、SprotsCar(跑車)。

      圖6 Labelme標(biāo)記六種車型

      3.2 網(wǎng)絡(luò)參數(shù)與主干網(wǎng)絡(luò)以及遷移學(xué)習(xí)選擇

      網(wǎng)絡(luò)中不同參數(shù)對神經(jīng)網(wǎng)絡(luò)訓(xùn)練的結(jié)果影響很大,降低迭代次數(shù)、學(xué)習(xí)率等會導(dǎo)致網(wǎng)絡(luò)性能的降低。本文網(wǎng)絡(luò)結(jié)構(gòu)與Mask Scoring R-CNN結(jié)構(gòu)相近,因此選擇與Mask Scoring R-CNN一致的固定訓(xùn)練參數(shù)。網(wǎng)絡(luò)中固定訓(xùn)練參數(shù)如表1所示。

      表1 網(wǎng)絡(luò)中固定訓(xùn)練參數(shù)

      為了設(shè)計出最佳的車輛數(shù)據(jù)集自動標(biāo)定模型,本文在同一主干網(wǎng)絡(luò)ResNet50下,總共進行了共10組對比試驗,選擇合適的網(wǎng)絡(luò)參數(shù)以及觀察引入遷移學(xué)習(xí)對本方法在訓(xùn)練時間、準確度和訓(xùn)練數(shù)據(jù)量方面的影響,如表2所示。

      表2 超參數(shù)選擇與遷移學(xué)習(xí)對照試驗

      mIoU和mAP為實例分割神經(jīng)網(wǎng)絡(luò)中常用的評價指標(biāo),用于評判網(wǎng)絡(luò)模型性能高低。為了嚴格評估方法性能,在IoU分別為0.5和0.7下用mAP衡量實例分割效果,大于閾值是真陽性,小于閾值則為假陽性。每個實驗的mIoU和mAP指標(biāo)顯示在表的最后三行。下面對實驗內(nèi)容和結(jié)果進行詳細的分析。

      試驗1到試驗2使用了同樣的NMS閾值、基礎(chǔ)學(xué)習(xí)率等經(jīng)驗參數(shù),但是使用了不同數(shù)量的完全迭代次數(shù)。完全迭代次數(shù)的增加使得試驗1的mAP (IoU>0.5)值從0.569提高到試驗2中的0.586,提升效果較低,且在迭代100次的情況下依然容易收斂,表明本文設(shè)計的網(wǎng)絡(luò)收斂效果良好。在試驗3至試驗6中使用了更多數(shù)據(jù)的圖像用于訓(xùn)練和測試,由于完全迭代次數(shù)與之前的一樣,結(jié)果顯示試驗3中準確度下降,后來在試驗4中,通過增加完全迭代次數(shù)來改進這一點,使得mAP(IoU>0.5)到達0.565。在試驗5中,本文評估了圖像寬度和高度的影響,將訓(xùn)練圖像的尺寸從1 024×800提高到1 920×1 080,其余參數(shù)和試驗4一樣的情況下,算法的性能較差(mAP(IoU>0.5)=0.185)。說明高分辨率圖像在當(dāng)前網(wǎng)絡(luò)參數(shù)下,準確度較低。在試驗6中,將最小蒙版尺寸從56×56縮小到28×28,與試驗4進行對比,網(wǎng)絡(luò)性能得到提升。在試驗7中,本文降低了Anchor的比例大小,輸入圖像分辨率提升到1 920*1 080,將最小蒙版依然設(shè)置為28×28,發(fā)現(xiàn)將高分辨率圖像作為輸入時,網(wǎng)絡(luò)的性能接近于試驗6,維持穩(wěn)定。在試驗8中使用了與試驗7一樣的配置,并且進一步的降低了Anchor的比例大小,發(fā)現(xiàn)網(wǎng)絡(luò)的性能有了較大的提升,于是將(8,16,32,64)作為網(wǎng)絡(luò)的最佳Anchor比例大小。

      選擇了最佳完全迭代次數(shù)和圖像分辨率、Anchor的比例大小等最優(yōu)超參數(shù)后,為了減少訓(xùn)練時間、防止網(wǎng)絡(luò)過擬合,在試驗9中削減了一半的訓(xùn)練數(shù)據(jù)量,發(fā)現(xiàn)網(wǎng)絡(luò)性能大幅度降低。因此,在試驗10中利用預(yù)訓(xùn)練的COCO數(shù)據(jù)集的80分類模型在試驗9基礎(chǔ)上進行遷移學(xué)習(xí)。發(fā)現(xiàn)網(wǎng)絡(luò)性能與試驗8幾乎一致,達到較高水平,可以對車輛目標(biāo)進行準確實例分割與標(biāo)定,但是訓(xùn)練時間僅為試驗8實驗的一半。

      通過10組對照實驗,分析結(jié)果表明,訓(xùn)練數(shù)據(jù)量越大,圖像分辨越高,掩膜越小,RPN錨的尺度越小,網(wǎng)絡(luò)性能越好,且100個完全迭代次數(shù)就足夠?qū)崿F(xiàn)收斂。同時,結(jié)合遷移學(xué)習(xí)可以大幅度減少本方法的訓(xùn)練數(shù)據(jù)、訓(xùn)練時間和提高檢測精度。

      主干網(wǎng)絡(luò)對比試驗:ResNet50、ResNet101、MobileNet V1這些神經(jīng)網(wǎng)絡(luò)由殘差塊構(gòu)成,以殘差學(xué)習(xí)簡化了網(wǎng)絡(luò)架構(gòu),減少了計算開銷,很好的解決了梯度消失問題。為了進一步優(yōu)化網(wǎng)絡(luò),在識別速度和準確度之間達到一個平衡,表3為主干網(wǎng)絡(luò)性能對比表,在Test10的網(wǎng)絡(luò)配置參數(shù)下,分別在網(wǎng)絡(luò)訓(xùn)練時間、每秒圖像檢測時間、網(wǎng)絡(luò)模型大小、準確度(S>90表示分數(shù)大于90的車輛為實例分割準確)4個方面對其性能做了評估。

      表3 主干網(wǎng)絡(luò)性能對比

      從表格中可以看出,采用ResNet50作為主干網(wǎng)絡(luò),訓(xùn)練時間為12.65小時,時間最短;這3種網(wǎng)絡(luò)的標(biāo)定測試速度分別為每秒2.4張,每秒1.6張,每秒2.2張,采用ResNet50作為主干網(wǎng)絡(luò),標(biāo)定車輛圖像速度最快;在模型大小對比實驗中,采用ResNet50作為主干網(wǎng)絡(luò),車輛標(biāo)定模型大小最??;一張圖像中車輛Smask均大于90的圖像為準確圖像,準確圖像占全部圖像的比例為準確度,采用ResNe50、ResNet101和MobileNet V1為主干網(wǎng)絡(luò),車輛圖像標(biāo)定準確度分別為93.4%、93.8%、84.5%。

      從上述實驗中發(fā)現(xiàn)ResNet101精度最高、ResNet50次之、MobileNet V1最低。但是ResNet101網(wǎng)絡(luò)層數(shù)更多,訓(xùn)練時間更長,ResNet50訓(xùn)練時間和檢測時間適中,MobileNetV1訓(xùn)練時間最短,雖然ResNet50與ResNet101在車輛識別精度上準確度都很高,但是ResNet50在識別速度、訓(xùn)練時間、網(wǎng)絡(luò)模型大小方面均優(yōu)于ResNet101。ResNet50由于層數(shù)適中,在數(shù)據(jù)量少的情況下,既可以保證網(wǎng)絡(luò)精度又可以防止了過擬合。更深層次的網(wǎng)絡(luò)如ResNet101等需要訓(xùn)練數(shù)據(jù)更多的圖像,反而加重了研究人員繁重的工作量。因此本方法采用ResNet50作為車輛標(biāo)定網(wǎng)絡(luò)中的主干網(wǎng)絡(luò)。

      經(jīng)過上述試驗1到試驗10以及主干網(wǎng)絡(luò)性能評估共13組對比試驗,本文選擇了合適本網(wǎng)絡(luò)的超參數(shù),將ResNet50作為主干網(wǎng)絡(luò),并結(jié)合了coco數(shù)據(jù)集的80分類預(yù)訓(xùn)練模型進行遷移學(xué)習(xí)。

      3.3 多種方法的分類和掩膜分割精度性能對比

      由于本文中網(wǎng)絡(luò)是在Mask R-CNN基礎(chǔ)上增加了MaskIoU Head來對車型圖像數(shù)據(jù)標(biāo)定網(wǎng)絡(luò)進行優(yōu)化,且Faster R-CNN是車輛檢測中最常用識別網(wǎng)絡(luò)框架。 為了驗證所研究方法的效果,將本文方法與傳統(tǒng)的Mask R-CNN框架和Faster R-CNN框架在相同測試圖像下進行對比實驗。

      圖7 多種方法的車輛實例分割對比圖

      車輛實例分割對比如圖7所示。圖(a)為Faster R-CNN目標(biāo)車輛分割圖像,圖(b)為Mask R-CNN車輛分割圖像,(c)圖為本文算法實例分割圖像. 從圖中可以看出,F(xiàn)aster R-CNN不能對車輛輪廓進行標(biāo)記。 Mask R-CNN將左邊的護欄誤判成了車輛,且在圖像右上方有很多車輛未被識別出來,精度不夠。本文算法不僅將車輛從復(fù)雜環(huán)境與重疊車輛中精確區(qū)分出來,且對于車型種類幾乎沒有誤判,車輛輪廓標(biāo)定更清晰. 因此,本文方法分類準確度和實例分割精度均優(yōu)于其他方法。

      3.4 車輛數(shù)據(jù)自動標(biāo)定速度與標(biāo)定質(zhì)量實驗

      為了驗證本文方法的標(biāo)定速度與標(biāo)定質(zhì)量,進一步進行了實驗測試,采集一段的4分59秒車流視頻,每秒提取一幀圖像作為輸入,共358張圖像。這些車輛圖像手動打標(biāo)簽需要4小時左右,本文方法標(biāo)定僅需要7分56秒即可完成高質(zhì)量車輛圖像的篩選和標(biāo)定。

      輸入視頻截圖如圖8所示。圖9為車輛數(shù)據(jù)標(biāo)定方法的輸出結(jié)果。同時為了驗證本方法在車輛聚集、重疊車輛環(huán)境中分類與檢測效果,本文增加了多車輛實驗,如圖10所示為輸出的多車輛標(biāo)定圖像。通過圖8~10的實驗可以看到,本方法可以精確區(qū)分出車型,并清晰的標(biāo)定出車輛輪廓,準確性與人工標(biāo)定相近,但標(biāo)定速度遠超過人工標(biāo)記。因此本方法在充分考慮車輛遮擋、環(huán)境復(fù)雜、目標(biāo)小、種類多等因素后,本方法依然有較高的準確性及抗環(huán)境干擾能力。

      圖8 輸入視頻截圖

      圖9 車輛數(shù)據(jù)標(biāo)定圖像

      圖10 多車輛標(biāo)定圖像

      最后輸入一段2小時4分鐘的車輛視頻,本文方法僅需要3小時23分鐘即可生成14 880張車輛標(biāo)定圖像,人工標(biāo)定需要80小時左右時間,標(biāo)定速度相較人工標(biāo)定提升95.77%。本文方法在保證精度的同時,大幅度減少了標(biāo)定時間。

      4 結(jié)束語

      針對目前現(xiàn)有人工標(biāo)定方法時間冗長、效率低下且容易出錯的問題,本文提出一種基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速自動標(biāo)定方法。通過與ResNet50網(wǎng)絡(luò)相結(jié)合、調(diào)整了不同超參數(shù)并與遷移學(xué)習(xí)結(jié)合,在保證目標(biāo)識別精度的同時降低了一半的訓(xùn)練時間;然后,建立了一種數(shù)據(jù)集評分機制,在遮擋、環(huán)境復(fù)雜、目標(biāo)小、種類多環(huán)境下依然提高了目標(biāo)掩膜標(biāo)定精度;最后,提出了高質(zhì)量多目標(biāo)數(shù)據(jù)標(biāo)定方法,保證數(shù)據(jù)集質(zhì)量的同時大幅度降低了標(biāo)定時間。從實驗結(jié)果可以看出,本文方法具有精度高、訓(xùn)練數(shù)據(jù)量少、環(huán)境適應(yīng)性強和標(biāo)定時間短的優(yōu)點。

      猜你喜歡
      掩膜標(biāo)定分類
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
      分類算一算
      使用朗仁H6 Pro標(biāo)定北汽紳寶轉(zhuǎn)向角傳感器
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      光纖激光掩膜微細電解復(fù)合加工裝置研發(fā)
      教你一招:數(shù)的分類
      基于勻速率26位置法的iIMU-FSAS光纖陀螺儀標(biāo)定
      船載高精度星敏感器安裝角的標(biāo)定
      温州市| 自贡市| 榆中县| 南岸区| 武邑县| 萍乡市| 宁城县| 威远县| 天祝| 石城县| 屏东县| 铁岭市| 重庆市| 南皮县| 泗洪县| 灵川县| 涡阳县| 普宁市| 安吉县| 湖南省| 高淳县| 淮阳县| 象州县| 兴隆县| 正镶白旗| 阳信县| 平南县| 延寿县| 凤阳县| 内丘县| 漠河县| 高邮市| 伊宁县| 原平市| 浪卡子县| 新晃| 凤凰县| 浙江省| 石阡县| 柯坪县| 九江市|