• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)的Mask R-CNN在車輛實(shí)例分割的應(yīng)用

      2024-01-05 05:21:58徐福良孫傳龍
      關(guān)鍵詞:實(shí)例卷積函數(shù)

      羅 勇, 趙 紅, 徐福良, 孫傳龍

      (青島大學(xué)機(jī)電工程學(xué)院, 山東 青島 266071)

      近年來,基于深度學(xué)習(xí)的實(shí)例分割方法在研究上取得了巨大突破,其中一個重要應(yīng)用領(lǐng)域就是無人駕駛汽車系統(tǒng)??焖贉?zhǔn)確地感知和識別外界環(huán)境,更好地識別道路、車輛、行人以及其他障礙物,是實(shí)現(xiàn)無人駕駛系統(tǒng)工作的重要前提[1]。圖像分割通過對輸入圖像中不同實(shí)例對象的分割和識別,實(shí)現(xiàn)無人駕駛汽車對外部環(huán)境的快速準(zhǔn)確感知[2]。圖像實(shí)例分割是基于目標(biāo)檢測和語義分割的基礎(chǔ),它不僅具備目標(biāo)檢測的特點(diǎn),即能夠定位圖像中的所有實(shí)例對象,而且還具備語義分割的特點(diǎn),即能夠?qū)γ總€像素進(jìn)行分類。這種綜合的分割方法能夠更全面地理解圖像中的場景,并為無人駕駛汽車提供更精確的環(huán)境感知能力[3],避免潛在危險,確保行駛的安全性和穩(wěn)定性。許多學(xué)者研究了圖像實(shí)例分割在無人駕駛汽車技術(shù)中的應(yīng)用。LIU S等人[4]提出了路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)方法, 融合高層語義信息和低層位置信息,提升了圖像分割任務(wù)的性能;由于PA Net的性能會受輸入數(shù)據(jù)的質(zhì)量和多樣性的影響,WANG S等人[5]提出了RDSnet模型,充分利用目標(biāo)檢測和實(shí)例分割2個任務(wù)的信息交互作用,但其實(shí)例掩碼的分辨率低,掩碼對框和邊界框的定位誤差很大;Deep mask算法[6]是由Fair團(tuán)隊(duì)開發(fā)的一種實(shí)例分割算法,用于發(fā)現(xiàn)和切割單張圖像中的物體,但有時在生成實(shí)例分割掩碼時無法準(zhǔn)確地捕捉物體的邊界和輪廓,影響了分割的精度和準(zhǔn)確性;2019年,BOLYA D等人[7]提出的Yolact模型,在解決同類任務(wù)中以速度著稱,但計(jì)算內(nèi)存需求較大,資源有限的設(shè)備上難以實(shí)時應(yīng)用或部署;CHEN H等人[8]提出的Blend mask模型是近期實(shí)例分割任務(wù)中較完美的算法,但在某些場景下,該模型對小目標(biāo)的分割結(jié)果不夠準(zhǔn)確或完整,并且計(jì)算復(fù)雜程度高、內(nèi)存占用大?;诖?為了有效利用有限的標(biāo)注數(shù)據(jù)提高實(shí)例分割算法的準(zhǔn)確性,本文通過向Mask R-CNN網(wǎng)絡(luò)的卷積層添加一種門控注意力機(jī)制(gated channel transformation,GCT)方法進(jìn)行算法改進(jìn),并對激活函數(shù)ReLU修改為Mish函數(shù),在保證運(yùn)算速度的同時,提高了圖像識別質(zhì)量和整個網(wǎng)絡(luò)架構(gòu)的穩(wěn)定性。該研究對無人駕駛實(shí)例分割算法的發(fā)展具有積極意義。

      1 Basebone層架構(gòu)

      1.1 經(jīng)典Mask R-CNN算法Basebone層

      經(jīng)典Mask R-CNN算法的Basebone層采用ResNet-50作為特征提取器提取特征,由“由底至頂”采樣層(Bottom-up layers)和“由頂向底”采樣層(Top-down layers)2部分組成,通過底層和頂層的特征融合獲取更豐富的特征表示,提高目標(biāo)檢測和實(shí)例分割的性能[9]。Basebone結(jié)構(gòu)如圖1所示。

      圖1 Basebone結(jié)構(gòu)

      輸入大小為H×W的圖像,通過ResNet后,得到五層特征圖,尺寸大小依次為

      低層特征往往含有較多的細(xì)節(jié)信息,如顏色、輪廓、紋理等,同時包含許多噪聲等無關(guān)信息[10],高層特征包含充分的語義信息,如類別和屬性等,但空間分辨率卻很小,導(dǎo)致高層特征信息丟失較為嚴(yán)重。因此,Mask R-CNN采用特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)結(jié)構(gòu)進(jìn)行特征提取[11]。圖1中C1~C5是底層的特征圖,即“由底至頂”采樣層的輸出,主要捕捉圖像的低級和中級特征,如邊緣和紋理等。C1是輸入圖像經(jīng)過一次卷積操作得到的特征圖,C2則是C1經(jīng)過進(jìn)一步卷積操作得到的特征圖,以此類推得到C5。P1~P5是頂層的特征圖,即“由頂向底”采樣層的輸出,包含了全局的語義信息和局部的細(xì)節(jié)信息,能夠提供更豐富的特征表示。P1是從高級語義特征恢復(fù)的細(xì)節(jié)信息,P2則是進(jìn)一步上采樣得到的特征圖,以此類推得到P5。通過C1~C5和P1~P5等特征圖的組合和融合,Mask R-CNN的Basebone層能夠捕捉到底層的細(xì)節(jié)特征和頂層的語義信息,提供更全面豐富的特征表示。該設(shè)計(jì)有助于改善目標(biāo)檢測和實(shí)例分割的性能,提高模型的準(zhǔn)確度和魯棒性。

      1.2 改進(jìn)Mask R-CNN算法Basebone層

      針對現(xiàn)實(shí)中汽車行駛環(huán)境復(fù)雜多變,基于經(jīng)典的Mask R-CNN算法架構(gòu),增加了對環(huán)境信息的分辨能力及算法的識別速度,可對環(huán)境精準(zhǔn)快速地進(jìn)行分析,保證自動駕駛的安全。經(jīng)典的Mask R-CNN算法采取Res-FPN結(jié)構(gòu),對圖像分辨能力效果較好,但細(xì)小或遮擋目標(biāo)的分辨能力受卷積層數(shù)的影響[12]。在一定范圍內(nèi),隨著卷積層數(shù)的增加,對圖像中細(xì)小目標(biāo)的分辨能力增強(qiáng),但卷積層數(shù)不能無限增加。此外,隨著卷積層數(shù)的增加,算法的單次運(yùn)行時間也增加。雖然原有Mask R-CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已滿足基本需求,但為進(jìn)一步提高檢測精度,本文在原有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,添加了一種應(yīng)用在每次進(jìn)行卷積之前的自適應(yīng)門控通道注意力機(jī)制(gate channels transformation,GCT)[13]。GCT是一種結(jié)構(gòu)簡單且易于應(yīng)用的注意力機(jī)制,用于增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型的表達(dá)能力。它采用規(guī)范化方法構(gòu)建通道之間的競爭或協(xié)同關(guān)系,更傾向于在淺層階段促進(jìn)合作,而在更深層次上加強(qiáng)競爭。一般而言,淺層學(xué)習(xí)主要用于捕捉低級屬性,如紋理等一般特征,而在更深層次上,高級特征更具判別性,并與任務(wù)密切相關(guān)。此外,GCT的訓(xùn)練參數(shù)量較輕量級,因此GCT易于部署且不會占用過多的參數(shù)空間,同時也有助于對GCT的競爭或協(xié)同等行為進(jìn)行可視化解釋。GCT是一種簡單有效的通道間關(guān)系建模體系結(jié)構(gòu),提高了深度卷積網(wǎng)絡(luò)在視覺識別任務(wù)和數(shù)據(jù)集上的泛化能力,證明了其實(shí)用性。GCT結(jié)構(gòu)示意圖如圖2所示。

      圖2 GCT結(jié)構(gòu)示意圖

      GCT由3個主要部分組成,分別是全局上下文嵌入(global context embedding,GCE)、通道規(guī)范化(channel normalization,CN)和門限機(jī)制(gating adaptation,GA)。α,β,γ為可訓(xùn)練參數(shù),決定了GCT在每個通道的行為表現(xiàn)。其中,α有助于嵌入輸出的自適應(yīng)性,β和γ用于控制激活門限。

      1) 全局上下文嵌入(GCE) 大感受視野有助于避免局部混淆,因此設(shè)計(jì)了一種全局上下嵌入模塊,用于每個通道的全局上下文信息匯聚。給定嵌入?yún)?shù)α=[α1,…,αc],該模塊定義為

      (1)

      其中,l為極小常數(shù)。

      2) 通道規(guī)范化(CN) 規(guī)范化通過少量計(jì)算資源構(gòu)建神經(jīng)元間的競爭關(guān)系,類似于LRN。GCT采用進(jìn)行跨通道特征規(guī)范化,即通道規(guī)范化。其定義為

      (2)

      3) 門限機(jī)制(GA) GCT在上述基礎(chǔ)上添加了門限機(jī)制,有助于促進(jìn)神經(jīng)元的競爭或協(xié)同關(guān)系。其定義為

      (3)

      實(shí)驗(yàn)結(jié)果表明,將GCT插入到每次卷積操作之前,提高對圖像信息的分辨能力。改進(jìn)后的Basebone層在保證運(yùn)算速度的同時,增加了對圖像中小目標(biāo)的獲取能力,同時,GCT網(wǎng)絡(luò)的加入提高了系統(tǒng)的魯棒性。對于Resnet網(wǎng)絡(luò)來說,增強(qiáng)效果尤其顯著。改進(jìn)后的Basebone 結(jié)構(gòu)如圖3所示。

      圖3 改進(jìn)后的Basebone 結(jié)構(gòu)

      經(jīng)典的Mask R-CNN網(wǎng)絡(luò)采用的激活函數(shù)是ReLU函數(shù), ReLU函數(shù)圖像如圖4所示。激活函數(shù)的主要作用是改變之前數(shù)據(jù)的線性關(guān)系,如果網(wǎng)絡(luò)中全部是線性變換,則多層網(wǎng)絡(luò)可通過矩陣變換直接轉(zhuǎn)換成一層神經(jīng)網(wǎng)絡(luò)[14]。因此,激活函數(shù)使神經(jīng)網(wǎng)絡(luò)可學(xué)習(xí)復(fù)雜的數(shù)據(jù),表示輸入輸出之間非線性的復(fù)雜的任意函數(shù)映射[15]。ReLU函數(shù)的數(shù)學(xué)表達(dá)式為

      圖4 ReLU函數(shù)圖像

      f(x)=max(0,x)

      (4)

      ReLU激活函數(shù)能夠加快網(wǎng)絡(luò)的訓(xùn)練速度,增加網(wǎng)絡(luò)的非線性能力,此外,ReLU函數(shù)計(jì)算簡單,廣泛應(yīng)用于卷積層和深度學(xué)習(xí)模型訓(xùn)練。ReLU函數(shù)的實(shí)現(xiàn)僅需一個max()函數(shù),非常易于使用。另外,ReLU函數(shù)能夠?qū)崿F(xiàn)代表性的稀疏性以及線性行為。當(dāng)神經(jīng)網(wǎng)絡(luò)的行為是線性或接近線性時,ReLU函數(shù)更容易優(yōu)化[16]。然而,ReLU函數(shù)在輸入值為負(fù)時,會導(dǎo)致輸出為零,并且在零點(diǎn)處不可導(dǎo)。因此,當(dāng)神經(jīng)元的第一個輸入為負(fù)時,可能導(dǎo)致整個神經(jīng)網(wǎng)絡(luò)的“死亡”現(xiàn)象。此外,當(dāng)輸入值為負(fù)時,所有負(fù)值都會被立即置零,從而降低了模型對數(shù)據(jù)的適應(yīng)能力和訓(xùn)練能力[17]。也就是任何傳遞給ReLU激活函數(shù)的負(fù)輸入都會立即將其值置零,由于負(fù)值得不到適當(dāng)?shù)赜成?可能會影響結(jié)果。

      為了增加網(wǎng)絡(luò)的穩(wěn)定性,本文將ReLU函數(shù)更換為平滑度更好的Mish函數(shù), Mish函數(shù)圖像如圖5所示。

      Mish函數(shù)的數(shù)學(xué)表達(dá)式為

      f(x)=xtanh(softplus(x))=xtanh(ln(1+ex))

      (5)

      Mish函數(shù)使用了tanh和softplus2個函數(shù)共同實(shí)現(xiàn)函數(shù)的門控機(jī)制,同時利用了tanh函數(shù)的零中心對稱的特性,在更多的網(wǎng)絡(luò)模型和數(shù)據(jù)集上取得更好的性能[18]。Mish函數(shù)在零點(diǎn)處是可微的,且在輸入值為負(fù)值時也有輸出,保證了模型所需的平滑度,提高了系統(tǒng)的穩(wěn)定性。

      2 實(shí)驗(yàn)設(shè)置和結(jié)果分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      Cityscapes數(shù)據(jù)集,即城市景觀數(shù)據(jù)集[19],是一個面向大型城市道路場景的常用分割數(shù)據(jù)集,它通過汽車駕駛視角采集了包含50個不同城市的立體視頻圖像序列,涵蓋了行人、汽車、公交車及信號燈等多個場景類別。該數(shù)據(jù)集擁有5 000張精細(xì)標(biāo)注的在城市環(huán)境中駕駛場景的圖像(2 975張訓(xùn)練集,500張驗(yàn)證集,1 525張測試集)以及20 000張粗糙標(biāo)注圖像,具有19個類別的密集像素標(biāo)注(97%覆蓋率),其中,8個具有實(shí)例級分割,是目前公認(rèn)的機(jī)器視覺領(lǐng)域內(nèi)最具權(quán)威性和專業(yè)性的圖像分割數(shù)據(jù)集之一。

      2.2 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)設(shè)置

      本實(shí)驗(yàn)均在PyCharm 2021.3.1集成開發(fā)環(huán)境上進(jìn)行,硬件平臺為window10系統(tǒng),CPU為i7,GPU為1塊16GB的NVIDIA RTX 2070 SUPER。

      2.3 評價指標(biāo)

      平均精度(average precision,AP)是一種常用的評估模型性能的指標(biāo),用于衡量目標(biāo)檢測和實(shí)例分割任務(wù)中的準(zhǔn)確性[20]。本文采用了不同的AP變體評估模型的實(shí)例分割性能,包括AP50、AP75、APs、APm、APl。其中,AP50表示當(dāng)IOU閾值為0.5時的平均精度,IOU用來衡量預(yù)測的邊界框與真實(shí)邊界框之間重疊程度的指標(biāo),0.5的閾值意味著預(yù)測框與真實(shí)框的重疊面積至少為真實(shí)框面積的一半;AP75表示當(dāng)IOU閾值為0.75時的平均精度;APs表示面積較小的目標(biāo)物體的平均準(zhǔn)確率;APm表示面積中等的目標(biāo)物體平均準(zhǔn)確率;APl表示面積較大的目標(biāo)物體的平均準(zhǔn)確率[21]。該評估設(shè)置可提供對模型在不同場景和尺度下的表現(xiàn)能力的全面認(rèn)知,為模型的改進(jìn)和比較提供有價值的參考。

      2.4 結(jié)果對比

      為驗(yàn)證本文算法的有效性,本人對3種算法的目標(biāo)檢測結(jié)果和實(shí)例分割結(jié)果進(jìn)行對比。3種算法分別是基準(zhǔn)算法的Mask R-CNN原算法(M);Mask R-CNN結(jié)合GCT模塊后的算法(M-GCT);Mask R-CNN結(jié)合GCT模塊后并且修改激活函數(shù)后的算法(M-Mish-GCT)。3種算法的目標(biāo)檢測結(jié)果如表1所示,比較了不同評價指標(biāo)下的性能表現(xiàn)。3種算法的實(shí)例分割結(jié)果如表2所示。通過對比表1和表2,可直觀地評價3種算法在目標(biāo)檢測和實(shí)例分割任務(wù)上的表現(xiàn)。

      表1 3種算法的目標(biāo)檢測結(jié)果

      表2 3種算法的實(shí)例分割結(jié)果

      由表1和表2可以看出,經(jīng)過GCT改進(jìn)后的Mask R-CNN算法,各項(xiàng)評價指標(biāo)都有所提升,在實(shí)例識別方面表現(xiàn)更出色,證明了GCT在視覺識別任務(wù)中的性能提升作用。在網(wǎng)絡(luò)推理階段,添加了GCT模塊的算法,運(yùn)行速度為每秒13幀,與原始算法每秒12幀相比,并沒有因添加模塊而導(dǎo)致算法性能下降,并且文中的實(shí)驗(yàn)算法采用Python語言,其運(yùn)行效率相對較低。但在實(shí)際應(yīng)用中,可通過采用C/C++語言提高程序的執(zhí)行速度,同時降低內(nèi)存占用率,提高算法的運(yùn)行效率。

      為了更直觀地展示改進(jìn)后的算法在Cityscapes數(shù)據(jù)集中的分割效果,節(jié)選不同場景下的效果圖進(jìn)行分析。不同場景下3個車輛行駛時的原圖與分割效果圖對比如圖6~圖8所示。

      圖6 場景一

      由圖6~圖8的分割效果圖可以看出,改進(jìn)的算法對不同類別不同個體的分割效果表現(xiàn)優(yōu)秀,沒有發(fā)生明顯的漏檢和錯檢問題。由圖7可以看出,光照條件對無人駕駛識別效果和分割精度存在一定程度的影響。通過3個不同場景下的實(shí)驗(yàn)可以得到,改進(jìn)算法為車輛提供準(zhǔn)確有效的外部信息,可對不同物體進(jìn)行精準(zhǔn)分割,有效驗(yàn)證了改進(jìn)算法的性能和良好的泛化能力。

      圖7 場景二

      圖8 場景三

      為了對比改進(jìn)算法與原始算法的分割效果,對同一張圖像分別進(jìn)行不同方法的識別, Mask R-CNN算法分割效果如圖9所示。

      圖9 Mask R-CNN算法分割效果

      圖9中有2位處于坐立狀態(tài)的行人、1位騎行者和6輛汽車。經(jīng)過原Mask R-CNN算法訓(xùn)練識別后,雖然大目標(biāo)、近處以及無遮擋的目標(biāo)識別程度不錯,但2位行人之間的拐杖也被識別為1位行人,且右側(cè)汽車車窗反光處被認(rèn)為不是汽車而沒有標(biāo)注出來。

      改進(jìn)的Mask R-CNN算法分割效果如圖10所示;測試圖像局部對比如圖11所示。

      圖10 改進(jìn)Mask R-CNN算法分割效果

      圖11 測試圖像局部對比

      對比圖9~圖11可以看出,圖中行人之間的拐杖沒有被識別成行人,車窗反光處也被納入汽車的部分,其中車輪處被路燈遮擋部分也未被誤判為汽車。結(jié)果表明,改進(jìn)后的算法在目標(biāo)檢測和實(shí)例分割方面取得了更優(yōu)的分割效果。

      3 結(jié)束語

      本文將視覺識別注意力模塊嵌入到Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu),并在Cityscapes數(shù)據(jù)集上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,在實(shí)例分割任務(wù)中,本文的改進(jìn)算法比原算法識別分辨能力更強(qiáng),并未降低算法效率,平均準(zhǔn)確率提高了約13.9%,有效提高了圖像識別質(zhì)量和整個網(wǎng)絡(luò)架構(gòu)的穩(wěn)定性。下一步的研究重點(diǎn)是將汽車行駛時實(shí)際場景中復(fù)雜繁多的類別進(jìn)行有效精準(zhǔn)識別,且會考慮光照條件不足或雨雪霧等復(fù)雜氣象環(huán)境下的無人駕駛實(shí)例分割。

      猜你喜歡
      實(shí)例卷積函數(shù)
      二次函數(shù)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      第3講 “函數(shù)”復(fù)習(xí)精講
      二次函數(shù)
      函數(shù)備考精講
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      完形填空Ⅱ
      完形填空Ⅰ
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      宁阳县| 石家庄市| 上饶县| 延寿县| 岳西县| 南充市| 抚顺县| 满城县| 林甸县| 佛学| 沾益县| 平武县| 邹城市| 泰兴市| 芜湖县| 三都| 绥化市| 巴里| 三江| 台江县| 东乡县| 塘沽区| 徐闻县| 浪卡子县| 海南省| 江城| 涟源市| 道孚县| 抚顺市| 曲阳县| 孟津县| 双流县| 根河市| 安阳县| 衡南县| 太康县| 财经| 常熟市| 辉县市| 专栏| 正宁县|