• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于分組卷積進(jìn)行特征融合的全景分割算法

      2021-07-30 10:33:52馮興杰張?zhí)鞚?/span>
      計(jì)算機(jī)應(yīng)用 2021年7期
      關(guān)鍵詞:空洞實(shí)例類別

      馮興杰,張?zhí)鞚?/p>

      (1.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.中國(guó)民航大學(xué)信息網(wǎng)絡(luò)中心,天津 300300)

      0 引言

      圖像全景分割(Panoptic Segmentation,PS)任務(wù)是圖像語(yǔ)義分割任務(wù)與實(shí)例分割任務(wù)的結(jié)合,要求在圖像中通過(guò)語(yǔ)義分割的方式識(shí)別圖像背景的類別和范圍,通過(guò)實(shí)例分割的方式標(biāo)記劃分前景物體的實(shí)例信息區(qū)域,并將每一個(gè)像素標(biāo)記為事物對(duì)應(yīng)的類別[1]。全景分割任務(wù)在解決了語(yǔ)義分割無(wú)法區(qū)分前景事物個(gè)體與范圍信息的同時(shí),也解決了實(shí)例分割無(wú)法區(qū)分背景語(yǔ)義信息的問(wèn)題,旨在得到更加綜合、更加全面的圖像分割結(jié)果。近年來(lái),由于全景分割任務(wù)新指標(biāo)的提出以及相關(guān)識(shí)別挑戰(zhàn)[2]的興起,使得該項(xiàng)任務(wù)得到了更加廣泛的應(yīng)用發(fā)展與關(guān)注。

      針對(duì)全景分割任務(wù)的方法主要分為兩種,分別是自頂向下的方法以及自底向上的方法。自頂向下的方法中,聯(lián)合全景分割網(wǎng)絡(luò)(Unified Panoptic Segmentation Network,UPSNet)[3]、全景特征金字塔網(wǎng)絡(luò)(Panoptic Feature Pyramid Network,Panoptic FPN)[4]以及注意力引導(dǎo)的聯(lián)合全景分割網(wǎng)絡(luò)(Attention-guided Unified Network for panoptic segmentation,AUNet)[5]等方法普遍通過(guò)采用Mask R-CNN 網(wǎng)絡(luò)[6]進(jìn)行語(yǔ)義分割分支的處理。通過(guò)采用實(shí)例預(yù)測(cè)結(jié)果優(yōu)于語(yǔ)義預(yù)測(cè)結(jié)果、類別之間的相互語(yǔ)義關(guān)系以及預(yù)測(cè)置信度得分等方式解決預(yù)測(cè)掩碼重疊沖突等問(wèn)題。這種自頂向下的方法通常運(yùn)行速度較為緩慢,難以快速并行地進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè),這是由于網(wǎng)絡(luò)中存在多個(gè)復(fù)雜順序模塊導(dǎo)致的。

      而自底向上的方法通過(guò)分別預(yù)測(cè)不重疊的掩碼區(qū)域解決掩碼重疊沖突問(wèn)題,通常起始于語(yǔ)義分割分段再通過(guò)分組操作生成實(shí)例分割掩碼并合并語(yǔ)義與實(shí)例分割結(jié)果,代表方法包括DeeperLab[7]、SSAP(Single-Shot instance segmentation with Affinity Pyramid)[8]等。相比自頂向下的方法,自底向上的網(wǎng)絡(luò)模型具有更高的推理速度,但采用該種方式的方法較少并且表現(xiàn)出相對(duì)較差的性能。

      由Cheng 等[9]提出的Panoptic-DeepLab 網(wǎng)絡(luò)同樣采用自底向上的方法,通過(guò)雙路空間金字塔池化的方式將由殘差網(wǎng)絡(luò)提取得到的圖像特征信息劃分為雙路多尺度圖像特征信息對(duì)應(yīng)進(jìn)行語(yǔ)義分割與實(shí)例分割處理,得到的分支結(jié)果分別進(jìn)行語(yǔ)義分割預(yù)測(cè)、實(shí)例分割預(yù)測(cè)與實(shí)例中心點(diǎn)預(yù)測(cè)三個(gè)部分進(jìn)行訓(xùn)練學(xué)習(xí)。該方法不僅用時(shí)較少并且表現(xiàn)出優(yōu)越的性能;但該方法采用雙路網(wǎng)絡(luò)結(jié)構(gòu)在自底向上的方法中增加了一定的訓(xùn)練用時(shí),結(jié)構(gòu)相對(duì)較為復(fù)雜。

      針對(duì)上述方法所存在的問(wèn)題,本文提出一種基于分組卷積[10]進(jìn)行由底向上進(jìn)行全景分割預(yù)測(cè)的方法GCPSNet(Grouped Convolutional Panoptic Segmentation Network)。GCPSNet 通過(guò)殘差網(wǎng)絡(luò)結(jié)構(gòu)提取深層圖像信息,并利用不同感受野的空洞卷積空間金字塔池化結(jié)構(gòu)對(duì)圖像中語(yǔ)義背景與實(shí)例前景進(jìn)行優(yōu)化訓(xùn)練,然后采用分組卷積的方式對(duì)語(yǔ)義與實(shí)例分割分支進(jìn)行合并訓(xùn)練,最終通過(guò)語(yǔ)義分割預(yù)測(cè)、實(shí)例分割預(yù)測(cè)與實(shí)例中心點(diǎn)預(yù)測(cè)三個(gè)分支進(jìn)行損失函數(shù)的反向回歸。

      與前述方法比較,本文方法具有如下特點(diǎn):

      1)采用分組卷積[10]的方式,在不影響參數(shù)交互的情況下將語(yǔ)義分割與實(shí)例分割支路合并為一路,極大減少了參數(shù)量,提高了網(wǎng)絡(luò)運(yùn)行速度。

      2)在語(yǔ)義分割與實(shí)例分割支路中分別采用不同擴(kuò)張率的空洞卷積:針對(duì)語(yǔ)義背景選用更大的擴(kuò)張率空洞卷積,針對(duì)實(shí)例前景則選用更小擴(kuò)張率空洞卷積,這樣有利于更加準(zhǔn)確地提取圖像信息特征,提升神經(jīng)網(wǎng)絡(luò)性能。

      3)在模型的歸一化操作中引入Inplace-ABN(Inplace Activated Batch Normalization)層[11],在添加少量計(jì)算的基礎(chǔ)上節(jié)省大量的存儲(chǔ)空間,更加有利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與優(yōu)化。

      1 本文方法

      1.1 網(wǎng)絡(luò)模型

      本文全景分割網(wǎng)絡(luò)由四個(gè)部分組成:1)由語(yǔ)義分割與實(shí)例分割共享的編碼骨干網(wǎng)絡(luò);2)由不同擴(kuò)張率組成的雙路空洞卷積空間金字塔池化(Atrous convolutional Spatial Pyramid Pooling operation,ASPP)模型進(jìn)行整合得到用于分組卷積的圖像特征模塊;3)可以同時(shí)進(jìn)行語(yǔ)義與實(shí)例分割的分組解碼模型;4)用于預(yù)測(cè)的語(yǔ)義分割、實(shí)例分割以及中心點(diǎn)預(yù)測(cè)的接口模型。完整的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。

      圖1 本文全景分割網(wǎng)絡(luò)模型Fig.1 Panoptic segmentation network model in this paper

      1.1.1 特征提取骨干網(wǎng)絡(luò)

      GCPSNet 采用經(jīng)典殘差網(wǎng)絡(luò)結(jié)構(gòu)(Residual Network,ResNet)[12]作為提取圖像特征的骨干網(wǎng)絡(luò)(如圖2)。該網(wǎng)絡(luò)由殘差結(jié)構(gòu)組成,這種殘差網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)中增加直連通路,解決了梯度離散現(xiàn)象,使得網(wǎng)絡(luò)深層特征可以在淺層特征基礎(chǔ)上層層遞進(jìn),更好地保留了圖像的細(xì)節(jié)特征。再將其中的歸一化層(BatchNorm,BN)[13]替換為更加節(jié)省內(nèi)存空間的Inplace-ABN 層[11],通過(guò)犧牲一點(diǎn)運(yùn)算時(shí)間的代價(jià),使得網(wǎng)絡(luò)在訓(xùn)練中可以提升batch size 的數(shù)量,達(dá)到更加穩(wěn)定的訓(xùn)練結(jié)果。

      圖2 殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 ResNet structure

      該殘差網(wǎng)絡(luò)結(jié)構(gòu)分別對(duì)應(yīng)生成分辨率為1/4、1/8、1/16、1/16 四種層次的圖像特征,這些參差網(wǎng)絡(luò)的輸出記錄了圖像中實(shí)例類別的邊緣特征信息,圖像中的線條、曲線等特征結(jié)構(gòu)以及局部特征的語(yǔ)義信息。圖3 所示為具體殘差網(wǎng)絡(luò)最深層的輸出結(jié)果,相比淺層殘差網(wǎng)絡(luò)特征圖更能提取出較為詳細(xì)的語(yǔ)義信息。圖中從對(duì)于同一張圖像中的1 024 通道特征圖中選取的不同通道特征圖實(shí)例,分別展示了經(jīng)典殘差網(wǎng)絡(luò)對(duì)于圖像部分特征的表達(dá)結(jié)果。圖像所標(biāo)記的方框中可以依次體現(xiàn)出經(jīng)典殘差網(wǎng)絡(luò)ResNet 結(jié)構(gòu)對(duì)于圖像中局部特征信息、紋理特征信息(如道路等類別)、輪廓信息(如汽車等類別)、邊界邊緣特征信息(如路桿、邊道等類別)以及具體語(yǔ)義信息(路桿等類別)的表達(dá)。這些特征表達(dá)將在后續(xù)ASPP網(wǎng)絡(luò)中進(jìn)行進(jìn)一步的特征融合。

      圖3 殘差網(wǎng)絡(luò)部分輸出特征表達(dá)結(jié)果Fig.3 Some residual network output feature representation results

      其中分辨率為1/4和1/8的圖像特征也將被用于與后續(xù)解碼操作進(jìn)行特征融合,以達(dá)到細(xì)化圖像邊緣特征的作用;而最終得到的分辨率為1/16 的最深層特征將被用于ASPP 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行空洞卷積特征提取處理。

      1.1.2 多尺度的ASPP網(wǎng)絡(luò)結(jié)構(gòu)

      將由骨干網(wǎng)絡(luò)得到的底層圖像特征經(jīng)過(guò)兩個(gè)多尺度的空洞卷積空間金字塔池化結(jié)構(gòu)[14-16],分化為語(yǔ)義分割與實(shí)例分割兩種課題的圖像特征模型。不同擴(kuò)張率的空洞卷積可以記錄不同尺度的圖像感受野信息,而ASPP結(jié)構(gòu)通過(guò)聯(lián)合不同尺度的空洞卷積融合了多尺度的圖像信息進(jìn)一步提升了圖像分割效果。圖4 表示了不同尺度的空洞卷積在ASPP 空間金字塔池化結(jié)構(gòu)下感受野的關(guān)系。

      圖4 空間金字塔池化(ASPP)結(jié)構(gòu)Fig.4 Atrous Spatial Pyramid Pooling(ASPP)structure

      GCPSNet 采用兩組不同擴(kuò)張率的空洞卷積聯(lián)合組成一組較大的空洞卷積組,其中擴(kuò)張率分別為6、12、18 的空洞卷積用于提取圖像中占比較大的語(yǔ)義背景特征信息;而采用擴(kuò)張率為4、10、16 的空洞卷積用以提取圖像中占比較小的前景實(shí)例信息,避免遺漏圖像中小物體實(shí)例的細(xì)節(jié)特征。

      將空洞卷積提取的用于語(yǔ)義分割與實(shí)例分割的圖像特征分別與經(jīng)過(guò)卷積核為1×1和經(jīng)過(guò)全局平均池化操作的底層圖像特征結(jié)合在一起,并分別進(jìn)行特征融合,得到記錄不同尺度的多尺度語(yǔ)義、實(shí)例特征信息。將語(yǔ)義分割與實(shí)例分割信息級(jí)聯(lián)在一起,更加便于有效地進(jìn)行后續(xù)分組卷積操作。

      1.1.3 分組卷積的解碼過(guò)程

      通過(guò)雙線性插值上采樣的方式將圖像特征上采樣,通過(guò)分組卷積[10]分離語(yǔ)義分割部分圖像特征與實(shí)例分割部分圖像特征。分組卷積可以將圖像記錄特征分為語(yǔ)義、實(shí)例兩組,并且在兩組內(nèi)部的網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中權(quán)重互不干擾,有效地保證了語(yǔ)義特征、實(shí)例特征信息的分別完整表達(dá)。圖5 表示了分組卷積的分組結(jié)構(gòu)。

      圖5 分組卷積結(jié)構(gòu)Fig.5 Grouped convolution structure

      在圖像上采樣到原圖1/8 與1/4 階段,分別將編碼過(guò)程中對(duì)應(yīng)層級(jí)的圖像特征進(jìn)行特征融合為16通道與8通道的特征圖像,級(jí)聯(lián)到分組卷積的底部與頂部。此種做法保證了語(yǔ)義分割與實(shí)例分割部分得到相同層次特征進(jìn)行信息融合的一致性。在與編碼信息通過(guò)分組卷積操作進(jìn)行特征融合后,再通過(guò)卷積核大小為5×5的深度可分離卷積[17]進(jìn)行特征融合到指定通道數(shù),保證后續(xù)上采樣操作的順利執(zhí)行。

      而采用深度可分離卷積的方式,可以極大減少在特征融合過(guò)程中的參數(shù)計(jì)算量,加快神經(jīng)網(wǎng)絡(luò)的運(yùn)行速度,并且不會(huì)造成分組卷積在語(yǔ)義分割與實(shí)例分割過(guò)程中的參數(shù)混淆問(wèn)題,其深度可分離卷積的結(jié)構(gòu)如圖6 所示。在本文模型的每一個(gè)上采樣階段,都采用5×5 的深度可分離卷積進(jìn)行特征融合。

      圖6 深度可分離卷積結(jié)構(gòu)Fig.6 Depthwise separable convolution structure

      本文分組卷積解碼方法可以通過(guò)如下公式進(jìn)行表達(dá):式(1)表示基礎(chǔ)骨干網(wǎng)絡(luò)卷積層的迭代過(guò)程,I表示輸入圖像,Cn表示第n個(gè)卷積模塊,fn則表示經(jīng)過(guò)n個(gè)卷積模塊后提取得到的特征圖;式(2)中F表示分組卷積最初的特征融合結(jié)果,F(xiàn)s與Fi分別表示語(yǔ)義與實(shí)例特征部分,G表示特征融合操作,As與Ai分別對(duì)應(yīng)語(yǔ)義與實(shí)例部分的空洞卷積,分別是由各自擴(kuò)張率(A6,A12,…與A4,A10,…)的空洞卷積構(gòu)成;式(3)表示第n層分組卷積是由n-1 層分組卷積與骨干網(wǎng)絡(luò)第k層特征進(jìn)行特征融合的結(jié)果(其中k小于n);式(4)表示將多支路輸出接口融合在一起,Ps、Pi、Pcen分別代表語(yǔ)義、實(shí)例以及中心點(diǎn)輸出接口操作,D則表示最終的輸出結(jié)果。

      最終,通過(guò)分組卷積[10]的方式將得到的包含語(yǔ)義、實(shí)例信息的分組特征上采樣至原圖大小,通道數(shù)為256 的特征圖,導(dǎo)入不同的預(yù)測(cè)接口進(jìn)行神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)。

      1.1.4 接口模型預(yù)測(cè)

      將由分組卷積得到的解碼分組特征中用于表示背景語(yǔ)義特征信息的前128 層通道作為語(yǔ)義分割接口模型的預(yù)測(cè);用于表示前景實(shí)例特征信息的后128 層通道用于實(shí)例分割接口與實(shí)例中心點(diǎn)接口模型的預(yù)測(cè)。

      對(duì)于語(yǔ)義分割接口,通過(guò)普通的全卷積網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)融合,最終輸出為與圖像數(shù)據(jù)集類別數(shù)目相對(duì)應(yīng)的特征通道數(shù)。而實(shí)例輸出接口模型則通過(guò)全卷積網(wǎng)絡(luò)輸出兩層通道數(shù)進(jìn)行二分類任務(wù)來(lái)分別判斷實(shí)例物體的前景背景信息。除此之外,引入實(shí)例中心點(diǎn)接口通過(guò)質(zhì)心表示每一個(gè)對(duì)象實(shí)例,通過(guò)非最大值抑制的方式過(guò)濾掉低置信度評(píng)分的預(yù)測(cè),僅保留前100 個(gè)具有最高置信度評(píng)分的位置。針對(duì)每一個(gè)實(shí)例物體的質(zhì)心,通過(guò){Cn:(in,jn)}表示,以獲得中心點(diǎn)預(yù)測(cè)。對(duì)于每一個(gè)像素點(diǎn)采用實(shí)例中心回歸的方式預(yù)測(cè)對(duì)應(yīng)類別,如式(5)所示:

      其中考慮位置(i,j)處的預(yù)測(cè)類別ki,j,它到實(shí)例中心的偏移量為O(i,j),包括了水平方向與垂直方向的偏移。則代表該位置的預(yù)測(cè)實(shí)例類別為最接近實(shí)例中心的最近索引。

      最終,本文采用DeeperLab 方法中的“多數(shù)表決”的原則[7]進(jìn)行快速并行的結(jié)果合并,完成模型掩碼的預(yù)測(cè)。

      1.2 訓(xùn)練

      1.2.1 損失函數(shù)與優(yōu)化

      對(duì)于給定數(shù)據(jù)集,本文的目標(biāo)是將其在全景分割模型的語(yǔ)義分割、實(shí)例分割以及中心點(diǎn)預(yù)測(cè)三個(gè)端口的聯(lián)合損失函數(shù)達(dá)到最小。其中語(yǔ)義與實(shí)例分割接口采用加權(quán)交叉熵?fù)p失函數(shù)[18],如式(6)所示為實(shí)例分割二分類交叉熵?fù)p失函數(shù),yi表示前景標(biāo)簽類別,若為前景其值為1,否則值為0;pi則代表判斷為前景對(duì)應(yīng)概率。

      式(7)表示語(yǔ)義分割交叉熵?fù)p失,代表整體圖像損失為每一個(gè)像素i上的損失Li之和。

      其中:yic與pic分別代表像素i判定為c類時(shí)的標(biāo)簽與概率值;M代表該數(shù)據(jù)集所有類別。

      而中心點(diǎn)損失函數(shù)采用L1 損失函數(shù)如式(8),代表每個(gè)像素點(diǎn)(i,j)對(duì)應(yīng)類別的L1損失函數(shù)之和。

      最終損失函數(shù)如式(9)所示:

      本文按照DeeperLab[7]為屬于實(shí)例分割的交叉熵權(quán)值參數(shù)λins設(shè)置為3,該實(shí)例分割區(qū)域在整體特征圖中相對(duì)較?。粸槠溆鄬儆谡Z(yǔ)義分割的交叉熵權(quán)值λsem設(shè)置為1;為保證相對(duì)穩(wěn)定的損失占比,將λcenter設(shè)置為0.01。

      1.2.2 優(yōu)化方式

      本文模型采用Adam 優(yōu)化器[19]更新權(quán)重矩陣,盡可能降低損失函數(shù)數(shù)值。更新參數(shù)的公式如下:

      本文根據(jù)多元學(xué)習(xí)策略[20-21],將學(xué)習(xí)率η設(shè)置為0.001,ε設(shè)置為10-8;梯度第一時(shí)刻平均值mt,第二時(shí)刻方差值vt,對(duì)應(yīng)β1與β2分別為0.9與0.999 9。

      1.2.3 參數(shù)設(shè)置

      本文通過(guò)采用方差為1、平均值為0的正態(tài)分布初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重,并將偏置b設(shè)置為0;將初始的學(xué)習(xí)率設(shè)置為0.001,每經(jīng)過(guò)20 輪訓(xùn)練依次遞減50%,保證了神經(jīng)網(wǎng)絡(luò)參數(shù)更好的訓(xùn)練和更新。

      實(shí)驗(yàn)采用的硬件環(huán)境為AMD Ryzen 2700X 八核處理器,NVIDIA GeForce GTX 1080Ti 的GPU;軟件環(huán)境設(shè)置為Ubuntu 16.04操作系統(tǒng);采用TensorFlow2.0框架構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)的訓(xùn)練批次batch size 大小設(shè)置為2,訓(xùn)練輪次為20 000,在訓(xùn)練完成后終止神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

      實(shí)驗(yàn)選用公開(kāi)的圖像城市景觀數(shù)據(jù)集Cityscapes[22]用于全景分割。該數(shù)據(jù)集包括2 975 張訓(xùn)練圖像、500 張驗(yàn)證圖像以及1 525張測(cè)試圖像,包含8個(gè)實(shí)例事物類別以及11個(gè)語(yǔ)義背景類別。在實(shí)驗(yàn)中通過(guò)90°旋轉(zhuǎn)、左右翻轉(zhuǎn)、放縮等方式對(duì)訓(xùn)練集進(jìn)行圖像增強(qiáng)[23]并擴(kuò)充至11 900 張訓(xùn)練圖像,并在增強(qiáng)數(shù)據(jù)集上將整圖(大小為1 024×2 048)進(jìn)行隨機(jī)裁剪至1 024×1 024 大小放入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而神經(jīng)網(wǎng)絡(luò)的全卷積結(jié)構(gòu)可以使得裁剪圖像更加便于優(yōu)化網(wǎng)絡(luò)模型參數(shù)。

      模型性能通過(guò)平均交并比(mean Intersection-over-Union,mIoU)、全景分割質(zhì)量(Panoptic Quality,PQ)以及平均精度(Average Precision,AP)三個(gè)評(píng)價(jià)指標(biāo)更加綜合地對(duì)模型進(jìn)行性能評(píng)估。其中AP 表示為精確率(Precision)與召回率(Recall)共同作用的PR曲線下的面積(如圖7所示)。

      圖7 PR曲線Fig.7 PR curve

      令TP表示預(yù)測(cè)正確的正樣本數(shù)(即在圖像中對(duì)應(yīng)類別預(yù)測(cè)正確的像素點(diǎn)數(shù)目),F(xiàn)P表示預(yù)測(cè)錯(cuò)誤的正樣本數(shù)目,F(xiàn)N表示漏預(yù)測(cè)的正樣本數(shù)目。精確率Pre與召回率Rec如式(13)、(14)所示:

      AP 表示為貫穿召回率從0到1之間的全部值所對(duì)應(yīng)的精確率p(r)的平均值。

      2.2 實(shí)驗(yàn)細(xì)節(jié)

      2.2.1 多尺度的空洞卷積

      在第1.1.2 節(jié)所介紹的對(duì)于網(wǎng)絡(luò)實(shí)例分割支路應(yīng)用不同擴(kuò)張率以改善對(duì)于前景實(shí)例物體細(xì)節(jié)特征的描述。由于空洞卷積可以在擴(kuò)張卷積感受野的同時(shí)減少圖像冗余信息以達(dá)到提升精度的效果,所以在實(shí)驗(yàn)中首先對(duì)3×3 普通卷積與空洞卷積的實(shí)例分割效果進(jìn)行對(duì)比。除此之外,考慮到前景實(shí)例物體由于與背景語(yǔ)義類別尺度不同,所包含的冗余信息也有區(qū)別,需求的感受野大小與語(yǔ)義背景類別也有所不同,所以考慮對(duì)前景實(shí)例分支進(jìn)行不同擴(kuò)張率空洞卷積的對(duì)比實(shí)驗(yàn)。表1 展示了普通卷積(擴(kuò)張率為1)與不同擴(kuò)張率的帶洞卷積在全景分割網(wǎng)絡(luò)中僅比較前景實(shí)例類別時(shí)在mIoU 以及PQ 兩個(gè)指標(biāo)上的對(duì)比情況。

      表1 普通卷積與空洞卷積(不同分辨率)性能對(duì)比Tab.1 Performance comparison between ordinary convolution and atrous convolutions(different expansion rates)

      從表1 中的前四行可以看出,PQ 隨著空洞卷積擴(kuò)張率的增加而提升,并在擴(kuò)張率為4,10,16 時(shí)達(dá)到最大值,這表明隨著感受野的增大,空洞卷積所提取得到的有用特征信息在增多,冗余信息也得到了很好的過(guò)濾;而后兩行數(shù)據(jù)PQ 開(kāi)始降低,這是由于當(dāng)擴(kuò)張率達(dá)到一定大小后,冗余信息開(kāi)始逐漸增多,空洞卷積的效用開(kāi)始降低[24]。

      2.2.2 雙ASPP結(jié)構(gòu)的仿真結(jié)果

      本文通過(guò)雙ASPP 結(jié)構(gòu)分別對(duì)語(yǔ)義分割支路與實(shí)例分割支路進(jìn)行特征融合。根據(jù)2.2.1 節(jié)所示對(duì)于空洞卷積結(jié)構(gòu)擴(kuò)張率的選擇,語(yǔ)義分割部分的ASPP空洞卷積空間金字塔池化結(jié)構(gòu)的空洞卷積采用擴(kuò)張率為6,12,18 空洞卷積,以及全局平均池化和卷積核尺寸為1×1的普通卷積五個(gè)部分進(jìn)行特征融合組成。這些部分的參數(shù)設(shè)置大體相同,空洞卷積的參數(shù)設(shè)置均選用256 通道數(shù)的卷積核,卷積核權(quán)重采用均值為0、方差為1 的高斯分布進(jìn)行隨機(jī)初始化,偏置設(shè)置為0,并均選用same padding 進(jìn)行填充。全局平均池化操作后同樣通過(guò)一個(gè)卷積核尺寸為1×1 的256 通道的瓶頸層操作,進(jìn)行特征融合,其參數(shù)權(quán)重設(shè)置與空洞卷積設(shè)置相同。將這五個(gè)結(jié)構(gòu)合并,并通過(guò)卷積核為1×1 的256 通道、相同權(quán)重偏置設(shè)置的瓶頸層進(jìn)行特征融合操作。特征輸出結(jié)果如圖8 所示,經(jīng)過(guò)ASPP 語(yǔ)義分割的仿真圖像對(duì)于特征圖上道路、天空以及汽車、路燈邊界以外的語(yǔ)義信息有著較為清晰的表達(dá)。

      圖8 ASPP語(yǔ)義分割特征融合結(jié)果Fig.8 ASPP semantic segmentation feature fusion result

      針對(duì)于實(shí)例分割的ASPP 結(jié)構(gòu)采用擴(kuò)張率分別為4,10,16 的空洞卷積進(jìn)行特征提取,并選用1×1 的卷積操作以及全局平均池化操作分為五個(gè)部分進(jìn)行特征融合。空洞卷積的通道數(shù)、參數(shù)、權(quán)重設(shè)置,全局平均池化的參數(shù)設(shè)置以及后續(xù)語(yǔ)義融合操作的通道數(shù)、參數(shù)、權(quán)重設(shè)置均與語(yǔ)義分割A(yù)SPP 部分保持一致。特征輸出結(jié)果如圖9 所示,該圖像對(duì)于車輛、邊道以及路桿等前景信息有著較為清晰的體現(xiàn)。

      圖9 ASPP實(shí)例分割特征融合結(jié)果Fig.9 ASPP instance segmentation feature fusion result

      此后將雙ASPP 網(wǎng)絡(luò)512 通道的合并融合結(jié)果結(jié)果卷積核大小為1×1,參數(shù)權(quán)重為均值0、方差1 的隨機(jī)分布,無(wú)偏置的卷積操作進(jìn)行特征融合作為分組卷積解碼網(wǎng)絡(luò)的輸入。圖10 為該分組結(jié)構(gòu)所包含的語(yǔ)義特征與實(shí)例特征的融合輸出結(jié)果。

      圖10 雙ASPP特征融合輸出結(jié)果Fig.10 Double ASPP feature fusion output result

      2.2.3 分組卷積

      為比較模型方法中解碼結(jié)構(gòu)分組卷積通道數(shù)選用對(duì)實(shí)驗(yàn)結(jié)果以及模型運(yùn)行時(shí)長(zhǎng)的影響,在對(duì)比實(shí)驗(yàn)中分別采用四組通道數(shù)進(jìn)行PQ 以及單輪次圖像模型訓(xùn)練時(shí)長(zhǎng)的對(duì)比,如表2所示。

      表2 不同分組通道數(shù)性能對(duì)比Tab.2 Performance comparison of different grouping channels

      根據(jù)表2 可知,在分組通道數(shù)(語(yǔ)義,實(shí)例分支)增加后,PQ 精度有所提升并且單輪次的訓(xùn)練時(shí)長(zhǎng)也在增長(zhǎng)。再結(jié)合對(duì)比圖11 坐標(biāo)系中不同方法的預(yù)測(cè)時(shí)間及其結(jié)果,可以得出在通道數(shù)選用256,256 以及512,512 時(shí)對(duì)比模型預(yù)測(cè)圖像時(shí)長(zhǎng)明顯增加,均在100 ms以上;而通道數(shù)選用64,64時(shí)相比其他模型在分割質(zhì)量上下滑較大。最終選用通道數(shù)為128,128的分組卷積進(jìn)行全景分割更加能夠平衡時(shí)間效率與全景分割效果。

      2.2.4 卷積層仿真結(jié)果

      在編碼結(jié)構(gòu)殘差骨干網(wǎng)絡(luò)中的卷積層起到了不同語(yǔ)義特征提取的作用,有利于神經(jīng)網(wǎng)絡(luò)在后續(xù)圖像分割過(guò)程中對(duì)特征進(jìn)行更好的提取和表達(dá)。而在解碼網(wǎng)絡(luò)中的卷積層則起到上采樣復(fù)現(xiàn)圖像特征細(xì)節(jié)邊緣結(jié)果的作用。在解碼網(wǎng)絡(luò)中分組卷積分別與殘差網(wǎng)絡(luò)中的第2、3 層的中間結(jié)果進(jìn)行融合,從而不斷加強(qiáng)模型對(duì)于圖像細(xì)節(jié)特征的表達(dá),使實(shí)驗(yàn)結(jié)果更加精確。圖12 是仿真圖像卷積層的仿真結(jié)果,圖(a)、(b)所示圖像從上到下分別為淺層卷積與深層卷積的對(duì)比輸出結(jié)果,隨卷積層的逐漸加深與編碼網(wǎng)絡(luò)中間層結(jié)果的融合,可以觀察到隨卷積層的逐層加深有助于表述出更加清晰明確的邊緣特征,而對(duì)于特征圖特征表達(dá)區(qū)域的亮度更大則代表著置信度更高,語(yǔ)義信息更加明確。圖(c)的圖像則清晰地顯示了卷積層對(duì)于實(shí)例特征之間更明確的邊界劃分以及對(duì)于實(shí)例中心點(diǎn)特征表達(dá)的幫助。

      圖12 圖像卷積層仿真結(jié)果對(duì)比Fig.12 Comparison of image convolutional layer simulation results

      2.3 模型訓(xùn)練細(xì)節(jié)

      模型的實(shí)驗(yàn)過(guò)程共經(jīng)歷20 000 輪次訓(xùn)練,每個(gè)輪次的batch size 設(shè)置為2,具體實(shí)驗(yàn)環(huán)境以及模型學(xué)習(xí)率等設(shè)置在1.2.3 節(jié)給出了詳細(xì)說(shuō)明。模型的參數(shù)設(shè)置分為骨干網(wǎng)絡(luò)、雙ASPP融合網(wǎng)絡(luò)、分組卷積解碼網(wǎng)絡(luò)三個(gè)部分。其中骨干網(wǎng)絡(luò)采用從ImageNet 上進(jìn)行預(yù)訓(xùn)練完畢的參數(shù)權(quán)重進(jìn)行導(dǎo)入,隨訓(xùn)練過(guò)程的進(jìn)行不再更改;雙ASPP網(wǎng)絡(luò)中的參數(shù)權(quán)重已在2.2.2 節(jié)給出;分組卷積解碼網(wǎng)絡(luò)采用骨干網(wǎng)絡(luò)第三層的256層通道經(jīng)過(guò)兩組32 個(gè)1×1 的卷積核進(jìn)行壓縮,再與雙ASPP網(wǎng)絡(luò)輸出通道頂端與底端進(jìn)行concat操作,組合成320通道分組卷積,再進(jìn)行320通道深度可分離卷積與1×1卷積核的分組卷積處理后調(diào)整回256 通道。之后再與骨干網(wǎng)絡(luò)第二層重復(fù)當(dāng)前操作,提取骨干網(wǎng)絡(luò)通道數(shù)改為兩組16個(gè)1×1卷積核,分組卷積通道調(diào)整為288,深度可分離卷積通道數(shù)為288,最終依舊調(diào)整至256 通道數(shù)目。在分組卷積解碼網(wǎng)絡(luò)上普通卷積操作卷積核大小均為1×1,權(quán)重采用均值為0、方差為1的正態(tài)分布進(jìn)行隨機(jī)初始化,偏置設(shè)置為0;深度可分離卷積的卷積核大小設(shè)置為5×5,權(quán)重與偏置同普通卷積采用相同配置,在每次卷積操作后分別經(jīng)過(guò)歸一化層與ReLU函數(shù)進(jìn)行處理。

      表3 展示了模型在語(yǔ)義分割、實(shí)例分割、目標(biāo)中心點(diǎn)三個(gè)分支進(jìn)行損失函數(shù)運(yùn)算時(shí),分別在訓(xùn)練與測(cè)試時(shí)損失函數(shù)的輸出結(jié)果。根據(jù)表中結(jié)果可以得知,實(shí)例中心點(diǎn)在模型中相對(duì)更加好判斷,而實(shí)例分割區(qū)域相較于語(yǔ)義分割區(qū)域占比較小,實(shí)例特征輪廓相較更好識(shí)別,也擁有相對(duì)較好的損失函數(shù)輸出結(jié)果。

      表3 三種分支損失函數(shù)的輸出結(jié)果Tab.3 Output results of three branch loss functions

      圖13 則展示了本文模型在訓(xùn)練時(shí)的收斂曲線,縱坐標(biāo)代表訓(xùn)練損失,橫坐標(biāo)則代表從模型20 000 次迭代的訓(xùn)練結(jié)果中平均選取的一共4 000次輸出。

      圖13 損失函數(shù)收斂曲線Fig.13 Convergence curve of loss function

      模型訓(xùn)練采用Cityscapes 數(shù)據(jù)集,共19 個(gè)類別。在模型輸出端每個(gè)通道代表對(duì)應(yīng)類別,部分類別輸出圖像如圖14 所示,圖(a)~(f)分別表示模型輸出通道關(guān)于道路類別、天空類別、建筑物類別、森林類別、車輛類別以及行人類別信息的表達(dá)。

      圖14 部分類別的特征表達(dá)Fig.14 Feature representation of some categories

      2.4 實(shí)驗(yàn)結(jié)果對(duì)比

      為比較模型自身的效果,對(duì)比實(shí)驗(yàn)將在相同的實(shí)驗(yàn)環(huán)境下針對(duì)5 種主流全景分割模型表現(xiàn)進(jìn)行對(duì)比,即采用相同的實(shí)驗(yàn)設(shè)備,通過(guò)相同的優(yōu)化方法以及學(xué)習(xí)率,在保持相同的batch size 下迭代相同的epoch 數(shù)量等,此外這些對(duì)比方法也經(jīng)過(guò)相同的編碼骨干網(wǎng)絡(luò)ResNet101[12],骨干網(wǎng)絡(luò)上的權(quán)重參數(shù)經(jīng)過(guò)ImageNet預(yù)訓(xùn)練處理固定,并不參與整體的訓(xùn)練過(guò)程。實(shí)驗(yàn)結(jié)果如表4 所示。通過(guò)表4 可以看出,在Cityscapes 數(shù)據(jù)集上,本文模型的性能上要優(yōu)于AUNet[5]、UPSNet[3]等主流方法,與其中最好的Panoptic-DeepLab[9]相比,GCPSNet 的PQ 值要差0.003,但AP 與AP50(目標(biāo)IoU 閾值超過(guò)50%的情況下)分別提升了0.002 與0.014,mIoU 提升了0.006,總體表現(xiàn)與Panptic-DeepLab差距不大。

      表4 本文模型與其他方法對(duì)比Tab.4 Comparison of the proposed model and other methods

      表5 則表示了本文模型與Panoptic-DeepLab 在Cityscapes城市景觀數(shù)據(jù)集上的具體類別在PQ、分割質(zhì)量(Segmentation Quality,SQ)與識(shí)別質(zhì)量(Recognition Quality,RQ)指標(biāo)的對(duì)比。其中三個(gè)指標(biāo)的關(guān)系[1]如式(16)所示:

      由表5 對(duì)比可以看出,本文模型在多個(gè)類別中分割質(zhì)量要略低于對(duì)比模型,這表明了隨著2.2 節(jié)中分組卷積選用的解碼網(wǎng)絡(luò)參數(shù)量降低而帶來(lái)的分割精度的小幅下滑;而在大部分前景實(shí)例類別如公交車、卡車、圍欄、火車、自行車等的識(shí)別質(zhì)量則小幅領(lǐng)先于對(duì)比模型,也表明了選用不同尺度空洞卷積所帶來(lái)的前景物體識(shí)別質(zhì)量的改善。

      表5 具體類別分割質(zhì)量對(duì)比Tab.5 Comparison of segmentation qualities of specific categories

      圖15 展示了原始圖像、分割標(biāo)簽、本文的中心點(diǎn)輸出結(jié)果(本文1.1.4 節(jié)中實(shí)例中心點(diǎn)接口的輸出結(jié)果)以及最終的分割圖像,從圖中看出本文方法可以較好地完成全景分割的任務(wù)。

      圖15 圖像分割結(jié)果Fig.15 Image segmentation result

      3 結(jié)語(yǔ)

      本文從自底向上全景分割網(wǎng)絡(luò)語(yǔ)義、實(shí)例雙支路特征信息的角度出發(fā),提出了一種通過(guò)分組卷積在不影響語(yǔ)義、實(shí)例特征表達(dá)情況下進(jìn)行統(tǒng)一解碼的單路全景分割網(wǎng)絡(luò),并通過(guò)調(diào)整雙ASPP 結(jié)構(gòu)中的空洞卷積的擴(kuò)張率使之更加適應(yīng)分割任務(wù)的結(jié)果表達(dá)。通過(guò)這樣的改進(jìn),本文模型在不影響語(yǔ)義、實(shí)例特征表述的情況下簡(jiǎn)化了雙支路網(wǎng)絡(luò)的模型結(jié)構(gòu),降低了參數(shù)量,加快了推理速度并在CityScapes 數(shù)據(jù)集上取得了相對(duì)優(yōu)秀的分割結(jié)果。但本文算法也存在一定的不足,首先圖像類別的分割邊界依舊存在不夠清晰的問(wèn)題;其次在2.4節(jié)表4 中所記錄的某些特定類別如墻體、地勢(shì)、火車等存在著識(shí)別質(zhì)量不夠理想影響分割質(zhì)量的情況。這些需要解決的問(wèn)題將在今后的工作中進(jìn)行進(jìn)一步的探討。

      猜你喜歡
      空洞實(shí)例類別
      空洞的眼神
      服務(wù)類別
      用事實(shí)說(shuō)話勝過(guò)空洞的說(shuō)教——以教育類報(bào)道為例
      新聞傳播(2015年20期)2015-07-18 11:06:46
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      完形填空Ⅱ
      完形填空Ⅰ
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類別
      臭氧層空洞也是幫兇
      班有活寶
      芜湖县| 仁化县| 文山县| 英吉沙县| 吉木萨尔县| 鄄城县| 北海市| 新疆| 天水市| 芮城县| 东乡族自治县| 五原县| 保德县| 锡林浩特市| 宁德市| 宁波市| 廊坊市| 祁连县| 吴忠市| 澄江县| 京山县| 百色市| 海南省| 会东县| 宜昌市| 沅江市| 古丈县| 黄冈市| 易门县| 墨江| 忻城县| 浦城县| 海晏县| 巴林右旗| 凤翔县| 磐安县| 海口市| 林芝县| 新邵县| 杭锦后旗| 嘉兴市|