• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于位置對抗學(xué)習(xí)的道路場景無監(jiān)督域自適應(yīng)語義分割

      2022-05-25 15:47:02趙偉楓
      電視技術(shù) 2022年4期
      關(guān)鍵詞:跨域源域分塊

      趙偉楓

      (昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)

      0 引 言

      語義分割任務(wù)[1-4]是對圖像中的每一個像素進(jìn)行分類,是像素級別的分類任務(wù),廣泛應(yīng)用于自動駕駛[5]等領(lǐng)域。但是,標(biāo)注像素級別的標(biāo)簽需要耗費(fèi)大量的人力物力。目前研究人員利用電腦合成圖像[6-7]訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),由于合成圖像的標(biāo)簽簡單易得,因此理論上可以無限擴(kuò)充數(shù)據(jù)集。在電腦合成數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在對應(yīng)的數(shù)據(jù)集上具有很高的識別率,但是應(yīng)用在現(xiàn)實(shí)場景圖像中時卻表現(xiàn)出較差的性能,原因是合成數(shù)據(jù)集和現(xiàn)實(shí)場景數(shù)據(jù)集中的圖像存在域的差距。無監(jiān)督域自適應(yīng)方法可以將源域?qū)W到的知識遷移到目標(biāo)領(lǐng)域中,從而有效解決語義分割中的域偏移問題[8-10]。

      將合成圖片數(shù)據(jù)集視為源域,即源域?yàn)閹?biāo)簽的數(shù)據(jù)集;將現(xiàn)實(shí)場景的圖像數(shù)據(jù)集視為目標(biāo)域,即目標(biāo)域的圖像是不帶標(biāo)簽的??缬蛘Z義分割任務(wù)的本質(zhì)是如何利用源域數(shù)據(jù)集來引導(dǎo)網(wǎng)絡(luò)對到目標(biāo)域數(shù)據(jù)集圖像的分類更加準(zhǔn)確,也就是提取到更多具有域不變性質(zhì)的特征。文獻(xiàn)[11]和文獻(xiàn)[12]將對抗思想應(yīng)用在跨域語義分割任務(wù)中,但都只在整體層面上進(jìn)行了對抗,沒有考慮到城市道路場景圖像中的空間位置關(guān)系。源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集中的圖像都是道路場景,圖像中類的分布和空間位置關(guān)系有強(qiáng)烈的相關(guān)性[13]。例如,天空、樹木等在圖像的上部,交通標(biāo)志、建筑等主要分布在圖像的中部,而馬路、行人等主要分布在圖像的下半部分。圖像中這種類別關(guān)系是不變的,如果不考慮這些位置關(guān)系直接利用對抗思想將兩個域的圖像拉近,往往會導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)去提取更容易識別的特征??紤]到上述方法存在的問題,根據(jù)圖像的空間位置關(guān)系,本文提出了縱向分塊對抗和橫向分塊對抗策略。為了使網(wǎng)絡(luò)可以更多地關(guān)注到塊內(nèi)的特征,將源域圖像分為整體和局部兩個層面進(jìn)行有監(jiān)督的訓(xùn)練。

      1 相關(guān)工作

      1.1 語義分割

      語義分割是計算機(jī)視覺任務(wù)中最具有挑戰(zhàn)性的任務(wù)之一,目前大部分語義分割算法都是基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[14]發(fā)展而來。為了擴(kuò)大感受野,使卷積神經(jīng)網(wǎng)絡(luò)可以提取到更加豐富的特征,通常采用空洞卷積方法進(jìn)行語義分割[15-19]。由于卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)較多,利用較深層的特征圖進(jìn)行上采樣得到的分割圖往往會丟失較多的信息,因此研究人員提出了多尺度融合和多層金字塔池化的方法來融合不同層數(shù)的 特征。

      1.2 無監(jiān)督域自適應(yīng)語義分割

      語義分割任務(wù)需要像素級別的標(biāo)簽,但是像素級別的標(biāo)簽需要耗費(fèi)大量的人力物力。文獻(xiàn)[11]將對抗學(xué)習(xí)方法應(yīng)用到跨域語義分割任務(wù)中,利用中間層和輸出層的特征圖分別進(jìn)行對抗來實(shí)現(xiàn)跨域的目的。但是該研究沒有考慮圖像中的空間位置關(guān)系,在對齊兩個域的特征的時候往往會導(dǎo)致一些類別的差距越拉越大導(dǎo)致負(fù)面的結(jié)果。文獻(xiàn)[20]采用基于熵最小化的方法來進(jìn)行無監(jiān)督域自適應(yīng)語義分割,利用目標(biāo)域的輸出預(yù)測圖的熵值大小來衡量預(yù)測是否準(zhǔn)確。但這種方法會使預(yù)測概率值高的類別在熵?fù)p失函數(shù)中有較大的梯度,網(wǎng)絡(luò)就會更傾向于遷移簡單樣本(像素數(shù)量占比較大的類別)而忽略難樣本。也就是說,采用基于熵最小化的語義分割方法會導(dǎo)致難樣本難以遷移,加劇了類不平衡的問題,跨域效果較差。

      2 分塊對抗方法

      圖1 整體網(wǎng)絡(luò)處理流程

      此外,傳統(tǒng)的方法在源域和目標(biāo)域進(jìn)行對抗訓(xùn)練的過程中,生成器會偏向于提取數(shù)量占比更多類別的特征而忽視數(shù)量占比較少的類別,導(dǎo)致在數(shù)據(jù)集中存在的類不平衡問題更加嚴(yán)重。而分塊對抗方法可以從一定程度上解決這個問題,源域和目標(biāo)域塊與塊之間的類別占比相較于整幅圖像來說差距會明顯縮小,在減少類別的同時對抗損失函數(shù)會更容易收斂。

      2.1 橫向分塊對抗

      考慮到不同類別在圖像中的空間位置關(guān)系,利用分塊的對抗方法來幫助網(wǎng)絡(luò)提取源域和目標(biāo)域中塊與塊之間的域公共信息。將源域特征圖Fs∈RH×W×C均分為上、中、下3部分,分別為。同時將與之對應(yīng)的目標(biāo)域特征圖Ft∈RH×W×C也分為上、中、下3部分,分別為、。針對整張?zhí)卣鲌D進(jìn)行對抗損失,即:

      式中:E(·)為期望值,D為鑒別器。根據(jù)式(1)在上、中、下3個位置做對抗損失,保證各個位置可以提取到與位置信息相關(guān)的域不變特征,即:

      式中,Ladvup為上部分的對抗損失函數(shù),Ladvm為中間部分的損失函數(shù),Ladvd為下部分的損失函數(shù)。

      2.2 縱向分塊對抗

      道路場景數(shù)據(jù)集中類與類之間不僅存在上、中、下的空間位置關(guān)系,同時還存在左、中、右的空間位置關(guān)系。例如,在圖像的中間的類別一般是道路、行人、汽車等,而在道路兩旁的類別一般是樹木、建筑、地臺等?;诖耍粌H在圖像的上、中、下3部分進(jìn)行分塊對抗學(xué)習(xí),同時也在圖像的左、中、右3部分進(jìn)行分塊對抗學(xué)習(xí)。同時,為了盡可能多地提取到域不變信息,將分塊對抗學(xué)習(xí)與整體對抗學(xué)習(xí)方法相結(jié)合,以此來保證網(wǎng)絡(luò)能提取到盡可能多的有效信息。將源域特征圖Fs∈RH×W×C均分為左、中、右3部分,分別為、。同時把與之對應(yīng)的目標(biāo)域特征圖Ft∈RH×W×C分為左、中、右3部分,分別為。在左、中、右3個位置進(jìn)行對抗損失,保證各個位置可以提取到與位置信息相關(guān)的域不變特征,即:

      式中,Ladv1為左邊部分的對抗損失函數(shù),Ladvm為中間部分的損失函數(shù),Ladvr為右邊部分的損失函數(shù)。

      2.3 損失函數(shù)

      由于本文將源域圖像和目標(biāo)域圖像進(jìn)行了上、中、下和左、中、右的分塊操作,因此分別在塊內(nèi)利用標(biāo)簽進(jìn)行有監(jiān)督的訓(xùn)練。同時為了不丟失圖像整體之間類與類之間的相關(guān)聯(lián)性,將分塊交叉熵?fù)p失與整體交叉熵?fù)p失相結(jié)合,保證網(wǎng)絡(luò)能夠同時提取局部和整體的特征。整體交叉熵?fù)p失函數(shù)為:

      式中:G為分割網(wǎng)絡(luò),c為類別數(shù)目。為了提取到塊內(nèi)獨(dú)有的特征,本文提出了分塊的交叉熵?fù)p失函數(shù),即:

      總的損失函數(shù)為:

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)設(shè)置

      在深度學(xué)習(xí)框架PyTorch上進(jìn)行實(shí)驗(yàn),使用NVIDIA 2080TI GPU進(jìn)行訓(xùn)練和測試工作。受限于GPU內(nèi)存,在訓(xùn)練過程中把源域數(shù)據(jù)集GTA5中的圖片剪裁為720×1 280像素,把源域數(shù)據(jù)集SYNTHIA中的圖片剪裁為760×1 280像素,把目標(biāo)域數(shù)據(jù)集Cityscapes中的圖片剪裁為512×1 024像素。網(wǎng)絡(luò)包含VGG16和ResNet101兩種,采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)[21]優(yōu)化器來優(yōu)化分割網(wǎng)絡(luò),利用poly策略[22]來更新學(xué)習(xí)率。由于語義分割任務(wù)是預(yù)測像素級別的標(biāo)簽,因此為了使源域和目標(biāo)域像素之間的風(fēng)格更加相近,本文在BN(Batch Normalization)的基礎(chǔ)上加入了IN(Instance Normalization)來實(shí)現(xiàn)域之間像素分割的靠攏[23]。

      3.2 定量實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證本文所提方法的有效性,分別做了數(shù)據(jù)集GTA5到Cityscapes和數(shù)據(jù)集Synthia到Cityscapes的跨域?qū)嶒?yàn),采用平均交并比(Mean Intersection over Union,MIoU)評 測 實(shí) 驗(yàn) 結(jié) 果。MIoU表示模型對每一類預(yù)測的結(jié)果和真實(shí)值的交集與并集的比值,求和再平均的結(jié)果。

      為了保證實(shí)驗(yàn)結(jié)果的有效性,利用ResNet101和VGG16兩種網(wǎng)絡(luò)作為基礎(chǔ)框架進(jìn)行實(shí)驗(yàn)。將本文所提方法與Adapt[11]、CLAN[24]以及Advent[20]跨域語義分割方法在GTA5數(shù)據(jù)集到Cityscapes數(shù)據(jù)集的19個公共類上進(jìn)行跨域?qū)嶒?yàn),定量評價結(jié)果如表1所示。Adapt和CLAN主要采取對抗損失的方法來對齊兩個域的特征分布,Advent則利用熵值最小化的思想通過約束目標(biāo)域預(yù)測圖的熵值損失函數(shù)來對齊兩個域。

      表1 數(shù)據(jù)集GTA5到Cityscapes的跨域語義分割MIoU值對比

      由表1可知,本文所提方法對Road、Wall、Fence以及Sky等類別的識別率較高,優(yōu)于從整體層面進(jìn)行對抗的方法,不僅對主要類別的像素級分類起到了正向的作用,同時對次要類別以及占比極小類別的分類正確率也有一定的提升。

      除此之外,開展Synthia數(shù)據(jù)集到Cityscapes數(shù)據(jù)集的跨域?qū)嶒?yàn)。由于Synthia數(shù)據(jù)集到Cityscapes數(shù)據(jù)集之間的域差異比GTA5到Cityscapes數(shù)據(jù)集之間的域差異要大,因此在Synthia數(shù)據(jù)集到Cityscapes數(shù)據(jù)集的跨域語義分割是非常有挑戰(zhàn)性的。表2給出了不同方法在13個公共類上的MIoU值。

      表2 數(shù)據(jù)集Synthia到 Cityscapes的跨域語義分割MIoU值對比

      通過觀察可以發(fā)現(xiàn),本文所提出方法在Synthia到Cityscapes的跨域語義分割中同樣取得了較好的結(jié)果。

      3.3 視覺實(shí)驗(yàn)結(jié)果

      GTA5到Cityscapes的跨域語義分割的視覺效果如圖2所示。

      根據(jù)圖2,本文方法不僅較好地分割出了公交車、建筑物以及道路等主要類別,而且相較于其他方法對次要類別的分割效果也有了明顯的提高。對于較為復(fù)雜的城市道路場景圖像,其包含的類別較多,本文所提方法能夠顯著提高對交通標(biāo)志、欄桿的分割效果,同時分割邊緣也更加平滑?;谝陨戏指罱Y(jié)果對比,本文所提出的分塊對抗跨域語義分割方法可以有效提升圖像的分割效果,并且緩解了數(shù)據(jù)集中存在的數(shù)據(jù)不平衡等問題。

      圖2 GTA5到Cityscapes上的分割效果

      4 結(jié) 語

      為了提升圖像跨域語義分割網(wǎng)絡(luò)的性能,本文充分挖掘了城市道路場景圖像中類別之間的空間位置關(guān)系,提出了分塊對抗學(xué)習(xí)的方法。相較于現(xiàn)有的跨域語義分割方法,基于位置對抗學(xué)習(xí)的道路場景無監(jiān)督域自適應(yīng)語義分割在分割效果方面有了一定的提升。但是該方法也存在一定的局限性,例如域之間的位置信息挖掘得不夠充分,導(dǎo)致模型在一些類別較復(fù)雜的場景仍會出現(xiàn)錯誤分類的情況。在接下來的工作中,將會尋找更加有效的方法來建立類與類之間的位置關(guān)系,進(jìn)一步優(yōu)化跨域語義分割 網(wǎng)絡(luò)。

      猜你喜歡
      跨域源域分塊
      多源域適應(yīng)方法綜述
      跨域異構(gòu)體系對抗聯(lián)合仿真試驗(yàn)平臺
      基于多標(biāo)簽協(xié)同學(xué)習(xí)的跨域行人重識別
      為群眾辦實(shí)事,嶗山區(qū)打出“跨域通辦”組合拳
      讀報參考(2022年1期)2022-04-25 00:01:16
      G-SRv6 Policy在跨域端到端組網(wǎng)中的應(yīng)用
      基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
      分塊矩陣在線性代數(shù)中的應(yīng)用
      反三角分塊矩陣Drazin逆新的表示
      基于自適應(yīng)中值濾波的分塊壓縮感知人臉識別
      基于多分辨率半邊的分塊LOD模型無縫表達(dá)
      东城区| 汶上县| 宜丰县| 房产| 九江市| 军事| 子长县| 淳化县| 葫芦岛市| 甘德县| 安西县| 湖南省| 葫芦岛市| 玛纳斯县| 柳林县| 万盛区| 石家庄市| 邓州市| 棋牌| 肥西县| 大英县| 永靖县| 乌海市| 集安市| 湖北省| 九龙县| 车险| 枣庄市| 扶沟县| 广东省| 昭觉县| 伊金霍洛旗| 石渠县| 和林格尔县| 南靖县| 巴东县| 班戈县| 元谋县| 合江县| 孟津县| 拜泉县|