• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于域適應(yīng)的煤礦環(huán)境監(jiān)控圖像語(yǔ)義分割

      2021-11-10 03:25:40楊文嘉畢方明
      煤炭學(xué)報(bào) 2021年10期
      關(guān)鍵詞:源域注意力語(yǔ)義

      楊 瀟,陳 偉,3,任 鵬,楊文嘉,畢方明

      (1.中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116;2.中國(guó)礦業(yè)大學(xué) 礦山數(shù)字化教育部工程研究中心,江蘇 徐州 221116;3.中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所 無(wú)線傳感網(wǎng)與通信重點(diǎn)實(shí)驗(yàn)室,上海 200050)

      煤炭是我國(guó)的重要資源,保障國(guó)民經(jīng)濟(jì)穩(wěn)步發(fā)展[1-2]。隨著智能化技術(shù)的發(fā)展,由人力資源主導(dǎo)的傳統(tǒng)煤礦行業(yè)存在安全水平低、開采效能低等問(wèn)題,感知型、智能型、智慧型礦山成為煤礦行業(yè)發(fā)展的必然趨勢(shì)[3]。近年來(lái),深度學(xué)習(xí)算法逐漸在煤礦特殊環(huán)境中得到應(yīng)用。曹玉超等[4]訓(xùn)練殘差網(wǎng)絡(luò)檢測(cè)礦井水位標(biāo)尺刻度。馬宏偉等[5]提出基于深度視覺(jué)的導(dǎo)航方法,解決煤礦移動(dòng)機(jī)器人的自主導(dǎo)航問(wèn)題。司壘等[6]改進(jìn)U-net網(wǎng)絡(luò)模型,較好地提高綜采工作面煤層的識(shí)別精度。李曉宇等[7]提出基于超像素?;巴|(zhì)圖像粒聚類的方法,對(duì)煤礦人員進(jìn)行分割。然而,煤礦環(huán)境中存在光線昏暗,對(duì)比度低等問(wèn)題[8],導(dǎo)致監(jiān)控圖像質(zhì)量差,深度學(xué)習(xí)模型應(yīng)用于煤礦特殊環(huán)境中存在一定的困難。語(yǔ)義分割技術(shù)是深度學(xué)習(xí)方法應(yīng)用于煤礦智能監(jiān)控系統(tǒng)的一項(xiàng)關(guān)鍵技術(shù),對(duì)煤礦復(fù)雜場(chǎng)景解析具有重要意義。

      隨著深度學(xué)習(xí)的發(fā)展,尤其是全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[9]的提出,語(yǔ)義分割獲得巨大的發(fā)展。DeepLab v1[10]將深度卷積神經(jīng)網(wǎng)絡(luò)與概率圖模型相結(jié)合,使用空洞卷積解決卷積網(wǎng)絡(luò)中下采樣導(dǎo)致的細(xì)節(jié)丟失問(wèn)題。DeepLab v2[11]提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模型,用來(lái)融合不同語(yǔ)義級(jí)別的信息。DeepLab v3[12]進(jìn)一步改進(jìn)空洞卷積,提出串行和并行的空洞卷積模塊捕獲多尺度信息。與大多數(shù)圖像語(yǔ)義分割模型不同,YU等[13]認(rèn)為語(yǔ)義分割不是標(biāo)記每個(gè)像素而是標(biāo)記一個(gè)整體,提出平滑網(wǎng)絡(luò)模型和邊界網(wǎng)絡(luò)模型來(lái)解決類內(nèi)不一致和語(yǔ)義邊界問(wèn)題。DenseASPP模型[14]采用密集的方式將空洞卷積連接起來(lái),達(dá)到密集采樣的同時(shí)獲得更大的感受野。上述圖像語(yǔ)義分割模型需要大量的像素級(jí)標(biāo)簽進(jìn)行訓(xùn)練,不適用于對(duì)缺少標(biāo)注信息的煤礦環(huán)境監(jiān)控圖像進(jìn)行語(yǔ)義分割。

      近年來(lái),域適應(yīng)方法逐漸成為深度學(xué)習(xí)的熱點(diǎn)研究?jī)?nèi)容,將從源域中學(xué)習(xí)知識(shí)應(yīng)用到目標(biāo)域[15],用來(lái)解決源域和目標(biāo)域之間的域偏移問(wèn)題。域適應(yīng)方法主要是通過(guò)對(duì)齊源域和目標(biāo)域之間的特征分布或使用對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)域不變特征來(lái)減小不同數(shù)據(jù)域的分布差異。文獻(xiàn)[16-17]采用多核的最大均值差異(Multiple Kernel Variant of MMD,MK-MMD)和二階統(tǒng)計(jì)量最小化源域和目標(biāo)域的分布差異。文獻(xiàn)[18]提出對(duì)比域差異(Contrastive Domain Discrepancy)方法,對(duì)類內(nèi)域和類間域的差異進(jìn)行建模。隨著域適應(yīng)方法的發(fā)展,基于域適應(yīng)的語(yǔ)義分割在計(jì)算機(jī)視覺(jué)領(lǐng)域中顯現(xiàn)出顯著優(yōu)勢(shì)。文獻(xiàn)[19]將域適應(yīng)方法與語(yǔ)義分割結(jié)合起來(lái),提出基于全卷積網(wǎng)絡(luò)的無(wú)監(jiān)督域適應(yīng)語(yǔ)義分割模型,從全局對(duì)齊和具體類別對(duì)齊兩方面減小域偏移。文獻(xiàn)[20]提出端到端的對(duì)抗性領(lǐng)域自適應(yīng)網(wǎng)絡(luò)模型?;谖墨I(xiàn)[20],VU等[21]提出深度感知自適應(yīng)語(yǔ)義分割模型,利用圖像深度信息訓(xùn)練無(wú)監(jiān)督域適應(yīng)模型。文獻(xiàn)[22]在對(duì)抗學(xué)習(xí)框架中添加聯(lián)合訓(xùn)練的思想,解決傳統(tǒng)域適應(yīng)方法的語(yǔ)義不一致性、負(fù)遷移等關(guān)鍵問(wèn)題。文獻(xiàn)[23]通過(guò)對(duì)抗損失間接減小熵值減少域偏移。文獻(xiàn)[24]使用風(fēng)格遷移方法合成具有目標(biāo)域風(fēng)格的圖像,提出可以適應(yīng)不同環(huán)境的語(yǔ)義分割模型。文獻(xiàn)[25]提出將圖像分解為域不變結(jié)構(gòu)和域特定紋理表示的域不變結(jié)構(gòu)提取框架,實(shí)現(xiàn)跨域圖像轉(zhuǎn)換,提高圖像語(yǔ)義分割性能。文獻(xiàn)[26]將對(duì)抗網(wǎng)絡(luò)與自訓(xùn)練結(jié)合起來(lái),提出基于迭代自訓(xùn)練的新型無(wú)監(jiān)督域適應(yīng)模型,根據(jù)目標(biāo)域具有高置信度的預(yù)測(cè)交替生成偽標(biāo)簽,并使用這些偽標(biāo)簽重新訓(xùn)練模型?;谟蜻m應(yīng)方法的圖像語(yǔ)義分割模型,對(duì)于缺少標(biāo)注信息的圖像中具有較好的語(yǔ)義分割性能,但在煤礦復(fù)雜環(huán)境中的應(yīng)用近乎空白。

      本文研究基于域適應(yīng)的煤礦環(huán)境監(jiān)控圖像語(yǔ)義分割方法。煤礦環(huán)境中存在光線不足、對(duì)比度低等問(wèn)題,容易混淆外觀相似的不同語(yǔ)義類別的目標(biāo),導(dǎo)致語(yǔ)義分割性能降低。針對(duì)煤礦監(jiān)控圖像缺少標(biāo)注信息和容易混淆外觀相似的不同語(yǔ)義類別目標(biāo)的問(wèn)題,筆者提出雙對(duì)齊網(wǎng)絡(luò)模型。該模型將在合成圖像上訓(xùn)練的模型遷移到煤礦監(jiān)控圖像上,實(shí)現(xiàn)煤礦環(huán)境監(jiān)控圖像語(yǔ)義分割。在特征空間中,使用特征級(jí)域適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)域不變特征,減少合成圖像與煤礦監(jiān)控圖像的特征分布差異。在像素空間中,使用像素級(jí)域適應(yīng)網(wǎng)絡(luò)將源域圖像風(fēng)格轉(zhuǎn)換為目標(biāo)域圖像的風(fēng)格,減少因紋理、光照等因素造成的域偏移。由于源域圖像和目標(biāo)域圖像并不總是空間對(duì)齊的,像素級(jí)域適應(yīng)網(wǎng)絡(luò)采用基于語(yǔ)義和上下文的Contextual Loss[27]進(jìn)行網(wǎng)絡(luò)優(yōu)化。為解決煤礦監(jiān)控圖像中不同語(yǔ)義類別目標(biāo)易混淆的問(wèn)題,使用具有煤礦環(huán)境風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò),提高煤礦監(jiān)控圖像語(yǔ)義類別辨識(shí)度。判別器中添加空間注意力模塊和通道注意力模塊,用來(lái)增強(qiáng)判別能力??臻g注意力模塊計(jì)算任意2個(gè)位置之間的聯(lián)系以捕獲更多的信息,通道注意力模塊為不同通道的特征映射分配不同的權(quán)重。將本文方法與AdaptSegNet,DCAN,CLAN等算法進(jìn)行對(duì)比,并從平均交并比指標(biāo)上進(jìn)行分析,驗(yàn)證本文提出的雙對(duì)齊網(wǎng)絡(luò)模型的有效性。

      1 雙對(duì)齊網(wǎng)絡(luò)模型

      1.1 問(wèn)題描述

      主要研究煤礦復(fù)雜環(huán)境監(jiān)控圖像的語(yǔ)義分割問(wèn)題,目標(biāo)是提高煤礦智能監(jiān)控系統(tǒng)的場(chǎng)景理解能力。傳統(tǒng)的對(duì)抗性域適應(yīng)語(yǔ)義分割模型將合成圖像作為源域圖像,真實(shí)圖像作為目標(biāo)域圖像,從2方面進(jìn)行訓(xùn)練:① 訓(xùn)練分割網(wǎng)絡(luò)模型G,通過(guò)最小化分割損失從源域圖像中提取知識(shí);② 判別器D接收分割網(wǎng)絡(luò)G的輸出I并判斷I是來(lái)自于源域還是目標(biāo)域。通過(guò)分割網(wǎng)絡(luò)G和判別器D的對(duì)抗訓(xùn)練,分割網(wǎng)絡(luò)G學(xué)習(xí)域不變特征。傳統(tǒng)的對(duì)抗性域適應(yīng)模型使用對(duì)抗訓(xùn)練的方式減少源域和目標(biāo)域之間的特征分布差異,實(shí)現(xiàn)特征級(jí)域適應(yīng)。然而,特征級(jí)域適應(yīng)方法為學(xué)習(xí)到域不變特征,通常會(huì)忽略一些域差異較大的樣本,具有一定的局限性。

      針對(duì)傳統(tǒng)的域適應(yīng)方法具有一定的局限性以及合成數(shù)據(jù)集與煤礦監(jiān)控圖像域間差異較大的問(wèn)題,筆者從特征級(jí)域適應(yīng)和像素級(jí)域適應(yīng)2個(gè)角度出發(fā),提出雙對(duì)齊網(wǎng)絡(luò)模型。

      1.2 雙對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)

      研究目標(biāo)是將在源域圖像上學(xué)習(xí)的模型遷移到目標(biāo)域圖像上,使其可以準(zhǔn)確地預(yù)測(cè)目標(biāo)域圖像的像素級(jí)標(biāo)簽。方法主要包含特征級(jí)域適應(yīng)網(wǎng)絡(luò)和像素級(jí)域適應(yīng)網(wǎng)絡(luò)。給定源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集,像素級(jí)域適應(yīng)網(wǎng)絡(luò)在源域圖像和目標(biāo)域圖像之間進(jìn)行風(fēng)格遷移,得到具有目標(biāo)域風(fēng)格的源域圖像。特征級(jí)域適應(yīng)網(wǎng)絡(luò)包含分割網(wǎng)絡(luò)和判別器,2者通過(guò)對(duì)抗訓(xùn)練學(xué)習(xí)域不變特征。為提高判別器的判別能力,將注意力機(jī)制應(yīng)用到判別器中,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。源域圖像為xs∈XS,源域圖像的像素級(jí)標(biāo)簽為ys∈YS,

      圖1 雙對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of Dual Alignment Networks

      目標(biāo)域圖像為xt∈XT,其中,XS為源域圖像;xs為源域中的具體圖像;YS為源域標(biāo)簽數(shù)據(jù);ys為具體的源域標(biāo)簽數(shù)據(jù);XT為目標(biāo)域圖像;xt為目標(biāo)域中的具體圖像。

      基于ResNet-101網(wǎng)絡(luò)的DeepLab-v2[11]作為分割網(wǎng)絡(luò)G。DeepLab-v2是全卷積神經(jīng)網(wǎng)絡(luò)之后被廣泛應(yīng)用的語(yǔ)義分割模型。分割網(wǎng)絡(luò)G包含編碼器和分類器,判別器D中包含5個(gè)卷積核尺寸為4×4的卷積層和注意力模塊。源域圖像和目標(biāo)域圖像作為分割網(wǎng)絡(luò)G的輸入,得到源域圖像和目標(biāo)域圖像的分割結(jié)果。對(duì)于源域圖像的預(yù)測(cè)分割結(jié)果,根據(jù)像素級(jí)標(biāo)簽計(jì)算交叉熵?fù)p失優(yōu)化網(wǎng)絡(luò)G。源域圖像與目標(biāo)域圖像的分割結(jié)果輸入到判別器D中,判別器D需區(qū)分輸入來(lái)自于哪個(gè)域。通過(guò)分割網(wǎng)絡(luò)G和判別器D的聯(lián)合訓(xùn)練,進(jìn)行特征級(jí)對(duì)齊。源域圖像和目標(biāo)域圖像作為像素級(jí)域適應(yīng)網(wǎng)絡(luò)的輸入,獲得具有目標(biāo)域風(fēng)格的源域圖像。將具有目標(biāo)域風(fēng)格的源域圖作為分割網(wǎng)絡(luò)G的輸入,獲得預(yù)測(cè)的分割結(jié)果,根據(jù)源域圖像的像素級(jí)標(biāo)簽計(jì)算交叉熵?fù)p失并將其反向傳播到分割網(wǎng)絡(luò)G。

      1.3 特征級(jí)域適應(yīng)

      源域圖像和目標(biāo)域圖像在視覺(jué)級(jí)別上差異較大,但在語(yǔ)義類別方面信息是相同的,語(yǔ)義信息通常是域不變的[28]。通過(guò)學(xué)習(xí)域不變特征提取源域圖像和目標(biāo)域圖像的語(yǔ)義信息,實(shí)現(xiàn)跨域語(yǔ)義分割。使用特征級(jí)域適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)域不變特征,進(jìn)行特征級(jí)對(duì)齊。 特征級(jí)域適應(yīng)網(wǎng)絡(luò)主要包含分割網(wǎng)絡(luò)G和判別器D,目標(biāo)是減少2個(gè)領(lǐng)域之間特征表示的分布差異,其流程分為2步:

      (1)使用源域圖像進(jìn)行監(jiān)督訓(xùn)練。源域圖像作為分割網(wǎng)絡(luò)G的輸入,編碼器進(jìn)行特征提取,分類器對(duì)編碼器產(chǎn)生的特征進(jìn)行分類。多分類交叉熵?fù)p失作為分割損失函數(shù)。優(yōu)化多分類交叉熵?fù)p失,使編碼器提取的特征保留源域圖像的語(yǔ)義信息且分類器可以進(jìn)行準(zhǔn)確分類。該步的分割損失函數(shù)Lseg為

      (1)

      (2)對(duì)抗域適應(yīng)。源域圖像和目標(biāo)域圖像輸入分割網(wǎng)絡(luò)G,經(jīng)過(guò)編碼器和分類器,得到源域圖像分割結(jié)果和目標(biāo)域圖像分割結(jié)果。判別器接收源域和目標(biāo)域的分割結(jié)果并進(jìn)行區(qū)分。優(yōu)化判別器的交叉熵?fù)p失函數(shù),提高判別器的區(qū)分能力。交叉熵?fù)p失函數(shù)Ld為

      (2)

      式中,h,w分別為分割結(jié)果的高度和寬度;P為語(yǔ)義分割結(jié)果。

      z=0表示樣本來(lái)自目標(biāo)域,z=1表示樣本來(lái)自于源域。

      目標(biāo)域圖像輸入分割網(wǎng)絡(luò)G,經(jīng)過(guò)編碼器和分類器,得到目標(biāo)域分割結(jié)果PT=G(XT)。為使源域圖像分割結(jié)果的分布與目標(biāo)域圖像分割結(jié)果接近,采用如式(3)所示的損失函數(shù)Ladv:

      (3)

      在訓(xùn)練過(guò)程中,判別器D希望盡可能區(qū)分不同域的分割結(jié)果,分割網(wǎng)絡(luò)G希望目標(biāo)域圖像的分割結(jié)果可以欺騙過(guò)判別器D。通過(guò)不斷的對(duì)抗訓(xùn)練,分割網(wǎng)絡(luò)G學(xué)習(xí)到源域圖像和目標(biāo)域圖像的域不變特征,在特征空間中對(duì)齊源域和目標(biāo)域的分布,使得源域圖像訓(xùn)練的分割網(wǎng)絡(luò)G可以遷移到目標(biāo)域圖像。

      如圖1所示,交替訓(xùn)練分割網(wǎng)絡(luò)G和判別器D,在特征空間上調(diào)整源域和目標(biāo)域的特征分布,提高分割網(wǎng)絡(luò)G對(duì)目標(biāo)域圖像的泛化能力。由于合成圖像與煤礦圖像領(lǐng)域差異較大,使用特征級(jí)域適應(yīng)網(wǎng)絡(luò)學(xué)習(xí)域不變特征,其特征域不變性有所降低。為減少合成圖像與煤礦真實(shí)圖像的領(lǐng)域差異,在特征級(jí)域適應(yīng)網(wǎng)絡(luò)的基礎(chǔ)上引入像素級(jí)域適應(yīng)網(wǎng)絡(luò)。

      1.4 像素級(jí)域適應(yīng)

      圖像的紋理、光照等特征是造成域間差異的重要原因,減少域間差異,目標(biāo)域圖像的分割性能也會(huì)隨之提升。提出像素級(jí)域適應(yīng)網(wǎng)絡(luò),在保留其原始圖像內(nèi)容前提下,對(duì)源域圖像進(jìn)行風(fēng)格遷移,使其在背景、紋理、光照等方面與煤礦環(huán)境監(jiān)控圖像更接近。風(fēng)格化后源域圖像與目標(biāo)域圖像在視覺(jué)外觀上看起來(lái)像是來(lái)自同一個(gè)域,在輸入層面解決域偏移問(wèn)題。

      煤礦復(fù)雜環(huán)境監(jiān)控圖像存在外觀相似的不同語(yǔ)義類別目標(biāo)易混淆的問(wèn)題,導(dǎo)致域適應(yīng)語(yǔ)義分割有一定困難。在像素級(jí)域適應(yīng)網(wǎng)絡(luò)中,使用具有煤礦場(chǎng)景風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò)G。分割網(wǎng)絡(luò)G學(xué)習(xí)到煤礦環(huán)境監(jiān)控圖像的光照、紋理等特征,增強(qiáng)對(duì)不同類別目標(biāo)的區(qū)分度。像素級(jí)域適應(yīng)網(wǎng)絡(luò)如圖2所示。

      圖2 像素級(jí)域適應(yīng)網(wǎng)絡(luò)Fig.2 Pixel-level domain adaptation Network

      內(nèi)容損失函數(shù)用來(lái)衡量源域圖像和風(fēng)格化后圖像內(nèi)容上的誤差,內(nèi)容損失越小,表示圖像內(nèi)容的相似度越高。為構(gòu)建內(nèi)容損失函數(shù),筆者采用預(yù)訓(xùn)練的VGG19神經(jīng)網(wǎng)絡(luò)分別在源域圖像和風(fēng)格化后圖像上獲取特征映射,計(jì)算在特定卷積層上的特征相似度。如果特征相似度越高,則表明圖像之間的內(nèi)容相似度越高。選取源域圖像和風(fēng)格化后的圖像在第l層提取的特征的L2 loss作為內(nèi)容損失函數(shù)Lcontent_loss,即

      (4)

      針對(duì)圖像風(fēng)格遷移問(wèn)題,不僅需要內(nèi)容損失函數(shù)能夠衡量圖像內(nèi)容上的差異,同時(shí)需要風(fēng)格損失函數(shù)來(lái)衡量圖像間風(fēng)格的差異。圖像間風(fēng)格差異程度越小,則表示圖像風(fēng)格相似度越高。為構(gòu)建風(fēng)格損失函數(shù),通過(guò)預(yù)訓(xùn)練的VGG19神經(jīng)網(wǎng)絡(luò)分別在源域圖像和風(fēng)格化后圖像上獲取特征映射,使用Contextual Loss[27]計(jì)算圖像間的相似程度。

      源域圖像和目標(biāo)域圖像并不總是空間對(duì)齊的,采用Contextual Loss作為風(fēng)格損失函數(shù)。Contextual Loss認(rèn)為2張圖像同一區(qū)域的特征塊中大部分是相似的,則可認(rèn)為2張圖像是相似的。為計(jì)算圖像間的相似度,需要找到每個(gè)特征Yi最相似的特征Xi,然后求和相應(yīng)的特征相似度:

      (5)

      式中,CX為采用Contextual Loss損失函數(shù);CXij為特征相似性。

      風(fēng)格損失函數(shù)如式(6)所示,計(jì)算風(fēng)格化后圖像與目標(biāo)域圖像之間的差異并通過(guò)反向傳播的方式更新圖像轉(zhuǎn)換網(wǎng)絡(luò)T的參數(shù)。

      (6)

      (7)

      1.5 注意力模塊

      分割網(wǎng)絡(luò)G和判別器D進(jìn)行對(duì)抗訓(xùn)練,判別器D希望盡可能地區(qū)分接收的信息來(lái)自哪個(gè)域,分割網(wǎng)絡(luò)G希望分割結(jié)果可以混淆判別器。筆者在將注意力機(jī)制應(yīng)用到判別器D,提高判別器的判別能力。通過(guò)G和D的不斷進(jìn)行對(duì)抗訓(xùn)練,提高分割網(wǎng)絡(luò)G的泛化能力。

      注意力機(jī)制通過(guò)關(guān)注重要特征并抑制不必要的特征來(lái)增加特征表征力[29]。筆者設(shè)計(jì)基于注意力機(jī)制的判別器,在判別器D中添加通道注意力模塊和空間注意力模塊,如圖3所示。

      圖3 注意力模塊AMFig.3 Attenion Module AM

      CNN卷積層包含豐富的信息,同等的對(duì)待不同通道的特征映射會(huì)導(dǎo)致信息冗余。使用通道注意力模塊,為不同通道的特征映射分配不同的權(quán)重,如圖4所示,其中,S為sigmoid激活函數(shù);X為元素級(jí)相乘。

      圖4 通道注意力模塊Fig.4 Channel Attenion Module

      (8)

      式中,W0和W1為多層感知機(jī)的權(quán)重;σ為sigmoid函數(shù);?為元素級(jí)相乘。

      通道注意力模塊基于CBAM[30]方法,采用全局平均池化實(shí)現(xiàn)聚合運(yùn)算。全局平均池化得到的特征信息對(duì)特征圖中的每個(gè)特征都有反饋。多層感知機(jī)用來(lái)提取通道間的關(guān)系,學(xué)習(xí)每個(gè)通道的權(quán)重以獲取通道域的注意力。

      卷積是對(duì)局部區(qū)域進(jìn)行操作,很難捕獲到大范圍或全局不同位置的關(guān)系。非局部操作[31]基于非局部均值濾波的思想,捕獲不同位置間的關(guān)系??臻g注意力模塊使用非局部操作提升判別器的全局感知信息能力,如圖5所示。

      圖5 空間注意力模塊Fig.5 Spatial Attenion Module

      特征映射x∈RC×WH經(jīng)過(guò)3個(gè)1×1卷積操作得到3個(gè)特征空間,分別是f(x)=w1x,g(x)=w2x,h(x)=w3x,w1,w2,w3分別為1×1的卷積。將g(x)=w2x轉(zhuǎn)置后與f(x)=w1x相乘,計(jì)算相似度,之后經(jīng)過(guò)softmax歸一化,其計(jì)算公式為

      (9)

      其中,Sq,p為位置p和q之間的相關(guān)程度,空間注意力映射S∈RWH×HW,是由Sq,p組成的矩陣;f(xp)為特征映射x經(jīng)過(guò)1×1卷積后得到的特征映射在位置p的信息;g(xq)為特征映射x經(jīng)過(guò)1×1卷積后得到的特征映射在位置q的信息;f(xK)為特征映射x經(jīng)過(guò)1×1卷積后得到的特征映射在位置K的信息,其中K列出了所有可能的位置。S與h(x)=w3x進(jìn)行矩陣相乘,將其獲取的結(jié)果與特征x相加就得到具有空間注意力的特征。使用空間注意力模塊,對(duì)特征圖中不同位置信息建立依賴聯(lián)系,從而獲取到全局特征信息。

      2 實(shí)驗(yàn)結(jié)果及分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      為評(píng)估算法的有效性,在SYNTHIA-to-Cityscapes,GTA5-to-Cityscapes以及SYNTHIA到煤礦監(jiān)控圖像3個(gè)域適應(yīng)任務(wù)上進(jìn)行對(duì)比實(shí)驗(yàn)。Cityscapes數(shù)據(jù)集由5 000張真實(shí)城市環(huán)境中的駕駛場(chǎng)景圖像組成。GTA5數(shù)據(jù)集由基于城市洛杉磯視頻游戲的24 966張圖像組成,其分辨率大小為1 914×1 052。SYNTHIA數(shù)據(jù)集是一個(gè)大型的虛擬城市真實(shí)感效果圖集合。煤礦監(jiān)控圖像來(lái)自山西某煤礦,總計(jì)1 500張圖像,圖片尺寸為1 000×1 500。

      2.2 實(shí)驗(yàn)環(huán)境

      2.3 結(jié)果分析

      選用平均交并比(MIoU)衡量語(yǔ)義分割的分割精度,交并比(IOU)是預(yù)測(cè)語(yǔ)義分割結(jié)果與真實(shí)語(yǔ)義分割結(jié)果的交集除以它們的并集,平均交并比為所有語(yǔ)義類別的交并比的平均值。

      首先選取GTA5-to-Cityscapes,SYNTHIA-to-Cityscape兩個(gè)典型的域適應(yīng)任務(wù)進(jìn)行算法性能驗(yàn)證,將雙對(duì)齊網(wǎng)絡(luò)模型與AdaptSegNet[20],DCAN[32],CLAN[22]等算法進(jìn)行對(duì)比。AdaptSegNet與CLAN是典型的基于生成對(duì)抗網(wǎng)絡(luò)的域適應(yīng)語(yǔ)義分割算法,采用對(duì)抗訓(xùn)練的方式學(xué)習(xí)域不變特征,實(shí)現(xiàn)特征級(jí)域適應(yīng)。DCAN算法是基于風(fēng)格遷移[33]的域適應(yīng)語(yǔ)義分割算法,在圖像生成器和分割網(wǎng)絡(luò)中進(jìn)行通道級(jí)的特征對(duì)齊。表1給出在GTA5-to-Cityscapes域適應(yīng)任務(wù)上不同算法的域適應(yīng)語(yǔ)義分割結(jié)果。表2給出在SYNTHIA-to-Cityscapes域適應(yīng)任務(wù)上不同算法的域適應(yīng)語(yǔ)義分割結(jié)果。

      表1 GTA5到Cityscapes域適應(yīng)語(yǔ)義分割結(jié)果

      表2 SYNTHIA到Cityscapes域適應(yīng)語(yǔ)義分割結(jié)果

      根據(jù)表1和2,對(duì)于GTA5-to-Cityscapes域適應(yīng)任務(wù),本文方法的平均交并比達(dá)到43.7%,與DCAN,AdaptSegnet,CLAN等方法相比,分別提高5.20%,1.30%,0.73%。本文算法在SYNTHIA-to-Cityscape的域適應(yīng)任務(wù)上相比DCAN,AdaptSegNet,CLAN等方法,平均交并比分別提高3.10%,1.95%,0.98%。在典型的域適應(yīng)任務(wù)上,本文模型的分割性能明顯提升。雙對(duì)齊網(wǎng)絡(luò)模型將特征級(jí)域適應(yīng)與像素級(jí)域適應(yīng)相結(jié)合,不僅通過(guò)學(xué)習(xí)域不變特征提取源域和目標(biāo)域的語(yǔ)義信息,同時(shí)減少源域圖像與目標(biāo)域圖像之間紋理、光照等差異。注意力模塊的引入可提高判別器的判別能力,通過(guò)分割網(wǎng)絡(luò)和判別器的對(duì)抗訓(xùn)練增強(qiáng)分割網(wǎng)絡(luò)的泛化能力。

      圖6為CLAN算法與雙對(duì)齊網(wǎng)絡(luò)模型在GTA5到Cityscapes域適應(yīng)任務(wù)上的語(yǔ)義分割結(jié)果對(duì)比。CLAN算法是目前比較先進(jìn)的域適應(yīng)語(yǔ)義分割算法。觀察圖6,本文算法在能較好地分割出不同的語(yǔ)義類別目標(biāo),在道路、人行道等類別上優(yōu)于CLAN算法。

      圖6 GTA5到Cityscapes域適應(yīng)語(yǔ)義分割結(jié)果Fig.6 Exameple results of adapted segmentation for GTA5-to-Cityscapes

      根據(jù)表1和表2,Cityscapes作為目標(biāo)域數(shù)據(jù)集時(shí),在GTA5數(shù)據(jù)集上訓(xùn)練的模型比在SYNTHIA數(shù)據(jù)集上訓(xùn)練的模型獲得更好的分割性能。對(duì)數(shù)據(jù)集進(jìn)行比較,有2個(gè)方面的原因:① GTA5中有更多的訓(xùn)練樣本;② Cityscapes數(shù)據(jù)集的圖像多是在白天采集的,而SYNTHIA的圖像大多是黑夜中的場(chǎng)景。

      煤礦環(huán)境中光線昏暗,對(duì)比度低。與GTA5數(shù)據(jù)集相比,SYNTHIA數(shù)據(jù)集中大多數(shù)為黑夜中的場(chǎng)景。從圖像光照、背景等因素考慮,煤礦監(jiān)控圖像與SYNTHIA的域間差異更小,跨域語(yǔ)義分割的性能也會(huì)較好。當(dāng)煤礦監(jiān)控圖像作為目標(biāo)域數(shù)據(jù)時(shí),筆者選擇SYNTHIA數(shù)據(jù)集作為源域數(shù)據(jù)。表3 為SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)語(yǔ)義分割結(jié)果。

      表3 SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)語(yǔ)義分割結(jié)果

      對(duì)于SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)任務(wù),雙對(duì)齊網(wǎng)絡(luò)模型的平均交并比為38.26%,與AdaptSegNet[20],DCAN[32],CLAN[22]方法相比,分別提高7.19%,8.34%,5.56%。本文方法在特征級(jí)域適應(yīng)網(wǎng)絡(luò)的基礎(chǔ)上引入像素級(jí)域適應(yīng)網(wǎng)絡(luò),擴(kuò)大應(yīng)用場(chǎng)景。AdaptSegNet[20]與CLAN[22]方法使用對(duì)抗網(wǎng)絡(luò)進(jìn)行特征級(jí)域適應(yīng),通常會(huì)去除一些域差異較大的樣本,不適用于域間差異較大的煤礦環(huán)境監(jiān)控圖像域適應(yīng)語(yǔ)義分割問(wèn)題。DCAN方法使用通道級(jí)的特征對(duì)齊方法進(jìn)行像素級(jí)域適應(yīng)語(yǔ)義分割,分割性能偏低。本文方法從特征級(jí)對(duì)齊和像素級(jí)對(duì)齊2個(gè)角度出發(fā),擴(kuò)大應(yīng)用場(chǎng)景的同時(shí)提升分割性能。煤礦環(huán)境監(jiān)控圖像存在外觀相似的不同語(yǔ)義類別目標(biāo)易混淆的問(wèn)題,導(dǎo)致域適應(yīng)語(yǔ)義分割有一定困難。在像素級(jí)域適應(yīng)網(wǎng)絡(luò)中,使用具有煤礦環(huán)境監(jiān)控圖像風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò)G,提高語(yǔ)義類別辨識(shí)。

      圖7為DCAN,AdaptSegNet,CLAN與雙對(duì)齊網(wǎng)絡(luò)模型的煤礦監(jiān)控圖像語(yǔ)義分割結(jié)果對(duì)比。DCAN,AdaptSegNet,CLAN等算法分割結(jié)果比較粗糙,容易將不同的語(yǔ)義類別混淆,產(chǎn)生錯(cuò)誤的語(yǔ)義分割結(jié)果。本文模型的分割結(jié)果比較清晰,對(duì)不同語(yǔ)義目標(biāo)的輪廓預(yù)測(cè)比較準(zhǔn)確。

      圖7 SYNTHIA到煤礦環(huán)境監(jiān)控圖像的域適應(yīng)語(yǔ)義分割效果Fig.7 Exameple results of adapted segmentation for SYNTHIA-to-Coal Mine

      參數(shù)量表示模型參數(shù)的數(shù)量,通常用來(lái)衡量模型大小。為驗(yàn)證本文方法在模型尺寸與語(yǔ)義分割性能之間可以達(dá)到平衡,在SYNTHIA-to-Coal Mine域適應(yīng)任務(wù)上進(jìn)行實(shí)驗(yàn),4種方法的參數(shù)量及語(yǔ)義分割性能結(jié)果對(duì)比見(jiàn)表4。DCAN,AdaptSegNet,CLAN以及雙對(duì)齊網(wǎng)絡(luò)等方法以DeepLab-v2為主干網(wǎng)絡(luò),源域圖像的尺寸大小為1 024×608,目標(biāo)域圖像的尺寸大小為800×1 000。

      表4 4種方法的參數(shù)量

      根據(jù)表4,從參數(shù)量指標(biāo)分析,4種方法的參數(shù)量由高到低依次為DCAN、本文方法、CLAN、 AdaptSegNet,其中AdaptSegNet與DCAN方法的語(yǔ)義分割精度較低。與CLAN方法相比,本文方法的參數(shù)量與其相差較少,語(yǔ)義分割性能明顯提高。從參數(shù)量與平均交并比兩方面因素綜合來(lái)看,與DCAN,CLAN,AdaptSegNet相比,本文方法的綜合性能較好。本文方法在不增加計(jì)算負(fù)擔(dān)的前提下,跨域語(yǔ)義分割性能得到明顯提升。

      2.4 消融實(shí)驗(yàn)

      為驗(yàn)證雙對(duì)齊網(wǎng)絡(luò)中像素級(jí)域適應(yīng)網(wǎng)絡(luò)與注意力模塊的有效性,在GTA5-to-Cityscapes域適應(yīng)任務(wù)上進(jìn)行消融實(shí)驗(yàn)。表5顯示不同設(shè)置下的實(shí)驗(yàn)結(jié)果,基準(zhǔn)網(wǎng)絡(luò)為單層的AdaptSegNet[20]網(wǎng)絡(luò)。AdaptSegNet模型采用對(duì)抗訓(xùn)練的方式進(jìn)行特征級(jí)域適應(yīng)。

      表5 在GTA5-to-Cityscapes域適應(yīng)任務(wù)上雙對(duì)齊網(wǎng)絡(luò)的 消融實(shí)驗(yàn)結(jié)果

      根據(jù)表5,使用基準(zhǔn)網(wǎng)絡(luò)進(jìn)行域適應(yīng)語(yǔ)義分割,其平均交并比為41.2%。引入像素級(jí)域適應(yīng)網(wǎng)絡(luò),平均交并比為43.2%,與基準(zhǔn)網(wǎng)絡(luò)相比,語(yǔ)義分割性能提高2%。分割性能提升的主要原因是像素級(jí)域適應(yīng)網(wǎng)絡(luò)對(duì)源域圖像進(jìn)行風(fēng)格遷移,使其在紋理、背景、光照等方面與目標(biāo)域圖像接近,從輸入層面上減少域偏移。在判別器D中添加注意力模塊,平均交并比提高1.7%,由此驗(yàn)證將注意力機(jī)制應(yīng)用到判別器中,不僅提高判別器的判別力,同時(shí)增強(qiáng)了分割網(wǎng)絡(luò)的泛化能力?;鶞?zhǔn)網(wǎng)絡(luò)同時(shí)引入像素級(jí)域適應(yīng)網(wǎng)絡(luò)和注意力模塊,平均交并比為43.7%,語(yǔ)義分割性能提高2.5%,表明本文算法在域適應(yīng)語(yǔ)義分割任務(wù)上的有效性。

      為討論像素級(jí)域適應(yīng)網(wǎng)絡(luò)、注意力模塊對(duì)減少煤礦監(jiān)控圖像與合成圖像的域間差異的作用,本文在SYNTHIA-to-Coal Mine域適應(yīng)任務(wù)上進(jìn)行消融實(shí)驗(yàn)。表6顯示不同設(shè)置下的實(shí)驗(yàn)結(jié)果,以單層的AdaptSegNet[20]網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò)。

      表6 在SYNTHIA到煤礦監(jiān)控圖像域適應(yīng)任務(wù)上雙對(duì)齊 網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果

      根據(jù)表6,使用基準(zhǔn)網(wǎng)絡(luò)對(duì)煤礦監(jiān)控圖像進(jìn)行語(yǔ)義分割,其平均交并比為29.92%?;鶞?zhǔn)網(wǎng)絡(luò)引入像素級(jí)域適應(yīng)網(wǎng)絡(luò),平均交并比為36.4%。語(yǔ)義分割性能提高6.48%,主要是因?yàn)橄袼丶?jí)域適應(yīng)網(wǎng)絡(luò)將源域圖像風(fēng)格轉(zhuǎn)換為煤礦監(jiān)控圖像風(fēng)格。使用具有煤礦環(huán)境風(fēng)格的源域圖像進(jìn)行訓(xùn)練時(shí),分割網(wǎng)絡(luò)學(xué)習(xí)到煤礦環(huán)境監(jiān)控圖像光照、紋理等特征。在判別器D中添加注意力模塊,平均交并比提高5.98%。注意力模塊通過(guò)關(guān)注重要特征并抑制無(wú)關(guān)特征來(lái)增強(qiáng)特征的表征能力,進(jìn)一步提高判別器的判別能力。隨著分割網(wǎng)絡(luò)與判別器的不斷對(duì)抗訓(xùn)練,分割網(wǎng)絡(luò)的泛化能力也得以提高?;鶞?zhǔn)網(wǎng)絡(luò)同時(shí)引入像素級(jí)域適應(yīng)網(wǎng)絡(luò)和注意力模塊,平均交并比為38.26%,語(yǔ)義分割性能提高8.34%,表明本文算法在煤礦監(jiān)控圖像語(yǔ)義分割任務(wù)上的有效性。

      為討論注意力模塊中通道注意力模塊和空間注意力模塊的作用,筆者在GTA5-to-Cityscapes域適應(yīng)任務(wù)上進(jìn)行消融實(shí)驗(yàn)。表7顯示不同設(shè)置下的實(shí)驗(yàn)結(jié)果,基準(zhǔn)網(wǎng)絡(luò)采用單層的AdaptSegNet[20]網(wǎng)絡(luò)。

      表7 注意力模塊的消融實(shí)驗(yàn)結(jié)果

      根據(jù)表7,使用基準(zhǔn)網(wǎng)絡(luò)進(jìn)行域適應(yīng)語(yǔ)義分割,平均交并比為41.2%。判別器中添加通道注意力模塊,平均交并比為42.0%。與基準(zhǔn)網(wǎng)絡(luò)相比,語(yǔ)義分割性能提高0.8%。語(yǔ)義分割性能提升的主要原因是通道注意力模塊為不同通道的特征分配不同的權(quán)重,減少無(wú)關(guān)特征對(duì)判別器的影響。判別器中添加空間注意力模塊后,平均交并比為42.1%。與基準(zhǔn)網(wǎng)絡(luò)相比,語(yǔ)義分割性能提高0.9%??臻g注意力模塊采用非局部操作增強(qiáng)判別器的全局感知信息能力,提高判別器的判別能力?;鶞?zhǔn)網(wǎng)絡(luò)同時(shí)引入通道注意力模塊和空間注意力模塊,平均交并比為42.9%。與基準(zhǔn)網(wǎng)絡(luò)相比,語(yǔ)義分割性能提高1.7%,由此驗(yàn)證通道注意力模塊與空間注意力模塊相結(jié)合可以提高分割網(wǎng)絡(luò)的泛化能力。

      3 結(jié) 論

      (1)所提的像素級(jí)域適應(yīng)網(wǎng)絡(luò)能較好地解決合成圖像與煤礦監(jiān)控圖像域間差異問(wèn)題,從輸入層面上減少域間差異。

      (2)采用具有煤礦監(jiān)控圖像風(fēng)格的源域圖像訓(xùn)練分割網(wǎng)絡(luò),使其學(xué)習(xí)到煤礦監(jiān)控圖像紋理、光照等特征,提高煤礦場(chǎng)景監(jiān)控圖像語(yǔ)義類別辨識(shí)度,較好地解決不同語(yǔ)義類別目標(biāo)易混淆問(wèn)題。

      (3)注意力機(jī)制應(yīng)用到判別器中,可提高判別器的判別能力,進(jìn)而增強(qiáng)分割網(wǎng)絡(luò)的泛化能力。

      (4)雙對(duì)齊網(wǎng)絡(luò)模型在SYNTHIA到煤礦場(chǎng)景域適應(yīng)任務(wù)的平均交并比達(dá)到38.26%,優(yōu)于DCAN,AdaptSegNet,CLAN等算法,語(yǔ)義分割性能明顯提升,較好地分割出煤礦監(jiān)控圖像中不同尺度的人員、巷道、電燈等類別。

      猜你喜歡
      源域注意力語(yǔ)義
      多源域適應(yīng)方法綜述
      讓注意力“飛”回來(lái)
      基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
      語(yǔ)言與語(yǔ)義
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
      認(rèn)知范疇模糊與語(yǔ)義模糊
      語(yǔ)義分析與漢俄副名組合
      和林格尔县| 平潭县| 隆德县| 勐海县| 丰宁| 临安市| 紫云| 顺义区| 德惠市| 涡阳县| 海晏县| 迁安市| 呼和浩特市| 阿荣旗| 太仆寺旗| 宜兴市| 汝州市| 昭平县| 高平市| 建湖县| 合江县| 延长县| 南丹县| 石渠县| 珲春市| 南康市| 大渡口区| 龙游县| 周至县| 沐川县| 醴陵市| 雷州市| 沅陵县| 宾阳县| 峨眉山市| 民县| 齐齐哈尔市| 康定县| 安阳县| 远安县| 嘉祥县|