張 幸,王 旭,趙文倉(cāng)
(青島科技大學(xué) 自動(dòng)化與電子工程學(xué)院,山東 青島 266061)
現(xiàn)階段基于深度學(xué)習(xí)的傳統(tǒng)圖像生成方法大多采用編碼器到解碼器(enconder-to-decoder)結(jié)構(gòu)的變分自動(dòng)編碼器VAE[1]對(duì)高維圖像的特征向量或特征矩陣進(jìn)行編碼和解碼,或采用生成對(duì)抗網(wǎng)絡(luò)GAN[2]通過生成器和鑒別器做對(duì)抗學(xué)習(xí),一方面提高鑒別器對(duì)真假圖像的判別能力,另一方面提升生成器的生成能力。上述兩種方法在一定程度上受訓(xùn)練樣本的制約,很難生成與輸入樣本風(fēng)格不一的圖像,常用于傳統(tǒng)的圖像到圖像生成任務(wù)中。
2017年,陳啟峰等[3]提出一種名為級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)(cascaded refinement networks,CRN)的基于語義布局的圖像生成方法,該方法采用監(jiān)督訓(xùn)練的方式,給定語義標(biāo)簽,通過端到端(end-to-end)結(jié)構(gòu)生成接近真實(shí)場(chǎng)景的圖片。網(wǎng)絡(luò)采用從低級(jí)到高級(jí)堆疊精細(xì)化模塊的方式從語義標(biāo)簽中先生成低分辨率圖像,再通過層層級(jí)聯(lián)的精細(xì)化模塊將分辨率提高。相比VAE、GAN 等以真實(shí)圖像作為訓(xùn)練樣本的方式,CRN 結(jié)構(gòu)簡(jiǎn)單,無需編碼解碼和對(duì)抗訓(xùn)練。模型能夠從語義布局中學(xué)習(xí)圖像生成,由于語義標(biāo)簽只需存儲(chǔ)圖像的布局信息,相比RGB 彩色圖像,有占用內(nèi)存小,樣本簡(jiǎn)單,易獲取的優(yōu)勢(shì)。只需在任意數(shù)據(jù)集做簡(jiǎn)單語義分割即可獲得,獲取渠道廣,通過真實(shí)RGB圖像或藝術(shù)作品都能得到語義布局標(biāo)簽。因此可以借助CRN 通過動(dòng)畫、游戲場(chǎng)景的語義布局生成貼近真實(shí)場(chǎng)景的照片級(jí)圖像,為數(shù)據(jù)增強(qiáng)提供了新思路。尤其在自動(dòng)駕駛領(lǐng)域,基于駕駛員視角的真實(shí)場(chǎng)景訓(xùn)練圖像存在獲取成本高、樣本量少的困境,通過競(jìng)速游戲截取圖像的語義標(biāo)簽生成貼近真實(shí)場(chǎng)景的駕駛圖像,為豐富自動(dòng)駕駛數(shù)據(jù)集提供了幫助。該模型內(nèi)部通過卷積神經(jīng)網(wǎng)絡(luò)提取和處理特征,由于卷積網(wǎng)絡(luò)存在局部連接,生成圖像中語義目標(biāo)有模糊失真的現(xiàn)象。
2017年,何愷明等[4]在非局部神經(jīng)網(wǎng)絡(luò)(nonlocal neural networks)中提出用于卷積神經(jīng)網(wǎng)絡(luò)的自注意力機(jī)制(self-attention),以加強(qiáng)卷積網(wǎng)絡(luò)輸出多維特征之間的全局一致性。2018年,IAN 等[5]將自注意力機(jī)制引入到GAN 圖像生成模型,提出自注意力生成對(duì)抗網(wǎng)絡(luò)(self-attention generative adversarial networks,SAGAN),克服了卷積神經(jīng)網(wǎng)絡(luò)局部連接導(dǎo)致的圖像到圖像生成任務(wù)中語義目標(biāo)模糊失真的現(xiàn)象。
受自注意力生成對(duì)抗網(wǎng)絡(luò)通過注意力機(jī)制加強(qiáng)多維特征的全局一致性,提升生成圖像中語義目標(biāo)清晰度和真實(shí)性的啟發(fā),本文提出一種應(yīng)用于端到端結(jié)構(gòu)CRN 圖像生成模型的監(jiān)督注意力機(jī)制。通過建立注意力方程將第一級(jí)精細(xì)化模塊的輸出結(jié)果與語義標(biāo)簽內(nèi)的高級(jí)語義特征建立聯(lián)系,由模型淺層輸出的全局性較好的低分辨率大感受野特征和語義標(biāo)簽內(nèi)的高級(jí)語義特征聯(lián)合得到帶有全局信息的注意力特征,指導(dǎo)網(wǎng)絡(luò)從全局信息中生成真實(shí)感圖像,提升了模型由語義標(biāo)簽生成圖像任務(wù)中語義目標(biāo)的清晰度和真實(shí)性。
級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)以如圖1所示的精細(xì)化模塊(refinement module)為主體結(jié)構(gòu),以語義布局標(biāo)簽L∈{0,1}m×n×c為訓(xùn)練樣本生成真實(shí)感圖像,其中m×n表示語義標(biāo)簽的分辨率,c 為語義標(biāo)簽的通道,表示其中語義類別的數(shù)量。與傳統(tǒng)圖像生成模型VAE和GAN 由RGB圖像作為訓(xùn)練樣本生成圖像的方式不同,級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)采用歸一化的c 通道語義布局標(biāo)簽為樣本,樣本中不包含原始RGB圖像的底層紋理信息,占用內(nèi)存小,節(jié)省了圖像生成任務(wù)中樣本數(shù)據(jù)集的存儲(chǔ)空間。
圖1 精細(xì)化模塊結(jié)構(gòu)Fig.1 Structure of refinement module
如圖1所示,精細(xì)化模塊是一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由輸入層、中間層和輸出層組成,其內(nèi)部結(jié)構(gòu)如圖2所示,包括兩層卷積層、兩層歸一化層和兩層非線性激活層。精細(xì)化模塊的輸入層通過卷積層1接收語義布局標(biāo)簽L 和上一級(jí)模塊的輸出特征Fi-1作為輸入,經(jīng)中間歸一化層和非線性激活層,在最后的輸出層得到該級(jí)模塊的輸出特征Fi。以Mi表示模型中第i 個(gè)精細(xì)化模塊,每一個(gè)精細(xì)化模塊輸出一個(gè)固定分辨率的特征圖,通過對(duì)特征圖做雙線性插值上采樣,逐步提升圖像生成的分辨率。
圖2 精細(xì)化模塊內(nèi)部結(jié)構(gòu)Fig.2 Internal structure of refinement module
通過級(jí)聯(lián)精細(xì)化模塊,級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)由語義標(biāo)簽從低分辨率到高分辨率生成真實(shí)感圖像,模型結(jié)構(gòu)如圖3所示。
圖3 級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型Fig.3 Model of cascaded refinement networks
自注意力GAN[5]模型通過引入自注意力機(jī)制,取代傳統(tǒng)全連接層及全卷積結(jié)構(gòu),在無需為網(wǎng)絡(luò)模型引入過多學(xué)習(xí)參數(shù)的情況下,幫助卷積網(wǎng)絡(luò)實(shí)現(xiàn)了多維特征的全連接,從而獲取了特征圖的全局特征信息,提升了由圖像生成圖像任務(wù)中語義目標(biāo)的清晰度和真實(shí)性。
與自注意力GAN 僅在生成的初始階段通過鑒別器接收訓(xùn)練樣本,中間層不再引入樣本只接收輸入特征的圖像生成方式不同,級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型通過語義標(biāo)簽生成真實(shí)感圖像,在第一級(jí)精細(xì)化模塊之后級(jí)聯(lián)的每一級(jí)模塊都同時(shí)接收上采樣的輸出特征以及下采樣的語義標(biāo)簽。采用自注意力機(jī)制,在上一級(jí)輸出特征中引入自身特征,難以保證該特征與語義標(biāo)簽中高級(jí)語義信息的全局匹配能力。本研究結(jié)合級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)輸入特性,對(duì)語義標(biāo)簽內(nèi)的語義布局和幾何結(jié)構(gòu)特征同第一級(jí)精細(xì)化模塊輸出的多維特征做特征融合,通過語義標(biāo)簽指導(dǎo)第一級(jí)精細(xì)化模塊輸出特征在后續(xù)模塊內(nèi)生成更高分辨率的特征圖。
級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)是一種由低分辨率到高分辨率漸進(jìn)式生成圖像的模型,由于特征圖低分辨率下具有大感受野,語義目標(biāo)之間分布比較聚集,邊緣目標(biāo)被拉到了較近的特征列中表示,特征全局性較好。在第一級(jí)精細(xì)化模塊輸出的特征圖后通過注意力機(jī)制引入語義標(biāo)簽與輸出特征圖的融合特征,能夠保證多維特征較好的全局一致性。由于通過注意力機(jī)制對(duì)特征進(jìn)行融合的過程,同時(shí)使用了輸出特征本身和語義標(biāo)簽,類似由樣本和標(biāo)簽進(jìn)行訓(xùn)練的有監(jiān)督訓(xùn)練方式,故本研究將這種注意力稱為監(jiān)督注意力(supervised attention)。
由于精細(xì)化模塊內(nèi)部卷積層的作用,語義標(biāo)簽L 相比第一級(jí)精細(xì)化模塊輸出特征F0,維度發(fā)生了改變,本研究通過network in network(NIN)模型[6]提出的1×1卷積分別作用于語義標(biāo)簽L 與輸出特征F0,對(duì)語義標(biāo)簽升維的同時(shí)對(duì)輸出特征降維,使二者維度保持一致。卷積神經(jīng)網(wǎng)絡(luò)GoogleNet模型[7]曾將1×1卷積加入Inception模塊,對(duì)來自底層網(wǎng)絡(luò)的特征降維,再傳入后續(xù)串聯(lián)的卷積核。這種1×1單核卷積的優(yōu)勢(shì)在于只改變特征圖像的通道,而不對(duì)特征進(jìn)行縮放,即不改變特征圖像的分辨率。相比于傳統(tǒng)全連接層的方式,1×1卷積大幅減少了模型的參數(shù)量。
以d0表示輸出特征F0的維度,通過1×1卷積,將語義標(biāo)簽L 的維度由c 升維至d0//8,同時(shí)輸出特征F0降維至d0//8,以保證注意力層兩個(gè)輸入特征的通道維度相等,使二者可做矩陣相乘,保證在合理通道下計(jì)算注意力。過少的通道可能會(huì)導(dǎo)致輸出特征丟失細(xì)節(jié)使圖像失真,過多的通道則需要引入更多參數(shù),浪費(fèi)GPU 內(nèi)存。
在上述維度匹配過程,與 NIN 模型和GoogleNet模型不同,本研究?jī)H采用1×1卷積完成升降維,并不將卷積之后的特征映射非線性激活,未引入激活函數(shù),結(jié)構(gòu)簡(jiǎn)單。
以批量大小、通道、寬、高四維張量表示語義標(biāo)簽L 和輸出特征F0,令L∈[1,c,w,h],F0∈[1,d0,w0,h0],即每次訓(xùn)練采用一張c 維通道,分辨率為w×h 的語義標(biāo)簽,該語義標(biāo)簽經(jīng)第一級(jí)精細(xì)化模塊M0得到d0通道,分辨率為w0×h0的輸出。如圖4所示為監(jiān)督注意力模塊框圖。
圖4 監(jiān)督注意力模塊框圖Fig.4 Framework of supervised attention module
首先,將語義標(biāo)簽L 下采樣至分辨率為w0×h0,得到L0∈[1,c,w0,h0],L0和特征F0經(jīng)1×1卷積分別映射到兩個(gè)特征空間l0∈[1,d0//8,w0,h0]和f0∈[1,d0//8,w0,h0],可得到監(jiān)督注意力函數(shù):
βl,f表示語義標(biāo)簽和第i 個(gè)精細(xì)化模塊聯(lián)合構(gòu)成的監(jiān)督注意力,其中N =w0×h0為每通道的像素點(diǎn)數(shù)量,矩陣sl,f表示由語義標(biāo)簽L 生成圖像的過程中,M0輸出特征F0對(duì)L 的關(guān)注程度。為方便計(jì)算,將l0和f0的每通道像素在一維展開,有l(wèi)0∈[1,d0//8,N],f0∈[1,d0//8,N],則sl,f∈[1,N,N],經(jīng)Softmax函數(shù)得到同維度監(jiān)督注意力βl,f∈[1,N,N],相較于M0輸出特征F0∈[1,d0,w0,h0],βl,f維度發(fā)生較大改變,無法直接傳入下級(jí)精細(xì)化模塊,還需對(duì)輸出監(jiān)督注意力維度還原。
將M0輸出特征F0∈[1,d0,w0,h0]每通道像素點(diǎn)在一維展開,有F0∈[1,d0,N],本研究利用F0∈[1,d0,N]同監(jiān)督注意力βl,f∈[1,N,N]矩陣相乘進(jìn)行維度還原,得到監(jiān)督注意力輸出特征Fattn=F0βl,f,Fattn∈[1,d0,N],將一維表示的像素點(diǎn)還原至二維分辨率形式,有Fattn∈[1,d0,w0,h0]。
為使網(wǎng)絡(luò)逐步適應(yīng)全局特征輸入,通過可學(xué)習(xí)的縮放參數(shù)α 增強(qiáng)帶有注意力的輸出特征Fattn。
其中:α 表示可學(xué)習(xí)的縮放因子,訓(xùn)練階段初始化為0,經(jīng)反向傳播α 數(shù)值更新,逐漸增加,即網(wǎng)絡(luò)初始訓(xùn)練階段只學(xué)習(xí)簡(jiǎn)單任務(wù),處理M0輸出特征F0,隨訓(xùn)練進(jìn)行,再逐漸增加任務(wù)復(fù)雜度,學(xué)習(xí)全局特征,使網(wǎng)絡(luò)逐步適應(yīng)監(jiān)督注意力。綜上,得到監(jiān)督注意力算法:
輸入:語義標(biāo)簽L0,第一級(jí)精細(xì)化模塊M0輸出特征F0;
輸出:監(jiān)督注意力βl,f,監(jiān)督注意力特征Fattn,可學(xué)習(xí)監(jiān)督注意力特征Fout;
1)維度匹配:l0←conv2d(L0,20,128,kernel_size=1,stride=1,padding=0);f0←conv2d(F0,1 024,128,kernel_size=1,stride=1,padding=0);
2)構(gòu)建監(jiān)督注意力函數(shù):sl,f←,βl,f←Softmax(sl,f);
3)輸出監(jiān)督注意力特征:Fattn←F0βl,f;
4)輸出可學(xué)習(xí)監(jiān)督注意力特征:Fout←αFattn+F0。
本工作通過監(jiān)督注意力機(jī)制在第一級(jí)精細(xì)化模塊M0的輸出之后引入了語義標(biāo)簽,通過語義標(biāo)簽同M0輸出的每一維特征做特征融合,以此得到帶有標(biāo)簽內(nèi)語義布局、幾何結(jié)構(gòu)信息和每一維輸出特征信息的全局監(jiān)督注意力特征,保證了第二級(jí)精細(xì)化模塊M1的輸入特征是全局一致的。將本該下采樣輸入至第二級(jí)精細(xì)化模塊的語義標(biāo)簽輸入到監(jiān)督注意力層,同M0輸出做特征融合,提升了多維特征的全局一致性。為避免特征重復(fù)輸入,本研究在第二級(jí)精細(xì)化模塊M1中只輸入通過雙線性插值上采樣的全局可學(xué)習(xí)監(jiān)督注意力特征,不再單獨(dú)輸入下采樣的語義標(biāo)簽,直接將上采樣至分辨率8×16的1 024維可學(xué)習(xí)監(jiān)督注意力輸入到第二級(jí)模塊。監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型見圖5。
圖5 監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型Fig.5 Model of supervised attention CRN
第一級(jí)精細(xì)化模塊M0內(nèi)第一層卷積接收來自數(shù)據(jù)集提供的下采樣語義標(biāo)簽,經(jīng)中間層作用輸出包含局部特征的多維特征圖F0,F0輸入到監(jiān)督注意力層,同下采樣語義標(biāo)簽做全局特征融合,得到帶有包含語義標(biāo)簽中高級(jí)語義特征的全局監(jiān)督注意力特征,經(jīng)雙線性插值上采樣,傳入第二級(jí)精細(xì)化模塊M1,通過該模塊卷積層、歸一化層和非線性激活層的作用,輸出特征圖F1,對(duì)F1上采樣分辨率加倍與下采樣至同分辨率的語義標(biāo)簽分別傳入第三級(jí)精細(xì)化模塊M2,經(jīng)后續(xù)級(jí)聯(lián)的精細(xì)化模塊內(nèi)部卷積層、歸一化層、非線性激活層以及雙線性插值做分辨率加倍的作用,最后經(jīng)1*1卷積層降通道得到3通道RGB彩色生成圖像。此過程同原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型相同,仍舊遵循端到端結(jié)構(gòu),中間沒有引入編解碼器和反饋,結(jié)構(gòu)簡(jiǎn)單。
本研究基于監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)由語義標(biāo)簽生成真實(shí)感圖像的實(shí)驗(yàn),在Linux 內(nèi)核Ubuntu 16.04 系統(tǒng)下進(jìn)行,采用一張顯存為11 GB 的NVIDIA GTX 1080 Ti GPU 加速訓(xùn)練,編程語言基于Python 3.6.5,在Py Torch 1.0.1深度學(xué)習(xí)框架下進(jìn)行。實(shí)驗(yàn)數(shù)據(jù)集選用Cityscapes數(shù)據(jù)集[8]和GTA 5數(shù)據(jù)集[9],訓(xùn)練在Cityscapes訓(xùn)練集2 975張精細(xì)標(biāo)注的語義標(biāo)簽上進(jìn)行,通過Cityscapes驗(yàn)證集[8]和GTA 5數(shù)據(jù)集[9]的語義標(biāo)簽測(cè)試。
級(jí)聯(lián)更多精細(xì)化模塊能夠生成更高分辨率的圖像,但同時(shí)將帶來更多參數(shù),占用更高的GPU 存儲(chǔ)空間,受GTX 1080 Ti顯存限制,實(shí)驗(yàn)通過語義標(biāo)簽生成分辨率為256×512的真實(shí)感圖像。實(shí)驗(yàn)前,將Cityscapes訓(xùn)練集、驗(yàn)證集精細(xì)標(biāo)注語義標(biāo)簽和真實(shí)圖像縮放至256×512。實(shí)驗(yàn)初始化第一級(jí)精細(xì)化模塊M0從4×8分辨率條件下開始生成圖像,初始化M0輸出特征通道d0=1 024,精細(xì)化模塊內(nèi)卷積層采用步長(zhǎng)為1的3×3卷積結(jié)構(gòu),歸一化層采用對(duì)紋理信息魯棒性較好的實(shí)例歸一化IN[10],以保證模型能夠較好生成紋理特征。采用LeakyRe-LU 作為激活層,為網(wǎng)絡(luò)引入非線性,防止因線性運(yùn)算帶來模型中間層失效。優(yōu)化采用Adam 算法[11],學(xué)習(xí)率設(shè)置為0.000 1,一階矩估計(jì)指數(shù)衰減始化為0.9,二階矩估計(jì)指數(shù)衰減初始化為0.999,分子穩(wěn)定參數(shù)設(shè)置為1×10-8,不添加權(quán)重衰減。損失優(yōu)化階段對(duì)真實(shí)圖像和生成圖像進(jìn)行特征提取的卷積網(wǎng)絡(luò)采用19層的VGG-19[12]。
模型訓(xùn)練采用單批量,遍歷Cityscapes訓(xùn)練集200次,模型評(píng)估標(biāo)準(zhǔn)采用定性和定量3種評(píng)估方法:1)在Cityscapes驗(yàn)證集和GTA 5數(shù)據(jù)集語義標(biāo)簽上定性對(duì)比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)生成結(jié)果;2)定量對(duì)比級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)訓(xùn)練階段損失曲線變化;3)通過PSPNet[13]對(duì)級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)三種模型的生成圖像做語義分割,通過平均像素精度和語義分割平均掩碼交并比(mIoU)精度判斷圖像生成的真實(shí)度。
按照上述實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn),定性對(duì)比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)在Cityscapes驗(yàn)證集語義標(biāo)簽上的圖像生成結(jié)果,如圖6所示。
圖6 Cityscapes驗(yàn)證集語義標(biāo)簽圖像生成結(jié)果Fig.6 Images generated results in Cityscapes validation dataset
由圖6,自注意力和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型生成圖像中的語義目標(biāo)從視覺上與真實(shí)圖像更為接近,語義目標(biāo)相對(duì)清晰、完整。原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型未對(duì)特征做全局處理,僅通過最后的全連接依靠像素矩陣簡(jiǎn)單地將局部特征圖拼接組合在一起,導(dǎo)致生成圖像中出現(xiàn)語義目標(biāo)模糊在一起及局部語義特征丟失的現(xiàn)象,圖像生成質(zhì)量較差。原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型生成的相鄰在一起的汽車出現(xiàn)了明顯的模糊重影現(xiàn)象。引入注意力機(jī)制的自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型生成的汽車克服了這種失真。并且監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)生成結(jié)果相比自注意力模型在幾何結(jié)構(gòu)上更完整,目標(biāo)更清晰,更貼近真實(shí)場(chǎng)景。
定性對(duì)比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)在GTA 5數(shù)據(jù)集語義標(biāo)簽上的圖像生成結(jié)果,如圖7所示。
圖7 GTA 5數(shù)據(jù)集語義標(biāo)簽圖像生成結(jié)果Fig.7 Images generated results in GTA 5 dataset
由圖7,GTA 5數(shù)據(jù)集圖像來自游戲引擎渲染和Cityscapes圖像風(fēng)格差異較大,但是通過在Cityscapes數(shù)據(jù)集訓(xùn)練得到的CRN 模型、self-attention CRN 模型和supervised attention CRN 模型可以從GTA 5數(shù)據(jù)集的語義標(biāo)簽上生成與Cityscapes相同風(fēng)格的圖像。引入注意力機(jī)制的自注意力模型和監(jiān)督注意力模型由GTA 5語義標(biāo)簽生成的真實(shí)感圖像,相比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò),語義目標(biāo)更清晰、完整,并且監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)的生成結(jié)果相比自注意力模型結(jié)果在幾何結(jié)構(gòu)上更好,極大程度地避免了語義目標(biāo)的模糊重影。
根據(jù)訓(xùn)練階段損失曲線變化衡量級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)訓(xùn)練生成圖像對(duì)真實(shí)圖像的偏離度,見圖8。如圖8(a)、(b)、(c)所示分別為級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)遍歷cityscapes訓(xùn)練集200次得到的訓(xùn)練損失曲線對(duì)比。
圖8 訓(xùn)練損失曲線對(duì)比Fig.8 Comparison of training loss
由于引入了注意力機(jī)制,對(duì)全局特征進(jìn)行了調(diào)整,自注意力模型和監(jiān)督注意力模型相比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò),經(jīng)過較少次訓(xùn)練即可達(dá)到良好的生成效果,損失曲線收斂更快且收斂于更小值。并且由于監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)整合了更豐富的包含語義標(biāo)簽內(nèi)語義布局和幾何特征在內(nèi)的全局特征,相比自注意力模型在訓(xùn)練階段生成圖像對(duì)真實(shí)圖像的偏離度更小。
通過語義分割模型PSPNet[13]分別測(cè)試驗(yàn)證集生成圖像的像素語義分割精度(生成圖像分割掩碼同語義標(biāo)簽的像素對(duì)比)及語義目標(biāo)掩碼的平均交并比精度(mIo U,對(duì)生成圖像做語義分割得到的掩碼和真實(shí)語義標(biāo)簽掩碼在0.5到0.95增量為0.05的10種交并比條件下計(jì)算掩碼分割精度并取算術(shù)平均),若生成圖像接近真實(shí)圖像,語義分割模型能將生成圖像中的語義群體分割出來,并能得到較高的像素精度和mIo U 精度。表1所示為級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)、自注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)和監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)在Cityscapes驗(yàn)證集語義標(biāo)簽上生成的圖像及真實(shí)圖像基于PSPNet-50[13]的語義分割結(jié)果對(duì)比。
表1 生成圖像語義分割結(jié)果對(duì)比Table 1 Comparison of semantic segmentation results of generated images
在級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)模型中引入自注意力機(jī)制,生成圖像的語義分割像素精度相比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)提升了6.2%,mIo U 精度提升了22.3%。由于引入了語義標(biāo)簽中語義特征的幾何結(jié)構(gòu)信息,監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)在Cityscapes驗(yàn)證集語義標(biāo)簽上生成圖像的像素精度達(dá)到了82.0%,mIo U 精度達(dá)到了70.3%,在自注意力機(jī)制的基礎(chǔ)上像素精度提升了2.4%,mIo U 精度提升了4.4%。相比原始級(jí)聯(lián)細(xì)化網(wǎng)絡(luò),生成圖像的語義分割平均像素精度提升了8.6%,mIo U 精度提升了26.7%。監(jiān)督注意力級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)生成圖像的語義分割結(jié)果在兩種評(píng)判標(biāo)準(zhǔn)下都更接近真實(shí)圖像,生成語義目標(biāo)更真實(shí)。
結(jié)合圖像語義標(biāo)簽改進(jìn)了自注意力,提出一種應(yīng)用于級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)端到端圖像生成的監(jiān)督注意力機(jī)制,采用有監(jiān)督訓(xùn)練的方式,將淺層網(wǎng)絡(luò)輸出低級(jí)紋理特征同語義標(biāo)簽內(nèi)的高級(jí)語義特征結(jié)合,構(gòu)建全局注意力特征。提升了級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)全局信息處理能力,較大地提高了圖像生成質(zhì)量。無需對(duì)抗訓(xùn)練,可簡(jiǎn)單方便地從任意語義標(biāo)簽中生成真實(shí)感圖像,通過為游戲截圖做語義標(biāo)注即可為自動(dòng)駕駛數(shù)據(jù)集做大量數(shù)據(jù)增強(qiáng),協(xié)助訓(xùn)練復(fù)雜自動(dòng)駕駛模型。
青島科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年4期