丁一鵬,趙 璐
中南大學(xué) 物理與電子學(xué)院,長沙 410083
在制圖、城鎮(zhèn)規(guī)劃、地物分類等任務(wù)中,高分辨率遙感影像的語義分割起著重要的作用[1-4]。隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)如VGG[5]、ResNet[6]等在分類任務(wù)上取得巨大的成功,基于滑動(dòng)窗口的卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像語義分割得到應(yīng)用。而該類方法存在訓(xùn)練、預(yù)測耗時(shí),且patch大小難以確定的問題,因此許多基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[7-8]的方法被提出。它利用卷積操作的平移不變性與參數(shù)共享機(jī)制完全實(shí)現(xiàn)了語義分割的端到端的學(xué)習(xí),使以上問題得到解決,大大提高了高分辨率遙感圖像語義分割的整體準(zhǔn)確性。而后,DeepLab系列[9-10]、PSPNet[11]及U-Net[12-13]等方法的提出極大推動(dòng)了基于CNN的遙感圖像語義分割體系走向成熟。近年來,得益于研究人員對語義分割中注意力機(jī)制、上下文關(guān)系的獲取的研究,如Non-local[14]、DANet[15]與CCNet[16]等使用自注意力機(jī)制去獲取全局上下文關(guān)系,使得遙感圖像語義分割的精度又提升了一個(gè)臺(tái)階。然而,遙感圖像中物體和場景的劇烈變化是很難通過一個(gè)以少數(shù)特定地點(diǎn)上收集的遙感影像為訓(xùn)練集訓(xùn)練得到的模型可以學(xué)習(xí)到的,且獲取遙感圖像時(shí)不同的天氣條件及不同的時(shí)刻也會(huì)影響圖像中物體的結(jié)構(gòu)及其周圍環(huán)境的外觀[17]。因此在一個(gè)特定數(shù)據(jù)集上(源域)訓(xùn)練的模型往往很難泛化到另一個(gè)在訓(xùn)練過程中模型沒有見過的影像集合(目標(biāo)域)上。而通過直接在目標(biāo)域上對模型進(jìn)行微調(diào)來解決跨域問題的方式需要收集相應(yīng)的像素級(jí)標(biāo)簽卻是十分費(fèi)時(shí)費(fèi)力的。一位熟練的標(biāo)注者標(biāo)注一幅512×512的自然圖像需要5~7 min,對于更大的遙感圖像而言,標(biāo)注所需時(shí)間更是成倍提升。此外,現(xiàn)階段,隨著衛(wèi)星及各種傳感器的增多,可獲得的遙感影像數(shù)量也變得越來越多。當(dāng)需要為一個(gè)新的區(qū)域(目標(biāo)域)進(jìn)行分割時(shí),如果使用這種微調(diào)的方法就要為該區(qū)域的遙感影像進(jìn)行像素級(jí)標(biāo)注。顯然,為如此海量的遙感影像數(shù)據(jù)標(biāo)注像素級(jí)別的標(biāo)簽以訓(xùn)練語義分割模型是不現(xiàn)實(shí)的。
因此針對遙感圖像從源域到目標(biāo)域的泛化問題,提出了域自適應(yīng)算法。其中基于對抗學(xué)習(xí)的研究大致分為兩個(gè)方向:一是無監(jiān)督域自適應(yīng)[18-21]。該方向的研究利用對抗學(xué)習(xí)的思想在特征空間上對經(jīng)過編碼器提取的源域與目標(biāo)域的特征進(jìn)行對齊,然后在對齊后的特征上預(yù)測分割結(jié)果。Tasar等人[22]在圖像空間[23-25]提出了一種名為ColorMapGAN的方式去進(jìn)行源域到目標(biāo)域的分割遷移,使它們在視覺上相似。Hoffman等[18,26]在特征空間上使用一個(gè)域分類器優(yōu)化域?qū)箵p失函數(shù),使得源域與目標(biāo)域被同一特征提取器如ResNet提取的特征盡可能相似。Luo等[20]提出的CLAN以及Vu等[27]提出的ADVENT則通過對抗學(xué)習(xí)的思想在輸出空間中迫使源域與目標(biāo)域相似。其中在CLAN[20]中,他們通過自適應(yīng)調(diào)整針對每個(gè)類別的對抗性損失的權(quán)重來調(diào)整每個(gè)類別的特征。而ADVENT[27]則提出了一種熵值最小化方法,該方法基于域自適應(yīng),借助對抗學(xué)習(xí)最小化自熵。文獻(xiàn)[19]是最早引入輸出空間的域自適應(yīng)的語義分割方法。另一個(gè)方向是自監(jiān)督域自適應(yīng)。其思想是通過為模型之前的狀態(tài)生成的未標(biāo)記數(shù)據(jù)生成偽標(biāo)簽來訓(xùn)練模型。文獻(xiàn)[28]提出了一種基于類平衡的自訓(xùn)練方法,該方法從圖像中生成類平衡的偽標(biāo)簽,并根據(jù)模型的最后狀態(tài)分配最可信的標(biāo)簽。MinEnt[27]提出使用最小化熵的損失函數(shù)進(jìn)行模型的自監(jiān)督訓(xùn)練。通過閾值來生成偽標(biāo)簽也是一種常用的方法。文獻(xiàn)[29]用恒定閾值排除不太確信的類,并根據(jù)生成的偽標(biāo)簽訓(xùn)練模型。文獻(xiàn)[30]通過應(yīng)用在訓(xùn)練過程中分別為每個(gè)類計(jì)算的動(dòng)態(tài)閾值,過濾掉不太自信的類。
基于對抗學(xué)習(xí)無監(jiān)督域的自適應(yīng)方法目前已經(jīng)在遙感圖像域自適應(yīng)領(lǐng)域取得一定的進(jìn)展。然而,一方面,由于源域與目標(biāo)域之間的顯著差異性,如果直接通過對抗訓(xùn)練來實(shí)現(xiàn)源域和目標(biāo)域之間的相似性,容易導(dǎo)致向目標(biāo)域中引入來自源域的噪聲信息,即出現(xiàn)“負(fù)遷移”現(xiàn)象,從而降低語義分割域遷移的性能;另一方面,由于目標(biāo)域的標(biāo)簽缺乏,在對抗過程中容易導(dǎo)致模型多次迭代后更偏向源域類別分布,從而出現(xiàn)精度下降的不穩(wěn)定情況。
針對上述問題,本文對模型進(jìn)行改進(jìn),提出一種目標(biāo)域圖像級(jí)標(biāo)簽已知的弱監(jiān)督域自適應(yīng)方法。一方面,圖像級(jí)標(biāo)簽較像素級(jí)的語義分割標(biāo)簽相比更容易獲得,且在一定程度上反映了圖像的目標(biāo)信息,因此在訓(xùn)練過程中能減少對源域的過度偏移;另一方面,考慮到不同類別目標(biāo)之間的差異性,提出了一種多類域判別器以及一種基于熵值的目標(biāo)域像素級(jí)偽標(biāo)簽產(chǎn)生方法。具體地,多類域判別器為當(dāng)前圖像中存在的每一個(gè)類別都單獨(dú)計(jì)算損失函數(shù),從而使得目標(biāo)域各個(gè)類別以一種自適應(yīng)的方式對齊到源域。而基于熵值的目標(biāo)域像素級(jí)偽標(biāo)簽產(chǎn)生方法能夠產(chǎn)生可靠的目標(biāo)域像素級(jí)別偽標(biāo)簽,從而使得模型能夠?qū)W到目標(biāo)域的類別分布,進(jìn)而改善上述提到的訓(xùn)練過程不穩(wěn)定的問題。
綜上,本文的貢獻(xiàn)可以總結(jié)為如下三點(diǎn):
(1)提出一種目標(biāo)域圖像級(jí)標(biāo)簽已知的弱監(jiān)督域自適應(yīng)方法,通過多類域判別器為圖像中的每個(gè)類別計(jì)算損失函數(shù),從而實(shí)現(xiàn)類別自適應(yīng)的特征對齊,與全局對齊方式相比魯棒性更強(qiáng)。
(2)提出一種基于熵值的目標(biāo)域像素級(jí)偽標(biāo)簽生成過程,使得模型能學(xué)習(xí)到目標(biāo)域大致的類別分布,從而保持訓(xùn)練過程的穩(wěn)定。
(3)在ISPRS Vaihingen與ISPRS Potsdam數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,本文算法相較于其他遙感圖像語義分割中的基于對抗學(xué)習(xí)域自適應(yīng)算法性能有顯著提升。
為了更好地對基于對抗學(xué)習(xí)的無監(jiān)督域自適應(yīng)模型進(jìn)行講述,首先對一些概念進(jìn)行定義。定義一個(gè)有著像素級(jí)真值標(biāo)簽遙感圖像集合為源域,其對應(yīng)的像素級(jí)真值標(biāo)簽集合記為Ys?(1,K)H×W。其中K表示類別的數(shù)目,H和W則表示圖片的高與寬。而另一個(gè)在風(fēng)格上與源域圖像有著較大差異同時(shí)又缺乏像素級(jí)真值標(biāo)簽的遙感圖像集合被稱為目標(biāo)域。無監(jiān)督遙感圖像語義分割域自適應(yīng)的目標(biāo)是在僅在Ys的監(jiān)督下,模型能夠在Xt上達(dá)到一個(gè)很好的分割性能。
基于對抗學(xué)習(xí)的無監(jiān)督域自適應(yīng)[18-21]是利用對抗學(xué)習(xí)的思想在特征空間上對經(jīng)過編碼器提取的源域與目標(biāo)域的特征進(jìn)行對齊,然后在對齊后的特征上預(yù)測分割結(jié)果?;揪W(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括一個(gè)特征提取器F以及一個(gè)判別器D。
整個(gè)模型訓(xùn)練過程如下:
(1)利用源域進(jìn)行有監(jiān)督學(xué)習(xí),提取源域特征信息。從Xs中取一張圖像xs,其對應(yīng)的像素級(jí)標(biāo)簽為ys,xs通過F之后進(jìn)行上采樣得到對應(yīng)的預(yù)測置信度圖Ss,定義Ss與ys計(jì)算交叉熵?fù)p失函數(shù)Lseg=(1,1)(Ss,ys):
通過最小化Lseg完成對特征提取器F參數(shù)的更新,得到基于源域數(shù)據(jù)的模型。
(2)通過對抗學(xué)習(xí)優(yōu)化特征提取器及判別器,對齊源域與目標(biāo)域的特征分布。在對目標(biāo)域進(jìn)行訓(xùn)練時(shí),缺乏目標(biāo)域像素級(jí)標(biāo)簽,因此進(jìn)行無監(jiān)督學(xué)習(xí)。整個(gè)過程基于對抗網(wǎng)絡(luò),特征提取器F以及判別器D進(jìn)行交替訓(xùn)練。訓(xùn)練網(wǎng)絡(luò)F時(shí)固定判別器D,使F生成D無法辨別真?zhèn)蔚慕Y(jié)果,訓(xùn)練網(wǎng)絡(luò)D時(shí),使其盡可能地區(qū)分來自源域與目標(biāo)域的樣本真?zhèn)?。最終使模型學(xué)習(xí)到目標(biāo)域的特征分布并與源域特征對齊。具體來講,從Xt中取一張圖像xt,通過F之后進(jìn)行上采樣得到對應(yīng)的預(yù)測置信度圖St,與先前的Ss先后送入D中,計(jì)算并優(yōu)化對抗損失函數(shù)Ladv。xs與xt通過之后得到的特征在特征空間上將十分接近。
其中域分類器輸入Ss和St,如文獻(xiàn)[27,31]中所用到的,是K個(gè)通道的特征圖,經(jīng)過域分類器的處理后得到單通道的特征圖Cs和Ct。Cs和Ct上每一個(gè)像素點(diǎn)的值都代表著該點(diǎn)是否屬于源域的概率。將來自源域的圖像標(biāo)記為1,來自目標(biāo)域的圖像標(biāo)記為0。利用這個(gè)標(biāo)記以及域分類器的輸出計(jì)算對抗損失函數(shù)Ladv。Ladv包括兩部分,一個(gè)是對域分類器的訓(xùn)練的損失函數(shù)Ladv1=(1,1):
其中,LD是二元交叉熵?fù)p失,H與W為Cs和Ct高和寬。值得注意的是該項(xiàng)損失函數(shù)只優(yōu)化域分類器中的參數(shù)而不優(yōu)化F中的參數(shù)。其意義在于使得域分類器能夠準(zhǔn)確地判斷F提取的特征是來自源域還是目標(biāo)域。而Ladv的另一部分Ladv2則為如下形式:該項(xiàng)損失函數(shù)只優(yōu)化F而不影響域分類器。其意義在于使得F提取的目標(biāo)域的特征能夠在特征空間上與源域圖像經(jīng)過F的特征對齊,從而使得域判別器將其判斷為來自源域。這樣,通過兩部分損失函數(shù)的對抗學(xué)習(xí),使得F提取的目標(biāo)域的特征與源域相似,從而能夠用于后續(xù)的分割。
雖然該方法對自然影像的語義分割起到促進(jìn)作用,但其所用的判別器為單通道,即多個(gè)通道的特征圖經(jīng)過域判別器處理后會(huì)得到單通道的特征圖,其上每一個(gè)像素點(diǎn)的值代表著該點(diǎn)是否屬于源域的概率。并將來自源域的圖像標(biāo)記為1,來自目標(biāo)域的圖像標(biāo)記為0。而單通道的輸出并未考慮到不同類的差異,在多個(gè)類別特征對齊時(shí)可能產(chǎn)生負(fù)遷移現(xiàn)象。此外,由于目標(biāo)域與源域之間的類別分布存在差異[32],而基于對抗思想的無監(jiān)督自適應(yīng)缺乏目標(biāo)域類別分布的學(xué)習(xí),導(dǎo)致模型在多次迭代后,可能出現(xiàn)性能下降的不穩(wěn)定情況。
本文所提出的弱監(jiān)督遙感圖像語義分割域自適應(yīng),與無監(jiān)督所使用的在Ys的監(jiān)督下,模型在Xt上達(dá)到很好的分割性能的方法有一點(diǎn)不同,即目標(biāo)域的圖像級(jí)標(biāo)簽集合It?(0,1)K已知。因?yàn)镮t容易收集,所以能夠在花費(fèi)很少代價(jià)的情況下為模型的訓(xùn)練提供一種強(qiáng)有力的監(jiān)督信息。
模型的總體架構(gòu)如圖2所示,yt中的黑色為未標(biāo)記類別的區(qū)域,虛線代表測試階段不會(huì)用到。模型總體上由特征提取器F(這里采用帶空洞卷積的ResNet)以及一個(gè)多類域判別器D(5個(gè)步長為2的卷積)組成,即整體模型架構(gòu)沿用圖1所展示的GAN網(wǎng)絡(luò),而后在此基礎(chǔ)上對判別模塊進(jìn)行改進(jìn),提出多類域判別器模塊,并在ADVENT基礎(chǔ)上提出基于熵值產(chǎn)生目標(biāo)域像素級(jí)偽標(biāo)簽的方法。該模型的訓(xùn)練流程與傳統(tǒng)對抗網(wǎng)絡(luò)相似,在計(jì)算Lseg(Ss,ys)以及Ladv的基礎(chǔ)上,借助xt的圖像級(jí)別標(biāo)簽It以及預(yù)測置信度圖St,根據(jù)本文提出的基于熵值的偽標(biāo)簽產(chǎn)生方法,在偽標(biāo)簽生成模塊中生成了xt的像素級(jí)偽標(biāo)簽yt。
Lseg(St,yt)的持續(xù)優(yōu)化使得模型能夠?qū)W習(xí)到目標(biāo)域中類別的大致分布,從而不會(huì)出現(xiàn)文獻(xiàn)[32]中所提到的在多次迭代之后,模型偏向于學(xué)習(xí)到源域的類別分布導(dǎo)致模型性能出現(xiàn)下降的情況。
在全局對齊的過程中,所有類別的分布在一次訓(xùn)練迭代中都會(huì)被重新映射到其他的位置,并且每一個(gè)類別之間的對齊過程會(huì)相互影響。比如,A類在上一次的對齊過程中已經(jīng)被映射到特征空間中正確的位置,但是因?yàn)樾枰謱R,所以A類需要在本次對齊過程中在特征空間中被重新映射,導(dǎo)致了A類對齊不正確,這也是負(fù)遷移出現(xiàn)的根本原因。顯然,全局特征對齊是不合理的,因此提出了多類域分類器。在Ss和St輸入多類域分類器之前,通過一個(gè)類別選擇模塊進(jìn)行處理。對于源域,不用任何代價(jià)可以通過ys得到其圖像級(jí)別的標(biāo)簽(即當(dāng)前圖像中包括了哪幾個(gè)類),對于目標(biāo)域,可以通過極小的人力成本獲得圖像級(jí)別的標(biāo)簽It。這樣,在類別選擇模塊就可以選擇出當(dāng)前類別中所存在的類別對應(yīng)的通道圖并送入域分類器中。因此,在一個(gè)類別特征被對齊的時(shí)候,就不會(huì)再引起當(dāng)前不相關(guān)類別特征的變化,從而解決了負(fù)遷移的問題。
文獻(xiàn)[6]通過自監(jiān)督的方式,緩解了基于對抗思想的無監(jiān)督自適應(yīng)在不同域之間由于缺乏類別分布的學(xué)習(xí)而導(dǎo)致多次迭代后性能下降這一問題,該方式與大多數(shù)自監(jiān)督學(xué)習(xí)一致,由于缺乏先驗(yàn)信息的指導(dǎo),其用于自我監(jiān)督的信息不夠可靠。因此本文基于熵值的理論思想,以It作為先驗(yàn)信息,獲得了可靠的目標(biāo)域像素級(jí)偽標(biāo)簽yt。下面詳細(xì)地闡述基于熵值的偽標(biāo)簽生成方法。
熵是描述混亂程度的度量,可以通過如下方式計(jì)算得到St對應(yīng)的熵值圖:
如ADVENT[27]中所提到的,熵值越大的區(qū)域,代表模型的預(yù)測可信度越低,反之則越高。因此對熵值做一個(gè)閾值分割,保留熵值小于閾值的模型預(yù)測。這項(xiàng)操作可以正式地描述為:
其中,E為閾值,本文取E=0.52。但是這樣取值之后的偽標(biāo)簽依然不夠可靠。因?yàn)檫€存在一種可能性,即模型可能以較大的信心預(yù)測錯(cuò)了類別。所以在式(5)y(n,k)t取1的條件中又加入了一項(xiàng)k?It。通過弱標(biāo)簽It這一先驗(yàn)信息的加入,在一定程度上限制了模型錯(cuò)誤預(yù)測的可能性。同時(shí)最重要的一點(diǎn)在于讓模型學(xué)習(xí)到當(dāng)前圖片存在哪些類別的正確信息。
數(shù)據(jù)集:ISPRS Vaihingen與ISPRS Potsdam數(shù)據(jù)集分別包含來自德國兩座城市Vaihingen與Potsdam的超高分辨率遙感影像。其中Vaihingen采集了33幅,Potsdam采集了38幅。每幅影像都是從一個(gè)更大的正射遙感影像中裁剪出來的,它們的地面采樣距離為9 cm。因?yàn)閬碜圆煌某鞘校瑫r(shí)成像的波段有所差異,所以這兩個(gè)數(shù)據(jù)集的影像風(fēng)格與內(nèi)容上有很大的不同,是很典型的來自不同的兩個(gè)域的影像。
數(shù)據(jù)預(yù)處理:出于硬件條件的限制,本文利用隨機(jī)裁剪的方法將33幅Vaihingen影像與38幅Potsdam影像裁剪為512×512的大小。裁剪后,Vaihingen與Potsdam數(shù)據(jù)集分別產(chǎn)生了3 000張與6 000張512×512的影像。其中Vaihingen數(shù)據(jù)集被視為源域,Potsdam為目標(biāo)域。源域中所有的影像進(jìn)行參加模型的訓(xùn)練,而在目標(biāo)域中,隨機(jī)劃分了20%的影像作為測試集,其余80%作為訓(xùn)練集。
網(wǎng)絡(luò)框架:本文使用DeepLab-V2[2]作為基礎(chǔ)語義分割架構(gòu)。同時(shí),更好地捕捉場景上下文,空洞空間金字塔池化應(yīng)用于最后一層的特征輸出,其采樣率固定為{6,12,18,24}。DeepLab-V2中的特征提取器采用的是ResNet[6]。與DeepLab-V2一致,修改了最后一層的步長和空洞率,以產(chǎn)生具有更大感受野同時(shí)分辨率不變的特征圖。最后,為了進(jìn)一步提升模型的性能,采用了與ADVENT[27]一樣的操作,即自適應(yīng)地輸出了來自Conv4和Conv5的多級(jí)特征。多類域分類器實(shí)際上就是5層步長為2的卷積層。需要注意的是,卷積后使用的激活函數(shù)是Leaky Relu。
實(shí)施細(xì)節(jié):本文的代碼實(shí)現(xiàn)基于PyTorch深度學(xué)習(xí)框架[33],同時(shí)所有實(shí)驗(yàn)都是在單個(gè)顯存為8 GB的NVIDIA 2070Super GPU上完成的。除了多類域判別器之外,使用隨機(jī)梯度下降算法來優(yōu)化模型參數(shù),并設(shè)置初始學(xué)習(xí)率為2.5×10-4,動(dòng)量為0.9,權(quán)重衰減為10-4。而對于多類域判別器,使用Adam優(yōu)化器來進(jìn)行模型參數(shù)優(yōu)化,其初始化學(xué)習(xí)率為10-4。對于學(xué)習(xí)率下降,采用了余弦退火策略。模型總共訓(xùn)練了30個(gè)epoch,大約耗時(shí)12 h。
評(píng)價(jià)指標(biāo):實(shí)驗(yàn)選取平均交并比(mean intersection over union,mIoU)作為衡量本文模型分割效果的指標(biāo)。該值是衡量模型對圖像分割精度的重要指標(biāo)[34],計(jì)算公式為:
式中,i表示真實(shí)值,j表示預(yù)測值,pij表示將i預(yù)測為j。
3.2.1 消融實(shí)驗(yàn)
為驗(yàn)證各個(gè)模塊的有效性,本文進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。使用RAN[31]作為基線模型(即表1中的Baseline),然后,依次添加所提出的多類域判別器策略與偽標(biāo)簽產(chǎn)生策略以驗(yàn)證每一個(gè)模塊的有效性。
從表1中可以看出,當(dāng)多類域判別器被使用之后,相比于基線模型,本文所實(shí)現(xiàn)的模型的性能大幅度上升。這主要?dú)w功于在多類域判別器的機(jī)制下,每一個(gè)類別都獨(dú)立地將特征分布從目標(biāo)域?qū)R到源域,從而使得每個(gè)類別對齊的過程互不干擾,進(jìn)而減少了負(fù)遷移的現(xiàn)象,提升了模型性能。但是,從表中也可以觀察到樹木、汽車以及未知類的IoU指標(biāo)出現(xiàn)了不同程度的下降。這并不是負(fù)遷移造成的,而是由于這三類在整個(gè)數(shù)據(jù)集中訓(xùn)練樣本不多,使得訓(xùn)練不充分而導(dǎo)致。而使用多類域判別器所導(dǎo)致的小樣本類別性能的下降是之后重點(diǎn)需要研究的方向。
表1 消融實(shí)驗(yàn)對比結(jié)果Table 1 Comparison of results of ablation experiments
在使用本文所提出的偽標(biāo)簽監(jiān)督網(wǎng)絡(luò)訓(xùn)練之后,模型的性能進(jìn)一步提高,平均交并比達(dá)到了42.0%。這主要得益于偽標(biāo)簽的信息使模型訓(xùn)練的穩(wěn)定性得到保證。這一點(diǎn),在圖3加入偽標(biāo)簽前后的模型在訓(xùn)練過程中所表現(xiàn)的性能變化趨勢圖的對比中可以進(jìn)一步印證。在圖3中,可以直觀地感受到偽標(biāo)簽的加入對模型訓(xùn)練穩(wěn)定性的提升效果。
3.2.2與其他優(yōu)秀模型的對比
首先將在ISPRS Vaihingen數(shù)據(jù)集(源域)上訓(xùn)練好的DeepLab V3[10]對ISPRS Potsdam數(shù)據(jù)集(目標(biāo)域)影像進(jìn)行分割,結(jié)果見圖4。
在目標(biāo)域上,其分割總體精確度(OA)從源域上的0.85下降至0.35,這說明了進(jìn)行無監(jiān)督域自適應(yīng)的必要性。隨后,使用基于對抗思想的無監(jiān)督域自適應(yīng)方法,對目標(biāo)域中同一圖片的預(yù)測結(jié)果如圖5??梢钥吹剑趯顾枷氲臒o監(jiān)督域自適應(yīng)方法產(chǎn)生了上文提到的負(fù)遷移的現(xiàn)象[20],即圖5中紅圈所劃定的區(qū)域出現(xiàn)了在域適應(yīng)前被劃分正確,而在進(jìn)行域適應(yīng)之后被錯(cuò)誤劃分的現(xiàn)象。
為了避免這種負(fù)遷移現(xiàn)象,本文提出了多類域判別器的機(jī)制。同時(shí),為了保證模型訓(xùn)練的穩(wěn)定性,還提出了基于熵值的偽標(biāo)簽生成方法。加入這兩種機(jī)制之后,在表2中對比了本文模型與其他基于對抗思想的無監(jiān)督域適應(yīng)模型的性能??梢钥吹?,由于多類域判別器避免了負(fù)遷移,偽標(biāo)簽保證模型訓(xùn)練的穩(wěn)定性,本文模型的性能要優(yōu)于其他優(yōu)秀的模型。
表2 弱監(jiān)督域自適應(yīng)算法與其他方法的比較Table 2 Comparison of weakly-supervised domain adaptive method with other methods
最后,為了直觀地展示本文方法與其他方法的對比,在圖6中進(jìn)行可視化效果展示??梢钥闯觯珼eepLab網(wǎng)絡(luò)誤分較多,基本上達(dá)不到使用的水平。ADVENT網(wǎng)絡(luò)分割效果相比DeepLab有所提升,特征保留較為豐富,對第一行的房屋分割更為準(zhǔn)確,對陸地的劃分效果得到提升,且將第二行的建筑輪廓基本分割出來。
CLAN及LT-WAN[17]網(wǎng)絡(luò)對建筑的分割精度進(jìn)一步提升。但是通過觀察很容易發(fā)現(xiàn),基于對抗思想的模型在這些分割實(shí)例中,存在很多原本分割正確的區(qū)域在對抗訓(xùn)練之后被分割錯(cuò)誤。而本文模型由于加入了多類域判別器,大大減少了負(fù)遷移問題,因此性能要優(yōu)于其他模型。
由于天氣、人文以及傳感器等因素的影響,遙感圖像域與域之間的圖像風(fēng)格差異往往非常大。而在實(shí)踐中,顯然人們無法為如此海量的遙感數(shù)據(jù)的每一個(gè)域都標(biāo)注像素級(jí)別的真值標(biāo)簽,因此遙感圖像語義分割的域自適應(yīng)是一個(gè)十分實(shí)際且有意義的任務(wù)。本文提出了一種弱監(jiān)督的遙感圖像語義分割域自適應(yīng)方法。相比于無監(jiān)督的方法,本文基于弱監(jiān)督標(biāo)簽提出了多類域判別器策略與偽標(biāo)簽產(chǎn)生策略,分別解決了域遷移中的負(fù)遷移問題與訓(xùn)練過程不穩(wěn)定的問題。與此同時(shí),相比于像素級(jí)的地面真值,本文的圖像級(jí)標(biāo)簽僅僅需要耗費(fèi)少量人力物力即可獲得。換言之,本文模型在較小地提升人力的情況下,極大地提升了域遷移的準(zhǔn)確率。