曾文獻(xiàn),馬月,丁宇,張淑青,李偉光
(1.河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,石家莊050061;2.中國電子科技集團(tuán)第五十四研究所,石家莊050081)
語義分割如今成為計(jì)算機(jī)視覺研究的關(guān)鍵技術(shù)之一,通過對圖像中的像素點(diǎn)進(jìn)行分類,然后得到目標(biāo)像素點(diǎn)的標(biāo)簽和位置信息,并將不同目標(biāo)分割出來。早期的圖像語義分割方法主要是利用人工提取一些淺層的特征,如基于邊緣[1]、基于閾值[2]等。但是對于復(fù)雜的場景圖片,無法達(dá)到分割的預(yù)期效果。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的語義分割方法取得了突出表現(xiàn),常用的深度學(xué)習(xí)語義分割網(wǎng)絡(luò)有:卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)、全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)和對抗神經(jīng)網(wǎng)絡(luò)GAN(Gen?erative Adversarial Network)[4]等。后來出現(xiàn)的基于FCN、RNN和GAN等改進(jìn)的方法,與早期方法相比不管是準(zhǔn)確率還是速度上都有了很大的提高。本文針對基于深度學(xué)習(xí)的圖像語義分割方法進(jìn)行了歸納總結(jié),對圖像語義分割方法進(jìn)行了分類討論和性能對比,并對今后的發(fā)展趨勢進(jìn)行了總結(jié)。
圖像語義分割方法主要是基于全監(jiān)督學(xué)習(xí)方法,全監(jiān)督語義分割方法使用像素級標(biāo)簽數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練樣本提供了大量的細(xì)節(jié)信息和局部特征,有助于提高網(wǎng)絡(luò)的分割效果。
基于候選區(qū)域的方法在語義分割方面雖然取得了一定的成果,但是容易丟失圖像中小目標(biāo)信息,直接影響圖像語義分割效果。2014年,文獻(xiàn)[3]提出的FCN,可以輸入任意尺寸的圖像。FCN是將卷積神經(jīng)網(wǎng)絡(luò)最后一層的全連接層替換成1×1的卷積層,然后通過反卷積層對最后一個(gè)卷積層進(jìn)行上采樣,使輸出恢復(fù)到輸入圖像相同的尺寸,最后每個(gè)像素進(jìn)行預(yù)測。FCN在圖像語義分割方面取得了不錯(cuò)的成果,但該方法存在一定的局限性,一是雖然上采樣恢復(fù)了圖像的尺寸但丟失部分像素的位置信息。二是FCN沒有考慮全局上下文的信息,缺乏空間一致性。針對FCN的不足,研究者提出一系列基于FCN改進(jìn)的方法。
1.1.1 基于空洞卷積的方法
FCN上采樣雖然恢復(fù)到原來圖像的大小,使得很多細(xì)節(jié)信息被丟失。空洞卷積(Atrous Convolution)則可在不減小圖像大小的情況下還可以增大感受野提高圖像特征圖的分辨率。感受野計(jì)算如公式(1),其中rn表示第n層layer的輸入的某個(gè)區(qū)域,sn表示第n層layer的步長,kn表示filter的尺寸。
DeepLab[5]深度卷積網(wǎng)絡(luò)模型,通過利用空洞卷積代替反卷積操作來增加感受野,獲得更多上下文信息。該方法還增加了條件隨機(jī)場CRF(Conditional Random Field),用來提高網(wǎng)絡(luò)語義分割的準(zhǔn)確性。CRF模型的能量函數(shù)E(x)如公式(2),其中x是像素的標(biāo)簽,θi(xi)是一元?jiǎng)菽芎瘮?shù),用來描述觀測序列對標(biāo)記變量的影響。θij(xi,yi)是二元?jiǎng)菽芎瘮?shù),描述變量之間的相關(guān)性和觀測序列的影響。
在DeepLab的基礎(chǔ)上提出了DeepLab-v2[6],解決了圖像中存在的多尺度問題。該方法提出了空洞空間金字塔池化ASPP(Atrous Spatial Pyramid Pooling)模塊,利用4種采樣率的擴(kuò)張卷積核提取多尺度特征,然后利用全連接隨機(jī)場優(yōu)化分割效果。加入空洞卷積后,處理速度達(dá)到8FPS,CRF達(dá)到0.5s。隨后,在DeepLab-v2的基礎(chǔ)上提出了DeepLab-v3[7]網(wǎng)絡(luò)。該網(wǎng)絡(luò)改進(jìn)了ASPP,在空洞卷積之后添加了批量歸一化層,將結(jié)果經(jīng)過1×1卷積,然后利用雙線性插值上采樣得到所需的空間維度。該網(wǎng)絡(luò)在數(shù)據(jù)集PASCAL VOC 2012上的性能比DeepLab、DeepLab-v2有了明顯的提升。
基于空洞卷積的方法總結(jié)如表1所示,通過引入空洞卷積和CRF不僅有效解決了因?yàn)檫B續(xù)池化和降采樣而導(dǎo)致的分辨率降低、細(xì)節(jié)信息丟失的問題,而且可以獲取不同尺度的圖像信息。
表1 全監(jiān)督語義分割方法
1.1.2 基于編解碼的方法
編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)可以解決FCN因上采樣操作而導(dǎo)致的像素位置信息丟失的問題。編碼器由多個(gè)卷積層組成,用來獲取圖像的總體特征和局部特征。解碼器則是由多個(gè)反卷積或上池化組成,用來恢復(fù)特征圖的空間分辨率,并進(jìn)行像素分類。
2015年,Noh等人[8]提出了一個(gè)基于反卷積的De?convNet網(wǎng)絡(luò)。它是基于編碼器-解碼器體系結(jié)構(gòu),將上池化操作與反卷積操作結(jié)合起來,可以適應(yīng)多尺度的目標(biāo)。Badrinarayanan等人[9]將DeconvNet網(wǎng)絡(luò)進(jìn)一步擴(kuò)展成SegNet網(wǎng)絡(luò)。SegNet網(wǎng)絡(luò)去掉了DeconvNet的FC層,減少了參數(shù)量和存儲(chǔ)空間,而且在下采樣時(shí)不僅輸出pooling結(jié)果還輸出pooling過程中的索引。隨后,F(xiàn)ourure等人[10]將SegNet擴(kuò)展為基于貝葉斯的模型(Bayesian SegNet),在編碼器和解碼器之間添加了ratio=0.5的dropout層。進(jìn)一步提升了網(wǎng)絡(luò)學(xué)習(xí)能力。2018年,Chen等人[11]提出DeepLab-v3+模型,該模型設(shè)計(jì)了一個(gè)Encoder-Decoder結(jié)構(gòu),用于恢復(fù)目標(biāo)的邊緣信息,獲得更豐富的上下文信息,還增加了Xcep?tion模塊,提高了網(wǎng)絡(luò)的運(yùn)行速度和語義分割精度。
卷積神經(jīng)網(wǎng)絡(luò)通過犧牲空間信息和像素位置信息來獲取高層次的圖像特征,丟失的細(xì)節(jié)信息往往對后面的操作有著很大的影響。由上池化或者反卷積組成的解碼器通過對卷積層輸出的特征圖進(jìn)行上采樣,就可以避免因?yàn)樘卣鲌D分辨率降低帶來的問題。
1.1.3 基于特征融合的方法
FCN學(xué)習(xí)到的是局部特征,感受野不夠、缺乏對圖像全局特征和上下文的信息的利用。該技術(shù)包括合并全局特征(從網(wǎng)絡(luò)中的上一層提取)與從下一層提取的更局部的特征圖。研究發(fā)現(xiàn),因?yàn)镕CN的實(shí)際感受野比理論要小的多,提取到的特征圖就會(huì)缺乏全局特征信息,為了解決這個(gè)問題,ParseNet[12]模型引入全局池化層來彌補(bǔ)感受野不足的問題。先通過一個(gè)全局池化提取全局特征就,然后再采用早融合的方式將全局特征與局部特征進(jìn)融合,因?yàn)樘卣鲌D尺度不一樣,融合時(shí)準(zhǔn)確率會(huì)下降,所以特征融合之前需要進(jìn)行L2正則化處理如公式(3)所示,其中輸入x=(x1…xd),‖x‖2是定義的x的L2范數(shù)。
SharpMask[13]網(wǎng)絡(luò)中引入了一種漸進(jìn)式優(yōu)化模塊,以自頂向下的體系結(jié)構(gòu)將低維特征與高維語義信息相結(jié)合,即先由卷積神經(jīng)網(wǎng)絡(luò)生成一個(gè)粗略的mask,然后逐層與低維特征融合進(jìn)行一系列的Refine,來優(yōu)化物體的邊緣信息。Refine的過程中,Refine模塊Ri合并粗略的mask(Mi)和對應(yīng)層的特征Fi得到新的mask(Mi+1)如公式(4)所示。
針對下采樣過程導(dǎo)致的信息丟失問題,研究者們提出了反卷積操作和空洞卷積來解決這一問題。除此之外,RefineNet[14]提出了一種多路徑神經(jīng)網(wǎng)絡(luò),通過遞歸方式獲取低層特征來優(yōu)化高層特征,有效地利用多級特征來生成高分辨率特征圖。MSPP[15]模型提出了Global-Attention Fusion(GAF)模塊,包含兩個(gè)分支,一個(gè)用來將高層特征圖進(jìn)行全局平均池化作為注意力機(jī)制圖,另一個(gè)將低層特征圖通過瓶頸架構(gòu)初步學(xué)習(xí)獲得淺層特征,然后利用生成的注意力機(jī)制圖與淺層特征圖相融合得到加權(quán)特征圖。最后將高層特征圖與加權(quán)特征圖連接起來進(jìn)行上采樣得到最終預(yù)測。
根據(jù)RNN處理處理序列數(shù)據(jù)的特點(diǎn),RNN可以用來解決無法充分利用上下文信息的問題。2D LSTM模塊[16]是一種二維長短記憶遞歸神經(jīng)網(wǎng)絡(luò)模塊,由四個(gè)LSTM塊組成,將四個(gè)方向的上下文信息存儲(chǔ)在序列數(shù)據(jù)中,并對圖像中的長期依賴記性建模。每個(gè)LSTM包含三個(gè)門,輸入門i、忘記門f和輸出門o。在x和y的方向上計(jì)算輸入門如公式(5),其中,W、H和C是權(quán)值矩陣,是x和y方向的輸出激活,f1(·)和f2(·)是sigmoid和tanh函數(shù)。
輸出門的輸出ot如公式(6)。
ReSeg網(wǎng)絡(luò)[17]在ResNet基礎(chǔ)上進(jìn)行的改進(jìn),該方法由局部特征提取層、ResNet層和反卷積層三個(gè)部分組成。圖像先經(jīng)過VGG16進(jìn)行預(yù)訓(xùn)練得到局部特征,然后送入ResNet網(wǎng)絡(luò)獲得全局特征和上下文信息,這個(gè)過程減小了空間分辨率,最后再通過反卷積組成的上采樣層,恢復(fù)空間分辨率,獲取分割結(jié)果。
使用RNN處理圖像語義分割,解決了長期依賴關(guān)關(guān)系進(jìn)行建模的局限性,通過將圖像像素進(jìn)行連接按順序處理,建立像素與像素之間的時(shí)間依賴模型,充分利用上下文的關(guān)系。
圖像語義分割算法大都采用有監(jiān)督學(xué)習(xí),但是訓(xùn)練模型需要大量像素級標(biāo)記數(shù)據(jù),不僅成本高,還費(fèi)時(shí)費(fèi)力。近幾年,弱監(jiān)督學(xué)習(xí)的方法廣泛應(yīng)用到語義分割中,主要方法是基于以下兩種經(jīng)典網(wǎng)絡(luò):基于CNN的方法和基于GAN的方法。
基于CNN的方法如今仍然占大多數(shù)。CCNN(Constrained Convolutional Neural Network)[18]是基于弱監(jiān)督的約束卷積神經(jīng)網(wǎng)絡(luò),該方法使用圖像級標(biāo)注作為CNN分類器輸出的標(biāo)簽分布的約束條件,并提出損失函數(shù)MULTI-CLASS MIL LOSS來對具有任意線性約束的卷積網(wǎng)絡(luò)進(jìn)行優(yōu)化。訓(xùn)練過程可以看作是求線性約束條件最優(yōu)問題如公式(7),其中P(x)是一個(gè)隱含的類別分布,Q(x)是CNN預(yù)測類別分布。
陳辰等人[19]提出基于動(dòng)態(tài)掩膜生成的弱監(jiān)督語義分割方法。該方法首先利用CNN提取圖像特征,然后通過迭代的方式整合多層特征,每次迭代的輸入采用一層特征圖,得到圖像前景目標(biāo)邊緣,再根據(jù)目標(biāo)邊緣信息生成掩膜,最后通過CNN特征對掩膜進(jìn)行修正。訓(xùn)練損失函數(shù)L如公式(9),其中l(wèi)(hij,yij)表示Softmax損失函數(shù),hij和yij分別表示預(yù)測結(jié)果h偽標(biāo)簽y在(x,y)處的數(shù)據(jù)。
由于弱監(jiān)督語義分割減弱了對密集注釋的依賴,其性能遠(yuǎn)不如全監(jiān)督語義分割方法,受多尺度特征在圖像處理應(yīng)用中的啟發(fā),SAFN[20]是通過注意力機(jī)制為不同尺度和不同位置的特征分配權(quán)重,然后將所有尺度的特征圖加權(quán)求和得到目標(biāo)定位。因?yàn)樽⒁饬C(jī)制損失函數(shù)可以進(jìn)行反向傳播,所以可將注意力機(jī)制與分類進(jìn)行聯(lián)合訓(xùn)練。
生成對抗網(wǎng)絡(luò)(GAN)通過巧妙地利用博弈的思想來學(xué)習(xí)生成式模型,由兩個(gè)網(wǎng)絡(luò)組成,一個(gè)是生成器網(wǎng)絡(luò),用于生成樣本;另一個(gè)是判別器網(wǎng)絡(luò),區(qū)分從訓(xùn)練數(shù)據(jù)抽取的樣本和從生成器抽取的樣本。如今,GAN在弱監(jiān)督學(xué)習(xí)領(lǐng)域有廣泛的應(yīng)用。Souly等人[21]對GAN網(wǎng)絡(luò)進(jìn)行了改進(jìn),將GAN網(wǎng)絡(luò)應(yīng)用于弱監(jiān)督學(xué)習(xí)的圖像語義分割。該方法通過生成對抗網(wǎng)絡(luò)創(chuàng)建大量非真實(shí)圖像,使判別器學(xué)習(xí)到更準(zhǔn)確的特征。還通過添加噪聲和使用圖像級標(biāo)簽作為附加信息的樣本用于生成圖像,為確保GAN生成更高質(zhì)量的圖像。通過向網(wǎng)絡(luò)中添加圖像級類別標(biāo)簽,損失函數(shù)如公式(10)所示,其中Pl(l)類標(biāo)簽的先驗(yàn)分布,D(x,l)是數(shù)據(jù)x和標(biāo)簽l的聯(lián)合分布,G(z,l)是噪聲z和標(biāo)簽l的聯(lián)合分布,Pz(z|l)是z和l的條件分布。
為了解決分類網(wǎng)絡(luò)僅對小而稀疏的區(qū)域做出響應(yīng)的問題,對抗性擦除方法(Adversarial Erasing,AE)[22]被提出來解決這一問題。該方法首先使用圖像級標(biāo)注的樣本訓(xùn)練網(wǎng)絡(luò),利用分類網(wǎng)絡(luò)定位圖像中最具判別力的區(qū)域,然后從原始圖像中擦除該區(qū)域,并將擦除后的圖像用于訓(xùn)練定位其他區(qū)域的網(wǎng)絡(luò)。重復(fù)進(jìn)行對抗擦除操作,直到網(wǎng)絡(luò)在被擦除的訓(xùn)練圖像上不能很好地收斂。最后將被擦除的區(qū)域合并起來作為挖掘出的物體區(qū)域。
對抗擦除方法雖然取得了一定的成果,但是網(wǎng)絡(luò)過于復(fù)雜,參數(shù)多、計(jì)算量大,對抗互補(bǔ)學(xué)習(xí)(ACoL)方法[23]雖然借鑒了對抗擦除方法的思想,但是計(jì)算復(fù)雜度大大減小。該方法可以在弱監(jiān)督下自動(dòng)定位語義感興趣的區(qū)域,并采用兩個(gè)平行的兩分類器,其中一個(gè)分類器A用來定位具有判別性區(qū)域,而另一個(gè)分類器B用來定義A沒有定位出來的感興趣區(qū)域,從而形成一種互補(bǔ)。最后,將兩個(gè)分類器的結(jié)果融合為輸出。訓(xùn)練圖集表示如公式(11),其中yi是圖像的標(biāo)簽,N是圖像的數(shù)量。
現(xiàn)有的許多語義分割算法只能在特定的場景下使用,泛化能力比較差,無法在相似數(shù)據(jù)集上取得不錯(cuò)的性能。為了解決這一問題,遷移學(xué)習(xí)逐漸被應(yīng)用到語義分割,如基于深度遷移學(xué)習(xí)的生成對抗網(wǎng)絡(luò)[24],該網(wǎng)絡(luò)在淺層和最終輸出層中添加對抗學(xué)習(xí),使輸出目標(biāo)預(yù)測個(gè)更加接近源預(yù)測,然后反向傳遞弱監(jiān)督語義分割算法,將不同空間的數(shù)據(jù)映射到某個(gè)特征空間。最后利用源域訓(xùn)練出的分割模型,通過遷移學(xué)習(xí)在目標(biāo)域上獲得良好的分割效果。損失函數(shù)由三部分組成,分別是Lseg分割損失函數(shù)、Ladv對抗損失函數(shù)和Lsemi弱監(jiān)督損失函數(shù),λ1、λ2是最小化多任務(wù)損失函數(shù)的兩個(gè)權(quán)重。
深度學(xué)習(xí)被廣泛研究的狀態(tài)下,監(jiān)督學(xué)習(xí)需要利用大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,但是標(biāo)注成本很高而且很難獲得。所以,我們希望用更容易獲得的無標(biāo)注數(shù)據(jù)訓(xùn)練出具有更好泛化能力的模型。為了解決這個(gè)問題,自監(jiān)督學(xué)習(xí)因?yàn)樗诒硎緦W(xué)習(xí)方面的飛速發(fā)展,受到很多研究者的關(guān)注。深度學(xué)習(xí)中較早使用自監(jiān)督學(xué)習(xí)的是2015年Doersch等人[25]提出的一種基于上下文的自監(jiān)督學(xué)習(xí)方法。之后很多研究者都是借鑒這篇文章的思路進(jìn)行研究的。
為了解決大部分自監(jiān)督學(xué)習(xí)算法只針對輸入空間已經(jīng)部分定義的目標(biāo)才有比較好的特征表達(dá)能力的問題,Deep InfoMax(DIM)模型[26]通過類似對抗自動(dòng)編碼器的方式,最大化輸入和輸出之間互信息。隨后,在DIM的基礎(chǔ)上提出AMDIM[27]模型了引入multiple views,實(shí)現(xiàn)最大化特征之間互信息的自監(jiān)督學(xué)習(xí)方法,可以最大化從共享上下文的多個(gè)視圖中提取特征質(zhì)安監(jiān)的相互信息,從而獲得更好層次的特征信息。其中對DIM的一個(gè)改進(jìn)是利用數(shù)據(jù)增強(qiáng)的圖片進(jìn)行特征提取,數(shù)據(jù)增強(qiáng)預(yù)測如公式(12),f1表示最終輸出的一維向量,f7表示輸出的是7×7的特征圖,下標(biāo)i、j表示在local feature map中某一圖像塊的索引。
最大化任意兩個(gè)層的輸出的feature map中,任意兩個(gè)位置塊之間的互信息,任意層任意兩塊之間的聯(lián)合分布如,等,則數(shù)據(jù)增強(qiáng)圖像的預(yù)測損失函數(shù)如公式(13),其中Nm表示m×m層的邊緣分布pA(fm(x2)ij)中一組獨(dú)立分負(fù)樣本集合。
弱監(jiān)督語義分割方法很多是基于CAM,但是它存在一定的局限性,語義覆蓋不完整、語義不準(zhǔn)確的問題。針對CAM的問題,進(jìn)行了一系列的改進(jìn)。為了提高網(wǎng)絡(luò)的一致性預(yù)測能力,自監(jiān)督的等變注意機(jī)制(SEMA)[28]將自注意機(jī)制與等變正則化相結(jié)合,并且對CAM進(jìn)行了改進(jìn),引入了像素相關(guān)模塊(Pixel Correla?tion Module,PCM),可以為每個(gè)像素捕獲上下文外觀信息,利用相似像素的特征來修正像素的預(yù)測結(jié)果?;诜侄蔚木W(wǎng)絡(luò)模型和自監(jiān)督的方法[29]對CAM進(jìn)行了全面的改進(jìn),且以單階段的方式來訓(xùn)練圖像級標(biāo)注的語義掩碼。該方法基于CAM和PAC(Pixel-Adaptive Convolutional),包含三個(gè)模塊:nGWP(normalized Global Weighted Pooling)、PAMR(Pixel-Adaptive Mask Refine?ment)和Stochastic Gate。其中nGWP是在CAM的基礎(chǔ)上增加了focal mask penalty到class score;PAMR是基于PAC改進(jìn)的,用于修正網(wǎng)絡(luò)預(yù)測得到的粗糙mask;Stochastic Gate的作用是將深度特征與淺度特征隨機(jī)結(jié)合,緩解自監(jiān)督學(xué)習(xí)由于過擬合導(dǎo)致更多的錯(cuò)誤?;谧员O(jiān)督的學(xué)習(xí)方法,如表3所示。
表3 自監(jiān)督學(xué)習(xí)的方法
圖像語義分割常用的性能評價(jià)指標(biāo)有:像素準(zhǔn)確率PA(Pixel Accuracy)、像素準(zhǔn)確率平均值MeanPA(Mean Pixel Accuracy)和平均交并比MeanIOU(Mean Intersection Over Union)。其中使用最廣泛的是MeanI?OU如公式(14),因?yàn)樗唵味揖哂休^好的代表性。平均交并比作為圖像語義分割上的常用評價(jià)標(biāo)準(zhǔn)如公式,它是預(yù)測值和真實(shí)值的交集和并集的比,然后取平均值。MeanIOU的值越大,說明分割效果越好。
模型的性能評估要在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行,但是許多方法沒有在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),而且評價(jià)指標(biāo)也不同,所以為了對提到的語義分割方法進(jìn)行評估,選擇以數(shù)據(jù)集PASCAL VOC 2012為標(biāo)準(zhǔn)數(shù)據(jù)集,MIOU為評價(jià)指標(biāo)進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖1、圖2所示。
圖1 基于全監(jiān)督學(xué)習(xí)的語義分割方法性能對比
圖2 基于弱監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的語義分割方法性能對比(%)
從表1中可以看出來,基于數(shù)據(jù)集PASCAL VOC 2012、DeepLab-v3、DeepLab-v3+、RefineNet和MSPP算法得MIOU均超過了80%,這些方法將多尺度特征進(jìn)行融合,并且整合上下文信息,對圖像像素進(jìn)行準(zhǔn)確分類,實(shí)現(xiàn)圖像語義分割。其中,DeepLab-v3+效果最好,它不僅繼承了DeepLab系列的優(yōu)點(diǎn),還引入Encoder-Decoder模型和Xception模塊,獲取更豐富的語義信息的同時(shí)還提高了網(wǎng)絡(luò)運(yùn)行速度。
表2 是基于弱監(jiān)督學(xué)習(xí)語義分割和自監(jiān)督學(xué)習(xí)語義分割方法的性能對比實(shí)驗(yàn)結(jié)果。由于全監(jiān)督學(xué)習(xí)的語義分割方法需要大量的像素級標(biāo)注,浪費(fèi)大量的人力物力,然而弱監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)很好地解決了標(biāo)注困難的問題。其中,基于GAN網(wǎng)絡(luò)的語義分割方法的MIOU超過70%,語義分割準(zhǔn)確率較高,GAN網(wǎng)絡(luò)基于博弈思想進(jìn)行對抗訓(xùn)練,使網(wǎng)絡(luò)的鑒別能力不斷提高。基于自監(jiān)督的語義分割方法的MIOU超過60%,性能相對較低,雖然表現(xiàn)結(jié)果不如有監(jiān)督學(xué)習(xí),但是解決了像素級標(biāo)注的高成本問題。
表2 弱監(jiān)督語義分割方法
基于深度學(xué)習(xí)的方法在圖像語義分割應(yīng)用中取得了不錯(cuò)的效果,但是仍有很多問題亟待解決。深度學(xué)習(xí)方法訓(xùn)練耗時(shí)很長,降低了語義分割的實(shí)時(shí)性;弱監(jiān)督學(xué)習(xí)及自監(jiān)督學(xué)習(xí)在一定程度上解決了訓(xùn)練樣本難以獲得的問題,但與監(jiān)督學(xué)習(xí)方法相比效果并不理想?;谝陨戏治觯瑘D像語義分割的今后研究方向:①實(shí)時(shí)圖像語義分割技術(shù);②弱監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)語義分割技術(shù)。