摘 要 近年來,隨著越來越多的應(yīng)用場景需要高效而且精確的分割技術(shù),例如移動機器人、智能駕駛、室內(nèi)導(dǎo)航、虛擬現(xiàn)實與增強現(xiàn)實等。圖像語義分割問題吸引了越來越多的計算機視覺與機器學(xué)習(xí)研究者。首先介紹了圖像語義分割技術(shù)相關(guān)的背景知識,然后介紹了幾種圖像語義分割問題的深度學(xué)習(xí)算法及其特點,最后針對當前該領(lǐng)域存在的一些問題進行總結(jié)和展望。
關(guān)鍵詞 圖像語義分割;深度學(xué)習(xí);智能駕駛
引言
我們都知道,圖像是由許多像素組成,而語義分割顧名思義就是將像素按照圖像中表達語義含義的不同進行分組。然而,語義分割任務(wù)是一個非常具有挑戰(zhàn)性的難題,其難點主要包括在物體層次上,對于同一物體,由于光照、視角等的不同,拍攝出的圖像會有很大的不同,另外,由于物體運動,物體之間的相互交叉等所帶來的形變與遮擋問題,也給圖像語義分割帶來了很大的挑戰(zhàn)。在類別層次上,類內(nèi)物體之間的差異性和類間物體之間的相似性。在背景層次上,干凈的背景有助于實現(xiàn)圖像的語義分割,但實際場景中錯綜復(fù)雜的背景會大大提升了分割的難度。
在深度學(xué)習(xí)應(yīng)用到計算機視覺領(lǐng)域之前,研究人員一般使用紋理基元森林或是隨機森林方法來構(gòu)建用于語義分割的分類器。傳統(tǒng)語義分割是在一副圖像中,把目標從背景中分離出來,由于計算機計算能力有限,只能處理一些灰度圖,后來才能處理RGB圖,這時的分割主要是通過提取圖片的低級特征,然后進行分割,出現(xiàn)了一些方法:Ostu、FCM、分水嶺等。之后,隨著計算能力的提高,人們開始考慮獲得圖像的語義分割,這里的語義是低級語義,主要指分割出來的物體的類別,這個階段人們考慮使用機器學(xué)習(xí)的方法進行分割。隨著Jonathan Long 等人在2015年提出的全卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),深度學(xué)習(xí)才正式進入圖像語義分割領(lǐng)域,這里的語義主要指分割出來的物體的類別,從分割結(jié)果可以清楚地知道分割出來的是什么物體,比如貓、狗等。至此圖像語義分割技術(shù)進入到了全卷積神經(jīng)網(wǎng)絡(luò)時期。全卷積神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)出了強大的潛力,計算機在圖片通過深度學(xué)習(xí)網(wǎng)絡(luò)進行深度學(xué)習(xí)后能夠清楚地歸納出輸入圖片中的具有相同語義含義的像素點。深度學(xué)習(xí)方法成為現(xiàn)今解決語義分割問題的主流。
1基于深度學(xué)習(xí)的語義分割方法
深度學(xué)習(xí)技術(shù)引入至計算機視覺領(lǐng)域之后獲得了巨大成功。其中FCN作為基于深度學(xué)習(xí)的圖像語義分割的開山之作,對之后的語義分割網(wǎng)絡(luò)起到了很好的引領(lǐng)作用。本文將介紹FCN以及由其改進而來的其他幾種深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)[1]。
(1)FCN。這篇論文是第一篇成功使用深度學(xué)習(xí)做圖像語義分割的論文。FCN首先提出了全卷積網(wǎng)絡(luò)。將全連接網(wǎng)絡(luò)替換成了卷積網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以接受任意大小的圖片,并輸出和原圖一樣大小的分割圖。只有這樣,才能為每個像素做分類。 然后FCN使用了反卷積層。分類神經(jīng)網(wǎng)絡(luò)的特征圖一般只有原圖的幾分之一大小。想要映射回原圖大小必須對特征圖進行上采樣,這就是反卷積層的作用。雖然名字叫反卷積層,但其實它并不是卷積的逆操作,更合適的名字叫作轉(zhuǎn)置卷積,通過上采樣將小的特征圖卷回大的特征圖。同樣的雖然FCN有許多優(yōu)點,但缺點也很明顯,分割結(jié)果與人工標注的圖相比還是較為模糊,具體細節(jié)方面還不夠好。其次,對圖片像素進行分類時并沒有充分考慮圖片的上下文關(guān)系,缺乏空間上的一致性。
(2)SegNet。SegNet的新穎之處在于解碼器對其較低分辨率的輸入特征圖進行上采樣的方式。具體地說,解碼器使用了在相應(yīng)編碼器的最大池化步驟中計算的池化索引來執(zhí)行非線性上采樣。這種方法消除了學(xué)習(xí)上采樣的需要。經(jīng)上采樣后的特征圖是稀疏的,因此隨后使用可訓(xùn)練的卷積核進行卷積操作,生成密集的特征圖。并且其編碼器和 FCN 一樣進行卷積而不使用全連接層,因此是擁有較少參數(shù)的輕量級網(wǎng)絡(luò)。
(3)DeepLab。DeepLab是Google團隊提出的一種用于圖像語義分割的深度學(xué)習(xí)模型。Deeplab仍然采用了與FCN相同的全卷積化結(jié)構(gòu)。并在其基礎(chǔ)之上提出了空洞卷積。具體來說就是在卷積的最后兩個最大池化操作中不降低特征圖的分辨率,并在倒數(shù)第二個最大池化之后的卷積中使用空洞卷積。并使用 CRF作為后處理,恢復(fù)邊界細節(jié),達到準確定位的效果。
DeeplabV2則提出了空洞空間金字塔池化,在不同的分支采用不同的空洞率以獲得多尺度圖像表征。
而Deeplab V3中又再次討論了空洞卷積,一個顯式調(diào)整過濾器視野,同時控制特征相應(yīng)分辨率的強大工具。為了解決多尺度目標的分割問題,使用串行/并行設(shè)計了能夠捕捉多尺度上下文的模塊,模塊中采用不同的空洞率。此外,通過增強先前提出的空洞空間金字塔池化模塊,增加了圖像級特征來編碼全局上下文,使得模塊可以在多尺度下探測卷積特征[2]。
2結(jié)束語
本文綜述了圖像語義分割技術(shù)相關(guān)的背景知識以及幾種該問題的深度學(xué)習(xí)算法及其特點,并通過不同模型結(jié)構(gòu)的對比將各個模型的優(yōu)缺點進行了綜合性評估。雖然現(xiàn)有的語義分割模型已經(jīng)能到達較好的分割結(jié)果,但仍有很多具有挑戰(zhàn)性的難題,例如,語義分割的樣本標注要求 極高,想要獲得足夠多的數(shù)據(jù)樣本需要高昂的成本費,另外,模型的解釋性差,創(chuàng)新難度高等問題也給圖像語義分割帶來了很大的挑戰(zhàn)。這些問題大大提升了圖像語義分割的難度。盡管如此,相信我們?nèi)匀豢梢酝ㄟ^對問題的研究與發(fā)現(xiàn),提出更加優(yōu)秀的深度學(xué)習(xí)算法來解決圖像語義分割問題。
參考文獻
[1] Garcia-Garcia A,Orts-Escolano S,Oprea S,et al. A Review on Deep Learning Techniques Applied to Semantic Segmentation[J].Computer Vision and Pattern Recognition,2017(4):17.
[2] 田萱,王亮,丁琪. 基于深度學(xué)習(xí)的圖像語義分割方法綜述[J].軟件學(xué)報,2019,30(2):440-468.
作者簡介
谷浩榮(1996-),男,遼寧省營口市人;畢業(yè)院校:沈陽理工大學(xué),專業(yè):軟件工程,學(xué)歷:碩士,現(xiàn)就職單位:沈陽理工大學(xué),研究方向:計算機視覺。