山東省梁山一中 李家棟
隨著互聯網社會的發(fā)展,尤其是社交網絡的發(fā)展,我們可以獲得大量的圖像數據,那么如何從大量的圖像數據中獲得我們所需要的信息就變得越來越重要。另一方面,隨著硬件技術的進步,計算能力的提升,深度學習越來越成為當前解決問題的重要方法。深度學習在圖像分割領域的利用主要是卷積神經網絡,而卷積網絡的出現使圖像分割的發(fā)展進入新的階段。它在圖像識別領域的優(yōu)勢是顯而易見的,不僅促進了圖像分類,使其更高效和精確,還在對圖像任務具體結構的輸出方面取得了關鍵性的進展。這些進展包括目標檢測,圖像分類,以及對部分和關鍵點檢測技術等。
圖像分割是一個更加深層的工作,它的應用也非常的廣泛。不僅可以應用到人臉識別,指紋識別等方面,提高了設備的安全性,在信息爆炸的時代保障我們的信息安全;還能應用于道路識別,行人檢測等方面,實現載具的自動駕駛,既方便了人類的生產與生活,又可以提高行車安全,避免交通事故的發(fā)生。更重要的是,圖像分割在醫(yī)學領域也用途廣泛,包括腫瘤和其他病理的診斷,手術輔助等方面,無疑能協(xié)助驅走病魔,造福人類。
但是,圖像分割領域仍然存在著大量的挑戰(zhàn)。比如說如何讓計算機像人類一樣去理解圖像的內容,本身就已經非常的困難,那么如何讓計算機去更加精確的分割出我們想要的結果,就更加的困難了。我們人類對于一個事物的認知常從它的外觀特征出發(fā),但對計算機來說,它只能“看到”數字矩陣,而這種矩陣是難覓規(guī)律的。若從人類的角度出發(fā),讓計算機去理解圖像并完成相應的任務,無疑是非常困難的。而且事物總是多變的,既有空間上角度,位置的變化,也有時間上新老的更替,要讓計算機擁有這種適應變化的魯棒性是極其重要但又是一個非常大的挑戰(zhàn)。
傳統(tǒng)的基于閾值分割的方法通常是以灰度直方圖作為劃分選取的標準,但這種方法并不能對圖像的灰度做出非常全面的描述。李欣等人提出利用圖像方差加權信息熵來更加精確地反應圖像的細節(jié),以實現精確分割的目的,其對低信噪比的紅外云層背景中的弱小目標圖像的檢測有較高的精度。趙峙江等人提出利用灰度—信息量直方圖來描述圖像的信息,并在此基礎上對圖像進行分割。但上述的方法都僅對圖像的各灰度級進行統(tǒng)計和集合,都難以精確地表達各灰度級的空間分布情況。
另外Wu等人利用了網絡中最大流和最小割等價的原理,把對圖像分割的復雜的問題簡化為解對應圖像最小割的問題。這種方法雖然最大化了子圖間的差異性,但其沒有使子圖內部的差異性盡可能小,也故它僅對單個節(jié)點的分離存在優(yōu)勢。Rother等人提出的基于迭代的圖割方法可以根據圖像的RGB色彩信息以及邊界信息,加之簡捷的人工操作就能使分割的結果非常準確。Morris等人提出相似像素聚集,相異像素分離的劃分原則,借此得到不同尺度的劃分,并利用最小生成樹的方法對其進行分割,有較好的分割效果。
圖像分割是計算機視覺領域的一個基礎的研究方向。圖像分割的目標是對于每一個像素點進行分類任務,即賦予每一個像素點一個類別。圖像分割分為語義分割和實例分割兩種,本文主要的研究是關于語義分割的。圖像分割預測了每一個元素的類別,位置以及元素的形狀特征。圖像分割在自動駕駛,機器感知領域都有著非常多的應用。
圖像分割主要包括四個基本步驟,第一步是對數據的預處理,由于在網絡的反卷積操作中需要對圖像的尺寸進行upsample,因此我們需要對原始的圖像進行處理,處理成2的冪次方大小的圖片第二步是對圖像進行數據增強操作,主要原因是數據量不足,容易造成網絡過擬合,本文中使用的圖像增強操作主要包括圖像的隨機翻轉,以及隨機對長和寬做裁剪。第三部是對構造分割模型,這一部分我們主要在第三部分進行介紹,最后是使用我們已經訓練好的網絡對圖像進行預測,獲得分割的效果。
傳統(tǒng)的用于做圖像分類的網絡,比如LeNet,AlexNet,VGGNet等,已經在圖像分類領域取得了非常不錯的效果,但是這些用作分類的網絡通常只能接受固定大小的輸入,然后連接一個全連接層,通常全連接層也有著固定大小的維度,這樣輸出的結果通常是作為分類的依據。在圖像分割這個領域我們希望的是輸入是一副圖像,輸出的時候是一副跟原圖大小相同或者是成比例的一副圖像。因此我們可以把全連接層可以看做是覆蓋整個輸入大小的卷積層,這樣做我們就可以輸入任意大小的數據,然后輸出他們的分類結果,當然這個結果也是任意大小的。
在做卷積的時候,為了增大網絡的視野,我們通常會在卷積層后面添加一個池化層來實現這種操作。但是這樣的操作會造成圖像的分辨率越來越低,為了獲得分辨率比較好的圖片,FCN將全連接層換成了卷積層,也就是說是一個沒有全連接層的網絡。本文采用的網絡結構如下:首先讀入一張任意大小的圖片,但是由于caffe在做池化操作遇到奇數的時候會向下取整,這樣在做反卷積的時候會出現圖片大小對應不上的問題,因此本文采用的圖片的長和寬都是2的冪次方大小。第一塊會有兩個卷積層,每個卷積層都是64個3*3大小的卷積核,后面會有一個池化層,池化層采用最大池化,核的大小為2*2,我們這一個塊叫做池化1;第二塊與第一塊的基本相同,不過本文在這一塊的卷積層中所使用的核為128個;第三塊在第一塊的基礎上增加了一個卷積層,卷積層中都是有256個3*3大小的卷積核;第四塊與第三個塊基本相同,但是卷積核的個數變?yōu)?56個;第五個塊與第四個塊相同。在第五塊后是4個卷積層,第一個卷積層為4096個7*7的卷積核,第二個是4096個1*1的卷積核,第三個卷積層為21個1*1的卷積核,第四個是21個4*4的卷積核,然后構成了網絡的輸出,但是這樣的輸出的圖片為原圖的1/32,很多細節(jié)部分分割不清楚。因此,本文分別在第三塊與第四塊后添加一個卷積層,使用21個1*1的卷積核,最后將三個預測結果疊加起來構成最后的輸出。這樣預測圖片的分辨率變?yōu)樵瓐D的1/8,根據實驗效果,明顯比1/32的預測結果要好得多。
SegNet本身的設計目標就是為了處理這種語義分割任務的,并且與其他的網絡相比,它更加的高效。SegNet在設計的時候充分的考慮了道路場景理解的任務,也就是說SegNet滿足了道路場景理解所要求的能夠模擬外觀,比如道路以及建筑物等的外觀,能夠模擬汽車,行人等的形狀,以及理解不同的類別之間的空間關系。另外在典型的道路場景中,大量的像素點屬于比較大的類別,比如道路,建筑物等,因此網絡能夠產生一些比較平滑的分割結果。并且道路場景理解要求網絡對于一些比較小的物體,也能夠非常好的去分割出它們的邊界。因此,在提取的圖像表示中保留邊界信息也是十分重要的。從計算的角度來看的話,由于圖像分割任務主要用在實時性比較高的地方,比如監(jiān)控,無人駕駛車輛等,在預測的階段比較的高效也是圖像分割的一個必要的條件。為了比較快遞的優(yōu)化網絡中的所有權重,使用有效的權重更新技術,比如隨機梯度下降結束進行端到端的訓練也是一個額外的好處。SegNet的設計本身就考慮了上述的標準,因此我們選擇使用SegNet進行圖像分割任務。
SegNet是一個編碼解碼的結構,也就是說每有一個編碼器就會有一個解碼器與之對應,最后一個像素級的預測層,主要的網絡結構如圖1所示。編碼器總共包含13個卷積層,這13個卷積層也就是vgg16的前13個卷積層,這也就意味著我們可以使用在ImageNet中已經訓練好的vgg16的網絡參數來初始化我們的網絡,這樣我們就可以獲得更加多的特征。為了增加網絡的速度,同時獲得比較高分辨率的特征圖,本文將vgg16最后的全連接層全部去掉。另外為了減少最大池化中丟失的特征,SegNet提出了一種如何去存儲信息的方法,就是保存下最大池化中最大值的下標來,每個池化層中用兩個位來存儲,一個是最大的值,一個是最大值的位置。解碼器中的上采樣用的是保存的最大池化中的下標來上采樣的,這一步可以獲得比較稀疏的特征圖。同時SegNet創(chuàng)新性的將淺層的編碼器與深層的解碼器相加共同組成當前解碼器的輸出,可以利用較淺的特征與較深的特征增加預測的準確率。
圖1 網絡結構圖
語義圖像分割任務是一個相對來說比較復雜的任務,是一種像素到像素級別的分類任務,目前所使用的方法也是千差萬別,本文通過對大量論文的調研,決定使用Mean IoU作為本文的評價標準。Mean IoU的定義如下:
其中,交集表示我們預測出來的一類物體的所有區(qū)域與真實的標記的區(qū)域的交集,并集指這兩者的交集。Mean IoU的計算充分的考慮了交集與并集,也就是說在分割的過程中,如果我們要使得這個平均標準最大的話,我們需要同時滿足使得模型的預測結果中對于預測正確的類別要越大對于預測錯誤的類別越少。
隨著深度學習的發(fā)展,利用深度學習解決圖像分割任務也變得越來越重要,尤其是隨著硬件技術的進步,大量GPU的使用加快了深度學習的速度。同時圖像分割可以應用到大量的領域,如安防,娛樂,以及自動駕駛等。
本文主要介紹了圖像分割的背景,意義,研究現狀,以及圖像分割的一般步驟,重點介紹了圖像分割的方法,如全卷積神經網絡,SegNet等。
但是,利用深度學習解決圖像分割還存在著大量的問題,包括:1)遠處物體分割不準確;2)部分細節(jié)分割不準確。
[1]Jonathan Long.Fully Convolutional Netw orks for Semantic Segmentation[J].
[2]Vijay Badrinarayanan.SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J].
[3]王崴.基于圖像復雜度的圖像分割算法[J].
[4]姜楓.基于內容的圖像分割方法綜述[J].
[5]Yann LeCun.Gradient-Based Learning Applied to Document Recognition[J].