熊志勇,張國豐,王江晴
(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 武漢 430074)
基于多尺度特征提取的圖像語義分割
熊志勇,張國豐,王江晴
(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 武漢 430074)
指出了基于深度學(xué)習(xí)的圖像語義分割中,如何充分利用圖像上下文信息以達(dá)到更好的分割效果,是當(dāng)前圖像語義分割研究的關(guān)鍵問題.為解決這一問題,提出了一種基于多尺度特征提取的圖像語義分割方法,通過構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò),并利用不同尺度圖像作為網(wǎng)絡(luò)的輸入來提取不同尺度圖像的特征,最后經(jīng)過特征融合得到了分割圖.在公開數(shù)據(jù)集Stanford background dataset 8類數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證,實(shí)驗(yàn)結(jié)果達(dá)到了84.33%的準(zhǔn)確率.實(shí)驗(yàn)表明:通過提取和融合多尺度特征,可以達(dá)到更好的圖像語義分割效果.
圖像語義分割;多尺度特征;深度學(xué)習(xí);卷積網(wǎng)絡(luò)
AbstractIn the semantic segmentation based on deep learning, how to make full use of the image context information to achieve better segmentation results is the key problem of image semantic segmentation. In this paper, a method of image semantic segmentation based on multi-scale feature extraction is proposed. This method extracts the features of different scale images by constructing deep convolution neural network and using different scale images as network input. Finally, a segmentation map is obtained by feature fusion. The experiments on stanford Bacground Dataset-8 veriry the effectiveness of the proposed method, and the accuracy rate is 84.33%. Experimental results show that better image semantic segmentation can be achieved by extracting and merging multiscale features.
Keywordsimage semantic segmentation; multi-scale feature; deep learning; convolution network
圖像語義分割結(jié)合了圖像分類和圖像分割,通過一定的方法將圖像中的每個(gè)像素分為不同的語義類別,最終得到不同的分割區(qū)域.圖像語義分割被廣泛用于無人駕駛中的街景識別、目標(biāo)檢測,無人機(jī)落地點(diǎn)檢測,場景理解等許多計(jì)算機(jī)視覺任務(wù)方面的應(yīng)用.從基于計(jì)算機(jī)視覺的機(jī)器學(xué)習(xí)方法到目前基于深度學(xué)習(xí)的方法,圖像語義分割算法的研究得到了很大的進(jìn)展,但是由于工業(yè)需求的不斷加大,圖像語義分割依然是計(jì)算機(jī)視覺任務(wù)中的研究熱點(diǎn)之一.
圖像語義分割是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),主要體現(xiàn)在:物體層次的不確定性,這是因?yàn)閳D像的明亮程度,模糊程度,圖像中物體的大小、方向等諸多因素的影響;物體類別層次的模糊性,同一個(gè)物種的不同類別,也不好分別開.為了減少不確定性和模糊性等外界因素的影響,充分利用圖像中的信息(如圖像像素值,從中可以提出許多特征,如顏色特征;圖像中像素、物體之間的聯(lián)系等上下文信息),獲得更好的特征表示,是一個(gè)重要的方法.
早期的圖像語義分割是利用手工標(biāo)注特征,如方向梯度直方圖HOG[1]和尺度不變特征轉(zhuǎn)換SIFT[2].基于機(jī)器學(xué)習(xí)的方法從最簡單的像素級別閾值法、基于像素聚類的分割方法到基于圖論劃分的分割方法[3].其中基于條件隨機(jī)場的分割方法[4-8]表現(xiàn)較為優(yōu)異.基于機(jī)器學(xué)習(xí)的方法,先將輸入圖像分為一些獨(dú)立的區(qū)域塊,并提取每個(gè)區(qū)域塊的特征,然后根據(jù)一定的規(guī)則建立圖像特征與語義類別之間的概率模型,建立起能量函數(shù),并通過手工標(biāo)注的特征庫,迭代計(jì)算對能量函數(shù)進(jìn)行優(yōu)化,得到最優(yōu)的參數(shù),最終得到圖像語義分割模型.這種機(jī)器學(xué)習(xí)的方法過于依賴手工標(biāo)注的特征庫,難以廣泛表示圖像特征,在實(shí)際應(yīng)用中有很大的局限性.
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)[9]的發(fā)展,計(jì)算機(jī)視覺任務(wù)中的許多問題得到了巨大的突破.由于深度卷積網(wǎng)絡(luò)可以從大量樣本數(shù)據(jù)中提取出圖像的特征,比手工標(biāo)注特征更好,在圖像分類[10-12]和物體檢測[13-16]等高層計(jì)算機(jī)視覺任務(wù)上獲得了巨大的成功.卷積神經(jīng)網(wǎng)絡(luò)在圖像分類等高層次計(jì)算機(jī)視覺任務(wù)上的出色表現(xiàn),以圖像語義分割為代表的計(jì)算機(jī)低層次任務(wù)的研究也逐漸利用卷積網(wǎng)絡(luò)實(shí)現(xiàn).Schulz H等[17]利用CNN產(chǎn)生粗糙的輸出圖,并施加成對的類別定位過濾器,實(shí)現(xiàn)圖像分割,比傳統(tǒng)的計(jì)算機(jī)視覺方法速度更快效果更好.Farabet C等[18,19]為了充分利用圖像的上下文信息,提出了多尺度CNN的圖像語義分割算法,首先利用金字塔池化得到原始圖像的三個(gè)不同尺度特征,輸入到CNN中學(xué)習(xí)對應(yīng)輸出三個(gè)尺度特征圖,并組合通過優(yōu)化函數(shù)實(shí)現(xiàn)圖像分割.Dai J等[20]提出了通過CNN進(jìn)行目標(biāo)區(qū)域特征提取算法并交叉訓(xùn)練實(shí)現(xiàn)圖像分割.Long J等[21]提出了全卷積網(wǎng)絡(luò)用于圖像語義分割,把傳統(tǒng)的圖像分類網(wǎng)絡(luò)直接變?yōu)橄袼胤诸惥W(wǎng)絡(luò).蔣應(yīng)鋒等[22]提出了多尺度迭代訓(xùn)練,對每個(gè)像素進(jìn)行分類并通過超像素描繪分割圖的輪廓.劉丹等[23]利用超像素中心產(chǎn)生不同尺度的圖像作為輸入,提出了多尺度CNN模型結(jié)構(gòu)用于圖像語義分割.Mostajabi M等[24]利用超像素為基本單元,提出縮放特征的圖像語義分割模型.Lin G等[25]通過多尺度圖像作為輸入產(chǎn)生不同尺度的特征圖.
應(yīng)用DCNN的圖像語義分割模型,可以通過大量的樣本自主學(xué)習(xí)特征,打破了手工標(biāo)注特征的局限性,可以實(shí)現(xiàn)非常好的分割效果.但是基于DCNN的圖像語義分割要考慮兩個(gè)關(guān)鍵的因素:1)由于DCNN中池化層的出現(xiàn)最后輸出圖分辨率較小,構(gòu)建端對端網(wǎng)絡(luò)訓(xùn)練模型完成圖像分割,有利于提高分割精度;2)如何考慮圖像的上下文信息,物體與物體之間,物體與背景之間的關(guān)系,依然是關(guān)鍵.本文主要解決如何充分利用圖像的上下文信息,并通過DCNNs提取出豐富特征用于圖像語義分割.最近多尺度輸入訓(xùn)練CNNs用于圖像語義分割的算法[19,24]達(dá)到了良好的效果.本文提出一種利用多尺度圖像作為輸入,通過全卷積網(wǎng)絡(luò)[21]進(jìn)行特征提取并完成圖像語義分割的模型.
本方法首先利用深度卷積網(wǎng)絡(luò)進(jìn)行特征提取,為了利用圖像的多尺度信息,將圖像縮放為三個(gè)不同的尺度,作為網(wǎng)絡(luò)的輸入;為了最后輸出為原始圖像大小的分割圖像,把網(wǎng)絡(luò)的最后的全連接層改為全卷積層,最后進(jìn)行上采樣獲得原始大小的分割圖,這種網(wǎng)絡(luò)通常被稱為全卷積網(wǎng)絡(luò)(FCN)[21].在訓(xùn)練階段,每個(gè)尺度的圖像通過網(wǎng)絡(luò)都會產(chǎn)生一個(gè)得分圖,通過上采樣將它們縮放為相同大小,通過多尺度融合層生成輸出圖,再與分割標(biāo)簽計(jì)算損失,再反向傳播完成一次訓(xùn)練;測試階段,每個(gè)尺度的圖像通過網(wǎng)絡(luò)生成一個(gè)得分圖,通過多尺度融合算法生成輸出圖.算法的基本流程圖如圖1所示.
圖1 算法流程圖Fig.1 The flow chart of the algorithm
1.1全卷積網(wǎng)絡(luò)
全卷積網(wǎng)絡(luò)(FCN)實(shí)際上是把普通卷積網(wǎng)絡(luò)的最后一層的全連接層變?yōu)榫矸e層,因?yàn)閳D像語義分割是輸出的二維圖像,全連接層會把空間信息隱藏,輸出展開為一維向量,因此通過卷積操作來保留空間信息.文獻(xiàn)[21]通過修改16層的分類網(wǎng)絡(luò)VGG-16[11],將最后的全連接層改為卷積層,并修改輸出為21通道的二維圖像,可以用分類網(wǎng)絡(luò)訓(xùn)練好的模型進(jìn)行初始化參數(shù),并在此基礎(chǔ)上訓(xùn)練優(yōu)化,可以達(dá)到非常好的分割效果.
深度神經(jīng)網(wǎng)絡(luò)利用信息的冗余,可以通過池化(pooling)來減少計(jì)算量,經(jīng)過池化后圖像的分辨率會下降,如文獻(xiàn)[21]中最后的輸出是原始圖像的1/32倍,這是需要使用上采樣(Upsampling)或者反卷積(Deconvolution)來增加圖像的分辨率,保證輸出圖與原始圖像大小相同.公式(1)、(2)說明了卷積操作和反卷積計(jì)算的過程.假設(shè)輸入圖像大小為w0×h0,經(jīng)過卷積計(jì)算后的圖像大小為w1×h1,填充值大小padding,卷積核大小kernelsize,滑動窗大小stride.w和h的計(jì)算相同,因此以w計(jì)算為例.
w1=(w0+2×padding-kernelsize)/stride+1,
(1)
w0=(w1-1)×stride+kernelsize-2×padding.(2)
反卷積計(jì)算往往是利用雙線性插值法,這樣就會丟失一些圖像的空間信息,導(dǎo)致分割圖像非常粗糙,F(xiàn)CN的作者提出了一種跳躍網(wǎng)絡(luò)的結(jié)構(gòu),通過融合不同層的信息來彌補(bǔ)信息的丟失,如FCN-8s,通過融合pool4和pool3的輸出和最后一層的輸出產(chǎn)生最后的分割圖.
1.2網(wǎng)絡(luò)模型結(jié)構(gòu)
本文的網(wǎng)絡(luò)是全卷積網(wǎng)絡(luò)的擴(kuò)展,用共享網(wǎng)絡(luò)的結(jié)構(gòu)替換跳躍網(wǎng)絡(luò)結(jié)構(gòu),通過不同尺度圖像輸入產(chǎn)生不同尺度特征圖來保證輸出圖的效果.網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,首先將輸入圖像縮放為3個(gè)不同的大小,放入卷積網(wǎng)絡(luò)中,3個(gè)卷積網(wǎng)絡(luò)在訓(xùn)練時(shí)共享網(wǎng)絡(luò)結(jié)構(gòu)如圖2淺色方框圍著的區(qū)域,分別產(chǎn)生3個(gè)得分圖,通過多尺度融合層fuse使之融合成一張得分圖,這樣利用不同尺度的圖像,可以更好地感知圖像中的豐富空間信息.與傳統(tǒng)的FCN的不同之處在于多尺度圖像的輸入以及多尺度特征圖的提取和融合.
圖2 本文所用網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of this paper
對于每個(gè)尺度的圖像,將其放入圖2的網(wǎng)絡(luò)中訓(xùn)練學(xué)習(xí),其中網(wǎng)絡(luò)的組成為:5個(gè)卷積層(Conv1、Conv2、Conv3、Conv4、Conv5),每個(gè)卷積層后面用一層最大池化層(pool1、pool2、pool3、pool4、pool5)來減少計(jì)算量,卷積網(wǎng)絡(luò)中的全連接層(fc6、fc7)變?yōu)榫矸e層,然后卷積輸出8個(gè)特征圖(數(shù)據(jù)集中有8類物體),即Score_fr層,此時(shí)的特征圖大小是原始圖像大小的1/32倍,需要通過公式(2)的反卷積運(yùn)算將特征圖像變?yōu)樵紙D像大小(upscore1、upscore2、upscore3).每一層卷積層后都用ReLU(Rectified-Linear Units)函數(shù)激活,主要特點(diǎn)是簡單效果好、網(wǎng)絡(luò)收斂速度快.不同尺度對應(yīng)了不同的輸出特征圖,經(jīng)過融合函數(shù)fuse可以得到最終的分割圖.
(3)
(4)
在訓(xùn)練的過程中,還需要從輸出結(jié)果向輸入圖像的方向計(jì)算網(wǎng)絡(luò)中每個(gè)神經(jīng)元的實(shí)際輸出和正確輸出之間的誤差并利用隨機(jī)梯度下降算法(SGD)更新網(wǎng)絡(luò)中的參數(shù),這一過程被稱為反向傳播(Backward Propagation).
通常有了網(wǎng)絡(luò)計(jì)算的輸出圖,和正確的標(biāo)簽分割圖,可以計(jì)算出每個(gè)像素被分為每一類的概率.設(shè)像素為ai其中i=1,2,…,N表示像素的索引,pij表示像素ai被分到標(biāo)簽cj的概率,其中j=1,2,…,C表示物體的類別.則損失函數(shù)可以表示為公式(5):
(5)
其中,yi為像素ai經(jīng)過網(wǎng)絡(luò)輸出的標(biāo)簽,整個(gè)訓(xùn)練的過程就是要優(yōu)化這個(gè)損失函數(shù).
1.3多尺度特征提取和融合
長期的實(shí)踐證明,多尺度特征在計(jì)算機(jī)視覺任務(wù)上非常有用,在物體識別和圖像分類、圖像分割方面應(yīng)用廣泛.如何提取和利用圖像的多尺度信息在圖像語義分割領(lǐng)域依然是研究的熱點(diǎn)問題.本文利用Lin等提出的縮放輸入圖像來感知圖像的多尺度方法[25].將圖像縮放為1,0.6,1.2三個(gè)不同尺度,作為網(wǎng)絡(luò)的輸入,分為三個(gè)尺度可以更好地感知過大或過小的物體.由網(wǎng)絡(luò)分別產(chǎn)生3個(gè)不同尺度的得分圖,經(jīng)過融合得到最終的輸出圖,公式(3)~(5)給出了單個(gè)網(wǎng)絡(luò)的計(jì)算和誤差函數(shù),利用圖2的網(wǎng)絡(luò)結(jié)構(gòu)提取不同尺度的特征圖,對于多個(gè)尺度特征圖的融合,利用層fuse來計(jì)算,具體過程如下所述.
假設(shè)輸入圖像I,縮放為S個(gè)輸入圖像,用fs(Is,θs)表示圖像Is在第s個(gè)網(wǎng)絡(luò)上的輸出得分圖,其中s={1,2,…,S}.這S個(gè)得分圖感知了不同尺度信息,這時(shí)利用公式(6)的尺度融合公式將它們?nèi)诤系玫阶罱K的輸出結(jié)果圖G(I,C),其中C表示語義類別標(biāo)簽.
(6)
其中權(quán)重ws表示第s個(gè)尺度圖像產(chǎn)生的得分圖的重要性,本文中設(shè)置為1/3,表示不同尺度的得分圖之間等價(jià),融合只需要線性疊加產(chǎn)生最終的輸出圖.
實(shí)驗(yàn)采用深度學(xué)習(xí)框架Caffe進(jìn)行模型的訓(xùn)練和測試,數(shù)據(jù)集來自Stanford Background Dataset 8類數(shù)據(jù)集,此數(shù)據(jù)集由已知數(shù)據(jù)集如PASCAL VOC 、MSRC中挑選出了715張戶外場景圖像.圖像包含原始圖像和圖像語義標(biāo)簽文件,語義分為:天空(sky)、樹(tree)、道路(road)、草地(grass)、水(water)、建筑物(building)、山(mountain)和前景目標(biāo)(foreground)共8類,分別對應(yīng)語義標(biāo)簽0~7,-1表示未知目標(biāo)類別.
2.1實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)集:首先,準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)集,采用Stanford background dataset 8類數(shù)據(jù)集,隨機(jī)挑選出600張圖像用于訓(xùn)練,115張圖像用于驗(yàn)證和測試.
訓(xùn)練網(wǎng)絡(luò)和測試網(wǎng)絡(luò)的搭建:利用Caffe深度學(xué)習(xí)框架提供的接口,并根據(jù)FCN[21]提供的VGG-16源碼構(gòu)建自己的CNN網(wǎng)絡(luò),輸入層改為3個(gè)不同尺度的圖像作為輸入,輸出層添加尺度融合層.網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2所示.
訓(xùn)練:實(shí)驗(yàn)用VGG-16分類網(wǎng)絡(luò)的訓(xùn)練好的模型進(jìn)行初始化網(wǎng)絡(luò)參數(shù),基礎(chǔ)學(xué)習(xí)率設(shè)置為1e-10,沖量設(shè)置為0.99,權(quán)重衰減設(shè)置為0.0005,迭代一次變化一次學(xué)習(xí)率,用反向傳播和隨機(jī)梯度下降(SGD)來計(jì)算誤差并更新參數(shù).
評價(jià)指標(biāo):為了評價(jià)圖像語義分割算法的分割結(jié)果的精度,本文采用平均像素精度(MPA)、平均類別精度(MCA)和平均IOU(MIOU)3個(gè)指標(biāo)進(jìn)行衡量和對比.假設(shè)總共有C類語義標(biāo)簽,nij表示真實(shí)語義類別為i但是被預(yù)測為j的像素個(gè)數(shù),i,j=0,1,..,C-1,ti表示真實(shí)語義類別為i的像素個(gè)數(shù),則有以下計(jì)算公式:
(7)
(8)
(9)
代碼實(shí)現(xiàn):利用Caffe深度學(xué)習(xí)框架提供的接口,搭建了訓(xùn)練和驗(yàn)證用的DCNN,和配置運(yùn)行文件,可以在https://github.com/abumaster/SemanticSegmentation下載使用.2.2實(shí)驗(yàn)結(jié)果
隨著訓(xùn)練迭代次數(shù)的增加,圖像語義分割的精度也在不斷提高,變化趨勢如圖3所示,在迭代訓(xùn)練12000次后精度變化平緩,趨于收斂.如表1所示為迭代訓(xùn)練12000次后的每個(gè)語義類的正確率(對角線為正確分類的語義類,其他為混淆率),可以很好地把不同的語義類區(qū)別開,部分分割結(jié)果圖如圖4所示.
圖3 訓(xùn)練精度隨著迭代次數(shù)的變化Fig.3 The training accuracy changing with the number of iteration
AccuracySkyTreeRoadGrassWaterBuildingMountainForegroundSky91.853.920.000.562.252.031.091.85Tree3.8676.120.753.570.647.055.373.14Road0.000.3794.303.521.810.681.204.25Grass0.250.990.5888.390.830.214.273.14Water0.180.001.790.3185.380.003.431.21Building3.178.530.930.810.4982.490.416.55Mountain1.481.270.661.864.640.5227.061.00Foreground2.485.265.496.044.976.911.5874.87
為了對比實(shí)驗(yàn)結(jié)果,本文方法與文獻(xiàn)[22]和文獻(xiàn)[23]提出的方法進(jìn)行了對比,結(jié)果如表2所示,它們都是利用CNN進(jìn)行特征提取并完成圖像語義分割和理解任務(wù).文獻(xiàn)[22]利用圖像塊作為輸入,進(jìn)行特征提取并得出語義類別,然后利用超像素修正錯(cuò)誤的語義類別;文獻(xiàn)[23]則是利用超像素塊為基本處理單元,首先把圖像分為超像素塊,然后輸入不同尺度的超像素斑塊進(jìn)行訓(xùn)練,對超像素塊進(jìn)行語義分類以完成圖像的語義分割.
2.3分析和討論
對以上實(shí)驗(yàn)結(jié)果和對比實(shí)驗(yàn)結(jié)果進(jìn)行分析和討論:從表1中圖像中像素大致能分類為正確語義標(biāo)簽,在山(mountain)的語義類正確率偏低,是因?yàn)樵赟tanford background dataset數(shù)據(jù)集中,有山的訓(xùn)練圖像偏少,因而準(zhǔn)確率偏低.
與文獻(xiàn)[22]和文獻(xiàn)[23]的實(shí)驗(yàn)結(jié)果對比中,本文方法在各項(xiàng)衡量指標(biāo)中明顯優(yōu)于其他兩種,這主要有兩方面的原因,一個(gè)是因?yàn)镃NN的深度,本文方法利用了更深層次的CNN可以提取和發(fā)現(xiàn)更多的圖像特征;另一個(gè)原因是本文方法提取了不同尺度圖像的特征,并將之融合訓(xùn)練,使得在語義類別邊界可以達(dá)到很好的分割效果.
圖4 多尺度特征提取的圖像語義分割結(jié)果圖Fig.4 Multi-scale feature extract for image sematic segmentation results
方法MPA/%MCA/%mIOU/%文獻(xiàn)[22]77.4069.50-文獻(xiàn)[23]84.5276.6037.15本文方法84.3377.5566.98
本文提出了一種利用不同尺度圖像作為輸入的CNN深度學(xué)習(xí)模型,通過多次的迭代訓(xùn)練,可以提取出圖像的多種尺度的特征信息,并使之融合以完成圖像語義分割的任務(wù).在Stanford background dataset公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,不同尺度的圖像特征對圖像語義分割的準(zhǔn)確性有著至關(guān)重要的影響,結(jié)合了多尺度特征提取,可以正確對像素進(jìn)行分類并感知物體的輪廓信息.但是,本文方法在描繪分割圖像輪廓邊界方面仍有不足,對于小的物體還存在難以識別的情形.為了更好地描繪邊緣和融合不同尺度特征,未來的工作會考慮加入條件隨機(jī)場和邊緣檢測模型,考慮將尺度融合改為可學(xué)習(xí)的權(quán)重,從而提高圖像語義分割的準(zhǔn)確性.
[1] Kadota R, Sugano H, Hiromoto M, et al. Hardware architecture for HOG feature extraction[C]//IEEE. Intelligent Information Hiding and Multimedia Signal Processing. Piscataway: IEEE, 2009: 1330-1333.
[2] Zhou H, Yuan Y, Shi C. Object tracking using SIFT features and mean shift[J]. Computer vision and image understanding, 2009, 113(3): 345-352.
[3] Rother C, Kolmogorov V, Blake A. Grabcut: Interactive foreground extraction using iterated graph cuts[C]//ACM. transactions on graphics (TOG). New York: ACM, 2004, 23(3): 309-314.
[4] Krahenbühl P, Koltun V. Efficient inference in fully connected crfs with gaussianedgepotentials[C]//Advances in neural information processing systems.Massachusetts: MIT Press, 2011: 109-117.
[5] He X, Zemel R S, Carreira-Perpinán M A. Multiscale conditional random fields for image labeling[C]//IEEE.Proceedings of the 2004 IEEE computer society conference on Computer vision and pattern recognition. Piscataway: IEEE, 2004: 695-703.
[6] He X, Zemei R S, Ray D. Learning and Incorporating Top-Down Cues in Image Segmentation[J]. Lecture notes in computer science, 2006: 338-351.
[7] Gould S, Fulton R, Koller D. Decomposing a scene into geometric and semantically consistent regions[C]// IEEE. 12th International Conference on Computer Vision. Piscataway: IEEE, 2009: 1-8.
[8] Zheng S, Cheng M M, Warrell J, et al. Dense semantic image segmentation with objects and attributes[C]//IEEE.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 3214-3221.
[9] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[10] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.Massachusetts: MIT Press,2012: 1097-1105.
[11] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[12] Papandreou G, Kokkinos I, Savalle P A. Modeling local and global deformations in deep learning: Epitomic convolution, multiple instance learning, and sliding window detection[C]// IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE, 2015: 390-399.
[13] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE.Proceedings of the conference on computer vision and pattern recognition. Piscataway: IEEE,2014: 580-587.
[14] Erhan D, Szegedy C, Toshev A, et al. Scalable object detection using deep neural networks[C]//IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE, 2014: 2147-2154.
[15] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems.Massachusetts: MIT Press, 2015: 91-99.
[16] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[17] Schulz H, Behnke S. Learning object-class segmentation with convolutional neural networks[C].Bruges:i6doc.com Press, 2012: 151-156.
[18] Farabet C, Couprie C, Najman L, et al. Scene parsing with multiscale feature learning, purity trees, and optimal covers[J/OL]. (2012-07-13). https://arxiv.org/abs/1202.2160
[19] Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1915-1929.
[20] Dai J, He K, Sun J. Convolutional feature masking for joint object and stuff segmentation[C]//IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3992-4000.
[21] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440.
[22] 蔣應(yīng)鋒,張 樺,薛彥兵,等. 一種新的多尺度深度學(xué)習(xí)圖像語義理解方法研究[J]. 光電子·激光,2016,(02):224-230.
[23] 劉 丹,劉學(xué)軍,王美珍. 一種多尺度CNN的圖像語義分割算法[J]. 遙感信息,2017,(01):57-64.
[24] Mostajabi M, Yadollahpour P, Shakhnarovich G. Feed- forward semantic segmentation with zoom-out features[C]//IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE, 2015: 3376-3385.
[25] Lin G, Shen C, van den Hengel A, et al. Efficient piecewise training of deep structured models for semantic segmentation[C]//IEEE.Proceedings of the Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 3194-3203.
Multi-scaleFeatureExtractForImageSematicSegmentation
XiongZhiyong,ZhangGuofeng,WangJiangqing
(School of Computer Science, South-Central University for Nationalities, Wuhan 430074,China)
TP183
A
1672-4321(2017)03-0118-07
2017-06-06
熊志勇(1965-),男,教授,研究方向:信息隱藏、圖像處理,E-mail: zhiyx@scuec.edu.cn
國家自然科學(xué)基金資助項(xiàng)目(60975021)