張秦瑞,林國軍,朱晏梅
(四川輕化工大學(xué)自動化與信息工程學(xué)院,四川宜賓 644000)
遙感是一項利用傳感器進(jìn)行非接觸、遠(yuǎn)距離的探測技術(shù),通過傳感器探測物體的輻射、反射特性,從而進(jìn)行感知和識別[1]. 高分辨率遙感圖像能夠反應(yīng)豐富的地表信息,被廣泛應(yīng)用于國土資源規(guī)劃、城市規(guī)劃、氣象觀測等領(lǐng)域[2-4].20世紀(jì)90年代,深度學(xué)習(xí)首次在實際場景中得到應(yīng)用,LeCun 用其提出的LeNet 網(wǎng)絡(luò)對手寫數(shù)字進(jìn)行自動識別[5],但由于當(dāng)時電腦技術(shù)還不夠成熟,深度學(xué)習(xí)發(fā)展緩慢. 2012 年,Krizhevsky 等人使用AlexNet 網(wǎng)絡(luò)[6]取得了ImageNet圖像識別大賽的冠軍. 至此,深度學(xué)習(xí)重新進(jìn)入人們視野,各種卷積神經(jīng)網(wǎng)絡(luò)也相繼被提出[7-9]. 2015年,Long 提出的FCN 網(wǎng)絡(luò)[10]將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的輸出層,從原來的全連接層替換為卷積層,實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)對圖像的語義分割,隨后Ronneberger等人提出U-Net 網(wǎng)絡(luò)[11],保證了數(shù)據(jù)集較小情況下的圖像分割精度. 2016 年,Badrinarayanan 等人正式提出了組成結(jié)構(gòu)為編碼器、解碼器的SegNet網(wǎng)絡(luò)[12],較好地對圖像進(jìn)行語義分割. 本文通過向SegNet 網(wǎng)絡(luò)引入金字塔池化模塊,構(gòu)建P-SegNet 網(wǎng)絡(luò)模型,對遙感圖像進(jìn)行語義分割,以此監(jiān)測城市植被、道路、建筑及水域分布,為城市發(fā)展提供決策幫助.
SegNet[12]是一個經(jīng)典的深度學(xué)習(xí)分割網(wǎng)絡(luò),借用了一部分經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),可以對圖像中的物體所在區(qū)域進(jìn)行像素級別的分割,其實現(xiàn)由一個卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,主要由編碼器(Encoder)和解碼器(Decoder)兩部分構(gòu)成,如圖1所示.
圖1 SegNet網(wǎng)絡(luò)結(jié)構(gòu)[12]Fig.1 SegNet network structure
本文基于SegNet 網(wǎng)絡(luò)構(gòu)建一種新型P-SegNet網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)在SegNet 基礎(chǔ)上加入金字塔池化模塊(Pyramid Pooling Module, PPM)[13],使得改進(jìn)后的P-SegNet 網(wǎng)絡(luò)在SegNet 原有編碼基礎(chǔ)上進(jìn)一步提取圖像特征,聚合不同區(qū)域的上下文信息,提高獲取全局信息的能力,P-SegNet 網(wǎng)絡(luò)在編碼部分將PPM 網(wǎng)絡(luò)結(jié)構(gòu)獲得的特征圖像,與解碼部分得到的特征圖像進(jìn)行連接(Concat),進(jìn)而提升對遙感圖像的識別精度,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 P-SegNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 P-SegNet network structure
金字塔池化模塊(PPM)結(jié)構(gòu)如圖3所示,它能夠聚合不同區(qū)域的上下文信息,從而提高獲取全局信息的能力,其結(jié)構(gòu)主要功能是從輸入的特征層里獲取劃分成不同大小的網(wǎng)格,每個網(wǎng)格內(nèi)部各自進(jìn)行平均池化.
圖3 PPM網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 PPM network structure
本文對特征圖像進(jìn)行1×1、2×2、4×4 以及8×8的平均池化,對其結(jié)果進(jìn)行卷積核數(shù)量為64 的卷積,激活函數(shù)為Relu,最后使用Upsample 的雙線性插值方法對特征圖像進(jìn)行上采樣,對數(shù)據(jù)進(jìn)行恢復(fù),PPM的網(wǎng)絡(luò)具體參數(shù)見表1.
表1 金字塔池化(PPM)具體參數(shù)Table 1 Specific parameters of Pyramid Pooling Module
本文在對P-SegNet 網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,優(yōu)化器選用為Adam,學(xué)習(xí)率設(shè)為0.000 1,Batch Size 設(shè)為8,epoch 設(shè)為20 次,設(shè)定shuffle 值為20 000,以達(dá)到防止網(wǎng)絡(luò)訓(xùn)練過程中發(fā)生過擬合的目標(biāo).
實驗基于Tensorflow+Keras 深度學(xué)習(xí)框架,實驗環(huán)境硬件與軟件配置見表2.
表2 實驗環(huán)境硬件與軟件配置Table 2 Hardware and software configuration of experimental environment
實驗使用“CCF 大數(shù)據(jù)與計算智能大賽”公開的數(shù)據(jù)集,數(shù)據(jù)集中有5 類分類樣本,分別是:植被、道路、建筑、水體以及其他. 因為卷積神經(jīng)網(wǎng)絡(luò)模型表達(dá)能力比較強(qiáng),為了防止出現(xiàn)網(wǎng)絡(luò)過擬合,因此需要對數(shù)據(jù)集進(jìn)行增強(qiáng)操作,實驗對數(shù)據(jù)集中圖片按照256×256 像素大小進(jìn)行隨機(jī)切割,并在切割得到的圖像上進(jìn)行:旋轉(zhuǎn)90°、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)等操作,將數(shù)據(jù)集擴(kuò)增到120 000 張256×256 像素的圖片,訓(xùn)練集與驗證集的比例為8∶2,其中訓(xùn)練集96 000張,驗證集24 000張.
本文使用常用的模型評價指標(biāo)準(zhǔn)確率(Accuracy)以及誤差(Loss)對模型進(jìn)行評價.
(1)各網(wǎng)絡(luò)模型Accuracy/Loss數(shù)據(jù)分析
在經(jīng)過不低于30 小時的訓(xùn)練之后,SegNet 和P-SegNet 網(wǎng)絡(luò)訓(xùn)練得到的Accuracy/Loss 曲線圖如圖4所示,圖中acc和loss代表訓(xùn)練集準(zhǔn)確率和誤差,val_acc 和val_loss 代表驗證集的準(zhǔn)確率和誤差. 統(tǒng)計各個網(wǎng)絡(luò)模型的訓(xùn)練日志,結(jié)果如表3所示.
圖4 各網(wǎng)絡(luò)模型的Accuracy/Loss曲線圖Fig.4 Accuracy/Loss curve of each network model
通過圖4及表3數(shù)據(jù)可以明顯看出:SegNet網(wǎng)絡(luò)的acc在epoch 次數(shù)達(dá)到15次時趨于穩(wěn)定,最終在迭代次數(shù)為20 次時,達(dá)到頂峰的95.82%,loss 下降到0.10. P-SegNet 網(wǎng)絡(luò)因為加入金字塔池化(PPM)網(wǎng)絡(luò)結(jié)構(gòu),在網(wǎng)絡(luò)編碼階段對圖像進(jìn)行了多尺度的特征提取,在解碼階段將金字塔池化(PPM)提取到的特征信息,與SegNet 上采樣特征進(jìn)行融合,從而加強(qiáng)了對圖像全局特征的提取能力,提升了網(wǎng)絡(luò)對圖像的分割精度,因此收斂速度快于SegNet 網(wǎng)絡(luò),并且在訓(xùn)練集中迭代次數(shù)達(dá)到20 次時,準(zhǔn)確率acc 能夠達(dá)到96.36%,相比SegNet 網(wǎng)絡(luò)提升了0.54%,同時驗證集acc高于SegNet網(wǎng)絡(luò)0.98%.
表3 各模型訓(xùn)練日志Table 3 Training log of each model
(2)驗證集分割展示
使用SegNet 和P-SegNet 網(wǎng)絡(luò)對驗證集大尺寸遙感圖像進(jìn)行分割,分割效果如圖5 所示,圖5(a)為待分割的遙感圖像,圖5(b)是人工標(biāo)簽圖,圖5(c)、圖5(d)分別是SegNet 和P-SegNet 網(wǎng)絡(luò)的分割效果圖.從圖5(c)可以看出,SegNet 網(wǎng)絡(luò)雖然完成了對圖像的分割,但是對于細(xì)節(jié)的處理還是不夠到位,存在局部無法識別的情況;圖5(d)所對應(yīng)的P-SegNet 網(wǎng)絡(luò)分割效果優(yōu)于改進(jìn)前的SegNet 網(wǎng)絡(luò),具體體現(xiàn)在細(xì)節(jié)特征的提取上,其原因就在于P-SegNet網(wǎng)絡(luò)加入了金字塔池化模塊(PPM),使得整個網(wǎng)絡(luò)對全局特征的提取能力上增強(qiáng).
圖5 各網(wǎng)絡(luò)模型的分割效果圖Fig.5 Segmentation effect of each network model
SegNet 網(wǎng)絡(luò)能夠?qū)b感圖像進(jìn)行語義分割,但存在局部特征無法提取的問題,這是由其網(wǎng)絡(luò)本身結(jié)構(gòu)導(dǎo)致的. 改進(jìn)后的P-SegNet 網(wǎng)絡(luò),加入了金字塔池化模塊(PPM),因此能夠加強(qiáng)全局特征的提取,進(jìn)而增強(qiáng)細(xì)節(jié)特征的提取,相比SegNet 網(wǎng)絡(luò),PSegNet 網(wǎng)絡(luò)在識別準(zhǔn)確度(Accuracy)和損失(Loss)上表現(xiàn)更佳,訓(xùn)練集Accuracy 同比SegNet 網(wǎng)絡(luò)增加0.54%,驗證集增加0.98%;訓(xùn)練集Loss 同比SegNet網(wǎng)絡(luò)減少0.02,驗證集減少0.03.