馬海藝 張?zhí)焘?代沁伶 代 飛 王雷光
( 1. 西南林業(yè)大學(xué)林學(xué)院,云南 昆明 650233;2. 西南林業(yè)大學(xué)林業(yè)生態(tài)大數(shù)據(jù)國家林業(yè)與草原局重點實驗室,云南 昆明 650233;3. 西南林業(yè)大學(xué)大數(shù)據(jù)與人工智能研究院,云南 昆明 650233;4. 西南林業(yè)大學(xué)設(shè)計學(xué)院,云南 昆明 650233)
城市植被是指城市里覆蓋著的生活植物,它包括城市內(nèi)生長的森林、灌叢、花壇、草地等所有植物[1]。作為城市生態(tài)環(huán)境的重要組成部分,城市植被具有滯塵,緩解城市熱島效應(yīng),改善人居環(huán)境等重要的生態(tài)和社會功能以及巨大的經(jīng)濟效益,對城市的可持續(xù)發(fā)展有著重要影響。近年來,隨著國家對城市的生態(tài)文明建設(shè)日益重視,國內(nèi)掀起了創(chuàng)建“國家生態(tài)園林城市”的熱潮。因此,城市植被高效精確地提取成為現(xiàn)代城市規(guī)劃和生態(tài)環(huán)境評價的關(guān)鍵技術(shù)[2-3]。傳統(tǒng)的人工地面調(diào)查方法由于需要投入大量的人力物力,費用高、周期長,很難長期獲取有效的植被現(xiàn)狀信息,而遙感以其信息獲取速度快、周期短、時效性強的優(yōu)勢成為了城市植被信息提取的有效手段。遙感影像分辨率的不斷提升不但為更高精度的植被信息提取創(chuàng)造了有利的條件,也提出了挑戰(zhàn)[4-5]。因此,基于高分辨率遙感影像的城市植被信息提取成為當(dāng)前的研究熱點。
以支持向量機為代表的統(tǒng)計學(xué)習(xí)算法不能有效利用高分辨率遙感影像豐富的空間結(jié)構(gòu)和紋理信息,植被信息提取的視覺效果差,“椒鹽現(xiàn)象”嚴(yán)重[6]。面向?qū)ο蟮闹脖惶崛》椒╗7]雖然能夠保證結(jié)果的完整性,但需要人為設(shè)置分割閾值,自動化程度低,且閾值選擇不恰當(dāng)極易造成植被提取結(jié)果細(xì)碎或像元的混分,性能不穩(wěn)定。近年來全卷積神經(jīng)網(wǎng)絡(luò)[8](FCN)以其強大的特征抽象與表現(xiàn)能力引起了人們的廣泛關(guān)注,它通過池化與卷積實現(xiàn)區(qū)域分割和區(qū)域?qū)ο笳Z義識別。但這種特征提取方式會使特征圖的空間分辨率迅速下降,地物邊界變得平滑,較小的地物被忽略[9]。盡管Long等[8]提出了多尺度融合的方法,網(wǎng)絡(luò)的分類結(jié)果在細(xì)節(jié)表現(xiàn)方面依然存在不足。因此本研究對經(jīng)典FCN模型進(jìn)行改進(jìn),并以?高分辨率城市遙感數(shù)據(jù)為研究對象,通過支持向量機、面向?qū)ο笏惴?、?jīng)典FCN模型和本研究提出的改進(jìn)的FCN模型(Improved FCN model,I-FCN)4種方法提取該城市高分辨率遙感影像中的植被信息,并將提取結(jié)果的精度和視覺效果進(jìn)行對比分析,旨在說明前3種方法在植被提取中的不足與I-FCN模型提取高分辨率遙感影像中植被信息的優(yōu)勢,為當(dāng)前城市植被的監(jiān)測研究提供參考。
研究數(shù)據(jù)采用德國法伊英根市遙感數(shù)據(jù)集(http://www2.isprs.org/commissions/comm3/wg4/tests.html),這是由國際攝影測量與遙感協(xié)會(ISPRS)提供的開源數(shù)據(jù)集。該數(shù)據(jù)集由DMC數(shù)字航空攝影機拍攝,空間分辨率可達(dá)9 cm,包括16幅影像,每一幅遙感影像的大小約為2 500×2 500像素,圖中包含植被、建筑物、車輛、道路、水體等地物。數(shù)據(jù)集還提供人工標(biāo)注的地表真實圖像用于驗證地物提取精度。為了突出植被信息,數(shù)據(jù)集中的遙感影像均為采用近紅外、紅和綠波段合成的標(biāo)準(zhǔn)假彩色正射遙感影像(CIR影像),植被顯示為紅色。
經(jīng)典的FCN模型通過插值恢復(fù)圖像分辨率的策略無法復(fù)原池化丟失的空間細(xì)節(jié)信息,為了解決這種對特征圖進(jìn)行上采樣導(dǎo)致的預(yù)測結(jié)果粗糙的問題,本研究對經(jīng)典的FCN模型進(jìn)行了改進(jìn),提出I-FCN模型進(jìn)行城市植被信息的提取。該模型包括輸入層、卷積層、池化層、Dropout層、輸出層,具體見圖1。
圖 1 I-FCN模型結(jié)構(gòu)Fig. 1 Model structure of I-FCN
1)輸入層??紤]到局部近鄰像素的聯(lián)系更為緊密,輸入層采用圖像局部子塊。通過單層的圖像局部感知,再結(jié)合多層映射更高層次的局部信息綜合,還可以得到全局信息。這種方式既符合認(rèn)知從局部到全局的特點,又可以有效節(jié)省內(nèi)存的開銷。
2)卷積層。高分辨率遙感影像中所包含的植被信息尺度大小差異性較大,既要充分利用高分辨率圖像中豐富的空間信息,又要提高對各種復(fù)雜場景的特征提取的魯棒性。本研究引入了多尺度卷積層,包含2種卷積方式,即大面積、連續(xù)的植被信息通過3個不同尺寸的空洞卷積[10]模板提取,模板尺寸分別為 3×3、5×5、7×7。而面積較小的、零散的植被信息通過3個3×3的卷積模板提取。
3)池化層。本研究采用步長為1的最大池化的方法,尺寸大小為2×2,即選擇鄰域內(nèi)4個像素中值最大的像素代替原來4個像素。由于池化模板的尺寸為2×2,步長為1,所以相鄰的池化領(lǐng)域有重疊。整體來看是選擇最大的4個像素值代替原來的獨立深度切片。
4)Dropout層。在FCN模型的訓(xùn)練過程中,隨著迭代次數(shù)的增加,會出現(xiàn)網(wǎng)絡(luò)過擬合的現(xiàn)象,為了減輕過擬合的風(fēng)險,使用Dropout層在每次迭代的過程中隨機丟棄一些網(wǎng)絡(luò)參數(shù)。每次迭代丟棄的參數(shù)都不完全相同,這種參數(shù)丟棄是暫時的,并不會影響網(wǎng)絡(luò)的訓(xùn)練精度,還能提高網(wǎng)絡(luò)模型的泛化能力。此外,因為網(wǎng)絡(luò)參數(shù)的減少,節(jié)約了訓(xùn)練時間,提高訓(xùn)練效率。
5)輸出層。FCN經(jīng)過以上3個網(wǎng)絡(luò)層的處理輸出結(jié)果為與輸入圖像大小相等的概率圖,即每個像素屬于植被與非植被的概率。
與經(jīng)典的FCN模型相比,本研究中的網(wǎng)絡(luò)模型設(shè)計了空洞卷積[10]與非下采樣池化[11]??斩淳矸e使卷積模板包含更大范圍的信息,在有效增大感受野的同時不增加模型參數(shù)或者計算量,這使得網(wǎng)絡(luò)模型能夠在不增加訓(xùn)練時間的同時提取尺度更大的植被信息。但是空洞卷積會帶來感受野跳躍,為了避免這一問題,本研究采取混合擴張卷積策略[12],3個空洞卷積層的擴張率分別為1、2、3,對應(yīng)的卷積模板尺寸分別為3×3、5×5、7×7。這種擴張率變換類似鋸齒波,相比采取相同擴張率的卷積策略可以同時提取小地物與大地物。最大池化能較好地解決卷積層參數(shù)誤差造成的估計均值偏移,也可以保留更多的紋理信息,常規(guī)的池化操作(圖2a)步長為2,因此每經(jīng)過一次池化操作特征圖的長和寬變?yōu)樵瓉淼?/2,面積變?yōu)樵瓉淼?/4,空間分辨率迅速下降。為了更好地保留空間信息,本研究采取Sherrah[11]所提出的非下采樣池化(圖2b),步長為1,與一般的池化操作相比能夠在保證特征不變性的同時保留圖像的空間信息。
圖 2 不同池化方法對比Fig. 2 Comparison of different pooling methods
受到建筑物陰影的影響,陰影區(qū)的植被與光照區(qū)的植被相比在RGB顏色空間中各個分量都比較低,二者差異較大。為了更好地對陰影區(qū)的植被進(jìn)行提取,首先對原始圖像進(jìn)行HSV變換,并將變換結(jié)果與原始圖像疊加形成6維的圖像。
為了加快網(wǎng)絡(luò)的訓(xùn)練速度對原始圖像的3個波段與H、S、V 3個分量共6個維度的特征分別進(jìn)行特征標(biāo)準(zhǔn)化,使每一個維度的特征都具有零均值和單位方差。特征標(biāo)準(zhǔn)化的表達(dá)式為:
式中:i為特征維度,xi為原始特征值,為特征值的均值,σ為特征值的方差,yi為標(biāo)準(zhǔn)化后的特征值。
不恰當(dāng)?shù)某跏蓟瘏?shù)會導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時梯度下降速度較慢,參數(shù)更新難以實現(xiàn),訓(xùn)練結(jié)果準(zhǔn)確度下降。對此,本研究采用MSRA網(wǎng)絡(luò)參數(shù)初始化方法[13]。該方法重點考慮了初始化時常見的梯度彌散問題,并計算出恰當(dāng)?shù)碾S機初始化范圍,使網(wǎng)絡(luò)在計算前向傳播和梯度后向傳播時,每層輸出值的方差與上一層保持一致,這在一定程度上避免了網(wǎng)絡(luò)層數(shù)較大時的梯度彌散問題。表達(dá)式為:
式中√:w表示網(wǎng)絡(luò)參數(shù),n表示網(wǎng)絡(luò)參數(shù)的個數(shù);代表高斯分布,即某一層的網(wǎng)絡(luò)參數(shù)初始化為滿足均值為0、方差為的高斯分布的隨機數(shù)。
將6維的圖像隨機劃分為256×256大小的圖像子塊,即每個訓(xùn)練樣本的尺寸為256×256×6,作為FCN網(wǎng)絡(luò)模型的輸入。為了擴充訓(xùn)練樣本的數(shù)量,采取了數(shù)據(jù)增強的方法。首先從原始圖像中的任意位置選擇一個圖像子塊,然后對每一個圖像子塊分別旋轉(zhuǎn)90°、180°和270°并做鏡像變換,共7種變換形式。因此一個圖像子塊可以擴充為8個圖像子塊。這樣既增加了訓(xùn)練樣本的數(shù)量,減少過擬合的風(fēng)險,又減輕了計算機內(nèi)存的壓力。實驗表明,40 000個圖像子塊(從原始圖像中截取5 000個圖像子塊)足夠用于網(wǎng)路的訓(xùn)練,更多的圖像子塊會增加訓(xùn)練時間,對網(wǎng)絡(luò)模型預(yù)測精度的提升沒有起到明顯效果。
任意選擇16景影像中的14景作為訓(xùn)練圖像對I-FCN模型進(jìn)行訓(xùn)練。在訓(xùn)練過程中以人工標(biāo)注的地表真實圖像為學(xué)習(xí)目標(biāo),通過反復(fù)迭代求取使代價函數(shù)(網(wǎng)絡(luò)預(yù)測值與地表真實圖像之間的誤差)最小化時所對應(yīng)的參數(shù),訓(xùn)練過程見圖3。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程十分類似,本研究中的網(wǎng)絡(luò)訓(xùn)練過程采用隨機梯度下降法,學(xué)習(xí)速率為0.001,梯度的計算采用反向傳播算法。
圖 3 全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程Fig. 3 The training process of FCN
I-FCN訓(xùn)練完成后即可用于植被信息的提取,該過程是前向計算不需要迭代,內(nèi)存的需求量小,因此測試數(shù)據(jù)不劃分圖像子塊,直接輸入到全卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過隱含層的前向計算網(wǎng)絡(luò)模型預(yù)測的像元屬于植被與非植被的概率大小確定。
為了評價I-FCN模型提取植被信息的效果,在2景測試圖像上進(jìn)行對比研究,對比支持向量機(SVM)、面向?qū)ο蠓?、?jīng)典的FCN模型和IFCN模型4種方法的植被信息提取結(jié)果的視覺效果與準(zhǔn)確性。
4種方法的植被信息提取結(jié)果見圖4~5。由圖4c可以看出明顯的“椒鹽現(xiàn)象”,相比之下2種FCN模型的植被提取效果圖(圖4d、e)的圖面較干凈,地物純凈且呈現(xiàn)片狀分布,植被與非植被地物之間的界限更加分明。在圖5c中紅色的屋頂被誤分為植被,這也體現(xiàn)了SVM的結(jié)果誤差高的原因。在圖5e中陰影區(qū)的植被由于亮度值較低,在分割時與陰面的屋頂分為了1個區(qū)域,所以沒有被檢測出來。SVM對像元進(jìn)行單獨處理, 主要利用的是光譜特征, 缺乏對均質(zhì)性區(qū)域的重視, 未能對鄰域像元的信息進(jìn)行整合, 在很大程度上影響了信息提取的精度, 所以分類結(jié)果中往往會存在許多的小斑塊。FCN模型通過多個卷積層實現(xiàn)非線性映射,能夠模擬人眼對植被識別時綜合考慮光譜、形狀、大小、紋理、相鄰關(guān)系等一系列因素自動提取出植被信息。同時I-FCN方法還通過多分辨率卷積與非下采樣池化更好地保留細(xì)節(jié)信息。雖然I-FCN方法在提取植被的邊界存在少量的破碎斑塊,但可以通過分類后處理加以改善。
定量分析是為了更精確地計算植被信息提取的精度,本研究中評價指標(biāo)使用總體精度、結(jié)果誤差與Kappa系數(shù)??傮w精度計算的是正確分類的像元比例,值越大表明分類效果越好。結(jié)果誤差衡量的是將非植被像元錯誤地分為植被像元的比例,值越小說明誤差越小。Kappa系數(shù)測定分類結(jié)果圖與Ground truth之間吻合度,值越大說明吻合度越大。3種指標(biāo)的取值范圍均為0~1,分別從不同角度反映了植被信息提取的精度。4種方法在2景測試圖像中的植被信息提取精度與誤差見表1。
圖 4 4種方法的植被信息提取效果Fig. 4 Vegetation information extraction effect diagram of 4 methods
由表1可知,I-FCN方法的總體精度和Kappa系數(shù)均高于其他3種方法。這表明I-FCN方法能夠有效減少植被像元的漏分和誤分,更加準(zhǔn)確地提取植被信息。雖然面向?qū)ο蠓椒ǖ慕Y(jié)果誤差略好于其他3種方法,但是總體精度和Kappa系數(shù)的值遠(yuǎn)遠(yuǎn)低于其他3種方法,由此可以看出面向?qū)ο蟮闹脖惶崛》椒ù嬖诖罅康穆┓智闆r,許多植被信息并沒有檢測出來。SVM的結(jié)果誤差遠(yuǎn)高于其余3種方法,表明SVM的植被提取結(jié)果中有很多與植被光譜相似度高的非植被地物被錯誤地劃分為植被,誤分現(xiàn)象比較嚴(yán)重。在測試圖像1中2種FCN模型的植被信息提取精度都高于SVM,主要原因在于FCN在提取植被信息時不僅考慮像元的光譜特征,還綜合了空間、紋理等多種特征,這樣有效保證分類結(jié)果的完整性。同時,SVM僅僅根據(jù)單一像元的光譜特性進(jìn)行分類,非常容易受到遙感影像中復(fù)雜背景(陰影、反光)以及植被稀疏變化的影響導(dǎo)致漏分或誤分。
綜上所述,利用影像的多種特征是提高植被信息提取精度的關(guān)鍵。在測試圖像2中SVM方法要好于FCN,因為測試圖像2中的植被相比測試圖像1中的植被破碎分散,面積較小。由于FCN的植被提取結(jié)果是通過對分辨率較低的特征圖進(jìn)行上采樣得到,因此在分辨率較低的特征圖中面積較小的植被無法體現(xiàn),面積較大的植被反應(yīng)出來面積較小,即使上采樣也能恢復(fù)細(xì)節(jié)信息,所以FCN會有較多的漏分現(xiàn)象。I-FCN方法無論對大面積的植被還是破碎分散的植被都有較好的提取效果,且2幅測試圖像的4個指標(biāo)差異較小,具有根強的魯棒性。
圖 5 4種方法的植被信息提取細(xì)節(jié)Fig. 5 Vegetation information extraction detail map of 4 methods
表 1 4種方法的植被信息提取精度對比Table 1 Accuracy comparison of vegetation information extraction by 4 methods
本研究對經(jīng)典的FCN模型進(jìn)行改進(jìn),應(yīng)用于高分辨率遙感影像城市植被信息提取,該模型以非下采樣池化代替?zhèn)鹘y(tǒng)池化操作并增加空洞卷積擴大感受野范圍。I-FCN充分利用了高分辨率遙感影像所具有的紋理、結(jié)構(gòu)等細(xì)節(jié)信息豐富的優(yōu)點,通過多尺度卷積與非下采樣池化獲得光譜、空間、紋理多種特征用于植被信息的提取,減輕了高分辨率遙感影像固有的光譜分辨率較低、“異物同譜”、“同物異譜”的缺陷對植被信息提取結(jié)果的干擾。該方法與支持向量機這類基于像元特征的植被信息提取方法以及面向?qū)ο蠓椒ㄏ啾饶軌蛴行p少“椒鹽現(xiàn)象”和像元誤分現(xiàn)象的發(fā)生,與經(jīng)典的FCN模型相比保留更多的細(xì)節(jié)信息,植被信息的提取結(jié)果更為精細(xì)。在視覺效果和結(jié)果誤差、總體精度、Kappa系數(shù)這3個定量評價指標(biāo)中本研究提出的I-FCN模型均有較好的表現(xiàn)。
FCN模型通過訓(xùn)練自主學(xué)習(xí)植被特征并自動完成植被信息的提取,能夠有效避免人的主觀因素對植被提取效果的影響,具有較強的魯棒性和自動化程度。同時借助計算機GPU的并行運算可以大幅提升算法的運算效率,保證植被提取結(jié)果的實時性,可為城市植被動態(tài)監(jiān)測和城市綠地系統(tǒng)規(guī)劃提供技術(shù)支撐。