宗 影,李玉鳳,劉紅玉
(南京師范大學(xué)海洋科學(xué)與工程學(xué)院,江蘇 南京 210023)
遙感因其數(shù)據(jù)獲取方便、監(jiān)測(cè)范圍廣被逐漸應(yīng)用到農(nóng)田濕地的分類(lèi)研究中. 目前,利用遙感進(jìn)行分類(lèi)的方式包括基于像素和對(duì)象兩種[1]. 基于像素的分類(lèi)以單個(gè)像素為最小單元,分類(lèi)時(shí)只考慮到地物的光譜、大小與位置信息[2],但這種分類(lèi)方式會(huì)產(chǎn)生椒鹽現(xiàn)象從而制約分類(lèi)的精度. 而面向?qū)ο蠓诸?lèi)以合并之后的對(duì)象為基本處理單元,減少了分類(lèi)破碎的現(xiàn)象,可以同時(shí)考慮地物的光譜、紋理等信息,分類(lèi)精度更高、提取效果更好[3-5],目前被廣泛應(yīng)用于植被的分類(lèi)中. 如邵亞婷等[6]使用面向?qū)ο蟮姆诸?lèi)方法對(duì)鹽城濱海濕地的植被進(jìn)行分類(lèi),6個(gè)時(shí)期的影像分類(lèi)精度均達(dá)到90%以上. 張蓉等[7]以L(fǎng)andsat多時(shí)相影像為數(shù)據(jù)源,用面向?qū)ο蟮姆诸?lèi)方法對(duì)大珠江三角洲的紅樹(shù)林進(jìn)行分類(lèi),分類(lèi)精度均保持在85%以上. 隨著大量遙感衛(wèi)星的發(fā)射和計(jì)算機(jī)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)、決策樹(shù)與隨機(jī)森林等方法逐漸運(yùn)用到地物分類(lèi)中,并得到較高的分類(lèi)精度[8-9]. 其中隨機(jī)森林分類(lèi)方法能夠利用樣本之間存在的差異,并且可以更好的處理高維數(shù)據(jù)[10-11]. 隨機(jī)森林方法對(duì)農(nóng)田、濕地植被的分類(lèi),都取得了較好的分類(lèi)結(jié)果. 如張磊等[12]基于 Sentinel-2 數(shù)據(jù)利用不同的特征組合對(duì)黃河三角洲的植被進(jìn)行提取,并用隨機(jī)森林模型進(jìn)行分類(lèi),總體精度高達(dá)90.93%. 劉家福等[13]利用融合后的Landsat OLI影像在特征優(yōu)選的基礎(chǔ)上構(gòu)建隨機(jī)森林模型提取黃河口濱海濕地植被,取得了較好的分類(lèi)效果. 谷曉天等[14]基于Landsat OLI影像數(shù)據(jù)、DEM數(shù)據(jù),用多種分類(lèi)方法對(duì)復(fù)雜地形的土地利用類(lèi)型進(jìn)行分類(lèi),研究表明隨機(jī)森林的分類(lèi)效果最好. 目前已有部分學(xué)者使用隨機(jī)森林與面向?qū)ο蠓诸?lèi)方法相結(jié)合進(jìn)行濱海濕地植被的分類(lèi)[15-17],但是大部分研究都是以高分辨率影像為數(shù)據(jù)源包括GF-2、QuikBird與無(wú)人機(jī)影像,這些高分辨率的影像價(jià)格昂貴,應(yīng)用于大尺度遙感提取的方法成本較高.
另外,當(dāng)前濕地分類(lèi)研究主要集中于內(nèi)陸濕地,對(duì)濱海濕地遙感分類(lèi)研究較少,且存在不足. 由于濱海濕地是海陸相互作用形成的特殊地理區(qū)域,濕地形成與演變處于高度動(dòng)態(tài)變化中. 江蘇濱海濕地主要分布于鹽城海岸,是典型淤泥質(zhì)潮間帶濕地,以草本濕地植被類(lèi)型為主要特征,空間上動(dòng)態(tài)演變十分明顯,各類(lèi)型之間交錯(cuò)帶植被分布較為復(fù)雜. 因此,如何利用遙感方法對(duì)其進(jìn)行分類(lèi),成為區(qū)域濕地分布研究的重要科學(xué)問(wèn)題. 因此本文以Sentinel-2影像為數(shù)據(jù)源,通過(guò)面向?qū)ο笈c隨機(jī)森林結(jié)合的算法,試驗(yàn)不同的特征組合方案的分類(lèi)精度,找出適合鹽城濱海濕地分類(lèi)的最佳特征組合,以提高區(qū)域內(nèi)植被的分類(lèi)精度.
選擇江蘇典型濱海濕地分布區(qū)為研究對(duì)象. 該區(qū)位于江蘇鹽城國(guó)家級(jí)珍禽自然保護(hù)區(qū)核心區(qū),北臨新洋港,南接斗龍港,面積1.92×104hm2(如圖1所示). 濕地植被類(lèi)型以蘆葦、堿蓬和互花米草為優(yōu)勢(shì)種群. 由于區(qū)域位于淤長(zhǎng)型海岸地段,濕地以每年50~100 m速度向海淤進(jìn)[18],在地形、地貌、土壤與水文等生態(tài)環(huán)境要素綜合作用下,濕地植被類(lèi)型自陸向海呈帶狀分布格局,并且處于高度敏感和動(dòng)態(tài)演變過(guò)程中,各類(lèi)型之間交錯(cuò)帶植被分布十分復(fù)雜.
圖1 研究區(qū)地理位置圖Fig.1 Geographic location of the study area
1.2.1 遙感數(shù)據(jù)
Sentinel-2遙感數(shù)據(jù)有13個(gè)波段,包括10 m、20 m和60 m 3種空間分辨率(如圖1(b))所示. 其中紅光波段(B4)、綠光波段(B3)、藍(lán)波段(B2)、近紅外波段(B8)分辨率為10 m;紅邊波段(B5、B6、B7)、近紅外波段(B8A)、短波紅外波段(B11、B12)分辨率為20 m;海岸波段(B1)、水汽波段(B9)、卷云波段(B10)分辨率為60 m. 此數(shù)據(jù)分辨率較高,且包含易于植被區(qū)分的紅邊波段. 因此為開(kāi)展鹽城保護(hù)區(qū)核心區(qū)植被分類(lèi)研究,選取2018年6月23日質(zhì)量較好的Sentinel-2影像作為數(shù)據(jù)源. 數(shù)據(jù)從歐空局網(wǎng)站(https://scihub.copernicus.eu/)下載,數(shù)據(jù)級(jí)別為L(zhǎng)IC級(jí),此數(shù)據(jù)已經(jīng)過(guò)幾何校正和輻射校正,因此使用SNAP軟件進(jìn)行大氣校正,大氣校正后將所有波段分辨率重采樣成10 m.
1.2.2 樣本數(shù)據(jù)
本研究使用現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù)并結(jié)合2017年的GF-2影像(1m)采用目視解譯方式進(jìn)行樣本點(diǎn)的選取. 2018年6月對(duì)研究區(qū)進(jìn)行了現(xiàn)場(chǎng)采樣,利用GPS對(duì)不同的植被類(lèi)型樣點(diǎn)進(jìn)行定位,同時(shí)以GF-2影像為基礎(chǔ)影像選取樣本點(diǎn)以增加樣本數(shù)量. 綜合考慮影像的分辨率與前人研究?jī)?nèi)容,將研究區(qū)分為互花米草、蘆葦、堿蓬、光灘和水體5種類(lèi)別.
面向?qū)ο笥跋裉幚硐葘?duì)影像進(jìn)行分割,分割之后對(duì)影像進(jìn)行分類(lèi). 分割算法有棋盤(pán)分割、多尺度分割等[19]. 本研究使用的是多尺度分割算法,它對(duì)相鄰像元或分割之后較小的對(duì)象進(jìn)行合并,使對(duì)象內(nèi)部像元之間的同質(zhì)性最大[20],進(jìn)行分割時(shí)分割尺度對(duì)分割的結(jié)果產(chǎn)生較大的影響. 本研究的分割尺度由eCognition9.0中的ESP2工具來(lái)確定,ESP2工具基于分割對(duì)象的局部方差(LV)及其變化率(ROC)度量尺度分割的合理性,ROC-LV曲線(xiàn)的峰值點(diǎn)所對(duì)應(yīng)的尺度就是影像的最優(yōu)分割尺度[21-22]. 本研究在ESP2分割結(jié)果的基礎(chǔ)上,選出3個(gè)較高的峰值,然后分別試驗(yàn)峰值對(duì)應(yīng)下3個(gè)尺度的分割效果. 由于本文研究植被的分類(lèi),形狀參數(shù)對(duì)其分類(lèi)影響不大,因此采用默認(rèn)參數(shù),其中形狀因子為0.1,緊密度為0.5,各波段權(quán)重設(shè)為1,影像的分割結(jié)果如圖2所示,選取95、120與127分別進(jìn)行分割,對(duì)比植被在3個(gè)尺度下的分割效果,選取的最終分割尺度為95.
圖2 最優(yōu)分割尺度估計(jì)結(jié)果Fig.2 Optimal segmentation scale estimation results
研究區(qū)主要由水體和植被組成,因?yàn)樗泻心嗌?其反射率會(huì)在可見(jiàn)光波段增加[23]. 植被光譜特征在可見(jiàn)光、近紅外波段表現(xiàn)出雙峰和雙谷的特征,即在紅光波段吸收而近紅外波段高反射和高透射,常利用這兩個(gè)波段進(jìn)行相關(guān)運(yùn)算對(duì)植被進(jìn)行分類(lèi),同時(shí)紋理特征也可以提高分類(lèi)的精度. 因此本文選取灰度共生矩陣計(jì)算紋理特征,共選取植被指數(shù)、水體指數(shù)、光譜特征與紋理特征4種類(lèi)型的特征變量. 具體特征指標(biāo)如表1所示.
表1 影像對(duì)象的分類(lèi)特征描述Table 1 Description of classification features of image objects
表2 不同試驗(yàn)方案組合Table 2 Combination of different test scenarios
在eCognition9.0中分割的基礎(chǔ)上,計(jì)算表1所示的不同特征. 為了提高濕地植被的分類(lèi)精度,并探究不同的特征對(duì)于分類(lèi)的重要性,將表1所示的分類(lèi)特征進(jìn)行不同的組合,設(shè)計(jì)如表2所示的5種不同的組合進(jìn)行試驗(yàn),研究適合本研究區(qū)植被分類(lèi)的特征組合.
隨機(jī)森林于2001年首次提出,以決策樹(shù)為基本單元,將多棵決策樹(shù)集合在一起的一種算法[24-25]. 每個(gè)決策樹(shù)相當(dāng)于一個(gè)分類(lèi)器,隨機(jī)森林包括兩層的隨機(jī)選擇:隨機(jī)選擇樣本數(shù)據(jù)和隨機(jī)選擇分類(lèi)特征,這使得隨機(jī)森林不易過(guò)擬合,具備很好的抗干擾能力[26].
隨機(jī)森林建立可分為以下三步:(1)在所有樣本中,采用隨機(jī)且有放回的方式進(jìn)行抽樣,組成訓(xùn)練樣本集,每個(gè)訓(xùn)練樣本集的樣本數(shù)大約為總樣本數(shù)量的2/3. (2)對(duì)抽取的訓(xùn)練樣本集進(jìn)行訓(xùn)練,在決策樹(shù)生長(zhǎng)過(guò)程中,每棵樹(shù)的每個(gè)節(jié)點(diǎn)處任意抽取特征,每個(gè)決策樹(shù)根據(jù)輸入的樣本數(shù)據(jù)與特征進(jìn)行分類(lèi). (3)重復(fù)(1)、(2),通過(guò)多次樣本抽取和訓(xùn)練得到多個(gè)決策樹(shù)模型,最后根據(jù)不同的決策樹(shù)分類(lèi)結(jié)果投票決定最終的分類(lèi)結(jié)果.
特征選擇可以在多維特征中篩選出最有利于分類(lèi)的特征子集,進(jìn)而提升隨機(jī)森林模型的效率和分類(lèi)精度[27]. 選擇袋外數(shù)據(jù)(out-of-bag,OOB)誤差和Kappa系數(shù)進(jìn)行模型評(píng)估以確定模型最優(yōu)特征數(shù)量. 在模型訓(xùn)練過(guò)程中,通常將訓(xùn)練數(shù)據(jù)按7∶3的比例分為訓(xùn)練集和測(cè)試集,對(duì)測(cè)試集的預(yù)測(cè)值與真實(shí)值計(jì)算得到Kappa系數(shù)[28]. 而OOB誤差是指在抽樣的過(guò)程中約有1/3的原始樣本數(shù)據(jù)未被選中. OOB誤差是隨機(jī)森林用未進(jìn)行模型訓(xùn)練的袋外數(shù)據(jù)計(jì)算得到的泛化誤差,可以表征特征的重要性(variable important,VI)[29]. 公式為
在特征重要性的基礎(chǔ)上,采用遞歸消除法進(jìn)行特征選擇. 步驟如下:(1)計(jì)算所有特征的重要性并進(jìn)行排序,選定要消除特征的比例. (2)以特征重要性為基礎(chǔ)消除排序靠后的特征,得到新的特征集. (3)用新的特征集再次進(jìn)行隨機(jī)森林建模同時(shí)計(jì)算袋外誤差率,重復(fù)此步驟,最后剩下M個(gè)特征[31]. 通過(guò)以上方式得到不同特征集和每個(gè)特征集對(duì)應(yīng)的袋外誤差率,選擇袋外誤差率較低和Kappa系數(shù)較高的特征作為最優(yōu)特征集.
以2017年9月14日經(jīng)過(guò)融合后的GF-2影像數(shù)據(jù)為依據(jù),在ArcGIS中生成500個(gè)均勻分布在整個(gè)研究區(qū)范圍內(nèi)的隨機(jī)點(diǎn)作為驗(yàn)證樣本. 通過(guò)對(duì)驗(yàn)證樣本和分類(lèi)結(jié)果的比較,得到混淆矩陣,從混淆矩陣中計(jì)算總體精度(OA)、制圖精度(PA)、用戶(hù)精度(UA)和Kappa系數(shù)對(duì)不同特征組合的分類(lèi)結(jié)果進(jìn)行評(píng)價(jià).
制圖精度(生產(chǎn)者精度)指影像被分類(lèi)為A的像元數(shù)與實(shí)際A的像元數(shù)之比. 用戶(hù)精度指影像正確分類(lèi)為A的像元數(shù)和與分出的所有A類(lèi)像元數(shù)之比. 總體精度指被正確分類(lèi)的像元總和與總像元數(shù)之比. 而Kappa系數(shù)與總體分類(lèi)精度相比,將漏分和錯(cuò)分的像元也同時(shí)考慮進(jìn)來(lái)[32].
圖3 2018年不同地物光譜曲線(xiàn)與指數(shù)圖Fig.3 Spectral curves of different features and vegetation in 2018
在ENVI5.3中以影像為基礎(chǔ),選取不同地物的純凈樣本,統(tǒng)計(jì)不同地物類(lèi)型的光譜反射率與部分植被指數(shù)值,組成數(shù)據(jù)集. 根據(jù)這些統(tǒng)計(jì)值做典型地物的光譜曲線(xiàn),如圖3所示. 圖中地物的光譜特征存在差別,光灘、水體與植被單獨(dú)使用光譜特征便可以進(jìn)行區(qū)分. 3種植被的光譜信息較為相近,其中蘆葦在紅邊波段至近紅外波段(B6-B8A)與其他2種植被的光譜差異較大,但互花米草與堿蓬的光譜值極為相近,使用光譜特征難以區(qū)分. 由圖3(c)可知,蘆葦?shù)母鞣N指數(shù)反射率值較高且與其他兩種植被差別較大,可以與其他2種植被進(jìn)行區(qū)分,3種植被在REDNDVI的反射率有所差別,可以用來(lái)植被間的區(qū)分,而堿蓬與互花米草的另外3個(gè)指數(shù)的值十分相近,很難進(jìn)行直接的區(qū)分. 雖然單波段與單指數(shù)可以實(shí)現(xiàn)個(gè)別地物的區(qū)分,但是區(qū)分效果不同且全部地物不能依靠單一特征進(jìn)行有效區(qū)分,因此要對(duì)特征進(jìn)行組合. 不同的植被指數(shù)、水體指數(shù)與光譜的組合對(duì)地物分類(lèi)的作用不同,多個(gè)特征的組合會(huì)優(yōu)于單個(gè)特征,但是特征數(shù)量過(guò)多又會(huì)增加數(shù)據(jù)的冗余度,因此找出合適地物分類(lèi)的特征組合十分重要.
根據(jù)表1的分類(lèi)特征與表2的實(shí)驗(yàn)方案,本文采用R軟件實(shí)現(xiàn)隨機(jī)森林模型的構(gòu)建. 在模型訓(xùn)練中,需要對(duì)參數(shù)進(jìn)行尋優(yōu),包括決策樹(shù)的數(shù)量、特征數(shù)量、樹(shù)的最大深度與葉節(jié)點(diǎn)最大數(shù)目等. 其中決策樹(shù)的數(shù)量與特征的數(shù)量對(duì)模型分類(lèi)精度影響較大,因此對(duì)這兩個(gè)參數(shù)進(jìn)行優(yōu)化[33]. 首先采用逐一增加變量的方法建模,根據(jù)OOB誤差確定用于分類(lèi)的特征數(shù)量. 在特征數(shù)量確定后,建立相應(yīng)的模型,并對(duì)其進(jìn)行可視化分析,繪制模型誤差與決策樹(shù)數(shù)量的關(guān)系圖,從而確定決策樹(shù)的數(shù)量. 如圖4為對(duì)所有的特征進(jìn)行建模的決策樹(shù)的數(shù)量與誤差精度圖. 可見(jiàn),當(dāng)樹(shù)的數(shù)量大于700后,模型精度基本無(wú)變化,因此最終選取的決策樹(shù)的數(shù)量為700.
圖4 模型誤差與決策樹(shù)數(shù)量關(guān)系圖Fig.4 Plot of model error versus number of decision trees
本文首先使用所有的特征進(jìn)行建模,并對(duì)特征重要性進(jìn)行計(jì)算排序,每次去掉排序靠后的20%的特征,然后使用其余的特征再次進(jìn)行隨機(jī)森林建模,在此基礎(chǔ)上共進(jìn)行13次迭代消除. 每次迭代消除后計(jì)算OOB誤差與Kappa系數(shù),根據(jù)OOB誤差與Kappa系數(shù)進(jìn)行特征的優(yōu)選.
由圖5可知,Kappa系數(shù)隨著分類(lèi)特征數(shù)量的不斷減少呈現(xiàn)波動(dòng)下降趨勢(shì),當(dāng)分類(lèi)特征數(shù)量減少到25時(shí),模型精度上升. 隨著特征數(shù)量的不斷減少,精度總體呈下降趨勢(shì). 隨著分類(lèi)特征數(shù)量減少,OOB誤差總體呈現(xiàn)較大的波動(dòng),可能是本研究選取的特征數(shù)量較少,因此每次迭代消除的數(shù)量也較少,使OOB缺乏規(guī)律. 最終,當(dāng)剩余25個(gè)特征時(shí)Kappa系數(shù)最高為0.81,此時(shí)OOB誤差也較小,因此選擇重要性前25的特征作為最優(yōu)特征集用于植被分類(lèi),選取的25個(gè)特征重要性排序如圖6所示. 在排序靠前的特征中,植被指數(shù)占得比例較大,且得分較高.
圖5 模型誤差與特征數(shù)量關(guān)系圖Fig.5 Map of relationship between model error and number of feature
圖6 特征重要性得分圖Fig.6 Map of feature importance ranking chart
5種不同方案的分類(lèi)結(jié)果如圖7所示,從分類(lèi)圖中可以定性地判斷不同分類(lèi)方案的分類(lèi)效果. 方案1、方案2與方案3的分類(lèi)效果較差,方案1中互花米草被錯(cuò)分為堿蓬的較多,部分蘆葦也錯(cuò)分為堿蓬,方案2中較多蘆葦被錯(cuò)分為互花米草,方案3中堿蓬與互花米草的交錯(cuò)帶被錯(cuò)分為蘆葦,方案4與方案5的分類(lèi)效果相比于前3種方案分類(lèi)效果較好,但方案4中也有部分的蘆葦被錯(cuò)分為互花米草. 在所有的分類(lèi)方案中,蘆葦與互花米草交錯(cuò)帶都出現(xiàn)了不同程度的錯(cuò)分,分析原因可能是相鄰植被常?;焐植?之間沒(méi)有明確的界限,在中等分辨率的影像中常以混合像元形式存在,從而導(dǎo)致濕地類(lèi)型的誤判斷.
對(duì)5種試驗(yàn)方案的分類(lèi)結(jié)果進(jìn)行對(duì)比,由表3可知,方案1的總體精度為83%,Kappa系數(shù)為0.78,在所有方案里的分類(lèi)精度最低. 方案2中植被指數(shù)與水體指數(shù)利用了波段之間的相互運(yùn)算,分類(lèi)精度有所提高. 方案3是光譜、植被指數(shù)與水體指數(shù)的綜合分類(lèi),總體精度達(dá)到了84.50%,Kappa系數(shù)提高到了0.80,分類(lèi)效果進(jìn)一步提升. 方案4中在方案3的基礎(chǔ)上加入了紋理特征,總體精度比方案3增高了0.1%. 方案5是按照特征重要性排序選出的優(yōu)選組合,相比于前4種分類(lèi)方案,總體精度為87.07,Kappa系數(shù)為0.84,在所有的分類(lèi)方案中精度最高,分類(lèi)效果較好.
圖7 不同方案分類(lèi)結(jié)果圖Fig.7 Classification results of different scenarios
表3 分類(lèi)結(jié)果精度統(tǒng)計(jì)Table 3 Classification results precision statistics
從植被的分類(lèi)效果來(lái)看,5種分類(lèi)方案中水體與光灘的分類(lèi)精度均較高,這與分類(lèi)圖中展現(xiàn)的一致. 對(duì)于植被分類(lèi)精度,經(jīng)過(guò)特征優(yōu)選的方案5互花米草的用戶(hù)精度達(dá)到了97.73%,精度較高. 蘆葦?shù)挠脩?hù)分類(lèi)精度為84%,而堿蓬分類(lèi)精度較差. 本研究區(qū)內(nèi)的3種植被的光譜特征較為相近,因此想通過(guò)增加分類(lèi)特征進(jìn)行區(qū)分,但是特征數(shù)量過(guò)多會(huì)增加數(shù)據(jù)的冗余,也不利于分類(lèi)精度的提高. 通過(guò)特征優(yōu)選對(duì)變量進(jìn)行了部分篩選,通過(guò)分類(lèi)圖來(lái)看,植被整體的分類(lèi)效果較好,但對(duì)于3種植被類(lèi)型交錯(cuò)帶部分,因植被之間的混生分布,導(dǎo)致植被的分類(lèi)精度有所下降.
本研究以Sentinel-2遙感影像為數(shù)據(jù)源,通過(guò)面向?qū)ο蠓椒ㄟM(jìn)行分割,結(jié)合ESP2工具確定分割尺度為95. 在分割的基礎(chǔ)上計(jì)算光譜特征、植被指數(shù)、水體指數(shù)以及紋理特征4種基本特征變量,并且使用R構(gòu)建隨機(jī)森林模型進(jìn)行特征重要性的計(jì)算及植被分類(lèi)研究. 為了研究不同特征變量的分類(lèi)精度設(shè)計(jì)了 5種試驗(yàn)方案,并用隨機(jī)森林算法對(duì)不同方案的分類(lèi)精度進(jìn)行分析. 結(jié)果表明:以光譜數(shù)據(jù)為基礎(chǔ),增加不同特征變量對(duì)濕地分類(lèi)的精度影響不同. 單獨(dú)以光譜數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)效果較差,Kappa系數(shù)為0.78. 使用植被指數(shù)與水體指數(shù)結(jié)合分類(lèi),相比于使用光譜特征分類(lèi)的效果好,Kappa系數(shù)提升為0.79. 光譜特征、植被指數(shù)與水體指數(shù)共同參與分類(lèi),分類(lèi)效果進(jìn)一步提升. 通過(guò)特征重要性選擇出的特征優(yōu)選組合相比于前4種方案,分類(lèi)效果最好,總體精度為87.07%,Kappa系數(shù)為0.84. 說(shuō)明基于特征優(yōu)選的面向?qū)ο笈c隨機(jī)森林相結(jié)合的分類(lèi)算法對(duì)濱海濕地植被的分類(lèi)效果較好,可以用于濕地的植被分類(lèi)研究.