鄭文慧 王潤(rùn)紅 曹銀軒 靳 寧 馮 浩 何建強(qiáng)
(1.西北農(nóng)林科技大學(xué)旱區(qū)農(nóng)業(yè)水土工程教育部重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100;2.西北農(nóng)林科技大學(xué)中國(guó)旱區(qū)節(jié)水農(nóng)業(yè)研究院, 陜西楊凌 712100;3.山西能源學(xué)院資源與環(huán)境工程系, 晉中 030600; 4.中國(guó)科學(xué)院水利部水土保持研究所, 陜西楊凌 712100)
黃土高原位于我國(guó)西北地區(qū)中部,是典型的旱作農(nóng)業(yè)區(qū),在國(guó)家糧食安全體系中具有舉足輕重的作用[1]。黃土高原蒸發(fā)強(qiáng)烈,干旱少雨且年內(nèi)降雨分布不均勻[2],同時(shí)田間管理水平落后,導(dǎo)致水資源嚴(yán)重匱乏,限制了黃土高原農(nóng)業(yè)的發(fā)展[3-4]。因此,采取有效的田間管理措施提高水資源利用效率是旱區(qū)農(nóng)業(yè)可持續(xù)發(fā)展的必然趨勢(shì)。地膜覆蓋技術(shù)具有節(jié)水、保墑和增產(chǎn)的性能[5],因此在黃土高原大田作物生產(chǎn)中被廣泛應(yīng)用[6]。然而,隨著地膜用量的逐漸增加和覆蓋面積的不斷擴(kuò)大,地膜易破碎、難降解、難回收的短板日益顯露,生態(tài)環(huán)境問題日益嚴(yán)重[7-8]。精準(zhǔn)獲取覆膜農(nóng)田的時(shí)空分布信息有助于發(fā)揮地膜覆蓋技術(shù)的積極作用、緩解生態(tài)環(huán)境壓力,也有助于相關(guān)部門對(duì)地膜的使用和分布進(jìn)行監(jiān)管和調(diào)度,提高對(duì)地膜污染的防治能力。
隨著科學(xué)技術(shù)的深入發(fā)展,應(yīng)用遙感技術(shù)快速提取覆膜農(nóng)田信息成為可能。遙感技術(shù)具有信息獲取快、觀測(cè)范圍大等特點(diǎn),能夠宏觀地把握地物空間分布概況[9-11],從而解決了大范圍內(nèi)覆膜農(nóng)田監(jiān)測(cè)的難題。近年來,覆膜農(nóng)田的監(jiān)測(cè)和識(shí)別逐漸發(fā)展為農(nóng)業(yè)遙感領(lǐng)域的研究熱點(diǎn)[12-15]。目前,我國(guó)大多數(shù)相關(guān)研究地區(qū)主要集中在新疆等地膜連片分布地區(qū),該地區(qū)的地膜識(shí)別相對(duì)容易。此外,已有研究多采用支持向量機(jī)和決策樹等單一算法進(jìn)行分類,較少采用多分類器集成算法。
谷歌地球引擎(Google Earth Engine,GEE)是專門用于衛(wèi)星影像及其它空間數(shù)據(jù)解譯運(yùn)算的開源智能云平臺(tái)[16],它將谷歌最先進(jìn)的云計(jì)算能力和存儲(chǔ)能力用于處理各類熱點(diǎn)問題,為遙感工作者及其他公眾用戶提供了便利[17-19]。近年來,GEE平臺(tái)逐漸被廣泛應(yīng)用于農(nóng)田面積提取等研究[20-21]。GEE平臺(tái)改變了傳統(tǒng)遙感軟件處理數(shù)據(jù)的定式,解決了大尺度應(yīng)用研究中數(shù)據(jù)收集難、解譯效率低的弊端,從而為黃土高原覆膜農(nóng)田的識(shí)別提供了可能。
本研究以甘肅省定西市安定區(qū)團(tuán)結(jié)鎮(zhèn)作為黃土高原覆膜農(nóng)田的典型區(qū)域,借助GEE平臺(tái),利用分辨率30 m的陸地衛(wèi)星地表反射率數(shù)據(jù)(USGS Landsat 8 Surface Reflectance Tier 1),采用特征選擇和隨機(jī)森林算法對(duì)該地區(qū)的覆膜農(nóng)田進(jìn)行提取,構(gòu)建基于GEE平臺(tái)的黃土高原覆膜農(nóng)田識(shí)別方法框架,以研究隨機(jī)森林算法的關(guān)鍵參數(shù)對(duì)遙感影像地物分類結(jié)果的影響。通過分析不同特征組合下的遙感影像分類結(jié)果,確定識(shí)別黃土高原覆膜農(nóng)田的最優(yōu)特征組合方案;通過比較不同的分類算法,驗(yàn)證隨機(jī)森林算法在黃土高原覆膜農(nóng)田識(shí)別中的有效性。
本研究選擇黃土高原和西秦嶺山地交匯處的甘肅省定西市安定區(qū)團(tuán)結(jié)鎮(zhèn)作為研究區(qū)域(圖1)。該地區(qū)地勢(shì)南高北低,山脈南北走向,屬溫帶大陸性季風(fēng)氣候,總面積約134.43 km2,年平均氣溫6.3℃,有效積溫2 300℃,年平均降雨量430 mm,無霜期140 d。統(tǒng)計(jì)數(shù)據(jù)顯示,截至2019年底,團(tuán)結(jié)鎮(zhèn)總耕地面積達(dá)53.11 km2,約占全鎮(zhèn)總面積的2/5[22]。該地區(qū)屬于典型的黃土高原地膜覆蓋種植區(qū),地膜覆蓋馬鈴薯種植面積占總種植面積的90%以上。
圖1 研究區(qū)域位置圖和地面樣本點(diǎn)分布示意圖Fig.1 Location schematic of study area and distributions of land surface sample points
1.2.1Landsat-8衛(wèi)星數(shù)據(jù)
本研究所需Landsat-8衛(wèi)星數(shù)據(jù)來源于GEE平臺(tái)(https:∥earthengine.google.com)的陸地衛(wèi)星地表反射率數(shù)據(jù)(USGS Landsat 8 Surface Reflectance Tier 1),空間分辨率為30 m,時(shí)間分辨率為16 d。該數(shù)據(jù)已進(jìn)行過大氣校正,消除了大氣和光照等因素所造成的輻射誤差。
黃土高原主要的覆膜作物為春玉米和馬鈴薯,一般于4月下旬至5月上旬播種[23-24]。在5月上中旬時(shí),冬小麥正處于拔節(jié)抽穗期,夏玉米還未種植,春玉米和馬鈴薯剛剛播種,此時(shí)地膜受作物葉片的干擾程度小,容易獲取光譜信息。因此,5月上中旬是解譯研究區(qū)地膜覆蓋范圍的最佳時(shí)相。首先利用時(shí)間和空間的過濾函數(shù)獲取團(tuán)結(jié)鎮(zhèn)上空2018年5月11日的Landsat-8影像,軌道號(hào)為130/035;然后對(duì)該影像進(jìn)行去云處理,以減少云層遮擋的影響;最后使用團(tuán)結(jié)鎮(zhèn)的矢量圖進(jìn)行影像裁剪。
1.2.2地面樣本數(shù)據(jù)
團(tuán)結(jié)鎮(zhèn)內(nèi)的地物類型主要包含白色地膜、黑色地膜、植被覆蓋、裸露農(nóng)田、水體和不透水層(包括建筑、道路、山體、廢棄用地等)共6種土地覆蓋類型?;诘厍虼髷?shù)據(jù)科學(xué)工程數(shù)據(jù)共享服務(wù)系統(tǒng)(http:∥data.casearth.cn/)提供的全球分辨率30 m精細(xì)地表覆蓋數(shù)據(jù)和Google Earth高分辨率影像,采集了團(tuán)結(jié)鎮(zhèn)6種不同土地覆蓋類型共計(jì)648個(gè)矩形樣本,樣本尺寸為2像素×2像素,并在GEE平臺(tái)中隨機(jī)分為訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)兩類,兩類數(shù)據(jù)的數(shù)量基本一致(表1)。
表1 研究區(qū)地物分類體系及樣本數(shù)量Tab.1 Classification scheme and sample number of surface features in study area
1.3.1基于GEE平臺(tái)的覆膜農(nóng)田識(shí)別框架
基于GEE平臺(tái)提取團(tuán)結(jié)鎮(zhèn)覆膜農(nóng)田區(qū)域的具體步驟(圖2)為:①對(duì)獲取的Landsat-8影像數(shù)據(jù)進(jìn)行預(yù)處理,并提取影像的光譜特征、指數(shù)特征和紋理特征。②使用提取的遙感識(shí)別特征和訓(xùn)練數(shù)據(jù)選取隨機(jī)森林(Random forest,RF)算法的關(guān)鍵參數(shù)。③利用參數(shù)優(yōu)化后的RF算法進(jìn)行紋理特征重要性分析,獲得優(yōu)選紋理特征。④基于提取的遙感識(shí)別特征和優(yōu)選紋理特征制定6種不同的分類方案,利用參數(shù)優(yōu)化后的RF算法進(jìn)行不同方案下的地物分類并從中提取出覆膜農(nóng)田區(qū)域,通過混淆矩陣方法和驗(yàn)證數(shù)據(jù)對(duì)分類結(jié)果進(jìn)行精度評(píng)價(jià),確定最佳分類方案。⑤使用最佳分類方案和同一地面樣本數(shù)據(jù)分別利用支持向量機(jī)(Support vector machines,SVM)、決策樹(Decision tree,DT)和最小距離分類(Minimum distance classifier,MDC)算法進(jìn)行地物分類,并進(jìn)行精度驗(yàn)證,通過與RF分類精度進(jìn)行比較和McNemar’s檢驗(yàn),評(píng)價(jià)RF算法的分類性能。
圖2 基于GEE平臺(tái)提取研究區(qū)覆膜農(nóng)田區(qū)域的技術(shù)流程圖Fig.2 Technical flowchart of extraction of plastic-film-mulched farmland based on Google Earth Engine platform in study area
1.3.2遙感識(shí)別特征構(gòu)建
本研究基于Landsat-8地表反射率數(shù)據(jù)提取了光譜、指數(shù)和紋理3組特征進(jìn)行地膜識(shí)別。其中,光譜特征包括遙感影像可見光、近紅外和短波紅外7個(gè)波段的反射率數(shù)據(jù)。指數(shù)特征包括歸一化植被指數(shù)[25]、歸一化水體指數(shù)[26]和歸一化建筑指數(shù)[27]。紋理特征選用灰度共生矩陣(Gray level co-occurrence matrix,GLCM)來提取。GLCM是由HARACLICK等[28]提出的通過計(jì)算影像灰度級(jí)之間聯(lián)合條件概率密度來提取紋理特征的一種統(tǒng)計(jì)學(xué)方法。GEE平臺(tái)提供了基于GLCM快速計(jì)算紋理特征的函數(shù),可在短時(shí)間內(nèi)同時(shí)導(dǎo)出18種不同紋理特征。若將18種紋理測(cè)度全部用于機(jī)器學(xué)習(xí)分類必然會(huì)產(chǎn)生冗余,因此本研究選取最為常見的和平均、方差、對(duì)比度、異質(zhì)性、逆差矩、熵、角二階矩和相關(guān)性8種紋理指標(biāo)來區(qū)分不同地物類型的空間結(jié)構(gòu)差異。由于光譜特征中考慮了影像的7個(gè)波段,因此選用的紋理特征共包含56(8×7)個(gè)波段信息。最終共提取了66個(gè)光譜特征、指數(shù)特征以及紋理特征,其中紋理特征占全部遙感特征的80%以上。
為了進(jìn)一步提高覆膜農(nóng)田的識(shí)別精度和算法運(yùn)行效率,研究利用RF算法對(duì)56個(gè)紋理特征進(jìn)行重要性分析,然后按照重要性排序,逐一添加紋理特征開展覆膜農(nóng)田識(shí)別工作,最后通過評(píng)價(jià)分類的生產(chǎn)者精度、用戶精度、總體精度和平均精度(白膜和黑膜的生產(chǎn)者精度與用戶精度的平均值)來選取最優(yōu)紋理特征組合,從而實(shí)現(xiàn)基于最優(yōu)特征集下的覆膜農(nóng)田識(shí)別。
1.3.3隨機(jī)森林關(guān)鍵參數(shù)對(duì)分類結(jié)果的影響
RF算法在一定程度上可以避免過擬合[29-31],對(duì)噪聲和異常值有較好的容忍性,表現(xiàn)出很多普通機(jī)器學(xué)習(xí)算法未有的獨(dú)特優(yōu)勢(shì)[30,32]。
RF算法可在GEE平臺(tái)上實(shí)現(xiàn),且在構(gòu)建RF算法時(shí)僅需對(duì)兩個(gè)最為關(guān)鍵的參數(shù)進(jìn)行優(yōu)化,即決策樹數(shù)量T和節(jié)點(diǎn)分裂特征個(gè)數(shù)M,其他參數(shù)保持默認(rèn)值。一般地,增加決策樹數(shù)量T可有效減小算法的泛化誤差,但同時(shí)降低計(jì)算效率;節(jié)點(diǎn)分裂特征個(gè)數(shù)M是單棵決策樹分類性能的決定性因素,并對(duì)樹之間的相關(guān)性產(chǎn)生影響[33]。
1.3.4團(tuán)結(jié)鎮(zhèn)覆膜農(nóng)田的識(shí)別
為了評(píng)價(jià)不同特征組合在覆膜農(nóng)田識(shí)別中的表現(xiàn),本研究制定了6組不同的分類方案,具體為:光譜特征(方案S);指數(shù)特征(方案I);優(yōu)選紋理特征(方案T1);光譜+指數(shù)特征(方案S+I);光譜+指數(shù)+優(yōu)選紋理特征(方案S+I+T1);光譜+指數(shù)+全部紋理特征(方案S+I+T2)。利用參數(shù)優(yōu)化后的RF算法和325個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行不同特征組合下的地物分類,并從分類結(jié)果中提取出覆膜農(nóng)田區(qū)域,對(duì)比分析不同分類方案的分類精度,從而選取最佳分類方案。
為了進(jìn)一步比較不同分類算法在覆膜農(nóng)田識(shí)別中的有效性,本研究基于最佳分類方案,使用同一訓(xùn)練和驗(yàn)證樣本,分別采用SVM、DT和MDC算法提取覆膜農(nóng)田區(qū)域,依據(jù)分類精度和McNemar’s檢驗(yàn)結(jié)果與RF算法提取結(jié)果作對(duì)比分析,從而評(píng)價(jià)不同算法的分類性能。SVM算法是以統(tǒng)計(jì)學(xué)為理論基礎(chǔ),以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則的機(jī)器學(xué)習(xí)方法[34],核函數(shù)是影響其分類性能的決定性因素之一,本研究選用線性核函數(shù)進(jìn)行分類,該核函數(shù)已被證明在覆膜農(nóng)田識(shí)別中效果最佳[13]。DT算法是一種依據(jù)分割閾值對(duì)遙感影像的像元進(jìn)行歸類的非參數(shù)監(jiān)督分類方法[35],包括ID3、C4.5和CART共3種常見類型,本研究選用其中的CART算法執(zhí)行地物分類。MDC算法是通過計(jì)算未知類別向量與訓(xùn)練樣本向量中心點(diǎn)的距離,將非樣本像元?dú)w類到距離最短類別中的分類方法[36],本研究采用歐氏距離計(jì)算距離。
1.3.5識(shí)別精度驗(yàn)證
采用混淆矩陣法對(duì)分類結(jié)果進(jìn)行精度評(píng)價(jià),包括生產(chǎn)者精度(Producer accuracy,PA)、用戶精度(User accuracy,UA)、總體精度(Overall accuracy,OA)和Kappa系數(shù)4個(gè)評(píng)價(jià)指標(biāo)[37-38]。
此外,利用McNemar’s檢驗(yàn)來檢測(cè)不同算法間分類精度的差異,該檢驗(yàn)是基于兩個(gè)算法的混淆矩陣而計(jì)算的非參數(shù)檢驗(yàn),以Z值來評(píng)判算法間差異的顯著性[39]?,F(xiàn)有研究表明,若|Z|>1.96,則表明在0.05檢驗(yàn)水平下兩種算法間的分類精度差異性顯著。
決策樹數(shù)量T和節(jié)點(diǎn)分裂特征個(gè)數(shù)M對(duì)RF算法的袋外誤差均有明顯的影響(圖3)。隨著T的增大,袋外誤差開始降低,尤其是當(dāng)T<100時(shí),此時(shí)因還未形成“森林”,袋外誤差明顯降低;當(dāng)T≥100時(shí),袋外誤差趨于穩(wěn)定。節(jié)點(diǎn)分裂特征個(gè)數(shù)M的增加也可以有效降低袋外誤差,但相比參數(shù)T的影響較小,且參數(shù)M對(duì)算法的作用也與T的取值有關(guān)。當(dāng)T<100時(shí),M的增加能夠引起袋外誤差大幅度降低,而當(dāng)T>100時(shí),M的變化對(duì)袋外誤差的影響不明顯。當(dāng)M<6時(shí),袋外誤差降低相對(duì)明顯;在M≥6時(shí)誤差變化幅度很小,尤其在T≥100后基本趨于穩(wěn)定。因此,兼顧RF算法的穩(wěn)定、精度與效率,本研究選取T=600、M=8(即默認(rèn)值)作為RF算法的輸入?yún)?shù)用于下一步最優(yōu)特征子集的篩選。
圖3 隨機(jī)森林算法中決策樹數(shù)量T和節(jié)點(diǎn)分裂特征個(gè)數(shù)M與袋外誤差的關(guān)系Fig.3 Relationships between number of trees (T) or variables per split (M) and error of out-of-bag dataset in random forest algorithm
白膜覆蓋農(nóng)田識(shí)別的生產(chǎn)者精度和用戶精度波動(dòng)較小,且隨紋理特征數(shù)量的增加均呈緩慢上升趨勢(shì),在特征數(shù)量達(dá)到12時(shí),兩種精度趨于平穩(wěn)并保持在90%以上(圖4a)。黑膜覆蓋農(nóng)田識(shí)別的生產(chǎn)者精度和用戶精度的變化幅度較大,當(dāng)特征數(shù)量小于4時(shí),生產(chǎn)者精度直線增長(zhǎng),隨后轉(zhuǎn)變?yōu)樾^(qū)間內(nèi)浮動(dòng),精度保持在85%以上;而用戶精度則在特征數(shù)量增加到2時(shí),由53.13%直接上升到82.35%,隨后保持在85%上下波動(dòng)(圖4b)。特征數(shù)量小于10時(shí),總體精度呈現(xiàn)整體上升趨勢(shì),之后隨著特征數(shù)量的增加而逐漸趨于平緩,在特征數(shù)量為14和15時(shí)達(dá)到較大值,其值依次為87.93%和87.62%(圖4c)。根據(jù)平均精度,即白膜和黑膜的生產(chǎn)者精度與用戶精度的平均值(圖4d),可知該值在特征數(shù)量為15、23和36時(shí)較高,分別為90.66%、90.79%和90.86%。
圖4 不同紋理特征數(shù)量與識(shí)別精度之間的關(guān)系曲線Fig.4 Relationships between number of textural features and recognition accuracy
總體而言,本研究的RF算法運(yùn)行過程中,使用的特征數(shù)量越多,則運(yùn)算時(shí)間越長(zhǎng),工作效率越低,而通過重要性分析和精度評(píng)價(jià)篩選特征,將貢獻(xiàn)度和重要性較小的變量予以剔除,進(jìn)而以較少的特征變量來確保較高的分類精度,降低變量維度。因此,本研究確定前15個(gè)紋理特征作為最優(yōu)紋理特征組合。
根據(jù)不同特征組合下隨機(jī)森林地物分類結(jié)果的空間分布(圖5),可以看出方案I(圖5b)與方案S+I(圖5d)的分類結(jié)果中不透水層的分布范圍大于其他方法,并且已經(jīng)超出了Google Earth高分辨率影像中目視解譯的不透水層范圍,存在一定程度的不合理性。方案T1(圖5c)獲取的分類結(jié)果中農(nóng)田區(qū)域約占研究區(qū)的1/2,這與統(tǒng)計(jì)數(shù)據(jù)(約2/5)不相符,因此僅依靠?jī)?yōu)選紋理特征的識(shí)別結(jié)果也不可靠。而方案S(圖5a)、方案S+I+T1(圖5e)以及方案S+I+T2(圖5f)得到的分類結(jié)果中各類地物的空間分布較為合理,也與Google Earth高分辨率影像大致相符。
圖5 基于隨機(jī)森林算法和不同特征組合下的研究區(qū)地物分類結(jié)果Fig.5 Classification results of land covers in study area based on random forest algorithm and different feature combinations
根據(jù)不同分類方案下隨機(jī)森林覆膜農(nóng)田識(shí)別結(jié)果的空間分布(圖6),可以看出覆膜農(nóng)田集中分布在研究區(qū)的北部和西南部,在中部、東部較為分散。在對(duì)Google Earth高分辨率影像進(jìn)行目視解譯的過程中發(fā)現(xiàn),研究區(qū)存在大量白色地膜覆蓋區(qū)域,且主要集中在西部地區(qū)。然而方案S(圖6a)與方案S+I(圖6d)獲取的覆膜農(nóng)田分布范圍較小且分散,方案I(圖6b)得到的覆膜農(nóng)田分布中白膜和黑膜分布范圍差異較大,同時(shí)白色地膜分布信息缺失較多,因此均存在嚴(yán)重的錯(cuò)分漏分現(xiàn)象。方案T1(圖6c)、方案S+I+T1(圖6e)以及方案S+I+T2(圖6f)得到的分類結(jié)果差異不明顯,提取的覆膜農(nóng)田結(jié)構(gòu)均較為明顯,空間分布基本符合目視解譯的結(jié)果,錯(cuò)分漏分現(xiàn)象較輕。
圖6 基于隨機(jī)森林算法和不同特征組合下的研究區(qū)覆膜農(nóng)田空間分布Fig.6 Spatial distributions of plastic-film-mulched farmlands in study area based on random forest algorithm and different feature combinations
對(duì)研究區(qū)內(nèi)隨機(jī)選中區(qū)域在不同方案下的分類結(jié)果的細(xì)節(jié)進(jìn)行對(duì)比分析(圖7),可見與對(duì)應(yīng)的Google Earth實(shí)景影像和Landsat-8 OLI標(biāo)準(zhǔn)真彩色合成影像相比,6種方案的分類結(jié)果在像元上均存在不同程度的誤差。其中,方案S(圖7c)、方案S+I(圖7f)和方案S+I+T1(圖7g)的分類結(jié)果與實(shí)際情況吻合程度相對(duì)較高,像元誤差相對(duì)較小。
圖7 研究區(qū)某一隨機(jī)覆膜農(nóng)田區(qū)域在不同特征組合下的分類結(jié)果對(duì)比Fig.7 Comparisons of classification results of plastic-film-mulched farmlands at random site in study area based on different feature combinations
根據(jù)混淆矩陣計(jì)算的不同特征組合下的地物分類精度(表2),可知6種不同特征組合下地物分類的總體精度均超過80%。其中方案S、方案I和方案T1這3種單一特征方法的總體精度分別為92.57%、80.50%和87.62%,Kappa系數(shù)分別為0.91、0.76和0.84,表明光譜特征在影像分類過程中發(fā)揮著重要作用。與方案S相比,方案S+I中添加指數(shù)特征可有效提升分類精度,總體精度和Kappa系數(shù)分別提高1.24個(gè)百分點(diǎn)、0.01。此外,在“光譜+指數(shù)”特征的基礎(chǔ)上加入紋理特征也可改善分類精度,與方案S+I相比,方案S+I+T1和方案S+I+T2的總體精度分別提高了1.24、0.62個(gè)百分點(diǎn),Kappa系數(shù)分別增加了0.02和0.01。單從覆膜農(nóng)田的分類精度上來看,無論是生產(chǎn)者精度還是用戶精度,白膜都遠(yuǎn)高于黑膜,表明白膜的可分離性優(yōu)于黑膜。對(duì)不同特征組合下白膜的分類精度進(jìn)行分析,可知方案S、方案S+I以及方案S+I+T1的生產(chǎn)者精度最高為98.68%;而用戶精度在方案S+I+T1時(shí)達(dá)到最大值97.40%。同樣分析黑膜的分類精度,發(fā)現(xiàn)方案S+I+T1下生產(chǎn)者精度最高為92.50%,方案S的用戶精度最高為95.83%。綜合考慮分類性能和工作效率,確定本研究的最佳分類方案為S+I+T1,即光譜+指數(shù)+優(yōu)選紋理特征。
表2 基于不同特征組合和隨機(jī)森林算法的研究區(qū)地物分類精度Tab.2 Classification accuracies of land covers based on different feature combinations and random forest algorithm in study area
在特征組合S+I+T1下,與RF算法(圖8a)相比,SVM(圖8b)、DT(圖8c)和MDC(圖8d)算法的分類結(jié)果差異明顯,尤其是DT和MDC算法提取的覆膜農(nóng)田沒有從整體上呈現(xiàn)出其空間分布特征。進(jìn)一步對(duì)比不同算法的分類精度(表3),可知RF算法精度明顯高于SVM、DT和MDC算法,總體精度分別高3.10、7.74、50.78個(gè)百分點(diǎn),Kappa系數(shù)分別高0.04、0.10和0.62。由于RF、SVM和DT均為非參數(shù)監(jiān)督分類方法,只有MDC屬于參數(shù)監(jiān)督分類方法,這表明非參數(shù)監(jiān)督方法相比參數(shù)監(jiān)督方法更適合用于地貌復(fù)雜地區(qū)的地物分類。單從覆膜農(nóng)田的分類精度來看,在RF算法下,白膜的生產(chǎn)者精度和用戶精度達(dá)到最大值,分別為98.68%和97.40%;黑膜的生產(chǎn)者精度和用戶精度也達(dá)到最大值,分別為92.50%和91.36%。
圖8 方案S+I+T1下基于不同機(jī)器學(xué)習(xí)算法的研究區(qū)覆膜農(nóng)田空間分布Fig.8 Spatial distributions of plastic-film-mulched farmlands based on scheme S+I+T1 and different classification algorithms in study area
表3 方案S+I+T1下基于不同機(jī)器學(xué)習(xí)算法的研究區(qū)地物分類精度比較Tab.3 Classification accuracies based on different classification algorithms of scheme S+I+T1 in study area
此外,根據(jù)RF、SVM、DT和MDC算法分類結(jié)果的McNemar’s檢驗(yàn),可知RF算法與SVM、DT、MDC算法之間的Z值分別為2.89、5.00和12.88,結(jié)果均大于1.96,表明在0.05檢驗(yàn)水平下RF算法與SVM、DT、MDC算法的分類精度差異性顯著。綜上可知,4種機(jī)器學(xué)習(xí)算法中RF算法在地物分類和覆膜農(nóng)田識(shí)別上優(yōu)勢(shì)明顯,能夠有效地提高識(shí)別精度和工作效率。
本研究提出了基于GEE平臺(tái)快速提取覆膜農(nóng)田的方法,獲得了甘肅省定西市安定區(qū)團(tuán)結(jié)鎮(zhèn)的覆膜農(nóng)田空間分布情況,識(shí)別精度和效率比已有相關(guān)研究有所提升。LU等[40]基于Landsat系列數(shù)據(jù)開展新疆地區(qū)的覆膜農(nóng)田識(shí)別工作,總體精度和Kappa系數(shù)分別達(dá)到97.82%和0.97,由于新疆地區(qū)覆膜農(nóng)田幾乎呈連片分布狀,在一定程度上降低了工作難度。哈斯圖亞[41]選擇了同樣位于黃土高原的寧夏固原地區(qū)作為研究區(qū)進(jìn)行覆膜農(nóng)田提取,總體精度和Kappa系數(shù)為90.67%和0.87。本文地物分類的總體精度和Kappa系數(shù)分別為95.05%和0.94,實(shí)現(xiàn)了地膜分布相對(duì)破碎地區(qū)的精準(zhǔn)識(shí)別,可為地貌復(fù)雜地區(qū)應(yīng)用農(nóng)業(yè)遙感技術(shù)提供參考。此外,研究同時(shí)考慮了白膜和黑膜覆蓋農(nóng)田,并成功對(duì)其分別進(jìn)行提取,這也彌補(bǔ)了XIONG等[42]在其研究結(jié)果分析中提出的未考慮研究區(qū)中的黑膜而導(dǎo)致精度降低這一缺陷。
目前大多數(shù)研究對(duì)于隨機(jī)森林算法關(guān)鍵參數(shù)的選取多參考經(jīng)驗(yàn)值,如哈斯圖亞[41]、張鵬等[43]根據(jù)經(jīng)驗(yàn)將決策樹數(shù)量T設(shè)為500、節(jié)點(diǎn)分裂特征個(gè)數(shù)M取輸入特征數(shù)的平方根;侯蒙京等[44]參考大量研究將參數(shù)T設(shè)為1 000、參數(shù)M保持默認(rèn),這在一定程度上限制了RF算法高精度優(yōu)勢(shì)的發(fā)揮。本研究首先根據(jù)參數(shù)T和M的經(jīng)驗(yàn)值確定了它們的取值范圍,然后遍歷所有參數(shù)組合來執(zhí)行RF算法分類,最終選擇運(yùn)算效率可接受范圍內(nèi)使袋外誤差最低的參數(shù)值,作為下一步研究中RF算法的輸入?yún)?shù)。結(jié)果表明,在利用RF算法進(jìn)行影像分類時(shí),參數(shù)T和M均對(duì)袋外誤差有明顯影響,且參數(shù)T的影響大于參數(shù)M。當(dāng)參數(shù)M一定時(shí),并非參數(shù)T越大,袋外誤差就越小,因此通過不斷提高參數(shù)T的值來降低袋外誤差往往是無法實(shí)現(xiàn)的。這與RODRIGUEZ-GALIANO等[32]的研究結(jié)果相近。本研究中,參數(shù)T取600、參數(shù)M保持默認(rèn)值的組合可在運(yùn)算效率承受范圍內(nèi)使袋外誤差最低。這表明RF算法關(guān)鍵參數(shù)的優(yōu)化是提高覆膜農(nóng)田識(shí)別精度的有效途徑。
遙感識(shí)別特征決定了各類地物之間的相似性和差異性,是判讀識(shí)別各類地物的依據(jù)。本研究基于RF算法對(duì)紋理特征進(jìn)行重要性分析,按照重要性排序逐一添加紋理特征并進(jìn)行分類精度驗(yàn)證,確定前15個(gè)特征為優(yōu)選紋理特征,并結(jié)合光譜和指數(shù)特征制定了6套方案進(jìn)行覆膜農(nóng)田識(shí)別。結(jié)果表明,基于“光譜+指數(shù)+優(yōu)選紋理”特征的總體精度和Kappa系數(shù)最高,分別為95.05%和0.94。這與朱秀芳等[45]的研究結(jié)果相近,該研究認(rèn)為紋理特征越多并不代表分類精度越高,分類前進(jìn)行特征優(yōu)選是必要工作。然而該研究?jī)H依靠?jī)?yōu)選紋理特征進(jìn)行分類,總體精度和Kappa系數(shù)分別為94.84%和0.89,并提出可通過增加指數(shù)特征來改善分類精度。本研究針對(duì)其提出的不足之處加以改進(jìn),明顯提高了覆膜農(nóng)田的識(shí)別精度。
作為目前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),隨機(jī)森林被廣泛應(yīng)用于地物分類研究中。本研究基于“光譜+指數(shù)+優(yōu)選紋理”特征評(píng)價(jià)不同算法的分類性能時(shí)發(fā)現(xiàn),無論是從生產(chǎn)者精度、用戶精度、總體精度和Kappa系數(shù)還是McNemar’s檢驗(yàn)結(jié)果來看,隨機(jī)森林算法均顯著優(yōu)于其他算法,這與哈斯圖亞[41]、侯蒙京等[44]的研究結(jié)果相符。沙先麗[12]基于Landsat系列數(shù)據(jù),利用決策樹模型和多特征結(jié)合方法提取新疆地區(qū)的覆膜農(nóng)田信息,但是在研究區(qū)地膜覆蓋連片、地物特征明顯的前提下分類的總體精度和Kappa系數(shù)僅為91.35%和0.89。究其原因,在所用數(shù)據(jù)和特征子集相同的情況下,關(guān)鍵因素可能在于所采用的算法。這也再次印證了隨機(jī)森林算法在覆膜農(nóng)田識(shí)別中的有效性。
本研究主要考慮的是春玉米、馬鈴薯等春播作物地膜覆蓋種植區(qū)域的單一時(shí)相識(shí)別,盡管其種植面積占全年覆膜農(nóng)田面積的90%左右,但仍然缺失其他季節(jié)的覆膜農(nóng)田信息。在其他季節(jié),研究區(qū)主要的覆膜作物為蔬菜,而蔬菜的播種時(shí)間幾乎取決于農(nóng)戶本身,不確定因素很多,因此對(duì)覆膜蔬菜種植區(qū)域進(jìn)行提取難度較大,有待后續(xù)進(jìn)一步深入研究。此外,本研究?jī)H考慮了基于像元的遙感影像分類方法,而裴歡等[46]的研究表明面向?qū)ο蠓诸惙椒橥恋乩?覆蓋信息提取提供了新的有效途徑,該方法在覆膜農(nóng)田識(shí)別中的應(yīng)用潛力還需要進(jìn)一步深入探討。
(1)確定隨機(jī)森林算法關(guān)鍵參數(shù)的最佳取值能夠大幅提高遙感影像的分類精度。在非關(guān)鍵參數(shù)保持默認(rèn)的條件下,在一定閾值范圍內(nèi)存在決策樹數(shù)量T和節(jié)點(diǎn)分裂特征個(gè)數(shù)M的最佳參數(shù)組合,能夠在運(yùn)算效率可承受范圍內(nèi)使袋外誤差最小。因此,在利用隨機(jī)森林算法實(shí)現(xiàn)影像分類之前,對(duì)其關(guān)鍵參數(shù)進(jìn)行了優(yōu)化,以獲取更為可靠的分類結(jié)果。
(2)基于優(yōu)選紋理特征的分類性能優(yōu)于基于全部紋理特征的分類,且相比其他方案,基于“光譜+指數(shù)+優(yōu)選紋理”特征的識(shí)別結(jié)果最佳?;凇肮庾V+指數(shù)+優(yōu)選紋理”特征分類的總體精度達(dá)95.05%,比基于單一特征方案的總體精度高2.48~14.55個(gè)百分點(diǎn),同時(shí)也比“光譜+指數(shù)”特征、“光譜+指數(shù)+全部紋理”特征方案分別高1.24、0.62個(gè)百分點(diǎn)。因此,在實(shí)際應(yīng)用中建議采用優(yōu)選紋理特征和多特征相結(jié)合的方法進(jìn)行覆膜農(nóng)田識(shí)別。
(3)隨機(jī)森林算法的總體精度比支持向量機(jī)、決策樹和最小距離分類算法分別高3.10、7.74、50.78個(gè)百分點(diǎn)。結(jié)合McNemar’s檢驗(yàn)結(jié)果,隨機(jī)森林算法與其它3種算法間的Z值分別為2.89、5.00和12.88,表明隨機(jī)森林算法與其它算法間的分類精度存在顯著性差異。因此,隨機(jī)森林算法是較適于覆膜農(nóng)田識(shí)別的方法。