包珺瑋 于利峰 烏蘭吐雅
科技迅速發(fā)展,農(nóng)業(yè)遙感技術(shù)用于農(nóng)業(yè)資源監(jiān)測已成為當(dāng)今人們研究和應(yīng)用的熱點。傳統(tǒng)的農(nóng)業(yè)信息獲取方式往往采用統(tǒng)計匯總,以行政區(qū)域為統(tǒng)計單位,逐級統(tǒng)計匯總,需要投入大量的人力、財力,而統(tǒng)計結(jié)果時效性差、干擾因素多。遙感技術(shù)具有監(jiān)測范圍廣、時效性強、信息量大、成本低、數(shù)據(jù)及時準(zhǔn)確等特點,被廣泛應(yīng)用于農(nóng)情監(jiān)測中,為農(nóng)業(yè)產(chǎn)業(yè)規(guī)劃、鄉(xiāng)村振興提供了科技支撐。
隨著遙感影像數(shù)據(jù)源的不斷豐富,高分辨率影像已廣泛應(yīng)用于大范圍農(nóng)作物面積的提取研究。自2015年6月歐空局成功發(fā)射Sentinel-2A以來,因其影像覆蓋范圍大、分辨率高、光譜信息風(fēng)度等優(yōu)勢被廣泛應(yīng)用于土地覆蓋分類、農(nóng)作物識別、物種分類等領(lǐng)域,取得了很好的效果。朱琳利用Sentinel-2A多源遙感數(shù)據(jù)進行了農(nóng)作物分類和面積的提取研究,取得了不錯的效果,分類精度及Kappa系數(shù)都比光學(xué)遙感分類結(jié)果好。王蓉等利用Sentinel-2A影像結(jié)合DEM高程模型提取雨養(yǎng)區(qū)和灌溉區(qū)的冬小麥種植面積,Sentinel-2A影像對冬小麥提取效果明顯。農(nóng)作物面積提取是農(nóng)作物估產(chǎn)、長勢等農(nóng)情信息分析的基礎(chǔ),如何提高農(nóng)作物提取的準(zhǔn)確性,改善分類時效性就顯得尤為重要。
隨機森林法作為一種集成學(xué)習(xí)方法,具有高效、靈活、準(zhǔn)確、選擇能力強等特點,被廣泛應(yīng)用于中高分辨率影像分類中。黃春燕等基于Sentinel-2A數(shù)據(jù),采用機器學(xué)習(xí)法以地塊特征基元為基本單元,提取農(nóng)作物分類信息,有效解決了“椒鹽”效應(yīng),提高了農(nóng)作物分類精度。雷小雨等利用隨機森林法結(jié)合構(gòu)建差值特征對南方水稻種植面積進行提取,改善了水稻面積的提取精度。王娜等利用單變量特征和隨機森林法進行蘇北地區(qū)主要農(nóng)作物識別和提取,有效降低了數(shù)據(jù)冗余,提高了農(nóng)作物的分類精度。因此,如何利用遙感數(shù)據(jù)源、特征變量及面積提取算法模型提高分類精度已成為農(nóng)作物識別的主要研究內(nèi)容。
基于前人研究成果,本文在Sentinal-2A光譜特征、數(shù)據(jù)提取方法和模型選擇方面進行嘗試,較高精度地提取研究區(qū)的主要農(nóng)作物種植面積并繪制空間分布“一張圖”,通過阿榮旗部分區(qū)域?qū)嵺`和探索,制定出適合內(nèi)蒙古自治區(qū)東北部地區(qū)的主要農(nóng)作物提取方法和模型,為將來更大幅度地提取打下堅實基礎(chǔ)。
一、研究區(qū)概況
阿榮旗地處呼倫貝爾市東南部,全旗總面積1.36萬km2,耕地面積31.44萬hm2,種植作物種類豐富,主要有玉米、馬鈴薯、大豆、水稻等,常年糧食生產(chǎn)量15億kg,是全國441個優(yōu)質(zhì)商品糧基地之一和內(nèi)蒙古自治區(qū)5個大豆主產(chǎn)區(qū)之一。
二、數(shù)據(jù)預(yù)處理與分析
(一)數(shù)據(jù)預(yù)處理
Sentinel-2A衛(wèi)星是可覆蓋13個光譜波段并攜帶多光譜成像儀的全球環(huán)境衛(wèi)星,包括10 m分辨率的紅、綠、藍波段及1個近紅外波段、4個20 m分辨率植被紅邊波段、2個短波紅外波段,另外還有60 m分辨率水蒸氣、卷云、沿海氣溶膠數(shù)據(jù)。研究區(qū)影像在USGS網(wǎng)站下載后,經(jīng)過大氣校正、重采樣,得到10 m分辨率影像,利用ENVI軟件轉(zhuǎn)換為標(biāo)準(zhǔn)格式并裁剪得到影像。
研究區(qū)影像采用2018年7月的Sentinel-2A衛(wèi)星影像,選取11波段、5波段、4波段組合顯示圖像。該方法利用與Rapideye相近的紅邊波段及短波近紅外波段。短波近紅外波段能夠顯著放大作物之間的光譜差異性,是識別作物的有效手段。(見表1)
(二)地面調(diào)查
地面調(diào)查數(shù)據(jù)為解譯點坐標(biāo)信息、驗證點坐標(biāo)信息、照片等。獲取方式是選擇農(nóng)作物種植類型豐富且集中連片的區(qū)域,利用手持差分GPS沿著省級、市級、縣級等主要道路,按照每5 km一個點的標(biāo)準(zhǔn)采集。此次共采集解譯標(biāo)志394個、驗證點100個。采集作物包括玉米、高粱、水稻、大豆、小麥、甜菜及其他作物。采集多種解譯標(biāo)志避免其他作物特征影響目標(biāo)作物識別。(見表2)
線狀地物采集類型為省級、縣級、鄉(xiāng)道及田間道路、河流、溝渠、林帶等,共采集19條線狀地物。經(jīng)過實際調(diào)查,受兩盟市耕地種植結(jié)構(gòu)和種植習(xí)慣影響,采集的線狀地物小于1個像元15 m。
(三)輔助數(shù)據(jù)
2014—2015年快鳥影像、Wordview影像為底圖解譯出已經(jīng)確定耕地面積范圍并去除了線狀地物信息的2 m分辨率的呼倫貝爾市耕地底圖。
三、研究方法
(一)技術(shù)路線
研究區(qū)主要農(nóng)作物面積提取主要以計算機解譯為主,充分利用Sentinel-2A影像豐富的光譜信息,結(jié)合研究區(qū)種植結(jié)構(gòu)制定如下技術(shù)路線。(見圖1)
(二)特征分析
在實際農(nóng)作物遙感提取中,人工目視解譯實效性差、效率較低,而傳統(tǒng)基于像元的高分辨率數(shù)據(jù)分類會受到“同物異譜”“同譜異物”的影響出現(xiàn)“椒鹽”現(xiàn)象,使得地塊整體結(jié)構(gòu)破壞。因此,本文擬從光譜特征、參數(shù)特征與紋理特征入手,充分挖掘數(shù)據(jù)信息,實現(xiàn)精確作物提取。
1.光譜特征分析。目前,有大量的影像分割處理軟件,但是對于提升影像的分割精度和準(zhǔn)確度往往難度較大,因為對于同一個農(nóng)田,溫度、水分、光照等影響因素導(dǎo)致其農(nóng)作物長勢不同,呈現(xiàn)的光譜特征差異較大。研究區(qū)屬于農(nóng)業(yè)大縣,種植作物種類豐富,大量的雜糧雜豆,光譜特征變化不大,種植作物邊界不清晰,研究區(qū)耕地種植緊湊,農(nóng)田間邊界不清晰,影像分割難度大。
本文采用均值漂移的算法改善影像分割精度和準(zhǔn)確度。均值漂移MS(Mean Shift)算法是一種通用的聚類算法,其特點是不受數(shù)據(jù)分布特征及形態(tài)影響,適用于各種分布特征的影像數(shù)據(jù)。該算法最初由Fukunaga和Hostetler于1975年提出, Cheng和Com-
aniciu等針對采樣點對周圍樣本的重要程度提出了一組核函數(shù),將均值漂移算法的使用范圍進行了發(fā)展,其基本數(shù)學(xué)形式為:給定一個d維空間中,存在n個樣本點,則均值漂移基本形式為:
式中,Sh是一個半徑為h的高維球區(qū)域,k表示n個樣本點有k個點落入Sh中。
對于所有采樣點,每個樣本點的重要性應(yīng)該是不同的,離中心點越遠,其權(quán)值應(yīng)該越小。因此,應(yīng)引入核函數(shù)和權(quán)重系數(shù)來提高跟蹤算法的濾波性并增加搜索跟蹤能力。在一個d維的歐式空間中,x表示該空間中的一個點,用一列向量表示,存在標(biāo)準(zhǔn)化常量c,d使得核函數(shù)K(x)=cdk(||x||)2。K(x)核函數(shù)應(yīng)滿足K是非負的、K是非增的、K(x)連續(xù)的。
平均的偏移量會指向樣本點最密的方向,也就是概率密度函數(shù)的梯度方向,引入核函數(shù)和權(quán)重系數(shù)后得到:
式中G(x)是一個單位核函數(shù),H是一個正定d×d的對稱矩陣,ω(x(i))是采樣點x(i)的權(quán)重。蘇騰飛等利用改進型MS濾波算法對高分辨率影像分割,其結(jié)果明顯改善了農(nóng)田邊界的平滑效果,優(yōu)化了影像分割精度。
2.參數(shù)特征分析。遙感的參數(shù)特征是指采用了比值運算和歸一化(normalization)處理得到的一系列指數(shù)。由于進行了比值計算,其生成的指數(shù)影像有助于消除地形差異的影響。通過比值運算,以幾何級數(shù)進一步擴大反射率之間的差距,使要研究的農(nóng)作物在指數(shù)影像上得到最大的亮度增強,達到農(nóng)田特征區(qū)分的目的。
歸一化植被指數(shù)NDVI(Normalized Difference Vege-
tation Index)表達式為NDVI=(NIR-Red)/(NIR+Red)
NDVI通常是用衛(wèi)星遙感數(shù)據(jù)計算,以評估目標(biāo)地區(qū)綠色植被的生長狀況。計算方式是利用紅光與近紅外光的反射,顯示出植物生長、生態(tài)系活力與生產(chǎn)力等信息。數(shù)值越大表示植物生長越多。Huete提出了土壤調(diào)節(jié)植被指數(shù)SAVI(Soil Adjusted Vegetation Index),通過引入土壤調(diào)節(jié)因子l,使無論是在深色土壤或淺色土壤背景中求得的植被指數(shù)都完全相等,從而消除了土壤背景的干擾。表達式為:
SAVI=[(NIR-Red)(1+L)]/(NIR+Red+L)
式中,L即為土壤調(diào)節(jié)因子,其值在0~1?!?”和“1”分別代表植被覆蓋率極高和極低的兩種極端情況。通常選擇0.5可以較好地減弱土壤的背景差異,清除土壤的噪聲影響。增強植被指數(shù)EVI(Enhanced Vegetation Index)表達式為:
EVI通過加入藍色波段以增強植被信號,矯正土壤背景和氣溶膠散射的影響。EVI常用于LAI值高,即植被茂密區(qū)。
3.紋理特征分析。紋理是地物的物理形態(tài)所表達出的灰度空間的相關(guān)特性,紋理特征的核心問題是紋理區(qū)域的一致性和相鄰區(qū)域邊界的準(zhǔn)確性。高分辨率數(shù)據(jù)下,由于不同作物之間的生理形態(tài)與疏密情況的差異,不同作物之間也存在紋理區(qū)別,可以有效區(qū)分農(nóng)作物類型。
(三)分類方法
機器學(xué)習(xí)法是人工智能的一個分支,是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測的算法。作為新興的、高度靈活的一種機器學(xué)習(xí)算法,隨機森林法RF(Random Forest)擁有廣泛的應(yīng)用前景,它的本質(zhì)是集成學(xué)習(xí)(Ensemble Learning)方法。從直觀角度來解釋,每棵決策樹都是一個分類器,那么對于一個輸入樣本,N棵樹會有N個分類結(jié)果。而隨機森林法集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出。在遙感領(lǐng)域其優(yōu)點是幾乎不需要設(shè)置參數(shù)就可以得到比較好的提取結(jié)果,而且能夠有效地運行在大數(shù)據(jù)集上,能夠滿足未來大尺度范圍提取的要求。
四、分類結(jié)果與精度評價
本研究通過挖掘遙感數(shù)據(jù)的光譜特征、參數(shù)特征和紋理特征等信息,構(gòu)建基于機器學(xué)習(xí)法的作物提取模型,對于未來大尺度提取農(nóng)作物面積提供借鑒。在耕地底圖范圍內(nèi),基于2018年Sentinel-2A影像數(shù)據(jù),利用隨機森林法得到各主要農(nóng)作物的空間分布情況。
(一)精度驗證與評價
分類精度是影像像元被正確分類程度的評價指標(biāo)。本文采用混淆矩陣精度分類,確定分類結(jié)果的精度和可靠性。混淆矩陣的分類評價指標(biāo)包括總體分類精度、Kappa系數(shù)、漏分誤差、錯分誤差、制圖精度、用戶精度,而制圖精度指標(biāo)和用戶精度指標(biāo)直接影響和決定分類結(jié)果的準(zhǔn)確性。在精度評價過程中,將野外采集的100個地面驗證點,采用定性和定量的方式對作物品種判別準(zhǔn)確度和作物面積提取的精確度進行驗證,建立了混淆矩陣評價指標(biāo)。(見表3)
(二)結(jié)果分析
隨機森林法對農(nóng)作物分類的制度精度能達到80%;Kappa系數(shù)0.72,表示分類精度相對較好,尤其是大豆和甜菜的制圖精度可以達到90%,但是對于玉米和高粱的用戶精度則不高,分別是82%和53%,其主要原因是玉米和高粱在8月的光譜特征相似,玉米和高粱錯分、混淆的概率加大,影響了整體的Kappa系數(shù)。采用均值漂移MS法可以有效改善混合像元模糊與地塊內(nèi)部光譜特征差別大的現(xiàn)象,但是對于光譜特征相似的作物,分類結(jié)果不理想。
本研究主要以農(nóng)作物分布的遙感提取方法和模型為出發(fā)點,通過Sentinel-2A數(shù)據(jù)進行一系列預(yù)處理和分析,并利用機器學(xué)習(xí)算法提取研究區(qū)的主要農(nóng)作物分布“一張圖”,建立呼倫貝爾東北部的作物提取模型,為將來更大尺度地監(jiān)測打下堅實基礎(chǔ)。
雖然通過模型可以提取較好的作物分布“一張圖”,但仍存在許多不足之處。首先,數(shù)據(jù)選取時受多種因素影響,是否存在與最佳提取時期不匹配的情況,應(yīng)該進一步研究。其次,通過提取、挖掘遙感影像信息,可以較高精度地識別農(nóng)作物分布,但在一定程度上也造成數(shù)據(jù)量冗余。最后,大尺度的數(shù)據(jù)選取與模型改進仍需一段時間的研究。
〔基金項目:內(nèi)蒙古自然科學(xué)基金項目(2016 MS(LH)0301)〕