王克曉 周蕊 虞豹 黃祥 王茜
摘要:以重慶市永川區(qū)朱沱鎮(zhèn)Sentinel-2多光譜影像為例,構建隨機森林分類模型,分別以單時相和多時相特征變量集為變量提取水稻空間分布,并對水稻對不同波譜特征集的響應程度及提取精度進行分析。分類結果顯示,研究區(qū)水稻分布相對較為分散,且地塊特征較為復雜,與區(qū)域典型地貌基本相適應;處于分蘗期的水稻稻田比處于灌漿期的稻田更有區(qū)分特征,利用多時相數據能夠有效提高提取精度;通過傳統(tǒng)的最大似然法、光譜角分類器提取地物精度有限,而基于機器智能分類的隨機森林模型提取方法提取結果總體精度90%以上,Kappa系數達到0.80以上,可為西南山地地區(qū)作物信息提取提供參考。
關鍵詞:隨機森林;水稻提取;遙感;西南地區(qū)
中圖分類號:P237? ? ? ? ?文獻標識碼:A
文章編號:0439-8114(2018)21-0143-04
DOI:10.14088/j.cnki.issn0439-8114.2018.21.037? ? ? ? ? ?開放科學(資源服務)標識碼(OSID):
Research on Extraction Method of Rice Information Based on Random Forest
WANG Ke-xiao,ZHOU Rui,YU Bao,HUANG Xiang,WANG Qian
(Information Center of Agricultural Sciences and Technology,Chongqing Academy of Agricultural Sciences,Chongqing 401329,China)
Abstract: Taking Sentinel-2 multispectral image of Zhutuo, Yongchuan district of Chongqing as an example,a random forest classification model was constructed, and rice spatial distribution was extracted using single-time and multi-time feature variable sets as variables,and the response degree and extraction accuracy of rice to different spectral feature sets were analyzed. The results show that the rice distribution in the study area is relatively scattered and complex,which is basically compatible with the typical landform of the region. Rice at tillering stage have more distinguishing characteristics than that at filling stage,and the extraction accuracy can be effectively improved by using multi-temporal data. Traditional MLC and SAM classifiers have limited precision in extracting ground objects,while remote sensing model based on machine intelligence classification has an overall precision of more than 90% and kappa coefficient of more than 0.80,which provides a reference for crop information extraction in southwest mountainous areas.
Key words: random forest;rice extraction;remote sensing;southwest region
目前,中國利用遙感技術監(jiān)測的農作物主要為小麥、玉米、水稻、大豆等大宗作物,研究區(qū)主要集中在華北、華東及東北地區(qū),有小部分在西北和西南,但種植地塊多是連片大范圍[1]。作物地類遙感制圖精度受影像底圖及分類提取方法的雙重影響[2,3],多時相及多源遙感數據能夠進一步提升提取精度[3]。復雜地區(qū)主要依賴影像光譜信息的農作物常規(guī)提取分類方法精度有限,而源于機器學習領域的智能分類方法卻更加有效[4]。李愛農等[5]曾以云南大理地區(qū)TM影像土地利用分類實踐為例,將監(jiān)督分類與非監(jiān)督分類有機結合,證明了在西南地塊破碎地區(qū)利用多光譜圖像分類具有一定的可行性。雷小雨等[6]提出一種利用兩個時相的數據,通過Landsat 8/OLI數據構建差值特征突出水稻物候變化,并與隨機森林算法結合較高精度提取了水稻種植面積,與單時相提取結果相比總體精度有較大提高。蘇亞麟等[7]以丘陵地帶為主的南昌市第一季水稻為例,通過GF-1號WFV(16 m)單時相、多時相影像光譜特征集組合及優(yōu)選,構建隨機森林分類模型,特征排序及優(yōu)化后的提取總體精度達到92%以上,Kappa系數達到0.90。王娟等[8]通過對四川省德陽市旌陽區(qū)的SPOT-5衛(wèi)星影像進行監(jiān)督、面向對象以及決策樹等多種方法水稻分類結果對比,凸顯了決策樹分類在西南地區(qū)水稻提取中的應用潛力。然而,對多云霧,地塊破碎、作物類型復雜的重慶地區(qū)卻鮮有研究。重慶地區(qū)水稻種植具有分散、地塊小、形狀多樣等特點,利用中低分辨率遙感數據提取水稻種植面積,難以滿足精度要求[9]。
本文以重慶市永川區(qū)朱沱鎮(zhèn)Sentinel-2多光譜影像為例,基于EnMAP-Box工具包構建隨機森林(RF)分類模型,并分別以單時相和多時相特征變量集為變量提取水稻空間分布,并對水稻對不同波譜特征集的響應程度及提取結果精度進行分析,以期為進一步準確快速監(jiān)測多云霧、地塊破碎的低山及丘陵地貌地區(qū)耕地的其他農情信息打下基礎。
1? 研究區(qū)概況
重慶市永川區(qū)位于長江上游北岸,重慶西部,地處東經105°38′-106°05′、北緯28°56′-29°34′,地貌分為低山、丘陵、緩丘平壩三大類。屬于亞熱帶季風性濕潤氣候,全年平均氣溫17.7 ℃,年均降雨量1 015.0 mm。研究區(qū)朱沱鎮(zhèn),區(qū)內丘陵地貌廣布,地塊破碎,農作物種植結構復雜多樣,其中水稻以中稻為主,生長期一般從4月初至8月末。
2? 數據與方法
2.1? 遙感源數據獲取及處理
本研究遙感數據源主要為高分一號(GF-1)和Sentinel-2B,參考系為WGS-84坐標系。其中,GF-1數據為2 m分辨率融合多光譜正射影像,獲取時間為2017年4月23日。Sentinel-2數據為2017年5月17日和7月11日成像的L1C級產品,經大氣校正為L2A級地表反射率產品,然后借助工具SEN2RES將Sentinel-2B數據紅邊、短波紅外等6個空間分辨率20 m的多光譜波段進行超分辨率重采樣為10 m,與L2A產品可見光、近紅外等4個波段構建多波段特征數據集。單時相數據集利用單期影像10個波段構建,多時相數據集通過兩期影像層疊加20個波段構建。Sentinel-2影像多光譜波段參數信息見表1。
2.2? 樣本選取
訓練樣本選取主要通過GF-1影像數據,該時期重慶渝西地區(qū)小麥、油菜處于成熟收獲期,水稻處于移栽期,玉米處于七葉期。研究區(qū)丘陵地形及水體泡田特征為水稻樣本點選取提供較大輔助。
由于研究區(qū)內植被與人工地物兩類在Sentinel-2B影像上均呈現出兩種不同色調,將研究區(qū)地物類型劃分為水稻、植被1、植被2、水域、公路、裸地、人工地物1及人工地物2等8個類型,結合GF-1影像選取8組樣本點,然后基于分類影像Sentinel-2通過Jeffries-Matusita距離對樣本進行可分離性檢驗。經檢驗Jeffries-Matusita值均在1.9以上,樣本可分離性較好。
2.3? 研究方法
2.3.1? 隨機森林? 隨機森林(Random Forest,RF)是一種基于 CART決策樹的組合式自學習集成機器學習方法[10],利用 bootsrap 隨機重抽樣技術從原樣本中隨機抽取若干樣本,通過節(jié)點隨機分裂技術為各樣本選取特征構建獨立決策樹并綜合多棵決策樹的預測投票得出最終結果[11]。建立在CART決策樹基礎上的隨機森林,對于缺省值問題也能夠獲得很好的結果,有更強的數據挖掘、泛化能力和更理想的分類效果,已逐步發(fā)展成分析復雜地區(qū)遙感數據的有效集成分類器之一[12]。RF能在各類別樣本容量分布不平衡的情況下保持分類誤差平衡,并且通常能抵制并檢測出訓練樣本集的異常值,無需預處理,并且隨機森林的樹是由隨機方式獨立生成的,能抑制過擬合[13]。隨機森林原理示意圖[14]見圖1。
2.3.2? 隨機森林參數設置及模型構建? RF分類法用于遙感地物識別主要基于大量隨機生長決策樹,其模型建立主要涉及兩個參數,即決策樹數ntree和決策樹內部節(jié)點隨機選擇特征數mtry[15]。EnMAP-Box是一款由德國環(huán)境制圖與分析計劃項目組基于IDL開發(fā)的處理高光譜遙感數據的工具包,提供了數據歸一化、SVM和RF分類與回歸、濾波等功能。本研究基于EnMAP-Box工具包確定模型決策樹數目,節(jié)點分裂時輸入的特征變量數默認mtry=(M為特征變量個數)進行分類。時相組合下隨機森林參數見表2。
3? 結果與分析
3.1? 不同波段特征集響應分析
基于Sentinel-2多光譜單時相及多時相影像的隨機森林水稻提取模型變量重要性曲線如圖2所示,從圖2可以看出,不同時相下光譜波段對水稻及背景地物的可分性識別響應程度不一。在可見光-近紅外范圍內,兩個時相波譜曲線走勢基本一致,且歸一化重要性度量值基本位于0.3~0.5。5月影像各個波段變量歸一化重要性指標均在7月對應波段變量之上,分蘗期水稻稻田水體特征較為明顯,使得對水分較為敏感的短波紅外b11和b12波段明顯突出,歸一化重要性度量值達到0.7以上,即在不同波段下,處于分蘗期的水稻稻田比處于灌漿期的稻田更有區(qū)分特征。在利用多時相影像提取水稻信息時,通過兩個時相影像數據波段層疊加,將像元所代表地物在不同時相下的光譜同時作為特征變量,在樣本像元與待提取像元間進行規(guī)則匹配。從圖3b可以看出,盡管各波段變量歸一化重要性度量值有所下降,但有更多波段歸一化重要性度量值在0.3以上,即提供更多信息以助于水稻與背景信息的有效區(qū)分。
3.2? 提取結果與精度分析
將RF分類結果分別與最大似然分類MLC、光譜角SAM等分類結果進行對比分析(圖3)。從圖3可以看出,研究區(qū)水稻分布相對較為分散,且地塊特征較為復雜,與區(qū)域典型丘陵地貌基本相適應。本研究驗證集選取主要通過Sentinel-2B影像,同時結合2 m分辨率的GF-1影像選取200個,采用混淆矩陣及相關指標進行分類精度評價(表3)。從表3可以看出,在總體精度和生產者精度方面,RF模型較MLC、SAM等精度都有較大提高,基于光譜角的SAM水稻分類結果精度55.35%,Kappa系數為0.336,而基于單時相和多時相的RF分類總體精度達到90%以上,Kappa系數達到0.80以上。在隨機森林RF模型中,在95%的置信度前提下,基于多時相的影像數據源能夠在生產者精度方面提高了3.30個百分點,總體精度提高了1.36個百分點,Kappa系數也由單時相的0.839提高到0.865。
4? 小結
本文以重慶市永川區(qū)朱沱鎮(zhèn)Sentinel-2多光譜影像為例,基于EnMAP-Box工具包構建隨機森林(RF)分類模型,并分別以單時相和多時相特征變量集為變量提取水稻空間分布,并對水稻對不同波譜特征集的響應程度及提取精度進行分析。分類結果顯示,研究區(qū)水稻分布相對較為分散,且地塊特征較為復雜,與區(qū)域典型地貌基本相適應;處于分蘗期的水稻稻田比處于灌漿期的稻田更有區(qū)分特征,利用多時相數據能夠有效提高提取精度;通過傳統(tǒng)的MLC、SAM分類器提取地物精度有限,而基于機器智能分類的RF模型提取方法提取結果總體精度在90%以上,Kappa系數達到0.80以上。
隨機森林(RF)分類模型通過構建多個決策樹,利用優(yōu)化參數對多波段影像數據建立模型,并對研究區(qū)影像地物進行分類提取,其提取精度明顯相對于單一分類方法具有較高的精度。同時對參與建立模型的特征變量重要性進行度量來判斷特征變量對地物類別的敏感性,并進行屬性節(jié)點分裂構建隨機樹,顯示出RF自學習集成機器學習分類法在高分辨率遙感影像作物識別應用中的潛力。
參考文獻:
[1] 黃思宇,陳水森,李? 丹,等.基于NDVI物候特征的華南地區(qū)冬種馬鈴薯遙感提取方法[J].熱帶地理,2016,36(6):976-984.
[2] CHAN J C,PAELINCKX D. Evaluation of Random Forest and Adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J].Remote Sensing of Environment,2008,112(6):2999-3011.
[3] WASKE B,VAN DER LINDEN S. Classifying multilevel imagery from SAR and optical sensors by decision fusion[J].IEEE Transaction on Geoscience and Remote,2008,5(46):1457-1466.
[4] GISLASON P O,BENEDIKTSSON J A,SVEINSSON J R. Random Forests for land cover classification[J].Pattern Recognition Letters,2006,27(4):294-300.
[5] 李愛農,江小波,馬澤忠,等.遙感自動分類在西南地區(qū)土地利用調查中的應用研究[J].遙感技術與應用,2003(05):282-285.
[6] 雷小雨,卓? 莉,葉? 濤,等.基于時差特征與隨機森林的水稻種植面積提取[J].遙感技術與應用,2016(6):1140-1149.
[7] 蘇亞麟,呂開云.基于隨機森林算法的特征選擇的水稻分類——以南昌市為例[J].江西科學,2018(1):161-167.
[8] 王? 娟,張? 杰,張? 優(yōu),等.基于SPOT-5衛(wèi)星影像的水稻信息提取方法研究——以德陽市旌陽區(qū)為例[J].西南農業(yè)學報,2017(4):861-868.
[9] 陳燕麗,莫偉華,莫建飛,等.基于面向對象分類的南方水稻種植面積提取方法[J].遙感技術與應用,2011(2):163-168.
[10] 王書玉,張羽威,于振華.基于隨機森林的洪河濕地遙感影像分類研究[J].測繪與空間地理信息,2014(4):83-85.
[11] 劉? 毅,杜培軍,鄭? 輝,等.基于隨機森林的國產小衛(wèi)星遙感影像分類研究[J].測繪科學,2012(4):194-196.
[12] WASKE B,VAN DER LINDEN S,OLDENBURG C,et al. imageRF-A user-oriented implementation for remote sensing image analysis with Random Forests[J].Environmental Modelling & Software,2012,35:192-193.
[13] BREIMAN L.Random Forests[J].Machine Learning,2001,45(1):5-32.
[14] 宋? 茜.基于GF-1/WFV和面向對象的農作物種植結構提取方法研究[D].北京:中國農業(yè)科學院,2016.
[15] XIANJU L,GANG C,JINGYI L,et al. Effects of RapidEye Imagery's Red-edge Band and Vegetation Indices on Land Cover Classification in an Arid Region[J].Chinese Geographical Science,2017,5(27):827-835.