沈江龍,鄭江華,尼格拉·吐爾遜,王 蕾,羅 磊※
(1.新疆大學資源與環(huán)境科學學院綠洲重點實驗室,烏魯木齊 830011;2.新疆林業(yè)科學院現(xiàn)代林業(yè)研究所,烏魯木齊 830012)
若羌位于新疆的東南部,其得天獨厚的自然條件使得若羌紅棗肉質(zhì)緊實、口感甜潤,已經(jīng)成為中國最優(yōu)紅棗生產(chǎn)基地,素有“中國紅棗第一鄉(xiāng)”的美譽[1]。種植紅棗也是農(nóng)戶重要的收入來源,也是國家產(chǎn)業(yè)扶貧的重要支撐,然而盲目擴大種植面積,導(dǎo)致市場供銷關(guān)系失衡,不僅給農(nóng)民造成巨大經(jīng)濟損失,而且浪費農(nóng)業(yè)資源,因此快速有效地掌握當?shù)氐淖魑锓N植信息,對農(nóng)業(yè)部門科學有效調(diào)整農(nóng)業(yè)政策具有重要意義[2]。
傳統(tǒng)農(nóng)業(yè)資源調(diào)查依靠逐級上報和統(tǒng)計的方法,不僅效率低、實時性差,而且具有一定的主觀性,遙感具有快速大面積獲取地面信息的能力,已經(jīng)在農(nóng)業(yè)資源調(diào)查方面廣泛應(yīng)用[3]。在農(nóng)作物遙感分類中,基于像元的分類方法,其結(jié)果常常存在“椒鹽噪聲”,而且解譯結(jié)果的面積是以像元為單位統(tǒng)計得到,與實際面積差別較大[4]。面向?qū)ο蟮倪b感解譯方法,以經(jīng)過分割而成的均質(zhì)影像單元為基本的分類單元,可以避免椒鹽噪聲造成精度不高的問題。目前基于面向?qū)ο蟮挠跋穹治龇椒ㄒ褟V泛運用于遙感分類研究中。例如:單治彬等[5]利用國產(chǎn)GF-1 PMS遙感影像,在分析3類特色農(nóng)作物光譜特征和紋理特征的基礎(chǔ)上,建立面向?qū)ο蟮闹С窒蛄繖C(SVM)分類模型,提取了寧夏特色農(nóng)作物的種植信息。裴歡等[6]基于Landsat 8 OLI影像,以河北省石家莊市為研究區(qū),分析了面向?qū)ο笈c最大似然、馬氏距離、SVM 等方法提取土地利用∕覆蓋的效果。Belgiu 等[7]在意大利、羅馬尼亞、美國分別選取了典型的農(nóng)業(yè)種植區(qū),研究基于面向?qū)ο蟮淖魑镏茍D方法的分類效果。Xiong 等[8]基于Google Earth Engine 平臺,整合了基于像元和基于對象兩種分類方法對非洲進行了農(nóng)作物填圖研究。高國龍等[9]采用SPOT5 高分辨率影像,構(gòu)建植被指數(shù)特征和紋理特征,使用最近鄰和CART兩種分類方法提取了浙江省安吉縣山川鄉(xiāng)毛竹林種植信息?;诿嫦?qū)ο蟮挠跋穹治龇椒?,分類的基本單元是?jīng)過分割后的對象,提高了影像分析的效率,同時既保留影像的光譜信息,又具有位置、結(jié)構(gòu)等信息,分類結(jié)果具有較高的精度。
單一時相地物的光譜信息往往存在“同物異譜、異物同譜”現(xiàn)象,使得分類精度降低。隨著遙感衛(wèi)星的發(fā)展,用于遙感解譯的數(shù)據(jù)源不斷增多,遙感數(shù)據(jù)的時間、空間、光譜分辨率不斷提高,多時相的遙感解譯方法已成為提高分類精度的重要手段[10]。另一方面隨著計算機圖像解譯技術(shù)的發(fā)展,不僅可以從影像中獲得豐富的光譜特征、植被指數(shù)特征、紋理特征、時序指數(shù)特征、位置特征,增加分類數(shù)據(jù)集的維度,提高分類精度,而且分類算法、策略也不斷被提出。在作物遙感制圖研究中,常常根據(jù)研究區(qū)的種植情況,分析不同地物的影像特征,形成遙感分類的先驗知識,提出符合實際的遙感分類方法。例如:黃健熙等[11]在分析了MODIS 多時相植被指數(shù)特征的基礎(chǔ)上,使用SVM 分類方法對黑龍江省的主要農(nóng)作物進行了分類,總體分類精度為74.18%,Kappa系數(shù)為0.60,認為支持向量機法精度優(yōu)于最大似然法、隨機森林法。張超等[12]基于GF1-WFV 影像計算8 個相關(guān)性高的植被指數(shù),使用隨機森林算法提取了奇臺縣的玉米種植區(qū),并利用玉米抽雄期的一期0.7m 分辨率的Kompsat-3全色影像提取了Subtract紋理特征,進一步識別了制種玉米田。Thanh Noi等[13]基于Sentinel-2影像,測試了支持向量機、隨機森林、K-近鄰等分類算法在紅河三角洲土地覆蓋類型分類研究中的精度,得出支持向量機精度好于隨機森林、K-近鄰的結(jié)果。Sitokonstantinou等[14]基于sentinel-2影像,對比了使用支持向量機和隨機森林兩種監(jiān)督分類方法在作物分類中的精度,并探討了植被指數(shù)特征對分類結(jié)果的影響。特征數(shù)據(jù)集的增加并不總是提高遙感分類的精度,不同的遙感分類算法的分類精度也不相同,以上研究集中于小麥、玉米、棉花等大宗農(nóng)作物,關(guān)于特色林果作物的研究較少,所以研究不同特征數(shù)據(jù)集、分類算法對特色林果作物遙感分類精度的影響和適用性具有重要意義。
文章以若羌河綠洲為研究區(qū),通過野外調(diào)查和文獻資料分析快速建立遙感解譯的先驗知識,確定影像日期、分類類別?;诿嫦?qū)ο蟮挠跋穹治龇椒?,使用多尺度分割方法分割影像,?gòu)建多時相的光譜、植被指數(shù)、紋理、形狀等特征,使用決策樹、隨機森林等方法進行遙感分類。通過比較遙感分類算法、特征集組合對分類精度的影響,探究不同分類算法、不同特征數(shù)據(jù)集在受干旱因素制約、作物種植情況復(fù)雜的若羌林果種植區(qū)進行作物種植信息遙感提取的適用性,旨在找到符合若羌當?shù)剞r(nóng)業(yè)種植情況、精度較高的分類方法,為新疆南疆的特色林果作物種植信息遙感提取提供參考和依據(jù)。
研究選取若羌縣典型的農(nóng)作物種植區(qū)若羌河綠洲。若羌河綠洲地處若羌縣中西部,北接塔克拉瑪干沙漠東南緣,南臨昆侖山阿爾金山山地,東經(jīng)88°3'~88°28',北緯38°57'~39°7',冬季寒冷,夏季酷熱少雨,風大塵多,日溫差懸殊,年均氣溫11.5℃,年平均降水量28.5mm,年平均無霜期197d,屬典型的大陸溫帶干旱、半干旱氣候區(qū)。若羌綠洲面積約為5.60×104hm2,主要依靠發(fā)源于南部阿爾金山積雪融化匯集形成的若羌河灌溉,若羌河貫穿綠洲中部,東西兩側(cè)為綠洲沖積平原,東部為鐵干里克鄉(xiāng),西部為吾塔木鄉(xiāng),農(nóng)作物主要有紅棗、枸杞、小麥、玉米、甜瓜等。
遙感數(shù)據(jù)采用歐空局(ESA)發(fā)布的Sentinel-2-MSI數(shù)據(jù)。根據(jù)若羌縣作物生長周期和數(shù)據(jù)質(zhì)量下載覆蓋研究區(qū)的影像數(shù)據(jù),利用歐空局發(fā)布的Sencor插件生產(chǎn)經(jīng)過大氣校正、輻射校正的L2A級數(shù)據(jù)。預(yù)處理后的影像利用歐空局官方影像處理軟件SNAP 對進行拼接、裁剪、重采樣到10m 等操作得到覆蓋研究區(qū)的遙感影像數(shù)據(jù)。
真實樣本數(shù)據(jù)來源:(1)林果樣本來源于新疆林業(yè)科學院2019 年若羌縣特色林果業(yè)資源清查矢量圖斑數(shù)據(jù)(2)農(nóng)作物樣本來源于研究小組2019 年若羌野外調(diào)查時獲取的樣地中心經(jīng)緯度坐標對照高分辨率遙感影像現(xiàn)場勾繪的樣方數(shù)據(jù)。樣本數(shù)據(jù)共計242 個,其中紅棗62 個,枸杞25 個,農(nóng)作物24 個,居民地30個,道路34個,荒地67個。
圖1 研究區(qū)
如何把遙感解譯原理同研究的實際情況相結(jié)合找到適合其研究區(qū)實際情況的分類算法是分類結(jié)果是否具有實踐意義的關(guān)鍵。田間調(diào)查不僅是為了獲取遙感解譯需要用到的實地樣本數(shù)據(jù),而且是了解實地作物種植情況、獲取農(nóng)業(yè)種植信息從而形成遙感解譯的先驗知識的基礎(chǔ)[15,16]。研究小組于2019年7月、2019年10月、2020年5月前往若羌進行了3次野外調(diào)查,調(diào)查發(fā)現(xiàn)若羌縣主要種植的作物有紅棗、枸杞、棉花、小麥、玉米等。一般紅棗樹齡在5年以下的棗園,棗樹的冠幅小,郁閉度較低,存在紅棗園套種冬小麥的情況,而紅棗樹齡在5年以上的棗園,棗樹的冠幅大,郁閉度高,多為純林種植。枸杞的種植方式有兩種,大部分是單作方式,一些則是與玉米、瓜果間作,近年來由于紅棗市場行情不佳,在水資源短缺的田塊有大面積紅棗地改為枸杞地。棉花和玉米種植方式為大面積的單作方式。小麥的種植方式有兩種,一種是單作方式,一種是與紅棗套作。
若羌縣主要作物的生長期如表1。為利用作物主要的生長期所展現(xiàn)出不同影像特征,影像選擇4 月16、7月25日、10月8日、11月7日等4期遙感影像數(shù)據(jù)。
表1 若羌綠洲主要作物的生長期
若羌紅棗一般以純林種植,但近年來由于市場行情變化,部分紅棗地塊變?yōu)殍坭剑蛘吲c小麥、玉米、枸杞等作物套種。根據(jù)2018 年若羌縣政府統(tǒng)計數(shù)據(jù),紅棗種植面積1.57萬hm2,其中若羌河綠洲約0.8萬hm2,瓦石峽綠洲約0.73萬hm2。農(nóng)作物種植面積0.608萬hm2,其中:糧食種植面積0.27萬hm2,其中小麥面積0.14萬hm2;棉花種植面積萬0.21萬hm2;瓜種植面積0.053萬hm2;菜種植面積0.014萬hm2;枸杞種植面積0.025萬hm2;薯類種植面積0.003萬hm2;其他作物種植面積0.033萬hm2。實地調(diào)查中研究區(qū)以紅棗純林單作、農(nóng)作物與紅棗混種、枸杞單作為主要的種植方式,綜合考慮林果作物和農(nóng)作物生長期信息、種植比例,分類類別設(shè)定為紅棗、農(nóng)作物、枸杞、居民地、道路、荒地6類。
與基于像原的分類方法不同,面向?qū)ο蟮挠跋穹治龇椒ǖ姆诸悊卧欠指詈蟮膶ο?,所以進行分類的第一步是對影像進行分割。遙感影像地物分類應(yīng)用廣泛的是多尺度分割算法[17,18]。多尺度分割算法主要通過尺度、形狀和緊致度3 個參數(shù)的設(shè)置來控制分割結(jié)果。尺度因子設(shè)置越小的,分割的對象數(shù)量越多,單個對象的面積越小,反之則對象數(shù)量越少,單個對象的面積越大。每個對象的均質(zhì)性由形狀和顏色參數(shù)控制,形狀和顏色總貢獻率為1,而形狀參數(shù)由緊致度和平滑度兩個參數(shù)組成,總貢獻率為1[19]。該研究采用控制變量法,控制尺度、形狀、緊致度其中兩個量不變,手動調(diào)整剩余的一個變量根據(jù)目視判定分割結(jié)果與實際地物邊界的吻合程度確定該變量的最優(yōu)值,最終多尺度分割參數(shù)設(shè)置為尺度因子65、形狀因子0.7、緊致度因子0.2。
圖2 多尺度分割參數(shù)
Sentinel-2 數(shù)據(jù)在近紅外波段有3 個紅邊波段可以對植被進行監(jiān)測,如張磊等[20]基于Sentinel-2 數(shù)據(jù)構(gòu)建植被指數(shù)特征、水體指數(shù)、紅邊指數(shù)用于黃河濕地的信息提取研究。20世紀70年代初Haralick等[21]提出了灰度共生理論(GLCM),灰度共生矩陣計算某一方向θ相距步長D出現(xiàn)的某一灰度值的概率,可以提取影像的空間結(jié)構(gòu)特征,有研究表明加入灰度共生矩陣能夠提高遙感圖像分類的精度[22~24]。為平衡紋理特征4 個方向(0°,45°,90°,135°)的影響,選取所有方向的統(tǒng)計均值作為紋理特征集。多尺度分割后生成的影像對象層,若不同地物之間具有明顯的形狀差異則可構(gòu)建形狀特征集來提高遙感分類精度[25,26]。該研究根據(jù)上述前人研究的經(jīng)驗在光譜特征的基礎(chǔ)上構(gòu)建植被指數(shù)特征、紋理特征、形狀特征用于后續(xù)研究,詳盡的特征集如表2。
表2 特征集描述
為探討不同特征集的加入對分類結(jié)果的影響,在光譜特征的基礎(chǔ)上加入形狀、植被指數(shù)、紋理等特征,不同的特征集組合方案如表3。
表3 特征集組合方案
該研究采用兩種常用的機器學習算法,CART 決策樹和隨機森林算法(Random forest algorithm,RF)對遙感影像進行分類。常用的決策樹算法有ID3,C4.5 和CART(Classification And Re?gression Tree)3 種,ID3 和C4.5 都是以信息熵為判別條件進行節(jié)點劃分的,CART 是一個二叉樹結(jié)構(gòu),由一個父節(jié)點和兩個子節(jié)點構(gòu)成,父節(jié)點是否分裂成兩個節(jié)點由基尼指數(shù)(GINI)判別[27]。
式(1)中,D代表樣本集,PK表示第K類樣本所占的比例,基尼指數(shù)可以視為衡量選區(qū)劃分特征有效程度的標準。CART 算法的分類效果一般優(yōu)于其他決策樹算法。
隨機森林是由Breiman[28]年提出的機器學習算法,它由多個分類器組成,把總樣本隨機分成多個子樣本集,用多個分類器進行分類,用每個分類器分類結(jié)果對總的分類結(jié)果進行投票得出可靠的結(jié)果。隨機森林算法參數(shù)默認使用eCognition9.0 根據(jù)輸入特征數(shù)量、樣本數(shù)量自動計算的值,其中決策樹數(shù)量50,最大類別16。
精度混淆矩陣一般被用來評價和分析遙感分類的結(jié)果。精度混淆矩陣使用實際地物的驗證樣本集統(tǒng)計分成每個地物種類的數(shù)量,計算每個類別的制圖精度(Producer Ac?curacy)和用戶精度(User Accuracy),能夠直觀地體現(xiàn)出各個類別的錯分和混分情況。制圖精度表示在此次分類過程中該類別的真實參考數(shù)據(jù)被正確分類成該類別的概率,能夠反映分類結(jié)果的錯分情況。用戶精度表示在此次分類中,在分類圖上落在該類別上的驗證點,被正確分類為該類別的比率,能夠反映分類結(jié)果的混分情況。通過混淆矩陣計算出分類結(jié)果的總體精度和Kappa系數(shù)能夠反映出遙感分類的總體分類精度。
遙感分類結(jié)果有紅棗、枸杞、農(nóng)作物、居民地、道路和荒地6類地物,為便于分類結(jié)果與實地林果資源調(diào)查矢量圖斑數(shù)據(jù)的對比分析,把分類結(jié)果中紅棗、枸杞、農(nóng)作物地類的矢量結(jié)果導(dǎo)出,得到分類結(jié)果如圖3。實地林果資源調(diào)查清圖各地類面積統(tǒng)計如表4,遙感分類各地類面積統(tǒng)計如表5。2014 年紅棗市場行情較好,若羌縣的農(nóng)業(yè)種植結(jié)構(gòu)基本是以紅棗的純林種植為主,所以1.24萬hm2基本是若羌河綠洲的總耕地面積,表5中以2014年林果資源調(diào)查總面積為基準計算遙感分類結(jié)果的絕對誤差和相對誤差。
表4 2014年和2019年林果資源調(diào)查清圖各地類面積統(tǒng)計 萬hm2
表5 遙感分類結(jié)果面積統(tǒng)計 萬hm2
圖3 實地林果資源調(diào)查數(shù)據(jù)與遙感分類結(jié)果比較
由表4 可知2014年若羌河綠洲林果種植主要以紅棗為主,總面積為1.24萬hm2,2019年若羌河綠洲林果種植面積增加約0.14萬hm2,達到1.38萬hm2,主要是枸杞耕種面積的增加。由表5 可知遙感分類的總耕地面積在1.06萬~1.26萬hm2,與2014年相比,總耕地面積相差較小,絕對誤差在0.007萬~0.185萬hm2,相比于2019 年林果資源清查數(shù)據(jù)少0.12 萬~0.32萬hm2,主要是因為綠洲邊緣新增加的枸杞、紅棗地被分成了荒地的原因,由圖3可知綠洲東南部和北部的漏分較為嚴重。由圖3中可知,遙感分類結(jié)果與林果資源調(diào)查清圖相比,總耕地面積相差較小,但是在紅棗、枸杞的面積相差較大。紅棗面積差異的主要原因是在野外調(diào)查和分類過程中把農(nóng)作物與新棗樹混種的地塊歸為了農(nóng)作物類別。近年來受紅棗市場波動影響,棗農(nóng)把樹齡較小、株行距較寬的紅棗地塊套種了小麥、玉米等農(nóng)作物,農(nóng)作物地類中有大部分是與紅棗套種,若把紅棗與農(nóng)作物面積相加之后與2018 年若羌縣政府統(tǒng)計數(shù)據(jù)的紅棗種植面積0.8萬hm2相比則相差較小。造成枸杞混分的原因,在綠洲的邊緣由于市場變化、水分分配不均,有許多棗園荒棄,冠幅較小,造成整個地塊的郁閉度不高,在遙感影像上表現(xiàn)為與枸杞地塊相近的影像特征,造成混分比較嚴重。
結(jié)合圖3、表4、表5 探討不同分類算法、特征集組合對分類結(jié)果的影響。首先探討不同數(shù)據(jù)集的加入對分類結(jié)果的影響。由圖3可知,不同特征集的加入使得不同地類分類效果存在明顯的差異。光譜特征作為影像分析的基礎(chǔ)特征,只使用光譜特征分類就可以基本分出各種地類,但是由表5 可知,光譜,光譜+形狀,光譜+植被等3 種特征組合的解譯面積明顯低于資源清查數(shù)據(jù)的面積,相對誤差明顯的高于光譜+紋理和綜合特征的組合方案。對比圖3中其3種特征組合的解譯結(jié)果與清查數(shù)據(jù),發(fā)現(xiàn)這3種特征集組合把紅棗、農(nóng)作物分成了非農(nóng)業(yè)用地。相比之下光譜+紋理、綜合特征2 種組合的相對誤差比較小,并且與清查數(shù)據(jù)比較分類結(jié)果較為一致,分類效果較好。
其次比較在相同的特征數(shù)據(jù)集情況下不同分類算法分類結(jié)果的差異。由表5 可知,2 種分類算法在加入不同特征數(shù)據(jù)集后,相對誤差的變化趨勢較為一致,但是CART算法的誤差變化比較劇烈,并且在加入了植被指數(shù)之后誤差達到了最高值14.86%,而相比之下隨機森林算法相對誤差則比較穩(wěn)定。對比圖3中2種分類算法的分類結(jié)果可知,隨機森林算法的分類效果好于CART 算法,CART 算法在加入紋理特征后把道路錯分成了枸杞,并且在綠洲南部明顯是荒地地方,把荒地錯分成枸杞,形成黃色的枸杞小班塊。綜上所述認為隨機森林算法在特征集的加入后能夠從更多維度描述地物的特征使得分類結(jié)果更加精確,相比于CART算法更適合多維特征數(shù)據(jù)集的遙感解譯任務(wù)。
3.2.1 總體精度分析
3.1 分析了遙感分類結(jié)果與實際資源清查數(shù)據(jù)差異及其原因。由于清查數(shù)據(jù)只包括林果數(shù)據(jù),與若羌縣政府官網(wǎng)公布的統(tǒng)計數(shù)據(jù)分類系統(tǒng)不一致,面積也存在較大差異。而且實際種植情況受市場行情、水源供給等因素影響使得實際存在較多的林果作物和糧食作物套種、混種情況,種植結(jié)構(gòu)復(fù)雜、變化差異較大,所以本節(jié)基于精度混淆矩陣的總體精度進一步分析不同分類算法、特征集組合對分類精度的影響。
如圖4是基于精度混淆矩陣計算得到總體分類精度,隨機森林的總體精度都要高于CART 決策樹,隨機森林的精度要比CART 算法高3.91%~13.23%。并且兩種方法的分類精度對特征集組合的響應(yīng)是不同的,CART 算法在光譜特征基礎(chǔ)上加入不同的特征數(shù)據(jù)集對分類結(jié)果精度的提升小于隨機森林,而且光譜+形狀和光譜+紋理的組合方案總體精度甚至低于單一光譜特征方案。而隨機森林算法的分類精度在加入不同特征數(shù)據(jù)集之后,相比于比單一光譜特征,除光譜+紋理組有小幅降低之外,其余特征集的加入都提高了分類結(jié)果的總體精度,其中光譜+形狀特征的組合方案提升了5.79%,光譜+植被特征的組合方案提升了4.13%,綜合特征的組合方案提升了2.89%。這一結(jié)果驗證了3.1 的分析結(jié)論,隨機森林算法的分類效果優(yōu)于CART 決策樹算法,隨機森林算法相比CART 算法更適應(yīng)于多維特征數(shù)據(jù)集分類任務(wù)。不同的特征集的加入能夠提高隨機森林算法的遙感分類精度,而CART算法可能不僅不能提高分類精度反而可能會降低分類精度。
圖4 總體精度
另一方面分析不同特征數(shù)據(jù)集對分類精度的影響。CART算法中除加入植被指數(shù)特征和綜合特征集兩組的分類結(jié)果好于光譜特征外,加入形狀、紋理特征反而降低了總體精度。而隨機森林算法中除紋理特征降低了分類精度外,其余特征都提升了總體精度,尤其是形狀特征,總體精度提高了13.23%。以上說明特征集的增加并不總是提高分類精度,而且不同的分類算法對特征集的響應(yīng)是不一致的,形狀、植被指數(shù)能提高遙感分類的精度,而紋理特征降低了分類精度。
3.2.2 基于精度混淆矩陣的具體分析
由前文分析可知資源清查數(shù)據(jù)與分類結(jié)果的對比分析結(jié)果與總體精度分析結(jié)果存在較大差異,前者表明使用隨機森林算法的光譜+紋理與綜合特征組合具有較好的面積精度,但后者顯示使用隨機森林算法的光譜+形狀特征組合具有最高的總體精度,所以該節(jié)基于所有分類算法、特征集組合的精度混淆矩陣進行對比分析,以此確定最優(yōu)的分類方法。
對比CART 和RF 兩種分類算法的精度混淆矩陣可知(CART 算法表6~10,RF 算法表11~15),隨機森林算法的分類精度都高于CART 算法,不同特征集的加入對隨機森林組的精度提升較大,而對CART 組的精度影響較小。其次分析隨機森林算法在光譜特征的基礎(chǔ)上加入不同特征數(shù)據(jù)集對分類精度的影響。由表6~15 可知,紅棗、居民地、荒地等地類在所有分類方法中都具有較高的分類精度,而造成分類精度下降的主要是由于枸杞、農(nóng)作物、道路等地類錯分。當加入了形狀特征后,減少了道路與其他地物的錯分,并且農(nóng)田錯分成道路個數(shù)也有所減少,說明形狀特征對有明顯形狀差異的地物具有識別能力。加入植被指數(shù)特征之后,減少了荒地、枸杞、居民地、道路的錯分,說明植被指數(shù)特征能提高植被與非植被地物分類精度。當加入紋理特征之后,對地物分類精度影響較小。
表6 CART1精度混淆矩陣
表7 CART2精度混淆矩陣
表8 CART3精度混淆矩陣
表9 CART4精度混淆矩陣
表10 CART5精度混淆矩陣
表11 RF1精度混淆矩陣
表12 RF2精度混淆矩陣
表13 RF3精度混淆矩陣
表14 RF4精度混淆矩陣
表15 RF5精度混淆矩陣
不同特征集的加入對各個地類分類精度的影響是不同的,當加入一種特征集之后,提高了某一地物的分類精度,但同時也可能降低其他地物的分類精度,應(yīng)該綜合分析其造成分類精度下降的原因,找到最優(yōu)的分類方法。在該研究中雖然光譜+形狀特征組合具有最高的分類精度,但是與實際清查數(shù)據(jù)比較嚴重漏分了紅棗、農(nóng)作物,卻未能體現(xiàn)在精度混淆矩陣上,可能是驗證樣本獲取過于單一、代表性較差所致。綜合所有特征使用隨機森林算法的分類結(jié)果,提高了紅棗、農(nóng)作物、道路等地類的分類精度,并且與資源清查數(shù)據(jù)相比具有較高的面積精度,分類結(jié)果與實地情況相符,是該研究中最優(yōu)的分類算法與特征集組合。
該研究以若羌河綠洲為研究區(qū),首先以野外田間調(diào)查、地物影像特征分析、作物生長周期分析、搜集文獻資料建立遙感解譯的先驗知識,然后基于面向?qū)ο蟮挠跋穹治龇椒ㄌ崛∪羟季G洲的作物種植信息,分析使用光譜、形狀、植被指數(shù)、紋理、綜合所有特征等5 種特征數(shù)據(jù)集組合,CART、隨機森林等兩種分類算法的不同組合對分類結(jié)果的影響。結(jié)果表明:(1)隨機森林算法更適合于多維特征的遙感分類任務(wù),分類效果好于CART算法。(2)植被指數(shù)、形狀、紋理特征能從不同的維度反應(yīng)地物的影像特征,對分類精度的影響也不同,形狀特征對具有明顯形狀差異的地物具有較強的識別能力,植被指數(shù)特征能有效識別植被與非植被地物,紋理特征對分類精度的影響不明顯。(3)綜合所有的特征集組合,結(jié)合使用隨機森林算法的分類方法分類效果最好,總體精度88.43%,Kappa系數(shù)85.47%,面積精度96.89%。
遙感解譯的先驗知識對尋求適合研究問題的分類算法和策略具有重要意義,同時也影響遙感分類精度。新疆地處干旱區(qū)內(nèi)陸,水資源分配不均,土地管理水平不一致,土地破碎程度嚴重,又因市場因素,混種、套種情況較多,土地種植結(jié)構(gòu)復(fù)雜,制約著農(nóng)業(yè)資源調(diào)查效率。在作物遙感制圖中,精度驗證是決定研究是否能夠運用于生產(chǎn)實踐的重要保證,而實地樣本數(shù)據(jù)采集的科學性直接影響分類結(jié)果及精度。在實際的野外調(diào)查中,由于若羌當?shù)剞r(nóng)作物、枸杞種植面積較少,使得樣本采集數(shù)量較少,而紅棗地類樣本單一,缺乏代表性,這些因素直接影響了精度混淆矩陣的結(jié)果,給研究造成一定的不確定性。
多尺度分割結(jié)果會影響遙感分類的結(jié)果,匹配良好的分割和參考對象會提高面向?qū)ο蟮姆诸惥?。Dr?gu? 等[29]提出了一種自動計算分割最優(yōu)參數(shù)的工具,它給出若干個使對象間光譜差異最大的分割參數(shù),用戶需要通過設(shè)置這些參數(shù)然后目視判別最優(yōu)的分割參數(shù)。該研究使用控制變量法結(jié)合目視判別分割效果來決定多尺度分割參數(shù),判別標準即該參數(shù)下的分割結(jié)果能保證區(qū)分出實際地物的數(shù)量最多。這種方法雖然相比于多尺度分割工具操作要繁瑣,需要不斷試驗設(shè)置參數(shù)的結(jié)果找尋最優(yōu)的分割參數(shù),但是這種方法是基于專家經(jīng)驗、先驗知識的分割參數(shù)選擇方法,能夠保證分割參數(shù)符合該研究分類地物的實際邊界,而多尺度參數(shù)的選擇如何影響特色林果作物遙感分類則需要進一步的研究。
在該研究中CART 算法的分類效果不如隨機森林算法好。CART 算法在加入多維特征集之后,分類精度并沒有明顯提高,而隨機森林算法的分類精度卻明顯提高,說明隨機森林算法適合多維特征的遙感分類任務(wù)。但是隨機森林算法的解釋性不如決策樹算法,CART算法適用于基于樣本特征分析之后再加入特定的特征集,并且可以通過生成的決策樹來分析遙感分類的策略。從另一方面分析,遙感分類中并不是特征集越多,分類精度就越好,該研究分析了不同算法、不同特征集的加入對各個分類地物的分類精度影響,并沒有考慮特征集之間的數(shù)據(jù)冗余問題,以及每種特征的重要性和占整個特征的比例問題。目前較多研究通過隨機森林算法試驗不同特征的袋外誤差尋找多特征的最優(yōu)組合來提高遙感分類的精度,因此利用隨機森林多特征優(yōu)選的方法來判別對特色林果作物遙感分類精度的影響需要進一步研究。
綜上所述該研究根據(jù)田間調(diào)查和文獻資料閱讀快速建立遙感分類的先驗知識確定遙感影像時間、分類類別,基于面向?qū)ο蟮挠跋穹治龇椒?,使用控制變量法選擇多尺度分割參數(shù),基于光譜特征構(gòu)建了植被指數(shù)、紋理、形狀等特征,采用CART、隨機森林算法對分割結(jié)果進行分類,分析了不同特征數(shù)據(jù)集、分類算法對分類結(jié)果和精度的影響,得到了若羌特色林果作物種植信息遙感提取的最優(yōu)分類方法,為后續(xù)全疆的特色林果作物資源調(diào)查工作提供了參考和依據(jù)。