王穎潔,郭詩韻
自然資源部 第三航測遙感院,四川 成都 610100
地表覆蓋是地球表面各種物質(zhì)類型及其自然特征與屬性的綜合體,是自然演化和人類活動共同作用的結(jié)果,具有特定的時間和空間屬性,形態(tài)和狀態(tài)可在多種時空尺度上變化。了解某一區(qū)域的地表覆蓋情況對生態(tài)環(huán)境狀況評估有著重要作用。近年來,隨著全球變化研究的深入,地表覆蓋及其變化研究受到科學(xué)界廣泛關(guān)注。
中分辨率遙感的發(fā)展,使全國或區(qū)域尺度的中分辨率地表覆蓋監(jiān)測成為可能,如國家基礎(chǔ)地理信息中心陳軍課題組研制的全球兩期(2000、2010年)30 m地表覆蓋產(chǎn)品Globeland30和清華大學(xué)宮鵬課題組研制的全球30 m、全球10 m地表覆蓋產(chǎn)品FROM-GLC。這些產(chǎn)品可廣泛應(yīng)用于各類不同尺度的研究工作,但主要依靠大量的人工選取訓(xùn)練樣本進行監(jiān)督分類或人工目視解譯制圖,自動化水平相對較低,需要大量人力物力投入,動態(tài)更新困難。
地表覆蓋自動分類的關(guān)鍵是構(gòu)建各類地物的光譜先驗知識。隨著時間序列定量遙感技術(shù)進步,區(qū)域尺度地表覆蓋圖像光譜動態(tài)庫構(gòu)建成為可能,從而為基于圖像光譜庫的地表覆蓋自動分類奠定了堅實基礎(chǔ)。
本文對2017年6—12月新疆某區(qū)域Landsat數(shù)據(jù)進行定量化處理,得到地表反射率產(chǎn)品,構(gòu)建研究區(qū)域夏季和冬季的光譜庫,并基于構(gòu)建的光譜庫對研究區(qū)域2018年9月地表反射率數(shù)據(jù)采用隨機森林分類方法進行分類,并利用2018年地理國情監(jiān)測成果對分類結(jié)果進行精度驗證。
研究區(qū)域位于新疆維吾爾自治區(qū)北部,該區(qū)域?qū)贉貛Т箨懶詺夂?,氣溫溫差較大,日照充沛,年日照時間2500~3000 h,年平均降水量約150 mm。研究區(qū)域橫跨烏魯木齊市區(qū)、吐魯番盆地、天山天池等地,地勢起伏較大,地貌復(fù)雜,地表覆蓋類型豐富,對研究新疆的自然資源可持續(xù)發(fā)展和生態(tài)保護有著重要意義(圖1)。
圖1 研究區(qū)示意圖Fig.1 The research area
實驗主要針對分辨率為30m的Landsat影像數(shù)據(jù)進行分類,訓(xùn)練樣本及精度驗證樣本主要基于GlobeLand30全球地表覆蓋產(chǎn)品和地理國情監(jiān)測數(shù)據(jù)選擇。
1)Landsat-8 OLI L1T數(shù)據(jù)。從美國地質(zhì)調(diào)查局USGS官網(wǎng)下載研究區(qū)域2017年6—12月、2018年9月共7景Landsat-8影像用于本次實驗,產(chǎn)品級別為L1T級[1-3],即利用地面控制點和數(shù)字高程模型進行輻射校正后的數(shù)據(jù)產(chǎn)品。其中,2017年6—9月的數(shù)據(jù)用于構(gòu)建研究區(qū)域夏季光譜庫,10—12月的數(shù)據(jù)用于構(gòu)建冬季光譜庫,由于7月份影像云量較大,質(zhì)量不高,可用性不強,因此研究區(qū)域夏季光譜庫由2017年6、8、9月數(shù)據(jù)組成,2018年9月的數(shù)據(jù)作為待分類影像。
2)GLobeLand30。該數(shù)據(jù)是以人工目視解譯為主的全球兩期(2000、2010年)30 m地表覆蓋數(shù)據(jù),覆蓋南北緯80°之間的陸地范圍,包括耕地、森林、草地、灌木地、濕地、水體、苔原、人造地表、裸地、冰川和永久積雪等10種地表覆蓋類型,總體精度可達80%。該成果已開始在全球生態(tài)環(huán)境監(jiān)測、可持續(xù)發(fā)展中發(fā)揮重要作用,可以作為提取各類地物樣本的參考[4-6]。
3)地理國情監(jiān)測數(shù)據(jù)。地理國情監(jiān)測是利用遙感、地理信息系統(tǒng)等現(xiàn)代化測繪技術(shù),采用全數(shù)字化人機交互的模式,對地表覆蓋以及道路、水系等實體進行空間化的監(jiān)測。數(shù)據(jù)主要分為種植土地、林草覆蓋、房屋建筑(區(qū))、鐵路與道路、構(gòu)筑物、人工堆掘地、荒漠與裸露地、水域、地理單元、地形等10個一級類。地理國情監(jiān)測是基于資源三號、高分二號等空間分辨率優(yōu)于2.5 m的衛(wèi)星影像,人工目視解譯對地表覆蓋進行分類,精度較高,可作為選取驗證樣本的數(shù)據(jù)。
本實驗基于定量化處理后得到的Landsat地表反射率數(shù)據(jù),結(jié)合GlobeLand30地表覆蓋產(chǎn)品構(gòu)建典型地物夏季、冬季光譜庫,采用隨機森林法對研究區(qū)域進行地表覆蓋自動分類,得到研究區(qū)域地表覆蓋分類結(jié)果,采用總體精度、Kappa系數(shù)等指標(biāo)進行分類精度評價,以驗證實驗方案在研究區(qū)域的可行性(圖2)。
圖2 自動分類流程圖Fig.2 The flow chart of automatic classification
Landsat 8衛(wèi)星攜帶的陸地成像儀(OLI)包含9個波段,選取對地表覆蓋識別較為敏感的6個波段進行輻射定標(biāo)、地形輻射校正[7]、FLAASH大氣校正[8]等定量化處理,得到地表反射率數(shù)據(jù)。6個波段分別為:藍波段(0.450~0.515μm)、綠波段(0.525~ 0.600μm)、紅波段 (0.630~ 0.680μm)、近紅外波段(0.845~0.885μm),兩個短紅外波段(1.560~1.660μm)和(2.100~2.300μm)。
GlobeLand30-2010數(shù)據(jù)共包括10個類型,分別是:耕地、森林、草地、灌木地、濕地、水體、苔原、人造地表、裸地、冰川和永久積雪。結(jié)合研究區(qū)域的實際情況,去掉GlobeLand30分類體系中的濕地、苔原這兩種地類,將灌木地與草地統(tǒng)一歸為草地,最終建立了本文中研究區(qū)域的分類體系(表1)。
表1 分類體系對比Tab.1 The comparison of classification system
由于Landsat-8 OLI系列數(shù)據(jù)和GlobeLand30分類產(chǎn)品的空間分辨率都是30 m,因此將研究區(qū)域的Landsat-8 OLI系列數(shù)據(jù)和GlobeLand30分類產(chǎn)品直接進行疊加分析選取各個類別的樣本[9]。訓(xùn)練樣本的提取按照以下步驟進行:
1)為了避免云及云影對地物光譜的干擾,首先需要利用Landsat成像質(zhì)量控制文件對Landsat反射率影像中存在的云及云影進行標(biāo)記并掩膜掉;
2)將Landsat反射率數(shù)據(jù)與GlobeLand30分類產(chǎn)品進行疊加,結(jié)合研究區(qū)域影像實際情況,基于本文所構(gòu)建的分類體系,通過目視解譯對各個類別進行樣本選取。
本文按照一景Landsat范圍為單位(約1.5°×1.5°),提取夏季(6、8、9月)和冬季(10、11、12月)光譜信息。如果僅使用光譜信息進行自動分類容易出現(xiàn)“同物異譜”和“同譜異物”等現(xiàn)象,所以要結(jié)合研究區(qū)域地表覆蓋及地貌特征,計算研究區(qū)域植被指數(shù)、水體指數(shù)、坡度坡向等,將提取的光譜信息、指數(shù)特征聯(lián)合構(gòu)建研究區(qū)域多時相光譜庫(圖3)。
圖3 光譜庫構(gòu)建流程圖Fig.3 The flow chart of the spectrum
1)影像光譜值提取?;贕lobeLand30地表覆蓋產(chǎn)品提取研究區(qū)域典型地物的訓(xùn)練樣本,結(jié)合2017年6—12月(除7月)Landsat地表反射率數(shù)據(jù),提取典型地物夏季、冬季地表反射率信息。
2)歸一化植被指數(shù)提取。植被中的葉綠素在紅波段對太陽輻射吸收較強,在近紅外波段對太陽輻射反射較強,利用植被在近紅外波段和紅波段反射率的差異可有效提取植被信息。歸一化植被指數(shù)(NDVI)能很好地增強植被信息,反映出地表植被的覆蓋情況,計算公式如下:
式中,NIR為近紅外波段;R為紅波段。
3)水體指數(shù)提取。水體在近紅外波段吸收較強,反射率較低,歸一化水體指數(shù)(NDWI)能夠較好地抑制植被信息,反映地表的水體情況,計算公式如下:
式中,NIR為近紅外波段;G為綠波段。
4)坡度、坡向值提取。坡度是指地形表面與水平面之間的傾角,坡向是指坡度的方向,研究區(qū)域地形起伏較大,坡度、坡向信息可以輔助對研究區(qū)域地表覆蓋進行區(qū)分。
基于光譜信息、植被指數(shù)、水體指數(shù)以及坡度坡向信息,構(gòu)建典型地物光譜庫,選取典型地物夏季、冬季光譜進行比較,如圖4所示。從圖中可以看出,除冰雪以外,其余地物夏季和冬季的光譜曲線差異較大,主要因為夏季植被茂盛,冬季樹葉凋落、無耕種、人工地表有暗冰覆蓋。從2017年6月、9月光譜曲線可看出,短波紅外一波段對人工地表、裸露土壤、水體有較好識別能力,歸一化植被指數(shù)能較好地識別出植被、人工地表等類別,歸一化水體指數(shù)可以較好地將水體與其他地物類別進行區(qū)分,植被之間的光譜曲線差異不大,考慮到研究區(qū)域耕地坡度平緩,而林草大量分布于山體上,可利用坡度、坡向信息輔助對植被進行分類。
圖4 不同月份典型地物光譜庫參數(shù)曲線示意圖Fig.4 The spectral curves of typical objects in different months
實驗選擇的分類器為隨機森林算法。隨機森林算法是由Breiman[10]提出的以多棵決策樹為基礎(chǔ)的集成分類器,通過采取多個不同的訓(xùn)練樣本子集來加大分類模型之間的相異性,從而能夠提高模型的泛化能力以及預(yù)測能力[11]。隨機森林算法與其他機器學(xué)習(xí)算法相比具有精度高、參數(shù)少、性能穩(wěn)定的特點,適于處理高維數(shù)據(jù),不易產(chǎn)生過擬合,在遙感影像分類與變化檢測領(lǐng)域應(yīng)用效果較好。本文基于Python編程實現(xiàn)對影像的批量隨機森林分類處理。
本文分別使用2017年6、9、12月的光譜庫對2018年9月的Landsat影像進行分類,基于地理國情監(jiān)測數(shù)據(jù)選取驗證樣本對分類結(jié)果進行精度驗證。地理國情數(shù)據(jù)中地表覆蓋類別是基于1 m或2 m的高分辨率影像人工解譯所得,地表覆蓋類別均細分至三級類,本文的實驗數(shù)據(jù)為30 m分辨率的Landsat影像,受分辨率制約,無法細分至三級類,故使用地理國情監(jiān)測數(shù)據(jù)中的一級類結(jié)果對本文的分類結(jié)果進行驗證。在驗證過程中,將地理國情監(jiān)測成果中建筑區(qū)、道路、構(gòu)筑物、人工堆掘地等一級類合并為一類,即對應(yīng)本文分類體系中的人工建設(shè)用地;地理國情監(jiān)測分類體系中林、草屬同一個一級大類,而本文分類體系中,林地和草地屬于兩類,因此選取林地、草地驗證樣本時,引入了地理國情監(jiān)測數(shù)據(jù)中二級分類對本文的林地、草地進行驗證。
任何影像在分類過程中都會存在誤差,而造成分類誤差的原因也是多種多樣的,分析分類誤差來源和特征既是對分類過程的檢驗,也是對分類結(jié)果進行改進的重要前提。本文基于研究區(qū)域2018年地理國情監(jiān)測成果,隨機選取一定數(shù)量的驗證樣本對分類結(jié)果進行精度驗證,結(jié)果見表2。
表2 不同月份光譜庫分類精度評價Tab.2 The classification accuracy of different spectrum
從表2可以看出,基于夏季(2017年6月、9月)光譜庫分類得到的結(jié)果總體精度范圍為75%~80%,Kappa系數(shù)范圍為0.70~0.75,而基于冬季(2017年12月)光譜庫得到的分類結(jié)果總體精度僅為51%,Kappa系數(shù)0.4139,分析其原因,待分類影像時間為9月份,物候特征與夏季光譜庫物候特征更為接近?;谙募竟庾V庫得到的分類結(jié)果整體遠高于基于冬季光譜庫得到的分類結(jié)果,其中,待分類影像為2018年9月,與2017年9月的光譜庫時序最為接近,地物光譜特征最為相似,因此使用2017年9月的光譜庫對待分類影像進行分類得到的分類精度最高。這表明不同季節(jié),各類地物的光譜值有較大差異,基于夏季光譜庫對夏季的地表反射率數(shù)據(jù)分類結(jié)果更優(yōu)。
以上結(jié)果表明,本文提出的基于Landsat地表反射率光譜庫的自動分類方法能較為有效地對研究區(qū)不同時間序列的Landsat反射率數(shù)據(jù)進行快速分類,構(gòu)建研究區(qū)域各個季節(jié)的全時序光譜庫,能有效提高自動分類的效率及精度。
進一步分析基于2017年9月光譜庫得到的分類結(jié)果的混淆矩陣(表3)。
表3 基于2017年9月光譜庫的各類精度評價Tab.3 The classification accuracy of different land cover based on the spectrum of Sep 2017
由表3分析可知,水體分類精度最高,冰雪、人工地表和林地次之,耕地總體分類精度一般,存在耕地與草地混分的現(xiàn)象,這與本文在同一個地區(qū)只使用了單時相影像進行分類有關(guān),考慮到耕地的輪作性,下一步考慮引入多時相影像參與分類,可利用耕地輪作性的光譜差異與草地進行區(qū)分,以減小耕地草地混分情況。草地的錯分情況較少,但漏分情況嚴重,而林地錯分較多。由于研究區(qū)域地形起伏較大,加上山體陰影的影響,雖然進行了地形輻射校正,仍存在林草難以區(qū)分的情況。裸地分類精度總體較好,但存在裸地錯分為人工地表情況,這與人工地表類別的光譜和裸地光譜較為接近有關(guān),下一步將考慮如何提高光譜庫中人工地表類別的精度。水體與冰雪的光譜曲線與其余類別差異較大,因此可以根據(jù)光譜曲線很好地將其進行區(qū)分。
在經(jīng)過定量的精度評定后,選取3個具有代表性的區(qū)域進行分類結(jié)果展示與分析。
1)烏魯木齊城區(qū)。從城區(qū)分類結(jié)果可以看出,水體類別提取效果較好,林地分類精度也較高,人工地表的漏分情況較少,建成區(qū)提取完整,但是有較多裸地部分被錯分為人工地表,導(dǎo)致裸地漏分誤差增大(圖5)。
圖5 2018年9月烏魯木齊城區(qū)分類結(jié)果圖Fig.5 The classification result of Sep 2018 in Urumqi urban area
2)高山冰雪區(qū)。從分類結(jié)果中可以看出,對于冰雪的分類效果較好,山坡上的林地分類較為完整。但存在少量陰影錯分為水體,以及林地與草地混分的情況(圖6)。
圖6 2018年9月高山冰雪區(qū)分類結(jié)果圖Fig.6 The classification result of Sep 2018 in snow-ice covered area
3)盆地區(qū)域。吐魯番盆地以耕地與人工地表為主,可以看出,耕地分類效果較好,但存在少量草地與耕地混分的情況,且有大量裸地錯分為人工地表的現(xiàn)象(圖7)。
圖7 2018年9月盆地區(qū)域分類結(jié)果圖Fig.7 The classification result of Sep 2018 in a basin
綜上所述,基于Landsat光譜庫對定量化處理后的Landsat反射率數(shù)據(jù)進行自動分類,分類精度能滿足應(yīng)用需求,能在一定程度上提高地表覆蓋制圖的效率,說明基于地物時序光譜的自動分類算法具備在大區(qū)域乃至全國范圍內(nèi)進行地表覆蓋監(jiān)測的應(yīng)用潛力。
對于中分辨率衛(wèi)星數(shù)據(jù)(如Landsat)進行地表覆蓋監(jiān)測,傳統(tǒng)的方法主要依賴于人工目視解譯和人工監(jiān)督分類。由于成像條件差異、大氣輻射傳輸差異等對遙感影像成像的干擾,使得同一地物在不同影像上的光譜有所不同,導(dǎo)致不同影像之間的訓(xùn)練樣本不能共用,不同影像都需要獨立選擇訓(xùn)練樣本;然而,逐景逐時相地表覆蓋分類方法不適合缺乏樣本的歷史數(shù)據(jù)分類,且大范圍內(nèi)地表覆蓋分類需要耗費大量的人力物力去選擇訓(xùn)練樣本,不同影像的分類結(jié)果可比性較差。
針對傳統(tǒng)方法的缺陷,本文嘗試一種新的思路進行地表覆蓋監(jiān)測。首先對研究區(qū)Landsat中分辨率遙感數(shù)據(jù)進行定量化處理,消除成像條件差異等對影像的干擾,得到定量化的地表反射率數(shù)據(jù);然后利用Landsat地表反射率數(shù)據(jù)建立研究區(qū)典型地物時序波譜特征庫,最后利用波譜特征庫對研究區(qū)Landsat反射率數(shù)據(jù)進行地表覆蓋自動分類制圖。本文對研究區(qū)域Landsat反射率影像進行了定量化處理和分類,總體分類精度能達到75%。
由于時間和精力有限,論文還存在很多不足之處,很多內(nèi)容需要做進一步的研究和完善。
1)本文的地物波譜庫主要是利用陳軍的30 m全球地表覆蓋分類結(jié)果作為參考提取的Landsat地表反射率光譜,但因為時間精力有限,只提取了一個研究區(qū)域的單一年份(2017年)夏季及冬季的時序地表反射率特征,可能存在部分隨機誤差。在下一步的研究中,可以針對更大范圍的研究區(qū)域引入其他年份的時序地表反射率數(shù)據(jù),并提取出樣本的空間位置信息,獲得精度更高的時序波譜庫。
2)本文的分類方法較為單一,只采用了隨機森林分類這一種算法,缺乏各種分類方法的比較分析,且不同研究區(qū)域地表覆蓋差異較大,適用的分類方法也不盡相同,單一的自動化分類算法會對結(jié)果精度造成影響。在下一步研究中,可以嘗試將不同的分類算法如神經(jīng)網(wǎng)絡(luò),支持向量機,決策樹算法等進行融合,以期提高分類精度。
3)本文僅將新疆這一地區(qū)作為研究區(qū)域。下一步的研究中,將嘗試利用定量化遙感影像批量自動化提取各類地物的時序光譜,建立時序光譜庫,針對全國其他區(qū)域進行地表覆蓋分類,并評估方法的適用性及效率。