韓冰冰,陳圣波
吉林大學(xué) 地球探測(cè)科學(xué)與技術(shù)學(xué)院,長春 130026
土地覆蓋面積是地球表層系統(tǒng)最突出的景觀標(biāo)志之一[1]。利用遙感影像獲取地物分布信息是遙感技術(shù)在土地資源利用中一項(xiàng)基礎(chǔ)且重要的工作,遙感具有快速檢測(cè)大規(guī)模地物分布信息的能力,是當(dāng)前地物檢測(cè)的主要手段之一[2-3]。
目前通過遙感影像進(jìn)行地物信息識(shí)別時(shí)大多利用時(shí)間序列遙感影像進(jìn)行識(shí)別分析,時(shí)間序列影像能充分利用不同地物在不同時(shí)期影像細(xì)微的特征差異進(jìn)而更加準(zhǔn)確地識(shí)別地物[4],當(dāng)前利用遙感影像對(duì)地物分類的研究多基于光學(xué)影像。劉佳等[5]利用時(shí)間序列環(huán)境一號(hào)衛(wèi)星影像數(shù)據(jù)生成月度NDVI,采用基于月度NDVI進(jìn)行閾值劃分的決策樹分類方法對(duì)河北省衡水市各類地物進(jìn)行識(shí)別。Liu et al.[6]利用多時(shí)相的Landsat-8和高分一號(hào)影像并計(jì)算SAVI、NDVI指數(shù),利用隨機(jī)森林方法進(jìn)行分類,實(shí)現(xiàn)地物空間分布信息的提取。通過時(shí)間序列光學(xué)影像進(jìn)行地物分類能夠充分利用各類地物在紅外波段和近紅外波段的光譜特征和NDVI等植被指數(shù)的差異。但是在實(shí)際應(yīng)用中,由于云雨等天氣的影響,光學(xué)影像的質(zhì)量往往難以保障,這會(huì)影響到各類地物的識(shí)別精度。而雷達(dá)影像不受天氣影響,可全天時(shí)、全天候?qū)Φ赜^測(cè),為遙感識(shí)別地物提供有效的數(shù)據(jù)支撐[7],可利用雷達(dá)影像對(duì)云雨天氣較多地區(qū)進(jìn)行地物識(shí)別。
目前基于雷達(dá)影像進(jìn)行地物分類的研究有很多,過往的研究發(fā)現(xiàn),C和L波段是在多種地物中捕捉這些細(xì)節(jié)的最有效波長[8-9]。本文以吉林省敦化市為研究區(qū),基于Google Earth Engine(GEE)云平臺(tái),利用C波段Sentinel-1雷達(dá)影像建立10 d、15 d、20 d、30 d時(shí)間間隔的時(shí)間序列數(shù)據(jù)集,對(duì)不同時(shí)間序列的數(shù)據(jù)分別選取最小距離分類器、分類回歸樹和隨機(jī)森林分離器對(duì)敦化市地物進(jìn)行分類,旨在探究哪一種分類器能更好利用時(shí)間序列數(shù)據(jù)對(duì)地物進(jìn)行分類和哪一種時(shí)間序列的數(shù)據(jù)能夠?qū)Φ匚镞M(jìn)行更加精確的識(shí)別。
本文以吉林省敦化市為研究區(qū),地處長白山腹地,位于127°~129°E和42°~44°N之間。研究區(qū)是吉林省區(qū)域面積最大的縣級(jí)市,總面積為11 957 km2。研究區(qū)地勢(shì)構(gòu)成為四周高、中部低,境內(nèi)平均海拔高度為756 m。研究區(qū)位于北半球中溫帶,大陸季風(fēng)氣候明顯,春季多風(fēng)干燥,夏季濕熱多雨,秋季溫和涼爽,冬季寒冷漫長,具有四季分明,干濕適中的氣候特征。研究區(qū)主要農(nóng)作物為玉米、水稻和大豆,均為一年一熟制,三類作物普遍在5月初播種,9月末至10月初進(jìn)入收獲期,研究區(qū)位置如圖1所示。
圖1 研究區(qū)位置圖Fig.1 Location of study area
1.2.1 影像數(shù)據(jù)
由兩顆極地軌道衛(wèi)星組成的 Sentinel-1衛(wèi)星是歐洲航天局哥白尼計(jì)劃中最早研制的衛(wèi)星,兩顆衛(wèi)星均位于同一太陽同步軌道且相位差為180°,兩顆衛(wèi)星結(jié)合的重訪周期為6d。Sentinel-1 衛(wèi)星具有多種成像模式,本文選取Sentinel-1衛(wèi)星干涉寬幅模式的地距多視影像為數(shù)據(jù)源,該成像模式包括 VH和 VV兩種極化方式[10]。根據(jù)作物物候期選取作物整個(gè)生長季5月至10月初的Sentinel-1數(shù)據(jù)用于研究區(qū)作物分布信息的識(shí)別,共計(jì)選取71景影像,Sentinel-1影像的日期、軌道號(hào)和標(biāo)識(shí)碼如表1所示。
表1 研究區(qū)的Sentinel-1影像信息Table 1 Sentinel-1 imaging information in study area
從表1中可以看出,當(dāng)將時(shí)間間隔設(shè)置較小時(shí)可能無法保障每個(gè)時(shí)間間隔內(nèi)合成的影像均能對(duì)研究區(qū)進(jìn)行全覆蓋,實(shí)驗(yàn)不同時(shí)間間隔后發(fā)現(xiàn)至少將時(shí)間間隔設(shè)置為10 d才能保證每個(gè)時(shí)間間隔內(nèi)合成的影像均可對(duì)研究區(qū)完成全覆蓋。本次研究中將時(shí)間間隔分別設(shè)置為10 d、15 d、20 d、30 d,探究不同密度的時(shí)間序列影像集分類結(jié)果的變換。GEE云平臺(tái)具有強(qiáng)大的處理分析遙感數(shù)據(jù)的能力,在GEE 中Sentinel-1數(shù)據(jù)已經(jīng)過熱噪聲去除、輻射校正和地形校正等預(yù)處理操作,可直接利用該云平臺(tái)Sentinel-1影像進(jìn)行拼接合成以及后續(xù)的分類實(shí)驗(yàn),將時(shí)間間隔設(shè)置為30 d對(duì)研究區(qū)5月的 Sentinel-1影像進(jìn)行拼接合成產(chǎn)生影像(圖2)。
圖2 研究區(qū)影像圖Fig.2 Image map of study area
1.2.2 野外數(shù)據(jù)
在2018年5月到10月對(duì)整個(gè)研究區(qū)進(jìn)行了抽樣調(diào)查,獲取了豐富可靠的野外信息。在野外調(diào)查中選擇遠(yuǎn)離居民點(diǎn)、道路的地區(qū)利用手持GPS進(jìn)行采樣調(diào)查,記錄各類地物基本信息,記錄的地物信息主要涵蓋經(jīng)緯度、作物類型、作物高度、株間距和壟間距、高程等作物采樣點(diǎn)分布圖(圖3)。
圖3 采樣點(diǎn)分布圖Fig.3 Map of sampling sites in study area
1.2.3 全球土地利用覆蓋數(shù)據(jù)
2019年Gong et al.[11]基于Sentinel-2影像對(duì)全球地物類型進(jìn)行劃分,發(fā)布了2017年10 m分辨率的全球土地利用覆蓋圖 (global land cover map, GLCM),將全球地物分為耕地、森林、草地、灌木叢、濕地、水體、凍土地帶、不透水表面、荒地和冰雪等10類地物,為避免其他類地物在作物識(shí)別時(shí)產(chǎn)生干擾,本文在對(duì)作物分類前先利用GLCM中的耕地信息對(duì)研究區(qū) Sentinel-1影像進(jìn)行掩膜得到研究區(qū)Sentinel-1耕地影像。
本文分類方法如圖4所示,利用GLCM產(chǎn)品對(duì)Sentinel-1進(jìn)行掩膜得到研究區(qū)Sentinel-1耕地影像,對(duì)產(chǎn)生的Sentinel-1耕地影像合成不同密度(10 d、15 d、20 d、30 d)的時(shí)間序列影像集。由于作物物候期為5月至10月初,當(dāng)時(shí)間間隔設(shè)置為10 d的時(shí)候可合成16景Sentinel-1影像合成圖,16景合成的影像就構(gòu)成了10 d時(shí)間間隔的時(shí)間序列Sentinel-1影像集,其他時(shí)間間隔的時(shí)間序列影像集生成方式與之類似。其中當(dāng)時(shí)間間隔設(shè)置為30 d的時(shí)候僅合成了5景Sentinel-1影像合成圖,由于10月處于作物成熟收獲階段,10月中下旬時(shí)各類作物均已收獲,此時(shí)影像已不具有各類作物的影像特征,所以在構(gòu)建時(shí)間間隔為30 d的時(shí)間序列影像集時(shí)僅選取了5月至9月的影像進(jìn)行合成。各類作物樣本的創(chuàng)建是通過野外采樣點(diǎn)完成的,三種作物采樣點(diǎn)位置處的像元作為各類作物的樣本,各類作物樣本的類別屬性與獲取的野外采樣點(diǎn)作物類別相同。每次利用最小距離(MD)、分類回歸樹(CART)、隨機(jī)森林(RF)等分類器對(duì)不同時(shí)間序列影像集數(shù)據(jù)分類時(shí)隨機(jī)選取70%的作物樣本用于分類模型構(gòu)建,對(duì)產(chǎn)生的分類結(jié)果利用未參與訓(xùn)練的樣本進(jìn)行精度評(píng)價(jià),從而對(duì)不同時(shí)間序列數(shù)據(jù)分類結(jié)果與不同分類器分類結(jié)果進(jìn)行度量。
圖4 分類流程圖Fig.4 Classification flow chart
最小距離(minimum distance, MD)分類器是一種基于向量空間的分類算法,是分類器中一種常用的分類方法,通過求出未知類別向量到事先已知的各類別中心向量的距離,將待分類的向量歸結(jié)為這些距離中最小的那一類的分類方法。最小距離分類器算法的基本原理是計(jì)算各類訓(xùn)練樣本集的中心向量,之后計(jì)算影像像元與各類樣本中心向量之間的距離,根據(jù)與不同樣本的距離判斷該像元所屬的類別。計(jì)算影像像元與每類樣本中心向量之間距離的方式有歐式距離、馬氏距離等,本文中對(duì)進(jìn)行不同分類試驗(yàn)后選取馬氏距離作為計(jì)算影像像元與每類樣本中心向量之間距離的度量方式。
分類回歸樹又稱CART(classification and regression trees)決策樹[12],是由 Breiman et al.在1984年在提出。CART決策樹是一種有效的回歸方法且無需參數(shù)進(jìn)行分類。CART算法是一個(gè)二叉樹,將訓(xùn)練樣本集不斷進(jìn)行分割,通過計(jì)算每個(gè)分割點(diǎn)的GINI系數(shù),選擇其中 GINI系數(shù)最小值作為該分割點(diǎn)的閾值,通過GINI系數(shù)進(jìn)行閾值劃分后會(huì)形成復(fù)雜且龐大的決策樹,GINI系數(shù)計(jì)算公式為:
(1)
式中:|K|表示訓(xùn)練樣本集的總樣本數(shù);|Ci|表示訓(xùn)練樣本集中屬于類Ci的樣本個(gè)數(shù);i表示樣本類別;n表示樣本總類別數(shù)。
隨機(jī)森林(random forest, RF)是機(jī)器學(xué)習(xí)方法的一種[13],通過構(gòu)建大量彼此不相關(guān)的隨機(jī)決策樹,對(duì)所有生成的決策樹利用一種預(yù)測(cè)模式進(jìn)行引導(dǎo)和聚合,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類。在隨機(jī)森林算法中,可以對(duì)兩個(gè)參數(shù)進(jìn)行優(yōu)化: 樹的數(shù)目(k)和分割節(jié)點(diǎn)的特征數(shù)目(m)。 在本文中,將m設(shè)置為輸入特征總數(shù)的平方根[14],k值根據(jù)時(shí)間序列的不同進(jìn)行不同數(shù)值的嘗試以得到最高分類精度,經(jīng)過多次實(shí)驗(yàn)分別將10 d、15 d、20 d和30 d時(shí)間序列數(shù)據(jù)的k值設(shè)為150、300、10和30。
利用三種不同分類器(MD、CART、RF)對(duì)不同時(shí)間序列的Sentinel-1雷達(dá)影像進(jìn)行分類,檢驗(yàn)不同時(shí)間序列雷達(dá)數(shù)據(jù)進(jìn)行作物識(shí)別的能力。對(duì)不同密度時(shí)間序列的雷達(dá)數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn),得到最適合對(duì)敦化市作物進(jìn)行劃分的分類器以及時(shí)間序列數(shù)據(jù),利用三種分類器對(duì)不同時(shí)間序列數(shù)據(jù)集分類的總體分類精度和Kappa系數(shù)如表2所示。
表2 不同時(shí)間序列數(shù)據(jù)分類精度表Table 2 Classification accuracy table of different time series data
從表2中可以看出,對(duì)不同時(shí)間序列雷達(dá)影像進(jìn)行分類時(shí),選取隨機(jī)森林分類器產(chǎn)生的分類結(jié)果的總體分類精度高于其他兩種分類器產(chǎn)生的分類結(jié)果的分類精度,這表明選取隨機(jī)森林能更好地對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行作物識(shí)別。對(duì)10 d時(shí)間間隔構(gòu)建的時(shí)間序列數(shù)據(jù)進(jìn)行分類,隨機(jī)森林分類精度達(dá)到了98.04%,Kappa系數(shù)為0.969 8,而通過最小距離分類器得到分類結(jié)果的精度僅為66.67%,CART分類器得到分類結(jié)果的精度為76.47%,隨機(jī)森林分類結(jié)果精度遠(yuǎn)高于最小距離和CART分類結(jié)果精度。
最小距離、CART分類器產(chǎn)生的分類結(jié)果如圖5a和圖5b所示。從圖5中可以看出選取最小距離和 CART分類器對(duì)10 d間隔的時(shí)間序列影像集進(jìn)行分類的效果較差。對(duì)于隨機(jī)森林分類器,總體分類精度整體變化趨勢(shì)隨時(shí)間序列密度的增大而增大,時(shí)間間隔為30 d時(shí),總體分類精度為90.2%,當(dāng)時(shí)間間隔提升到10 d時(shí),總體分類精度達(dá)到了98.04%,分類結(jié)果圖如圖5c所示。
圖5 敦化市分類結(jié)果圖Fig.5 Classification results map of Dunhua
此次分類實(shí)驗(yàn)的數(shù)據(jù)源Sentinel-1影像為雷達(dá)影像,此類影像在云雨天氣較多的地區(qū)仍能獲取作物生長季的影像,可知通過Sentinel-1影像對(duì)云雨天氣較多地區(qū)作物進(jìn)行識(shí)別具有巨大應(yīng)用潛力。本文在對(duì)不同時(shí)間序列雷達(dá)數(shù)據(jù)進(jìn)行作物分類時(shí),選取了不同分類器,得到了不同分類精度,其中選取隨機(jī)森林分類器對(duì)時(shí)間序列密度較高的影像集進(jìn)行分類能夠更精確地識(shí)別研究區(qū)作物分布信息。由此可知,利用雷達(dá)影像進(jìn)行作物識(shí)別時(shí)選擇合適的分類器對(duì)獲得高精度、高穩(wěn)定性的分類結(jié)果具有重要意義。
(1)通過GEE云平臺(tái)能夠?qū)崿F(xiàn)快速準(zhǔn)確的影像分類。在GEE云平臺(tái)上可直接對(duì)影像進(jìn)行分類實(shí)驗(yàn),大大縮短了對(duì)影像做長時(shí)間序列分析的試驗(yàn)周期,GEE云平臺(tái)有效地解決了大量遙感影像處理復(fù)雜的問題。
(2)時(shí)間序列密度的增加能夠提高分類精度。當(dāng)時(shí)間間隔為30 d時(shí),隨機(jī)森林產(chǎn)生結(jié)果的分類精度為90.2%。而當(dāng)時(shí)間間隔提升到10 d時(shí),總體分類精度提升至98.04%。隨著時(shí)間序列密度的增加各類作物的影像特征差異也在不斷增加,進(jìn)而提高了分類精度。
(3)與最小距離分類器和分類回歸樹分類器相比,隨機(jī)森林分類器能夠更準(zhǔn)確識(shí)別各類作物分布信息。在對(duì)不同時(shí)間序列影像集進(jìn)行分類時(shí),隨機(jī)森林分類結(jié)果的精度均高于選取最小距離和分類回歸樹時(shí)分類結(jié)果的精度,這表明通過隨機(jī)森林分類器能夠更有效地識(shí)別出各類作物的影像特征差異。