溫彩運,陸 苗,宋 茜,程 銳,張士博
(中國農(nóng)業(yè)科學院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所/農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)遙感重點實驗室,北京100081)
20世紀70年代以來,國內(nèi)外一系列大面積作物清查試驗以及重大農(nóng)作物遙感監(jiān)測項目的實施,極大地促進了農(nóng)業(yè)遙感的發(fā)展,農(nóng)作物空間分布信息提取在理論、方法和應用等方面都取得了長足的進展。準確的作物空間分布信息是區(qū)域農(nóng)作物估產(chǎn)、作物結(jié)構(gòu)調(diào)整和糧食安全的重要基礎數(shù)據(jù)。如黃青等[1]提取中國東北地區(qū)玉米、小麥等主要作物的種植結(jié)構(gòu)并進行了作物長勢監(jiān)測,為作物產(chǎn)量預測提供了科學依據(jù)。不同情況下影像有不同的利用方式。在作物種植結(jié)構(gòu)相對簡單的區(qū)域,采用單期或少數(shù)幾期影像提取農(nóng)作物“關(guān)鍵物候期”的分布信息。在種植結(jié)構(gòu)比較復雜的區(qū)域,僅使用少數(shù)幾期影像難以覆蓋所有作物的“關(guān)鍵物候期”,同時也很難區(qū)分具有相似光譜特征的作物,因此時間序列遙感數(shù)據(jù)成為作物分類的主要數(shù)據(jù)源[2-3]。
不同的影像特征能夠表征和突出不同作物的季相節(jié)律和物候期,根據(jù)作物在遙感影像上特征值隨時間變化的特性實現(xiàn)作物分類。目前時間序列數(shù)據(jù)常用的分類特征有光譜、植被指數(shù)、紋理和物候特征等。農(nóng)作物的光譜特性受植株內(nèi)色素、含水量、葉肉細胞結(jié)構(gòu)差異的影響。由于生長季或區(qū)域種植制度不同,光譜和植被指數(shù)時序特征常用來提取作物的空間分布信息[5-6]。植被指數(shù)時序曲線的變化對應植被不同的生長過程,這對具有獨特時間特征的作物(如移栽期的水稻)分類簡單有效。集中種植的農(nóng)作物具有鮮明的紋理特征[7],現(xiàn)有研究常用灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)提取二階矩、相關(guān)性、方差、信息熵等[8-9]。通過遙感手段進行作物物候的研究,主要是通過提取歸一化差值植被指數(shù)(Normalized Difference Vegetation Index,NDVI)時序曲線的形狀參數(shù),如斜率、峰值、最值及其出現(xiàn)的日期等,從而有效區(qū)分作物[10-11]。
由于分類器的工作原理、學習和容錯能力各不相同,將相同的特征輸入不同分類器得到的分類結(jié)果存在差異。作物識別中常用的分類器有最小距離法(Minimum Distance Classification,MDC)[12-13]、樸素貝葉斯(Na?ve Bayes,NB)[14-15],K最近鄰(K-Nearest Neighbor,KNN)[16-17]、支 持 向量 機(Support Vector Machine,SVM)[18-19]、隨 機 森林(Random Forest,RF)[20-21]等。多種分類器的比較研究能夠反映分類器的性能差異,為后續(xù)相似研究選擇分類器提供參考和依據(jù),提高遙感監(jiān)測的精度和效率[22]。如楊閆君等[23]通過構(gòu)建GF-1/WFV NDVI時間序列,比較了最大似然法、馬氏距離、最小距離、神經(jīng)網(wǎng)絡分類、支持向量機5種分類器的分類精度,結(jié)果表明SVM更適用于NDVI時間序列的作物分類。
由此,獲取及時準確的作物空間分布信息的關(guān)鍵是如何選取合適的時間序列特征和分類器。已有研究探討特征數(shù)據(jù)的不同組合輸入分類器的精度差異[20],衡量不同特征的重要性[24],但沒有關(guān)注不同分類器對特征組合的響應度是否存在差異;而同時探究不同特征組合和分類器選擇的文獻只集中在兩種目標作物上[14],對于種植結(jié)構(gòu)復雜的多作物區(qū)域研究甚少。因此,文章將探究時間序列特征及其組合對作物的區(qū)分能力,以及不同的分類器對相同輸入數(shù)據(jù)的性能差異。該文的研究目標可以分為兩個子目標:
(1)探索不同特征及其組合對農(nóng)作物的識別能力。光譜、植被指數(shù)、紋理和物候特征對不同作物表現(xiàn)出不同的分類效果,通過比較不同特征及其組合的分類精度評價其有效性及對農(nóng)作物的識別能力;
(2)評價常見分類算法基于時間序列特征對農(nóng)作物的識別能力。不同分類器的基礎理論和分類原理不同,分類結(jié)果必然存在差異。通過將特征及其組合輸入分類器,根據(jù)分類精度評價不同分類器基于時間序列特征表現(xiàn)出的分類性能。
該文以黑龍江省北安市為例,首先基于Google Earth Engine(GEE)平臺提取Landsat 8時間序列數(shù)據(jù)的光譜、植被指數(shù)、紋理和物候特征;將上述各類特征及組合輸入到MDC、NB、KNN、SVM和RF 5個分類器中,比較分類結(jié)果和精度;最后利用分離性指數(shù)(Separability Index,SI)評估特征對識別作物的貢獻度,輔助驗證分類器的分類結(jié)果。
該文研究區(qū)域為北安市,隸屬于黑龍江省黑河市,經(jīng)度為126°16′E~127°53′E,緯度為47°35′N~48°33′N,總面積達7 149 km2,地理位置如圖1所示。北安市地處小興安嶺南麓,屬松嫩平原的邊緣地帶,地勢南低北高、西低東高。市域耕地面積2 927 km2,作物生長期在4—10月,約140~180 d。北安市生態(tài)環(huán)境優(yōu)良,土地平坦肥沃,是國家重要的商品糧基地,以大豆、玉米、水稻和小麥等農(nóng)作物為主,四種主要作物的物候歷如表1所示,種植制度為一年一熟。
圖1 北安市地理位置及樣本點Fig.1 Location of Bei’an city and distribution of samples
表1 北安市主要作物物候歷Table 1 Phenology calendar of major crop in Bei’an city
Landsat 8衛(wèi)星包含OLI(Operational Land Imager,陸地成像儀)和TIRS(Thermal Infrared Sensor,熱紅外傳感器)兩個傳感器,每16天可以實現(xiàn)一次全球覆蓋。研究區(qū)域影像由條帶號118、行編號26和27兩景影像覆蓋,本研究使用的是GEE平臺上的Landsat 8表面反射率產(chǎn)品(USGS Landsat 8 Surface Reflectance Tier 1),該產(chǎn)品已經(jīng)過大氣校正處理。在GEE平臺鑲嵌和裁剪影像后得到2014年6個時相的影像。為保證影像特征值隨時間變化的連續(xù)性,對于物候期內(nèi)缺少影像的5月和8月,利用時空自適應反射率融合模型(Spatial and Temporal Adaptive Reflectance Fusion Model,STARFM)[25]融合Landsat 8和MODIS數(shù)據(jù)補充序列。已有研究[26-28]表明,在各種時空融合技術(shù)中,STARFM是應用較為廣泛和成熟的模型,構(gòu)建的影像具有良好的空間細節(jié)信息。Watts等[29]使用STARFM獲得的融合影像與Landsat影像回歸的決定系數(shù)R2達到0.93,證明利用STARFM融合Landsat和MODIS影像具有較高的可行性。基于此,選擇STARFM模型獲取研究區(qū)的時序數(shù)據(jù)(圖2)。該文通過對融合影像的目視評價,融合結(jié)果與Landsat數(shù)據(jù)的空間分布趨勢基本一致。最終構(gòu)成時序數(shù)據(jù)的8景影像按儒略日排列,如表2所示。
圖2 融合影像的處理流程Fig.2 Processing of fusion images
植物與其他地物的反射光譜曲線在可見光波段和近紅外波段顯著不同,這是遙感可以識別和提取植被信息的基礎。該文選擇和作物聯(lián)系最為密切的6個波段(藍色波段、綠色波段、紅色波段、近紅外波段、短波紅外波段)作為光譜特征,如表3所示。
表2 北安市Landsat 8數(shù)據(jù)列表Table 2 List of Landsat 8 images in Bei’an City
表3 光譜特征說明Table 3 Description of spectral features
該文使用的地表樣本是2014年在北安市耕地集中的西部獲取的解譯標志數(shù)據(jù)。在作物生長季內(nèi),野外調(diào)查組分區(qū)、分組、多次調(diào)查采集農(nóng)作物類型。調(diào)查時,結(jié)合當季可獲取的Landsat 8影像,記錄農(nóng)作物種植的類型。相同地物類型采集時間隔盡可能保證不小于1 km,標記類型包括大豆、水稻、玉米和小麥及其他土地覆蓋類型,如森林、水體、建筑用地等,先后深入調(diào)研總共得到1 565個解譯標志,其空間分布如圖1所示。各地類樣本點按7:3的比例隨機分為訓練樣本點和測試樣本點(表4)。
表4 地面樣本點數(shù)據(jù)列表Table 4 List of ground samples
研究包括數(shù)據(jù)準備、特征提取、分類器比較、精度評價和特征分離性分析五個部分。首先,Landsat 8時間序列數(shù)據(jù)經(jīng)過預處理之后提取多種特征并進行組合,然后將這些特征及其組合輸入到5個常見的分類器中,即MDC、NB、KNN、SVM和RF,最后利用分離性指數(shù)SI分析特征的作物可分離性。根據(jù)實驗結(jié)果探究不同特征及組合對于作物識別的影響以及不同分類器在作物分類過程中的性能差異。
為分析不同特征對作物分類的影響,該文選擇光譜、植被指數(shù)、紋理和物候特征,并構(gòu)建多種特征組合進行農(nóng)作物分類。
時序植被指數(shù)能最大程度反映不同作物關(guān)鍵物候特征的差異,最大程度提高不同作物的可分離性。該文選用6個植被指數(shù)包括VIgreen(Green Vegetation Index,綠度植被指數(shù))[30]、NDVI(Normalized Difference Vegetation Index,歸一化差值植被指數(shù))[31]、NDTI(Normalized Difference Tillage Index,歸一化差值耕作指數(shù))[32]、NDSVI(Normalized Difference Senescent Vegetation Index,歸一化衰老指數(shù))[33]、LSWI(Land Surface Water Index,陸地表面水分指數(shù))[34]和EVI(Enhanced Vegetation Index,增強植被指數(shù))[35],它們刻畫了農(nóng)作物不同的生物物理特性,計算公式見表5。
表5 植被指數(shù)特征說明Table 5 Description of vegetation index features
紋理能夠反映像元及其空間鄰域灰度分布中的同質(zhì)現(xiàn)象。因為紋理特征本質(zhì)上是一種結(jié)構(gòu)特征,使用不同光譜波段所得到的結(jié)果差別不大,所以選擇對識別植被更有效的近紅外波段Band 5計算紋理特征。利用GEE平臺的glcmTexture函數(shù),基于各像元5×5的鄰域提取GLCM中常用的特征量,包括角二階矩(Tasm)、對比度(Tcontrast)、相關(guān)性(Tcorr)、方差(Tvar)、逆差矩(Tidm)和熵(Tent)。
物候是指植被受環(huán)境影響而出現(xiàn)的以年為周期的自然現(xiàn)象,許多研究表明NDVI和光合有效吸收輻射、葉面積指數(shù)、生物量、覆蓋度等植被生物物理特性高度相關(guān)[36-38],因此利用NDVI的形狀特征表示物候特征。該文選擇NDVI時間序列曲線的9個形狀參數(shù),包括NDVI最值及其所在時相、NDVI的斜率(NDVIS)、斜率的最值及其所在時相(表6)。
表6 物候特征說明Table 6 Description of phenology features
為了探究分類器對于不同特征的性能差異,該文將4類特征及3個組合輸入分類器進行對比實驗(表7)。FG1的分類結(jié)果代表了基于傳統(tǒng)多時相光譜特征的分類方法的性能,而FG2-FG4都是在FG1的基礎上通過一定的運算得到的,F(xiàn)G5-FG7表示當前作物分類常用特征組合的分類性能。通過將一組新特征添加到FG1中,判斷分類性能的提高程度。如比較FG1和FG5的分類結(jié)果差值,量化輸入數(shù)據(jù)加入植被指數(shù)特征所能提高的性能。由于不是每組可能的特征組合間都有比較意義,所以并未測試所有組合。
表7 特征及其組合概述Table 7 Overview of features and their combinations
該文選擇5種常用的分類方法MDC、NB、KNN、SVM和RF進行分類實驗。MDC利用訓練樣本計算每個類別的均值向量作為類中心,各像元的類別即為最近類中心的類別。NB假設每個輸入變量條件獨立,根據(jù)各類別的先驗概率和條件概率計算其后驗概率,并將概率最大的類別作為該測試樣本的類別。KNN計算像元和訓練集中的每個樣本之間的距離,在最近的K個樣本中將出現(xiàn)次數(shù)最多的類別作為該像元的類別。SVM使用核函數(shù)將原始特征空間的樣本映射到高維空間,求解能正確劃分訓練數(shù)據(jù)集,且使幾何間隔最大的分離超平面,由此構(gòu)造出分類器。RF的基本單元是決策樹,通過統(tǒng)計n棵樹的分類結(jié)果,將次數(shù)最多的類別確定為最終的輸出類別。
NB和KNN是在Python中使用scikit-learn包[39]實現(xiàn)的,其中NB的參數(shù)使用scikitlearn包的默認參數(shù),KNN中K的值設置為10[40]。MDC和SVM使用ENVI中封裝的分類方法及其默認參數(shù)進行監(jiān)督分類,RF使用ENVI中的擴展工具實現(xiàn)影像的監(jiān)督分類[41],參數(shù)保持默認。
利用混淆矩陣中總體精度和制圖精度比較分類結(jié)果。總體精度(Overall Accuracy)表示為正確分類的像元總數(shù)n ii與總像元數(shù)n的比值,計算公式為:
式(1)中,k為類別數(shù),i=1,2,…,k。制圖精度(Producer’s Accuracy)指某類被正確分類的像元數(shù)n ii該類真實像元總數(shù)n i·的比值,計算公式為:
Somers B等[42]提出了一種基于分離性指數(shù)(Separability Index,SI)的特征選擇方法,SI被定義為類間異質(zhì)性和類內(nèi)異質(zhì)性的比值,前者是用來衡量特征集能否有效區(qū)分不同的土地覆蓋類別,后者則是用來評價類別內(nèi)部的一致性。該文使用SI ij計算了北安市主要農(nóng)作物(大豆、水稻、玉米和小麥)的可分離度,計算公式如下:
式(3)中,m代表時序點,n代表各特征,分別代表類別i(如大豆)和類別j(如水稻)在m時序和n特征中樣本點的光譜平均值,σi和σj分別代表類別i和類別j對應n特征的標準差??坍嬃祟悇ei和類別j間的光譜異質(zhì)性,σi+σj刻畫了類別i和類別j內(nèi)的光譜異質(zhì)性。SI值越大,表明m時序n特征中兩個類別之間的可分離性越大。該文計算4類作物間6種組合的光譜、植被指數(shù)、物候和紋理特征的SI值共954個。
由于SI ij只能用于計算兩種地類之間的成對可分離性,而難以反映該文4種農(nóng)作物類別之間的整體可分離性,所以采用“平均值”策略將SI ij擴展到SI global[43],該策略選取所有類對的SI平均值作為全局值SI global,值越大,代表特征質(zhì)量越優(yōu)。不同特征SI global計算公式為:
式(4)中,SI ij(m,n)是在式(1)中類別i和類別j間在m時序和n特征中的類對分離性,M是時相數(shù)量,C是類別對的數(shù)量,在該文中的值分別為8和6。通過計算不同特征SI的平均值,全面反映了不同特征在4類作物間的可分離性,因而將其用來表征特征重要性。
為了探究不同特征和不同分類器對作物分類的影響,該文使用光譜、植被指數(shù)、紋理、物候4類特征,結(jié)合MDC、NB、KNN、SVM和RF進行分類實驗,通過分析精度變化(表8)綜合比較分類器對不同特征組合的分類差異。
從不同特征及其組合來看,光譜特征(FG1)輸入SVM和RF分類得到的精度最高;植被指數(shù)特征(FG2)在RF中得到的精度最高;紋理特征(FG3)的分類精度普遍偏低,在RF中能得到相對較高的精度;物候特征(FG4)在不同分類器中的精度差異較大,RF和MDC精度相差22%。光譜特征與其他三類特征的組合在SVM和RF兩個分類器中的精度差異不明顯,在MDC、NB和KNN中精度差異較大。從分類器角度比較,MDC、KNN對光譜+植被指數(shù)特征取得最高分類精度;NB對光譜+物候特征的精度最高;SVM對光譜+紋理特征的分類精度最高;RF在光譜+植被指數(shù)特征、光譜+紋理特征得到最高精度。
表8 不同特征及其組合的分類結(jié)果Table 8 Classification results with different features and their combinations
由于RF對各特征組合都能得到相對較高的分類精度,以RF為例進一步分析分類結(jié)果,各特征及組合對北安市的大豆、水稻、玉米和小麥的空間分布如圖3所示。光譜特征(FG1)中大豆的分布比較零散,種植面積較?。患y理特征(FG3)中地物分布比較破碎且雜亂,大豆的分布信息很少;物候特征(FG4)中北安市南部的水稻種植區(qū)比較破碎。
各特征及其組合的分類精度如圖4所示。在4類特征中,F(xiàn)G1總體精度最高,F(xiàn)G3的分類精度普遍偏低。分別比較FG1與FG5-FG7,F(xiàn)G1比FG5、FG6和FG7的總體精度分別高0.25%,0.25%和0.76%,特征組合并沒有表現(xiàn)出比僅使用單種特征更好的分類效果。
圖3 不同特征及其組合的RF分類結(jié)果Fig.3 RF classification results for different features and their combinations
圖4 特征及其組合的RF分類精度Fig.4 RF classification accuracy of features and their combinations
各特征及其組合分類得到的總體精度均值如圖5所示。針對4類特征,光譜特征(FG1)的總體精度最高,小麥在植被指數(shù)特征(FG2)的精度最高,大豆、水稻和玉米在FG1的精度最高。針對3個特征組合,總體精度和4種作物在光譜+植被指數(shù)特征(FG5)的分類精度最高。根據(jù)分類精度最高的FG1-RF的分類結(jié)果統(tǒng)計不同作物在耕地中的面積占比,研究區(qū)域內(nèi)玉米占比最高為50.44%,大豆其次為43.62%,水稻和小麥分別占4.98%和0.96%。水稻和小麥的種植面積小,采樣得到的樣本數(shù)量少,這是兩種作物精度偏低的主要原因??傮w上看,F(xiàn)G1、FG5和FG7都表現(xiàn)出比較高的精度,但植被指數(shù)和物候特征需要進一步計算,精度提升也不明顯,所以光譜時序特征的分類效率最高。紋理特征(FG3)不適合單獨用于作物分類,高分辨率影像的紋理特征可能會發(fā)揮更大的作用。
圖5 各特征及其組合的平均精度Fig.5 Average accuracy of features and their combinations
不同分類器對大豆、水稻、玉米和小麥4類作物的分類結(jié)果如圖6所示。大豆精度最高的分類器是RF;水稻的分類精度最高的是NB,比RF和SVM高20%;玉米的最高精度是RF的分類結(jié)果;樣本最少的小麥在4類作物中精度最低,精度最高的分類器是MDC和NB。RF更適用于在研究區(qū)內(nèi)廣泛分布的作物,MDC和NB適用于樣本較少,分布集中且種植面積小的作物。
圖6 各分類器的平均精度Fig.6 Average accuracy of each classifier
通過計算分類器不同特征組合總體精度的均值和標準差,進一步分析分類器性能差異。圖7中的柱狀圖表示平均精度,折線圖表示標準差。MDC的精度最低,RF的精度最高。而從標準差來看,RF最低,KNN最高。MDC和KNN雖然都是將某種距離作為分類依據(jù),但KNN的性能要比MDC好。SVM的最高精度與RF持平,但平均精度低2%左右??傮w上看,RF表現(xiàn)出比其他4個分類器更優(yōu)越的分類性能。
圖7 各分類器總體精度的均值和標準差Fig.7 Mean and standard deviation of the overall accuracy of each classifier
圖8 a列出了光譜特征、植被指數(shù)特征、紋理特征和物候特征的SI global。光譜特征中的兩個短波紅外波段相較其他波段,對識別作物有明顯優(yōu)勢,其中B6(1.560-1.660μm)比B7(2.100-2.300μm)分離能力更好;植被指數(shù)特征中,LSWI的SI global較高,它是根據(jù)短波紅外和近紅外波段計算得到的,進一步說明了短波紅外波段對識別作物的有效性。另外兩個短波紅外波段計算得到的NDTI作物分離能力減小,說明短波紅外波段更適于單獨參與指數(shù)計算;紋理特征中Tcontrast、Tvar和Tidm的SI glob al值明顯高于其他3個特征,相對來說影像對比度、方差和逆差矩能夠更好地區(qū)分作物;物候特征中NDVISmin的SI global值最高,反映了區(qū)分大豆、水稻、玉米和小麥4種作物的關(guān)鍵物候期是植被衰退點,其次是NDVImaxb,即植被峰值點出現(xiàn)的時間。
圖8b列出了不同特征及其組合的SI global平均值。從特征類型來看,光譜特征的SI global平均值最高,植被指數(shù)特征、物候特征次之,最低的是紋理特征。從遙感圖像直接獲取的時間序列光譜特征能夠較好地區(qū)分大豆、水稻、玉米和小麥4類作物;植被指數(shù)特征反映了作物生長過程中的一些生物物理參量,而物候特征反映的是生長季中一些重要節(jié)點,通過這兩種特征都能夠突出作物某些獨特的信息以供識別;紋理特征的分離能力最低可能是受遙感影像分辨率的制約。SI global所反映的特征重要性不僅與FG1-FG4的分類結(jié)果大小順序一致,在FG5-FG7中也體現(xiàn)了植被指數(shù)特征的重要性要高于物候特征和紋理特征。和3.1節(jié)對比結(jié)果,說明SI global能夠有效反映不同特征的重要性。
該文基于北安市2014年Landsat 8時間序列數(shù)據(jù),基于GEE平臺提取光譜、植被指數(shù)、紋理和物候特征,將4類特征及3個特征組合輸入到MDC、NB、KNN、SVM和RF5個分類器中,最后利用分離性指數(shù)SI分析不同特征對作物的區(qū)分能力。主要結(jié)論如下:
圖8 特征分離性比較Fig.8 Feature separability comparison
(1)通過比較同一數(shù)據(jù)輸入不同分類器精度的均值,光譜時序特征能夠得到4類特征中的最高精度,特征組合中僅光譜+植被指數(shù)特征在此基礎上精度提高了0.6%,證明時序光譜特征足以得到較好的作物分類結(jié)果,提取的其他特征對精度提升作用不明顯;
(2)從精度的均值和穩(wěn)定性來看,5種分類器中表現(xiàn)最好的是RF,其次是SVM,KNN的均值比NB高,但穩(wěn)定性差,MDC的綜合性能最低。根據(jù)不同作物的分類效果,RF更適用于在研究區(qū)內(nèi)廣泛分布的作物,MDC和NB適用于樣本較少,分布集中且種植面積小的作物;
(3)根據(jù)分離性指數(shù)SI衡量特征對作物的區(qū)分能力。各類特征的SI值從高到低排列依次為光譜、植被指數(shù)、物候和紋理特征。
該文利用中分辨率影像提取的紋理特征對作物分類的精度較低,高分辨率影像提取的紋理特征對作物分類可能會發(fā)揮更大的作用。時間序列影像提取的特征數(shù)據(jù)維度高,不僅會影響分類效率,還會產(chǎn)生信息冗余,影響分類效果。未來的研究可通過構(gòu)建新特征解決問題,比如遺傳規(guī)劃(Genetic Programming,GP),它以達爾文的進化論思想為基礎,采用優(yōu)勝劣汰、適者生存的策略。