李旭青 劉世盟 李 龍 金永濤 范文磊 吳 伶
(1.北華航天工業(yè)學(xué)院計算機與遙感信息技術(shù)學(xué)院, 廊坊 065000;2.河北省航天遙感信息處理與應(yīng)用協(xié)同創(chuàng)新中心, 廊坊 065000;3.中國地質(zhì)大學(xué)(北京)信息工程學(xué)院, 北京 100083)
全面、準確、及時了解作物種植結(jié)構(gòu)及其空間分布,是各級政府管理生產(chǎn)、制定相關(guān)政策的基礎(chǔ)。遙感信息技術(shù)具有快速、多方位和大規(guī)模觀測與分析能力,已廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)的多個環(huán)節(jié)。利用機器學(xué)習(xí)對遙感影像進行識別和提取是遙感應(yīng)用領(lǐng)域的一個突破,其可重復(fù)性好,耗時少,定位精準,具備較好的時效性。
冬小麥等農(nóng)作物的光學(xué)遙感圖像識別主要通過不同農(nóng)作物在光譜反射特征上的差異性來實現(xiàn)。數(shù)據(jù)源方面目前主要使用Landsat TM和SPOT等多光譜數(shù)據(jù),涉及可見光、近紅外、短波紅外和中紅外數(shù)據(jù)[1-2]。在農(nóng)作物遙感分類識別中,基于作物光譜的數(shù)學(xué)特征轉(zhuǎn)換(如波段間的比值、差值等數(shù)學(xué)變換)被廣泛應(yīng)用,通過目標光譜的多時相分析也會得到良好的識別效果[3-5]。已有研究中探討了尺度變化[6],訓(xùn)練樣本數(shù)量[7],訓(xùn)練樣本質(zhì)量,不同特征信息以及點、群樣本檢驗與評估等對小麥面積提取精度的影響。針對不同特征信息,需根據(jù)研究區(qū)情況選擇最佳的分類器和特征信息組合[8]。對同一抽樣方式,點樣本檢驗精度評價結(jié)果波動小,穩(wěn)定性好[9]。MU-SUP等[10]用隨機森林方法對Landsat和RapidEye遙感影像通過尺度轉(zhuǎn)換取得較好的解譯效果。
混合像元分解通過計算端元組分豐度可部分解決閾值設(shè)置對小麥精度影響的問題,MODIS數(shù)據(jù)和TM數(shù)據(jù)兩種遙感數(shù)據(jù)耦合,既充分發(fā)揮長時間序列影像數(shù)據(jù)的優(yōu)勢,又在一定程度上解決中等分辨率影像提取研究區(qū)農(nóng)作物種植面積時的精度問題[11]。也可通過變端元混合像元分解開展冬小麥種植面積測量方法研究[12]。端元在空間分布上具有一定的形狀和聚集性,通過動態(tài)調(diào)整端元矩陣可有效去除不相干端元[13]。利用線性混合像元分解方法提取的冬小麥種植面積與真實地表空間分布相一致,基于GF-1遙感影像的改進多元紋理信息(Modified multivariate texture,MMT)提取、紋理與光譜信息融合以及基于融合影像分類可實現(xiàn)縣域尺度冬小麥識別和面積提取。WANG等[14]研究了混合像元和邊界效應(yīng)對分類精度的影響,構(gòu)建了EVI2 (Two-band enhanced vegetation index) 模型,在作物關(guān)鍵物候期采用逐步分類的方法,整體分類準確率為91.7%。ZHANG等[15]利用MODIS影像的LST數(shù)據(jù),通過對中國東北地區(qū)的汛期和水稻移栽時間進行觀測后,提出改進現(xiàn)有的基于物候的方法,準確定義了洪水和移植的時間窗,得到的水稻/非水稻圖像總體準確率為97%,Kappa系數(shù)為0.92。PAN等[16]構(gòu)建了一種基于物候?qū)W的作物比例物候指數(shù)(CPPI),利用MODIS-EVI時間序列在亞像素尺度上進行作物面積估算,該模型將空間分辨率較低的MODIS-EVI時間序列與地面真實作物信息聯(lián)系起來,取得較好的識別效果。
馮美臣等[17]通過兩個年份不同生育期MODIS-NDVI的比較,觀察NDVI時間曲線對冬小麥長勢的響應(yīng)規(guī)律和水旱地冬小麥年同期長勢,發(fā)現(xiàn)水地NDVI峰域?qū)捰诤档豊DVI。申健等[18]采用迭代濾波技術(shù)重建MODIS NDVI時序序列,結(jié)合當?shù)氐湫偷匚锏腘DVI曲線特征,建立冬小麥像元的識別規(guī)則,提取冬小麥種植信息。張喜旺等[19]和HAN等[20]基于 MODIS NDVI 數(shù)據(jù)的時間優(yōu)勢,提取研究區(qū)各類植被的 NDVI 時間序列曲線,利用 TM 遙感影像的光譜差異,區(qū)分冬小麥與其他作物的混合像元覆蓋區(qū)。鄧劉洋等[21]通過加入農(nóng)田地塊信息,控制農(nóng)作物邊界,有效避免非感興趣區(qū)地物的干擾。張莎等[22]基于年際 NDVI相關(guān)關(guān)系的監(jiān)測方法(Relationship analysis of normal difference vegetation index,rNDVI),對冬小麥變化面積進行監(jiān)測,使用 Savitzky-Golay(S-G)濾波重構(gòu)的 MODIS EVI 數(shù)據(jù)逐像元,計算播種期至成熟期EVI的峰值頻數(shù),并結(jié)合光譜突變法構(gòu)建了具有普適性的冬小麥種植面積提取模型。張霞等[23]根據(jù)返青期后冬小麥的EVI在整體上表現(xiàn)為逐漸升高,在開花、灌漿期之前表現(xiàn)為逐漸增加,隨后快速降低提取冬小麥面積[23]。張錦水等[24]將小麥 MODIS EVI 時間曲線量化為生長速率、衰減速率及峰值與休眠期比值3個特征,區(qū)分小麥與同期生長植被的差異,從而取得比較滿意的提取結(jié)果。
李苓苓等[25]基于SVM分類方法,復(fù)合光譜、紋理和結(jié)構(gòu)信息等多源數(shù)據(jù)信息對IKONOS高空間分辨率圖像進行分類,缺點是參數(shù)設(shè)置花費時間較多。胡潭高等[26]基于SVM二分法的PCVA法測量研究區(qū)冬小麥的種植面積,此方法要求關(guān)鍵期內(nèi)作物具有與其他任何地物不同的變化特征。趙蓮等[27]基于線性光譜模型和支持向量機的軟硬分類方法,充分挖掘兩者各自的特點,解決了傳統(tǒng)硬分類方法中的混合像元的問題。游炯等[28]利用多時相多極化SAR 和光學(xué)影像,構(gòu)建不同極化后向散射系數(shù)SAR 數(shù)據(jù)紋理信息和光學(xué)影像特征向量組合,VV+VH+T特征組合使冬小麥制圖精度和用戶精度提高,VV+VH+T+L 特征組合表現(xiàn)最佳。
目前,使用較為單一的特征進行冬小麥的空間信息識別,很少同時結(jié)合提取目標的多時相信息進行研究。本文利用高分二號遙感影像,選擇冬小麥關(guān)鍵生育期6個時相的影像數(shù)據(jù),從每個時相的近紅外灰度(NIR)、紅波段灰度(R)、綠波段灰度(G)、藍波段灰度(B)、比值植被指數(shù)(RVI)、歸一化植被指數(shù)(NDVI)6個特征中優(yōu)選出對冬小麥面積提取最敏感的1個特征,6個時相共選出6個特征作為輸入變量,利用隨機森林算法構(gòu)建模型,提取冬小麥空間分布特征,并將模型推廣應(yīng)用于整個大廠回族自治縣。
研究區(qū)位于河北省大廠回族自治縣,屬于華北平原北部地區(qū)(東經(jīng)116°48′20″~117°03′55″,北緯39°49′17″~39°58′56″),屬暖溫帶半濕潤氣候區(qū),降雨量約為580 mm,日照時數(shù)約為2 500 h,適宜種植冬小麥和玉米等農(nóng)作物。冬小麥等農(nóng)作物的播種時間大多為10月中上旬,在第2年的6月中上旬成熟。大廠回族自治縣(以下簡稱大廠縣)行政區(qū)劃如圖1所示。
圖1 大廠縣行政區(qū)劃圖Fig.1 Map of Dachang County
本文選用高分二號多光譜遙感圖像,高分二號衛(wèi)星搭載的傳感器包含3個可見光波段和1個近紅外波段,波譜范圍覆蓋藍光(0.45~0.52 μm)、綠光(0.52~0.59 μm)、紅光(0.63~6.90 μm)和近紅外(0.77~0.89 μm)。高分二號衛(wèi)星對應(yīng)的多光譜相機空間分辨率為3.24 m,重新訪問同一地區(qū)的周期為5 d,幅寬是45 km。根據(jù)大廠縣地域范圍,挑選2015年10月31日、2015年12月15日、2016年1月23日、2016年2月7日、2016年4月21日和2016年5月6日高分二號衛(wèi)星6期數(shù)據(jù)進行分析,衛(wèi)星過境時天氣較為晴朗,少云或無云,衛(wèi)星影像質(zhì)量良好,挑選的6期影像過境時間間隔大致為一個月左右,冬小麥分別處于不同的發(fā)育時期,可以剛好覆蓋冬小麥完全成熟前的整個生長周期。對影像進行輻射定標、正射校正、鑲嵌、大氣校正以及裁剪處理。
目前,已有很多先進的分類算法被廣泛地應(yīng)用于農(nóng)作物遙感分類之中。決策樹算法計算效率較高,不用統(tǒng)計假設(shè)以及可以處理不同空間尺度的數(shù)據(jù),在大規(guī)模遙感圖像分類領(lǐng)域應(yīng)用廣泛[29-30],但是,它無法刪除與噪聲相關(guān)的無關(guān)屬性,并且大多數(shù)決策樹僅辨別每個節(jié)點上的一個屬性,因而具有一定局限性。支持向量機(Support vector machine, SVM)方法能通過求解取得一個最優(yōu)化的結(jié)果,在高維特征空間中需要找到最優(yōu)的分類超平面,從而解決針對復(fù)雜數(shù)據(jù)的分類問題[25],然而在核函數(shù)的優(yōu)化選擇和多分類策略兩個方面還需要進行深入研究。人工神經(jīng)網(wǎng)絡(luò)算法也被廣泛應(yīng)用于衛(wèi)星遙感影像的分類場景[31]。通常來說,增加算法內(nèi)部處理單元的數(shù)量和節(jié)點的數(shù)量可以提高算法準確性,并有效地降低局部極小的概率,但是一般會需要更長的學(xué)習(xí)和運行時間,因此造成運算效率低。與常用的圖像識別方法相比,遙感圖像需要處理更多的數(shù)據(jù)類別,混合度高,特征較多,因此,并不是所有的機器學(xué)習(xí)算法都適用于冬小麥的識別和提取。隨機森林(Random forest,RF)算法是遙感信息自動提取領(lǐng)域的一種相對較新的機器學(xué)習(xí)模型。近年來,隨機森林算法已應(yīng)用于遙感影像的特征識別和信息提取,并實現(xiàn)了較高的識別精度[32]。RF算法既能獲得較高的識別精度,又能保證時間效率,更適宜實際生產(chǎn)應(yīng)用,甚至在雷達等圖像上也有良好的提取效果。因此,隨機森林分類方法適用于各種數(shù)據(jù)類型、不同分類系統(tǒng)的影像分類,并優(yōu)于傳統(tǒng)統(tǒng)計方法和其他機器學(xué)習(xí)方法。
RF算法屬于一種統(tǒng)計學(xué)習(xí)的思想理論,RF利用bootstrap(自助法)重采樣方法,從最初的學(xué)習(xí)樣本集中重復(fù)且有放回地隨機選出一組新的學(xué)習(xí)樣本,然后根據(jù)自助樣本數(shù)據(jù)集組成分類樹,形成一個組合(森林),算法的歸類結(jié)果需要由組合里的每棵決策樹投票決定,投票數(shù)最多的類別即為算法預(yù)測結(jié)果[33]。隨機森林是機器學(xué)習(xí)算法中一種有效的預(yù)測模型,它是組合分類器算法和決策樹分類算法的有效結(jié)合。分類性能表現(xiàn)優(yōu)異,幾乎不需要人工干預(yù),可用來估測所有特征在模型中的權(quán)重,RF模型也能夠用來估測離群數(shù)據(jù)定位和聚類分析的相關(guān)性[34],運算速度快。隨機森林算法自動解譯具體實現(xiàn)過程主要分為3個步驟,即訓(xùn)練集的生成、單個決策樹的構(gòu)建和算法的運行。利用訓(xùn)練集生成和決策樹構(gòu)建這兩個步驟,可以重復(fù)構(gòu)造足夠多的決策樹,從而構(gòu)成一個RF算法模型。本文利用隨機森林模型自動提取冬小麥信息的操作流程如下:首先結(jié)合野外核查在遙感影像中選取冬小麥的研究區(qū)和樣本區(qū),根據(jù)目標地物的屬性選取或構(gòu)建若干個識別特征,經(jīng)過一系列的影像處理得到對應(yīng)的特征影像,把樣本區(qū)數(shù)據(jù)匯總為訓(xùn)練數(shù)據(jù)集,然后構(gòu)建隨機森林模型對研究區(qū)數(shù)據(jù)自動識別。
數(shù)據(jù)集的質(zhì)量對算法的性能有很大的影響,直接影響到算法識別結(jié)果的精度,因此,樣本的選擇要覆蓋研究區(qū)的不同地理位置,包含不同長勢的地塊,盡可能涵蓋不同的種植品種??傮w來說,為了使樣本更有代表性,選擇樣本時應(yīng)考慮產(chǎn)生差異的不同原因,使樣本具備多樣性和全面性,提高訓(xùn)練數(shù)據(jù)集的質(zhì)量,可以有效保證算法學(xué)習(xí)和預(yù)測的準確性。
決策樹的個數(shù)ntree在1 000附近時,算法的模型精度會逐漸穩(wěn)定,但在1 600左右處仍有較小的波動,算法精度隨決策樹數(shù)量的遞增變化情況如圖2所示。經(jīng)過上述對兩個參數(shù)的調(diào)整分析,把實驗中決策樹的數(shù)量ntree設(shè)置為2 000,隨機變量的輸入個數(shù)mtry設(shè)為4,由這些決策樹構(gòu)建的隨機森林模型性能可由RSQ和MSE指標參數(shù)進行分析,其中RSQ表示隨機森林算法中的偽復(fù)相關(guān)系數(shù),MSE表示算法的均方誤差,偽復(fù)相關(guān)系數(shù)越高且均方誤差越小表示隨機森林算法構(gòu)建的模型性能越優(yōu)良。兩個參數(shù)的計算公式為
(1)
(2)
式中ρRSQ——偽復(fù)相關(guān)系數(shù)
ρMSE——均方根誤差
n——測試數(shù)據(jù)集中數(shù)據(jù)的總體數(shù)量
xi——測試數(shù)據(jù)中第i個變量處的數(shù)據(jù),代表算法模型在測試集中第i個數(shù)據(jù)對應(yīng)的預(yù)測值
yi——測試數(shù)據(jù)集中第i個變量對應(yīng)數(shù)據(jù)的真值
圖2 算法性能隨決策樹數(shù)量的變化曲線Fig.2 Changing curve of algorithm performance with number of decision trees
由先前的研究可知,理論上來說若偽復(fù)相關(guān)系數(shù)RSQ越大,并且均方誤差MSE越小,說明構(gòu)建的隨機森林模型性能越好,一般分別穩(wěn)定在0.90以上和0.10以下即認為優(yōu)良[35]。實驗結(jié)果表明,RSQ平均分布在0.93之上,MSE平均分布在0.013之下(圖3)。由此表明構(gòu)建的模型性能較為優(yōu)良,滿足實驗要求,可以繼續(xù)進行下一步操作。
圖3 RSQ、MSE隨隨機森林中決策樹數(shù)量的變化曲線Fig.3 Changing curves of RSQ and MSE with number of decision trees in random forest
通過分析隨機輸入特征的權(quán)重得到本期影像的最優(yōu)特征,其中平均基尼指數(shù)是一個與之相關(guān)的特征權(quán)重參考指標,值越大代表權(quán)重越大。重復(fù)隨機森林算法自動解譯3個步驟,用平均基尼指數(shù)對6個時相的影像進行特征優(yōu)選,最后得到6個優(yōu)選特征,重新構(gòu)建模型對實驗區(qū)的數(shù)據(jù)進行預(yù)測分析,2015年10月31日優(yōu)選特征為G,2015年12月15日優(yōu)選特征為NDVI,其余4個時相優(yōu)選特征為NIR,從而為冬小麥的信息提取提供運算基礎(chǔ)。6個時相的特征重要性分析結(jié)果如圖4所示。
圖4 6個時相的權(quán)重指標Fig.4 Weight index of six time phases
利用高分二號遙感影像選擇冬小麥關(guān)鍵生育期6個時相的影像數(shù)據(jù),從每個時相的NIR(近紅外灰度)、R(紅波段灰度)、G(綠波段灰度)、B(藍波段灰度)、RVI(比值植被指數(shù))、NDVI(歸一化植被指數(shù))6個特征中優(yōu)選出對冬小麥面積提取最敏感的1個特征作為輸入變量,6個時相共6個特征,利用隨機森林算法構(gòu)建模型提取冬小麥空間分布特征。利用多期影像優(yōu)選的6個特征重新構(gòu)建算法模型后,可以對研究區(qū)的數(shù)據(jù)集進行屬性判別和預(yù)測。在數(shù)據(jù)集中除了被正常預(yù)測的像元外,有一些像元是無法被明確辨別的。這是因為當有多個輸入特征時,一些測試數(shù)據(jù)并不完全符合這些特征所代表的屬性,因此算法的預(yù)測值會處于0 ~ 1之間,生成圖像的“噪聲”像元,這些像元的灰度各不相同,其中也會包含一小部分的小麥像元。這類未歸類的像元在加載圖像后不能明確地顯示自身的真實特征,如圖5a所示。因此,為了解決這個問題,提高算法的預(yù)測精度,可以對圖像進行降噪,對這些像元按規(guī)則進行二值化處理(小麥或非小麥),以便消除干擾像元(即錯分像元),預(yù)測結(jié)果優(yōu)化后的二值圖如圖5b所示。
圖5 二值化前后效果對比Fig.5 Comparison maps before and after binarization
經(jīng)過二值化后的預(yù)測結(jié)果圖中仍會存在一些干擾像元,即錯分區(qū)(非小麥像元),如圖6a所示。首先需要對圖像中的干擾像元矢量區(qū)進行篩選和刪除,這些干擾像元由于分布不均,且聚集成片區(qū)的像元數(shù)較少,因此構(gòu)成的局部連接區(qū)域也較小,在圖層上體現(xiàn)出來的效果是零散的小斑塊。由于小麥地塊相較于干擾區(qū)明顯偏大,因此根據(jù)面積設(shè)定閾值可以快速剔除這些干擾區(qū),提高冬小麥的提取精度,如圖6b所示。
圖6 剔除干擾像元前后效果對比Fig.6 Comparision maps before and after removing interference pixels
把提取結(jié)果重新加載到對應(yīng)的遙感圖像中,即可查看與分析冬小麥的空間分布效果,實驗區(qū)的自動提取效果如圖7所示。
圖7 實驗區(qū)冬小麥提取效果Fig.7 Extraction effect of winter wheat in experimental area
將模型推廣應(yīng)用于整個大廠縣,利用6期遙感影像優(yōu)選出的識別特征構(gòu)建模型對整個縣的冬小麥進行識別,得到大廠縣冬小麥的空間分布情況,具體分布如圖8所示。通過與當年的統(tǒng)計結(jié)果對比分析,經(jīng)過多時相特征優(yōu)選構(gòu)建的算法模型對冬小麥的識別精度接近90%,經(jīng)過樣本優(yōu)化和后期處理仍可提升精度,此方法能在保證提取精度的前提下對冬小麥進行快速提取,在一定程度上能代替常用的目視解譯方式,可大大提高相應(yīng)的工作效率。
利用高分二號遙感影像選擇冬小麥關(guān)鍵生育期6個時相的影像數(shù)據(jù),從每個時相的NIR(近紅外灰度)、R(紅波段灰度)、G(綠波段灰度)、B(藍波段灰度)、RVI(比值植被指數(shù))、NDVI(歸一化植被指數(shù))6個特征中優(yōu)選出對冬小麥面積提取最敏感的1個特征,6個時相共選出6個特征作為輸入變量,利用隨機森林算法構(gòu)建模型提取冬小麥空間分布特征。最后優(yōu)選出最敏感的6個特征,按照6個時相依次是G、NDVI、NIR、NIR、NIR、NIR。選擇覆蓋研究區(qū)的不同地理位置,包含不同長勢的地塊,涵蓋不同種植品種的樣本構(gòu)建訓(xùn)練集。推廣應(yīng)用于整個大廠縣,得到大廠縣冬小麥的空間分布情況。通過與統(tǒng)計結(jié)果對比分析,經(jīng)過多時相特征優(yōu)選構(gòu)建的算法模型對冬小麥的識別精度接近90%,經(jīng)過樣本優(yōu)化和后期處理仍可提升精度,此方法能在保證提取精度的前提下對冬小麥進行快速提取,提高相應(yīng)的工作效率。
圖8 大廠縣冬小麥空間分布Fig.8 Spatial distribution map of winter wheat in Dachang County