吳立周,王曉慧, 王志輝, 方 馨, 朱婷瑜, 丁麗霞
(1. 浙江農(nóng)林大學(xué) 環(huán)境與資源學(xué)院, 浙江 杭州311300; 2. 浙江農(nóng)林大學(xué) 省部共建亞熱帶森林培育國家重點(diǎn)實(shí)驗(yàn)室, 浙江 杭州311300; 3. 浙江遠(yuǎn)卓科技有限公司, 浙江 杭州310012)
農(nóng)作物的精準(zhǔn)識(shí)別有助于人們及時(shí)、 準(zhǔn)確地掌握農(nóng)作物的種植結(jié)構(gòu)及其時(shí)空變化信息, 對(duì)區(qū)域內(nèi)農(nóng)作物的空間格局分布、 產(chǎn)量的預(yù)測(cè)、 農(nóng)業(yè)資源的調(diào)查和災(zāi)害監(jiān)測(cè)等問題具有重要意義[1]。 傳統(tǒng)多光譜遙感受傳感器波段少、 光譜分辨率低、 作物光譜相似性等問題的影響, 無法獲得較高的作物類型識(shí)別精度; 而新興的高光譜技術(shù)通過獲取連續(xù)地物的光譜信息, 能在眾多窄波段范圍內(nèi)對(duì)作物的細(xì)微差別進(jìn)行探測(cè), 進(jìn)而提高作物識(shí)別精度[2]。 近年來國內(nèi)外學(xué)者利用高光譜數(shù)據(jù)在作物識(shí)別與分類方面已開展了大量研究工作[3-6]。 高光譜數(shù)據(jù)波段多、 數(shù)據(jù)量大、 信息冗余嚴(yán)重, 因此在數(shù)據(jù)的應(yīng)用與處理中如何選取有效的光譜數(shù)據(jù)形式和光譜特征變量是研究的重點(diǎn)。 目前, 該類研究對(duì)作物分類識(shí)別的精度不斷提升, 但這些方法主要基于傳統(tǒng)統(tǒng)計(jì)方法結(jié)合主觀判斷選擇波段, 主觀性較大, 且數(shù)據(jù)處理操作較為繁瑣, 難以高效簡(jiǎn)便對(duì)作物進(jìn)行精確分類識(shí)別。 本研究以杭州地區(qū)常見的8 種作物作為研究對(duì)象, 基于實(shí)測(cè)的葉片光譜反射率數(shù)據(jù), 通過不同特征提取與分類方法對(duì)作物光譜分析, 探尋識(shí)別不同作物的高效方法, 從而為作物高光譜遙感解譯和精準(zhǔn)分類提供參考。
研究區(qū)浙江省杭州市(29°11′~30°33′N, 118°21′~120°30′E), 地處中國東南沿海、 浙江省北部。 研究區(qū)屬亞熱帶季風(fēng)氣候, 光溫同步, 雨熱同季, 日照和無霜期較長(zhǎng)。 研究區(qū)西部連山, 東部近海, 地勢(shì)西高東低, 地形地貌復(fù)雜多樣。 研究區(qū)具有豐富的水稻土, 約占土壤總面積的14%, 主要分布在平原地區(qū), 適宜于多種作物生長(zhǎng)。 研究區(qū)主要農(nóng)作物有大豆Glycine max、 番茄Lycopersicon esculentum、 茄Solanum melongena、 水稻Oryza sativa、 茶Camellia sinensis、 葡萄Vitis vinifera、 玉米Zea mays、 山核桃Carya cathayensis、 番薯Ipomoea batatas、 花生Arachis hypogaea、 四季豆Phaseolus vulgaris等。
選取杭州市常見的大豆、 玉米、 茄、 四季豆、 花生、 葡萄、 番薯、 水稻共8 種農(nóng)作物作為光譜測(cè)試對(duì)象。 光譜測(cè)試部位為農(nóng)作物葉片, 葉片反射光譜采用美國ASD FieldSpec Pro FR 地物光譜儀(光譜范圍350~2 500 nm)進(jìn)行測(cè)量。 測(cè)定時(shí)間為2018 年7 月上旬, 每天8:00-10:00, 在天空晴朗無云, 無風(fēng)或微風(fēng), 空氣濕度小的情況下, 戶外采集農(nóng)作物葉片后立即在室內(nèi)用植被探頭測(cè)量8 種作物的葉片反射率。 每種作物選擇5 片葉片, 每片葉片選擇3 處測(cè)量點(diǎn), 以每一測(cè)量點(diǎn)連續(xù)測(cè)量10 次的光譜平均值作為其光譜反射值, 共獲得150 條光譜曲線, 再對(duì)每10 條光譜數(shù)據(jù)取其平均值作為一個(gè)樣本數(shù)據(jù), 每種作物得到15 個(gè)光譜樣本數(shù)據(jù)。 剔除有明顯異常的波段數(shù)據(jù), 以剩余數(shù)據(jù)的平均值作為該樣點(diǎn)的光譜反射率, 再對(duì)光譜曲線進(jìn)行平滑處理, 消除光譜曲線上存在的噪聲, 最終獲得8 種作物反射光譜曲線數(shù)據(jù)。
采用隨機(jī)森林方法與傳統(tǒng)的高光譜識(shí)別與分類方法處理并分析作物高光譜數(shù)據(jù), 提取識(shí)別不同作物類型的高光譜特征, 對(duì)作物進(jìn)行精準(zhǔn)識(shí)別與分類, 并對(duì)結(jié)果分析與比較, 這些傳統(tǒng)方法包括一階微分、二階微分、 倒數(shù)的對(duì)數(shù)等數(shù)學(xué)變換方法、 去包絡(luò)線法等。
①簡(jiǎn)單數(shù)學(xué)變換法: 運(yùn)用光譜微分方法處理光譜曲線, 能夠部分消除大氣效應(yīng)、 作物環(huán)境背景(陰影、 土壤等)的影響, 以反映作物本身的光譜特征[7]; 對(duì)數(shù)據(jù)進(jìn)行倒數(shù)的對(duì)數(shù)可以減少因光照等變化引起的乘性因素對(duì)光譜數(shù)據(jù)的影響, 使可見光區(qū)范圍內(nèi)光譜數(shù)據(jù)差異增大, 從而更容易識(shí)別不同的作物[8]。采用一階微分、 二階微分以及倒數(shù)的對(duì)數(shù)變換對(duì)原始光譜進(jìn)行處理, 觀察分析光譜特征及其區(qū)分不同作物的能力。 ②去包絡(luò)線法: 包絡(luò)線(envelope)是指每條光譜曲線的外凸包曲線, 去包絡(luò)線(continuum removal)是一種非線性光譜變換方法[9]。 去包絡(luò)線法對(duì)作物光譜曲線上反射率小、 光譜曲線相近的可見光波段處理有效, 能在很大程度上放大作物間光譜差異性, 有利于作物識(shí)別分類[10]。 本研究用MATLAB軟件對(duì)原始光譜曲線進(jìn)行去包絡(luò)線處理, 提取作物間光譜差異較大的波段, 再使用歐氏距離法[11]對(duì)不同作物識(shí)別與分類。 ③隨機(jī)森林法(random forest, RF)[12]: 是一種基于分類與回歸決策樹(classification and regression tree, C&RT)的組合算法。 隨機(jī)森林算法對(duì)參與分類的變量沒有限定, 在處理高維數(shù)據(jù)分類時(shí),更能體現(xiàn)隨機(jī)森林的速度快、 精度高、 穩(wěn)定性好的優(yōu)勢(shì)[13]。 因此用隨機(jī)森林法處理作物高光譜數(shù)據(jù)時(shí),不用提前做光譜特征提取, 在實(shí)施分類的同時(shí), 就可以對(duì)高光譜變量進(jìn)行篩選優(yōu)化[14], 并分析判斷特征波段的優(yōu)劣。
圖1 為8 種作物的平均光譜曲線, 在可見光波段, 綠峰波段反射率差異最大; 在近紅外波段, 800~1 300 nm 波段的光譜曲線差異最明顯, 反射率由高到低順序?yàn)橛衩住?茄、 四季豆、 大豆、 番薯、 花生、葡萄、 水稻, 其中茄與玉米反射率較為接近, 較難區(qū)分; 在1 600~1 800 nm 波段內(nèi)不同作物的光譜曲線差異較為明顯, 除了葡萄與花生、 茄與玉米的光譜差異較小外, 剩余作物之間通過反射率差異可以區(qū)分。
從圖2 可觀察到: 8 種作物的一階微分光譜曲線的變化走向基本一致, 在極大或極小值對(duì)應(yīng)的波段, 不同作物的一階微分值差異較為明顯, 其他波段內(nèi)作物曲線相差不大。 在685~770 nm 波段內(nèi)可以區(qū)分四季豆與其他作物, 但不能明顯區(qū)分出其余作物; 在1 350~1 430 nm 波段內(nèi)不同作物一階微分值有較大差異, 能夠區(qū)分出水稻、 玉米與葡萄3 種作物, 其余作物無明顯差別。
圖1 不同作物的平均光譜曲線Figure 1 Average spectral curves of different crops
圖2 不同作物的一階導(dǎo)數(shù)光譜曲線Figure 2 First derivative spectral curves of different crops
由圖3 可知: 8 種作物二階導(dǎo)數(shù)光譜曲線在650~790、 1 300~1 500 和1 820~1 940 nm 等3 個(gè)波段區(qū)間差異較大。 表1 統(tǒng)計(jì)了8 種作物在這3 個(gè)波段內(nèi)的極大值及其對(duì)應(yīng)波段。 即便在這些差異較大的波段內(nèi), 部分作物的二階導(dǎo)數(shù)光譜曲線十分接近, 不利于區(qū)分不同作物; 比如玉米、 番薯、 大豆、 花生、葡萄在650~790 nm 波段的光譜二階導(dǎo)數(shù)值相近, 大豆、 花生、 葡萄在1 300~1 500 nm 波段的光譜二階導(dǎo)數(shù)值相近, 番薯、 大豆、 花生、 葡萄在1 820~1 940 nm 波段的光譜二階導(dǎo)數(shù)值相近, 這些二階導(dǎo)數(shù)值相近的作物彼此難以區(qū)分。
從圖4 可知: 與原始光譜曲線相比, 波峰波谷發(fā)生了倒置, 出現(xiàn)了 “兩峰一谷”, 峰谷凸凹程度明顯增加[15], 原本相近的部分作物光譜曲線有所拉開, 在800~1 300 nm 波段內(nèi), 水稻、 玉米可以明顯區(qū)分, 但大豆、 番薯和花生3 種作物間的光譜差別過小, 不易區(qū)分。
表1 作物反射光譜二階導(dǎo)數(shù)極大值及對(duì)應(yīng)波段Table 1 Maximum value of second derivative of crop reflection spectrum and corresponding band
圖3 不同作物的二階導(dǎo)數(shù)光譜曲線Figure 3 Second derivative spectra of different crops
圖4 不同作物光譜倒數(shù)的對(duì)數(shù)曲線Figure 4 Logarithmic curves of the reciprocal spectra of different crops
運(yùn)用MATLAB 軟件, 對(duì)作物反射光譜數(shù)據(jù)做去包絡(luò)線處理。 圖5 可以看出: 作物光譜在藍(lán)谷, 紅谷, 綠峰, 1 170~1 190 nm, 1 430~1 450 nm 以及1 910~1 930 nm 等波段上有較明顯的差異。
利用這些差異較大的波段反射率, 基于歐氏距離分類法, 評(píng)價(jià)分析任意2 種作物間的可分離性。 以綠峰波段為例, 任意2 種作物間的歐氏距離結(jié)果見表2。 可以看出, 綠峰波段, 玉米、 茄、 花生等可以較為明顯區(qū)分, 其余作物較難區(qū)分。 運(yùn)用相同方法得出其他波段范圍結(jié)果: 在藍(lán)谷波段, 葡萄、 茄、 大豆、 玉米、 番薯、四季豆可以較明顯區(qū)分, 但水稻和花生較難以區(qū)分; 紅谷波段, 茄、 玉米、 四季豆3 者較難區(qū)分, 其余作物較好區(qū)分; 1 170~1 190 nm(水氧吸收波段)波段, 葡萄、大豆、 花生3 種作物較難區(qū)分; 1 430~1 450 nm 波段, 葡萄、 大豆、 四季豆3 種作物較難區(qū)分; 1 910~1 930 nm 波段, 葡萄、 大豆兩者較難區(qū)分。
圖5 作物包絡(luò)線去除后的光譜曲線Figure 5 Spectral curve after crops envelope removal
采用IBM SPSS modeler 18.0 軟件構(gòu)建隨機(jī)森林模型數(shù)據(jù)流, 對(duì)農(nóng)作物反射率數(shù)據(jù)處理。 在軟件中,使用C&RT 算法構(gòu)建隨機(jī)森林的每棵樹, 決策樹的棵數(shù)和候選分割屬性集的大小設(shè)置均采用默認(rèn)值, 即構(gòu)建500 棵樹, 樣本大小為百分百。 作物在可見光波段(380~780 nm), 近紅外短波(780~1 100 nm), 近紅外長(zhǎng)波(1 100~2 500 nm)的反射光譜特征與作物的生理生化特點(diǎn)有緊密聯(lián)系。 為了比較可見光、 近紅外波段的光譜對(duì)區(qū)分不同作物的效果, 將作物光譜樣本數(shù)據(jù)按3 個(gè)不同的波段分成3 組數(shù)據(jù), 與全波段(350~2 500 nm)數(shù)據(jù)構(gòu)成4 組不同的樣本數(shù)據(jù)。 樣本數(shù)據(jù)一半用于隨機(jī)森林法建模, 提取區(qū)分不同作物的特征波段, 一半用于隨機(jī)森林法分類, 驗(yàn)證所提取波段的重要性。 為了減少數(shù)據(jù)處理量, 將光譜反射率每10 nm 取平均值用于隨機(jī)森林法處理。 依次將4 組樣本數(shù)據(jù)進(jìn)行隨機(jī)森林法處理, 結(jié)果(表3)表明: 4 組數(shù)據(jù)所建模型均都具有較高的分類準(zhǔn)確性。 隨機(jī)森林法在建模的同時(shí)對(duì)參與分類的波段重要性進(jìn)行了排序, 表4 顯示4 組數(shù)據(jù)最重要的前10個(gè)波段, 每個(gè)波段特征對(duì)分類精度的貢獻(xiàn)程度不同,重要程度越高的波段對(duì)作物分類精度的影響越大。
表2 綠峰波段任意2 種作物間的歐氏距離表Table 2 Significant Euclidean distance table between any two crops
表3 不同波段光譜數(shù)據(jù)的隨機(jī)森林分類結(jié)果Table 3 Random forest classification results for spectral data from different bands
表4 參與分類的波段重要性排序Table 4 Sorting the importance of the bands involved in the classification
利用驗(yàn)證樣本對(duì)所建隨機(jī)森林法分類模型精度進(jìn)行檢驗(yàn), 結(jié)果(表5)顯示: 4 組樣本的作物分類正確率均在84%及以上, 精確度最高的樣本組為350~2 500 nm 全波段數(shù)據(jù), 分類精確率達(dá)99.17%。
表5 不同作物分類準(zhǔn)確率分析表Table 5 Analysis table of classification accuracy of different crops
為了檢驗(yàn)所篩選的特征波段對(duì)區(qū)分不同作物的效果, 依據(jù)350~2 500 nm 波段樣本數(shù)據(jù)隨機(jī)森林分類輸出的前10 個(gè)重要波段, 從驗(yàn)證樣本數(shù)據(jù)中選出相應(yīng)波段數(shù)據(jù)為變量, 在模型參數(shù)設(shè)置不變的情況下進(jìn)行隨機(jī)森林分類, 分類準(zhǔn)確性達(dá)100%, 在完全區(qū)分不同作物的同時(shí), 數(shù)據(jù)量減少達(dá)95.34%, 在節(jié)省時(shí)間的同時(shí)保證了較高的準(zhǔn)確度。 前10 個(gè)波段為550、 2 490、 370、 770、 560、 380、 540、 530、 570和350 nm 波段。 其中350 和2 490 nm 這2 個(gè)波段在采集反射率時(shí)有噪聲, 雖然經(jīng)過平滑方法消除了噪聲, 但不能完全排除噪聲對(duì)識(shí)別區(qū)分作物的影響, 因此在選擇使用時(shí)要慎重。 重要波段中的350、 370和380 nm 等3 個(gè)波段屬于藍(lán)光吸收谷; 530、 540、 550、 560 和570 nm 等5 個(gè)波段處于綠光反射峰;770 nm 波段處于植被反射光譜陡坡; 2 490 nm 波段處于作物所含水分和二氧化碳的強(qiáng)吸收帶。 不同作物在這些波段的反射率差異均與作物的葉綠素含量、 水分含量、 葉片海綿組織及光合作用強(qiáng)烈相關(guān)[16]。由此可得出結(jié)論, 隨機(jī)森林法篩選出的特征波段不僅區(qū)分不同作物效果顯著, 而且能夠反映不同作物生理與生化特性的差異, 從生物本身特性的角度為高光譜區(qū)分不同作物提供了印證與依據(jù)。
本研究發(fā)現(xiàn)隨機(jī)森林法對(duì)350~2 500 nm 全波段反射率數(shù)據(jù)處理, 不僅篩選出能夠區(qū)分不同作物的特征波段, 而且運(yùn)用所選擇的波段對(duì)作物進(jìn)行分類識(shí)別的效果也是最優(yōu)的。 不僅如此, 隨機(jī)森林法對(duì)篩選出的波段進(jìn)行了優(yōu)劣排序, 其中對(duì)分類貢獻(xiàn)較大的波段集中在藍(lán)光、 綠峰、 紅光等波段, 反映了作物生理生化特征差異。 區(qū)分8 種作物的特征波段主要有350~380 nm 的藍(lán)光波段、 530~570 nm 的綠峰波段、 770 nm 的植被陡坡波段、 2 490 nm 的水、 二氧化碳的吸收波段。 運(yùn)用隨機(jī)森林法能夠克服作物光譜相似性較高、 難分類等問題, 快速高效確定區(qū)分不同作物的特征波段, 且分類識(shí)別精度高。 而用觀察法分析不同作物的反射光譜及其一階微分、 二階微分、 倒數(shù)的對(duì)數(shù), 提取同時(shí)區(qū)分識(shí)別8 種作物的波段難度較大; 去包絡(luò)線法突出了作物光譜在紅谷、 藍(lán)谷、 綠峰區(qū)域等特征波段的差異, 但提取的特征波段只能區(qū)分部分作物, 不能同時(shí)對(duì)8 種作物分類。