董瑞,周睿,唐莊生,周建偉,葉國(guó)輝,楚彬,花立民
(甘肅農(nóng)業(yè)大學(xué)草業(yè)學(xué)院,草業(yè)生態(tài)系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,甘肅省草業(yè)工程實(shí)驗(yàn)室,中-美草地畜牧業(yè)可持續(xù)發(fā)展研究中心,甘肅 蘭州 730070)
草地毒草化是天然草地典型的草地退化現(xiàn)象[1],不僅加劇了草畜矛盾,而且嚴(yán)重威脅草地生物多樣性[2-3]。近年來(lái),由于全球氣候變暖、過(guò)度放牧等因素的多重影響,我國(guó)天然草地毒草化日益嚴(yán)重。據(jù)統(tǒng)計(jì),目前我國(guó)毒草化天然草地面積約4.504×107hm2,約占天然草地總面積的11.3%[4],僅青藏高原毒草分布面積就占毒草總面積的77%[5]。2007-2009年,全國(guó)每年因毒草中毒的牲畜為2.109×106頭(只)、死亡8.404×105頭(只),經(jīng)濟(jì)損失6.723×108元[1]。因此,積極開(kāi)展天然草原毒草防治是提高草地生產(chǎn)力、維護(hù)畜牧業(yè)經(jīng)濟(jì)健康發(fā)展的重要任務(wù)之一。
快速、準(zhǔn)確地獲取毒草種類(lèi)、分布及面積是毒草防治的前提和關(guān)鍵。目前天然草地毒草調(diào)查方法常采用人工實(shí)地調(diào)查。人工調(diào)查具有較高的準(zhǔn)確率,但是存在調(diào)查點(diǎn)少,代表性差,以及需要較多的人力投入等問(wèn)題[6-7]。與地面調(diào)查技術(shù)相比,衛(wèi)星遙感技術(shù)具有覆蓋范圍廣、速度快和時(shí)效高等特點(diǎn),特別是高光譜技術(shù)的出現(xiàn)和快速發(fā)展,為地物識(shí)別、植被類(lèi)型劃分乃至植物物種識(shí)別提供了一種高效快速和大面積應(yīng)用的新途徑[8-9]。盡管高光譜具有分辨率高、信息豐富、圖譜合一等特點(diǎn)[10],但是,衛(wèi)星高光譜遙感由于傳感器分辨率低、空間位置高、解譯困難等因素,很難實(shí)現(xiàn)復(fù)雜背景下植物識(shí)別與分類(lèi)。近年來(lái),利用實(shí)地近距離獲取植物高光譜數(shù)據(jù)并分析植物高光譜反射特征,不但可以為無(wú)人機(jī)低空遙感識(shí)別植物物種提供技術(shù)支撐,也可為衛(wèi)星遙感監(jiān)測(cè)毒草種類(lèi)、分布等提供基礎(chǔ)數(shù)據(jù)。因此,實(shí)地近距離高光譜植物物種識(shí)別技術(shù)是當(dāng)前遙感學(xué)、生態(tài)學(xué)等研究的熱點(diǎn)之一。
基于高光譜的植物識(shí)別與分類(lèi)模型建立主要有兩個(gè)關(guān)鍵的步驟,1)高光譜數(shù)據(jù)的降維,即光譜特征參數(shù)的篩選;2)分類(lèi)識(shí)別算法的選擇。高光譜數(shù)據(jù)降維的方法主要有主成分分析(Principal Component Analysis,PCA)、線性判別分析(Linear Discriminant Analysis,LDA)、局部線性嵌入(Locally linear embedding,LLE)等。相比其他方法,PCA具有緩解維度災(zāi)難、壓縮數(shù)據(jù)、降低數(shù)據(jù)結(jié)構(gòu)等特點(diǎn)[11],是目前常用的降維方法。篩選適宜的分類(lèi)算法對(duì)于物種識(shí)別的準(zhǔn)確性、效率具有重要意義。目前,分類(lèi)識(shí)別算法很多,在農(nóng)田雜草、森林樹(shù)種和濕地植物等方面各具特色和優(yōu)點(diǎn)[12-14]。祖琴等[15]采用簇類(lèi)的獨(dú)立軟模式(SIMCA)方法對(duì)甘藍(lán)與雜草進(jìn)行分類(lèi),識(shí)別率高達(dá)98.6%。臧卓等[16]運(yùn)用3種數(shù)學(xué)變換方法對(duì)原始數(shù)據(jù)預(yù)處理,選擇基于徑向基核函數(shù)(SVM-RBF)和線性核函數(shù)的支持向量機(jī)(SVM-Linear)、BP神經(jīng)網(wǎng)絡(luò)、Fisher分類(lèi)法等4種算法對(duì)喬木樹(shù)種進(jìn)行分類(lèi),識(shí)別精度能夠達(dá)到98.33%。但是目前利用高光譜成像技術(shù),針對(duì)高寒草甸毒草的分類(lèi)識(shí)別方法研究相對(duì)較少。
本研究以高寒草甸主要毒草為研究對(duì)象,野外采集青藏高原高寒草甸主要毒草光譜數(shù)據(jù),利用機(jī)器學(xué)習(xí)方法建模分類(lèi),篩選適用于高寒草甸主要毒草識(shí)別分類(lèi)的模型,以期快速、準(zhǔn)確了解草地植物群落中各物種組成變化,為實(shí)現(xiàn)草地健康狀況評(píng)價(jià)、監(jiān)測(cè)草地退化與防治恢復(fù)提供一種新的研究方法[17]。
本研究選擇祁連山東緣天祝藏族自治縣抓喜秀龍鄉(xiāng)和青藏高原東部瑪曲縣為研究區(qū)。天祝藏族自治縣抓喜秀龍鄉(xiāng)地理位置為E 102°07′~103°46′,N 36°31′~37°55′ N,海拔2 878~3 425 m,年均溫-0.1 ℃,降水量416 mm。植被類(lèi)型為高寒草甸,以莎草科、禾本科植物為優(yōu)勢(shì)種,伴生種以闊葉類(lèi)雜草與毒草為主,主要植物有垂穗披堿草(Elymusnutans)、冷地早熟禾(Poacrymophlia)、矮嵩草(Kobresiahumilis)、珠芽蓼(Polygonumviviparum)、鵝絨委陵菜(Potentillaanserina)、黃花棘豆(Oxytropisochrocephala)、露蕊烏頭(Aconitumgymnandrum)、瑞香狼毒(Stellerachamaejasme)、碎米蕨葉馬先蒿(Pedicularischeilanrthifolia)等?,斍h地理位置為E 104°45′45″~102°29′00″,N 33°06′30″~34°30′15″,年均溫1.2 ℃,無(wú)霜期20 d,年均日照時(shí)數(shù)2 631.9 h。同樣以莎草科、禾本科植物為優(yōu)勢(shì)種,伴生種以闊葉類(lèi)雜類(lèi)草與毒草為主,主要植物有垂穗披堿草、紫花針茅(Stipapurpurea)、早熟禾(P.annua)、鵝絨委陵菜、黃帚橐吾(Ligulariavirgaurea)、長(zhǎng)毛鳳毛菊(Saussureahieracioides)等。
光譜數(shù)據(jù)采集使用高光譜成像光譜儀SOC710VP(美國(guó)SOC公司),光譜在400~1 000 nm,分辨率4.68 nm,采樣間隔為1.4 nm,波段數(shù)為128個(gè)。高光譜數(shù)據(jù)野外采集時(shí)間為2020年7月10-12日11∶00-14∶00(太陽(yáng)高度角>45°)。選擇晴朗無(wú)云、無(wú)風(fēng)或者少風(fēng)(風(fēng)力<4級(jí))時(shí)進(jìn)行數(shù)據(jù)采集。每隔20 min進(jìn)行一次白板優(yōu)化校正。測(cè)量時(shí)鏡頭垂直向下,距離植物冠層垂直高度為0.5 m。為保證采集植物數(shù)據(jù)的準(zhǔn)確性,每種植物采集不少于20幅影像,共獲取11種毒草光譜數(shù)據(jù)。野外調(diào)查毒草信息詳見(jiàn)表1,毒草選擇主要依據(jù)《中國(guó)西部天然草地毒害草的主要種類(lèi)及分布》[1]。
表1 主要有毒草植物類(lèi)型
使用儀器自帶軟件SRAnal710進(jìn)行反射率轉(zhuǎn)換。從每張光譜圖像中分別提取3個(gè)植物純凈像元光譜數(shù)據(jù)作為原始數(shù)據(jù)(圖1)。
圖1 11種毒草原始平均光譜反射曲線
1.4.1 預(yù)處理 為尋找光譜數(shù)據(jù)分類(lèi)11種毒草的最佳數(shù)學(xué)變換方法,本研究采用多項(xiàng)式卷積平滑法[Savitzky-Golay Smoothing,SG(R)]濾波對(duì)原始數(shù)據(jù)進(jìn)行平滑降噪處理[18],后進(jìn)行一階微分導(dǎo)數(shù)[First order differential reflectance,FDR(dr1)]變換、二階微分導(dǎo)數(shù)[Second order differential reflectance,SDR(dr2)]變換、歸一化[Normalized,Nr(R)]變換、均值中心化[Mean centralization,MC(R)]變換、對(duì)數(shù)log(R)變換對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理[14]。為比較不同預(yù)處理方法的光譜特征變化情況,對(duì)11種毒草原始光譜數(shù)據(jù)取其平均值進(jìn)行分析。
1.4.2 降維 采用PCA對(duì)6種數(shù)學(xué)變換光譜數(shù)據(jù)降維[19]。主成分是原始數(shù)據(jù)的多個(gè)變量經(jīng)線性組合得到。由于各個(gè)主成分之間是正交,需要根據(jù)方差大小進(jìn)行排序,即方差最大的為第一主成分(PC1),次之的為第二主成分(PC2),以此類(lèi)推[20]。
1.4.3 機(jī)器學(xué)習(xí)分類(lèi) 以主成分個(gè)數(shù)為自變量,分類(lèi)精度為因變量。選擇5種統(tǒng)計(jì)分類(lèi)方法隨機(jī)森林(Random Forest,RF)、支持向量機(jī)-徑向基核函數(shù)(Support Vector Machine-Radial Basis Function,SVM-RBF)、K臨近分類(lèi)(K-nearest neighbor,Knn)、樸素貝葉斯(Naive Bayesian,NB)和決策樹(shù)(Decision Tree,DT)進(jìn)行分類(lèi)識(shí)別效果對(duì)比研究[21-23]。樣本數(shù)據(jù)按照2/3和1/3的比例劃分為建模集和預(yù)測(cè)集,其中建模數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)隨機(jī)從樣本數(shù)據(jù)中抽取,數(shù)據(jù)劃分情況詳見(jiàn)表2。
表2 分類(lèi)數(shù)據(jù)集劃分
1.4.4 精度評(píng)價(jià)方法 使用混淆矩陣對(duì)分類(lèi)精度計(jì)算,對(duì)角線上的元素值為正確分類(lèi)數(shù),值越大表示分類(lèi)結(jié)果的可靠性越高,反之則分類(lèi)錯(cuò)誤的現(xiàn)象嚴(yán)重[24]。基于混淆矩陣構(gòu)建中的總體精度定義如下:
(1)
式中:n為總的預(yù)測(cè)數(shù)據(jù)個(gè)數(shù);xii為i類(lèi)別正確分類(lèi)物種個(gè)數(shù)。
1.4.5 分析軟件 數(shù)據(jù)數(shù)學(xué)變換在Matlab R2018b中完成,使用R進(jìn)行PCA降維及模型訓(xùn)練與精度評(píng)價(jià),以Graphpad軟件完成數(shù)據(jù)分析。
對(duì)原始光譜數(shù)據(jù)進(jìn)行平滑處理后,發(fā)現(xiàn)對(duì)數(shù)變換在400~650 nm波段11種毒草光譜特征區(qū)分度最大(圖2),其中在400~490 nm波段,只有3種毒草(葵花大薊,露蕊烏頭和乳白香青)反射值差異較大。而在660 nm波段附近,11種毒草光譜反射值在波谷區(qū)分度較大。歸一化變換處理的曲線與平滑光譜曲線走勢(shì)基本一致,但歸一化變換處理在540、745 nm波段附近,毒草光譜反射值區(qū)分度較平滑光譜反射值大,而在780~1 000 nm波段,平滑反射值比歸一化變換反射值大。一階微分和二階微分變換11種毒草光譜反射值區(qū)分度較小,但波峰、波谷個(gè)數(shù)增加。均值中心化變換雖然增大了光譜反射值區(qū)分度,但反射曲線變得無(wú)規(guī)律。
圖2 數(shù)學(xué)變換處理后的11種毒草平均光譜反射曲線
經(jīng)數(shù)學(xué)變換處理后對(duì)數(shù)據(jù)進(jìn)行主成分降維處理。選取前36個(gè)主成分進(jìn)行分析(第36個(gè)主成分的累計(jì)方差貢獻(xiàn)率接近于100%),以主成分累計(jì)方差貢獻(xiàn)率(圖3)作為降維效果。log(R)、SG(R)、Nr(R)、dr1(R)、dr2(R)、MC(R)PC1和PC2累計(jì)方差貢獻(xiàn)率分別為92.61%、91.81%、75.67%、52.52%、40.74%、88.39%,其中l(wèi)og(R)、SG(R)、MC(R)PC1和PC2累計(jì)方差貢獻(xiàn)率大于85%,包含11種植物主要分類(lèi)特征信息。
圖3 PCA降維后的累計(jì)方差貢獻(xiàn)率
經(jīng)PCA降維后使用5種機(jī)器學(xué)習(xí)分類(lèi)算法進(jìn)行精度評(píng)價(jià),以混淆矩陣計(jì)算主成分疊加總體精度繪制分類(lèi)精度曲線(圖4)。對(duì)數(shù)變換處理5種分類(lèi)模型分類(lèi)精度最高,總體分類(lèi)精度SVM-RBF>RF>NB>Knn>DT,SVM-RBF最高分類(lèi)精度達(dá)到99.35%。主成分個(gè)數(shù)累積到8個(gè)時(shí),分類(lèi)精度基本達(dá)到最大,說(shuō)明使用前8個(gè)主成分對(duì)所研究11種植物具有較好的分類(lèi)效果。二階微分變換5種模型分類(lèi)精度最低,其他3種數(shù)學(xué)變換分類(lèi)精度為一階微分>歸一化>均值中心化。其中,在所有數(shù)學(xué)變換處理中,DT分類(lèi)模型精度最低,Knn分類(lèi)模型穩(wěn)定性最差。
圖4 主成分個(gè)數(shù)與分類(lèi)精度關(guān)系
高寒草甸是青藏高原最主要的草地類(lèi)型,其草地物種多樣性、生產(chǎn)力波動(dòng)都極大地受到毒草種類(lèi)和數(shù)量的影響[5,25]。理論上講,可利用植物光譜的不同反射值進(jìn)行毒草物種分類(lèi)。但是,綠色植物光譜反射曲線走勢(shì)、高低基本一致[26]。因此必須對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。本研究對(duì)原始光譜數(shù)據(jù)進(jìn)行數(shù)學(xué)變換,一方面可消除外界因素的影響,另一方面可增大植物反射光譜曲線間的差異[27]。使用便攜式野外高光譜成像儀,在圖像采集時(shí)因外界噪聲影響導(dǎo)致光譜曲線出現(xiàn)抖動(dòng)現(xiàn)象,而SG(R)可以明顯減少抖動(dòng)現(xiàn)象[17],保留了11種毒草原始光譜曲線特征。光譜圖像采集的準(zhǔn)確性受到光照強(qiáng)度、土壤背景、大氣和植物生長(zhǎng)環(huán)境影響。本文采樣區(qū)位于高海拔地區(qū),因采樣不是同時(shí)完成,光照強(qiáng)度、大氣環(huán)境導(dǎo)致光譜數(shù)據(jù)產(chǎn)生差異,而dr1(R)處理可消除部分光照、土壤背景和大氣的影響,使得光譜曲線最大、最小位置特征凸顯出來(lái)[28]。拍攝毒草生長(zhǎng)在草地中和裸地上,因復(fù)雜的生長(zhǎng)環(huán)境,導(dǎo)致圖像采集過(guò)程中,受到附近植物光線遮擋和裸地背景的影響,光譜圖像出現(xiàn)過(guò)暗、過(guò)亮問(wèn)題。安如等[29]采用log(R)、dr2(R)處理消除了這些影響,同時(shí)增加了光譜曲線間峰谷特征差異,使得植物光譜反射曲線在log(R)處理下可進(jìn)行分類(lèi)[30]。另外,高海拔地區(qū)可能空氣中存在氣溶膠,光透過(guò)會(huì)產(chǎn)生不均勻現(xiàn)象,造成同一地物反射率產(chǎn)生差異,通過(guò)Nr(R)可減少光譜不均勻造成的影響。植物葉片生長(zhǎng)方向?qū)е鹿庹障铝炼炔痪鶆颍霈F(xiàn)同向亮度較亮反向較暗的情況,造成同一植物器官在同一幅圖像中光譜反射值存在差異,MC(R)處理可對(duì)整幅圖像亮度進(jìn)行均勻化,使得同一植物器官光譜反射值一致。
高光譜數(shù)據(jù)是實(shí)現(xiàn)植物識(shí)別與分類(lèi)的有效數(shù)據(jù)源之一,其特征提取是植物識(shí)別與分類(lèi)的關(guān)鍵一步[31]。在植物識(shí)別與分類(lèi)過(guò)程中,PCA降維能夠有效提取植物光譜特征,使得數(shù)據(jù)從高維空間映射到低維空間,減少數(shù)據(jù)冗余[32]。本研究中對(duì)原始光譜數(shù)據(jù)進(jìn)行了6種數(shù)學(xué)變換及PCA降維,累計(jì)方差貢獻(xiàn)率受到原始數(shù)據(jù)的影響,其中l(wèi)og(R)、SG(R)和MC(R)的PC1與PC2累計(jì)方差貢獻(xiàn)率大于85%,是上述3種變換處理后,各樣本之間數(shù)據(jù)差異增大,在協(xié)方差矩陣運(yùn)算過(guò)程中,提取的特征值較大所致。dr1(R)、dr2(R)、Nr(R)在數(shù)學(xué)變換后各樣本光譜值之間差異較小,這是因?yàn)樽儞Q處理后數(shù)據(jù)較為集中,故PC1與PC2累計(jì)方差貢獻(xiàn)率較小。不同數(shù)學(xué)變換方法影響了各樣本光譜數(shù)據(jù)間反射值差異性大小。因而PCA降維后,原始數(shù)據(jù)樣本離散大小對(duì)PC1與PC2累計(jì)方差貢獻(xiàn)率有非常重要的作用。
通過(guò)光譜反射率預(yù)測(cè)毒草種類(lèi)是高光譜技術(shù)的重要應(yīng)用,在構(gòu)建模型時(shí),對(duì)原始數(shù)據(jù)進(jìn)行各種數(shù)學(xué)變換以及選取合適的建模方法是研究此類(lèi)問(wèn)題的關(guān)鍵。目前,相關(guān)研究表明,進(jìn)行相應(yīng)的數(shù)學(xué)變換可以提高模型的精度[14,16]。李世波等[33]將log(R)應(yīng)用到濕地植被分類(lèi)建模中時(shí)分類(lèi)精度達(dá)到最高。本研究選取了相同數(shù)學(xué)變換,發(fā)現(xiàn)結(jié)果一致。由此可見(jiàn),在利用植物光譜數(shù)據(jù)分類(lèi)時(shí),log(R)處理具有一定的普適性。但結(jié)合分類(lèi)結(jié)果來(lái)看,SG(R)處理保留了更多原始光譜信息,在多種模型中的建模精度相比于其他數(shù)學(xué)變換方法都高,更適合預(yù)測(cè)高寒草甸毒草種類(lèi)。從建模的方法來(lái)看,SVM-RBF、RF和NB模型效果都較好,其中SVM-RBF算法在所有變換處理中分類(lèi)精度最高,這是因?yàn)镾VM算法使用了RBF函數(shù),通過(guò)設(shè)定損失函數(shù)cost與gamma值后使用tune函數(shù)自動(dòng)從數(shù)據(jù)集中選取得分值最優(yōu)組合進(jìn)行建模預(yù)測(cè)[34]。本研究設(shè)定cost值為10~102,gamma值為10-1~10-6。RF模型是以樹(shù)模型為基評(píng)估器的集成評(píng)估器,有著能夠處理高維數(shù)據(jù)、抗過(guò)擬合和泛化能力較強(qiáng)的優(yōu)點(diǎn)[35]。NB模型是以數(shù)據(jù)集屬性獨(dú)立特點(diǎn)進(jìn)行概率預(yù)測(cè),在屬性關(guān)系獨(dú)立時(shí)有較好的分類(lèi)效果[36]。DT和Knn模型是分類(lèi)精度及穩(wěn)定性最差的模型,Knn模型是以預(yù)測(cè)點(diǎn)與所用樣本點(diǎn)進(jìn)行距離預(yù)測(cè),K值的設(shè)定是模型精度高低與穩(wěn)定的關(guān)鍵。本研究中,K值逐漸增大時(shí)錯(cuò)誤率會(huì)先降低后逐漸增大,這與路郭利等[37]的研究結(jié)果一致。同時(shí),分類(lèi)精度與累計(jì)方差貢獻(xiàn)率大小存在一定關(guān)系。本研究中是以主成分累計(jì)方差貢獻(xiàn)率為自變量進(jìn)行模型訓(xùn)練和預(yù)測(cè)分類(lèi),在log(R)處理中,PCs達(dá)到8個(gè)時(shí)5種分類(lèi)算法分類(lèi)精度基本達(dá)到最大值,而累計(jì)方差貢獻(xiàn)率接近100%,包含了11種毒草全部特征信息,說(shuō)明在高寒草甸主要毒草分類(lèi)中使用8個(gè)PCs基本可以使分類(lèi)精度達(dá)到最大。
本研究的不足之處在于樣本各毒草光譜數(shù)據(jù)存在不均衡問(wèn)題。但在實(shí)際采集過(guò)程中很難保證樣本絕對(duì)均衡性和代表性。因此,為提高建模精度,可以發(fā)掘更好的數(shù)學(xué)變換方法,使用更好的模型,如當(dāng)前最熱門(mén)的深度學(xué)習(xí)模型,同時(shí)還可以考慮其他降維方法結(jié)合分類(lèi)模型分類(lèi),這些也是今后需要進(jìn)一步深入研究的方向。
通過(guò)對(duì)研究區(qū)高寒草甸主要毒草光譜數(shù)據(jù)先進(jìn)行數(shù)學(xué)變換,再使用主成分分析降維,利用機(jī)器學(xué)習(xí)算法進(jìn)行了不同處理下分類(lèi)方法的研究,結(jié)果發(fā)現(xiàn),log(R)-PCA降維與SVM-RBF分類(lèi)算法是高寒草甸主要毒草分類(lèi)識(shí)別的最優(yōu)組合方式,且模型穩(wěn)定性較好,最高分類(lèi)精度達(dá)到99.92%。