南寧師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院 曾遠(yuǎn)鵬 鐘雅婷
葉片等效水厚度(EWT)對(duì)植物水分狀態(tài)評(píng)價(jià)具有重要意義,因此如何快速、準(zhǔn)確、無(wú)損地檢測(cè)葉片等效水厚度也具有重要的意義。高光譜數(shù)據(jù)可為檢測(cè)植物中的葉片等效水厚度提供重要的手段。現(xiàn)有的研究主要集中使用各種機(jī)器學(xué)習(xí)方法來(lái)對(duì)葉片等效水厚度進(jìn)行反演,這些方法往往需要對(duì)原始光譜進(jìn)行光譜變換、特征選擇、降維等一系列操作。本文采用神經(jīng)網(wǎng)絡(luò)的方法來(lái)建立葉片等效水厚度的反演模型。實(shí)驗(yàn)結(jié)果表明:在LOPEX93數(shù)據(jù)集中,使用神經(jīng)網(wǎng)絡(luò)的方法R2值與RMSE值分別達(dá)到了0.945與0.0012優(yōu)于機(jī)器學(xué)習(xí)方法。
高光譜遙感又稱成像光譜遙感,是將成像技術(shù)和光譜技術(shù)相結(jié)合的多維信息獲取技術(shù)。高光譜遙感數(shù)據(jù)中包含了豐富的空間、輻射和光譜三重信息,具有重要的綜合應(yīng)用價(jià)值。近年來(lái),隨著成像光譜技術(shù)在航空遙感領(lǐng)域的快速發(fā)展,這項(xiàng)技術(shù)成為各個(gè)領(lǐng)域的重要監(jiān)測(cè)方法,涵蓋大氣圈、海洋研究、植被生態(tài)、礦產(chǎn)地質(zhì)、水體研究、軍事偵察和考古研究等領(lǐng)域,其應(yīng)用正在步入成熟期。特別的是,高光譜遙感[1]對(duì)植被的變化非常敏感,并能相當(dāng)準(zhǔn)確地反映這些變化,這為在大范圍內(nèi)估計(jì)植被的生理和生化參數(shù)提供了可能?;谥脖环瓷涓吖庾V的細(xì)微光譜差異分析在植被遙感研究領(lǐng)域顯示出強(qiáng)大的優(yōu)勢(shì),并已被廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)監(jiān)測(cè)中。雖然高光譜數(shù)據(jù)具有豐富的信息,但它有多個(gè)波段,且這些波段之間存在較高的相關(guān)性,這導(dǎo)致光譜信息冗余增加,導(dǎo)致反演結(jié)果失真,精度降低。因此,如何降低高光譜數(shù)據(jù)的維度,同時(shí)最大限度地保留光譜信息,已成為利用高光譜數(shù)據(jù)反演植被生理和生化參數(shù)的一個(gè)重要問(wèn)題[2]。
目前主流的反演模型都是基于機(jī)器學(xué)習(xí)的,如決策樹(shù)[3]、線性回歸[4]、KNN[5]等。雖然它們?cè)诜囱葜脖簧砗蜕瘏?shù)方面取得了一定的成功,但是往往還需要進(jìn)行光譜變換、去噪、降維等一系列預(yù)處理操作。數(shù)據(jù)的質(zhì)量將對(duì)機(jī)器學(xué)習(xí)算法模型的質(zhì)量好壞產(chǎn)生很大的影響。為了達(dá)到最好的性能,傳統(tǒng)的機(jī)器學(xué)習(xí)算法流程中,很大一部分工作就是在對(duì)數(shù)據(jù)進(jìn)行分析和處理。
深度學(xué)習(xí)是近年來(lái)一種先進(jìn)的面向數(shù)據(jù)的分析方法,它可以被描述為一個(gè)表示由多層人工神經(jīng)網(wǎng)絡(luò)組成的非線性處理的模型,并使用了多個(gè)神經(jīng)元。近年來(lái),由于神經(jīng)網(wǎng)絡(luò)其強(qiáng)大的特征抽象能力,許多基于神經(jīng)網(wǎng)絡(luò)的方法在許多應(yīng)用中取得了巨大的進(jìn)展,如計(jì)算機(jī)視覺(jué)和人工智能。基于神經(jīng)網(wǎng)絡(luò)的方法可以允許多層次化、有效地學(xué)習(xí)目標(biāo)數(shù)據(jù)的復(fù)雜、微妙、非線性和抽象表示[6]。因此,我們將神經(jīng)網(wǎng)絡(luò)應(yīng)用到反演應(yīng)用中,它可以自動(dòng)的選擇特征并得到好的輸出表示以克服一系列預(yù)處理問(wèn)題。雖然現(xiàn)有的研究大多集中在分類領(lǐng)域,但近年來(lái)神經(jīng)網(wǎng)絡(luò)模型在回歸問(wèn)題中的應(yīng)用有所增加。
本節(jié)主要介紹本文所使用的的數(shù)據(jù)集以及對(duì)其可視化分析。除此之外,我們還描述了本文所建立的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
葉片光學(xué)特性體驗(yàn)93(LOPEX93)數(shù)據(jù)庫(kù)是由歐洲委員會(huì)聯(lián)合研究中心(JRC)于1993年建立的[7]。該數(shù)據(jù)集提供了各種植物的生化成分,其中包括木質(zhì)素、葉綠素和葉酸、纖維素和淀粉等含量。我們使用其中45種不同的植物,共331個(gè)樣本的反射光譜進(jìn)行反演。其中,訓(xùn)練集與測(cè)試集我們劃分為8:2。
為了更好地對(duì)數(shù)據(jù)進(jìn)行可視化,我們對(duì)反射光譜中的所有樣本的每個(gè)波段求平均值,然后進(jìn)行數(shù)據(jù)的可視化最終得到如圖1所示的光譜曲線。
其中,橫坐標(biāo)為光譜的波長(zhǎng),縱坐標(biāo)為對(duì)光譜的反射率。由圖1可以看出,當(dāng)波長(zhǎng)400~500nm波段之間的光譜曲線所包含的有用信息較少時(shí),對(duì)植被光譜學(xué)的研究意義不大。同時(shí),為了便于后續(xù)的數(shù)據(jù)處理,本研究刪除了這部分的光譜數(shù)據(jù),并對(duì)剩余的光譜數(shù)據(jù)進(jìn)行了處理和分析。
圖1 平均光譜曲線Fig.1 Average spectral curve
神經(jīng)網(wǎng)絡(luò)模型通常由一個(gè)輸入層、一個(gè)輸出層和多個(gè)放置在它們之間的隱藏層組成,每一層都包含多個(gè)神經(jīng)元。具體來(lái)說(shuō),我們的網(wǎng)絡(luò)具有以下架構(gòu):一個(gè)輸入層和三個(gè)隱藏層,分別包含2000、256、256和128個(gè)神經(jīng)元,以及一個(gè)輸出層,節(jié)點(diǎn)完全連接。使用Relu激活函數(shù)作為神經(jīng)元的激活函數(shù)。所選擇的損失函數(shù)和優(yōu)化函數(shù)分別為MSELoss和Adam優(yōu)化器,網(wǎng)絡(luò)被訓(xùn)練為1000個(gè)Epoch。此外,Dropout[8]是一種正則化技術(shù),在每個(gè)訓(xùn)練步驟中隨機(jī)、暫時(shí)地去除固定比例的不同神經(jīng)元及其各自的連接,也被用來(lái)避免訓(xùn)練數(shù)據(jù)上復(fù)雜的協(xié)同適應(yīng),從而減少過(guò)擬合。我們構(gòu)建神經(jīng)網(wǎng)絡(luò)使用的環(huán)境為Windows系統(tǒng)下的Python+Pytorch,內(nèi)存32G,顯卡為2080TI。
本節(jié)主要介紹我們進(jìn)行對(duì)比實(shí)驗(yàn)的3種機(jī)器學(xué)習(xí)方法設(shè)置以及它們之間的性能對(duì)比,并作出了總結(jié)。
本文以決定系數(shù)R2和均方根誤差RMSE作為指標(biāo),評(píng)價(jià)各模型的預(yù)測(cè)能力。計(jì)算公式如式(1)、式(2)所示:
其中,n為樣本數(shù),yi和yj分別表示實(shí)測(cè)值和預(yù)測(cè)值。y-i和y-j分別表示實(shí)測(cè)值和預(yù)測(cè)值的平均值。其中,R2該值越高表示該模型的預(yù)測(cè)能力越強(qiáng)。RMSE數(shù)值越小,表示模型的實(shí)測(cè)值與預(yù)測(cè)值之間的偏差越小。
我們實(shí)驗(yàn)比較的方法有線性回歸、決策樹(shù)以及隨機(jī)森林[9]3個(gè)經(jīng)典的機(jī)器學(xué)習(xí)模型,它們常被用于各種反演任務(wù)當(dāng)中。為了防止訓(xùn)練出來(lái)的模型過(guò)擬合[10],我們?cè)谑褂眠@3個(gè)模型時(shí)預(yù)先做了降維處理。我們使用PCA[10]算法對(duì)原始光譜數(shù)據(jù)進(jìn)行降維。PCA是一種常用的數(shù)據(jù)分析方法,它通過(guò)線性變換將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。其中我們選取的主成分?jǐn)?shù)為5,每個(gè)主成分都是原始變量的線性組合,彼此相互獨(dú)立,這些主成分保留了原始變量中的絕大部分信息。這樣將2000維的原始數(shù)據(jù)維度降至為5。各主成分的累計(jì)方差貢獻(xiàn)率(Cumulative Variance Contribution Rate)如圖2所示,橫坐標(biāo)代表著主成分,縱坐標(biāo)代表著方差貢獻(xiàn)率。
圖2 PCA方差貢獻(xiàn)率圖Fig.2 PCA variance contribution rate
我們使用LOPEX93數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表1所示。其中線性回歸、決策樹(shù)、隨機(jī)森林的R2值分別為0.897、0.829、0.881,低于神經(jīng)網(wǎng)絡(luò)的0.945,而RMSE值分別為0.0023、0.0029、0.0024,高于神經(jīng)網(wǎng)絡(luò)的0.0012。由此我們可以得知,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行葉片等效水厚度反演與機(jī)器學(xué)習(xí)模型相比,具有較好的性能表現(xiàn)。
表1 對(duì)比實(shí)驗(yàn)Tab.1 Comparison experiment
地面高光譜數(shù)據(jù)提供了數(shù)千個(gè)波段的詳細(xì)植被反射率信息,這導(dǎo)致了在進(jìn)行回歸擬合出現(xiàn)維度災(zāi)難的問(wèn)題。如何在保存有效的光譜信息的同時(shí),提高預(yù)測(cè)模型的準(zhǔn)確性是一個(gè)具有挑戰(zhàn)性的問(wèn)題。為了解決這個(gè)問(wèn)題,本文使用神經(jīng)網(wǎng)絡(luò)進(jìn)行葉片等效水厚度高光譜反演實(shí)驗(yàn)。與傳統(tǒng)的機(jī)器學(xué)習(xí)的方法相比,神經(jīng)網(wǎng)絡(luò)不單可以省略降維步驟,還擁有優(yōu)越的性能。在樣本數(shù)量足夠的情況下,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行植物生化參數(shù)的反演能實(shí)現(xiàn)很小的誤差,對(duì)植物的動(dòng)態(tài)管理具有重要的意義。
雖然本研究證實(shí)了神經(jīng)網(wǎng)絡(luò)技術(shù)的可行性,但不幸的是,由于神經(jīng)網(wǎng)絡(luò)的“黑箱”性質(zhì)以及參與訓(xùn)練的網(wǎng)絡(luò)模型有大量的層和神經(jīng)元,預(yù)測(cè)模型的固有生物學(xué)機(jī)制難以理解。為了驗(yàn)證該模型在不同環(huán)境條件下預(yù)測(cè)葉片等效水厚度的有效性,本實(shí)驗(yàn)還需應(yīng)用于更多的研究領(lǐng)域。
引用
[1]樊麗,黃云,張敏,等.高光譜遙感技術(shù)在果樹(shù)研究中的應(yīng)用[J].中國(guó)果樹(shù),2022(10):67-71.
[2]蘇紅軍.高光譜遙感影像降維:進(jìn)展、挑戰(zhàn)與展望[J].遙感學(xué)報(bào),2022,26(8):1504-1529.
[3]李怡靜,孫曉敏,郭玉銀,等.基于梯度提升決策樹(shù)算法的鄱陽(yáng)湖水環(huán)境參數(shù)遙感反演[J].航天返回與遙感,2020,41(6):90-102.
[4]王宏博,趙梓淇,林毅,等.基于線性回歸算法的春玉米葉面積指數(shù)的冠層高光譜反演研究[J].光譜學(xué)與光譜分析,2017,37(5):1489-1496.
[5]蔣馥根.植被葉面積指數(shù)kNN優(yōu)化方法反演研究[D].長(zhǎng)沙:中南林業(yè)科技大學(xué),2020.
[6]王澤坤.基于深度學(xué)習(xí)的數(shù)據(jù)處理與密度反演方法研究[D].長(zhǎng)春:吉林大學(xué),2022.
[7]CHEN M,WENG F Z.Kramers-Kronig Analysis of Leaf Refractive Index with the PROSPECT Leaf Optical Property Model[J].Journal of Geophysical Research:Atmospheres,2012,117(D 18):D18106-1- D18106-9.
[8]韋卓,李穩(wěn)穩(wěn),林敏,等.基于Dropout深度信念網(wǎng)絡(luò)的棉和滌綸含量的近紅外光譜檢測(cè)[J].光學(xué)學(xué)報(bào),2021,41(17):197-203.
[9]楊麗萍,蘇志強(qiáng),侯成磊,等.基于隨機(jī)森林的干旱區(qū)全極化SAR土壤含水量反演[J].吉林大學(xué)學(xué)報(bào)(地球科學(xué)版),2022,52(4):1255-1264.
[10]李昌元,劉國(guó)棟,譚博.基于PCA和KPCA的高光譜遙感數(shù)據(jù)降維對(duì)比研究[J].地理空間信息,2022,20(7):89-93+103.