關(guān)鍵詞:土壤有機(jī)質(zhì);高光譜;生成式對(duì)抗網(wǎng)絡(luò);反向傳播神經(jīng)網(wǎng)絡(luò)
煙草是我國(guó)重要的經(jīng)濟(jì)作物之一,其生長(zhǎng)發(fā)育及煙葉的質(zhì)量與土壤條件密切相關(guān)[1],當(dāng)土壤肥力過低時(shí),煙草生長(zhǎng)受限,煙葉小而??;當(dāng)土壤肥力過高時(shí),煙株生長(zhǎng)過旺,煙葉不易落黃,烤后煙可用性較差[2]。土壤有機(jī)質(zhì)(soilorganicmatter,SOM)作為評(píng)估土壤肥力的一項(xiàng)重要指標(biāo),在作物生長(zhǎng)和品質(zhì)等方面發(fā)揮著重要作用[3-4]。傳統(tǒng)測(cè)定SOM多以化學(xué)分析法為主,由于時(shí)效性低,難以滿足現(xiàn)代農(nóng)業(yè)的需求[5-6],因此,準(zhǔn)確、快速的SOM含量估測(cè)方法,對(duì)于田間精準(zhǔn)施肥以及煙葉質(zhì)量提高具有重要指導(dǎo)意義。
高光譜技術(shù)憑借較高的光譜分辨率、更廣的波段范圍,已廣泛應(yīng)用于土壤重金屬[7]、堿解氮[8]、鹽分[9]、水分[10]等含量的估測(cè)。特別是近些年來,機(jī)器學(xué)習(xí)算法憑借其可處理非線性問題的優(yōu)勢(shì),已成為當(dāng)前最主要的建模方法[11-12]。在SOM含量估測(cè)方面,張秀全等[13]采集66份農(nóng)田表層褐土樣本,構(gòu)建了SOM的堆疊泛化模型,該模型對(duì)于SOM含量的高光譜估測(cè)優(yōu)勢(shì)明顯。Jia等[14]采集了85份濕地表層土壤樣本,基于海洋捕食者算法的隨機(jī)森林(marine-predators-algorithm-basedrandomforest,MPARF)方法建立估測(cè)模型,發(fā)現(xiàn)該算法可實(shí)現(xiàn)對(duì)濕地土壤SOM準(zhǔn)確估測(cè)。Wan等[15]獲取78份東北黑土樣本,并使用偏最小二乘回歸(partialleastsquaresregression,PLSR)構(gòu)建了SOM的最優(yōu)估測(cè)模型。
野外采集土壤樣品,易受到人力、地形、氣候等因素的影響,特別是在地形復(fù)雜、海拔較高的山區(qū),采集土壤樣品難度較大。因此,在有限樣本的情況下,如何實(shí)現(xiàn)土壤理化參數(shù)的高精度估測(cè),是目前的研究熱點(diǎn)。何少芳等[16]使用生成式對(duì)抗網(wǎng)絡(luò)(generativeadversarialnetworks,GAN)生成偽樣本擴(kuò)充建模集,結(jié)合PLSR、交叉驗(yàn)證嶺回歸(ridgecrossvalidation,RCV)和反向傳播神經(jīng)網(wǎng)絡(luò)(backpropagationneuralnetworks,BPNN)建立SOM估測(cè)模型,結(jié)果表明隨著偽樣本數(shù)量的增加,模型性能顯著提高,模型精度呈現(xiàn)出先升后降的趨勢(shì)。
目前大多研究使用的建模樣本數(shù)量有限,關(guān)于通過擴(kuò)充樣本集提高模型精度的研究較少。雖已有研究借助GAN生成偽樣本構(gòu)建模型,但未考慮對(duì)偽樣本使用光譜變換、特征提取等方法進(jìn)行處理。光譜處理方法是否適用于偽樣本,以及處理后能否提高模型的估測(cè)精度,也需進(jìn)一步證實(shí)。因此,本研究以較有代表性(山區(qū)、地形復(fù)雜、海拔較高)的湖北省保康縣和宣恩縣境內(nèi)的4塊煙田(海拔800~1300m)為采樣點(diǎn),基于土壤樣本構(gòu)建GAN的生成模型,并按照建模集30%、70%、100%、150%、200%、250%的比例生成偽樣本擴(kuò)充樣本集,采用標(biāo)準(zhǔn)正態(tài)變換(standardnormalvariable,SNV)、多元散射校正(multiplicativescattercorrection,MSC)組合一階微分(FD)、倒數(shù)對(duì)數(shù)(LR)以及倒數(shù)對(duì)數(shù)一階微分(LRFD)進(jìn)行預(yù)處理,結(jié)合皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient,PCC)篩選敏感波段,使用PLSR、隨機(jī)森林(randomforest,RF)和BPNN3種機(jī)器學(xué)習(xí)方法構(gòu)建估測(cè)模型,研究GAN生成的偽樣本對(duì)模型精度的影響,對(duì)比選出煙田SOM的最優(yōu)估測(cè)模型,為復(fù)雜山區(qū)煙田SOM的精準(zhǔn)估測(cè)提供技術(shù)支撐。
1材料與方法
1.1試驗(yàn)地概況
試驗(yàn)取樣點(diǎn)位于湖北省襄陽市的??悼h(110°45′~111°31′E,31°21′~32°06′N)和恩施土家族自治州的宣恩縣(109°11′~109°55′E,29°33′~30°12′N)。??悼h位于秦巴山脈邊緣地帶,屬于亞熱帶季風(fēng)氣候,四季分明,日照充足[17]。宣恩縣位于武陵山和齊躍山之間,屬于中亞熱帶季風(fēng)濕潤(rùn)型山地氣候,年均氣溫為13.7℃[18]。
1.2樣本采集與光譜測(cè)定
以??悼h的3塊煙田和宣恩縣的1塊煙田作為采樣區(qū),其中??悼h的每塊煙田均勻布設(shè)24個(gè)采樣點(diǎn),宣恩縣為22個(gè)采樣點(diǎn),共采集土壤樣本94份。使用五點(diǎn)采樣法均勻采集約0~10cm深的土壤,裝入密封袋并標(biāo)號(hào),同時(shí)使用手持GNSS(南方銀河一號(hào))測(cè)定和記錄每個(gè)采樣點(diǎn)的位置信息。將采集到的土壤樣本用烘箱烘干(120℃,8h),研磨并經(jīng)2mm孔徑過篩處理后,將每份土樣分為2份,一份通過重鉻酸鉀氧化容量法[19]測(cè)定SOM含量,另一份用于光譜數(shù)據(jù)采集。
采用ASDFieldSpec4地物光譜儀(美國(guó))測(cè)定光譜反射率,波譜范圍為350~2500nm,采樣間隔為1nm,重采樣間隔為10nm。采樣在暗室內(nèi)進(jìn)行,土壤樣本被盛放在直徑10cm、深2cm的不透光黑色容器中,使用50W的鹵素?zé)糇鳛楣庠?,光源距離土壤樣本30cm,光源入射角為30°,光纖探頭垂直于待測(cè)樣本上方15cm處。為消除測(cè)量誤差,每份土樣測(cè)量時(shí)旋轉(zhuǎn)360°,每旋轉(zhuǎn)90°采集4條光譜曲線,共采集16條光譜曲線。取平均后得到每個(gè)樣本的實(shí)際光譜反射率數(shù)據(jù),剔除噪聲較大的350~399nm和2401~2500nm的邊緣波段。
1.3數(shù)據(jù)預(yù)處理與特征提取
1.3.1樣本劃分與光譜預(yù)處理 采用Kennard-Stone算法劃分?jǐn)?shù)據(jù)集,70%(65個(gè)樣本)的樣本作為建模集,剩余30%(29個(gè)樣本)的樣本作為測(cè)試集。使用Savizkg-Golag平滑窗口,大小設(shè)置為17,多項(xiàng)式階數(shù)設(shè)置為2,對(duì)數(shù)據(jù)進(jìn)行去噪處理。對(duì)處理后的光譜反射率使用SNV和MSC兩種光譜增強(qiáng)方法,組合FD、LR以及LRFD3種數(shù)學(xué)變換進(jìn)行光譜預(yù)處理。
1.3.2特征提取 對(duì)預(yù)處理后的反射率使用PCC計(jì)算其與SOM的相關(guān)性,篩選通過0.05顯著性檢驗(yàn)的波段作為顯著性波段,使用全波段與顯著性波段兩種反射率數(shù)據(jù)作為建模集。
1.4模型的建立與評(píng)估
1.4.1生成式對(duì)抗網(wǎng)絡(luò)構(gòu)建 GAN主要由生成器和判別器組成[20],生成器(圖1a)的輸入是長(zhǎng)度為10且符合高斯分布的隨機(jī)噪聲,共設(shè)置4個(gè)全連接層,各層神經(jīng)元數(shù)分別為50、100、150、217,除最后一層外每層各設(shè)有一個(gè)標(biāo)準(zhǔn)化層,激活函數(shù)為GELU,優(yōu)化器選擇為Adam,學(xué)習(xí)率設(shè)為0.0002。判別器(圖1b)的網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)、優(yōu)化器與生成器相同,各層的神經(jīng)元數(shù)分別為217、150、100、50,優(yōu)化器學(xué)習(xí)率設(shè)為0.0001,損失函數(shù)選擇二元分類交叉熵。試驗(yàn)采用累計(jì)訓(xùn)練的方法設(shè)置1000次的預(yù)訓(xùn)練,之后每隔1000次保存模型。
1.4.2估測(cè)模型構(gòu)建 選擇PLSR、RF、BPNN3種機(jī)器學(xué)習(xí)方法構(gòu)建SOM估測(cè)模型。其中,BPNN為3層密集層模型,每層各設(shè)有標(biāo)準(zhǔn)化層和丟棄層(每輪丟棄40%的神經(jīng)元),各層神經(jīng)元數(shù)量分別為50、30、20,除輸出層外每層使用LeakyReLU作為激活函數(shù),超參數(shù)α為0.002,初始化策略為He,優(yōu)化器選擇Adam,學(xué)習(xí)率設(shè)置為0.001,損失函數(shù)為均方根誤差,模型最大訓(xùn)練輪次設(shè)為2500,設(shè)置提前停止,當(dāng)訓(xùn)練超過500輪沒有進(jìn)展則自動(dòng)結(jié)束訓(xùn)練。PLSR、RF則使用網(wǎng)格搜索自動(dòng)尋找最優(yōu)超參數(shù)。
1.4.3模型評(píng)估 采用決定系數(shù)(coefficientofdetermination,R2)、相對(duì)分析誤差(relativepercentdifference,RPD)和均方根誤差(rootmeansquareerror,RMSE)來綜合評(píng)估模型預(yù)測(cè)精度。其中R2越接近1,RPD越大,RMSE越小,說明模型的預(yù)測(cè)精度越高,建模效果越好,計(jì)算公式如下:
其中,為樣本個(gè)數(shù),和分別為第個(gè)樣本的預(yù)測(cè)值和實(shí)測(cè)值,為所有樣本實(shí)測(cè)值的均值,SD為預(yù)測(cè)值的標(biāo)準(zhǔn)差。
2結(jié)果
2.1SOM含量統(tǒng)計(jì)特征
如表1所示,SOM含量的最大值、最小值、平均值分別為44.31、5.74、32.08g/kg,變異系數(shù)為31%,屬于中等變異,根據(jù)全國(guó)第二次土壤普查及有關(guān)標(biāo)準(zhǔn)[21],樣本土壤有機(jī)質(zhì)含量屬于2級(jí)較高水平。
2.2不同SOM光譜反射率變化曲線
將SOM含量依照四分位數(shù)(數(shù)值由小到大排列后,取其百分比位置處的實(shí)際值)劃分后計(jì)算平均值生成4條光譜曲線(圖2)。如圖2所示,隨著SOM含量的增加,光譜反射率總體呈降低趨勢(shì),但17.74~22.30g/kg與22.30~29.21g/kg的平均反射率有部分重疊。SOM含量位于5.74~17.74g/kg時(shí),其400~2400nm波長(zhǎng)范圍的平均反射率低于其他3條光譜曲線。
2.3不同訓(xùn)練階段GAN的生成樣本
為觀察不同訓(xùn)練階段GAN的樣本生成質(zhì)量,每間隔5000輪訓(xùn)練后生成偽樣本,如圖3所示。前15000輪次訓(xùn)練后生成的偽樣本,反射率曲線受噪聲影響表現(xiàn)相對(duì)較差,難以作為訓(xùn)練樣本添加進(jìn)建模集中。隨著訓(xùn)練輪次的增加,生成的樣本曲線逐漸具有真實(shí)樣本特征。當(dāng)訓(xùn)練輪次達(dá)到25000時(shí),在整個(gè)波段范圍內(nèi),反射率曲線表現(xiàn)平滑,波峰波谷較為明顯。因此,選擇25000輪次訓(xùn)練后的GAN模型作為偽樣本的生成模型。
使用選擇的GAN模型生成94份偽樣本,依照上述真實(shí)樣本方法劃分4條偽光譜曲線(圖4)。通過觀察對(duì)比可以發(fā)現(xiàn),GAN所生成的偽樣本,與真實(shí)樣本的反射率與SOM含量之間的變化規(guī)律基本吻合。
2.4模型估測(cè)結(jié)果分析
2.4.1原始數(shù)據(jù)模型估測(cè)結(jié)果分析 使用全波段以及顯著性波段,建立SOM機(jī)器學(xué)習(xí)估測(cè)模型,建模前,原始反射率經(jīng)MSC+LRFD處理后,與SOM含量的相關(guān)性提升明顯,相關(guān)系數(shù)最高可達(dá)到0.66(圖5),對(duì)比原始反射率的最大值0.30提升120.00%。
建模過程中,由于LR變換后通過假設(shè)檢驗(yàn)的顯著性波段過少,模型估測(cè)結(jié)果較差,故不再對(duì)估測(cè)結(jié)果進(jìn)行展示,其余各模型估測(cè)結(jié)果如表2所示。使用全波段建模,經(jīng)過MSC+LRFD預(yù)處理后的RF模型精度最高,最高測(cè)試集精度R2、RPD和RMSE分別為0.70、1.83和3.85。相較于未經(jīng)過光譜處理的最優(yōu)模型,測(cè)試集精度提升29.63%。這表明,組合MSC和LRFD進(jìn)行預(yù)處理后,可以有效提升模型的估測(cè)精度。
使用顯著性波段建模,經(jīng)過MSC+LRFD預(yù)處理后的BPNN模型測(cè)試集精度最高,模型估測(cè)結(jié)果如圖6所示,其R2、RPD和RMSE分別為0.73、1.91和3.70。對(duì)比全波段的最優(yōu)模型R2提升了4.29%。這表明,通過PCC篩選出顯著性波段進(jìn)行建模,可以進(jìn)一步提高模型的估測(cè)精度。
2.4.2基于GAN的生成樣本數(shù)據(jù)模型估測(cè)結(jié)果分析 使用GAN按照建模集樣本數(shù)生成其30%(偽樣本數(shù)量為20個(gè))、70%(46個(gè))、100%(65個(gè))、150%(98個(gè))、200%(130個(gè))、250%(163個(gè))比例的偽樣本,用于擴(kuò)充樣本集并構(gòu)建模型,不同比例偽樣本反射率以及其相對(duì)應(yīng)有機(jī)質(zhì)含量,都為GAN通過學(xué)習(xí)真實(shí)樣本分布后隨機(jī)生成(圖7)。
通過對(duì)比添加不同比例偽樣本的模型驗(yàn)證精度,選取最優(yōu)的SOM估測(cè)模型,其結(jié)果如表3所示。(1)當(dāng)添加偽樣本數(shù)量較少時(shí),對(duì)模型精度產(chǎn)生的影響較小,隨著偽樣本數(shù)量的增加,模型測(cè)試集R2呈現(xiàn)出先升后降的趨勢(shì)。(2)當(dāng)偽樣本比例較低時(shí),PLSR具有最佳的測(cè)試精度,但隨著偽樣本比例增加,BPNN的精度整體高于PLSR和RF,并且所適用的樣本預(yù)處理方法也不具備普適性。試驗(yàn)結(jié)果表明,當(dāng)借助GAN生成150%的偽樣本參與建模時(shí)對(duì)測(cè)試精度的提升最高。
由表4可知,當(dāng)添加比例為150%時(shí),經(jīng)過MSC光譜處理后使用顯著性波段建立的BPNN模型的測(cè)試集精度最高,其R2、RPD和RMSE分別為0.80、2.22和3.18。對(duì)比未添加偽樣本的最優(yōu)模型R2(表2)提高了9.59%,模型性能提升顯著。
通過GAN添加150%的偽樣本,并經(jīng)過MSC光譜處理后使用顯著性波段建立的BPNN模型估測(cè)結(jié)果如圖8所示。模型建模集和驗(yàn)證集R2均在0.80及以上,這表明,除了對(duì)光譜進(jìn)行預(yù)處理和特征篩選之外,還可以通過添加偽樣本參與建模提升模型的估測(cè)精度。
3討論
本研究通過對(duì)SOM含量進(jìn)行區(qū)間劃分發(fā)現(xiàn),當(dāng)SOM含量在17.74~44.31g/kg時(shí),在350~1750nm波段范圍內(nèi),光譜反射率與SOM含量呈現(xiàn)負(fù)相關(guān),這與胡飛等[22]的研究結(jié)果一致。而在5.74~17.74g/kg時(shí),光譜反射率與SOM含量呈現(xiàn)正相關(guān),原因可能是當(dāng)SOM含量占比較低時(shí),無法作為土壤反射率變化的主導(dǎo)參數(shù),光譜反射率受其他土壤理化參數(shù)影響較大[23]。
試驗(yàn)組合不同的光譜處理,旨在降低光譜反射率中的噪聲干擾,突出光譜特征差異,增強(qiáng)反射率與SOM之間的相關(guān)性,結(jié)果證明,采用光譜增強(qiáng)或是數(shù)學(xué)變換,或者將兩者相結(jié)合,都可以給模型的估測(cè)精度帶來顯著提升,這與Xie等[24]研究結(jié)論相同。
研究基于GAN來擴(kuò)充建模集,結(jié)果發(fā)現(xiàn),隨著偽樣本數(shù)量的增加,模型精度呈現(xiàn)先升后降的趨勢(shì),原因可能是偽樣本中存在不確定性的噪聲,導(dǎo)致自變量(反射率)對(duì)因變量(SOM含量)的解釋能力被稀釋,過度擬合了偽樣本中一些不穩(wěn)定的細(xì)節(jié),從而使模型的精度降低。建模過程中,BPNN的模型精度逐漸優(yōu)于其他模型,原因可能是樣本數(shù)量的增加放大了潛在的特征關(guān)系,數(shù)據(jù)的質(zhì)量和多樣性直接影響到模型的性能,而BPNN本身就需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練才能獲得更好的泛化能力。因此,隨著建模樣本數(shù)量的提升,BPNN開始逐漸發(fā)揮其優(yōu)勢(shì)。GAN作為一種深度學(xué)習(xí)算法,對(duì)訓(xùn)練樣本數(shù)量要求較低[25]。Jiang等[26]采集了42份青藏高原退化高寒草甸土壤,通過使用GAN和EMSA(extendedmultiplicativesignalaugmentation)兩種模型生成數(shù)據(jù),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)構(gòu)建了SOM估測(cè)模型。研究得出,GAN可以生成與真實(shí)數(shù)據(jù)非常相似的數(shù)據(jù),并且具有更好的多樣性,對(duì)模型性能的提升也高于EMSA。隨著偽樣本的增加,模型性能先升后降,這與本研究結(jié)論一致。同時(shí),也進(jìn)一步驗(yàn)證了借助GAN模型來提升SOM估測(cè)精度的可行性。
本研究為山區(qū)煙田SOM含量的精準(zhǔn)估測(cè)提供一種新思路,但仍存在一些不足。首先,對(duì)比整數(shù)階微分,分?jǐn)?shù)階微分能夠挖掘數(shù)據(jù)的細(xì)節(jié),更充分地利用高光譜信息[27-28];因此,對(duì)光譜處理技術(shù)帶來的提升仍需要進(jìn)一步驗(yàn)證。其次,本研究雖采用PCC篩選出敏感特征波段,但仍未解決變量之間可能存在的共線性問題。最后,近年來GAN在生成領(lǐng)域取得了顯著的成果,許多研究提出了改進(jìn)的算法和技術(shù),對(duì)于結(jié)合新技術(shù)來提高光譜樣本的生成質(zhì)量,還需要進(jìn)一步研究。
4結(jié)論
本研究使用高光譜遙感結(jié)合機(jī)器學(xué)習(xí)算法,對(duì)湖北煙田的SOM含量進(jìn)行了估測(cè)。結(jié)果表明:
(1)反射率經(jīng)過SNV組合LRFD處理后相關(guān)系數(shù)絕對(duì)值最高為0.66,對(duì)比原始反射率最大提升120.00%,隨后經(jīng)過PCC篩選出顯著性波段后,BPNN模型的預(yù)測(cè)精度最高,R2、RPD和RMSE分別為0.73、1.91和3.70,對(duì)比全波段的最優(yōu)模型R2提升了4.29%。
(2)經(jīng)過25000輪訓(xùn)練后的GAN能生成具有真實(shí)樣本特征的偽樣本,其反射率與SOM含量之間也具備真實(shí)樣本的變化規(guī)律,可以實(shí)現(xiàn)對(duì)樣本集的擴(kuò)充,并參與到后續(xù)建模中提升模型精度。
(3)通過GAN生成原始建模集樣本數(shù)量150%(98個(gè))的偽樣本來擴(kuò)充樣本集,并結(jié)合MSC和PCC篩選敏感波段后,BPNN模型的預(yù)測(cè)精度最高,R2、RPD和RMSE分別為0.80、2.22和3.18,對(duì)比原始樣本的最優(yōu)模型R2提升了9.59%。因此,基于GAN的BPNN模型是煙田土壤有機(jī)質(zhì)含量的最優(yōu)估測(cè)模型。