張瑩 董希斌 劉慧 高彤 任允澤 高然
(森林持續(xù)經(jīng)營與環(huán)境微生物工程黑龍江省重點實驗室(東北林業(yè)大學(xué)),哈爾濱,150040)
凋落物是陸地生態(tài)系統(tǒng)的重要組成部分[1],在森林土壤碳循環(huán)中起著重要的轉(zhuǎn)化和驅(qū)動作用[2]。凋落物積累和分解速率高將加速整個生態(tài)系統(tǒng)的碳循環(huán)過程,相反若速率放緩則會在一定程度影響該地區(qū)的碳平衡[3-5]。實時監(jiān)測和快速獲取植物凋落葉的碳質(zhì)量分?jǐn)?shù),可以及時推測凋落物的分解速率,有效掌握林業(yè)生態(tài)系統(tǒng)的環(huán)境狀況和生長發(fā)展動態(tài),同時也對估算植物凋落物碳儲量具有重要意義。傳統(tǒng)的植物碳質(zhì)量分?jǐn)?shù)檢測一般只能在實驗室完成,有干燒法和濕燒法兩種。濕燒法是利用植物有機碳容易被氧化的性質(zhì),采用重鉻酸鉀外加熱法測定[6],雖然精度較高,但費時費力,人為操作誤差較大,由于進行分析時所必須使用的化學(xué)試劑(濃硫酸和重鉻酸鉀),還存在環(huán)境污染的風(fēng)險。干燒法是利用元素分析儀進行測定[7],精度高于濕燒法,但設(shè)備價格昂貴,且需要專業(yè)的實驗人員。
近年來,隨著計算機視覺技術(shù)和機器學(xué)習(xí)的不斷發(fā)展,利用圖像信息實現(xiàn)元素質(zhì)量分?jǐn)?shù)預(yù)測的應(yīng)用也變得越來越廣泛。Furlanetto et al.[8]利用無人機搭載的可見和近紅外數(shù)碼相機的成像數(shù)據(jù)對玉米葉片鉀元素(K+)缺乏進行了鑒定和定量研究;Damayanti et al.[9]利用數(shù)字圖像數(shù)據(jù)和人工神經(jīng)網(wǎng)絡(luò)對木薯葉的葉綠素質(zhì)量分?jǐn)?shù)進行了預(yù)測研究;Zha et al.[10]利用機載多光譜相機的圖像數(shù)據(jù)和其他相關(guān)的土壤、天氣信息通過機器學(xué)習(xí)方法對水稻氮素進行了預(yù)測研究;Taneja et al.[11]利用手機采集圖像信息對土壤有機質(zhì)和土壤水分進行了預(yù)測研究;Ye et al.[12]利用對蘋果樹葉片的掃描信息實現(xiàn)葉片的氮和葉綠素濃度預(yù)測從而實現(xiàn)對蘋果樹營養(yǎng)狀況的快速、無損的評估;Wang et al.[13]將普通相機通過替換光學(xué)濾光片的方式改裝成可見光和近紅外相機,并利用自制可見和近紅外相機成像探究了植物葉片傾角對其葉綠素反演的影響;以及利用圖像信息對水果成熟度[14-15]和可溶性固形物含量[16]、土壤密度、孔隙度和粗糙度[17-19]、玉米種子活力[20]等的預(yù)測研究。
然而,利用可見光和近紅外相機獲取凋落葉的圖像信息對凋落葉碳質(zhì)量分?jǐn)?shù)進行預(yù)測方面的研究報道較少。因此,本研究以白樺凋落葉為研究對象,利用圖像處理技術(shù)提取特征值并進行篩選,并通過回歸分析建立白樺凋落葉碳質(zhì)量分?jǐn)?shù)預(yù)測模型,以確定機器學(xué)習(xí)在凋落葉碳質(zhì)量分?jǐn)?shù)預(yù)測中的可行性,為白樺凋落葉更直觀和長期連續(xù)性觀測提供了可能,同時也為凋落葉的碳質(zhì)量分?jǐn)?shù)估測提供了新的研究思路。
研究區(qū)位于哈爾濱市城市林業(yè)示范基地(東北林業(yè)大學(xué)),地理坐標(biāo)為45°42′~45°44′N、126°35′~126°39′E,總面積約50 hm2,海拔136~140 m, 屬于平原地帶。試驗區(qū)域氣候?qū)儆跍貛Ъ撅L(fēng)性氣候,土壤類型為黑土。本次試驗研究樣地為該林場內(nèi)白樺(BetulaplatyphyllaSuk.)人工林區(qū),該林地于1960年春以種植2 a實生苗建立,林木分布均勻,面積約0.5 hm2,林分年齡為65 a,含有白樺樹493株,平均胸徑20 cm。
本試驗樣品采集于2022年10月中旬,為白樺葉凋落季節(jié)。在樣地內(nèi)按五點取樣法,選擇5個5 m×5 m的樣方,將凋落葉層分為上層、中層和下層,并在樣方內(nèi)隨機采集凋落葉10~15片,然后將采集的凋落葉按片用牛皮紙袋平整裝好并編號,帶回實驗室,用于葉片的圖像采集和碳質(zhì)量分?jǐn)?shù)測定。
試驗使用兩款感光傳感器均為OV2710,最低照度為0.051 lx,具有200萬像素的工業(yè)攝像頭進行葉片圖像采集,一款為普通可見光攝像頭,一款為只允許700~1 100 nm波長光線透過的近紅外攝像頭。在植物取樣的同一天,進行葉片圖像采集。將單個葉片正面朝上放置在水平拍攝臺鋪設(shè)的白紙上面,兩款攝像頭并列安裝在拍攝臺上方大約25 cm處的支架上,調(diào)整支架,使鏡頭的方向與拍攝臺保持垂直,逐一放置樣品,并通過計算機編程語言Python軟件編程控制,同時拍攝葉片的可見光和近紅外圖像存儲在計算機中,保存為JPG格式并完成圖像編號(圖1)。圖像采集完成后,將葉片重新放回帶有編號的牛皮紙袋,放入烘箱內(nèi)105 ℃殺青15 min,然后在65 ℃恒溫條件下烘干24 h至恒質(zhì)量,研磨后過60目篩,采用德國總有機碳/總氮分析儀(analytikjena Multi N/C2100S)測定。
圖1 不同葉片的可見光和近紅外圖
對采集到的圖像進行預(yù)處理,從而獲取特征數(shù)據(jù)矩陣,主要流程如圖2所示。利用Python軟件分別將可見光圖像和近紅外圖像轉(zhuǎn)化成灰度圖像,然后通過最大類間方差法(OTSU)將灰度圖像轉(zhuǎn)化成二值圖像進行閾值分割,并進行輪廓篩選獲得葉片輪廓,最后將感興趣區(qū)域(ROI)切割出來得到單葉圖像。
圖像分割后,首先將可見光圖像進行彩色模式轉(zhuǎn)換,把光學(xué)三原色(RGB)圖像轉(zhuǎn)換成六角椎體模型(HSV)圖像和灰度圖像,然后將近紅外圖像,進行圖層分離,選取波長最大的波段圖層作為近紅外波段像素,并計算圖層均值(INIRmean),最后從RGB、HSV和單色圖像中提取葉片顏色、紋理和形狀特征,形成表1所示的數(shù)據(jù)集。圖像的顏色特征用顏色距和各波段圖層均值運算來表達,其中顏色矩主要包括RGB圖像的紅(R)、綠(G)、藍(B)三分量、HSV圖像的色調(diào)(H)、飽和度(S)、明度(V)三分量以及灰度圖像的灰度分量的一階矩、二階矩和三階矩。紋理特征則利用灰度圖像生成灰度共生矩陣來描述,基于灰度共生矩陣構(gòu)建統(tǒng)計量,本研究選擇能量、對比度、最大概率值、逆差分矩、差異分差、熵作為葉片圖像的紋理特征值。葉片的形狀特征從二值圖像中提取,選取葉片面積、葉片輪廓周長、葉片邊界矩陣長寬比、最小外接矩陣長寬比、葉片面積與邊界矩形面積比、輪廓面積與凸包面積比、圓形度、矩形度作為葉片的形狀特征參數(shù)。
圖2 最大類間方差法(OTSU)分割過程圖
表1 圖像特征參數(shù)
人工神經(jīng)網(wǎng)絡(luò)是一種基于生物神經(jīng)系統(tǒng),模擬神經(jīng)細胞接收、處理和傳導(dǎo)信號機制的運算模型[21]。人工神經(jīng)網(wǎng)絡(luò)由各種類似神經(jīng)元結(jié)構(gòu)的單元通過相互連接構(gòu)成,每個神經(jīng)元都包含一個偏差(θ),當(dāng)接收到的輸入信號通過權(quán)值(w)進行線性加權(quán)運算后,通過激活函數(shù)(f)變換獲得輸出值y(公式1),其中激活函數(shù)經(jīng)常使用S型生長曲線(sigmoid),從而有利于解釋輸入和輸出變量之間的非線性。一般來說,一個人工神經(jīng)網(wǎng)絡(luò)可以劃分為3個層,分別是輸入層(a),隱藏層(b),輸出層(c)。
(1)
式中:y為該神經(jīng)元輸出值;xi為輸入信號;wi為權(quán)值;θ為偏差;f為激活函數(shù)。
將特征向量作為輸入層進行上述計算后不斷傳播計算到輸出層,并與樣本值作比較,計算誤差,然后根據(jù)梯度下降法向前計算偏導(dǎo)數(shù)來更新各層的偏差和權(quán)重,反復(fù)計算后使輸出誤差達到很小值為止。本研究利用MATLAB軟件構(gòu)建簡單的3層神經(jīng)網(wǎng)絡(luò),將處理后的葉片圖像特征值作為輸入層,葉片的碳質(zhì)量分?jǐn)?shù)作為輸出,由于隱藏層的數(shù)量會影響模型的時間和性能,所以隱含層的神經(jīng)元數(shù)量通過試差法確定。同時為了得到更好的網(wǎng)絡(luò)初始權(quán)值和偏差,選用遺傳算法對神經(jīng)網(wǎng)絡(luò)進行優(yōu)化。
支持向量回歸模型是在支持向量機的基礎(chǔ)上對回歸任務(wù)進行優(yōu)化,適用于解決高維特征的回歸問題[22]。該算法用于在高維空間尋找超平面來最小化誤差,同時引入不敏感損失系數(shù)ε,當(dāng)預(yù)測值與觀測值的絕對差值不大于ε時,認(rèn)為損失值為0,從而最大化預(yù)測值和觀測值之間的邊際。此外在支持向量回歸模型中還可以應(yīng)用各種核函數(shù),幫助解決各種線性和非線性回歸問題。本研究利用Python軟件構(gòu)建了3種不同核函數(shù)的支持向量回歸模型,包括徑向基核函數(shù)、線性核函數(shù)、多項式核函數(shù),并比較不同模型對葉片碳質(zhì)量分?jǐn)?shù)的預(yù)測能力。
隨機森林是一種基于決策樹和裝袋算法結(jié)合的集成學(xué)習(xí)模型[23]。該算法通過對樣品數(shù)據(jù)集進行有放回隨機抽樣,產(chǎn)生多個與原始數(shù)據(jù)集容量數(shù)相同的不同數(shù)據(jù)子集,再將這些新數(shù)據(jù)集以并行模式構(gòu)建多棵決策樹,每棵決策樹通過不斷分化計算產(chǎn)生對應(yīng)的回歸預(yù)測數(shù)據(jù),最后將不同回歸樹返回的預(yù)測數(shù)值進行均值計算(公式2),得到最終的回歸預(yù)測結(jié)果。有放回的隨機抽樣和決策樹并行集合,提高了隨機森林模型對噪聲的容忍度。在隨機森林中,決策樹個數(shù)、最大深度、最小葉子節(jié)點樣本數(shù)和最大分離特征數(shù)都是需要優(yōu)化的模型超參數(shù),因此,為了定義最佳參數(shù),本研究利用Python語言中的Sklearn模塊對隨機森林模型的超參數(shù)進行自動優(yōu)化,尋找最佳預(yù)測模型。
(2)
試驗共獲取207組數(shù)據(jù),隨機選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集。為了對所建立的預(yù)測模型性能進行準(zhǔn)確評判,本研究選取平均絕對誤差(EMA)、均方根誤差(ERSM)、平均百分比誤差(EMAP)和決定系數(shù)(R2)作為評價指標(biāo),公式如下:
(3)
(4)
(5)
(6)
平均絕對誤差(EMA)、均方根誤差(ERSM)、平均百分比誤差(EMAP)越小,表明回歸模型的預(yù)測精度越高,R2值越高表明預(yù)測值和實際值之間相關(guān)性越大,兩者擬合度越好,即預(yù)測性能越好。
對從葉片圖像中提取的47個特征變量進行相關(guān)性分析,并繪制相關(guān)系數(shù)矩陣熱力圖(圖3),可以從圖中看出部分自變量之間相關(guān)性比較大,直接使用全部變量建模容易引起多重共線性問題,影響模型的穩(wěn)定性。
圖3 特征變量相關(guān)系數(shù)熱力圖
本研究采用主成分分析算法,將原始特征變量通過正交變換轉(zhuǎn)化成互不相干的綜合變量,并計算各綜合變量的累計方差貢獻率(圖4),同時為了盡可能的保留數(shù)據(jù)信息,對原始特征變量進行降維,最終選取前7個主成分(累計方差貢獻率達92%)作為新的特征變量。
圖4 主成分累計方差貢獻率
3.2.1 遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)模型(GA-BPNN)
將主成分分析降維后的7個特征變量作為輸入層,葉片碳質(zhì)量分?jǐn)?shù)作為輸出層,隱含層層數(shù)為1,根據(jù)隱含層節(jié)點個數(shù)的經(jīng)驗公式(公式7)對訓(xùn)練集進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,計算不同隱含層節(jié)點數(shù)的訓(xùn)練集均方誤差,由圖5可知當(dāng)節(jié)點數(shù)為11時,均方誤差最小,因此確定隱含層節(jié)點個數(shù)為11。為了得到更好的網(wǎng)絡(luò)初始權(quán)值和偏差,選用遺傳算法對神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,設(shè)遺傳算法的迭代次數(shù)為30,種群數(shù)為17,染色體的選擇方法為輪盤賭法,編碼方式為二進制法,交叉概率取0.7,變異概率取0.1,選擇166組訓(xùn)練樣本的預(yù)測值與期望值的誤差矩陣的范數(shù)作為適應(yīng)度值的目標(biāo)函數(shù),得到最佳的初始權(quán)值和閾值矩陣。然后利用訓(xùn)練集樣本對遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,設(shè)訓(xùn)練次數(shù)為10 000,學(xué)習(xí)率為0.1,動量系數(shù)為0.3,誤差閾值為0.000 001,建立葉片碳質(zhì)量分?jǐn)?shù)預(yù)測模型;再利用測試集樣本對預(yù)測模型進行驗證?;谶z傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的葉片碳質(zhì)量分?jǐn)?shù)預(yù)測模型效果和預(yù)測結(jié)果如表2、圖6所示。
(7)
式中:h為隱含層的節(jié)點個數(shù);a和b為輸入層和輸出層節(jié)點的個數(shù);c通常取 1~10的整數(shù)。
圖5 隱含層節(jié)點數(shù)尋優(yōu)結(jié)果
表2 GA-BPNN神經(jīng)網(wǎng)絡(luò)模型建模及預(yù)測結(jié)果
由表2可知,GA-BPNN模型對葉片碳質(zhì)量分?jǐn)?shù)的預(yù)測效果較好,在訓(xùn)練集上平均絕對誤差EMA、均方根誤差ERSM、平均百分比誤差EMAP和決定系數(shù)R2分別為6.472 4、7.917 9、0.014 9和0.670 8,測試集上相應(yīng)的統(tǒng)計指標(biāo)值平均絕對誤差、均方根誤差、平均百分比誤差和決定系數(shù)分別為7.508 1、8.671 3、0.017 2和0.533 9,說明該模型擬合程度較高,對葉片碳質(zhì)量分?jǐn)?shù)預(yù)測具有一定的實用價值。
3.2.2 支持向量機回歸模型(SVR)
使用Python語言中的Sklearn模塊構(gòu)建3種不同核函數(shù)的SVR模型。對徑向基核函數(shù)模型(RBF-SVR)和多項式核函數(shù)模型(Poly-SVR)中的函數(shù)系數(shù)(γ)和懲罰因子(C)進行網(wǎng)格搜索尋找最優(yōu)參數(shù),其中參數(shù)gamma的搜索數(shù)組為{0.01,0.05,0.1,0.15,0.2,0.25};C的搜索范圍為(1,10),步長為1。實驗結(jié)果表明:徑向基核函數(shù)模型的最優(yōu)參數(shù)組合為函數(shù)系數(shù)(γ)=0.05、C=10;多項式核函數(shù)模型的最優(yōu)參數(shù)組合為函數(shù)系數(shù)(γ)=0.05、C=1。對于線性核函數(shù)模型(Linear-SVR),無需對相關(guān)參數(shù)進行設(shè)置,均使用默認(rèn)參數(shù)。采用實驗獲取的各模型參數(shù)最優(yōu)值,對訓(xùn)練集數(shù)據(jù)進行模型訓(xùn)練,并對測試集進行驗證。建模和預(yù)測結(jié)果如表3、圖7所示。
從表3可知,Linear-SVR模型預(yù)測效果較好,訓(xùn)練集和測試集決定系數(shù)R2均大于0.5,說明模型預(yù)測值與真實值擬合結(jié)果較好;Poly-SVR模型雖然訓(xùn)練集的決定系數(shù)達到了0.662 0,但測試集決定系數(shù)為0.482 5,預(yù)測效果不佳,說明模型泛化能力較弱;與上面兩個模型相比,RBF-SVR模型的擬合效果最好,訓(xùn)練集和測試集的EMA分別為4.151 9和6.529 2、ERSM分別為6.624 4和7.925 2、EMAP分別為0.009 6和0.015 0,統(tǒng)計指標(biāo)值均為最小,且訓(xùn)練集決定系數(shù)達到了0.769 6,測試集決定系數(shù)達到了0.610 7,模型穩(wěn)定性較強。
3.2.3 隨機森林回歸模型(RFR)
因隨機森林回歸模型中超參數(shù)較多,本研究選用交叉驗證和網(wǎng)格搜索對參數(shù)進行尋優(yōu)。其中決策樹的數(shù)量(n_estimators)搜索范圍為(50,150),步長為10;每個葉子結(jié)點包含的最小分離樣本數(shù)(min_samples_leaf)搜索范圍為(1,7),步長為1;決策樹最大深度(max_depth)搜索數(shù)組為{1,5,10,50,100},最大特征數(shù)(max_features)搜索數(shù)組為{‘a(chǎn)uto’,‘sqrt’,‘log2’},交叉驗證(CV)值取15。利用訓(xùn)練集對模型進行訓(xùn)練,并根據(jù)訓(xùn)練樣本的得分確定隨機森林模型的最優(yōu)參數(shù)。各參數(shù)網(wǎng)格搜索得分結(jié)果如圖8所示,得到最佳的參數(shù)組合為n_estimators=80,max_features=‘a(chǎn)uto’,min_samples_leaf=1,max_depth=5。
表3 3種支持向量機回歸模型建模及預(yù)測結(jié)果
圖7 3種支持向量機回歸模型測試集的預(yù)測值與真實值散點圖
圖8 隨機森林模型參數(shù)網(wǎng)格搜索得分結(jié)果圖
采用實驗獲取的模型參數(shù)最優(yōu)值,對訓(xùn)練集數(shù)據(jù)進行模型訓(xùn)練,并對測試集進行驗證。建模和預(yù)測結(jié)果如表4、圖9所示。
表4 隨機森林模型建模及預(yù)測結(jié)果
從表4結(jié)果來看,在訓(xùn)練數(shù)據(jù)集上,RFR模型對葉片碳質(zhì)量分?jǐn)?shù)的擬合和預(yù)測效果最好,平均絕對誤差EMA、均方根誤差ERSM、平均百分比誤差EMAP和決定系數(shù)R2分別為4.625 3、5.608 7、0.010 6和0.834 8;測試集擬合結(jié)果低于訓(xùn)練集擬合結(jié)果,測試集決定系數(shù)僅為0.521 8,但R2大于0.5,說明該模型可以在一定程度實現(xiàn)對葉片碳質(zhì)量分?jǐn)?shù)的預(yù)測。
通過大津算法和彩色圖像模式轉(zhuǎn)化對可見光和近紅外攝像頭拍攝白樺凋落葉的圖像進行預(yù)處理,提取RGB、HSV和單色圖像中的葉片顏色、紋理和形狀特征,并利用主成分分析對提取到的47個特征變量降維,將降維后的7個新的特征變量作為GA-BPNN模型、SVR模型、RFR模型的輸入,構(gòu)建的不同模型并進行對比分析。在訓(xùn)練數(shù)據(jù)集上,RFR模型對葉片碳質(zhì)量分?jǐn)?shù)的擬合和預(yù)測效果最好,平均絕對誤差(EMA)為4.625 3,均方根誤差(ERSM)為5.608 7,平均百分比誤差(EMAP)為0.010 6,決定系數(shù)(R2)達到了0.834 8;在測試數(shù)據(jù)集上,RBF-SVR模型相比于GA-BPNN模型、RFR模型和其他核函數(shù)的SVR模型擬合和預(yù)測效果最佳,其平均絕對誤差(EMA)、均方根誤差(ERSM)、平均百分比誤差(EMAP)和決定系數(shù)(R2)分別為6.529 2、7.925 2、0.015 0和0.610 7,與其他模型相比統(tǒng)計指標(biāo)值均為最小。從訓(xùn)練集和預(yù)測集的綜合表現(xiàn)來看,RBF-SVR模型可預(yù)測該區(qū)域的白樺凋落葉碳質(zhì)量分?jǐn)?shù),為推測凋落物的分解速率提供了新方法。
圖9 隨機森林模型測試集的預(yù)測值與真實值散點圖