王 正,孫兆軍,禹 昭,何 俊,韓 磊,李 茜
(1.寧夏大學(xué)土木與水利工程學(xué)院,銀川 750021;2.寧夏大學(xué)新華學(xué)院,銀川 750021;3.寧夏大學(xué)環(huán)境工程研究院,銀川 750021;4.寧夏(中阿)旱區(qū)資源評價(jià)與環(huán)境調(diào)控重點(diǎn)實(shí)驗(yàn)室,銀川 750021)
土壤有機(jī)質(zhì)是耕作土壤中最重要的屬性之一,它不僅為作物的生長提供條件,而且在改良土壤理化性質(zhì)方面發(fā)揮著重要作用,尤其在鹽堿土壤生態(tài)修復(fù)中的表現(xiàn)更為顯著[1]。大量研究表明,可利用多種工具進(jìn)行土壤有機(jī)質(zhì)含量的估算,如粒子群優(yōu)化[2]、偏最小二乘回歸[3]、高光譜數(shù)據(jù)處理[4]等。另外,土壤鹽分參數(shù)與有機(jī)質(zhì)含量之間存在極其復(fù)雜的聯(lián)系,這使得利用智能算法來高效、準(zhǔn)確估算有機(jī)質(zhì)含量成為可能[4]。
利用智能算法來估算土壤有機(jī)質(zhì)含量的方法,國內(nèi)外學(xué)者做了大量工作[5,6]。劉二永[7]等研究了環(huán)境因子與有機(jī)質(zhì)的相關(guān)關(guān)系,并利用環(huán)境因子所對應(yīng)參數(shù)結(jié)合回歸-光滑薄板樣條插值方法(R-STPS)對有機(jī)質(zhì)含量進(jìn)行了空間預(yù)測,預(yù)測結(jié)果表明,R-STPS能高效地進(jìn)行預(yù)測。但其建立的模型過于簡單,未考慮土壤類型和耕作方式等對有機(jī)質(zhì)的影響。蔡劍華[8]等探討了將經(jīng)驗(yàn)?zāi)B(tài)分解方法與近紅外光譜數(shù)據(jù)結(jié)合來預(yù)測土壤有機(jī)質(zhì)含量,結(jié)果表明,該方法具有較高的可靠性,預(yù)測效果明顯優(yōu)于傳統(tǒng)方法。Razakamanarivo[9]等利用線性回歸模型、多元回歸模型和回歸樹三種方法結(jié)合生態(tài)環(huán)境因素和空間因素對土壤有機(jī)質(zhì)含量進(jìn)行了預(yù)測,結(jié)果表明回歸樹相比前兩種方法來說具有更高的精度,同時(shí)也非常適合處理非線性的數(shù)學(xué)模型。Manpreet[10]等討論了不同類型的土壤在不同含鹽量的情況下對土壤有機(jī)質(zhì)含量的影響。
目前,多數(shù)估算土壤有機(jī)質(zhì)含量的文獻(xiàn)都是基于高光譜、遙感數(shù)據(jù)等無人機(jī)遙感技術(shù),再結(jié)合智能算法對其進(jìn)行了預(yù)測與反演[11,12]。但是這些方法最大弊端是只能針對表層大約10 cm左右的土壤進(jìn)行預(yù)測反演,無法應(yīng)用于深層土壤,而且,由于土壤表層會(huì)被其他物質(zhì)或植被掩蓋和包圍再加上電磁波的穿透能力有限,這樣就難免會(huì)對預(yù)測的結(jié)果形成消極影響[13]。另外,無人機(jī)遙感很容易受氣候、地理?xiàng)l件等客觀因素的影響,會(huì)導(dǎo)致不充分、不可靠和不準(zhǔn)確的計(jì)算結(jié)果[14]。鑒于BP神經(jīng)網(wǎng)絡(luò)(BPNN)變化多端的結(jié)構(gòu)形式以及強(qiáng)大的非線性模型的表現(xiàn)能力,回歸型支持向量機(jī) (SVR)在多因子檢測分類領(lǐng)域中是一種非常有效且精確度較高的工具[15-17],它們被廣泛應(yīng)用于模式預(yù)測、識別等智能預(yù)測評估領(lǐng)域[18-20]。本研究針對BPNN學(xué)習(xí)速度慢且容易陷入局部最優(yōu)值的缺點(diǎn),對其網(wǎng)格中的權(quán)值和閾值進(jìn)行了改進(jìn),而且基于改進(jìn)BPNN優(yōu)化算法的SVR提出有機(jī)質(zhì)含量估算模型。分析土壤有機(jī)質(zhì)含量與鹽堿土鹽分之間的相關(guān)關(guān)系,并利用鹽分參數(shù)對寧夏吳忠樹新林場的鹽堿土壤有機(jī)質(zhì)含量進(jìn)行預(yù)測,并從估算結(jié)果、決定系數(shù)、均方誤差等方面進(jìn)行對比分析。
樹新林場地處寧夏平原中部的青銅峽市(38°36′N,105°56′E),位于黃河西岸,屬中溫帶半干旱氣候,晝夜溫差大,年平均氣溫為8.5 ℃,年降水量為260.7 mm。樹新林場處于黃河沖積平原,土壤主要以砂質(zhì)壤土為主,次生鹽漬化較嚴(yán)重,其中原狀土飽和泥漿電導(dǎo)率介于4.60~25.50 dS/m之間,pH值介于8.50~11.80之間。
土壤鹽分?jǐn)?shù)據(jù)采集于2017年8月。此次選取了吳忠樹新林場內(nèi)的鹽堿試驗(yàn)地,將樣地設(shè)置面積為16 m2的等大正方形區(qū)域11個(gè),然后在正方形形心位置處重復(fù)取3次樣,采樣深度為0~20、20~40、40~60、60~80和80~100 cm等5個(gè)處理,共采集樣品165個(gè)。采集的土壤樣品帶回后,經(jīng)過挑揀雜物、自然晾干、過1 mm孔篩等前處理工序后,然后按照土壤鹽分、土壤有機(jī)質(zhì)、土壤pH值等項(xiàng)目逐步進(jìn)行測量,求取平均值后的結(jié)果如表1所示。
建立基于改進(jìn)BPNN與回歸支持向量機(jī)(SVR)的有機(jī)質(zhì)預(yù)測模型。其中,利用改進(jìn)BPNN方法選取最優(yōu)SVR參數(shù),而SVR則選用分塊算法對樣本數(shù)據(jù)進(jìn)行訓(xùn)練,減少算法的運(yùn)算時(shí)間,同時(shí)研究不同核函數(shù)對模型性能的影響,并將土壤鹽分參數(shù)作為預(yù)測變量并進(jìn)行回歸分析。
1.2.1 回歸支持向量機(jī)(SVR)
表1 試驗(yàn)區(qū)中的土樣數(shù)據(jù)Tab.1 Soil sample’s data in the test area
建立如下的線性回歸函數(shù):
f(x)=λΨ(x)+ξ
(1)
式中:λ為權(quán)重參數(shù)向量;Ψ(x)為非線性映射函數(shù);ξ為偏置參數(shù)向量。
為了便于處理,可以利用Largrange函數(shù)將原問題轉(zhuǎn)換為對偶問題,最終得到回歸函數(shù)為:
f(x)=λ*Ψ(x)+ξ*=
(2)
式中:xi為待求解問題中的支持向量。
1.2.2 BP神經(jīng)網(wǎng)絡(luò)(BPNN)
誤差反向傳播算法(EBPA)是著名的BPNN學(xué)習(xí)算法,由Rumelhart[21]等人提出。中心思想是將實(shí)際輸出與理想輸出之間的誤差歸因于權(quán)值和閾值的“過錯(cuò)”,通過反向傳播將該誤差“攤派”給各個(gè)神經(jīng)元,并對權(quán)值和閾值進(jìn)行調(diào)整。
因此,本文利用式(3)和式(4)對權(quán)值和閾值進(jìn)行調(diào)整改進(jìn)了算法。
(3)
(4)
式中:η1和η2分別為隱含層和輸出層的學(xué)習(xí)步長。
1.2.3 模型評價(jià)
為了更好地研究預(yù)測模型的精度,本研究利用決定系數(shù)(R2)來衡量其穩(wěn)定性,用均方差(MSE)來反映模型的預(yù)測能力,用平均相對誤差(ARE)反映預(yù)測模型的可信程度,評價(jià)指標(biāo)的誤差值越小就說明模型的精度越高。
2.1.1 描述性統(tǒng)計(jì)分析
剔除異常數(shù)值后的土壤有機(jī)質(zhì)統(tǒng)計(jì)特征如表2所示。從表2可以看出,變異系數(shù)為63.46%,所以樹新林場的土壤有機(jī)質(zhì)屬于中等變異。檢驗(yàn)土壤有機(jī)質(zhì)數(shù)據(jù)的偏度和峰度,偏度為0.34,峰度為-0.71,基本服從正態(tài)分布。
2.1.2 土壤有機(jī)質(zhì)與土壤鹽分參數(shù)相關(guān)性分析
表2 樹新林場的土壤有機(jī)質(zhì)統(tǒng)計(jì)特征 Tab.2 Statistic characteristic values of soil organic matter in Shuxin forest farm
表3 土壤有機(jī)質(zhì)與土壤鹽分參數(shù)間的相關(guān)系數(shù) Tab.3 Correlations between soil salinity parameters and soil organic matters
基于改進(jìn)BPNN算法的SVR參數(shù)尋優(yōu)的具體步驟如下:①隨機(jī)確定初始的層間神經(jīng)元的權(quán)值和閾值,以及其他參數(shù)的初始化。②根據(jù)選定的神經(jīng)網(wǎng)絡(luò)模式計(jì)算輸入層、隱含層和輸出層等三層的輸入和輸出。③按照式(3)和式(4)修正權(quán)值和閾值。④計(jì)算全局誤差,判斷誤差是否滿足要求,滿足時(shí)停止運(yùn)算,否則返回第②步后反復(fù)訓(xùn)練直到男足要求。
本研究中模型運(yùn)算時(shí)由MATLAB編程實(shí)現(xiàn),改進(jìn)BPNN-SVR模型的具體運(yùn)算流程如圖1所示。
圖1 改進(jìn)BPNN-SVR模型建立流程圖Fig.1 The flowchart of the improved BPNN-SVR model
本研究共采集了165個(gè)土樣的鹽分參數(shù)和有機(jī)質(zhì)含量數(shù)據(jù),為了不失一般性,采用隨機(jī)產(chǎn)生訓(xùn)練集和測試集的方法,即隨機(jī)選取120個(gè)樣本作為訓(xùn)練集,剩余45個(gè)樣本作為測試集對模型進(jìn)行性能評價(jià)。本研究是基于改進(jìn)BPNN-SVR建立的模型進(jìn)行土壤有機(jī)質(zhì)含量估算,而在SVR中,選取核函數(shù)的類型和確定最優(yōu)核函數(shù)參數(shù)是最為關(guān)鍵的步驟之一,主要的核函數(shù)類型有線性、多項(xiàng)式、RBF和多層感知機(jī)等。其中,線性核函數(shù)無任何其他參數(shù);多項(xiàng)式核函數(shù)需要選取階數(shù)d,這里選取d=3;RBF核函數(shù)和多層感知機(jī)核函數(shù)需要選取懲罰因子c、方差g和不敏感損失參數(shù)ε,這里利用5-折交叉驗(yàn)證方法(5-folder cross-validation,k-CV)結(jié)合網(wǎng)格搜索法尋找最佳參數(shù)c、g和ε,其搜索范圍分別為[0,100]、[0,100]和[-10,10],并在MATLAB軟件中進(jìn)行了多次迭代試驗(yàn),最終得到核函數(shù)最優(yōu)參數(shù)。
得到了核函數(shù)最優(yōu)參數(shù)如表4所示,以RBF核函數(shù)為例進(jìn)行了模擬研究,由于訓(xùn)練集和測試集是隨機(jī)產(chǎn)生的,因此每次運(yùn)行的結(jié)果均不相同,在多次次運(yùn)行結(jié)束后求取平均值后,結(jié)果如圖2、圖3所示。
表4 不同核函數(shù)的最優(yōu)參數(shù) Tab.4 Best values for different parameters of kernel
現(xiàn)利用評價(jià)指標(biāo)來評價(jià)圖2和圖3中的預(yù)測結(jié)果。其中,訓(xùn)練集的吻合度較高,決定系數(shù)達(dá)到了0.938,均方誤差為0.074 2,而測試集均方差為0.106 5,吻合度也較好,決定系數(shù)達(dá)0.941 5,這表明基于改進(jìn)BPNN-SVR的土壤有機(jī)質(zhì)估算模型具有非常好的泛化能力。為了對比改進(jìn)BPNN-SVR模型的性能,這里將之與傳統(tǒng)的BPNN網(wǎng)絡(luò)模型進(jìn)行對比并采用相同的訓(xùn)練集和測試集,其測試集的預(yù)測結(jié)果如圖4所示。這種情況下,傳統(tǒng)的BPNN模型的決定系數(shù)為0.870 3,均方差為0.116 2,相對于改進(jìn)BPNN-SVR模型比較不難發(fā)現(xiàn),傳統(tǒng)的BPNN模型的性能要劣于改進(jìn)BPNN-SVR模型的性能。
本研究選用的核函數(shù)為RBF核函數(shù),為了討論不同核函數(shù)對模型訓(xùn)練集合測試集的影響,以下進(jìn)行20次模擬研究后求取平均值的對比結(jié)果,如表5所示。
據(jù)表5中有機(jī)質(zhì)含量的實(shí)際數(shù)據(jù)和不同核函數(shù)預(yù)測模型的預(yù)測結(jié)果及分析可知,以測試集結(jié)果為例,傳統(tǒng)的BPNN模型預(yù)測結(jié)果的平均相對誤差(9.78%)高于改進(jìn)BPNN-SVR模型,而且決定系數(shù)(0.804 9)低于多項(xiàng)式核函數(shù)模型(0.849 8)和RBF核函數(shù)模型(0.890 8)??傮w上說,傳統(tǒng)BPNN預(yù)測模型在性能指標(biāo)上要劣于改進(jìn)BPNN-SVR預(yù)測模型,而且設(shè)計(jì)結(jié)構(gòu)和確定參數(shù)要相對困難。另外,雖然多項(xiàng)式回歸模型預(yù)測結(jié)果的決定系數(shù)達(dá)0.849 8,但是平均相對誤差(7.55%)和均方差(0.147 6)明顯高于其他核函數(shù)模型,說明多項(xiàng)式核函數(shù)模型的泛化能力較差。對于改進(jìn)BPNN-SVR模型來說,不同核函數(shù)對模型預(yù)測結(jié)果的影響存在顯著差異。多項(xiàng)式核函數(shù)模型預(yù)測結(jié)果中的相對誤差、均方誤差均大于RBF核函數(shù)模型的預(yù)測結(jié)果,線性核函數(shù)模型的預(yù)測結(jié)果中決定系數(shù)最小,均方誤差較大,不適合用于土壤有機(jī)質(zhì)含量的估算。多層感知機(jī)核函數(shù)模型的預(yù)測結(jié)果平均相對誤差和局方誤差較低,性能僅次于RBF核函數(shù)模型。RBF核函數(shù)模型預(yù)測結(jié)果平均相對誤差(5.98%)和均方誤差(0.074 6)均小于其他模型,決定系數(shù)也高達(dá)0.890 8,與此同時(shí),基于RBF核函數(shù)的改進(jìn)的BPNN-SVR模型相對于傳統(tǒng)的BPNN模型來說,訓(xùn)練集預(yù)測結(jié)果中的平均相對誤差和均方差降低了42.22%和34.21%,決定系數(shù)提高了11.32%;測試集預(yù)測結(jié)果中的平均相對誤差和均方差降低了38.85%和30.99%,決定系數(shù)提高了10.67%。通過與其他模型進(jìn)行比較得知,基于RBF核函數(shù)的改進(jìn)BPNN-SVR模型具有明顯的優(yōu)勢,且預(yù)測精度最高,非常適合于土壤有機(jī)質(zhì)的估算。
圖4 傳統(tǒng)的BPNN模型預(yù)測結(jié)果對比Fig.4 Comparison between forecasted values with actual values of conventional BPNN model
表5 不同模型預(yù)測結(jié)果的對比Tab.5 Comparison of the prediction results for different models
(1)通過對已檢測165個(gè)土樣的鹽分參數(shù)和有機(jī)質(zhì)含量進(jìn)行相關(guān)性分析,得到土壤鹽分離子含量、全鹽含量與土壤有機(jī)質(zhì)呈強(qiáng)相關(guān)性,其中HCO- 3的相關(guān)系數(shù)最高,達(dá)到了0.559 8,利用改進(jìn)BPNN來優(yōu)化SVR的參數(shù)進(jìn)行了土壤有機(jī)質(zhì)的估算,并對預(yù)測結(jié)果進(jìn)行了分析。
(2)將最優(yōu)核函數(shù)參數(shù)應(yīng)用到改進(jìn)BPNN-SVR模型中并結(jié)合歸一化后土壤鹽分參數(shù)對土壤有機(jī)質(zhì)含量進(jìn)行估算的研究中,基于RBF核函數(shù)的模型在訓(xùn)練集和預(yù)測集中的表現(xiàn)優(yōu)異,訓(xùn)練集中決定系數(shù)達(dá)到0.938,均方差為0.074 2,測試集中決定系數(shù)為0.941 5,均方差為0.106 5。在相同試驗(yàn)樣本的情形下,利用傳統(tǒng)的BPNN模型對土壤有機(jī)質(zhì)也進(jìn)行了估算,結(jié)果顯示傳統(tǒng)BPNN模型的性能略遜于本研究提出的改進(jìn)BPNN-SVR模型。
(3)通過對比不同核函數(shù)條件下改進(jìn)BPNN-SVR模型的預(yù)測結(jié)果發(fā)現(xiàn),RBF核函數(shù)的預(yù)測結(jié)果能夠較為理想地估算土壤有機(jī)質(zhì)的含量,且可信度較高,平均決定系數(shù)為0.908 6,平均均方差為0.074 6,平均相對誤差為5.6%。