李世欣,溫 建,邵孝侯,王曉亞,王玉英
(1.河海大學(xué)水利水電學(xué)院,江蘇南京 210098;2.河南農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,河南鄭州 450002;3.河南農(nóng)業(yè)大學(xué)信息與管理科學(xué)學(xué)院,河南鄭州 450002;4.河南省南召縣水土保持科學(xué)研究站,河南 南召 474650)
水土流失是當(dāng)今世界人們普遍關(guān)注的重大生態(tài)問題之一,已成為我國(guó)首要的和最大的環(huán)境問題[1].目前,我國(guó)土壤侵蝕面積(包括水蝕、風(fēng)蝕和凍融蝕面積)達(dá)484.74萬km2,占全國(guó)國(guó)土面積的51.1%[2],土壤侵蝕的加劇是造成土地荒漠化、洪澇災(zāi)害、水土資源危機(jī)的主要原因之一.多年來,國(guó)內(nèi)外學(xué)者對(duì)土壤侵蝕的機(jī)理和規(guī)律進(jìn)行了系統(tǒng)研究,并從不同角度、采用不同理論、利用不同影響因子建立了適應(yīng)于不同地域特征的土壤侵蝕模型,有效指導(dǎo)了土壤侵蝕的預(yù)防和治理工作.尤其是近20多年來,隨著應(yīng)用數(shù)學(xué)和信息技術(shù)的不斷發(fā)展,一些新的技術(shù)理論被應(yīng)用到土壤侵蝕規(guī)律及應(yīng)用模型的研究中,如分形理論[3]、人工神經(jīng)網(wǎng)絡(luò)[4]、RS和GIS技術(shù)[5]等,拓寬了土壤侵蝕的研究思路,提高了土壤侵蝕模型的預(yù)測(cè)精度.
偏最小二乘回歸(partial least-squares regression,PLSR)是一種新型多元統(tǒng)計(jì)數(shù)據(jù)分析法.該方法集多元線性回歸分析、典型相關(guān)分析和主成分分析的基本功能于一體,通過在變量系統(tǒng)中提取若干個(gè)對(duì)系統(tǒng)具有最佳解釋功能的綜合信息變量,實(shí)現(xiàn)對(duì)高維數(shù)據(jù)空間的降維處理.該方法有效解決了自變量間存在嚴(yán)重多重相關(guān)性以及樣本點(diǎn)個(gè)數(shù)較少等建模問題.人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)具有模擬人類大腦思維功能的能力,理論上可以實(shí)現(xiàn)任意函數(shù)的逼近,達(dá)到人們希望的精度要求.本文將偏最小二乘回歸(PLSR)與神經(jīng)網(wǎng)絡(luò)(ANN)結(jié)合,建立了偏最小二乘神經(jīng)網(wǎng)絡(luò)耦合模型(PLS-ANN),并應(yīng)用于小流域侵蝕產(chǎn)沙預(yù)報(bào).
設(shè)有因變量集合Y={y1,y2,…,yq}n×q和自變量集合X={x1,x2,…,xp}n×p,偏最小二乘回歸分別在X,Y中提取主成分t1和u1,并要求:(a)t1和u1盡可能多地?cái)y帶它們各自數(shù)據(jù)表中的變異信息,盡可能好地代表X和Y;(b)t1和u1的相關(guān)程度能夠達(dá)到最大,t1對(duì)u1有最強(qiáng)的解釋能力.
在第1成分t1和u1被提取后,偏最小二乘回歸分別實(shí)施X對(duì)t1的回歸和Y對(duì)t1的回歸.如果回歸方程已經(jīng)達(dá)到滿意精度,則算法終止;否則,將X被t1解釋后的殘余信息和Y被u1解釋后的殘余信息進(jìn)行第2輪的成分提取,如此往復(fù),直到達(dá)到一個(gè)較為滿意的精度為止.若提取了h個(gè)主成分t1,t2,…,th,則這h個(gè)主成分即為從原數(shù)據(jù)信息中提取的綜合變量.這些變量對(duì)系統(tǒng)的解釋性最強(qiáng),并克服了自變量之間的多重相關(guān)性,剔除了噪音信息的干擾.
方程精度可采取交叉有效性原則進(jìn)行檢驗(yàn).在偏最小二乘回歸建模中,究竟應(yīng)選取多少個(gè)成分為宜,一般采用交叉有效性原則進(jìn)行判別[9-10]:除去某個(gè)樣本i的所有集合并使用h個(gè)成分?jǐn)M合一個(gè)回歸方程,把排除的樣本點(diǎn)i代入前面的回歸方程,得到y(tǒng)i在樣本點(diǎn)i上的擬合值對(duì)每一個(gè)樣本點(diǎn)重復(fù)上述計(jì)算,定義yi的預(yù)測(cè)誤差平方和為Phj,則有記Y的預(yù)測(cè)誤差平方和為Ph,則.變量Ph取最小值時(shí)表明模型的擬合效果最好,這時(shí)提取的成分個(gè)數(shù)h即為最佳成分?jǐn)?shù).
當(dāng)q=1時(shí),則上述問題由多因變量PLSR模型轉(zhuǎn)變?yōu)閱我蜃兞康腜LSR模型,它是多因變量PLSR模型的一種特例,小流域侵蝕產(chǎn)沙研究的即為單因變量問題.
人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)具有大規(guī)模的并行處理和分布式信息存儲(chǔ)能力,能自動(dòng)調(diào)整內(nèi)部神經(jīng)元之間的連接權(quán)重,以匹配輸入輸出響應(yīng)關(guān)系,具有良好的自組織性和學(xué)習(xí)功能.本文選取典型的3層前饋型BP(back propagation)網(wǎng)絡(luò)模型[4,12].BP網(wǎng)絡(luò)模型通常由輸入層、隱含層和輸出層構(gòu)成.PLS-ANN模型構(gòu)建方法為:用偏最小二乘(PLS)方法提取的h個(gè)主成分t1,t2,…,th作為BP模型的輸入,輸出層為1個(gè)節(jié)點(diǎn)y,隱含層傳輸函數(shù)選擇sigmoid函數(shù),隱含層節(jié)點(diǎn)數(shù)的確定采用試錯(cuò)法,經(jīng)多次調(diào)試選擇最佳節(jié)點(diǎn)個(gè)數(shù),模型結(jié)構(gòu)如圖1所示.
圖1 PLS-ANN模型結(jié)構(gòu)Fig.1 Structure of PLS-ANN model
和平溝小流域位于河南省南召縣西部,北緯 112°15′~ 112°18′,東經(jīng) 33°17′~ 33°20′之間,面積 9.62km2,地質(zhì)巖性為斑狀花崗巖,土壤類型主要為沙壤和黃棕壤.多年平均降雨量1020mm,年均氣溫14.8℃.流域上寬下窄,為一扇形閉合集水單元,林草覆蓋率88%,海拔高程236~919m.
南召縣水土保持科學(xué)實(shí)驗(yàn)站在流域內(nèi)設(shè)3個(gè)基本雨量站,均設(shè)雨量計(jì)測(cè)定降雨量;在小流域下游設(shè)總控制斷面,測(cè)定徑流和泥沙.
影響流域侵蝕產(chǎn)沙的因素主要有地質(zhì)地貌、土壤類型、降雨徑流、植被狀況等自然因素和人為因素.對(duì)一個(gè)小流域而言,一定時(shí)期內(nèi)地質(zhì)地貌、土壤類型等下墊面因素對(duì)小流域產(chǎn)流、產(chǎn)沙的影響是相對(duì)穩(wěn)定的,降雨成為影響流域侵蝕產(chǎn)沙的直接動(dòng)力因子,而只有產(chǎn)生徑流的降雨才能產(chǎn)生侵蝕,因此降雨因子和徑流因子是侵蝕產(chǎn)沙的重要影響因子[13-14].林草植被對(duì)侵蝕產(chǎn)沙有一定的減緩作用,是影響土壤侵蝕的關(guān)鍵因子[15],輸沙率是水文泥沙監(jiān)測(cè)的重要指標(biāo),與輸沙量關(guān)系密切.事實(shí)上,小流域內(nèi)降雨、土壤、地形、植被、人類活動(dòng)相互作用結(jié)果最終都體現(xiàn)在流域出口處,在洪水和泥沙等特征中表現(xiàn)出來[16].所以本文采用1984~2006年南召縣水保站的實(shí)測(cè)資料,選取流域年降水量x1、年產(chǎn)流雨量x2、年降水日數(shù)x3、年徑流深x4、年最大1日徑流量x5、年最大流量x6、林草覆蓋率x7、年最大1日平均輸沙率x8等8個(gè)因子作為自變量,年輸沙量y作為因變量.為了評(píng)價(jià)PLS-ANN模型的效果,分別采用PLSR模型、BP神經(jīng)網(wǎng)絡(luò)模型和PLS-ANN模型進(jìn)行計(jì)算,并對(duì)計(jì)算結(jié)果進(jìn)行了比較.
利用前1984~2002年的數(shù)據(jù)建立產(chǎn)沙模型,2003~2006年的數(shù)據(jù)用于模型檢驗(yàn).首先,利用偏最小二乘方法對(duì)8個(gè)自變量進(jìn)行成分提取.根據(jù)交叉有效性原則,提取的3個(gè)成分為最佳成分,見圖2.
3個(gè)主成分t1,t2,t3表達(dá)式為
圖2 PRESS相對(duì)于所取成分?jǐn)?shù)的變化Fig.2 Variation of PRESS against number of components extracted from PLS model
其中E0為原始數(shù)據(jù)X([x1,x2,…,x8]19×8)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理后的矩陣.采用下式進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即
式中:xij——矩陣X的第i行第j列元素的值;sj,——矩陣X第j個(gè)自變量的標(biāo)準(zhǔn)差和平均值;的標(biāo)準(zhǔn)化值.將偏最小二乘法提取的3個(gè)主成分t1,t2,t3作為神經(jīng)網(wǎng)絡(luò)的輸入,y作為輸出,設(shè)定精度為0.0001,進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練1368次就可滿足精度要求.若將8個(gè)自變量作為輸入樣本,直接輸入BP神經(jīng)網(wǎng)絡(luò),同樣的精度要求則需要訓(xùn)練6841次方可收斂.
a.擬合誤差分析.分別用PLS-ANN模型、BP神經(jīng)網(wǎng)絡(luò)模型和PLSR模型建立產(chǎn)沙模型,對(duì)1984~2002年的產(chǎn)沙量進(jìn)行擬合,并將擬合值與觀測(cè)值進(jìn)行比較(圖3).
圖3 小流域產(chǎn)沙量擬合精度比較Fig.3 Comparison of fitting precision for sediment yield in small watershed
PLSR模型擬合誤差平均為18.66%,誤差在10%以下的年份有6個(gè),誤差大于50%的年份有1個(gè);BP神經(jīng)網(wǎng)絡(luò)的模型誤差稍低,平均值為13.99%,誤差為10%以下的年份有7個(gè),誤差大于50%的年份沒有;PLSANN模型誤差最小,平均值達(dá)到6.57%,僅有3個(gè)年份的模擬誤差大于10%,最高為19.92%,其余年份的誤差均在10%以下.
b.檢驗(yàn)誤差分析.應(yīng)用所建立的PLS-ANN模型對(duì)2003~2006的數(shù)據(jù)進(jìn)行檢驗(yàn),并與PLSR模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較(表1).由表1可看出:BP網(wǎng)絡(luò)模型有1個(gè)年份的誤差高達(dá)27.70%,其中有2個(gè)年份的誤差均在10%以下,平均誤差為14.11%;PLSR模型有2個(gè)年份的誤差在20%以上,2個(gè)年份的誤差在10%以下,平均誤差為20.33%,最大誤差為25.27%;PLS-ANN模型誤差均在20%以下,最大誤差為16.08%,有3個(gè)年份的誤差均在10%以下,平均誤差僅為7.5%.可見,無論是擬合還是檢驗(yàn)的精度,偏最小二乘神經(jīng)網(wǎng)絡(luò)模型都比單一方法高.
表1 檢驗(yàn)結(jié)果對(duì)比Table 1 Comparison among test results of different models
a.流域侵蝕產(chǎn)沙是一個(gè)復(fù)雜的自然過程,受自然因素、人為因素等諸多因素影響.本文選取8個(gè)自變量,采取PLS方法提取的主成分,不僅攜帶更多的自變量信息,而且對(duì)因變量影響程度最大.本文所建立的PLS-ANN模型,既解決了自變量之間相關(guān)性和樣本數(shù)據(jù)較少的問題,又降低了神經(jīng)網(wǎng)絡(luò)的輸入維數(shù),加快了網(wǎng)絡(luò)收斂速度,增強(qiáng)了網(wǎng)絡(luò)穩(wěn)定性,降低了模型的模擬誤差和檢驗(yàn)誤差.
b.PLS-ANN模型擬合誤差平均為6.57%,檢驗(yàn)誤差平均為7.5%,均比PLSR模型和BP網(wǎng)絡(luò)模型要低,表明對(duì)復(fù)雜的非線性小流域產(chǎn)沙系統(tǒng),PLS-ANN模型能更好地反映其本質(zhì)特征.
c.PLS-ANN模型選取的自變量均為容易獲取或測(cè)定數(shù)據(jù),模型計(jì)算方便,實(shí)用性較強(qiáng),對(duì)研究豫西南山區(qū)水土流失規(guī)律和支持當(dāng)?shù)厣鷳B(tài)環(huán)境建設(shè)具有一定實(shí)用價(jià)值.
[1]鄭粉莉,王占禮,楊勤科.我國(guó)土壤侵蝕科學(xué)回顧和展望[J].自然雜志,2008,30(1):12-16.(ZHENG Fen-1i,WANG Zhan-li,YANG Qin-ke.The Retrospection and prospect on soil erosion research in China[J].Chinese Journal of Nature,2008,30(1):12-16.(in Chinese))
[2]李智廣,曹煒,劉秉正,等.我國(guó)水土流失狀況與發(fā)展趨勢(shì)研究[J].中國(guó)水土保持科學(xué),2008,6(1):57-62.(LI Zhi-guang,CAO Wei,LIU Bing-zheng,et al.Current status and developing trend of soil erosion in China[J].Science of Soil and Water Conservation,2008,6(1):57-62.(in Chinese))
[3]崔靈周,李占斌,郭彥彪,等.基于分形信息維數(shù)的流域地貌形態(tài)與侵蝕產(chǎn)沙關(guān)系[J].土壤學(xué)報(bào),2007,44(2):197-203.(CUI Ling-zhou,LI Zhan-bin,GUO Yan-biao,et al.Fractal-information-dimension-based relationship between sediment yield and topographic feature of watershed[J].Acta Pedologica Sinica,2007,44(2):197-203.(in Chinese))
[4]趙西寧,王萬忠,吳普特,等.坡面入滲的人工神經(jīng)網(wǎng)絡(luò)模型研究[J].農(nóng)業(yè)工程學(xué)報(bào),2004,20(3):48-50.(ZHAO Xi-ning,WANG Wan-zhong,WU Pu-te,et al.Artificial neural networkmodel for soil infiltration in slope farmland[J].Transactionsof the Chinese Society of Agricultural Engineering,2004,20(3):48-50.(in Chinese))
[5]馬修軍,謝昆青.GIS環(huán)境下流域降雨侵蝕動(dòng)態(tài)模擬研究:以PCRaster系統(tǒng)和LISEM模型為例[J].環(huán)境科學(xué)進(jìn)展,1998,7(5):137-144.(MA Xiu-jun,XIE Qun-qing.Dynamic simulation of rainfall erosivity by GIS:based on the system of PCRaster and the model of LISEM[J].Advances in Environmental Science,1998,7(5):137-144.(in Chinese))
[6]付強(qiáng).數(shù)據(jù)處理方法及其農(nóng)業(yè)應(yīng)用[M].北京:科學(xué)出版社,2006:164-204.
[7]WOLD S,TRYGG J,BERGLUND A,et a1.Some recent developments in PLS modeling[J].Chemometrics and Intelligent Laboratory Systems,2001,58:13l-150.
[8]陳南祥,黃強(qiáng),曹連海.基于偏最小二乘回歸與神經(jīng)網(wǎng)絡(luò)耦合的巖溶泉預(yù)報(bào)模型[J].水利學(xué)報(bào),2004(9):68-72.(CHEN Nanxiang,HUANG Qiang,CAO Lian-hai.Model for prediction of karst spring flow based on the coupling of neural network modelwith partial least square method[J].Journal of Hydraulic Engineering,2004(9):68-72.(in Chinese))
[9]EFRON B,GONG G.A leisurely book at the bootstrap,the jackknife and cross validation[J].The American Statistician,1983,37(1):36-48.
[10]曾九孫,劉祥官,羅世華,等.主成分回歸和偏最小二乘法在高爐冶煉中的應(yīng)用[J].浙江大學(xué)學(xué)報(bào):理學(xué)版,2009,36(1):33-36.(ZENG Jiu-sun,LIU Xiang-guan,LUO Shi-hua,et al.Application of principal component regression and partial least square in blast furnace iron-making[J].Journal of Zhejiang University:Science Edition,2009,36(1):33-36.(in Chinese))
[11]戈漢權(quán),施澤進(jìn),任在清.基于偏最小二乘與神經(jīng)網(wǎng)絡(luò)耦合的儲(chǔ)層參數(shù)預(yù)測(cè)[J].成都理工大學(xué)學(xué)報(bào):自然科學(xué)版,2007,34(6):618-620.(GE Han-quan,SHI Ze-jin,REN Zai-qing.Prediction of the reservoir parameters based on the coupling of neural network model with partial least square method[J].Journal of Chengdu University of Technology:Sci&Technol Ed,2007,34(6):618-620.(in Chinese))
[12]朱大奇,史慧.人工神經(jīng)網(wǎng)絡(luò)原理及應(yīng)用[M].北京:科學(xué)出版社,2006:36-63.
[13]許全喜.人工神經(jīng)網(wǎng)絡(luò)模型在流域水沙預(yù)報(bào)中的應(yīng)用[J].人民長(zhǎng)江,2000,31(5):30-32.(XU Quan-xi.Application of artificial neural network in predicting soil erosion[J].Yangtze River,2000,31(5):30-32.(in Chinese))
[14]蔡強(qiáng)國(guó),劉紀(jì)根,劉前進(jìn).岔巴溝流域次暴雨產(chǎn)沙統(tǒng)計(jì)模型[J].地理研究,2004,23(4):433-439.(CAI Qiang-guo,LIU Ji-gen,LIU Qian-jin.Research of sediment yield statistical model for single rainstorm in Chabagou drainage basin[J].Geographical Research,2004,23(4):433-439.(in Chinese))
[15]張志強(qiáng),王盛萍,孫閣,等.流域徑流泥沙對(duì)多尺度植被變化響應(yīng)研究進(jìn)展[J].生態(tài)學(xué)報(bào),2006,26(7):2356-2364.(ZHANGZhi-qiang,WANG Sheng-ping,SUN Ge,et al.Runoff and sediment yield response to vegetation change at multiple scales:a review[J].Acta Ecologica Sinica,2006,26(7):2356-2364.(in Chinese))
[16]侯建才,李占斌,李勉,等.流域次降雨侵蝕產(chǎn)沙的BP神經(jīng)網(wǎng)絡(luò)模擬[J].水土保持通報(bào),2007,27(3):79-83.(HOU Jian-cai,LI Zhan-bin,LI Mian,et al.Back propagition neural network simulation on sediment yield of watershed under single rainfall[J].Bulletin of Soil and Water Conservation,2007,27(3):79-83.(in Chinese))