王 潔,章恒全
(河海大學(xué)商學(xué)院,江蘇 南京 211100)
?
改進的偏最小二乘法在青海省農(nóng)業(yè)用水預(yù)測中的應(yīng)用
王潔,章恒全
(河海大學(xué)商學(xué)院,江蘇 南京211100)
摘要:根據(jù)2000—2009年影響青海省農(nóng)業(yè)用水的11個因子的基礎(chǔ)數(shù)據(jù),建立偏最小二乘回歸模型,考慮到模型的實用性和準(zhǔn)確性,運用后退法對偏最小二乘法進行改進,剔除了5個不需要的變量,得到了擬合精度更高的結(jié)果。選取2010—2013年數(shù)據(jù)進行模型檢驗。結(jié)果表明:運用偏最小二乘法預(yù)測的結(jié)果與實際情況貼近,并且改進的模型的貼近度更高。通過模型的應(yīng)用,可以看到偏最小二乘法在青海省農(nóng)業(yè)用水預(yù)測中有較好的應(yīng)用價值,并且改進后的偏最小二乘法簡化了模型,提高了預(yù)測精度,為青海省的農(nóng)業(yè)用水預(yù)測提供了依據(jù)。
關(guān)鍵詞:農(nóng)業(yè)用水;用水預(yù)測;改進的偏最小二乘法;青海省
水資源問題是整個人類社會面臨的一個嚴峻的問題,中國作為世界第一人口大國,水資源問題尤為嚴重,人均水資源可利用量為2 200 m3,僅為全球平均水平的1/4[1]。青海省位于青藏高原東北部,是長江、黃河、瀾滄江和黑河的源頭,是我國重要的水源地,素有“中華水塔”之稱。青海省水資源總量相對豐富,2013年全省的平均降水量為298.8 mm,水資源總量為645.60億m3,其中地表水資源量為629.55億m3,地下水資源量為290.77億m3。但其水資源存在較強的季節(jié)性和地域性,全年降水主要集中在6—9月份,且降水總量由東南向西北遞減,再加上其水資源的利用率和利用效率低下,2013年全省水資源開發(fā)利用率僅為4.4%,這些都加劇了水資源的供需矛盾[2-3]。
青海省是農(nóng)業(yè)大省,而水資源是糧食生產(chǎn)的基礎(chǔ),2013年青海省農(nóng)業(yè)用水占總用水量的81.15%[2],因此掌握農(nóng)業(yè)用水情況對青海省的持續(xù)發(fā)展起到了至關(guān)重要的作用。截至2013年,我國的農(nóng)田灌溉水有效利用系數(shù)為0.52[4],而青海省的農(nóng)田灌溉水利用系數(shù)為0.448[2],低于全國平均水平,水資源浪費情況十分嚴重,嚴重威脅了青海省的糧食安全和經(jīng)濟發(fā)展。因此有必要對青海省的農(nóng)業(yè)用水進行預(yù)測,從而合理分配各行業(yè)的用水,加強農(nóng)業(yè)用水效率,使得農(nóng)田灌溉水有效利用系數(shù)達到0.55以上[5]。
目前,對于農(nóng)業(yè)用水的分析主要集中在節(jié)水灌溉[3,6-7]以及對作物用水的測算[8-9]方面,而對農(nóng)業(yè)用水的整體預(yù)測的研究相對較少[10-11],尤其是對多影響因子下的農(nóng)業(yè)用水量預(yù)測。筆者篩選了11個影響青海省農(nóng)業(yè)用水的因素,構(gòu)建了偏最小二乘法模型,通過MATLAB軟件進行模型的模擬運算。為了提高模型的精度并且簡化模型,對偏最小二乘模型進行了改進,并將預(yù)測結(jié)果與實際觀測結(jié)果進行對比檢驗。結(jié)果表明,所構(gòu)建的模型有較高的準(zhǔn)確性,是合理的。所構(gòu)建模型在一定程度上為青海省預(yù)測農(nóng)業(yè)用水提供了依據(jù),并且對調(diào)節(jié)農(nóng)業(yè)用水、提高農(nóng)業(yè)用水效率提供了定量的標(biāo)準(zhǔn),具有現(xiàn)實意義。
1.1偏最小二乘法的概念
偏最小二乘算法(partial least squares algorithm, PLSA)最早出現(xiàn)在20世紀(jì)70年代,Wold在研究經(jīng)濟學(xué)的過程中創(chuàng)建了非線性迭代偏最小二乘法[12]。偏最小二乘法同一般的回歸方法相比,不僅具備了主成分分析、典型相關(guān)性分析和多元線性回歸分析的優(yōu)點[13],還能彌補這些方法的缺陷,解決自變量的多重共性問題,并且保證了主成分對因變量的解釋力度,在解決實際問題時更具備優(yōu)勢。目前,PLSA在已被廣泛運用于物理、生物、管理學(xué)等多領(lǐng)域,并在不斷地改進中。
1.2PLSA的計算步驟
本文考慮單因變量的PLSA的回歸模型,設(shè)有一個因變量y,p個自變量x1,x2,…,xp,樣本數(shù)為n,將X和Y表示成矩陣Z=(X,Y),將原始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,記為E0和F0。按下列步驟建立回歸方程:
1.2.1提取主成分
求矩陣ETFFTE最大特征值所對應(yīng)的單位向量w1,由此得到自變量的第一主成分t1=E0w1,其中
(1)
(2)
然后求出E0對t1的回歸方程及回歸系數(shù)p1:
(3)
則回歸方程的殘差方程為:
(4)
令E1=E0,重復(fù)下面的步驟(2),直到滿足精度要求,則成分提取完畢,現(xiàn)假設(shè)最終對自變量提取了k個主成分t1,t2,…,tk(k≤p)。
1.2.2確定成分提取的個數(shù)——交叉有效性
在偏最小二乘回歸模型中,只需引入對模型精度有改進作用的成分,并且每引入一個成分都需要檢驗其是否提高模型預(yù)測的精度。
(5)
(6)
1.2.3變量投影重要性分析
在偏最小二乘回歸建模中,用變量投影重要性指標(biāo)I來說明自變量對因變量的解釋能力,即自變量表達式為
(7)
式中:I指在解釋因變量時,自變量的作用的重要性;r(y,th)是因變量y與提取的第h個主成分的相關(guān)系數(shù);whj是第h個主成分對應(yīng)的單位向量的第j個指標(biāo)值。通常情況下,I越大,表明該變量對因變量的影響越大,該變量越重要。一般I≥1時,認為它為重要因素;I<0.5時,認為它為不重要因素。
表1 青海省2000—2013年相關(guān)因子原始數(shù)據(jù)
1.2.4建立回歸模型
按照以上步驟,確定可以提取k個主成分, 得到:
(8)
(9)
式中:p1,p2,…,pk為E0分別對t1,t2,…,tk,的回歸系數(shù);r1,r2,…,rk分別是因變量y與t1,t2,…,tk,相關(guān)系數(shù);Fk為殘值。
(10)
(11)
式中:E為單位矩陣。
1.3改進的PLSA
PLSA的目的是求解使方差V(ti)和相關(guān)系數(shù)C(ti,y)較大的成分,事實上,PLSA的結(jié)果是求解使協(xié)方差C(ti,y)較大的成分。這是由于在選擇自變量時,無法剔除與因變量不相關(guān)的信息,因此要改進偏最小二乘回歸模型,將解釋性不強的變量剔除,使回歸方程更加的簡潔、準(zhǔn)確。
本文在原有偏最小二乘回歸模型的基礎(chǔ)上采用后退法[14],對模型進行改進,具體步驟為:
a. 構(gòu)建原始變量的偏最小二乘回歸方程。
(12)
本文根據(jù)青海省的實際狀況,選取了11個影響農(nóng)業(yè)用水(y,億m3)的因子,分為社會經(jīng)濟系統(tǒng)因子:總?cè)丝?x1,萬人)、耕地面積(x2,103hm2)、GDP(x3,億元)、第一產(chǎn)業(yè)占GDP比例(x4,%);水資源系統(tǒng)因子:年降水總量(x5,億m3)、水資源總量(x6,億m3)、供水量(x7,億m3)、農(nóng)田灌溉用水量(x8,億m3)、有效灌溉面積(x9,103hm2)、農(nóng)田灌溉單位面積用水量(x10,m3);管理因子:水資源費征收(x11,萬元),其中2000—2009年的數(shù)據(jù)作為訓(xùn)練樣本,2010—2013年的數(shù)據(jù)作為檢驗樣本(表1),統(tǒng)計的數(shù)據(jù)來自歷年青海省統(tǒng)計年鑒、青海省水資源公報、中國水利年鑒和黃河年鑒。
2.1原始數(shù)據(jù)的偏最小二乘模型
表2 回歸方程擬合值
表3 各輪變量剔除擬合誤差值
注:表中打線段的單元格表示本輪次已刪除變量。
2.2改進的偏最小二乘模型
由上述可知,原始數(shù)據(jù)的回歸模型的精度較高,但解釋變量較多,模型較為復(fù)雜,因此可以在提高精度的基礎(chǔ)上,將一些解釋性相對弱的變量剔除,由此得到更為簡潔的回歸模型。
因此,在剔除了變量x10、x9、x11、x5、x1后所得的模型為最終模型,模型精度在原始模型的基礎(chǔ)上提高了21.63%,回歸方程為:y=0.444 7-0.006 7x2+0.002 1x3-8.790 7x4+0.001 8x5+0.073x6+1.145 5x7,各變量的系數(shù)與相關(guān)系數(shù)的符號一致,變量的剔除是有效的。
對檢驗樣本進行檢驗,其擬合值如表4所示,從表4中可以得出,原始回歸方程的平均擬合誤差δ=4.610 1%,改進后的平均擬合誤差δ=1.417 8%。從表4中可以直接看到,改進后的模型所得的每一個擬合值的擬合誤差均小于原始模型的擬合誤差, 進一步說明了改進后的偏最小二乘模型的預(yù)測精度更高,與觀測值更貼近,因此對原始模型進行改進是必要的、有效的。
表4 檢驗樣本擬合值
通過觀察觀測值、原始擬合值以及改進后的擬合值的貼近程度,如圖1所示,發(fā)現(xiàn)兩者與觀測值都有較好的貼近度,但改進后的模型所得的擬合值與觀測值的貼近度更高,因此更加證明了對模型進行改進的準(zhǔn)確性,并且大大簡化了模型,使模型運用起來更方便。通過建立模型來預(yù)測青海省的農(nóng)業(yè)用水量,為合理分配各行用水提供了保障,并且通過分析不同解釋變量對農(nóng)業(yè)用水的影響的大小,為提高農(nóng)業(yè)用水效率、減少浪費提供了依據(jù)。模型改進后,各變量對青海省農(nóng)業(yè)用水的解釋能力都較好(表5),其中農(nóng)田灌溉用水量和供水量最為重要,農(nóng)業(yè)用水中農(nóng)田灌溉為主要耗水部分,并且青海省為農(nóng)業(yè)大省,供的水越多,農(nóng)業(yè)所分配的水量越多,因此這兩個變量對農(nóng)業(yè)用水量最為重要,符合實際情況,說明擬合模型與事實相符。此外,青海省水資源總量較為穩(wěn)定,年際變化不大,對農(nóng)業(yè)用水的影響相對于其他因素較小。其余因素對農(nóng)業(yè)用水的重要程度較為接近,主要集中在社會經(jīng)濟因子中,影響程度接近1,說明經(jīng)濟的發(fā)展、社會的改變對農(nóng)業(yè)用水有較大的影響。近年來,青海省政府不斷引導(dǎo)社會向工業(yè)化發(fā)展,工業(yè)在國民生產(chǎn)中比重不斷上升,青海省的產(chǎn)業(yè)結(jié)構(gòu)在改變,農(nóng)業(yè)的比例在減小,農(nóng)業(yè)用水也會受到較大的影響,這與實際情況一致,進一步說明了模型的有效性。
圖1 模型擬合值
因數(shù)因數(shù)符號I農(nóng)田灌溉用水量x81.2162供水量x71.0752耕地面積x20.9844GDPx30.9595第一產(chǎn)業(yè)占GDP比例x40.9535水資源總量x60.7522
a. 從社會經(jīng)濟系統(tǒng)、水資源系統(tǒng)和管理方面篩選11個影響青海省農(nóng)業(yè)用水的解釋變量,運用MATLAB軟件對2000—2009年的數(shù)據(jù)建立偏最小二乘回歸模型,得到平均擬合誤差為1.255 9%,說明了PLSA的擬合精度較高。
b. 偏最小二乘模型無法剔除與因變量不相關(guān)的因子,通過改進模型,刪減對農(nóng)業(yè)用水量解釋性不強的總?cè)丝?、年降水總量、有效灌溉面積、農(nóng)田畝均灌溉用水量、水資源費征收5個變量,得到擬合精度最高為0.9843%的回歸模型,極大地簡化了模型,并提高了模型精度。
c. 選取2010—2013年的數(shù)據(jù)為檢驗樣本,在對檢驗樣本進行檢驗后,得到較為貼近觀測值的擬合值,表明模型的可靠性,并且改進后的模型的貼近度更高,說明了本文所得的預(yù)測模型與實際符合,具有現(xiàn)實意義。
參考文獻:
[1] SUN Caizhi,ZHAO Liangshi,ZOU Wei,et al.Water resource utilization efficiency and spatial spillover effects in China[J].Journal of Geographical Sciences,2014,24(5):771-788.
[2] 青海省水利廳.2013年青海省水資源公報[EB/OL].[2015-05-03].http://www.qhsl.gov.cn/uploadfile/2013年 青海省水資源公報.pdf.
[3] 青海省統(tǒng)計局.青海省統(tǒng)計年鑒2014[M].北京:中國統(tǒng)計出版社,2014:24-30.
[4] 袁壽其,李紅,王新坤.中國節(jié)水灌溉裝備發(fā)展現(xiàn)狀、問題、趨勢與建議[J].排灌機械工程學(xué)報,2015,33(1):78-92.(YUAN Shouqi,LI Hong,WANG Xinkun.Status,problems,trends and suggestions for water-saving irrigation equipment in China[J].Journal of Drainage and Irrigation Machinery Engineering,2015,33(1):78-92.(in Chinese))
[5] 中華人民共和國中央人民政府.國家農(nóng)業(yè)節(jié)水綱要(2012—2020)[EB/OL].[2015-05-03].http://www.gov.cn/zwgk/2012-12/15/content_2291002.htm.
[6] JENSEN M E.Beyond irrigation efficiency[J].Irrigation Science,2007,25(3): 233-245.
[7] 李保國,黃峰.1998—2007年中國農(nóng)業(yè)用水分析[J].水科學(xué)進展,2010,21(4):575-583.(LI Baoguo,HUANG Feng.Trends in China’s agricultural water use during recent decade using the green and blue water approach[J].Advances in Water Science,2010,21(4):575-583.(in Chinese))
[8] ZHANG Yongqin,MIAO Qilong,PENG Buzhuo.Calculation and analysis on change of agricultural water consumption in the Changjiang delta[J].Journal of Geographical Sciences,2001,11(4):321-325.
[9] FU Yuanyuan,YANG Guijun,WANG Jihua,et al.Winter wheat biomass estimation based on spectral indices,band depth analysis and partial least squares regression using hyper spectral measurements[J].Computers and Electronics in Agriculture,2014,100(2):51-59.
[10] 田絲,張永麗.主成分回歸模型在農(nóng)業(yè)需水量預(yù)測中的應(yīng)用[J].資源開發(fā)與市場,2012,38(7):580-582.(TIAN Si,ZHANG Yongli.Agricultural water demand forecast based on principal component regression model[J].Resource Development and Market,2012,38(7):580-582.(in Chinese))
[11] 劉迪,胡彩虹,吳澤寧.基于定額定量分析的農(nóng)業(yè)用水需求預(yù)測研究[J].灌溉排水學(xué)報,2008,27(6):88-91.(LIU Di,HU Caihong,WU Zening.Predicting method for demand of agriculture water based on quantitative analysis[J].Journal of Irrigation and Drainage,2008,27(6):88-91.(in Chinese))
[12] 王惠文,吳載斌,孟潔.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業(yè)出版社,2006:56.
[13] 王琛嬌.低碳視角下的城市交通發(fā)展路徑研究[D].無錫:江南大學(xué),2012.
[14] 楊國棟.基于變量篩選的偏最小二乘回歸方法及其應(yīng)用[D].長沙:中南大學(xué),2013.
DOI:10.3880/j.issn.1004-6933.2016.04.009
作者簡介:王潔(1990—),女,碩士研究生,研究方向為管理科學(xué)與工程。E-mail:1174764572@qq.com 通信作者:章恒全,教授,博士。 E-mail:hqzhang630@163.com
中圖分類號:TV211.1
文獻標(biāo)志碼:A
文章編號:1004-6933(2016)04-0055-05
(收稿日期:2015-09-08編輯:徐娟)
Application of improved partial least squares method to prediction of agricultural water consumption in Qinghai Province
WANG Jie, ZHANG Hengquan
(Business School, Hohai University, Nanjing 211100, China)
Abstract:Based on the basic data of 11 factors that influenced the agricultural water consumption of Qinghai Province from 2000 to 2009, a partial least squares regression model was established. Considering the practicality and accuracy of the model, the backward method was used to improve the partial least squares method. Five unnecessary variables were excluded, and a higher prediction accuracy was obtained. Data from 2010 to 2013 were selected to verify the model. The results show that the prediction using the partial least squares method agreed with the actual situation, and the improved model showed even greater agreement. Therefore, the partial least squares method is highly applicable to the prediction of the agricultural water consumption of Qinghai Province. The improved partial least squares method greatly simplifies the original model, improves the prediction accuracy, and provides a basis for the prediction of the agricultural water consumption of Qinghai Province.
Key words:agricultural water consumption; water consumption prediction; improved partial least squares method; Qinghai Province