劉 娜
(凌海市水利事務(wù)服務(wù)中心,遼寧 凌海 121200)
各個行業(yè)的發(fā)展離不開淡水資源,而農(nóng)業(yè)屬于最大的淡水消費領(lǐng)域,占其總消費量的70%以上。中國是世界上最大的農(nóng)業(yè)國之一。然而,中國大部分農(nóng)業(yè)用地都位于水資源缺乏的農(nóng)業(yè)區(qū),在這些地區(qū),沒有受到灌溉的作物種植效率低下,產(chǎn)量較低,嚴重影響當(dāng)?shù)剞r(nóng)業(yè)經(jīng)濟發(fā)展[1]。“十三五”以來,國家累計投入700多億元對1 000多處大中型灌區(qū)實施續(xù)建配套與節(jié)水改造,為糧食生產(chǎn)和水資源的節(jié)約集約利用提供了有效支撐。盡管如此,我國的灌區(qū)用水調(diào)度仍然存在較大問題,主要體現(xiàn)在當(dāng)?shù)赜盟枨罅款A(yù)測不準,調(diào)度模型效率低下等方面。因此如何準確的預(yù)測當(dāng)?shù)毓喔扔盟枨罅?,是增強灌區(qū)水資源分配率的關(guān)鍵方法之一[2]。
目前國內(nèi)外對灌區(qū)需水量的預(yù)測研究還處于探索階段,主要取得了以下相關(guān)成果。李玉瓊[3]針對初始化網(wǎng)絡(luò)參數(shù)隨機選擇,造成RBF神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果不穩(wěn)定問題,設(shè)計了一種基于天牛須搜索(BAS)算法對RBF神經(jīng)網(wǎng)絡(luò)參數(shù)進行尋優(yōu)的番茄結(jié)果期需水預(yù)測方法;魯紅武[4]應(yīng)用數(shù)理計算的方向思考策略,研究了稻田灌溉用水量等相關(guān)的內(nèi)容,結(jié)合多方面的因素得到了隴西縣農(nóng)業(yè)用水效率控制紅線;邊疆[5]為確保崇信縣經(jīng)濟的可持續(xù)發(fā)展,通過水資源供需分析對2025年—2035年需水量供需做了預(yù)測,可以結(jié)合預(yù)測的結(jié)果來制定對應(yīng)的灌溉計劃;陳穎杰 等[6]采用MPI氣候模式預(yù)估的未來氣溫、降水結(jié)果及未來流域5種不同的經(jīng)濟社會發(fā)展情形,預(yù)測了黃河流域2017年—2030年的水資源供需演變趨勢; 李學(xué)軍 等[7]針對農(nóng)作物灌溉進行了大量的研究,設(shè)計了一種灌溉預(yù)測模型,在模型中集成了LSTM算法,能夠結(jié)合土壤環(huán)境以及植物生長需求進行灌溉,提升了水資源利用的合理性,降低了灌溉的成本。除了上述研究之外,孫鵬[8]基于ERA5-Land網(wǎng)格數(shù)據(jù)集和灌區(qū)降水、地表水、土壤水的補給機制,使用土壤水消退系數(shù)法和彭曼公式法, 獲取了灌區(qū)多水源的轉(zhuǎn)化關(guān)系, 使用網(wǎng)格數(shù)據(jù)和未來氣候情景數(shù)據(jù)對水稻灌溉用水量進行估算和預(yù)測。
本文以目前應(yīng)用最廣泛的機器學(xué)習(xí)算法為基礎(chǔ),對灌溉區(qū)域的用水需求量進行了預(yù)測分析,并對比分析了各種方法的精度,選出最優(yōu)預(yù)測解,研究成果可為灌區(qū)工程提供參考。
人工神經(jīng)網(wǎng)絡(luò)屬于一種廣泛使用的算法模型,該模型結(jié)合人腦神經(jīng)元特征進行設(shè)計,擁有自主學(xué)習(xí)和自適應(yīng)的特點,通過神經(jīng)元之間的關(guān)系實現(xiàn)對信息的處理。各個神經(jīng)元以變量x作為輸入,然后對y-hat值進行計算。已知訓(xùn)練集中的樣本數(shù)目為m,x代表某個樣本各個特征的取值,g代表非線性激活函數(shù)。另外,各個單元存在偏差(b)、權(quán)重向量(w)兩個需要進行學(xué)習(xí)的參數(shù)。在迭代過程中,需要基于當(dāng)前的w對x的加權(quán)均值進行計算,然后將b加上,并將得到的結(jié)果代入到g中,具體的計算公式如下所示:
在上述公式中,角標k表示第k個神經(jīng)元,x1,x2,...xn為輸入?yún)?shù)向量,表示未知量個數(shù);w1,k,w2,k, ...,wn,k為各參數(shù)權(quán)重;bk為閾值;sk為第一次進行權(quán)重分配后的輸入值;g為非線性激活函數(shù);yk為輸出值. 圖1為神經(jīng)網(wǎng)絡(luò)模式圖。
圖1 神經(jīng)網(wǎng)絡(luò)模式圖
支持向量機是一種基于統(tǒng)計學(xué)的最先進的神經(jīng)網(wǎng)絡(luò)方法。背后的基本概念是超平面,支持向量機在高維空間中構(gòu)造一個超平面或一組超平面,用于分類。最大間隔分類器屬于該算法的基礎(chǔ),盡管最大間隔分類器復(fù)雜度較低,然而并不具備較高的適用性,難以通過線性分類器對大量的非線性數(shù)據(jù)進行處理,導(dǎo)致其應(yīng)用受到了明顯的限制。為了有效地解決上述問題,可以先執(zhí)行核函數(shù)映射的過程,核函數(shù)主要對兩點的相似度進行計算,核函數(shù)的選擇將會影響到算法的應(yīng)用效果。為了獲得靈活度更高的決策邊界,一般需要采用度高于1的內(nèi)核。該算法的基本原理如圖2所示。
圖2 支持向量機算法圖解
logistic回歸模型的主要目標是基于訓(xùn)練數(shù)據(jù)集上提取的知識預(yù)測新給定數(shù)據(jù)的標簽。邏輯回歸可以分為兩種類型:簡單邏輯回歸和多元邏輯回歸,二者的作用以及適用性不同。其中簡單邏輯回歸用于預(yù)測類別值,因為它是分類的,并且只有兩種可能的結(jié)果,然而,多元邏輯回歸可以用來預(yù)測由三個或更多可能結(jié)果組成的類值。對于特定的數(shù)據(jù)集,需要通過分類函數(shù)(h函數(shù))對輸入數(shù)據(jù)的判斷結(jié)果進行預(yù)測;然后對損失函數(shù)進行設(shè)計,一般是預(yù)測結(jié)果和類別的差值,計算損失函數(shù)的均值或者總和,即可得到全部數(shù)據(jù)的偏差,即為J函數(shù)。根據(jù)J函數(shù)取值大小可以對預(yù)測函數(shù)的應(yīng)用效果進行判斷,如果其值較高,則說明預(yù)測函數(shù)的精度較低,而其值較低時,則意味著預(yù)測函數(shù)的精度更高。因此需要對J函數(shù)的最小值進行計算。一般通過梯度下降方式進行參數(shù)估計,具體公式如公式(3)所示:
Leo Breiman(2001)設(shè)計的隨機森林算法廣泛應(yīng)用到了分類等領(lǐng)域中,該方法實際上是在決策樹基礎(chǔ)上實現(xiàn)的,首先需要對決策樹進行訓(xùn)練,在此過程中采用有放回抽樣方式在訓(xùn)練集M中提取一定數(shù)目(n)的樣本,然后進行訓(xùn)練并得到一棵決策樹;基于上述方式可以訓(xùn)練得到較多的決策樹,并且這些決策樹均對應(yīng)著獨立提取的樣本,由此形成了隨機森林。盡管某個樹的分類能力無法達到較高的要求,但是在決策樹數(shù)目較大之后,一個測試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計后選擇最可能的分類。
決策樹(DT)主要是結(jié)合數(shù)據(jù)特征進行劃分,在全部特征劃分完成之后結(jié)束此過程,該方法已經(jīng)較多的應(yīng)用到了分類以及回歸等領(lǐng)域中。一些學(xué)者針對此類算法進行了深入的研究,提出了不同的改進算法,常用的包括ID3等。DT對數(shù)據(jù)采用自上而下的方法,在給定數(shù)據(jù)集的情況下,他們會嘗試對數(shù)據(jù)之間相似性進行分組和標記,并尋找最佳規(guī)則來對它們之間對應(yīng)的不同的標簽進行分類和回歸分析,直到達到最大的精度。
本次分析的灌區(qū)位于錦州市區(qū)域內(nèi),流域內(nèi)雨量豐沛,結(jié)合統(tǒng)計的結(jié)果可知,最大、最小年降雨量分別達到了2 743.5 mm、1 190.7 mm,對應(yīng)的年份依次是1973年、1958年,而多年均值也達到了1 800 mm。盡管全年降水量較高,但是年內(nèi)分布呈現(xiàn)出顯著的不均性,各個月份的降水差異顯著。雨季汛期主要是4月~9月,降水占比達到74.9%,其他月份降水相對較少,屬于旱季枯水期。另外,整個流域上游部分以山地丘陵為主,植被覆蓋較好,水流清澈,水質(zhì)良好,環(huán)境較少受人為破壞,基本無工業(yè)區(qū)污染,水土流失主要為山洪爆發(fā)等自然因素造成。
本次在做需水量預(yù)測之前,根據(jù)灌溉區(qū)域分布地區(qū),將其劃分為21個數(shù)據(jù)點,表1給出了21個灌溉小區(qū)域的實際灌溉用水量和5種機器學(xué)習(xí)方法的預(yù)測值,以及21個區(qū)域總的灌溉用水量和預(yù)測量。根據(jù)表1可以明顯看出單個灌區(qū)的預(yù)測精度比所有灌區(qū)總的預(yù)測精度要高很多。從總的預(yù)測精度來看,支持向量機(SVM)預(yù)測的需水量與實際耗水量更接近,準確率高達97.5%,表明該模型預(yù)測的貼近度較高。在準確率上位于二、三位的分別是決策樹(DT)、神經(jīng)網(wǎng)絡(luò)(ANN),二者依次是96%、95%,這兩個指標的預(yù)測度與RF方法相差不大。然而,對于小灌溉區(qū)域需水量的預(yù)測,例如A4和A6等少數(shù)節(jié)點,相對于ANN、DT兩種方法,RF預(yù)測結(jié)果的準確性更低。在大多數(shù)節(jié)點中,支持向量機(SVM)、logistic回歸等的性能低于ANN、DT、RF算法。此外,在C3、C7等少數(shù)節(jié)點中,實際用水量明顯低于所有模型預(yù)測的用水量。這是因為在這個季節(jié),只有幾個節(jié)點需要進行灌溉,此外不排除在對灌溉用水量進行統(tǒng)計時產(chǎn)生了誤差,影響了最后的預(yù)測精度。圖3為本研究中所有試驗?zāi)P偷膶嶋H和預(yù)測用水量。
表1 21個灌溉小區(qū)域的實際灌溉用水量和5種機器學(xué)習(xí)方法的預(yù)測值
圖3 所有試驗?zāi)P偷膶嶋H和預(yù)測用水量
我國的灌區(qū)用水調(diào)度主要體現(xiàn)在當(dāng)?shù)赜盟枨罅款A(yù)測不準,調(diào)度模型效率低下等方面。針對這一問題,本文采用隨機森林方法(RF)、決策樹(DT)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVM)和logistic回歸5種機器學(xué)習(xí)算法,對灌區(qū)21個灌溉點,以及灌區(qū)總的灌溉用水量進行了預(yù)測分析。結(jié)果表明從總的預(yù)測精度來看,支持向量機(SVM)預(yù)測的需水量與實際灌區(qū)總的耗水量更接近, 準確率高達97.5%,更適用于對總灌區(qū)的需水量進行預(yù)測。而對于小灌溉點需水量的預(yù)測,決策樹和人工神經(jīng)網(wǎng)絡(luò)預(yù)測性能更占領(lǐng)優(yōu)勢。研究方法可為其他灌區(qū)的需水量預(yù)測提供較好參考,大幅度提升灌區(qū)用水資源配置率。