趙鐘聲,許景輝,*,王 雷,王一琛
(1.西北農(nóng)林科技大學(xué) 旱區(qū)農(nóng)業(yè)水土工程教育部重點(diǎn)實(shí)驗(yàn)室,陜西 楊凌 712100; 2.西北農(nóng)林科技大學(xué) 水利與建筑工程學(xué)院,陜西 楊凌 712100; 3.西北農(nóng)林科技大學(xué) 機(jī)械與電子工程學(xué)院,陜西 楊凌 712100)
灌區(qū)渠道工程主要包括總干、干、支、斗、農(nóng)渠及其相關(guān)輸擋水建筑物[1],各渠道運(yùn)行健康狀況跟灌區(qū)水資源利用效率密切相關(guān)[2]。傳統(tǒng)渠系滲漏等健康狀態(tài)判別主要通過人工巡視的方法進(jìn)行[3],此方法不但費(fèi)時費(fèi)力,無法判明水下建筑物狀況,還因巡檢人員經(jīng)驗(yàn)不同而造成誤判或漏判,導(dǎo)致灌區(qū)水資源嚴(yán)重浪費(fèi)。當(dāng)前現(xiàn)代化灌區(qū)已基本實(shí)現(xiàn)渠道流量、流速、水位變化等數(shù)據(jù)自動采集記錄[4-6]?!狙芯恳饬x】但灌區(qū)僅對周期性水量進(jìn)行統(tǒng)計[7],如果能通過數(shù)據(jù)挖掘等先進(jìn)技術(shù),揭示渠系用水規(guī)律,發(fā)現(xiàn)并提取渠系運(yùn)行健康評測指標(biāo),這將對提高水資源利用效率以及灌區(qū)生產(chǎn)、管理起到積極作用并產(chǎn)生重要意義。
數(shù)據(jù)挖掘是指根據(jù)特定業(yè)務(wù)目標(biāo)從海量數(shù)據(jù)中提取潛在有效且可以理解的、模式的高級過程[8-10]?!狙芯窟M(jìn)展】常占峰[11]采用Geodatabase 地理數(shù)據(jù)庫技術(shù)對特定灌區(qū)水文數(shù)據(jù)進(jìn)行組織研究,提出昌馬灌區(qū)水文數(shù)據(jù)組織建模思路框架。宋海瑞等[12]基于都江堰灌區(qū)數(shù)據(jù)中心建立了相應(yīng)數(shù)據(jù)挖掘模型。趙麗華[13]對灌區(qū)渠系數(shù)據(jù)中水情監(jiān)測判別方法進(jìn)行了相關(guān)探討研究。Moavenshahidi 等[14]利用灌區(qū)自動通道控制的水位數(shù)據(jù)研發(fā)了一種計算機(jī)模型,用于估算灌區(qū)不同通道河段的滲流率。李釗等[15]通過數(shù)據(jù)挖掘并引進(jìn)機(jī)器學(xué)習(xí)思想,提出一種渠道糙率直接反演方法?!厩腥朦c(diǎn)】以上研究都是通過數(shù)據(jù)挖掘?qū)鄥^(qū)水文水情、規(guī)劃設(shè)計、渠道糙率等的探討,而對數(shù)據(jù)挖掘技術(shù)在檢測灌區(qū)渠系建筑物運(yùn)行健康方面研究較少。
本文基于陜西關(guān)中地區(qū)某灌區(qū)總干、干、支、斗渠道2014 年10 月—2018 年10 月流量數(shù)據(jù)以及灌區(qū)渠道輸水灌溉發(fā)生運(yùn)行不良狀況的各項(xiàng)異常終端報警信息,提取渠道運(yùn)行不良關(guān)鍵特征指標(biāo)?!緮M解決的關(guān)鍵問題】通過LM(Levenberg Marquard)神經(jīng)網(wǎng)絡(luò)構(gòu)建灌區(qū)渠道運(yùn)行健康檢測模型,并與傳統(tǒng)BP(Back-ProPagation Network)神經(jīng)網(wǎng)絡(luò)、CART(Classification and Regression Tree)決策樹識別模型進(jìn)行對比,探究LM 網(wǎng)絡(luò)模型在渠系運(yùn)行健康識別方面效果,為灌區(qū)合理判別渠道運(yùn)行健康狀態(tài)提供理論研究與技術(shù)支持。
選取灌區(qū)位于陜西關(guān)中地區(qū),類型為大型(Ⅱ)灌區(qū),主要種植作物為玉米、棉花、冬小麥等。2010年灌區(qū)進(jìn)行了現(xiàn)代化建設(shè)改造,在灌區(qū)總干、干、支、斗各級渠道渠首設(shè)水量測控裝置,其數(shù)據(jù)以1 h 為間期回傳管理中心。在總干、干、支渠道區(qū)段內(nèi)設(shè)水位、流速、淤積度監(jiān)測報警裝置。
灌區(qū)渠系分布主要為:3 個總干渠(總南干渠(S)、總中干渠(M)、總北干渠(N));7 個干渠(南干渠Ⅰ(S-A)、南干渠Ⅱ(S-B)),中干渠Ⅰ(M-A)、中干渠Ⅱ(M-B)、中干渠Ⅲ(M-C),北干渠Ⅰ(N-A)、北干渠Ⅱ(N-B));40 個支渠(例:S-A1、S-B1等)以及若干斗渠等。
與灌區(qū)渠道運(yùn)行健康狀態(tài)相關(guān)的原始數(shù)據(jù)主要為實(shí)時流量,水位、流速超警戒或低警戒報警數(shù)據(jù)、淤積度報警數(shù)據(jù)以及渠道發(fā)生運(yùn)行不良記錄數(shù)據(jù)等。本模型所用數(shù)據(jù)為2014 年10 月—2018 年10 月灌區(qū)內(nèi)總干、干、支渠道運(yùn)行不良相關(guān)數(shù)據(jù)以及主要灌溉時期內(nèi)部分運(yùn)行良好的總干、干、支、斗渠道數(shù)據(jù),并應(yīng)用周期性分析方法對流量數(shù)據(jù)進(jìn)行數(shù)據(jù)探索分析。
如圖1 所示,當(dāng)渠道運(yùn)行健康時,上級渠道渠首引水平均流量減去運(yùn)行正常下級各渠道渠首引水平均流量總和在一定范圍內(nèi)比較平穩(wěn),波動不大;而當(dāng)渠道運(yùn)行不健康時,非正常運(yùn)行渠道上,其上級渠道渠首引水平均流量減去運(yùn)行不正常下級各渠道渠首引水平均流量總和的差值隨時間變大,而后在一定波動范圍趨于穩(wěn)定。
圖1 渠道運(yùn)行正常與非正常時流量趨勢變化對比圖 Fig.1 Comparison of traffic trends during normal and abnormal channel operation
從數(shù)據(jù)庫得到的渠道流量數(shù)據(jù)雖在一定程度上能反應(yīng)出渠道運(yùn)行不健康規(guī)律特征,但要作為構(gòu)建模型專家樣本輸入項(xiàng),在特征表現(xiàn)上不夠明顯。本文基于數(shù)據(jù)變換,得到新的特征評價指標(biāo)來反映渠道運(yùn)行健康狀況特征規(guī)律。
渠道運(yùn)行狀況特征指標(biāo)評價體系主要為:
1)單位時間流量損失率增長趨勢指標(biāo)
假設(shè)在灌水周期幾天或幾周內(nèi)灌區(qū)渠道沿程水量損失(水分蒸發(fā)、渠道滲漏等)隨外界變化波動不大,q損定值。對運(yùn)行狀況良好渠道有q進(jìn)=q出+q沿?fù)p;當(dāng)渠道運(yùn)行不良,發(fā)生事故造成水量損失q損時,有q進(jìn)= q出+q沿?fù)p+q損。
同一個渠道同一時間段內(nèi)單位時間流量損失率為wi=(q損/q進(jìn))×100%。若wi增大,說明單位時間流量損失占q進(jìn)比重越來越大。對同一個渠道來說,在q損不變情況下,表明渠道有其他水量損失,說明渠道運(yùn)行出現(xiàn)漏水等不健康狀況。
當(dāng)渠道運(yùn)行不良時,在短時間內(nèi)其單位流量損失率急劇增加,而后趨于平緩。但由于渠道單位時間流量損失率存在波動,單純以前一個單位時間流量損失率與后一流量損失率相比誤差過大。通過對該灌區(qū)渠道流量損失率誤差數(shù)據(jù)分析發(fā)現(xiàn),當(dāng)2 個流量損失率誤差大于0.9%以上時,渠道流量損失會產(chǎn)生較大變化。本研究考慮后一個單位時間流量損失率比前一個損失率的增長率是否大于1%。若增長率大于1%,則渠道運(yùn)行狀況可判為不健康。
設(shè)在一個統(tǒng)計周期內(nèi)單位時間流量損失率統(tǒng)計為:
2)輸水量損失增長趨勢指標(biāo)
同單位時間流量損失率增長趨勢指標(biāo)假設(shè)一樣,w沿?fù)p為定值。則在統(tǒng)計周期單位時間步長內(nèi)渠道進(jìn)水量w進(jìn)、出水量w出和輸水損失ki關(guān)系式為ki=w進(jìn)-w出-w損,其中i 為第幾單位時間步長序號,i=1、2、3、4、…m。
3)測控告警類指標(biāo)
與灌區(qū)渠道輸水運(yùn)行非健康相關(guān)報警主要有渠道水位超警戒線、低警戒線,流速過大、過小報警以及渠道淤泥度監(jiān)測報警等,本研究以計算發(fā)生與灌區(qū)渠道輸水灌溉期間運(yùn)行非健康相關(guān)報警次數(shù)總和為測控告警類指標(biāo)。
對2014 年10 月—2018 年10 月該灌區(qū)內(nèi)運(yùn)行非健康渠道以及灌水期內(nèi)部分運(yùn)行良好渠道的流量、告警數(shù)據(jù)和該渠道在統(tǒng)計步長周期內(nèi)運(yùn)行是否健康標(biāo)志,按渠道運(yùn)行狀況特征評價指標(biāo)進(jìn)行處理并選取其中915 個樣本數(shù)據(jù),得到專家樣本數(shù)據(jù)庫。
表1 專家樣本數(shù)據(jù)示例 Table 1 The expert sample data example
在構(gòu)建專家樣本數(shù)據(jù)中,對總干渠、干渠以1 h為1 個統(tǒng)計周期,其中單位時間流量步長以5 min 為1 個時間段計,單位時間輸水量步長以10 min 為1 個時間段計;對支渠以2 h 為1 個統(tǒng)計周期,單位時間流量步長以10 min 為1 個時間段計,單位時間輸水量步長以20 min 為1 個時間段計。
灌區(qū)渠道運(yùn)行是否健康的識別可通過構(gòu)建分類預(yù)測模型來實(shí)現(xiàn)。本文選用LM 神經(jīng)網(wǎng)絡(luò)模型構(gòu)建灌區(qū)渠道運(yùn)行健康狀況識別,并與傳統(tǒng)BP網(wǎng)絡(luò)和CART決策樹模型進(jìn)行對比,以評價LM 神經(jīng)網(wǎng)絡(luò)模型對渠道運(yùn)行是否健康識別的適應(yīng)性。3 種模型中輸入項(xiàng)分別為“單位流量損失率增長趨勢指標(biāo)”、“輸水量損失率增長趨勢指標(biāo)”、“測控告警類指標(biāo)”,輸出項(xiàng)為是否健康標(biāo)志“1”或“2”(“1”代表渠道在統(tǒng)計周期內(nèi)運(yùn)行狀況正常,“2”表示不正常)。
采用信賴域算法模擬目標(biāo)函數(shù)f(x)的二次模型,計算式為:
式中:s 為自變量;gTk為梯度;Gk為H 矩陣;hk為第k 次迭代的信賴域上界,其范數(shù)沒有指定。
高斯-牛頓公式、牛頓數(shù)學(xué)公式、LM 算法分別為:
式中:g=JTf,u≥0。當(dāng)u=0 時,LM 算法退化為高斯牛頓法;當(dāng)u 很大時,LM 算法變?yōu)椋?/p>
LM 算法重點(diǎn)是確定u 值,引入一評價量δ,計算式為:
δ 描述使用L 的下降量對F 下降量的近似程度。若δ 較大,說明近似效果較好,u 可以繼續(xù)減小使LM更接近于高斯-牛頓法;若δ較小,則近似效果較差,因此可以增大u 使得LM 更接近梯度法[17]。在LM 算法中迭代結(jié)束條件只要滿足以下3 條之一即可:①下降梯度g 小于某一設(shè)定閥值;②前后2 次x 的差小于某一閥值;③達(dá)到最大迭代次數(shù)kmax。
本模型迭代結(jié)束條件為設(shè)定達(dá)到最大迭代次數(shù)kmax=1 000,同時依據(jù)樣本數(shù)據(jù)輸入項(xiàng)建立LM 神經(jīng)網(wǎng)絡(luò)模型設(shè)定輸入節(jié)點(diǎn)為3 個、隱層節(jié)點(diǎn)數(shù)12、輸出節(jié)點(diǎn)2 個,顯示間隔次數(shù)為25、目標(biāo)誤差為0、最大校驗(yàn)失敗次數(shù)為7、最大誤差梯度1e-7,初始u 為0.001,增長比率為10、減少比率為0.1、最大值為1010。
構(gòu)建模型時將915個專家樣本隨機(jī)抽取83%作為訓(xùn)練樣本,17%為測試樣本。對3 個模型均重復(fù)訓(xùn)練,取最優(yōu)分類結(jié)果。
研究發(fā)現(xiàn),759 個訓(xùn)練樣本分類中3 個模型綜合最優(yōu)分類準(zhǔn)確率幾乎相差不大,都達(dá)到98%以上。其中,對運(yùn)行正常渠道分類,3 個模型準(zhǔn)確率均高于99%,LM 神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高,BP 神經(jīng)網(wǎng)絡(luò)模型與CART 決策樹模型準(zhǔn)確率相等;誤判比例均小于0.5%。對運(yùn)行不正常渠道分類,3 個模型準(zhǔn)確率都在90%以上,BP 神經(jīng)網(wǎng)絡(luò)模型與LM 神經(jīng)網(wǎng)絡(luò)模型相等并高于CART 決策樹模型;誤判比例均小于1.0%。3 種模型混淆矩陣結(jié)果如圖2 所示(圖中運(yùn)行正常渠道標(biāo)志為類“1”,運(yùn)行不正常渠道標(biāo)志為類“2”)。
圖2 3 種模型混淆矩陣 Fig.2 Confusion matrix of three models training data classification results
對比156 個測試樣本輸出類與實(shí)際類發(fā)現(xiàn),3 個模型綜合預(yù)測分類準(zhǔn)確率都在94%以上。其中,BP神經(jīng)網(wǎng)絡(luò)模型與LM 神經(jīng)網(wǎng)絡(luò)模型的分類綜合準(zhǔn)確率均為96.2%,高于CART 決策樹模型。對運(yùn)行正常渠道分類,3 個模型準(zhǔn)確率均為100%;對運(yùn)行不正常渠道分類,BP 神經(jīng)網(wǎng)絡(luò)模型與LM 神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率同為76%,高于CART 決策樹模型。3 個模型測試輸出類與實(shí)際類對比分析結(jié)果如表2 所示。
表2 3 個模型測試輸出類與實(shí)際類對比 Table 2 The output and actual class proportion results of three models
圖3 3 種模型測試樣本分類ROC 曲線對比 Fig.3 The comparison of ROC curves of three model test samples
為進(jìn)一步評估模型分類性能,本文同時用156 個測試樣本對3 個模型進(jìn)行ROC(Receiver operating characteristic curve)曲線評估。3 個模型測試ROC 曲線如圖3 所示。一個優(yōu)秀分類模型所對應(yīng)ROC 曲線應(yīng)是盡可能靠近左上角完美曲線。通過圖3 比較發(fā)現(xiàn),LM 神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)BP 網(wǎng)絡(luò)、CART 決策樹模型表現(xiàn)更優(yōu)。LM 神經(jīng)網(wǎng)絡(luò)模型中運(yùn)行正常渠道分類準(zhǔn)確度折線與運(yùn)行不正常渠道預(yù)測分類準(zhǔn)確度折線下的面積更大,說明LM 神經(jīng)網(wǎng)絡(luò)模型分類性能更優(yōu),可實(shí)際應(yīng)用于渠道運(yùn)行健康狀況識別檢測。
灌區(qū)渠道運(yùn)行狀況識別,在實(shí)際生產(chǎn)中主要是對運(yùn)行狀況不健康渠道進(jìn)行判別。為探究LM 神經(jīng)網(wǎng)絡(luò)模型在實(shí)際應(yīng)用中的適應(yīng)性,選取該灌區(qū)2018 年12月—2019 年7 月灌水周期內(nèi)總北干渠(N)、中干渠Ⅱ (M-B)、北干渠Ⅰ(N-A)、南干渠Ⅱ(S-B)以及支渠(N-A1、N-A3、N-A5、N-A6、M-B1、M-B2、M-B4、M-B6、S-B1、S-B4、S-B6、S-A1、S-A3、M-C3、M-C5、N-B5、N-B3、S-A4、M-C1)流量數(shù)據(jù)和終端報警數(shù)據(jù)。通過Matlab 編程對原始數(shù)據(jù)預(yù)處理并提取相應(yīng)特征指標(biāo),得到模型輸入項(xiàng)數(shù)據(jù)實(shí)現(xiàn)對灌區(qū)渠道運(yùn)行不健康狀況識別檢測,結(jié)果見表3。
分析表3 可知,LM 神經(jīng)網(wǎng)絡(luò)模型正確識別出在統(tǒng)計灌水周期內(nèi)該灌區(qū)運(yùn)行不健康渠道共21次中的17次,錯誤判斷2 次,漏判2 次,準(zhǔn)確率為80.95%;其中對3 條干渠判斷中1 個漏判,1 個錯判。進(jìn)一步分析發(fā)現(xiàn),由于干渠中流量數(shù)據(jù)較大并且對干渠本研究以1 h 為統(tǒng)計周期,其統(tǒng)計時間周期較長,造成了模型對干渠運(yùn)行健康狀況識別不夠敏感。本次統(tǒng)計灌水周期內(nèi)總北干渠(N)無發(fā)生渠道運(yùn)行不正常狀況。對表3 總體分析來看,LM 神經(jīng)網(wǎng)絡(luò)模型對該灌區(qū)渠道運(yùn)行不正常識別準(zhǔn)確率在80%以上,達(dá)到實(shí)際應(yīng)用要求。
表3 模型識別結(jié)果與實(shí)際稽查結(jié)果比較 Table 3 The comparison of model recognition results with actual audit results
灌區(qū)渠道運(yùn)行檢測一直是灌區(qū)生產(chǎn)管理中的重點(diǎn)與難點(diǎn)[18],對其運(yùn)行健康狀況的檢測當(dāng)前基本上采用傳統(tǒng)的人工檢測方法[19],而基于數(shù)據(jù)挖掘技術(shù)以及神經(jīng)網(wǎng)絡(luò)分析方法對灌區(qū)渠道輸水健康狀況檢測目前鮮有研究。本文通過對特定灌區(qū)流量數(shù)據(jù)以及各項(xiàng)異常終端報警信息數(shù)據(jù)分析與處理,提取出渠道運(yùn)行狀況特征指標(biāo)并構(gòu)建專家樣本數(shù)據(jù),通過模型分類可以良好地反映出渠系運(yùn)行健康狀況。研究結(jié)果與劉恒[20]基于神經(jīng)網(wǎng)絡(luò)模型對洪水分類預(yù)測準(zhǔn)確度相似。應(yīng)用ROC 曲線評估三模型分類準(zhǔn)確度,發(fā)現(xiàn)LM網(wǎng)絡(luò)模型的分類準(zhǔn)確度折線均比傳統(tǒng)BP 網(wǎng)絡(luò)[21]、CART 決策樹模型更靠近左上角,研究結(jié)果與趙文倉等[22]基于LM 算法對用戶竊漏電行為預(yù)測結(jié)論基本一致。說明LM 神經(jīng)網(wǎng)絡(luò)模型最優(yōu),可以應(yīng)用于實(shí)際灌區(qū)渠道運(yùn)行健康狀況檢測識別。
本文構(gòu)建的LM 神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)CART 決策樹模型、BP 網(wǎng)絡(luò)模型相比,對灌區(qū)灌溉渠道運(yùn)行狀況健康識別準(zhǔn)確率表現(xiàn)更優(yōu),對759 個訓(xùn)練樣本與156個測試樣本的綜合識別準(zhǔn)確率分別為98.6%、96.2%,并且測試樣本中ROC 曲線更靠左上角。在實(shí)際應(yīng)用中,LM 神經(jīng)網(wǎng)絡(luò)模型對該灌區(qū)統(tǒng)計周期內(nèi)運(yùn)行不正常渠道正確識別率達(dá)到80%以上,滿足實(shí)際應(yīng)用要求。