王銘銘,賈 飛
(1.安徽?。ㄋ炕春铀瘑T會)水利科學研究院(安徽省水利工程質量檢測中心站),安徽 合肥 230094;2.安徽省大禹水利工程科技有限公司,安徽 蚌埠 233060)
我國淡水資源總量為28000 億立方米,人均水資源量僅為世界平均水平的1/4,屬于全球人均水資源最貧乏的國家之一。工業(yè)的快速發(fā)展伴隨著水資源的粗獷式開采和高耗式利用,我國萬元GDP 耗水量是世界平均水平的4 倍。長期的粗獷式發(fā)展導致可持續(xù)發(fā)展戰(zhàn)略與水資源的矛盾日益凸顯,嚴重制約社會經(jīng)濟發(fā)展。圍繞國家水資源監(jiān)控能力項目建設需求,開展水資源監(jiān)管領域技術研究,是實行最嚴格的水資源管理制度最重要的技術保障措施之一。
隨著水資源取水監(jiān)測系統(tǒng)的持續(xù)建設,安徽省已率先完成3000 余處取水監(jiān)測點的在線監(jiān)測,在系統(tǒng)運行維護管理中,取水監(jiān)測數(shù)據(jù)歸零及畸變問題,已成為影響取水數(shù)據(jù)統(tǒng)計及應用的重難點。據(jù)研究,由于儀表顯示的位數(shù)有限,一些取水大戶計量設備滿量程后,常出現(xiàn)歸零問題。此外,在取水數(shù)據(jù)采集、傳輸過程中由于信號干擾等因素的影響,易造成數(shù)據(jù)錯位或畸變現(xiàn)象,嚴重影響取水戶水量的統(tǒng)計和系統(tǒng)的正常應用。
目前,尚無針對取水計量數(shù)據(jù)歸零及畸變問題的專題研究,國家水資源取水監(jiān)控數(shù)據(jù)均采用人工巡查與處理的方式進行管理,其時效性與準確性均難以達到要求,已嚴重制約國家水資源監(jiān)控能力建設項目的效益發(fā)揮。隨著水資源取水監(jiān)測站的持續(xù)建設,站點數(shù)據(jù)進一步增加,僅依靠人工進行數(shù)據(jù)巡查及后期處理已不現(xiàn)實,也難以滿足水資源取水數(shù)據(jù)精細化管理需求。本文基于安徽省水資源取水計量監(jiān)控項目,為提高取水數(shù)據(jù)質量、降低取水數(shù)據(jù)巡查與管理難度及減輕取水數(shù)據(jù)管理的壓力,課題長期對取水數(shù)據(jù)歸零及畸變數(shù)據(jù)特征進行跟蹤研究,最終通過大數(shù)據(jù)挖掘技術,以對歸零及畸變數(shù)據(jù)自動甄別、及時處理為目的,研究出取水數(shù)據(jù)歸零與畸變的智能甄別處理系統(tǒng),以保障取水數(shù)據(jù)的精確采集、統(tǒng)計及應用。
基于對已建安徽省水資源取水監(jiān)控數(shù)據(jù)的長期跟蹤研究,歸零數(shù)據(jù)常出現(xiàn)在大型取水監(jiān)測點,作為計量儀表滿量程后出現(xiàn)的累積流量自動歸零的現(xiàn)象,影響取水點流量的正常計算。而畸變數(shù)據(jù)是在數(shù)據(jù)傳輸過程中受到信號干擾因素而產(chǎn)生的。當監(jiān)測設備安裝點有電子類工程施工、電焊施工、變頻干擾或設備本身故障等一些干擾因素存在時,計量數(shù)據(jù)傳輸易受影響,常導致數(shù)據(jù)丟包、小數(shù)點錯位等畸變現(xiàn)象。
通過對安徽省的3000 余處水資源取用水樣本點開展了調研,發(fā)現(xiàn)省內各取用水戶選用的計量設備各不相同,其計量設備顯示方式、計量量程、設備安裝環(huán)境等各不相同,現(xiàn)場存在的干擾因素亦各有特點,甚至部分企業(yè)本身的生產(chǎn)工作亦存在對計量監(jiān)測設備的數(shù)據(jù)傳輸造成干擾。經(jīng)研究,取水數(shù)據(jù)的歸零和畸變的誘因甚多,難以對現(xiàn)場環(huán)境的監(jiān)測進行甄別與診斷,故課題采用水資源取水大數(shù)據(jù)分析方法,開展基于數(shù)據(jù)挖掘等技術手段的取水歸零及畸變數(shù)據(jù)糾錯研究。
數(shù)據(jù)畸變智能分析需要建立在取水戶、行業(yè)取水的多年監(jiān)測數(shù)據(jù)基礎上進行,需要具備海量的取水原始數(shù)據(jù)及大量的畸變數(shù)據(jù)處理樣本。安徽省水資源取水監(jiān)控經(jīng)過5 年的建設,已實現(xiàn)對3000 余處水資源取水點的監(jiān)測,系統(tǒng)已積累約20GB 的原始取水計量數(shù)據(jù),為取水數(shù)據(jù)的研究提供原始數(shù)據(jù)基礎。此外,安徽省水資源取水監(jiān)控系統(tǒng)多年的運行管理經(jīng)驗和積累的13000 余條人工處理數(shù)據(jù)歸零及畸變數(shù)據(jù),提供了充足的研究樣本。
課題研究以取水監(jiān)控系統(tǒng)中原始采集數(shù)據(jù)為基礎,經(jīng)對26000 余組畸變數(shù)據(jù)處理特點的歸納和分析,采用尋找取水數(shù)據(jù)期望的方法,對取水歷史數(shù)據(jù)進行聚類,由正常數(shù)據(jù)和異常數(shù)據(jù)形成多個聚簇,通過確定最新數(shù)據(jù)的水量累計值、小時用水量、日用水量是否命中相對應的聚簇內,以甄別該數(shù)據(jù)是否為歸零或畸變數(shù)據(jù),最終根據(jù)對數(shù)據(jù)的甄別結果,對數(shù)據(jù)進行入庫、糾錯或拋棄等處理。
3.3.1 K-Means 算法
K-Means 算法是一種基于樣本間相似性度量的間接聚類方法,其中心思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的準則函數(shù)達到最優(yōu),從而使生成的類聚內緊湊,類間獨立。由于其對樣例數(shù)據(jù)量的要求不高,在小規(guī)模數(shù)據(jù)中仍能夠較為準確地計算出聚類結果,因此具有簡單、快速等特點,在處理大數(shù)據(jù)集時效率較高,特別當結果聚類密集,且聚類與聚類之間區(qū)別明顯時,該算法應用效果明顯。
水資源取水監(jiān)測數(shù)據(jù)站點較多,對數(shù)據(jù)計算時效性要求較高。此外,畸變或歸零數(shù)據(jù)簇與聚類簇之間具有明顯的區(qū)別,因此文章選擇K-Means 算法作為水資源取水畸變數(shù)據(jù)甄別算法的理論基礎。
3.3.2 取水數(shù)據(jù)糾錯算法實現(xiàn)
在K-Means 算法中唯一需要去確認的值為K值,在K 值確定后需通過中心的迭代,以實現(xiàn)中心點收斂。為實現(xiàn)水資源取水畸變數(shù)據(jù)甄別,課題研究隨機選取k 個聚類中心點(clustercentroids)μ1,……,μk,重復下面過程直到收斂。
對于每一個樣例i,計算其應該屬于的聚類:
對于每一個聚類j,重新計算該聚類的質心:
基于以上兩步的不斷進行數(shù)據(jù)收斂,通過程序遞歸,最終得到唯一的收斂值,以確定最終收斂的k 個中心。當?shù)玫绞諗恐行臅r即與之前的中心進行比較,從而診斷其是否為畸變數(shù)據(jù)。在程序的不斷應用及完善中,我們通過程序經(jīng)驗和結果分析得到,當k 值選取在3 個收斂點時,得到的數(shù)據(jù)較為精準,且數(shù)據(jù)識別度較高。
由于歸零數(shù)據(jù)為畸變數(shù)據(jù)的一種,當確定數(shù)據(jù)畸變后,還需開展歸零數(shù)據(jù)的判斷,若為歸零數(shù)據(jù)則根據(jù)歸零數(shù)據(jù)、計量設備量基礎程值及歸零前計量數(shù)值進行測算與修復,并將恢復后的數(shù)據(jù)入庫;若非歸零數(shù)據(jù),則判定數(shù)據(jù)為畸變,對其進行拋棄處理。算法實現(xiàn)的詳細流程見圖1 所示。
通過選取在近5 年內的正常數(shù)據(jù)樣本,并分區(qū)間計算樣本數(shù)據(jù)的區(qū)間中心數(shù)據(jù),形成樣例數(shù)據(jù)的中心點數(shù)據(jù)樣本,此次選擇寧國市眾益水務有限公司的樣本數(shù)據(jù)進行結果驗證。
提供的樣例中心點數(shù)據(jù)如下:
同過K-Means 算法對樣例數(shù)據(jù)尋找中心點,經(jīng)過計算得到收斂的三個中心點數(shù)據(jù):[2965,472,5888]。通過對最新的上行的累計數(shù)據(jù)與前兩日的最后一條上行的數(shù)據(jù)計算得到用水差值,并將該差值與三個中心點數(shù)據(jù)進行比對,對與大于中心點之和的數(shù)據(jù)進行畸變判斷。程序通過判斷將超出中心點數(shù)據(jù)的上行累計數(shù)據(jù)歸納為畸變數(shù)據(jù)。圖2 為對寧國市眾益水務有限公司取水數(shù)據(jù)聚類及畸變數(shù)據(jù)的分析示意圖。
圖2 寧國市眾益水務有限公司取水數(shù)據(jù)聚類及畸變數(shù)據(jù)分析圖
對于分析出來的正常數(shù)據(jù)和畸變數(shù)據(jù)分別進行數(shù)據(jù)存放,并不斷擴充畸變數(shù)據(jù)和正常數(shù)據(jù)樣本庫,程序通過持續(xù)的數(shù)據(jù)學習,實現(xiàn)數(shù)據(jù)評價逐步靠近真實。
通過數(shù)據(jù)歸零和畸變的智能處理方法的應用,在實際應用過程中對異常頻率較高的取水點進行數(shù)據(jù)跟蹤,選取其中部分取水點在2022 年年取水量匯總計算的數(shù)據(jù)樣本,得到數(shù)據(jù)糾錯后的正確性達到100%,部分難以處理的數(shù)據(jù)通過處理告警的方式,提示運維管理人員進行人工處理。詳見表1
表1 水資源取水數(shù)據(jù)糾錯數(shù)據(jù)列表(節(jié)選) (單位:萬方)
水資源取水計量監(jiān)測管理是用水總量紅線控制的基礎,是最嚴格水資源管理制度的重要支撐平臺。本文深入研究行業(yè)技術特點,與實際情況有效結合起來,解決了計量儀表數(shù)據(jù)歸零及畸變處理的問題,保證了監(jiān)測數(shù)據(jù)可用性、可信性,對水資源取水監(jiān)控項目建設與管理的水平提升具有促進作用