夏勇 貢斌 蔣占軍 徐小軍
(江蘇鴻利智能科技有限公司 江蘇省江陰市 214400)
國外在利用大數(shù)據(jù)技術進行洪水預報方面取得了一些成果。美國國家氣象局將全國數(shù)字高程數(shù)據(jù)、地表覆蓋數(shù)據(jù)、土壤水數(shù)據(jù)、雷達氣象數(shù)據(jù)、全國實時洪水流量數(shù)據(jù)等進行融合,并利用WRFHydro, NoahMP LSM等一系列分布式模型,建立了高精度的全國洪水預報系統(tǒng),可對全國267萬個河段進行實時預報。歐洲洪水預報預警系統(tǒng)(EFAS)是全歐洲第一個實時洪水預報系統(tǒng)。它集地理信息系統(tǒng)、數(shù)據(jù)庫、多種水文及動力學模型于一體,連接水文氣象數(shù)據(jù)采集系統(tǒng)例如ECWMF,結合地面降雨和衛(wèi)星云圖、自動進行數(shù)據(jù)預處理、降雨徑流模擬計算、洪水演進模擬計算和預報結果動態(tài)顯示等,可以為國家和地區(qū)提供4-10天以及實時的洪水預報預警服務以及應急管理服務。此外,日本、英國、荷蘭等國也在大數(shù)據(jù)驅動的洪水預報研究方面取得了很大的進展。
國內隨著云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等技術的發(fā)展和普及,有些學者將其應用于城市安全和應急響應方面的研究。例如,2013年,宋軒等利用物聯(lián)網(wǎng)技術獲取了日本福島約160萬人GPS移動軌跡數(shù)據(jù),然后利用大數(shù)據(jù)技術對這些數(shù)據(jù)進行挖掘分析,從而發(fā)現(xiàn)了災民撤離的行為模式并建立了相關模型,利用此模型可及時感知災難的發(fā)生并可對災難進行模擬或預測,減少災難造成的損失。近幾年,也有部分學者將物聯(lián)網(wǎng)與大數(shù)據(jù)等先進技術應用于城市雨洪風險管理的研究,如2015年,余帥利用分布式計算和存儲的開源軟件框架Hadoop分析城市DEM數(shù)據(jù)來科學合理的布置城市洪澇監(jiān)測點,以及利用物聯(lián)網(wǎng)平臺IoT實時監(jiān)測并處理漬水點水位數(shù)據(jù),并在此基礎上設計了一個城市洪澇實時監(jiān)控的方案。該研究成果能及時監(jiān)測城市洪澇具體情況,為相關管理者的決策提供了指導。
綜上所述,目前國內外基于大數(shù)據(jù)的數(shù)據(jù)挖掘及分析技術的研究已運用到了水利、災害應急管理等各個領域,且取得了一定的成果。而將大數(shù)據(jù)機器學習運用在“智慧水利”中、尤其是城市防洪模型領域的相關研究目前尚屬起步階段。
機器學習是一門多學科交叉專業(yè),涵蓋概率論知識,統(tǒng)計學知識,近似理論知識和復雜算法知識,使用計算機作為工具并致力于真實實時的模擬人類學習方式,并將現(xiàn)有內容進行知識結構劃分篩選,進而得到行之有效的學習算法,有效提高學習效率。
在產業(yè)發(fā)展的今天,對大數(shù)據(jù)分析需求的持續(xù)增加,通過機器學習高效地獲取知識,已逐漸成為當今機器學習技術發(fā)展的主要推動力。大數(shù)據(jù)時代的機器學習更強調“學習本身是手段"機器學習成為一種支持和服務技術。如何基于機器學習對復雜多樣的數(shù)據(jù)進行深層次的分析,更高效地利用信息成為當前大數(shù)據(jù)環(huán)境下機器學習研究的主要方向。機器學習越來越朝著智能數(shù)據(jù)分析的方向發(fā)展,并已成為智能數(shù)據(jù)分析技術的一個重要源泉。另外,在大數(shù)據(jù)時代,隨著數(shù)據(jù)產生速度的持續(xù)加快,數(shù)據(jù)的體量有了前所未有的增長,而需要分析的新的數(shù)據(jù)種類也在不斷涌現(xiàn),如文本的理解、文本情感的分析、圖像的檢索和理解、圖形和網(wǎng)絡數(shù)據(jù)的分析等。使得大數(shù)據(jù)機器學習和數(shù)據(jù)挖掘等智能計算技術在大數(shù)據(jù)智能化分析處理應用中具有極其重要的作用。
圖1:技術路線圖
常規(guī)的水利模型可以分為兩類:第一類是普遍在預報中采用的概念性水文模型如新安江模型、SAC、HBV、MIKE-NAM等;第二類是基于網(wǎng)格的分布式水文模型如網(wǎng)格新安江模型,HL-RMS、美國國家水模型、LISTFLOOD等。流域型水文模型是描述流域降雨徑流形成過程的各函數(shù)構成的一種物理結構或者概念性結構,是當今水文預報的基本工具。
近年來,院校、專家、學者直接將水利模型套用在城市防洪模型的基礎上,由于受基礎數(shù)據(jù)、觀測數(shù)據(jù)與數(shù)據(jù)處理技術的限制,許多分布式水文模型的參數(shù)仍然僅根據(jù)流域出口斷面的流量資料進行率定或部分參數(shù)根據(jù)流域特征估算,無法給出流域內任意河流斷面或任意坡面處的洪水過程,城市建筑、河網(wǎng)、管網(wǎng)、下墊面、植物面積等因素的變化不能及時更新至水利模型中,導致模型推演的準確性低,在防汛期間無法發(fā)揮預報分析的作用。
本文以江蘇省昆山城區(qū)為典型示范區(qū)開展基于機器學習的城市防洪模型研究,研究內容涉及計算機科學和信息融合技術、水文水資源、災害學、管理科學、統(tǒng)計學習等,具有綜合、交叉、復合性的特點,主要采取復雜系統(tǒng)大數(shù)據(jù)深度分析方法、模型分析法、定性定量研究法及實證研究法等進行大數(shù)據(jù)信息融合技術理論方法和城區(qū)防洪調度場景的研究。
技術路線如圖1所示。
(1)調查研究:基于昆山城區(qū)災害、歷史特大降雨等調查分析,確定本項目的主要研究內容、關鍵問題、擬采取研究步驟和技術路線。
(2)特征數(shù)據(jù)收集:基于昆山城區(qū)歷史數(shù)據(jù),過濾清洗異常數(shù)據(jù),分析極限值,找出極限峰值,構建機器學習的典型數(shù)據(jù)庫,標記關鍵特征。
(3)具體的理論、方法、模型研究:①信息融合、大數(shù)據(jù)理論及風險評估理論研究;②城市雨洪風險評估及調控決策模型研究;③城市雨洪風險評估及調控決策系統(tǒng)研究。
(4)應用研究:結合昆山城區(qū)的實際情況,應用上述理論方法進行成果驗證及對策研究。
昆山市從2008年就著手于水利信息化的建設,先后建設了圩區(qū)水利工程信息化系統(tǒng)、智慧水利綜合管理系統(tǒng),梳理、整合昆山水利信息化硬件、軟件等元數(shù)據(jù)、主數(shù)據(jù)、專題數(shù)據(jù)等內容,實現(xiàn)了昆山市水利多部門的多系統(tǒng)的數(shù)據(jù)整合和數(shù)據(jù)優(yōu)化,形成了昆山智慧水利的綜合數(shù)據(jù)庫,具備對海量信息數(shù)據(jù)實時與非實時的分析挖掘的計算能力。
分析昆山城區(qū)歷史數(shù)據(jù),重點水情、雨情、工情等,過濾清洗異常數(shù)據(jù),分析極限值,找出極限峰值,對有效的暴雨洪澇的風險場景評估分析,并對場景發(fā)生時降雨數(shù)據(jù)、地物水文、地表地形、排水管網(wǎng)、歷史災情及社會經(jīng)濟等多源異構大數(shù)據(jù)進行數(shù)據(jù)結構關聯(lián)獲取,構建機器學習的典型數(shù)據(jù)庫,標記關鍵特征,并進行數(shù)據(jù)的統(tǒng)一存儲。
引入機器學習算法,將長短期記憶神經(jīng)網(wǎng)絡(LSTM,Long Short-Term Memory)與隨機森林(Random Forest,RF)相結合,研究如何使用RF進行指標數(shù)據(jù)相關性分析、重要性分析、分類和融合,提出和建立基于RF的數(shù)據(jù)融合方法,構建場景調度指標體系;同時結合LSTM對時間序列數(shù)據(jù)處理的優(yōu)勢,提高單一隨機森林模型靜態(tài)特征預測的準確率。在此基礎上,鑒于場景調度具有不確定性和高維非線性的特點,引入定性定量不確定性轉換的云模型(Cloud Model,CM)和統(tǒng)計智能學習領域的支持向量機(Support Vector Machine,SVM),借助華為FusionInsight大數(shù)據(jù)分析工具上建立融合的城市防洪調度模型。
基于機器學習與FusionInsight的系統(tǒng)融合架構如圖2所示。
圖2:基于機器學習與FusionInsight的系統(tǒng)融合架構
影響水情關系的區(qū)域特征眾多,氣候特征、結構特征、幾何特征、河網(wǎng)特征、土壤特征、植被和土地利用特征、地理位置等構成了高維特征空間,研究進行特征降維的理論與方法,在低維特征空間評價計算單元相似性。研究基于空間臨近、物理相似、水文指標相似等的綜合相似性指標,探索不同計算單元內影響洪水過程形成的流域特征,識別不同特征因子對洪水過程的影響權重,選擇不同的聚類分析方法對不同計算單元進行聚類分區(qū),使得特征綜合相似的單元聚為一類?;诜謪^(qū)結果,提出為缺資料計算選擇一個或幾個相似計算單元組合的途徑,移植有資料單元的降雨徑流關系及參數(shù)為缺資料單元提供洪水模擬和預報方案。
接入實時數(shù)據(jù),選擇、錄入場景數(shù)據(jù)(包含降雨、工情等),構建以WebGIS、數(shù)據(jù)可視化、圖表等組件構成的數(shù)據(jù)的場景推演平臺,利用面向機器學習訓練的典型數(shù)據(jù)庫,針對關鍵特性進行匹配,按相似程度選出各類方案,并進行場景模擬推演與學習,實現(xiàn)對選定場景的動態(tài)演示。
2019年防汛期間,借助于本次研究的城市防洪模型,結合當前水勢場景,分析歷史相似因子,對各類調度方案進行模擬推演分析,通過應用的實踐,驗證了模型的科學性和可行性,后續(xù)進行有效修正和完善,進一步擴大應用推廣。
本次以昆山城區(qū)為典型示范區(qū),將大數(shù)據(jù)機器學習的方法運用于城市防洪模型的研究,將計算機的技術與水利行業(yè)應用相結合,運用大數(shù)據(jù)的變化趨勢,結合當前水勢場景,分析歷史相似因子,對各類調度方案進行模擬分析,提出水利工程調度優(yōu)化方案和水體管理應急預案,為城市防洪減災、大數(shù)據(jù)智能發(fā)展具有重要意義。
本文探索了機器學習的方法下城市防洪模型的研究,提出了技術路線和方法,對建設內容進行了實踐和驗證,以供大家學習參考。