劉瀚 夏繼紅 蔡旺煒
摘 要:為解決傳統(tǒng)數(shù)據(jù)管理平臺難以快速、全面地對河流系統(tǒng)進行管理決策的問題,應(yīng)用大數(shù)據(jù)技術(shù)構(gòu)建河流大數(shù)據(jù)平臺具有重要意義。從河流大數(shù)據(jù)的概念、河流大數(shù)據(jù)平臺的架構(gòu)以及河流大數(shù)據(jù)平臺的實現(xiàn)3個方面對河流大數(shù)據(jù)平臺進行了探討,提出了構(gòu)建以Hadoop為基礎(chǔ)架構(gòu),以信息集成模型、河流健康診斷模型、河流風(fēng)險預(yù)警模型、決策支持模型為驅(qū)動,以河流大數(shù)據(jù)為支撐的河流大數(shù)據(jù)決策支持平臺,實現(xiàn)河流健康的診斷與風(fēng)險預(yù)警,為河長制中河流系統(tǒng)的信息化高效管理提供新的思路。
關(guān)鍵詞:河流系統(tǒng);大數(shù)據(jù);決策支持平臺;河流健康;風(fēng)險預(yù)警
中圖分類號:P338+.9 ? 文獻標(biāo)志碼:A
doi:10.3969/j.issn.1000-1379.2020.07.034
Abstract:In order to solve the problem that the traditional data management platform is difficult to make management decisions on river system quickly and comprehensively, it is of great significance to construct a big data platform of river system by using big data technology. This paper discussed the big data platform from three aspects of the characteristic of big data of river system, the structure of big data platform of river system and the realization of big data platform of river system. It put forward the platform constructed by Hadoop-based framework, driven by information integration model, river health diagnosis model, risk warning model and decision support model and braced by big data of river system. Generally, the paper provides a new idea for the efficient management of river system to realize the diagnosis and risk warning of river health.
Key words: river system; big data; decision support platform; river health; risk early warning
自全面推行河長制以來,傳統(tǒng)的數(shù)據(jù)處理方法難以滿足海量、多源、異構(gòu)的河流系統(tǒng)數(shù)據(jù)的存取應(yīng)用和河流的高效管理要求[1],利用大數(shù)據(jù)、云計算等現(xiàn)代技術(shù)構(gòu)建河流管理信息平臺日趨重要。2017年5月,水利部印發(fā)了《關(guān)于推進水利大數(shù)據(jù)發(fā)展的指導(dǎo)意見》(水信息[2017]178號),提出要在水利行業(yè)推進數(shù)據(jù)資源共享開放,促進水利大數(shù)據(jù)發(fā)展與創(chuàng)新應(yīng)用。這一文件的頒發(fā)有力地促進了大數(shù)據(jù)在水利行業(yè)的應(yīng)用,目前已形成了多個專項大數(shù)據(jù)平臺,如饒小康[2]基于Hadoop分布式集群構(gòu)建了水利工程灌漿大數(shù)據(jù)平臺;李家杰[3]以地理信息系統(tǒng)為基礎(chǔ)構(gòu)建了城市健康水系統(tǒng)等。這些專項平臺在一定程度上解決了水利數(shù)據(jù)的共享問題,然而目前河流大數(shù)據(jù)平臺依舊較為缺乏,尤其是對廣大的中小河流缺乏有效的管理手段,給河流高效管理帶來了一定困難。針對這一需求,筆者在分析河流大數(shù)據(jù)特征和主要類型的基礎(chǔ)上,應(yīng)用大數(shù)據(jù)和分布式架構(gòu)技術(shù),探討河流健康診斷與風(fēng)險預(yù)警大數(shù)據(jù)平臺的設(shè)計與構(gòu)建方法,為河流系統(tǒng)的信息化、智能化管理提供技術(shù)和方法參考。
1 河流大數(shù)據(jù)的概念與分類
1.1 河流大數(shù)據(jù)的概念
大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理,需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[4]。中小河流一般是指流域面積小于200 km2的河流,大多分布于農(nóng)村區(qū)域,包括一些末梢河流,包含了大量的數(shù)據(jù)信息,這些信息具有整體性、開放性、復(fù)雜性和不確定性的特點[5]。據(jù)此,借鑒大數(shù)據(jù)的概念,認(rèn)為河流大數(shù)據(jù)是指在合理時間內(nèi)無法利用常規(guī)工具進行河流系統(tǒng)信息存儲、管理與分析的數(shù)據(jù)總集,包括河流系統(tǒng)的生態(tài)、環(huán)境、人文、工程、功能等方面的時空演變數(shù)據(jù)與實時發(fā)生的河流事件數(shù)據(jù)。
河流大數(shù)據(jù)和傳統(tǒng)意義上的河流數(shù)據(jù)相比具有以下幾個特性:①海量性。隨著感知設(shè)備與通信技術(shù)的發(fā)展,涉河的各類數(shù)據(jù)呈幾何級增長,大大超出了個人計算機的處理能力。②多樣性。河流大數(shù)據(jù)涉及空間數(shù)據(jù)、工程數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等多學(xué)科、多領(lǐng)域[6-7],是一個多格式、多類別數(shù)據(jù)集合。③時效性。河流數(shù)據(jù)涉及多個時間尺度的信息,大量準(zhǔn)確的實時數(shù)據(jù)是河流管理決策實時性、準(zhǔn)確性的重要依據(jù)[8]。④低價值密度性。河流大數(shù)據(jù)涵蓋面廣泛且數(shù)據(jù)量眾多,其數(shù)據(jù)價值在面對具體對象、具體屬性時存在稀疏性的特點。
1.2 河流大數(shù)據(jù)的分類
根據(jù)數(shù)據(jù)信息來源,河流大數(shù)據(jù)可以分為:①基礎(chǔ)地理信息數(shù)據(jù)(河流系統(tǒng)自然結(jié)構(gòu)和社會環(huán)境的相關(guān)信息,如水資源數(shù)據(jù)、地形地貌數(shù)據(jù)、社會經(jīng)濟數(shù)據(jù)等);②河流健康診斷指標(biāo)數(shù)據(jù)(河流水質(zhì)、生物多樣性、河網(wǎng)密度、灌溉保證率等);③歷史文獻數(shù)據(jù)(文獻書籍上的河流系統(tǒng)相關(guān)信息以及流域內(nèi)的歷史文化信息);④基于社交網(wǎng)絡(luò)的多媒體數(shù)據(jù)(通過微信、微博、網(wǎng)絡(luò)論壇等提供的文字、圖片、音頻、視頻獲取到的河流系統(tǒng)信息)。
2 平臺總體架構(gòu)與功能結(jié)構(gòu)設(shè)計
2.1 平臺總體架構(gòu)設(shè)計
中小河流健康診斷與預(yù)警平臺通過集成河流大數(shù)據(jù),對多元大數(shù)據(jù)信息進行統(tǒng)一的管理和分析,該平臺自下而上由資源層、數(shù)據(jù)層、模型應(yīng)用層和發(fā)布層組成,見圖1。
資源層包括平臺的硬件、軟件與網(wǎng)絡(luò)要求;數(shù)據(jù)層用于對河流系統(tǒng)原始數(shù)據(jù)資源進行存取、篩選與分析,為模型應(yīng)用層提供數(shù)據(jù)資源支持;模型應(yīng)用層由模型庫和應(yīng)用程序構(gòu)成,通過數(shù)據(jù)層與功能模型的聯(lián)動實現(xiàn)功能應(yīng)用需求;發(fā)布層用于將處理結(jié)果實時傳送給決策者。
2.2 平臺功能結(jié)構(gòu)設(shè)計
中小河流健康診斷與預(yù)警大數(shù)據(jù)平臺主要包括河流數(shù)據(jù)管理、模型庫管理、河流健康診斷、河流風(fēng)險預(yù)警、決策支持管理和個人信息管理等6個功能模塊,功能結(jié)構(gòu)見圖2。
3 平臺關(guān)鍵層設(shè)計方法
3.1 數(shù)據(jù)層設(shè)計
3.1.1 大數(shù)據(jù)的采集與存儲
河流大數(shù)據(jù)來源眾多,主要通過以下幾個途徑獲取:政府公開網(wǎng)站、水文站監(jiān)測記錄、實地勘察、國內(nèi)外學(xué)術(shù)數(shù)據(jù)庫、社交網(wǎng)站對外開放的標(biāo)準(zhǔn)化接口等。
河流大數(shù)據(jù)從存儲方式上可以分為結(jié)構(gòu)化存儲、非結(jié)構(gòu)化存儲與元數(shù)據(jù)存儲。結(jié)構(gòu)化數(shù)據(jù),即可以用二維表結(jié)構(gòu)來邏輯表達和實現(xiàn)的數(shù)據(jù),包括河流系統(tǒng)水質(zhì)、土壤、氣候等各類指標(biāo),嚴(yán)格遵循數(shù)據(jù)格式與長度規(guī)范存儲于分布式文件系統(tǒng)(HDFS)中;難以用二維表結(jié)構(gòu)表達和實現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),包括各種格式的文本、圖像、視頻、音頻等,轉(zhuǎn)化為字節(jié)數(shù)組字符串以及Base64編碼,存儲于面向列的非關(guān)系型數(shù)據(jù)庫(Hbase)中;河流大數(shù)據(jù)通過加工與集成構(gòu)成面向河流系統(tǒng)的數(shù)據(jù)倉庫,基于不同用戶的不同功能需求,形成服務(wù)于固定需求的多個數(shù)據(jù)集市。所有數(shù)據(jù)的名稱、存儲位置、提取轉(zhuǎn)換加載(ETL)過程等共同構(gòu)成了河流大數(shù)據(jù)平臺的元數(shù)據(jù)庫(Metadata Base),元數(shù)據(jù)庫將數(shù)據(jù)編寫成網(wǎng)絡(luò)服務(wù)描述語言(WSDL)與外界客戶端數(shù)據(jù)交換互通。河流大數(shù)據(jù)存儲結(jié)構(gòu)見圖3。
3.1.2 大數(shù)據(jù)的篩選與清洗
平臺調(diào)用河流系統(tǒng)數(shù)據(jù)庫中的原生數(shù)據(jù),采用高性能并行計算框架(MapReduce)對數(shù)據(jù)進行預(yù)處理,包括剔除、填補、刪除等操作[9]。預(yù)處理之后的結(jié)果保存回HDFS中,并轉(zhuǎn)換為存儲模型,實現(xiàn)對河流大數(shù)據(jù)的清洗轉(zhuǎn)換。
3.1.3 大數(shù)據(jù)的提取與挖掘
大數(shù)據(jù)的處理和分析是河流系統(tǒng)大數(shù)據(jù)平臺最核心的部分。集群基于MapReduce或Spark框架進行并行化設(shè)計,運行于多個計算節(jié)點,處理大量級數(shù)據(jù),針對不同用戶的不同數(shù)據(jù)集以及需求提供不同的算法。由于河流大數(shù)據(jù)海量性與低價值密度性的特征,過高的特征維度會對河流大數(shù)據(jù)的分類、回歸精度產(chǎn)生負(fù)面影響,因此本系統(tǒng)基于數(shù)據(jù)挖掘的分布式框架(Mahout)中的協(xié)同過濾算法,根據(jù)不同的任務(wù)要求從河流大數(shù)據(jù)中去除不相關(guān)的特征數(shù)據(jù),構(gòu)建較小的河流大數(shù)據(jù)特征子集,從而提高河流大數(shù)據(jù)平臺的處理速度與精度。
3.2 模型應(yīng)用層設(shè)計
3.2.1 模型庫設(shè)計
模型庫根據(jù)模型類型的不同分為描述性模型庫和計算性模型庫。描述性模型庫,即可以用關(guān)系表格表達的模型,數(shù)據(jù)類型以字符型為主,包括河流健康等級模型、風(fēng)險警度等級模型等;計算性模型庫,即由數(shù)學(xué)公式和相應(yīng)算法組成的模型,包括權(quán)重計算模型、河網(wǎng)匯流模型、流域水動力模型等。
河流大數(shù)據(jù)平臺各功能涉及諸多模型,數(shù)據(jù)庫與模型庫快速準(zhǔn)確地聯(lián)動可以極大地提高河流大數(shù)據(jù)平臺處理問題的整體效率[10]。系統(tǒng)模型庫存儲結(jié)構(gòu)由參數(shù)匹配庫、特征數(shù)據(jù)子對象以及程序算法子對象構(gòu)成。在模型調(diào)用時,系統(tǒng)通過讀取參數(shù)匹配表中的模型碼和參數(shù)碼,確定其特征數(shù)據(jù)子對象和程序算法子對象,繼而通過特征子對象中的接口函數(shù)完成模型庫與數(shù)據(jù)庫的聯(lián)通。模型庫通過接口得到河流數(shù)據(jù),載入到算法子對象,數(shù)據(jù)庫通過接口函數(shù)得到模型庫中算法子對象計算結(jié)束后的反饋結(jié)果。模型庫數(shù)據(jù)流向見圖4。
3.2.2 模型應(yīng)用設(shè)計
根據(jù)河流健康診斷與風(fēng)險預(yù)警大數(shù)據(jù)平臺的要求,模型的功能應(yīng)用分為信息集成模塊、河流健康診斷模塊、風(fēng)險預(yù)警模塊以及決策支持模塊。
(1)信息集成模塊。該模塊包括對河流系統(tǒng)進行數(shù)據(jù)錄入、數(shù)據(jù)查詢、數(shù)據(jù)編輯、視圖編輯等功能。通過數(shù)據(jù)轉(zhuǎn)移工具(Sqoop)將關(guān)系數(shù)據(jù)輸入和輸出Hadoop,實現(xiàn)對河流大數(shù)據(jù)的錄入與導(dǎo)出。通過GIS與Hadoop的集成工具將河流系統(tǒng)數(shù)據(jù)以空間信息的方式展現(xiàn)出來。
(2)河流健康診斷模塊。該模塊用于對河流系統(tǒng)的健康狀況進行評價與分析。系統(tǒng)針對不同河流系統(tǒng)的特點,采用Mahout中的協(xié)同過濾算法構(gòu)建河流健康與評價指標(biāo)的各項矩陣,得出平臺推薦的河流評價指標(biāo)。調(diào)用模型庫中的層次分析模型、模糊層次分析模型等實現(xiàn)指標(biāo)權(quán)重計算,隨后調(diào)用河流健康診斷模型與專家知識庫等得到河流健康的診斷結(jié)果。
(3)風(fēng)險預(yù)警模塊。該模塊用于得出污染物在河流系統(tǒng)中的遷移變化過程及河流健康狀況的變化趨勢。通過空間大數(shù)據(jù)提取區(qū)域水系結(jié)構(gòu),構(gòu)建河網(wǎng)水質(zhì)模型,與流域水動力模型、污染物遷移模型相耦合,實時預(yù)警河流系統(tǒng)中的突發(fā)性水污染事件。
(4)決策支持模塊。該模塊用于結(jié)合河流大數(shù)據(jù)庫與人機交互界面,幫助河流系統(tǒng)管理部門提高決策水平。系統(tǒng)通過調(diào)用專家知識庫對各種結(jié)果在河流健康中的價值占比進行定量評估,最終綜合各方面影響權(quán)重,基于人機交互界面給河流系統(tǒng)管理部門提供最優(yōu)的決策措施。
3.3 發(fā)布層設(shè)計
大數(shù)據(jù)的信息發(fā)布層采用B/S(Browser/Sever)[11]和C/S(Client/Sever)相結(jié)合的服務(wù)模式,以不同的接口為河流管理部門以及普通群眾提供服務(wù)。河流大數(shù)據(jù)平臺為沒有權(quán)限的普通用戶提供安全數(shù)據(jù)訪問API,用戶通過表示層(Browser)提供的可視化交互界面,向中間層提出服務(wù)請求,大數(shù)據(jù)平臺再通過中間層發(fā)送的請求提供對應(yīng)的數(shù)據(jù)服務(wù)。該模式在確保數(shù)據(jù)安全性的同時,為更多的用戶提供了服務(wù),主要通過網(wǎng)頁、微信公眾號、手機APP等途徑實現(xiàn)。河流管理部門則可以直接通過面向應(yīng)用的API訪問數(shù)據(jù)庫服務(wù)器,保證數(shù)據(jù)資源的更新與管理速度,提供數(shù)據(jù)挖掘算法,調(diào)用執(zhí)行服務(wù),主要通過PC端軟件實現(xiàn)。
4 平臺的應(yīng)用
以河流系統(tǒng)大數(shù)據(jù)平臺PC端軟件為例,應(yīng)用于浙江省龍游縣社陽港。社陽港發(fā)源于龍游、金華與遂昌3縣交界處東長坪北麓,全長35 km,流域面積194 km2,是典型的山區(qū)中小型河流。
4.1 數(shù)據(jù)采集與存儲
河流健康診斷平臺以多年連續(xù)的河流監(jiān)測數(shù)據(jù)、河流健康狀況以及實地勘測數(shù)據(jù)為數(shù)據(jù)基礎(chǔ)。首先將社陽港衢江支流水文監(jiān)測的實時數(shù)據(jù)上傳至云端數(shù)據(jù)中心,實時轉(zhuǎn)換、加載至HDFS或Hbase,同時對河段進行實地數(shù)據(jù)勘測??紤]到河道的空間變異性,根據(jù)匯水口位置以及行政區(qū)劃將社陽港衢江支流分為11個河段,選取11個監(jiān)測點位,如圖5所示。通過數(shù)據(jù)傳輸工具Sqoop將河流歷史數(shù)據(jù)及勘測結(jié)果數(shù)據(jù)加載至大數(shù)據(jù)庫,存儲于HDFS中。
4.2 數(shù)據(jù)清洗與篩選
選取1972—2010年間總計45個中小河流健康評價體系中的902項因子進行數(shù)據(jù)清洗與篩選。首先采用MapReduce對數(shù)據(jù)進行預(yù)處理,消除殘缺數(shù)據(jù)的影響,隨后采用協(xié)同過濾算法提取其中出現(xiàn)頻次較多、對河流健康影響較大的河流評價指標(biāo),從而初步確定社陽港河流健康的主要表征因子,數(shù)據(jù)清洗與篩選過程見圖6。
4.3 特征數(shù)據(jù)選擇
通過相關(guān)性分析、顯著性檢驗進行進一步的指標(biāo)合并與剔除,最終選擇9個對河流健康影響較強的評價指標(biāo),分別為底質(zhì)、棲境復(fù)雜性、堤岸穩(wěn)定、河道變化、水量狀況、植被覆蓋、水質(zhì)狀況、人類活動以及土地利用。對2017年的勘測與試驗數(shù)據(jù)進行歸一化處理,得到無量綱指標(biāo)數(shù)據(jù),見表1。調(diào)用層次分析算法模型得到各指標(biāo)權(quán)重系數(shù),如圖7所示。
4.4 河流健康診斷
將得到的指標(biāo)數(shù)據(jù)集與權(quán)重系數(shù)代入河流健康診斷模型,對河段進行健康診斷。該模型基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,通過學(xué)習(xí)多年輸入指標(biāo)值與河流健康等級的對應(yīng)關(guān)系,建立神經(jīng)網(wǎng)絡(luò)。系統(tǒng)根據(jù)模糊綜合評價法內(nèi)置5個河流健康等級,分別為健康、基本健康、亞健康、疾病和病危,對應(yīng)的河流健康指數(shù)為[0.8,1.0]、[0.6,0.8)、[0.4,0.6)、[0.2,0.4)和[0,0.2)。將輸出結(jié)果可視化展示,得到的河流健康等級如圖8所示。結(jié)果顯示,河段S2、S3、S10處于亞健康狀態(tài),其他河段處于基本健康與健康狀態(tài),河道管理人員需要加強河道整治,維護河岸帶生態(tài)系統(tǒng)穩(wěn)定性。診斷結(jié)果與實際調(diào)研的情況基本相符。
5 結(jié) 語
針對水利管理部門難以及時存取與分析海量、多源、異構(gòu)的河流系統(tǒng)數(shù)據(jù)的問題,基于Hadoop分布式系統(tǒng)基本架構(gòu),設(shè)計了河長制要求下的中小河流大數(shù)據(jù)平臺,采用B/S和C/S相結(jié)合的服務(wù)模式提供河流數(shù)據(jù)管理、河流健康診斷、河流風(fēng)險預(yù)警、管理決策支持等功能,并應(yīng)用于龍游縣社陽港的河流健康診斷工作中,對提高水利部門的行政管理能力以及河長制信息管理系統(tǒng)的完善都具有借鑒意義。
在今后的發(fā)展中,為更準(zhǔn)確、科學(xué)地處理河流系統(tǒng)大數(shù)據(jù),需要著重建設(shè)基于大數(shù)據(jù)的河流系統(tǒng)物聯(lián)網(wǎng),實現(xiàn)人、河流、平臺的實時互聯(lián)互通,建設(shè)更大范圍河流信息管理平臺,促進河流系統(tǒng)的可持續(xù)健康發(fā)展。
參考文獻:
[1] BRIERLEY G J,F(xiàn)RYIRS K A. Geomorphology and River Management:Applications of the River Styles Framework[M]. New Jersey:Wiley-Blackwell,2005:2-10.
[2] 饒小康.水利工程灌漿大數(shù)據(jù)平臺設(shè)計與實現(xiàn)[J].長江科學(xué)院院報,2019,36(6):139-145,170.
[3] 李家杰.基于大數(shù)據(jù)決策支持的城市健康水系統(tǒng)平臺構(gòu)建及應(yīng)用[D].重慶:重慶大學(xué),2016:20-21.
[4] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[5] 蔡興勇,周銀軍.從河流系統(tǒng)角度思考河流治理理念[C]//中國水利學(xué)會.中國水利學(xué)會2016學(xué)術(shù)年會論文集(上冊).南京:河海大學(xué)出版社,2016:94-99.
[6] 葉楓,張鵬,夏潤亮,等.基于新一代大數(shù)據(jù)處理引擎Flink的“智慧滁河”系統(tǒng)[J].水資源保護,2019,35(2):90-94.
[7] KIM Y, KANG N, JUNG J, et al.A Review on the Management of Water Resources Information Based on Big Data and Cloud Computing[J]. Journal of Wetlands Research,2016,18(1):100-112.
[8] 王金平,夏繼紅,汪穎俊,等.山丘區(qū)中小河流灘地時空演化與擾動因子分析[J].中國農(nóng)村水利水電,2018(12):66-69,76.
[9] 楊東華,李寧寧,王宏志,等.基于任務(wù)合并的并行大數(shù)據(jù)清洗過程優(yōu)化[J].計算機學(xué)報,2016,39(1):97-108.
[10] 林俊強,夏繼紅,韓玉玲,等.河流健康診斷系統(tǒng)的設(shè)計與應(yīng)用[J].河海大學(xué)學(xué)報(自然科學(xué)版),2009,37(6):640-644.
[11] 洪成,王桂生,周家貴,等.基于云模型和風(fēng)險矩陣的自然災(zāi)害風(fēng)險評價[J].人民黃河,2019,41(6):14-20.
【責(zé)任編輯 張 帥】