趙 芳 ,華 東 ,田質(zhì)勝 ,李德剛 ,張 玉 ,孟 萌
(1. 山東省水利勘測設(shè)計(jì)院,山東 濟(jì)南 250014;2. 水利部信息中心,北京 100053;3. 國家水資源監(jiān)控能力建設(shè)項(xiàng)目辦公室,北京 100053;4. 山東省水文局,山東 濟(jì)南 250014;5. 山東省國土測繪院,山東 濟(jì)南 250102)
水是生命之源、生產(chǎn)之要、生態(tài)之基[1]。當(dāng)前,全球極端天氣頻發(fā),水安全問題突出,實(shí)現(xiàn)水資源的精準(zhǔn)化、可持續(xù)利用已成為各國人民的共同愿景,我國更是將治水、節(jié)水、興水?dāng)[在國家發(fā)展的突出位置。
自中央一號(hào)文件將水利信息化作為水利建設(shè)的重要內(nèi)容以來,我國基本上形成了以數(shù)據(jù)采集和存儲(chǔ)、業(yè)務(wù)應(yīng)用、技術(shù)規(guī)范與保障體系為一體的信息化綜合體系,而水利數(shù)據(jù)的增量也達(dá)到前所未有的高度,如何利用好水利大數(shù)據(jù)[2],提供更為全面可靠的水利智慧化服務(wù),不僅是水利信息化建設(shè)的根本所在,也是目前亟需解決的問題。
盡管大數(shù)據(jù)在水利行業(yè)上的應(yīng)用尚處于起步階段,但也積累了一定的研究成果。柴立等[3]基于3D-VSP(三維可視化仿真平臺(tái))技術(shù),以陜西省為例,構(gòu)建了三維可視化仿真平臺(tái),解決了大數(shù)據(jù)中的共享性差,表現(xiàn)應(yīng)用單一的問題;周浩等[4]立足于遼寧省水利信息化的發(fā)展?fàn)顩r,闡述了大數(shù)據(jù)管理信息平臺(tái)的建設(shè)任務(wù)和目標(biāo),提出了構(gòu)建基于水資源監(jiān)控?cái)?shù)據(jù)管理信息平臺(tái)的解決方案;姜小俊等[5]結(jié)合大數(shù)據(jù)技術(shù)特點(diǎn),以浙江省水資源監(jiān)測大數(shù)據(jù)為研究對(duì)象,從“理數(shù)據(jù)、搭框架、推應(yīng)用”3 個(gè)層面闡述了大數(shù)據(jù)應(yīng)用示范工程設(shè)想;陳華等[6]解讀了水文數(shù)據(jù)的特點(diǎn),為水文數(shù)據(jù)的分類和存儲(chǔ)提供了標(biāo)準(zhǔn)化設(shè)計(jì),最終針對(duì)水文大數(shù)據(jù)的共享平臺(tái)提出了全面構(gòu)想。
前人的研究大多僅僅關(guān)注水利大數(shù)據(jù),很少引入其他行業(yè)數(shù)據(jù),但大數(shù)據(jù)平臺(tái)的構(gòu)建不能僅僅以水利數(shù)據(jù)為主,其他環(huán)保、農(nóng)業(yè)、國土、氣象、工商數(shù)據(jù)也必須引入。尤其隨著國家水資源監(jiān)控能力建設(shè)項(xiàng)目的逐步實(shí)施,未來水資源大數(shù)據(jù)將更加全面和準(zhǔn)確。因此,有必要在水資源監(jiān)測數(shù)據(jù)基礎(chǔ)上關(guān)聯(lián)其他政府部門的數(shù)據(jù),探討多元數(shù)據(jù)下的水利大數(shù)據(jù)平臺(tái)的構(gòu)建方法,利用大數(shù)據(jù)分析方法,對(duì)分布在各行業(yè)的數(shù)據(jù)進(jìn)行清洗、甄別、融合、同化,為水資源管理與實(shí)施調(diào)控提供決策依據(jù),為相關(guān)部門的工作和發(fā)展提供可參考的數(shù)據(jù)支撐。
大數(shù)據(jù)平臺(tái)依托國家水資源監(jiān)控能力建設(shè)項(xiàng)目的監(jiān)測數(shù)據(jù)成果,引入環(huán)保、農(nóng)業(yè)、國土、氣象、工商等行業(yè)數(shù)據(jù),通過對(duì)省級(jí)用水和多元行業(yè)等數(shù)據(jù)的集中智能化分析,實(shí)現(xiàn)以下目標(biāo):
1)實(shí)現(xiàn)省級(jí)水利一張圖的管理目標(biāo)。通過省級(jí)平臺(tái)用水情況一張圖,全面感知和管理工業(yè)、農(nóng)業(yè)、生活用水及其他用水量,行業(yè)水資源利用率類比,萬元 GDP 用水情況類比及許可分布等情況。
2)智能化水利輔助決策。形成各類用水對(duì)象和情況變化圖,分析水資源利用率、行業(yè)用水情況排名、萬元 GDP 用水量類比等情況,以調(diào)整用水許可的下發(fā)和水價(jià)的定價(jià),全面優(yōu)化省級(jí)水資源分配情況,最大化水資源利用率,發(fā)揮水利部門對(duì)省市GDP 情況的優(yōu)化指導(dǎo)作用。
3)實(shí)現(xiàn)數(shù)據(jù)的共享互聯(lián)?;?Open API 開放平臺(tái)連通企業(yè)數(shù)據(jù),及政府相關(guān)部門的業(yè)務(wù)系統(tǒng)數(shù)據(jù),以 API 形式開放水利業(yè)務(wù)數(shù)據(jù),形成水利行業(yè)數(shù)據(jù)開放服務(wù)標(biāo)準(zhǔn),對(duì)農(nóng)業(yè)等相關(guān)部門開放,實(shí)現(xiàn)數(shù)據(jù)的共享互聯(lián)。
4)形成水利行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范。在水利數(shù)據(jù)模型建設(shè)及探索性、預(yù)測性分析的過程中,形成標(biāo)準(zhǔn)水利行業(yè)數(shù)據(jù)和分析算法等模型,建立省級(jí)水利行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,規(guī)范全省水利行業(yè)信息化建設(shè)。
大數(shù)據(jù)平臺(tái)架構(gòu)如圖 1 所示,具體分析如下:
1)數(shù)據(jù)采集層。數(shù)據(jù)采集層作為大數(shù)據(jù)平臺(tái)的數(shù)據(jù)網(wǎng)關(guān),采用 Open API 模式實(shí)現(xiàn)對(duì)現(xiàn)有水利數(shù)據(jù)和環(huán)保、氣象、工商、統(tǒng)計(jì)等相關(guān)部門的數(shù)據(jù)的采集,清洗,豐富和業(yè)務(wù)一致化梳理。對(duì)于需要特殊保密的數(shù)據(jù),則須與數(shù)據(jù)提供單位深度合作,采用特定接口與專業(yè)系統(tǒng)進(jìn)行采集。
2)數(shù)據(jù)模型層。在現(xiàn)有水利業(yè)務(wù)的基礎(chǔ)上對(duì)工業(yè)、農(nóng)業(yè)、生活用水的用戶和區(qū)域進(jìn)行數(shù)據(jù)建模,并依托數(shù)據(jù)建模標(biāo)準(zhǔn)對(duì)數(shù)據(jù)采集層的數(shù)據(jù)加工邏輯進(jìn)行指導(dǎo),結(jié)合數(shù)據(jù)采集層完成水利業(yè)務(wù)數(shù)據(jù)模型構(gòu)建庫構(gòu)建。由于 Hadoop 平臺(tái)在處理非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)、復(fù)雜 ETL 流程、多維數(shù)據(jù)計(jì)算模型等方面具有極佳的性能,因此,數(shù)據(jù)模型層主要利用 Hadoop 平臺(tái)進(jìn)行擴(kuò)展和封裝。
3)數(shù)據(jù)分析層。依托主流大數(shù)據(jù)分析算法工具,算法類如深度學(xué)習(xí)算法[7]、數(shù)據(jù)挖掘算法[8]等,技術(shù)類如數(shù)據(jù)質(zhì)量管理[9]、深度語義引擎[10]等,實(shí)現(xiàn)對(duì)大數(shù)據(jù)多維度、深層次的分析。
4)數(shù)據(jù)展現(xiàn)層。數(shù)據(jù)展現(xiàn)是大數(shù)據(jù)分析平臺(tái)的核心部分,只有可視化與準(zhǔn)確化的展示才能最大化數(shù)據(jù)價(jià)值。本層采用成熟的數(shù)據(jù)可視化工具 3D-VSP,以組件的形式協(xié)同與集成不同數(shù)據(jù)業(yè)務(wù),采用圖件、表格、動(dòng)畫等多種形式進(jìn)行數(shù)據(jù)解讀與展現(xiàn)。
圖 1 多元大數(shù)據(jù)平臺(tái)架構(gòu)示意圖
數(shù)據(jù)采集平臺(tái)是大數(shù)據(jù)分析平臺(tái)的基礎(chǔ)平臺(tái),負(fù)責(zé)將縣、市、省各級(jí)部門的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)收集上來,并對(duì)有效、有用數(shù)據(jù)進(jìn)行初步的清洗加工,與其他各相關(guān)部門的數(shù)據(jù),進(jìn)行交換共享,匯集與水利信息有關(guān)聯(lián)價(jià)值的數(shù)據(jù),形成大數(shù)據(jù)采集平臺(tái)。利用的技術(shù)主要有:
1)縱向數(shù)據(jù)收集及清洗。通過數(shù)據(jù)收集,將縣、市、省級(jí)各部門真實(shí)有用的水利信息數(shù)據(jù),從下向上一級(jí)一級(jí)地采集上來,形成全省的水利一張圖,從居民樓、街道、片區(qū),到縣、市、省各級(jí),匯集取用水、水量調(diào)度、排污及水質(zhì)監(jiān)控等信息,精確匯總到大數(shù)據(jù)采集平臺(tái),并結(jié)合 GIS 信息,將各項(xiàng)數(shù)據(jù)精確地展示在全省地圖上,形成全省取用水信息、水資源利用率、水質(zhì)監(jiān)控、排污處理、水源、水源調(diào)度等多個(gè)一張圖輔助決策信息。
2)橫向信息服務(wù)共享。數(shù)據(jù)采集平臺(tái)提供相應(yīng)的水資源信息給各相關(guān)部門,與各相關(guān)部門之間采用開放 API 或服務(wù)等方式,實(shí)現(xiàn)數(shù)據(jù)的共享交換,最終利用算法對(duì)各種數(shù)據(jù)進(jìn)行甄別、歸類、梳理、匯集,并存儲(chǔ)到大數(shù)據(jù)采集平臺(tái)中。
3)分布式存儲(chǔ)和管理。大數(shù)據(jù)采集平臺(tái)采用分布式云數(shù)據(jù)庫的存儲(chǔ)和管理,同時(shí)支持在線分析和事務(wù)處理,利用基于 Hadoop 架構(gòu)的 HDFS 或 HBase 應(yīng)用,或 Redis 和 MongoDB 等 NoSQL 數(shù)據(jù)庫的采集,通過 Elastic Search 大數(shù)據(jù)分布式彈性搜索工具提高數(shù)據(jù)的查詢效率。
大數(shù)據(jù)平臺(tái)模型庫是統(tǒng)一存放和管理多種目的、用途的模型集合,模型之間相互獨(dú)立卻又彼此聯(lián)系,共同運(yùn)行,以解決復(fù)雜的水利分析問題。按作用分類,模型庫中主要包含評(píng)價(jià)、模擬、優(yōu)化、預(yù)測等模型。這 4 種模型作為基礎(chǔ)單元,構(gòu)建起整個(gè)模型庫體系,且共同構(gòu)成大數(shù)據(jù)分析平臺(tái)的多個(gè)子模型模塊,如水資源評(píng)價(jià)、調(diào)配,以及水質(zhì)水量預(yù)測等模塊,為大數(shù)據(jù)分析平臺(tái)的業(yè)務(wù)應(yīng)用提供專業(yè)的決策依據(jù),示意圖如圖 2 所示。
圖 2 多元大數(shù)據(jù)平臺(tái)模型庫示意圖
大數(shù)據(jù)時(shí)代的核心價(jià)值就是數(shù)據(jù)分析,水利大數(shù)據(jù)分析平臺(tái)憑借主流大數(shù)據(jù)分析工具的支撐,形成以多元數(shù)據(jù)為核心的智能水利業(yè)務(wù),通過挖掘數(shù)據(jù)的內(nèi)在聯(lián)系與核心價(jià)值,實(shí)現(xiàn)對(duì)企業(yè)、工業(yè)、農(nóng)業(yè)、居民生活等各項(xiàng)生態(tài)環(huán)境數(shù)據(jù)的預(yù)測。
水利大數(shù)據(jù)分析算法庫內(nèi)置常用的大數(shù)據(jù)分析模型和算法,包括:分類決策樹、聚類分析決策、回歸分析、最大期望、分類與回歸、最鄰近分類、決策樹模型、迭代分析等算法,并支持自定義算法擴(kuò)展,對(duì)算法和模型提供技術(shù)支撐。
數(shù)據(jù)業(yè)務(wù)平臺(tái)依托數(shù)據(jù)采集平臺(tái)、模型庫及分析算法庫,最終形成水利大數(shù)據(jù)的業(yè)務(wù)平臺(tái),實(shí)現(xiàn)智慧水資源的合理利用,產(chǎn)生對(duì)應(yīng)的輔助決策價(jià)值。
例如利用各行業(yè)取用水?dāng)?shù)據(jù),通過大數(shù)據(jù)及建模的分析,對(duì)比各行業(yè)歷年的取水、真實(shí)用水情況,以及同產(chǎn)能、行業(yè)的用水情況對(duì)比,形成對(duì)全省各行各業(yè)用水情況的綜合分析圖。
通過水利大數(shù)據(jù)分析平臺(tái),結(jié)合氣象、環(huán)保、工商等其他多元輔助數(shù)據(jù),形成水利數(shù)據(jù)智能決策中心,充分挖掘數(shù)據(jù)價(jià)值,進(jìn)行行業(yè)預(yù)測分析,業(yè)務(wù)應(yīng)用示意圖如圖 3 所示。
結(jié)合山東省國家水資源監(jiān)控能力建設(shè)項(xiàng)目(一期、二期)的監(jiān)測數(shù)據(jù)成果,本研究將多元大數(shù)據(jù)平臺(tái)的設(shè)計(jì)思路與關(guān)鍵技術(shù)應(yīng)用到山東省水利綜合調(diào)度指揮中心平臺(tái)構(gòu)建上,采用水利一張圖思路,將集成的水文、環(huán)保、氣象、工商、統(tǒng)計(jì)等多元數(shù)據(jù)實(shí)時(shí)展現(xiàn)在地圖上。
通過平臺(tái),用戶能實(shí)時(shí)感知和管理各類用水量,水資源利用率類比,萬元 GDP 用水情況類比及許可分布,河湖長信息及河湖庫水情等情況,同時(shí)還能將收集到的水質(zhì)水量情況,最大程度可視化,形成各類水量情況變化圖、水質(zhì)達(dá)標(biāo)柱狀圖等成果,輔助用戶決策。山東省水資源可視化監(jiān)控中心平臺(tái)界面共展示九大板塊,展示內(nèi)容主要包括:山東省實(shí)時(shí)水量監(jiān)控情況,水資源公報(bào),年度控制目標(biāo),地下水超采演變,水資源稅征收核定水量、取水、用水、水質(zhì)監(jiān)測等信息。利用圖表,結(jié)合地圖的形式實(shí)時(shí)展示當(dāng)前年度區(qū)域用水情況,直觀反映全省水資源形勢及開發(fā)利用狀況。
大數(shù)據(jù)作為 21 世紀(jì)信息時(shí)代最突出的特點(diǎn),不僅加強(qiáng)了行業(yè)間的聯(lián)系,更改變了人們看待物理世界的方式。
圖 3 多元大數(shù)據(jù)平臺(tái)業(yè)務(wù)應(yīng)用示意圖
多元大數(shù)據(jù)平臺(tái)作為水利部門決策分析和調(diào)度管理最可靠的技術(shù)支撐,其構(gòu)建不僅僅只存在技術(shù)上的難題,往往還需要各部門之間協(xié)同合作,才能完善并發(fā)揮更大的作用。山東省水利綜合調(diào)度指揮中心平臺(tái)的成功構(gòu)建亦是多部門協(xié)同合作的成果。
目前山東省水利綜合調(diào)度指揮中心功能尚未完善,后續(xù)將會(huì)進(jìn)一步強(qiáng)化模型庫和算法庫的構(gòu)建。針對(duì)多元大數(shù)據(jù)平臺(tái),本研究僅對(duì)平臺(tái)架構(gòu)、目標(biāo)及關(guān)鍵技術(shù),從宏觀上進(jìn)行了梳理,后續(xù)還需要更加深入的研究和詳盡的論述。未來,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,水利大數(shù)據(jù)平臺(tái)的數(shù)據(jù)構(gòu)成將會(huì)越來越多元化,數(shù)據(jù)間、行業(yè)間的聯(lián)系也將會(huì)越來越緊密,水利也會(huì)更好地服務(wù)于人類社會(huì)。