雍 熙,華 東,陳德清,宋子亨
(1.水利部信息中心,北京 100053;2.阿里云計(jì)算有限公司,北京 100089)
隨著信息化、數(shù)字化、智能化的不斷發(fā)展,數(shù)據(jù)的重要作用越來(lái)越廣泛地成為全社會(huì)的共識(shí)[1],隨著網(wǎng)絡(luò)成為新的基礎(chǔ)設(shè)施,我國(guó)的數(shù)據(jù)量開(kāi)始迅速增長(zhǎng)。2014年在澳大利亞舉行的 IT 治理和 IT 服務(wù)管理技術(shù)委員會(huì)第一次全體會(huì)議上,中國(guó)代表首次提出數(shù)據(jù)治理的概念[2]。2020年中央文件《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》明確提出要加快培育數(shù)據(jù)要素市場(chǎng),推進(jìn)政府?dāng)?shù)據(jù)開(kāi)放共享,提升社會(huì)數(shù)據(jù)資源價(jià)值,建立統(tǒng)一規(guī)范的數(shù)據(jù)管理制度,這充分表明了黨中央國(guó)務(wù)院對(duì)數(shù)據(jù)治理的重視[3]。目前許多政府部門(mén)和企事業(yè)單位都已充分重視自己掌握的數(shù)據(jù)資產(chǎn),并通過(guò)各種先進(jìn)的技術(shù)手段[4–5]開(kāi)展數(shù)據(jù)治理的相關(guān)工作[6–9]。
水利數(shù)據(jù)是政務(wù)部門(mén)和社會(huì)普遍需要的自然資源和空間地理基礎(chǔ)信息,也是保障民生的重要政府?dāng)?shù)據(jù)。水利數(shù)據(jù)當(dāng)前存在數(shù)據(jù)治理基礎(chǔ)設(shè)施能力不足、數(shù)據(jù)規(guī)范程度不高、數(shù)據(jù)整合共享不充分、大數(shù)據(jù)分析能力弱等問(wèn)題,這些問(wèn)題成為制約水利信息化發(fā)展的瓶頸。為貫徹落實(shí)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)〔2015〕50 號(hào))精神,解決水利數(shù)據(jù)能力短板,2017年5月水利部印發(fā)了《關(guān)于推進(jìn)水利大數(shù)據(jù)發(fā)展的指導(dǎo)意見(jiàn)》,提出要“按照實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略要求,立足水利工作發(fā)展需要,健全水利數(shù)據(jù)資源體系,實(shí)現(xiàn)水利數(shù)據(jù)有序共享、適度開(kāi)放,深化水利大數(shù)據(jù)應(yīng)用,促進(jìn)新業(yè)態(tài)發(fā)展,支撐水治理體系和治理能力現(xiàn)代化?!?019年6月,《水利部關(guān)于印發(fā)水利網(wǎng)信水平提升三年行動(dòng)方案(2019—2021年)的通知》(水信息〔2019〕171 號(hào))明確將“水利大數(shù)據(jù)治理服務(wù)行動(dòng)”列為十大行動(dòng)之一。利用云計(jì)算框架、物聯(lián)網(wǎng)和大數(shù)據(jù)挖掘等信息化智能化手段,對(duì)水利數(shù)據(jù)進(jìn)行更加充分有效的治理,是水利行業(yè)更好地為經(jīng)濟(jì)社會(huì)發(fā)展服務(wù)的必由之路[10–11]。
水庫(kù)是重要的水利工程,在防洪、灌溉、蓄水發(fā)電等多方面發(fā)揮著作用,水庫(kù)基礎(chǔ)數(shù)據(jù)也是重要的水利數(shù)據(jù),因此對(duì)水庫(kù)數(shù)據(jù)進(jìn)行研究和治理對(duì)于治理水利其他數(shù)據(jù)有著重要的借鑒意義。水庫(kù)基礎(chǔ)數(shù)據(jù)治理存在著以下諸多難點(diǎn):
1)水庫(kù)數(shù)據(jù)掌握在地方業(yè)務(wù)部門(mén)手里,再由地方共享到水利部本級(jí),有的業(yè)務(wù)部門(mén)數(shù)據(jù)更新不及時(shí),造成數(shù)據(jù)老舊,各地?cái)?shù)據(jù)質(zhì)量參差不齊,差別較大。
2)水庫(kù)基礎(chǔ)數(shù)據(jù)被應(yīng)用于多個(gè)業(yè)務(wù)系統(tǒng),因此數(shù)據(jù)重復(fù)建設(shè)現(xiàn)象嚴(yán)重,并且各系統(tǒng)數(shù)據(jù)庫(kù)表中的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,給日后的數(shù)據(jù)融合智能應(yīng)用帶來(lái)很大困難。
3)水庫(kù)數(shù)據(jù)多為不同口徑填表,多個(gè)表格的數(shù)據(jù)指標(biāo)并不一致,如水庫(kù)名稱、位置、庫(kù)容、建成年月、壩高等數(shù)據(jù)往往存在一定差異。
由于水庫(kù)數(shù)據(jù)來(lái)源多,涉及面廣,全國(guó)水庫(kù)的基礎(chǔ)數(shù)據(jù)已多年沒(méi)有進(jìn)行統(tǒng)一清理了,存在許多錯(cuò)漏。為探索水利數(shù)據(jù)治理的方法和技術(shù)路線,以水庫(kù)基礎(chǔ)數(shù)據(jù)治理展開(kāi)試點(diǎn)研究工作,以進(jìn)一步發(fā)揮水庫(kù)數(shù)據(jù)的價(jià)值。
水庫(kù)數(shù)據(jù)治理總體框架如下所述:首先通過(guò)大數(shù)據(jù)平臺(tái)工具完成采集、集成、加工等流程,構(gòu)建完成水庫(kù)數(shù)據(jù)資源體系,并通過(guò)數(shù)據(jù)安全、質(zhì)量、監(jiān)控等模塊進(jìn)行系統(tǒng)化管理。
接著基于數(shù)據(jù)倉(cāng)庫(kù)方法論設(shè)計(jì)基礎(chǔ)層、明細(xì)層、專題層。 基礎(chǔ)層主要將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行同步,明細(xì)層對(duì)各種數(shù)據(jù)進(jìn)行質(zhì)量控制和標(biāo)準(zhǔn)化處理并按內(nèi)容進(jìn)行分類,專題層則產(chǎn)生服務(wù)于水利業(yè)務(wù)的專題數(shù)據(jù)。
最后針對(duì)水庫(kù)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù),梳理水庫(kù)基礎(chǔ)標(biāo)簽,根據(jù)業(yè)務(wù)邏輯建立衍生標(biāo)簽。通過(guò)標(biāo)簽圈定特定水庫(kù)群體,對(duì)水庫(kù)群體進(jìn)行畫(huà)像分析?;跀?shù)據(jù)中臺(tái)提供的數(shù)據(jù)資源,開(kāi)發(fā)基于語(yǔ)音轉(zhuǎn)寫(xiě)的水庫(kù)數(shù)據(jù)智能搜索、水庫(kù)檔案、智能推薦等,驗(yàn)證示范性數(shù)據(jù)融合應(yīng)用場(chǎng)景。
水庫(kù)基礎(chǔ)信息數(shù)據(jù)源主要有以下 5種:1)注冊(cè)登記庫(kù)。均是在大壩安全管理中心審批注冊(cè)登記的水庫(kù),主要為水利部門(mén)管理的水庫(kù),缺少電力部門(mén)注冊(cè)登記及其他部門(mén)管理的水庫(kù)。2)上報(bào)統(tǒng)計(jì)庫(kù)。主要以地方平時(shí)上報(bào)共享數(shù)據(jù)為主。3)水利一張圖庫(kù)。以 2011年水利普查成果為主,覆蓋水利、電力、能源、農(nóng)業(yè)、交通等部門(mén),還包括近年來(lái)通過(guò)河長(zhǎng)制、督查等系統(tǒng)補(bǔ)充增加的多座水庫(kù)。4)水利督查庫(kù)。主要是水利督查中產(chǎn)生的填報(bào)信息。5)實(shí)時(shí)水情庫(kù)。主要是具有防洪任務(wù)的重點(diǎn)水庫(kù),以實(shí)時(shí)水情信息報(bào)送為主。水庫(kù)數(shù)據(jù)治理的總體框架如圖1所示。
圖1 水庫(kù)數(shù)據(jù)治理總體架構(gòu)圖
基于數(shù)據(jù)中臺(tái)整體邏輯架構(gòu)及數(shù)據(jù)倉(cāng)庫(kù)方法論設(shè)計(jì),構(gòu)建如下 3 層水庫(kù)基礎(chǔ)數(shù)據(jù)資源體系:
1)數(shù)據(jù)基礎(chǔ)層。主要匯聚不同數(shù)據(jù)來(lái)源的異構(gòu)數(shù)據(jù),批量同步到大數(shù)據(jù)平臺(tái)內(nèi)存儲(chǔ)?;A(chǔ)層的數(shù)據(jù)是從原始數(shù)據(jù)源同步過(guò)來(lái)的數(shù)據(jù),不做任何數(shù)據(jù)清洗,是最小粒度的數(shù)據(jù)。
2)數(shù)據(jù)明細(xì)層。根據(jù)水庫(kù)基礎(chǔ)信息進(jìn)行清洗、融合后建立水庫(kù)明細(xì)庫(kù),并對(duì)所有水庫(kù)進(jìn)行統(tǒng)一編碼;根據(jù)河道測(cè)站、水情、汛限水位等數(shù)據(jù)進(jìn)行質(zhì)量控制后建立標(biāo)準(zhǔn)化水情庫(kù);依照水庫(kù)督查結(jié)果,對(duì)被督查水庫(kù)的基礎(chǔ)信息進(jìn)行糾正,通過(guò)水庫(kù)統(tǒng)一編碼將基礎(chǔ)信息、水情數(shù)據(jù)、督查數(shù)據(jù)進(jìn)行關(guān)聯(lián)。數(shù)據(jù)明細(xì)層的數(shù)據(jù)從基礎(chǔ)層清洗得來(lái),同樣是最小粒度的數(shù)據(jù),且做了統(tǒng)一處理。
3)數(shù)據(jù)專題層。對(duì)二級(jí)支流流域進(jìn)行統(tǒng)計(jì)分析,匯總流域內(nèi)全體水庫(kù)的總庫(kù)容、總防洪庫(kù)容、剩余防洪庫(kù)容,形成流域防洪情勢(shì)庫(kù),針對(duì)智能搜索需求處理形成搜索數(shù)據(jù)模型庫(kù),根據(jù)質(zhì)量控制規(guī)則及評(píng)價(jià)形成水庫(kù)數(shù)據(jù)質(zhì)量分析庫(kù)。專題層的數(shù)據(jù)根據(jù)業(yè)務(wù)需要,從明細(xì)層聚合而來(lái)。
整個(gè)數(shù)據(jù)分層治理過(guò)程通過(guò)數(shù)據(jù)治理平臺(tái)輔助實(shí)現(xiàn),集中的數(shù)據(jù)治理平臺(tái)較之傳統(tǒng)的數(shù)據(jù)處理方式有著許多技術(shù)優(yōu)勢(shì)。數(shù)據(jù)治理平臺(tái)支持多種計(jì)算和存儲(chǔ)引擎服務(wù),包括大規(guī)模離線計(jì)算、開(kāi)源大數(shù)據(jù)引擎 E-MapReduce、實(shí)時(shí)計(jì)算(如基于 Flink)、機(jī)器學(xué)習(xí) PAI(Platform of Artificial Intelligence)、圖計(jì)算和交互式分析服務(wù)等,并且支持用戶自定義接入計(jì)算和存儲(chǔ)服務(wù)。傳統(tǒng)數(shù)據(jù)技術(shù)體系進(jìn)行跨網(wǎng)傳輸時(shí),通常需要配置多個(gè)任務(wù)才能完成 1 張表的數(shù)據(jù)同步、傳輸,且大多數(shù)產(chǎn)品僅支持離線數(shù)據(jù)同步。本研究搭建的數(shù)據(jù)治理平臺(tái)采用數(shù)據(jù)直接上云的模式,可支持跨網(wǎng)絡(luò)、網(wǎng)閘等復(fù)雜網(wǎng)絡(luò)環(huán)境,實(shí)現(xiàn)離線、實(shí)時(shí)多源異構(gòu)數(shù)據(jù)的一步式便捷接入,在服務(wù)器端配置 1個(gè)任務(wù),即可跨多個(gè)網(wǎng)絡(luò)環(huán)境完成 1 張表的同步,極大提升了數(shù)據(jù)管理及運(yùn)維效率,同時(shí),還可利用數(shù)據(jù)治理平臺(tái)提供的數(shù)據(jù)計(jì)算引擎對(duì)數(shù)據(jù)進(jìn)行分析處理。數(shù)據(jù)治理平臺(tái)提供了統(tǒng)一的數(shù)據(jù)開(kāi)發(fā)環(huán)境,可構(gòu)建復(fù)雜的業(yè)務(wù)流程和調(diào)度依賴,提供開(kāi)發(fā)環(huán)境與生產(chǎn)環(huán)境隔離的研發(fā)模式,按照策略進(jìn)行多線程數(shù)據(jù)處理任務(wù)調(diào)度并對(duì)元數(shù)據(jù)進(jìn)行統(tǒng)一管理。通過(guò)提供數(shù)據(jù)監(jiān)控、質(zhì)量控制、安全、服務(wù)等綜合能力,實(shí)現(xiàn)對(duì)水庫(kù)數(shù)據(jù)的綜合治理及資產(chǎn)化管理。
在水庫(kù)數(shù)據(jù)治理項(xiàng)目中,數(shù)據(jù)開(kāi)發(fā)和生產(chǎn)的主要流程如下:
1)將不同系統(tǒng)中的各類數(shù)據(jù)通過(guò)數(shù)據(jù)治理平臺(tái)中的數(shù)據(jù)同步模塊,匯聚在同一個(gè)數(shù)據(jù)資源池中。將詳細(xì)記錄水庫(kù)相關(guān)信息的表進(jìn)行算法匯總和去重后,生成新的水庫(kù)數(shù)據(jù)明細(xì)表,并對(duì)每一個(gè)水庫(kù)賦予編碼。
2)在新的水庫(kù)數(shù)據(jù)明細(xì)表的基礎(chǔ)上,利用其他應(yīng)用系統(tǒng)中的數(shù)據(jù)表,生成新的水庫(kù)數(shù)據(jù)關(guān)聯(lián)表。將 3 張與水情相關(guān)的時(shí)序數(shù)據(jù)庫(kù)表進(jìn)行標(biāo)準(zhǔn)化,生成重新關(guān)聯(lián)的水情表,將水庫(kù)數(shù)據(jù)與督查信息的 2 張表進(jìn)行關(guān)聯(lián),生成重新關(guān)聯(lián)的督查表;將水庫(kù)信息進(jìn)行優(yōu)化,生成便于智能搜索使用的水庫(kù)數(shù)據(jù)搜索模型表;以水庫(kù)所在地級(jí)市行政區(qū)為評(píng)價(jià)口徑,依據(jù)關(guān)鍵字段空置率、準(zhǔn)確率等指標(biāo)進(jìn)行打分,生成水庫(kù)數(shù)據(jù)質(zhì)量評(píng)價(jià)表;根據(jù)標(biāo)準(zhǔn)化后的水情數(shù)據(jù)生成防洪形勢(shì)表,以流域?yàn)榫S度生成流域防洪形勢(shì)表。
3)將數(shù)據(jù)資產(chǎn)采用數(shù)據(jù)治理平臺(tái)同步到云數(shù)據(jù)庫(kù)中,為后續(xù)業(yè)務(wù)應(yīng)用提供數(shù)據(jù)服務(wù)。整個(gè)數(shù)據(jù)的生產(chǎn)流程如圖2所示。
圖2 數(shù)據(jù)生產(chǎn)流程圖
水庫(kù)數(shù)據(jù)服務(wù)提供快速將數(shù)據(jù)治理成果生成數(shù)據(jù)服務(wù) API,同時(shí)將數(shù)據(jù)服務(wù) API 快速注冊(cè)到數(shù)據(jù)服務(wù)平臺(tái)以便統(tǒng)一管理和發(fā)布的能力。數(shù)據(jù)服務(wù)平臺(tái)與 API 網(wǎng)關(guān)一起提供安全穩(wěn)定、低成本、易用的數(shù)據(jù)開(kāi)放共享服務(wù)。本次水庫(kù)數(shù)據(jù)治理工作的數(shù)據(jù)服務(wù)平臺(tái)采用 Serverless 架構(gòu),只需關(guān)注 API 本身的查詢邏輯,無(wú)需關(guān)心運(yùn)行環(huán)境等基礎(chǔ)設(shè)施。數(shù)據(jù)服務(wù)平臺(tái)會(huì)自動(dòng)提供計(jì)算資源,并支持彈性擴(kuò)展。最后形成的數(shù)據(jù)服務(wù) API 可考慮應(yīng)用在如下場(chǎng)景:
1)水利數(shù)據(jù)資源池構(gòu)建。水庫(kù)數(shù)據(jù)服務(wù) API 可為構(gòu)建水利行業(yè)及特殊業(yè)務(wù)應(yīng)用的水利數(shù)據(jù)資源提供接口,為實(shí)現(xiàn)水利數(shù)據(jù)資源的統(tǒng)一管理和服務(wù)提供便利。
2)水利工程運(yùn)行管理。通過(guò)數(shù)據(jù)融合,接入水庫(kù)工程基礎(chǔ)信息,以及水庫(kù)運(yùn)行管理、水情、信用體系、督查等數(shù)據(jù),對(duì)不同水利工程進(jìn)行風(fēng)險(xiǎn)大數(shù)據(jù)分析預(yù)警。
3)防汛會(huì)商。基于實(shí)時(shí)水情數(shù)據(jù)進(jìn)行語(yǔ)音交互式搜索,快速定位重點(diǎn)河段的超汛限水位水庫(kù),直接輔助防汛會(huì)商與決策。
4)業(yè)務(wù)數(shù)據(jù)推薦。根據(jù)業(yè)務(wù)人員過(guò)往數(shù)據(jù)使用情況,智能推薦與該人員相關(guān)和感興趣的水庫(kù)數(shù)據(jù)相關(guān)字段,讓業(yè)務(wù)人員第一時(shí)間掌握與自己業(yè)務(wù)有關(guān)的水庫(kù)信息。
基于數(shù)據(jù)治理平臺(tái)提供的標(biāo)簽畫(huà)像功能,圍繞實(shí)體-關(guān)系-標(biāo)簽這 3個(gè)元素進(jìn)行標(biāo)簽建模,主要從業(yè)務(wù)角度對(duì)數(shù)據(jù)進(jìn)行組織管理,以概念方法表示,極大方便了業(yè)務(wù)人員對(duì)數(shù)據(jù)的理解和應(yīng)用。水庫(kù)數(shù)據(jù)是重要的水利基礎(chǔ)數(shù)據(jù),因此在多個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)中都建立了自己的水庫(kù)信息數(shù)據(jù)庫(kù)表。由于每個(gè)業(yè)務(wù)系統(tǒng)的應(yīng)用側(cè)重點(diǎn)不同,每個(gè)水庫(kù)數(shù)據(jù)庫(kù)表結(jié)構(gòu)也不相同,其中包含著大量重復(fù)信息。本次水庫(kù)數(shù)據(jù)治理項(xiàng)目構(gòu)建了水庫(kù)基礎(chǔ)、督查和水情等信息相融合的數(shù)據(jù)資源池,可以突破原有數(shù)據(jù)壁壘,在水庫(kù)標(biāo)簽畫(huà)像中同時(shí)查看同一座水庫(kù)的各項(xiàng)數(shù)據(jù),其中:水庫(kù)基礎(chǔ)信息主要包括水庫(kù)編碼、工程規(guī)模、水庫(kù)建成年月、工程所在地,總庫(kù)容、興利庫(kù)容、主壩類型、主壩高、水庫(kù)管理單位、設(shè)計(jì)洪水位等信息,水庫(kù)督查信息主要包括督查日期、蓄水運(yùn)行情況、安全評(píng)價(jià)等信息,水情信息主要指水庫(kù)中實(shí)時(shí)的水位信息。本次水庫(kù)數(shù)據(jù)治理工作從水庫(kù)基礎(chǔ)、督查、水情 3個(gè)信息角度為每座水庫(kù)打上基礎(chǔ)標(biāo)簽,標(biāo)簽示例如表1所示。
表1 水庫(kù)標(biāo)簽示例
水庫(kù)數(shù)據(jù)治理工作打通了多個(gè)業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù),建立了適應(yīng)于水庫(kù)智能問(wèn)答的數(shù)據(jù)模型,因此引入中文分詞技術(shù),將輸入的搜索關(guān)鍵詞進(jìn)行自動(dòng)切分,以關(guān)鍵詞匹配的方式從水利數(shù)據(jù)倉(cāng)庫(kù)中查詢后返回與搜索內(nèi)容相關(guān)的信息。例如輸入“長(zhǎng)江上有多少座大一型水庫(kù)?”“長(zhǎng)沙市一共有多少座超汛水庫(kù)?”“密云水庫(kù)的水位是多少?”,便可通過(guò)多表關(guān)聯(lián)立刻給出所需的答案。但在真實(shí)的防汛會(huì)商場(chǎng)景中,難以在搜索框輸入文字而得到答案,可直接采取語(yǔ)音的方式詢問(wèn)。
考慮防汛會(huì)商的真實(shí)場(chǎng)景,利用基礎(chǔ)深度學(xué)習(xí)的語(yǔ)義搜索引擎,構(gòu)建智能語(yǔ)音搜索功能。首先通過(guò)抗噪聲性能良好的語(yǔ)音識(shí)別技術(shù)將詢問(wèn)的語(yǔ)音轉(zhuǎn)化為對(duì)應(yīng)的文字,再通過(guò)文字進(jìn)行搜索。這樣的語(yǔ)音智能問(wèn)答不需進(jìn)行人工文字輸入,便能滿足真實(shí)防汛會(huì)商場(chǎng)景中的需求。
通過(guò)智能問(wèn)答的方式可有效快速地把與水庫(kù)相關(guān)的信息實(shí)時(shí)反饋給相關(guān)人員,語(yǔ)音智能搜索問(wèn)答系統(tǒng)的開(kāi)發(fā)利用了水庫(kù)數(shù)據(jù)治理的成果,以及語(yǔ)音識(shí)別、自然語(yǔ)言處理等先進(jìn)的人工智能技術(shù),適應(yīng)真實(shí)的會(huì)商場(chǎng)景,大大提高了重要數(shù)據(jù)獲取的準(zhǔn)確性和時(shí)效性。
水庫(kù)的基礎(chǔ)數(shù)據(jù)多為人工填報(bào),很多數(shù)據(jù)存在填報(bào)格式如日期格式、經(jīng)緯度不統(tǒng)一的問(wèn)題,給后續(xù)共享和利用帶來(lái)了很大阻礙,為此建立數(shù)據(jù)標(biāo)準(zhǔn)。傳統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)是一個(gè)為輔助數(shù)據(jù)標(biāo)準(zhǔn)的推廣與實(shí)施,為相關(guān)業(yè)務(wù)分析人員提供業(yè)務(wù)標(biāo)準(zhǔn)的分析與瀏覽功能,為系統(tǒng)開(kāi)發(fā)與維護(hù)人員方便獲得技術(shù)標(biāo)準(zhǔn)而建立的平臺(tái),一般包括標(biāo)準(zhǔn)導(dǎo)入、維護(hù)及導(dǎo)出和模板管理等功能。技術(shù)人員雖然可瀏覽和分析標(biāo)準(zhǔn),但無(wú)法直接約束數(shù)據(jù)開(kāi)發(fā),最終數(shù)據(jù)開(kāi)發(fā)質(zhì)量仍依賴具體開(kāi)發(fā)人員對(duì)標(biāo)準(zhǔn)的運(yùn)用及自身技術(shù)能力。
利用智能數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn)管理工作,通過(guò)管理標(biāo)準(zhǔn)數(shù)據(jù)字典和元素,定義了水庫(kù)相關(guān)業(yè)務(wù)對(duì)象及業(yè)務(wù)對(duì)象屬性的標(biāo)準(zhǔn)化數(shù)據(jù)表達(dá)方式,保證了業(yè)務(wù)人員、數(shù)據(jù)管理者和開(kāi)發(fā)者對(duì)數(shù)據(jù)含義理解的一致性。定義好的標(biāo)準(zhǔn)元素與數(shù)據(jù)字典,可在系統(tǒng)中直接與數(shù)據(jù)模型關(guān)聯(lián),最終在數(shù)據(jù)開(kāi)發(fā)平臺(tái)按制定好的標(biāo)準(zhǔn)進(jìn)行強(qiáng)、弱規(guī)則約束,減少了人為參與環(huán)節(jié),保障了水庫(kù)數(shù)據(jù)標(biāo)準(zhǔn)對(duì)水庫(kù)數(shù)據(jù)模型的直接應(yīng)用效果,有力推動(dòng)了水庫(kù)數(shù)據(jù)標(biāo)準(zhǔn)的直接落地。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)發(fā)揮價(jià)值的基礎(chǔ)條件,如何保證數(shù)據(jù)在產(chǎn)生、維護(hù)、服務(wù)過(guò)程中的質(zhì)量及真實(shí)性是數(shù)據(jù)治理的核心問(wèn)題之一。水庫(kù)的基礎(chǔ)數(shù)據(jù)存在許多質(zhì)量問(wèn)題,如各數(shù)據(jù)庫(kù)中的水庫(kù)數(shù)量和名稱并不統(tǒng)一,再如水庫(kù)數(shù)據(jù)中建成日期的格式不同,水庫(kù)數(shù)據(jù)的經(jīng)緯度填報(bào)錯(cuò)誤,水庫(kù)重要字段如壩高等由于漏填而存在缺失等。數(shù)據(jù)治理平臺(tái)提供支持多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗(yàn)、通知、管理服務(wù)的一站式平臺(tái),以數(shù)據(jù)集為監(jiān)控對(duì)象,對(duì)數(shù)據(jù)表進(jìn)行監(jiān)控,當(dāng)離線數(shù)據(jù)發(fā)生變化時(shí),數(shù)據(jù)質(zhì)量管控模塊會(huì)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)校驗(yàn),并阻塞生產(chǎn)鏈路,以避免問(wèn)題數(shù)據(jù)污染擴(kuò)散。
水利部信息中心與運(yùn)行管理司及大壩安全管理中心一同開(kāi)展了水庫(kù)基礎(chǔ)數(shù)據(jù)質(zhì)量控制工作,通過(guò)多源數(shù)據(jù)比對(duì)、遙感影像核實(shí)、地方確認(rèn)等方法核查全國(guó)水庫(kù)總數(shù)量,以同一性認(rèn)定、數(shù)據(jù)融合、名錄核實(shí)為主要技術(shù)路線開(kāi)展了水庫(kù)數(shù)量核查工作,統(tǒng)一了水庫(kù)名錄并賦予統(tǒng)一編碼,為進(jìn)一步核實(shí)主要指標(biāo)打下了基礎(chǔ)。
為增加各省水利信息化部門(mén)對(duì)數(shù)據(jù)質(zhì)量控制的主動(dòng)性、積極性,水庫(kù)數(shù)據(jù)治理工作根據(jù)接入數(shù)據(jù)源對(duì)數(shù)據(jù)進(jìn)行質(zhì)量控制,以準(zhǔn)確性、及時(shí)性、一致性、唯一性、完整性、合規(guī)性 6個(gè)維度為評(píng)估標(biāo)準(zhǔn),對(duì)各省水利信息化部門(mén)接入的水庫(kù)數(shù)據(jù)源進(jìn)行了排名,其中:數(shù)據(jù)的準(zhǔn)確性,指數(shù)據(jù)記錄與真實(shí)情況比較,是否存在錯(cuò)誤;及時(shí)性,指數(shù)據(jù)代表的信息時(shí)效如何,數(shù)據(jù)更新是否及時(shí),是否反映當(dāng)下的實(shí)際情況;一致性,指數(shù)據(jù)庫(kù)表中沒(méi)有前后矛盾的信息;唯一性,指數(shù)據(jù)庫(kù)中沒(méi)有重復(fù)信息;完整性,指數(shù)據(jù)庫(kù)表行、字段等是否出現(xiàn)缺失的情況;合規(guī)性,指數(shù)據(jù)庫(kù)表中的字段是否符合先前定義的數(shù)據(jù)標(biāo)準(zhǔn),如經(jīng)緯度的格式是否按照規(guī)定提供。在對(duì) 6個(gè)維度進(jìn)行綜合評(píng)估打分后,可得出水庫(kù)數(shù)據(jù)質(zhì)量排名結(jié)果。
水庫(kù)數(shù)據(jù)治理摸索了水利行業(yè)數(shù)據(jù)治理的通用路徑,采用了先進(jìn)的數(shù)據(jù)治理技術(shù)手段,利用了現(xiàn)在較為流行的數(shù)據(jù)資源池、數(shù)據(jù)中臺(tái)等建設(shè)思路,積累了一定的工作經(jīng)驗(yàn)。主要工作總結(jié)如下:
1)數(shù)據(jù)資源構(gòu)造與搭建。匯聚不同數(shù)據(jù)源的水庫(kù)基礎(chǔ)信息,形成統(tǒng)一的水庫(kù)基礎(chǔ)數(shù)據(jù)庫(kù)。對(duì)水庫(kù)進(jìn)行編碼,映射到多個(gè)相關(guān)業(yè)務(wù)系統(tǒng),實(shí)現(xiàn)了水庫(kù)數(shù)據(jù)實(shí)體和編碼的統(tǒng)一。
2)數(shù)據(jù)智能融合與應(yīng)用。依照基礎(chǔ)和衍生標(biāo)簽,對(duì)特定水庫(kù)群體進(jìn)行水庫(kù)畫(huà)像。設(shè)置質(zhì)量控制標(biāo)準(zhǔn),對(duì)各省市水庫(kù)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)分。搭建水庫(kù)數(shù)據(jù)融合應(yīng)用,對(duì)融合后的數(shù)據(jù)進(jìn)行基于自然語(yǔ)言處理的水庫(kù)數(shù)據(jù)智能搜索,加載 ASR(語(yǔ)音轉(zhuǎn)文本)技術(shù),實(shí)現(xiàn)語(yǔ)音交互式搜索。根據(jù)不同角色設(shè)置,智能推薦水庫(kù)信息。
3)數(shù)據(jù)資產(chǎn)管理與服務(wù)。從宏觀到微觀盤(pán)點(diǎn)水庫(kù)數(shù)據(jù)資產(chǎn),做到讓數(shù)據(jù)管理者心中有數(shù),通過(guò)可視化的方式了解數(shù)據(jù)的價(jià)值,讓各級(jí)用戶直觀看懂?dāng)?shù)據(jù)、理解數(shù)據(jù)進(jìn)而使用數(shù)據(jù)。
同時(shí),在水庫(kù)數(shù)據(jù)治理的實(shí)踐中也發(fā)現(xiàn)以下一些問(wèn)題:
1)由于不同業(yè)務(wù)系統(tǒng)對(duì)水庫(kù)的定義不完全一致,有些業(yè)務(wù)系統(tǒng)認(rèn)為是水庫(kù)的對(duì)象,另外的業(yè)務(wù)系統(tǒng)未必認(rèn)定為水庫(kù)。
2)水庫(kù)位置的核對(duì)也存在困難,盡管借助遙感影像進(jìn)行比對(duì),但仍有不少水庫(kù)無(wú)法在影像上看到,只能聯(lián)系當(dāng)?shù)厮畮?kù)責(zé)任人反復(fù)進(jìn)行確認(rèn)。
3)不同業(yè)務(wù)系統(tǒng)中的同一個(gè)水庫(kù)并不一定同名,常常存在同音字的現(xiàn)象,這對(duì)統(tǒng)一實(shí)體設(shè)立了障礙,人工解決此問(wèn)題工作量較大且容易出錯(cuò),需引入自然語(yǔ)言處理進(jìn)行核對(duì)比配。
水庫(kù)基礎(chǔ)數(shù)據(jù)治理探索了水利數(shù)據(jù)治理的方法和技術(shù)手段,為未來(lái)各類水利數(shù)據(jù)(如水資源、引調(diào)水、河湖、水利輿情等數(shù)據(jù))的進(jìn)一步治理提供了實(shí)踐經(jīng)驗(yàn)。新的信息技術(shù)手段可協(xié)助解決水利行業(yè)數(shù)據(jù)資源體系不完善、安全防護(hù)風(fēng)險(xiǎn)高、分析和支撐能力弱、管理制度和服務(wù)體系不健全等問(wèn)題,對(duì)于打通水利行業(yè)內(nèi)部數(shù)據(jù)孤島,融合各類涉水?dāng)?shù)據(jù),釋放數(shù)據(jù)價(jià)值有著重要的促進(jìn)作用。只有實(shí)現(xiàn)了水利數(shù)據(jù)的全面充分治理,才能讓各級(jí)水利部門(mén)“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)管理、用數(shù)據(jù)決策”,才能使實(shí)現(xiàn)智慧水利真正成為可能。因此,水利數(shù)據(jù)治理是提升水治理體系和能力現(xiàn)代化的必然要求,進(jìn)一步加快水利大數(shù)據(jù)治理的步伐非常必要和迫切。水庫(kù)基礎(chǔ)數(shù)據(jù)治理作為水利數(shù)據(jù)治理的有效嘗試,有著重要的實(shí)際意義。