晏 濤,夏向?qū)W
(華北科技學(xué)院,河北 三河 065201)
水利部“十三五”規(guī)劃中提出了大數(shù)據(jù)戰(zhàn)略,旨在推進(jìn)水利統(tǒng)計(jì)數(shù)據(jù)的開(kāi)放與共享,因此,水利統(tǒng)計(jì)工作進(jìn)入了多時(shí)空、多類(lèi)型數(shù)據(jù)累計(jì)的新時(shí)期,面臨著體量大、類(lèi)型多、分析慢的全新挑戰(zhàn)[1]。每年的水利統(tǒng)計(jì)工作是水利事業(yè)發(fā)展中的重要一環(huán),已從單維度數(shù)據(jù)發(fā)展為各級(jí)互聯(lián)互通的海量數(shù)據(jù)集。隨著數(shù)據(jù)集呈現(xiàn)出多源、多維、海量的特點(diǎn),水利部迫切需要改變?cè)械臄?shù)據(jù)篩分模式,探尋能處理大容量、復(fù)雜類(lèi)別數(shù)據(jù)的新方法。
大數(shù)據(jù)技術(shù)為水利成果統(tǒng)計(jì)提供了一種不同于傳統(tǒng)方法的全新手段,如何快速地在數(shù)據(jù)海洋里提取所需信息、精準(zhǔn)地摸清數(shù)據(jù)間的內(nèi)在聯(lián)系、高效地掌握價(jià)值密度高的特征信息儼然成為水利行政單位的迫切需求[2]。本研究以當(dāng)前水利統(tǒng)計(jì)成果現(xiàn)狀和系統(tǒng)算法存在的問(wèn)題為切入點(diǎn),基于大數(shù)據(jù)技術(shù)提出包含從數(shù)據(jù)接入到業(yè)務(wù)應(yīng)用的架構(gòu)體系,設(shè)計(jì)水利統(tǒng)計(jì)查詢(xún)分析系統(tǒng)的總體架構(gòu)和主要功能模塊,最后進(jìn)行業(yè)務(wù)應(yīng)用,闡明大數(shù)據(jù)技術(shù)在水利信息統(tǒng)計(jì)分析領(lǐng)域的可行性。
隨著水利統(tǒng)計(jì)數(shù)據(jù)量的不斷增加、業(yè)務(wù)范圍的不斷擴(kuò)大,基于原有查詢(xún)統(tǒng)計(jì)方法的系統(tǒng)已經(jīng)難以實(shí)現(xiàn)對(duì)海量源數(shù)據(jù)的深度挖掘和篩分。主要體現(xiàn)在以下 3 個(gè)方面:
1)原有系統(tǒng)不具備大數(shù)據(jù)分析能力[3-4]。水利統(tǒng)計(jì)工作在整個(gè)社會(huì)經(jīng)濟(jì)發(fā)展統(tǒng)計(jì)中占據(jù)很大比重,主要包括水利投資建設(shè)、綜合、服務(wù)業(yè)、扶貧統(tǒng)計(jì)及江河治理專(zhuān)項(xiàng)等統(tǒng)計(jì),這些工作主要涉及到水利建設(shè)投資、水利工程設(shè)施、水電等方面的統(tǒng)計(jì)數(shù)據(jù)。水利部每年組織開(kāi)發(fā)查詢(xún)統(tǒng)計(jì)系統(tǒng),分配給各?。ㄊ校⒆灾螀^(qū)的水利統(tǒng)計(jì)人員使用,經(jīng)過(guò)多年的統(tǒng)計(jì)匯總,后臺(tái)數(shù)據(jù)量已經(jīng)非常大。同時(shí),由于原有系統(tǒng)不具備大數(shù)據(jù)分析能力,難以實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度分析和挖掘,給水利數(shù)據(jù)的統(tǒng)計(jì)和管理帶來(lái)很大不便。
2)用戶(hù)在填報(bào)系統(tǒng)時(shí)缺乏標(biāo)準(zhǔn)性規(guī)范,導(dǎo)致數(shù)據(jù)質(zhì)量不高,而且數(shù)據(jù)多級(jí)、多源、多報(bào)告期的屬性也造成單一數(shù)據(jù)間缺乏關(guān)聯(lián),難以對(duì)其開(kāi)展深入分析。水利工作包括水庫(kù)、水閘、機(jī)電井的數(shù)量,以及堤防長(zhǎng)度、灌溉面積、灌區(qū)、水土保持治理面積等數(shù)據(jù)的統(tǒng)計(jì),這些數(shù)據(jù)由不同部門(mén)逐級(jí)填報(bào)而來(lái),而且部分?jǐn)?shù)據(jù)還具有涉密屬性。因此,即便系統(tǒng)后臺(tái)掌握了大量數(shù)據(jù),但縱橫信息共享性差、數(shù)據(jù)利用率低、數(shù)據(jù)統(tǒng)計(jì)口徑不一致等都會(huì)造成數(shù)據(jù)分析結(jié)果的千差萬(wàn)別[5-6]。
3)當(dāng)前系統(tǒng)的業(yè)務(wù)范圍和分析方法較為單一,缺乏針對(duì)統(tǒng)計(jì)、明細(xì)、矢量和空間數(shù)據(jù)的關(guān)聯(lián)性分析。系統(tǒng)數(shù)據(jù)涉及農(nóng)業(yè)灌溉、供用水、水土保持、水利建設(shè)投資、農(nóng)村水電、水文站網(wǎng)、從業(yè)人員情況等部門(mén)的專(zhuān)業(yè)數(shù)據(jù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)量大,而且體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)的多樣性和時(shí)空變化性。傳統(tǒng)分析方法很難度量水利統(tǒng)計(jì)數(shù)據(jù),而且系統(tǒng)缺少對(duì)海量數(shù)據(jù)并行計(jì)算的方法[7]。在實(shí)踐中,系統(tǒng)不支持?jǐn)?shù)據(jù)的整體分類(lèi)檢索,難以精準(zhǔn)提取價(jià)值密度高的數(shù)據(jù),更缺少對(duì)數(shù)據(jù)集的連續(xù)挖掘,而且還不能實(shí)現(xiàn)圖形界面的可視化操作。上述因素導(dǎo)致水利數(shù)據(jù)統(tǒng)計(jì)方面出現(xiàn)了手工操作居多、價(jià)值密度高的數(shù)據(jù)提取困難、處理結(jié)果時(shí)效性差等問(wèn)題。
目前已有很多大數(shù)據(jù)技術(shù)成功應(yīng)用于行業(yè)的實(shí)例,例如:美國(guó)沃爾瑪收集消費(fèi)者的數(shù)據(jù)分析其購(gòu)物行為,我國(guó)互聯(lián)網(wǎng)、電力、鐵路等行業(yè)借助大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)管控等[8]。而在水利統(tǒng)計(jì)領(lǐng)域,由于大數(shù)據(jù)技術(shù)起步較晚,數(shù)據(jù)篩分的重要性沒(méi)有得到充分重視。2015 年 9 月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作,明確推動(dòng)大數(shù)據(jù)發(fā)展和應(yīng)用,在未來(lái)的 5~10 a 打造精準(zhǔn)治理、多方協(xié)作的共同發(fā)展的新模式[9]。這些政策進(jìn)一步推動(dòng)了大數(shù)據(jù)技術(shù)在水利統(tǒng)計(jì)領(lǐng)域的應(yīng)用。
原有水利統(tǒng)計(jì)系統(tǒng)中,部分?jǐn)?shù)據(jù)來(lái)源于單位上報(bào),部分?jǐn)?shù)據(jù)來(lái)源于外部導(dǎo)入,不同來(lái)源的數(shù)據(jù)對(duì)系統(tǒng)的篩分功能提出了不同要求。在建立基于大數(shù)據(jù)技術(shù)的水利統(tǒng)計(jì)查詢(xún)分析系統(tǒng)時(shí),需要采取分布式采集和冗余存儲(chǔ),對(duì)數(shù)據(jù)進(jìn)行 ETL(Extract-Transform-Load,抽取、轉(zhuǎn)換、加載)處理,建立數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,為數(shù)據(jù)搜索、統(tǒng)計(jì)分析、深度挖掘分析提供分布式計(jì)算平臺(tái),具體如下:
1)在原有系統(tǒng)中進(jìn)行數(shù)據(jù)采集,確保數(shù)據(jù)的真實(shí)性。
2)將數(shù)據(jù)中涉密部分和非涉密部分進(jìn)行分離,并根據(jù)涉密等級(jí)設(shè)定使用人員的權(quán)限。
3)新系統(tǒng)可以采用分布式采集模式,將原系統(tǒng)數(shù)據(jù)匯總到預(yù)處理模塊,通過(guò)抽象處理過(guò)濾掉價(jià)值密度低的數(shù)據(jù)。
4)將價(jià)值密度高的有效數(shù)據(jù)進(jìn)行數(shù)據(jù)庫(kù)存儲(chǔ)、管理和調(diào)用,以便為分析應(yīng)用層提供搜索、分析服務(wù)。
建立水利統(tǒng)計(jì)查詢(xún)分析系統(tǒng)時(shí),首先要對(duì)統(tǒng)計(jì)業(yè)務(wù)進(jìn)行需求分析:
1)系統(tǒng)面向的是水利綜合、服務(wù)業(yè)、投資年報(bào)及月報(bào)等填報(bào)數(shù)據(jù),以維度與維度、維度與指標(biāo)、指標(biāo)與指標(biāo)做不同組合,對(duì)原系統(tǒng)沉淀的數(shù)據(jù)資源進(jìn)行深度分析。
2)新中國(guó)成立以來(lái),原系統(tǒng)積累了歷年中華人民共和國(guó)的水利統(tǒng)計(jì)數(shù)據(jù),這些數(shù)據(jù)需要大數(shù)據(jù)技術(shù)提供綜合性的管理和分析,實(shí)現(xiàn)不同來(lái)源數(shù)據(jù)的整合。
3)結(jié)合空間數(shù)據(jù),如流域、行政區(qū)劃、水資源分區(qū)、貧困縣等信息,建立相關(guān)模型,實(shí)現(xiàn)綜合研判和預(yù)測(cè)預(yù)警。大數(shù)據(jù)平臺(tái)需要有靈活的架構(gòu),便于擴(kuò)展,該系統(tǒng)還要能實(shí)現(xiàn)對(duì)各類(lèi)型數(shù)據(jù)的整合、管理、存儲(chǔ)、處理、分析等,同時(shí)所包含的技術(shù)方式可以深入地分析挖掘各類(lèi)任務(wù)數(shù)據(jù)。所以,不論從業(yè)務(wù)還是技術(shù)的角度,當(dāng)前的水利統(tǒng)計(jì)領(lǐng)域都迫切需要一個(gè)能夠滿(mǎn)足上述需求的大數(shù)據(jù)平臺(tái),不僅能夠解決傳統(tǒng)技術(shù)手段無(wú)法解決的問(wèn)題,而且可以從龐大、復(fù)雜的數(shù)據(jù)資源中獲取有價(jià)值的信息。
大數(shù)據(jù)分析系統(tǒng)的核心功能應(yīng)包含數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與管理,以及通過(guò)這些功能模塊的協(xié)作實(shí)現(xiàn)數(shù)據(jù)分析和價(jià)值提取,整體架構(gòu)圖如圖1 所示。
圖1 大數(shù)據(jù)分析系統(tǒng)整體架構(gòu)圖
大數(shù)據(jù)分析系統(tǒng)主要分為以下 5 個(gè)層級(jí):
1)數(shù)據(jù)源。主要是從水利統(tǒng)計(jì)的業(yè)務(wù)及外部系統(tǒng)中抽取數(shù)據(jù)分析所需的數(shù)據(jù)資源,包括灌溉、流域地區(qū)分灌溉、耕地灌溉減少、農(nóng)田(有效)灌溉減少、節(jié)水灌溉、新增(減少)節(jié)水灌溉、流域地區(qū)新增(減少)節(jié)水灌溉、除澇、水土流失治理等面積,以及已建成水庫(kù)庫(kù)容、堤防長(zhǎng)度、水閘信息、機(jī)電井信息、農(nóng)村飲水安全人口、農(nóng)村集中式供水工程供水覆蓋人口、農(nóng)田排灌機(jī)械保有量、機(jī)電排灌站信息、機(jī)電灌溉面積等。該部分主要內(nèi)容是數(shù)據(jù)采集方式,可以采用 ETL 工具或者自主開(kāi)發(fā)數(shù)據(jù)采集系統(tǒng),然后按照事前制定的周期策略進(jìn)行釆集。
2)數(shù)據(jù)預(yù)處理。由于數(shù)據(jù)大部分都是不規(guī)范的,所以需要借助 ETL 工具或其他的數(shù)據(jù)預(yù)處理方法對(duì)這些數(shù)據(jù)進(jìn)行處理并加載到存儲(chǔ)區(qū)域,數(shù)據(jù)預(yù)處理過(guò)程包含在數(shù)據(jù)采集過(guò)程當(dāng)中。該部分解決了數(shù)據(jù)資源不規(guī)范的問(wèn)題。
3)基礎(chǔ)架構(gòu)。主要是用于承載數(shù)據(jù)存儲(chǔ)的軟硬件設(shè)施,是平臺(tái)底層的基礎(chǔ)架構(gòu),包括硬件資源、管理系統(tǒng)組件、安全技術(shù)、計(jì)算資源架構(gòu)等內(nèi)容,可以支持在其之上部署實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)、處理、分析等功能的軟件資源。
4)數(shù)據(jù)存儲(chǔ)與處理。整個(gè)系統(tǒng)可以通過(guò)數(shù)據(jù)庫(kù)和 Hadoop 管理系統(tǒng)進(jìn)行監(jiān)控和管理。該部分滿(mǎn)足了水利統(tǒng)計(jì)數(shù)據(jù)信息資源的整合、存儲(chǔ)和管理等方面的需求。
5)數(shù)據(jù)應(yīng)用分析。主要是根據(jù)業(yè)務(wù)需求提出的問(wèn)題,利用分析工具及其方法對(duì)數(shù)據(jù)進(jìn)行分析挖掘。
大數(shù)據(jù)水利統(tǒng)計(jì)查詢(xún)分析系統(tǒng)主要以填報(bào)業(yè)務(wù)數(shù)據(jù)為支撐,采用數(shù)據(jù)到模型、模型到應(yīng)用的技術(shù)路線(xiàn)[10]。從多維數(shù)據(jù)源中經(jīng)過(guò)相關(guān)性分析,尋找不同任務(wù)之間的關(guān)聯(lián)關(guān)系,如不同的任務(wù)之間可以通過(guò)管理單位組織機(jī)構(gòu)代碼、填報(bào)單位等進(jìn)行關(guān)聯(lián)。使服務(wù)業(yè)的統(tǒng)計(jì)可以到具體單位,水利投資建設(shè)可以具體到項(xiàng)目等,以業(yè)務(wù)實(shí)際應(yīng)用為指導(dǎo),通過(guò)建立關(guān)聯(lián)關(guān)系完成大數(shù)據(jù)模型與具體業(yè)務(wù)的對(duì)接。數(shù)據(jù)處理流程如圖2 所示。
圖2 數(shù)據(jù)處理流程圖
1)數(shù)據(jù)源端規(guī)范處理。針對(duì)業(yè)務(wù)數(shù)據(jù)多時(shí)空多業(yè)務(wù)分布等特點(diǎn),確保數(shù)據(jù)間可通過(guò)對(duì)象為中心實(shí)現(xiàn)關(guān)聯(lián)。
2)全過(guò)程數(shù)據(jù)處理。針對(duì)源端規(guī)范后數(shù)據(jù)接入大數(shù)據(jù)平臺(tái)的方式,提出從規(guī)范化處理標(biāo)準(zhǔn),為不同時(shí)間頻度、 業(yè)務(wù)維度的各類(lèi)業(yè)務(wù)分析應(yīng)用提供數(shù)據(jù)處理。
3)大數(shù)據(jù)應(yīng)用模型構(gòu)建。結(jié)合業(yè)務(wù)應(yīng)用構(gòu)建大數(shù)據(jù)分析模型。
4)大數(shù)據(jù)分析功能研發(fā)。針對(duì)分析業(yè)務(wù)需求,構(gòu)建業(yè)務(wù)處理模型,應(yīng)用大數(shù)據(jù)展示技術(shù),實(shí)現(xiàn)綜合、空間、智能及多維四大分析應(yīng)用功能。
基于整體架構(gòu)中的業(yè)務(wù)應(yīng)用設(shè)計(jì)四大功能模塊,包括綜合、空間、智能和多維分析功能模塊。
1)綜合分析模塊。從宏觀(guān)角度對(duì)綜合、服務(wù)業(yè)、水利投資年報(bào)進(jìn)行集中展示。其中綜合年報(bào)實(shí)現(xiàn)了對(duì)水利工程數(shù)據(jù)、供水能力、供水情況、城鄉(xiāng)供水等信息展示。服務(wù)業(yè)年報(bào)實(shí)現(xiàn)了對(duì)單位人員、資產(chǎn)和供水信息的展示。投資年報(bào)實(shí)現(xiàn)對(duì)投資進(jìn)展、完成、效益情況等信息展示。綜合分析模塊展示如圖3 所示。
圖3 綜合分析模塊展示圖
2)空間分析模塊。實(shí)現(xiàn)了統(tǒng)計(jì)信息利用地理信息系統(tǒng)技術(shù)實(shí)現(xiàn)其在空間上的應(yīng)用分析。主要包括的功能有綜合、服務(wù)業(yè)、投資年報(bào)和項(xiàng)目信息查詢(xún)。目前,已經(jīng)完成了綜合年報(bào)中工程設(shè)施數(shù)量、工程供水能力、工程供水情況、城鄉(xiāng)供水、灌溉發(fā)展、防洪除澇及河道治理和水土流失治理等 7 類(lèi)信息的展示。
3)智能分析模塊。對(duì)水利統(tǒng)計(jì)信息進(jìn)行分級(jí)、分類(lèi)、分項(xiàng)的細(xì)化分析,對(duì)水利投資等變化情況進(jìn)行預(yù)測(cè)研判,對(duì)決策模擬推演。最終能為全國(guó)和各省、自治區(qū)、直轄市的水利工程設(shè)施,水利建設(shè)投資和水電等方面的分析提供可靠和準(zhǔn)確的數(shù)據(jù)支撐。通過(guò)大數(shù)據(jù)的技術(shù)展示歷年數(shù)據(jù)變化趨勢(shì),建立數(shù)據(jù)樣本,最終逐漸得到某種特征數(shù)據(jù)的出現(xiàn)規(guī)律。
4)多維分析模塊。目的是滿(mǎn)足用戶(hù)通過(guò)對(duì)行列指標(biāo)拖拽的方式,自定義所需要報(bào)表。系統(tǒng)內(nèi)置了綜合、服務(wù)業(yè)、投資年報(bào)及月報(bào)等常用的報(bào)表,支持快速計(jì)算,滿(mǎn)足對(duì)選定的信息進(jìn)行分析,輸出圖表等信息。
當(dāng)前水利統(tǒng)計(jì)信息系統(tǒng)數(shù)據(jù)存儲(chǔ)量大,業(yè)務(wù)分析方法單一,數(shù)據(jù)利用率低且缺少深度關(guān)聯(lián)分析。本研究系統(tǒng)地梳理了大數(shù)據(jù)技術(shù)應(yīng)用于水利統(tǒng)計(jì)查詢(xún)分析中的需求,結(jié)合了大數(shù)據(jù)技術(shù)的應(yīng)用方式,搭建了大數(shù)據(jù)分析平臺(tái)。同時(shí),本研究對(duì)大數(shù)據(jù)解決方案進(jìn)行了架構(gòu)設(shè)計(jì),全面分析并提出了系統(tǒng)的數(shù)據(jù)流程、整體架構(gòu)和功能模塊,并在功能模塊中提出了綜合、空間、智能和多維分析等大數(shù)據(jù)應(yīng)用業(yè)務(wù)。為大數(shù)據(jù)技術(shù)應(yīng)用于水利統(tǒng)計(jì)領(lǐng)域提供了可行性研究,同時(shí)也為大數(shù)據(jù)技術(shù)應(yīng)用于其他行業(yè)提供參考。