王 爽
(河南省南陽水文水資源勘測局,河南 南陽 473000)
近幾年的發(fā)展中,國家建設逐漸加大了投入力度,數(shù)據(jù)信息技術得到了發(fā)展,水利行業(yè)受到信息化的影響,開始形成信息化綜合體系,將大數(shù)據(jù)軟件應用在水利中,促進了水利工程管理的效率,利用新型的數(shù)據(jù)處理模式,改善著水利信息建設的水平,推動了水利行業(yè)進步,保證水利基礎設施建設更加完善,逐漸朝著智能化的方向發(fā)展。
信息技術在發(fā)展,遙感設備、傳感網(wǎng)等技術形式出現(xiàn)在社會中,對于水利行業(yè)而言,整體的數(shù)據(jù)采集水平在提升,可以獲取到更加廣泛的數(shù)據(jù)信息。通過觀察這些信息,可以看出它們的特點繁多,主要體現(xiàn)出多源異構的形式,而且分布比較廣。結合數(shù)據(jù)的類型,包含了大規(guī)模的實時檢測信息,主要來自于物聯(lián)網(wǎng)設備,比如,水文氣象信息、水位流量變化信息、生態(tài)水質(zhì)等,也有一些基礎信息,比如,河流信息、水利工程信息,這些信息屬于檔案化形式,還有一其他行業(yè)的有關于水的信息等。在這些數(shù)據(jù)中可以看出,并不完全是單獨的,它們之間存在著繁雜的關系,體現(xiàn)在業(yè)務和邏輯方面,如氣候數(shù)據(jù)發(fā)生波動時,帶動水資源量產(chǎn)生變化,影響空間分布情況,還會影響水利工程,不利于水資源的合理分配。觀察數(shù)據(jù)格式,水利數(shù)據(jù)規(guī)模比較大,不但包含原來的結構形式的數(shù)據(jù),還會涉及到圖品形式、語音形式、視頻形式等,這些屬于非結構形式的數(shù)據(jù),致使當前的技術不能良好的處理這些異構數(shù)據(jù)。從價值密度層面看,當前物聯(lián)網(wǎng)設備發(fā)展迅速,遙感技術也獲得了廣泛應用,在信息感知方面展現(xiàn)了強大的效果,衍生了巨大的信息量,然而,觀察信息的價值密度,可以看出水平并不高。結合時效性這一特點,對于某些水利數(shù)據(jù),像洪澇這些緊急發(fā)生的情況,需要第一時間預警,高效的處理信息,所以,需要引進大數(shù)據(jù)技術,保證數(shù)據(jù)整體處理水平更高。應用水利大數(shù)據(jù)分析的方式,可以跨越行業(yè),也可以跨越部門,利用多個角度去分析數(shù)據(jù),有效應對隨機、大規(guī)模的數(shù)據(jù),保證水利工作有序推進。
應用大數(shù)據(jù)處理平臺時,主要利用的是Hadoop,然后可以借助MapReduce,跨越計算機集群設備,高效的傳輸數(shù)據(jù),可以整體的提升數(shù)據(jù)的運算水平。借助水利大數(shù)據(jù)分析處理方式,發(fā)揮Hadoop 的功能,通過它的分布形式文件系統(tǒng),將過往的監(jiān)測數(shù)據(jù)存儲起來,還可以存儲視頻、圖片等形式,對于這些非結構形式的數(shù)據(jù),還有那些半結構形式的數(shù)據(jù),需要合理的執(zhí)行處理過程,展現(xiàn)MapReduce 的作用,對于過往監(jiān)測形成的數(shù)據(jù),執(zhí)行批量計算和處理,通過監(jiān)測得到的數(shù)據(jù),它可以提供分析挖掘作用,同時也可以利用模型計算[1]。在水利多項業(yè)務中,涉及到大量數(shù)據(jù),需要實時處理這些內(nèi)容,比如,雨水情況、水資源情況執(zhí)行監(jiān)控形成的數(shù)據(jù),確保這些數(shù)據(jù)可以準確獲取,才能保證應急事件第一時間得到處理,從而進行下一步的決策。為了保證數(shù)據(jù)應用及時,通過水利數(shù)據(jù)中心,完善其架構,添加Storm 計算框架,Hadoop 比較適用于處理離線的數(shù)據(jù),而這一數(shù)據(jù)框架與其不同,它的數(shù)據(jù)源可以是更新狀態(tài)下的,也就是說,如果獲取到一條數(shù)據(jù),就會及時的處理一條。借助Storm,可以不限制次數(shù)的處理數(shù)據(jù)流,可以隨時處理Hadoop 的批量任務,推動專業(yè)模型計算工作。
進行水利大數(shù)據(jù)分析時,首先,應該針對于來自于不同源頭的異構數(shù)據(jù),展開統(tǒng)一集中處理,可以將采集數(shù)據(jù)上報處理,也可以和其他系統(tǒng)有關,采集其系統(tǒng)的節(jié)點數(shù)據(jù),另外包括處于其他領域的交換數(shù)據(jù)。對采集數(shù)據(jù)上報,主要是便于隨時監(jiān)測數(shù)據(jù),接入方式比較靈活,可以借助設備,實行直連的方式,也可以利用現(xiàn)場服務器,應用它的轉發(fā)形式;對于其他系統(tǒng)的節(jié)點數(shù)據(jù),主要是處于水利業(yè)務范圍里,具備已經(jīng)建立完成的應用系統(tǒng),業(yè)務數(shù)據(jù)分為定時接入以及不定時接入的形式;其他領域的交換數(shù)據(jù),主要是其他行業(yè)和水利有著一定的聯(lián)系,從而產(chǎn)生有關的數(shù)據(jù),例如,國土數(shù)據(jù)信息、氣象數(shù)據(jù)信息等,憑借已經(jīng)定義完善的接口,保證接入到位,或者是定義完善的連接形式,實行接入處理。
通過水利大數(shù)據(jù)分析的架構,不僅連接了多層面的數(shù)據(jù)庫數(shù)據(jù),還促進了數(shù)據(jù)庫數(shù)據(jù)和分布形式的文件系統(tǒng)有效接觸,為水利大數(shù)據(jù)的存儲帶來支撐作用。將大數(shù)據(jù)技術合理引進,促進了水利數(shù)據(jù)處理的效果,在監(jiān)測過程中,應該體現(xiàn)實時的特點,同時應具有自己的結構,增進它和業(yè)務處置數(shù)據(jù)的聯(lián)系,合理的應用關系型數(shù)據(jù)庫達到存儲的效果,對于那些屬于半結構形式和非結構形式的數(shù)據(jù),例如,以往的監(jiān)測數(shù)據(jù)、圖像數(shù)據(jù)等,可以存儲在Hadoop分布形式的文件系統(tǒng)中,關于這兩種存儲方式,它們不是單獨存在的,可以借助數(shù)據(jù)軸達到轉換的效果,也可以利用裝載工具,實現(xiàn)彼此補充的功效。對于水利大數(shù)據(jù),在建設數(shù)據(jù)庫的階段中,利用BI 元數(shù)據(jù)庫形式,有選擇的存儲數(shù)據(jù),主要是那些半結構形式、非結構形式的數(shù)據(jù),存儲它們的描述和定義內(nèi)容,應用元數(shù)據(jù)技術進行定義處理并對元數(shù)據(jù)進行集中管理,保證系統(tǒng)的實用性更高。
水利大數(shù)據(jù)分析,主要是依據(jù)應用需求,有針對性的處理和分析數(shù)據(jù),需要利用并行計算方式,或者是利用云計算體系,憑借其中的數(shù)據(jù)挖掘技術、機器學習技術等,展開細化分析。在Hadoop 中,存儲著大量的水利數(shù)據(jù),接下來可以利用MapReduce,進行數(shù)據(jù)分析和計算。MapReduce 的功能強大,主要是基于大型的大數(shù)據(jù)集,實行分解處理,得到多個獨立的小數(shù)據(jù)段,將其分發(fā)到多個節(jié)點處,利用較短的時間展開并行計算,緩解了單機處理的弊端,提升了計算性能。利用Hadoop 的存儲功能,再結合MapReduce 的計算能力,形成了一套數(shù)據(jù)庫的處理機制,對于大量的半結構形式數(shù)據(jù),通過映射處理為表,自動的進行數(shù)據(jù)處理。憑借Hadoop 的Hive 給予的接口,可以減少作業(yè)中的難度。在水利數(shù)據(jù)中,還存在著實時監(jiān)測數(shù)據(jù),它需要實時計算處理并顯示出來,通過Storm,對數(shù)據(jù)庫進行處理和更新,利用較短的時間計算大規(guī)模的監(jiān)測數(shù)據(jù),體現(xiàn)著實時性的作用,便于預警處理、及時展示監(jiān)測的數(shù)據(jù)。
水利數(shù)據(jù)規(guī)模比較大,涉及到的范圍比較廣,可以結合需要構建通用性的服務內(nèi)容,也可以建立定制形式的服務,例如,利用水利工程安全監(jiān)測體系、評價系統(tǒng)、維護工具等,發(fā)揮這些安全管理應用內(nèi)容的作用,沿著水資源多項目標進行優(yōu)化處理,如,預防洪水方面、發(fā)電方面、航運方面、農(nóng)業(yè)方面等。通過分析用戶數(shù)據(jù),深度挖掘業(yè)務有關數(shù)據(jù),憑借智能化的特點,獲取用戶興趣比較濃的數(shù)據(jù)指標。
傳統(tǒng)的水力數(shù)據(jù)分析技術較為落后,與當前的社會發(fā)展不匹配。例如,在某水利工程企業(yè)中,由于其發(fā)展時間較長,企業(yè)的跨度較大。因此,其見證了近幾十年來水利工程在水利數(shù)據(jù)分析方法上的革新。在過去,該企業(yè)使用傳統(tǒng)的調(diào)查取樣法,該方法在進行水利數(shù)據(jù)分析時,不僅效率慢,人工量大,而且所調(diào)查的數(shù)據(jù)經(jīng)常出現(xiàn)不準的情況。其采用抽樣調(diào)查的過程與組織形式較為傳統(tǒng),一般情況下,該企業(yè)開展抽樣調(diào)查是以部門組織的形式開展的,對于部門人員數(shù)量有較大的要求,因此,需要一定的工作人員來補充,協(xié)助部門展開數(shù)據(jù)調(diào)查。在工作效率上還有待提高,在水利數(shù)據(jù)的抽樣調(diào)查中,由于工作量較大,部門成員在及工作中難免出現(xiàn)工作效率低下的狀況。同時,在技術手段上遲遲得不到創(chuàng)新,對于部門成員的工作積極性也難以有效的提高。另外,在傳統(tǒng)的水利數(shù)據(jù)調(diào)查中,進行數(shù)據(jù)分析的角度較為單一,對于事件的進展難以進行有效的預測,這都受限于當時的技術條件,與水利工程的發(fā)展思維[2]。
而當下在進行水利工程數(shù)據(jù)分析時,該企業(yè)早在大數(shù)據(jù)剛剛興起的時期,對未來企業(yè)發(fā)展作出判斷。通過對數(shù)據(jù)分析與處理相關技術與手段的開發(fā)應用,逐漸在水利工程的發(fā)展上拔得頭籌。首先,在技術手段上,該企業(yè)為實現(xiàn)節(jié)省大量的人力資源,主動進行自動化、信息化的建設。將一些能用智能機器替代人工操作的環(huán)節(jié)進行優(yōu)化,有效的解決人工操作所帶來的不確定性。例如,在數(shù)據(jù)監(jiān)測環(huán)節(jié),使用大數(shù)據(jù)進行檢測能有效避免人工出錯。進而在水利工程數(shù)據(jù)分析中,部門的組織形式得到了持續(xù)的優(yōu)化,對一些需要跨部門,跨企業(yè)之間的數(shù)據(jù)交流節(jié)省了工作時間,提高了工作的效率。同時,水利大數(shù)據(jù)平臺建設,對于多角度分析數(shù)據(jù)與未來走勢有著非常深遠的意義。避免了過去因部門之間很難進行及時有效的溝通,導致出現(xiàn)數(shù)據(jù)處理出錯的局面。另外,在大數(shù)據(jù)時代,計算機程序的計算相較于傳統(tǒng)的數(shù)據(jù)計算成本較低,而且隨著信息時代不斷發(fā)展,越來越多的先進技術得到創(chuàng)新,計算能力與計算軟件也在不斷發(fā)展。
大數(shù)據(jù)時代下,水利工程水質(zhì)的檢測是保護水資源安全的重要手段。傳統(tǒng)的水質(zhì)檢測工作較為復雜,對于人工需求量較大,同時技術手段相較匱乏。導致在水質(zhì)監(jiān)測中對信息收集不全,很難真實客觀的反映出真實的水質(zhì)狀況。另外,在傳統(tǒng)的水質(zhì)安全監(jiān)測中,對于自動化技術的使用較少,因此,效率較低。例如,在我國某大型水質(zhì)監(jiān)測站中,通過近幾年大數(shù)據(jù)技術在水利工程中的應用,水質(zhì)監(jiān)測與信息的收集上有較大的優(yōu)勢。同時,該水質(zhì)監(jiān)測站的工作人員也較少,使用的設備較為先進。一般情況下,只有較少的幾名工作人員輪崗,而監(jiān)測機器則是通過水質(zhì)監(jiān)測機器進行全天的水質(zhì)狀況信息收集。在收集水質(zhì)信息中,主要包括以下幾點,第一,水質(zhì)的酸堿度,溶解氧的行亮、高錳酸鉀指數(shù)等。同時,對于水質(zhì)中的化學元素含量進行監(jiān)測[3]。
為充分了解水質(zhì)情況,某水質(zhì)監(jiān)測站通過建立MapReduce 計算模型來實現(xiàn)對水質(zhì)數(shù)據(jù)信息的收集與分析。這是一套較為完善的水質(zhì)監(jiān)測大數(shù)據(jù)平臺,為水質(zhì)監(jiān)測站的工作創(chuàng)造了較為便利的條件。同時,該計算模型在進行數(shù)據(jù)分析與儲存上有較大的優(yōu)勢。MapReduce 計算模型的運行主要包括兩個階段,第一,對水質(zhì)中歷年來的數(shù)據(jù)信息進行統(tǒng)計,并記錄保存。在數(shù)據(jù)統(tǒng)計階段,該計算模型自動將數(shù)據(jù)進行分組,并將內(nèi)容分組儲存。第二,在水質(zhì)信息數(shù)據(jù)進行分組記錄與保存后,進行下一步操作,將詳細信息進行聚合操作,并根據(jù)水質(zhì)監(jiān)測站的需要進行相關的內(nèi)容輸出。在MapReduce 計算模型平臺中,對于數(shù)據(jù)的處理過程較為復雜,首先將記錄的數(shù)據(jù)進行函數(shù)處理。在該階段,一般是由計算機系統(tǒng)內(nèi)部進行自動處理。其次,在數(shù)據(jù)處理的中間階段,會針對任務的數(shù)量進行相應的減少,進而實現(xiàn)在MapReduce 計算模型平臺中的數(shù)據(jù)分片,提升了數(shù)據(jù)的應用率,結合數(shù)據(jù)結構的存儲要求,為多結構數(shù)據(jù)帶來解決路徑。
在水質(zhì)監(jiān)測站數(shù)據(jù)準備階段,首先,對水質(zhì)數(shù)據(jù)相關內(nèi)容進行詳細的分析,在處理輸出后對其進行文本上的保存。保存的原則則是每個行為保存一條的形式,在該數(shù)據(jù)庫中主要儲存了25 條相關的水質(zhì)類型,對于水質(zhì)類型的豐富起到至關重要的作用。同時,在進行數(shù)據(jù)處理時,還是運用較為規(guī)范式的處理方法,這對水質(zhì)監(jiān)測站數(shù)據(jù)處理的真實性就有極強的現(xiàn)實意義。隨后水質(zhì)監(jiān)測站針對數(shù)據(jù)文件進行分片處理,在分片處理中,對原則標準的要求,會根據(jù)不同的水質(zhì)類型信息進行適當?shù)恼{(diào)整。在分片數(shù)據(jù)的參數(shù)上,也有較為明顯的不同,但都是要將其進行規(guī)范化處理,使用函數(shù)關系將其進行轉化,并使用Map 數(shù)據(jù)局技術將其輸出。最終,將分片數(shù)據(jù)Map 中間結果的數(shù)值進行全部的輸出[4]。
在水質(zhì)分析數(shù)據(jù)來源中,需要將近年來當?shù)厮械乃|(zhì)監(jiān)測站的數(shù)據(jù)進行收集。并進行結果分析,該水質(zhì)監(jiān)測站將近幾年的數(shù)據(jù)進行收集,并與分析得出的數(shù)據(jù)結果進行對比研究[5]。其會采用一噸的水量進行水質(zhì)狀況的分析,而數(shù)據(jù)對比的時間一般會用近三年的數(shù)據(jù)進行對比。另外,在進行大數(shù)據(jù)平臺建設時,相關領域會主動求變,在分析程序的運行時,將數(shù)據(jù)儲存作為其發(fā)展的目的。該水質(zhì)監(jiān)測站在數(shù)據(jù)的處理與儲存上進行管理方式的創(chuàng)新,使得水利大數(shù)據(jù)在應用上,逐漸與其它技術進行融合,例如,智能機器算法領域,數(shù)據(jù)融合技術等。為后續(xù)在水利大數(shù)據(jù)相關軟件的開發(fā)應用上實現(xiàn)突破。
在大數(shù)據(jù)技術的支持下,促進水利數(shù)據(jù)得到高效采集,方便展開數(shù)據(jù)管理工作,推動水利行業(yè)迅速發(fā)展。在水利數(shù)據(jù)的分析處理過程加入大數(shù)據(jù)技術,可以精準的獲取到所需的數(shù)據(jù)信息,提升數(shù)據(jù)的應用率,達到數(shù)據(jù)結構的存儲要求,為多結構數(shù)據(jù)提供解決路徑,突破了原來的擱置問題,利用新型的方式,提升了數(shù)據(jù)處理的效率。