王衛(wèi)列,高 嵐
(1.國網電力科學研究院,江蘇省南京市 211106;2.國網電力科學研究院,江蘇省南京市 211106)
建設大壩監(jiān)測的大數據應避免的問題
王衛(wèi)列1,高 嵐2
(1.國網電力科學研究院,江蘇省南京市 211106;2.國網電力科學研究院,江蘇省南京市 211106)
目前國內各個行業(yè)都在上大數據項目,大壩監(jiān)測行業(yè)也是一樣,但行業(yè)內存在對大數據技術概念認識模糊的現象,在技術構想方面有一些盲動現象。本文探討了大壩監(jiān)測大數據建設中可能存在的一些錯誤思路,希望能促進同行一起思考,避免走彎路。
大數據;大壩監(jiān)測
無疑,大數據和云計算是當下IT的發(fā)展熱點,隨之國內很多新的IT項目紛紛貼上了大數據和云計算的概念標簽,然而由于處于大數據系統(tǒng)的發(fā)展初期,各自對其的認識存在不同,不免會出現一些不成熟的發(fā)展思路,本文結合大壩安全監(jiān)測信息系統(tǒng)引入對大數據的展望,探索其發(fā)展過程中應避免的各種問題。
很多新大數據項目都聲稱將極大地提高決策和智能水平,然而仔細審視這些項目的內容卻發(fā)現其實質還屬于“新瓶裝老酒”,只是用大數據的概念裝飾了一下。
例如,建立某個數據中心,主要內容是將多個工程現場的數據匯集到中心,然后在中心通過與工程現場相似的應用系統(tǒng)再分析處理這些數據,其內容實質還是一個傳統(tǒng)的系統(tǒng),只是搬了個家,常常發(fā)現其挖掘的數據價值并沒有發(fā)生超越。
對這種系統(tǒng)我們應該有鑒別能力,避免國家的重復投資。
很多人認為有Hadoop(或其他類似系統(tǒng),如Spark等)就是大數據了,于是只重視創(chuàng)Hadoop系統(tǒng)然后將各路工程的數據匯入,然后聲稱實現了某大數據系統(tǒng),其實Hadoop只是解決了大規(guī)模存儲和并發(fā),雖然突破了大數據的幾個關鍵技術瓶頸,但遠遠不是大數據的全部,再者在并發(fā)和存儲方面Hadoop還不是唯一的解決方案。
驗證是否是大數據,可以參考業(yè)界提出的4V特征,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),其中value是大數據的終極目標,也就是通過對大數據的分析來獲取以往傳統(tǒng)系統(tǒng)難以得到的有價值的信息,從而獲得巨大的經濟和社會效益,如果只是停留在用Hadoop及類似系統(tǒng)解決了前3個V的話,那么這樣的大數據系統(tǒng)只是徒有其表。
以后在鑒別大數據系統(tǒng)的真?zhèn)螘r,不要被Hadoop之類的數據術語所遮目,要全面考量4V在系統(tǒng)中的必要性,尤其要看清能為我們帶來什么分析價值(即value)。
下面我們具體結合大壩監(jiān)測信息系統(tǒng)來分析是否符合4V特性。我們曾做過一次試驗,我們的在系統(tǒng)存儲了2億7000萬條測量數據,一共花了140G存儲空間,這個數據規(guī)模相當于一天存入1萬條測量數據共使用了73年(通常情況下大壩測點每天就一條測量數據),顯然這種數據規(guī)模還遠沒有達到所謂的Volume問題(即使將多個大壩的測量數據匯聚到一起,注:這里不是說數據匯聚時直接使用工程中的原測量數據,這里只是用這個細粒度的數據做一個規(guī)模估計);另外,我們系統(tǒng)僅僅供少數專業(yè)人士查看,所以其并發(fā)性要求很不高,如果與阿里巴巴、騰訊等系統(tǒng)相比,其Velocity要求實在是太低了;在Variety方面,大壩除了測量數據外,確實還會有一些非結構化數據(如圖片、視頻等),但比起社交網絡形成的非結構化數據,其復雜度還相對比較低,對這些數據,通過關系數據庫中的BLOB和xml字段也能應付,當然在這方面,今后可能會有所發(fā)展;在Value挖掘方面,如果使用原來的大壩監(jiān)測數據,則其價值已經被發(fā)掘得差不多了,在數據中心重復這樣的系統(tǒng),意義不大。
當然,我們不必為大壩監(jiān)測數據尚不滿足4V特性而去否定大壩數據在大數據建設中的作用,我們的眼光不能僅僅限制在自己的專業(yè)領域,大數據的價值發(fā)現一般是通過跨領域的數據挖掘產生,當大壩專業(yè)領域的安全監(jiān)測、施工管理等數據與水情水調、氣象、強震監(jiān)測、堤防監(jiān)測、防災應急等系統(tǒng)的數據進行聯合挖掘時,可以充分體現自身的價值(value),這方面是我們的空白,也是我們今后發(fā)展的方向。
常常有這樣的現象,在做大數據項目的計劃時,不管三七二十一,先把分布在各廠中的多個系統(tǒng)數據傳送到數據中心,如此缺少目的性的數據匯聚很容易形成數據垃圾,最后因做無用功而造成浪費。
我們建立大數據中心,一個很重要的目的是為了從數據中發(fā)現價值,而且是那些在我們已有系統(tǒng)中挖掘不出來的價值,這需要對跨領域、跨系統(tǒng)的數據進行分析才能獲得,在這個層面上看,似乎上述的數據匯聚方式是合理的,但答案是否定的。 因為任何一個數據分析問題都需要有針對性的數據建模,只有在我們確定具體分析目標后,才能決定哪個數據源中的哪些數據列是有效的,才能確定數據格式和粒度,才能考慮跨系統(tǒng)的數據維度如何統(tǒng)一,才能確立挖掘的數據模型如何建立,如此精細的數據需求不可能通過盲動的數據匯聚得到。有人說,可以先匯到中心,然后再慢慢抽取(ETL),然而已建的子系統(tǒng)種類多、數據量大,無端消耗中心的大量存儲實難稱道,所以目的性不強的數據匯聚一定會浪費大量的人力、財力。當然,分析目標的確定不會一蹴而就,常常是一個反復迭代的過程,在其后的定義問題(確定分析目標)、數據準備、形成數據視圖、數據建模和部署發(fā)布的過程中都會根據實施過程中遇到的問題反復調整分析目標,然而這些都是目的性很強的活動,我們只是花了我們必須付出的代價,只有這樣才能最大程度地減少因盲動而造成的損失。
除了對大數據的認識程度以外,沒有確定分析目標(定義問題)的原因很大程度上是因為這項工作的確有難度,這需要業(yè)務決策人員和數據挖掘專業(yè)人員深入進行溝通,我們常常遇到的情況是僅僅技術人員在那里空想,沒有對業(yè)務問題的深入理解,是不可能完成這項任務的,所以業(yè)務決策人員不要坐等系統(tǒng)完成后才介入。
業(yè)務決策人員可以從業(yè)務流程的角度去發(fā)現問題(決策時需要查詢的數據、預測、評估等),數據挖掘專業(yè)人員則思考如何構建數據模型,數據挖掘人員可以從技術角度提出一些問題來和業(yè)務人員溝通,另外定義問題的重點在跨系統(tǒng)的數據分析(單個系統(tǒng)能回答的問題無需數據中心來分析)。
這里舉個例子來說明如何確定分析目標,申明一下,可能所涉及的業(yè)務問題不一定正確,我們只是來模擬一個確定分析目標的過程,假設我們現在要做出的是:洪水來臨時,區(qū)域內多個大壩的棄、保水決策,為了支持這個決策,需要系統(tǒng)能回答很多數據查詢和預測問題,如:目前的氣象條件以及保水策略下水庫水位的預測;在目前的水位和大壩的狀態(tài)下,升水速率限制什么范圍可保證大壩的安全?在目前的水位下,流域內大壩聯動泄洪策略是否可保洪峰安全度過,泄洪時應該如何組織人力資源執(zhí)行應急預案,這些問題由業(yè)務決策人員根據自己的決策流程的需要來提出,數據分析專業(yè)人員會和業(yè)務決策人員反復溝通后分析需要哪些數據以及如何數據建模,這可能涉及氣象預測、洪水預報、大壩安全監(jiān)測和分析、流域三維數據、歷史泄洪水土流失數據、歷史泄洪形成的重大民事事件、應急預案、視頻監(jiān)控、汛期值班任務、人力資源、搶險器材庫存等數據,需要雙方緊密合作來確定這些問題,然后由專業(yè)人員來采集數據、建模并實現所需的分析預測目標,如果相關基礎數據缺失,還可以提出相應的數據建設需求。
總之,盡管確定分析目標是困難的,但是這是我們大數據分析的出發(fā)點,必須從這里開始考慮。
國內某些單位常有這樣的習慣性思維,就是要搞什么系統(tǒng)就是委托第三方廠家研發(fā)一套,最后經過安裝、培訓來接手這套系統(tǒng),然而如果要建的是具有大數據概念的數據中心,則需要改變這種思路??梢宰屑毩私庖幌乱延械拇髷祿到y(tǒng)(阿里巴巴、騰訊、亞馬遜,Microsoft Azure),無一不是自己的研發(fā)隊伍在運維這套系統(tǒng);不然進場的各應用廠家各行其是,必定造成中心的應用邏輯混亂,成為信息的垃圾場。
數據中心將匯聚各種所需專業(yè)系統(tǒng)的數據,而對它們的分析要求常常是原來某個專業(yè)系統(tǒng)所不能提供的,而且分析目標也是不斷變化的,這需要中心有自己的數據分析開發(fā)人員。
數據中心所涉及的云計算和大數據軟硬件架構,對其維護升級需要技術能力很強的專職技術人員,依賴第三方做到這點也是不可能的。
各種專業(yè)應用是如何影響中心的數據建設呢?其實只有在中心進行數據采集時才會發(fā)生關系,其采集模式無論是拉模式還是推模式,只要符合其交互的服務接口和數據標準即可,而這些標準也應該是中心的技術人員提出。
綜上所述,中心的工作必須有一支自己的研發(fā)隊伍,而且是研發(fā)的主體。
數據中心很多信息影響到國家的安全,例如在做局域網應用時,常常比較重視功能性開發(fā),對非功能性的安全問題重視不夠,如今數據中心是依賴于Internet運行的,其信息安全問題是首先要解決的問題,這方面涉及的技術繁多且復雜,在這里不多贅述,應該高度重視該問題才是。
無論我們采用什么技術手段,應該深刻理解其技術內涵,不能為贏得什么彩頭而使用技術,不然會造成國家財產的嚴重浪費;隨著大數據和云計算技術在國內應用的深入,我相信對這些技術的使用會越來越成熟,會為我們的國家和社會創(chuàng)造巨大的價值。
[1] 郭曉科.大數據.北京:清華出版社,2013.
[2] 高彥杰.Spark大數據處理.北京:機械工業(yè)出版社,2014.
[3] 大數據研究報告編寫組.綜合分析冷靜看待大數據標準化漸行漸近.信息技術與標準化,2013,(9).
王衛(wèi)列(1961—),男,高級工程師,主要研究方向:電力系統(tǒng)軟件開發(fā)。E-mail:wangweilie@sgepri.sgcc.com.cn
高 嵐(1965—),女,高級工程師,主要研究方向:電力系統(tǒng)計算機應用。E-mail:gaolan@sgepri.sgcc.com.cn
Problems Should Be Avoided in Constructing the Big Data System of Dam Monitoring
WANG Weilie1,GAO Lan2
(1. State Grid Electric Power Research Institute,Nanjing 211106,China;2. State Grid Electric Power Research Institute,Nanjing 211106,China)
Big data is more and more popular today and it is same in dam monitoring system also. But within the industry there are large technical concepts of fuzzy phenomena,some blind in technology ideas. This article discusses some wrong ideas in construction of big data system of dam monitoring. I hope peers to reflect together on how to avoid these mistakes.
big data;dam monitoring