聶鼎 宋憂樂 范黎濤 施冬明 蒲建志
摘要:大數(shù)據(jù)分析梳理平臺就是整合當前主流的各種具有不同側重點的大數(shù)據(jù)分析框架和工具,實現(xiàn)對數(shù)據(jù)的挖掘和分析,一個大數(shù)據(jù)分析平臺涉及到的組建眾多,如何將其有機的結合起來,完成海量數(shù)據(jù)的挖掘是一項復雜的工作。本文通過數(shù)據(jù)分析平臺的構建和數(shù)據(jù)分析兩個方面展開研究。
關鍵詞:信息分析、大數(shù)據(jù)、構建
一、序言
當前,人類社會信息化進程正在邁向網(wǎng)絡化信息技術普及階段。整個社會的信息采集渠道日益豐富,信息應用廣度不斷拓展,信息總量呈指數(shù)級增長,以信息為核心的創(chuàng)新驅(qū)動力持續(xù)增強,從而帶來全社會信息在類型多樣性、關系復雜性、應用時效性等方面呈現(xiàn)出嶄新的趨勢和特征。這種由社會信息環(huán)境的變革而引發(fā)的社會數(shù)據(jù)的變革,給信息科學及相關產(chǎn)業(yè)發(fā)展帶來了巨大的挑戰(zhàn)和機遇。
大數(shù)據(jù)時代,幾乎每一個企業(yè)都對數(shù)據(jù)分析平臺趨之若鶩,尤其是在今年疫情爆發(fā)之后,更多的企業(yè)主意識到了數(shù)據(jù)所具有的的極大商業(yè)價值,以及其作為支撐企業(yè)信息智能化的無形資產(chǎn)。
通常來說,企業(yè)內(nèi)部的運營和業(yè)務系統(tǒng)每天會積累下大量歷史數(shù)據(jù),一些企業(yè)最多是對一些零散的數(shù)據(jù)進行淺層次的分析,真正的海量數(shù)據(jù)其實并沒有得到真正有效的分析利用。
同時,隨著系統(tǒng)的不斷增加和積累,沉淀在系統(tǒng)深處的數(shù)據(jù)也更加難以提取和整合,后期的報表展示和可視化分析也就成了空殼應用。所以數(shù)據(jù)分析平臺的建設就十分必要了,一方面它可以匯通企業(yè)的各個業(yè)務系統(tǒng),從源頭打通數(shù)據(jù)資源,另一方面也可以實現(xiàn)從數(shù)據(jù)提取、集成到數(shù)據(jù)清洗、加工、可視化的一站式分析,幫助企業(yè)真正從數(shù)據(jù)中提取價值,提高企業(yè)的經(jīng)營能力。
二、數(shù)據(jù)分析
數(shù)據(jù)分析指用適當?shù)慕y(tǒng)計、分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。
數(shù)據(jù)分析的目的是把隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中和提煉出來,從而找出所研究對象的內(nèi)在規(guī)律。在實際應用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當行動。數(shù)據(jù)分析是有組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個壽命周期,包括從市場調(diào)研到售后服務和最終處置的各個過程都需要適當運用數(shù)據(jù)分析過程,以提升有效性。
當前云南電網(wǎng)配網(wǎng)線路和設備故障明細,配網(wǎng)設備相關的交叉跨越,安全隱患等信息,目前是各單位采取EXCEL表格為載體對數(shù)據(jù)進行收集、整理并報送,由于數(shù)據(jù)量太大,導致全省各家供電單位報送數(shù)據(jù)質(zhì)量和內(nèi)容規(guī)范性較差,數(shù)據(jù)格式也無法統(tǒng)一,進一步導致大量數(shù)據(jù)的統(tǒng)計和分析工作無法高效進行,無法對配網(wǎng)線路和設備故障進行有效的閉環(huán)跟蹤管控和多維度分析。本項目主要對配網(wǎng)缺陷、故障搶修、涉電安全隱患、線路交叉跨越、問題線路、重復跳閘線路、重過載、低電壓等配網(wǎng)生產(chǎn)運行數(shù)據(jù)規(guī)范填報管控和數(shù)據(jù)統(tǒng)計分析應用。
基于以上原因,有必要開展配網(wǎng)生產(chǎn)運行數(shù)據(jù)縱向聚合分析平臺開發(fā),實現(xiàn)對全網(wǎng)配網(wǎng)線路和設備生產(chǎn)運行數(shù)據(jù)的統(tǒng)一規(guī)范化填報、管理,實現(xiàn)配網(wǎng)運行數(shù)據(jù)多維分析和統(tǒng)計。
離線數(shù)據(jù)分析
離線數(shù)據(jù)分析用于較復雜和耗時的數(shù)據(jù)分析和處理,一般通常構建在云計算平臺之上,如開源的HDFS文件系統(tǒng)和MapReduce運算框架。Hadoop機群包含數(shù)百臺乃至數(shù)千臺服務器,存儲了數(shù)PB乃至數(shù)十PB的數(shù)據(jù),每天運行著成千上萬的離線數(shù)據(jù)分析作業(yè),每個作業(yè)處理幾百MB到幾百TB甚至更多的數(shù)據(jù),運行時間為幾分鐘、幾小時、幾天甚至更長。
在線數(shù)據(jù)分析
在線數(shù)據(jù)分析也稱為聯(lián)機分析處理,用來處理用戶的在線請求,它對響應時間的要求比較高(通常不超過若干秒)。與離線數(shù)據(jù)分析相比,在線數(shù)據(jù)分析能夠?qū)崟r處理用戶的請求,允許用戶隨時更改分析的約束和限制條件。與離線數(shù)據(jù)分析相比,在線數(shù)據(jù)分析能夠處理的數(shù)據(jù)量要小得多,但隨著技術的發(fā)展,當前的在線分析系統(tǒng)已經(jīng)能夠?qū)崟r地處理數(shù)千萬條甚至數(shù)億條記錄。傳統(tǒng)的在線數(shù)據(jù)分析系統(tǒng)構建在以關系數(shù)據(jù)庫為核心的數(shù)據(jù)倉庫之上,而在線大數(shù)據(jù)分析系統(tǒng)構建在云計算平臺的NoSQL系統(tǒng)上。如果沒有大數(shù)據(jù)的在線分析和處理,則無法存儲和索引數(shù)量龐大的互聯(lián)網(wǎng)網(wǎng)頁,就不會有當今的高效搜索引擎,也不會有構建在大數(shù)據(jù)處理基礎上的微博、博客、社交網(wǎng)絡等的蓬勃發(fā)展。
三、平臺構建
企業(yè)對數(shù)據(jù)、效率要求的逐步提高,也給大數(shù)據(jù)提供了展現(xiàn)能力的平臺。企業(yè)構建大數(shù)據(jù)平臺,歸根到底是構建企業(yè)的數(shù)據(jù)資產(chǎn)運營中心,發(fā)揮數(shù)據(jù)的價值,支撐企業(yè)的發(fā)展。
動態(tài)配置、易于擴展:系統(tǒng)后臺管理功能要具備高度的定制和配置能力,利用已有功能的、通過簡單配置就可以滿足大多數(shù)系統(tǒng)的應用場景。同時,為開發(fā)框架今后的擴展需要,預留接口,方便新功能的擴展。
簡單部署、運行穩(wěn)定:盡量減少不需要的配置和步驟,方便系統(tǒng)的搭建,實現(xiàn)系統(tǒng)的快速部署。通過完善的框架功能和標準的開發(fā)規(guī)范,保障系統(tǒng)運行的穩(wěn)定和運行性能。
界面無關、方便定制:前端展現(xiàn)代碼和后端業(yè)務代碼的邏輯分離,開發(fā)框架不局限于某一種前端展現(xiàn)框架和代碼,實現(xiàn)前端展現(xiàn)界面可以靈活設計和定制而不受某一種展現(xiàn)框架的局限。
調(diào)試簡單、維護方便:框架所使用的各種技術要方便調(diào)試和已于維護,一方面提升問題定位和解決的效率;另一方面降低某一種技術自身缺陷對系統(tǒng)造成影響。
簡單實用、快速投產(chǎn):框架研發(fā)不貪大求全,以簡單實用為準則,減少不必要功能的開發(fā)和設計,以實現(xiàn)用較短的時間完成基礎框架的研發(fā)并投入使用。
層次分明、平滑升級:實體層、數(shù)據(jù)訪問層、業(yè)務邏輯層、UI層,使用maven管理,每一層獨立一個項目一個jar包便于管理、升級。升級方面采用源碼方面,分層jar管理,web方面核心資源css、js統(tǒng)一管理,差異化采用繼承的方式拓展,所有提供出來的調(diào)用api采用平滑過渡,保留老版本接口,出現(xiàn)升級時,對老版本接口進行提示,建議不使用方式。
技術平臺的研發(fā),在統(tǒng)一UI規(guī)范、接口規(guī)范、服務規(guī)范基礎上,滿足穩(wěn)定性、安全性、拓展性、延續(xù)性、高性能的基礎上,突出研發(fā)效率和用戶體驗,技術研發(fā)平臺主要由服務框架、J2EE開發(fā)框架、終端開發(fā)框架組成。
四、總結
隨著計算機技術和網(wǎng)絡技術的不斷發(fā)展進步,目前社會中的各行各業(yè)都要面臨大量的數(shù)據(jù),而單純依靠人力進行海量的信息數(shù)據(jù)分析已然不再現(xiàn)實,這就催生了大數(shù)據(jù)分析技術。我們通常將大數(shù)據(jù)稱之為復雜且規(guī)模巨大的數(shù)據(jù)集,擁有海量的非結構化數(shù)據(jù)。在大數(shù)據(jù)時代發(fā)展的浪潮下,大數(shù)據(jù)分析的構建已無可避免。
參考文獻
[1] 陶皖主編.云計算與大數(shù)據(jù):西安電子科技大學出版社,2017.01:第44頁
[2] 邊馥苓主編;孟小帝,崔曉暉副主編.時空大數(shù)據(jù)的技術與方法:測繪出版社,2016.05:第24頁
作者簡介
聶鼎(1983-),男,漢族,黑龍江省哈爾濱人,碩士,高級工程師,主要研究方向:電力大數(shù)據(jù),智能配電網(wǎng)技術等