摘 要在大數據分析流程中,通過充分運用云計算技術來對其設計過程進行優(yōu)化,能夠有效提高大數據分析的有效性與針對性,并能大量減少海量數據的處理時間,使系統(tǒng)的響應時間大大加快。為此,本文便基于云計算技術來對大數據分析流程的具體優(yōu)化路徑進行深入的分析。
【關鍵詞】云計算 大數據 分析流程 優(yōu)化路徑
1 大數據分析流程中存儲與訪問技術的優(yōu)化路徑分析
1.1 數據流和控制流的分離
在大數據分析流程中對存儲與訪問技術的優(yōu)化路徑中,主要是利用云計算建立一種GFS文件系統(tǒng)來實現(xiàn)數據流和控制流的分離的,在GFS文件系統(tǒng)節(jié)點中,每個集群都有一個主控服務器,主控服務器能夠對系統(tǒng)中的元數據進行管理,而客戶端則是一種以庫文件形式所提供的應用程序訪問接口,數據塊服務器用于將GFS節(jié)點中的數據以文件的方式進行存儲和訪問,在GFS集群中,數據塊服務器的數量是由其集群規(guī)模來決定的。在GFS文件系統(tǒng)中,其是將數據以64MB的大小來進行分塊存儲和操作的,并且每個數據塊中都有與之匹配的索引號。通過這種方式,能夠使集群中的數據塊服務器將信息發(fā)送給客戶端,并由客戶端來對這些數據服務塊進行存取與讀寫,以此實現(xiàn)客戶端和主控服務器的數據流直接傳輸,從而使主控服務器的負載得到了大幅度降低,并且使客戶端能夠對多個數據塊服務器進行同時訪問。
1.2 不緩存數據的優(yōu)化
長期以來,用戶在訪問文件時,由于磁盤性能上的缺陷,因此文件系統(tǒng)需要進行頻繁的訪問磁盤,進而產生大量的緩存數據,嚴重影響了客戶端的訪問速度,降低了系統(tǒng)的操作性能。而通過云計算來建立一種不緩存數據操作機制的GFS文件系統(tǒng),它能夠通過對文件系統(tǒng)性能的提高來對磁盤性能上的缺陷進行彌補,以此提高系統(tǒng)性能。GFS文件是將要進行操作的文件塊存儲到系統(tǒng)的內存當中,當該文件塊被用戶進行首次訪問時,系統(tǒng)會先從磁盤中對文件塊進行讀取,而后用戶每次對該文件塊進行訪問時,便可直接進行緩存讀取,從而在提高系統(tǒng)操作性能的同時,也使系統(tǒng)的寫操作性能得到提高。不緩存數據操作機制的GFS文件系統(tǒng)的優(yōu)勢在于它非常適合對大數據的實時監(jiān)測與分析,減少了無用緩存數據的大量產生,并且避免了數據的頻繁讀寫操作,實現(xiàn)了云計算對大數據的動態(tài)加載和伸縮,有效避免了緩存容量的局限性。
2 大數據分析流程中并行處理技術的優(yōu)化路徑分析
2.1 大數據邏輯分析的優(yōu)化
在大數據分析中,主要是通過將某種具體事物或問題按照其邏輯關系來進行分解,使其分解為各個要素,然后利用比較的方式來判斷這些要素對事物或問題的影響,并排列出主次關系,并通過推理來對事物或問題中各個要素之間的關系進行明確,然后將分析結果進行匯總,從而揭示該事物或問題的本質聯(lián)系與內在規(guī)律。要想實現(xiàn)這種邏輯分析思路的優(yōu)化,就必須經過對問題的分解、處理、匯總與完成,而利用云計算來建立一種數據處理模型,能夠實現(xiàn)對海量數據的并行處理,其是通過對海量數據分析任務的分解來完成的,它通過對大量分析任務進行分解,使其成為若干分析單元與數據塊,然后利用系統(tǒng)中的若干處理節(jié)點來對這些分解的任務進行并行計算處理,并將計算處理結果進行匯總,從而實現(xiàn)了對大數據分析任務的處理。在運作特征上,并行處理方式與數據分析方法基本一致,它都是經過對問題的分解、處理、匯總與完成這四個步驟。因此,從技術上來講,將云計算的技術架構應用到大數據對問題的邏輯分析中較為可行。
2.2 數據資源配置的優(yōu)化
大數據在對資源進行配置時,由于其不涉及到并行處理,并且在數據模式、數據處理與數據內容上也較為簡單固定,大部分時間都浪費在了對數據的尋找與定位上,從而大大延長了系統(tǒng)的響應時間與服務水平,因此這種資源配置的方法很難滿足大數據對海量信息的分析。云計算對大數據資源配置的優(yōu)化則是通過由系統(tǒng)進行默認或用戶自行定制的方式,來將海量的數據分解為若干微階段來進行數據處理,并通過最優(yōu)執(zhí)行性能的原則來對大數據分析任務進行處理,然后由系統(tǒng)對各微階段中數據分析任務的執(zhí)行情況進行分析與測量,此時,云計算會進一步找出各微階段中耗時較長的部分,然后以此為依據來優(yōu)化資源配置計劃。
3 大數據分析流程中組織與管理技術的優(yōu)化路徑分析
3.1 數據模型組織結構的優(yōu)化
云計算在對數據模型組織結構進行優(yōu)化時,為了確保成千上萬臺機器所組成的集群能夠在分布式存儲架構中運行,以此實現(xiàn)對PB級別大數據的高效處理,設計者利用云計算技術將Bigtable設計成一種分布式多維映射表,這種分布式多維映射表能夠對行、列中的關鍵字與時間戳進行索引,以此實現(xiàn)數據模型組織結構的優(yōu)化。在行的設計改進中,Bigtable的最大行關鍵字為64KB的字符串,它能夠確保在對行關鍵字的索引執(zhí)行過程中不會受到任何事件的中斷,并且在字母順序排列方面利用倒排的方式來便于數據的壓縮。在列的設計改進中,它能夠利用列族(由列關鍵字組成)的方式來避免對眾多列關鍵字的涉及,以此提高這種組織結構的處理效率。在加入時間戳的設計改進中,通過利用Bigtable在數據模型中引入非順序處理的時間戳,能夠有效彌補傳統(tǒng)關系型數據庫在時間特性方面的缺陷性,并進一步強化了數據項間的價值關聯(lián)性,提高了對海量數據進行分析的效率。
3.2 數據管理架構的優(yōu)化
利用云計算對數據管理架構的優(yōu)化主要是通過GFS文件系統(tǒng)、分布式調度器與分布式鎖服務來完成的,GFS文件系統(tǒng)主要是負責對海量的數據及日志進行存儲,而分布式鎖服務則用來對服務器信息與元數據進行管理的。分布式調度器則是用來對系統(tǒng)的隊列及任務進行分布式的分組與調度。云計算在數據管理架構的優(yōu)化主要包括對主服務器監(jiān)測控制的優(yōu)化與子表服務器存儲操作的優(yōu)化。在主服務器監(jiān)測控制優(yōu)化中,采用Bigtable的目的在于確保分布式存儲系統(tǒng)的擴展性得到最大程度的發(fā)揮,并通過對分布式鎖服務目錄的監(jiān)測來實現(xiàn)對負載的均衡處理。在子表服務器存儲操作優(yōu)化過程中,通過時間遠近的方式來對數據進行分別存儲,以此提高資源分配的合理性,并當數據容量達到上限時,能夠通過壓縮SSTable文件的方式來對存儲系統(tǒng)中的資源配置情況進行優(yōu)化。
參考文獻
[1]吳凱峰,劉萬濤,李彥虎,蘇伊鵬,肖政,裴旭斌,虎嵩林.基于云計算的電力大數據分析技術與應用[J].中國電力,2015,48(02):111-116+127.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數據挖掘內涵及解決方案研究[J].情報理論與實踐,2015,38(07):103-108.
[3]洪漢舒,孫知信.基于云計算的大數據存儲安全的研究[J].南京郵電大學學報(自然科學版),2014,34(04):26-32+56.
作者簡介
王偉鈞(1963-),男,江蘇省丹陽市人。碩士研究生。副教授。研究方向為數據挖掘、管理工程。
作者單位
成都大學信息科學與工程學院 四川省成都市 610106endprint