熊俊
摘要:隨著計算機網(wǎng)絡(luò)技術(shù)不斷升級,以大數(shù)據(jù)、云計算為主要代表的現(xiàn)代信息技術(shù)得以廣泛應(yīng)用?;谠朴嬎愕拇髷?shù)據(jù)分析體系已經(jīng)成為解決大數(shù)據(jù)技術(shù)應(yīng)用和運行方面問題的主要支撐。云計算環(huán)境下大數(shù)據(jù)平臺建設(shè)需要考慮各類要素的集成,并要對數(shù)據(jù)進行不斷整合和高效處理,才能切實發(fā)揮云計算應(yīng)有的性能。本文基于云計算對大數(shù)據(jù)分析流程優(yōu)化路徑進行了深入研究,提出了具體的對策,以供參考。
關(guān)鍵詞:云計算;大數(shù)據(jù);分析;流程優(yōu)化;路徑;技術(shù);發(fā)展
中圖分類號:TP311 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)08-0181-02
近年來隨著科技時代到來,大數(shù)據(jù)、云計算已成為全球關(guān)注的熱點,云計算正處于高速發(fā)展的信息時代,數(shù)據(jù)也成為重要的資源備受關(guān)注。在大數(shù)據(jù)分析流程中,逐漸引入了云計算技術(shù)對其進行不斷優(yōu)化升級,從而進一步提升數(shù)據(jù)分析效率和質(zhì)量,減少海量數(shù)據(jù)處理時間,提升系統(tǒng)響應(yīng)能力。加強基于云計算的發(fā)數(shù)據(jù)分析流程優(yōu)化路徑探析,具有深遠(yuǎn)的現(xiàn)實意義。
1 大數(shù)據(jù)基本內(nèi)涵及基本處理流程分析
大數(shù)據(jù)是指通過常規(guī)的手段和方法難以對海量數(shù)據(jù)進行處理,只能依靠高端信息處理技術(shù)和方法對海量的數(shù)據(jù)在有限的時間內(nèi)進行感知、獲取、加工、管理、處理和共享應(yīng)用的數(shù)據(jù)體系。大數(shù)據(jù)通常具有四個顯著的特點,分別為體量大、模態(tài)多樣、生成快速以及價值大密切低。大數(shù)據(jù)技術(shù)是對傳統(tǒng)數(shù)據(jù)處理技術(shù)和方法的進一步升級,隨著云計算理念的提出,以及相關(guān)體系內(nèi)部系列技術(shù)的出現(xiàn),越來越多的云計算技術(shù)平臺產(chǎn)生,為大數(shù)據(jù)處理提供了更好的技術(shù)服務(wù)平臺,對大數(shù)據(jù)處理流程優(yōu)化也帶來了很大的便利。
大數(shù)據(jù)整體處理流程通??梢苑殖伤膫€部分,分別為數(shù)據(jù)采集、數(shù)據(jù)處理和集成、數(shù)據(jù)分析、數(shù)據(jù)解釋。第一步是進行數(shù)據(jù)采集,對數(shù)據(jù)各個端口來源的信息進行全面采集,并實現(xiàn)預(yù)處理,從而為后續(xù)數(shù)據(jù)計算和分析奠定基礎(chǔ),提供可靠統(tǒng)一的數(shù)據(jù)格式。隨后按照既定的數(shù)據(jù)算法對數(shù)據(jù)進行計算分析,最后利用可視化手段將分析完成的數(shù)據(jù)結(jié)果傳遞至用戶端。
在數(shù)據(jù)采集階段,隨著計算機互聯(lián)網(wǎng)技術(shù)不斷發(fā)展和廣泛應(yīng)用,數(shù)據(jù)來源也日益龐大,生產(chǎn)數(shù)據(jù)的環(huán)節(jié)也在不斷增多,從而大大提高了數(shù)據(jù)的產(chǎn)量,數(shù)據(jù)之間的關(guān)聯(lián)度等也越來越復(fù)雜,對數(shù)據(jù)采集提出了更高的速度和精度要求。所以需要對傳統(tǒng)的數(shù)據(jù)整合處理技術(shù)進行不斷優(yōu)化升級,才能夠在最短的時間內(nèi)將海量復(fù)雜的數(shù)據(jù)通過一定的技術(shù)和方法實現(xiàn)快速簡化處理,提高數(shù)據(jù)整合、處理和利用分享水平,更好地為用戶服務(wù)。如果單純地依靠傳統(tǒng)的大數(shù)據(jù)處理技術(shù),隨著信息量不斷增大,將難以應(yīng)對未來高產(chǎn)量數(shù)據(jù)信息變化帶來的挑戰(zhàn)。所以需要對數(shù)據(jù)處理流程進行全面整合,并探索更加有效的優(yōu)化處理技術(shù),才能更好地提升數(shù)據(jù)資源的利用價值和服務(wù)效能。
在大數(shù)據(jù)處理基本流程體系中,根據(jù)四個不同的運行階段,有不同的要求。在數(shù)據(jù)處理與集成階段,主要是對前一階段采集到的各類數(shù)據(jù)通過格式化、去噪等方式進行預(yù)處理,并占華為統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)。在這個過程中由于數(shù)據(jù)類型比較復(fù)雜,還有很多的無效數(shù)據(jù)需要去除,轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)格式才能更好地加以利用,所以通常需要設(shè)計過濾器等方式來將無效數(shù)據(jù)去除,轉(zhuǎn)化為統(tǒng)一格式的有效數(shù)據(jù)。在數(shù)據(jù)分析階段,主要是對完成采集和整理的數(shù)據(jù)進行進一步分析,根據(jù)數(shù)據(jù)應(yīng)用需求以及價值功能方向,對原始采集的數(shù)據(jù)進行進一步的處理,通常應(yīng)用數(shù)據(jù)挖掘工具或者數(shù)據(jù)倉庫工具等進行集中信息處理和分析,目前在數(shù)據(jù)分析方面,有很多的大數(shù)據(jù)分析服務(wù)商提供了專業(yè)的服務(wù)軟件和支撐產(chǎn)品,從而有助于更好地對數(shù)據(jù)進行全面深度分析。數(shù)據(jù)解釋主要是對數(shù)據(jù)分析結(jié)果進行進一步展現(xiàn)的過程。隨著數(shù)據(jù)信息量不斷增大,傳統(tǒng)的數(shù)據(jù)顯示或展現(xiàn)模式已經(jīng)不能滿足數(shù)據(jù)分析結(jié)果輸出的要求,數(shù)據(jù)可視化技術(shù)的出現(xiàn)和應(yīng)用為數(shù)據(jù)解釋和直觀展現(xiàn)提供了重要的技術(shù)支持,通過應(yīng)用可視化技術(shù),可以對數(shù)據(jù)分析結(jié)果直觀形象地向用戶展現(xiàn),從而提高數(shù)據(jù)深度利用價值。
2 云計算與大數(shù)據(jù)分析關(guān)系研究
云計算是為了更好地為互聯(lián)網(wǎng)提供服務(wù),而設(shè)置的一種增加、使用以及交付模式,借助互聯(lián)網(wǎng)可以提供動態(tài)且易擴展的虛擬化資源,是屬于按使用量付費的一種模式。這種模式下用戶可以根據(jù)自己的需求進行便捷訪問,并獲取相應(yīng)的資源,從而更好地加以利用。數(shù)據(jù)分析作為大數(shù)據(jù)處理流程中最重要的部分,體現(xiàn)了數(shù)據(jù)的價值,基于大數(shù)據(jù)的數(shù)據(jù)分析是指對獲取的海量的數(shù)據(jù)通過一定的技術(shù)和方法來進行快速整合和深度處理的過程。作為大數(shù)據(jù)分析的重要支撐平臺,云計算技術(shù)可以為大數(shù)據(jù)分析提供更加靈活和迅速的部署方案,從而提高大數(shù)據(jù)分析結(jié)果的精準(zhǔn)度,同時云計算技術(shù)為大數(shù)據(jù)分析提供了擴展性更強和更具經(jīng)濟性的存儲于計算資源,為深度應(yīng)用奠定了技術(shù)??傮w上看,大數(shù)據(jù)技術(shù)屬于云計算計算的延伸和拓展,大數(shù)據(jù)技術(shù)從數(shù)據(jù)采集獲取到儲存處理與應(yīng)用,整個過程中需要應(yīng)用大量的技術(shù),未來隨著數(shù)據(jù)變化速度越來越快,信息量日益龐雜,大數(shù)據(jù)分析走向云計算還需要依靠不斷提高數(shù)據(jù)通信寬帶,加強云資源建設(shè),才能確保數(shù)據(jù)整合體系功能不斷強大,滿足社會發(fā)展要求?;谠朴嬎愕拇髷?shù)據(jù)分析,具有獨特的優(yōu)勢。一方面可以借助云計算虛擬化環(huán)境,結(jié)合用戶的業(yè)務(wù)需求,對各類資源進行深度優(yōu)化配置,從而提升大數(shù)據(jù)的可擴展性。另一方面數(shù)據(jù)分析力度進一步細(xì)化,能夠進一步提升數(shù)據(jù)本身的挖掘價值,此外也有助于降低數(shù)據(jù)分析成本,全面提升硬軟件設(shè)施利用率。這些都是云計算與大數(shù)據(jù)融合的優(yōu)勢,從而為服務(wù)用戶提供性價比更好的數(shù)據(jù)分析服務(wù)。
3 基于云計算的大數(shù)據(jù)分析流程優(yōu)化路徑分析
基于云計算的大數(shù)據(jù)分析流程優(yōu)化路徑可以從三個方面進行具體分析,分別為存儲與訪問技術(shù)、并行處理技術(shù)、組織與管理技術(shù),具體分析如下:
3.1 基于云計算的大數(shù)據(jù)分析流程中存儲與訪問技術(shù)優(yōu)化路徑研究
在大數(shù)據(jù)分析流程中存儲與訪問技術(shù)優(yōu)化程序可以分成實現(xiàn)數(shù)據(jù)流與控制流分離以及不緩存數(shù)據(jù)優(yōu)化兩個方面。針對數(shù)據(jù)流與控制流分離方面,在進行存儲與訪問技術(shù)優(yōu)化處理過程中,主要是借助云計算技術(shù)來構(gòu)建一種GFS文件系統(tǒng),從而分流數(shù)據(jù)流和控制流。在整個文件系統(tǒng)節(jié)點中涉及很多的集群,每一個集群都配置了主控服務(wù)器,主控服務(wù)器可以對系統(tǒng)元數(shù)據(jù)進行有效處理,客戶端作為以庫文件形式提供應(yīng)用程序的訪問接口進行處理,GFS各個幾點數(shù)據(jù)會借助數(shù)據(jù)塊服務(wù)器,從而將數(shù)據(jù)通過文件的形式進行儲存,進行訪問。數(shù)據(jù)塊服務(wù)器配置數(shù)量需要根據(jù)集群系統(tǒng)的規(guī)模來確定。在整個GFS文件體系中,分塊存儲的數(shù)據(jù)大小控制在64MB,并建立與數(shù)據(jù)庫相對應(yīng)的索引號,這樣便于及時進行查找,并進行信息定位有效傳送,將最準(zhǔn)確的信息按照既定的服務(wù)模塊傳輸至客戶端,用戶可以根據(jù)自己的需求進行信息讀取等,這樣就可以將主控服務(wù)器與客戶端的數(shù)據(jù)進行遠(yuǎn)程有效傳輸,進一步降低了主控服務(wù)器承載負(fù)荷,并可以實現(xiàn)多個數(shù)據(jù)塊服務(wù)器的同步訪問。針對不換存數(shù)據(jù)優(yōu)化方面,傳統(tǒng)的模式下,用戶在訪問文件過程中會受到磁盤本身性能約束,從而產(chǎn)生訪問過程中大量的緩存數(shù)據(jù),不能及時進行有效疏導(dǎo),將對訪問速度等產(chǎn)生很大的影響。通過借助云計算技術(shù),構(gòu)建不緩存數(shù)據(jù)操作系統(tǒng)的GFS文件體系,將需要操作的文件存儲到系統(tǒng)內(nèi)存中,如果文件塊被用戶首次訪問,系統(tǒng)會直接進行此盤文件讀取,如果再次訪問同一路徑,可以進行直接緩存讀取,進一步提升了系統(tǒng)操作性能和寫操作水平,這也是大數(shù)據(jù)分析流程優(yōu)化的直接反映與體現(xiàn)。
3.2 基于云計算的大數(shù)據(jù)分析流程中并行處理技術(shù)的優(yōu)化路徑研究
并行處理技術(shù)還可以分成邏輯分析技術(shù)與資源配置優(yōu)化兩個方面。整個大數(shù)據(jù)分析過程中,通常需要根據(jù)數(shù)據(jù)的邏輯關(guān)系進行要素分解,進而通過對比的方式來總結(jié)規(guī)律,并對主次關(guān)系進行研究,進一步推理,尋找內(nèi)在聯(lián)系和運行規(guī)律。想要不斷提升邏輯分析水平,需要對問題從分解處理到整合應(yīng)用方面進行流程整合與優(yōu)化??梢越柚朴嬎慵夹g(shù)構(gòu)建數(shù)據(jù)處理模型,對各類數(shù)據(jù)進行并行處理,對任務(wù)按照既定的程序進行分解,劃分為不同的數(shù)據(jù)塊單元,隨后進行分支并行處理,集約化計算,這樣將數(shù)據(jù)結(jié)果自動生成,完整地體現(xiàn)。與計算技術(shù)服務(wù)體系在大數(shù)據(jù)問題邏輯分析方面提供強大的技術(shù)保障和服務(wù)支持。在數(shù)據(jù)資源優(yōu)化配置方面,由于數(shù)據(jù)系統(tǒng)比較龐雜,需要對海量信息進行集中處理和優(yōu)化,才能提高資源最大化利用水平,提升使用價值。云計算技術(shù)通過為系統(tǒng)進行默認(rèn)或用戶自行定制的方式對海量數(shù)據(jù)進行若干微階段優(yōu)化處理,借助最優(yōu)執(zhí)行性能要求實現(xiàn)數(shù)據(jù)分解任務(wù)的同步數(shù)據(jù),并對每一個微階段數(shù)據(jù)分析人物執(zhí)行情況進行動態(tài)監(jiān)督和測量,找出各個階段處理過程中存在的影響因素,逐一突破,提高資源優(yōu)化配置整合效率。
3.3 基于云計算的大數(shù)據(jù)分析流程中組織與管理技術(shù)優(yōu)化路徑研究
在組織與管理技術(shù)優(yōu)化方面,云計算的優(yōu)勢主要體現(xiàn)在以下方面:一方面云計算可以通過對數(shù)據(jù)模型組織結(jié)構(gòu)進行優(yōu)化,設(shè)計一種基于云計算技術(shù)的以Bigtable為載體的分布式多維映射表,這樣可以對數(shù)據(jù)模型中的行、列關(guān)鍵字和時間戳實現(xiàn)索引,從而提高數(shù)據(jù)優(yōu)化處理效果。通常情況下Bigtable的最大行關(guān)鍵字為64KB的字符串,列設(shè)計中引入列族方式減少多樣列關(guān)鍵字的干涉,從而有效提升集中處理效率。在引入時間戳改進體系中,借助Bigtable在數(shù)據(jù)模型中引入非順序處理的時間戳,從而提高了數(shù)據(jù)項間的價值關(guān)聯(lián)度,進一步提升了數(shù)據(jù)分類整合和處理效率。另一方面借助云計算技術(shù),通過設(shè)計GFS文件系統(tǒng),對海量數(shù)據(jù)進行存儲,通過引入分布式調(diào)度器與鎖服務(wù),從而實現(xiàn)對服務(wù)器信息和元數(shù)據(jù)的有效管理和隊列任務(wù)分配與調(diào)度,進而整體上提高主服務(wù)器監(jiān)控水平,不斷優(yōu)化子表服務(wù)器存儲操作系統(tǒng)。借助Bigtable,將有效提升分布式存儲系統(tǒng)的擴展性,實現(xiàn)對各個端口信息負(fù)載的均衡處理。并且還可以通過壓縮SSTable文件的方式提高資源最優(yōu)化配置與儲存水平,提升系統(tǒng)整體運行性能和效率。
總之,基于云計算技術(shù)對大數(shù)據(jù)分析流程進行優(yōu)化,需要立足實際,結(jié)合大數(shù)據(jù)分析整體處理程序的具體要求,總結(jié)基本的運行規(guī)律,并在數(shù)據(jù)存儲與訪問、并行處理、組織與管理方面進行不斷探索創(chuàng)新,結(jié)合用戶需求和未來發(fā)展需要,將海量的信息通過有效的系統(tǒng)來進行快速整合處理,才能有助于不斷提升大數(shù)據(jù)信息儲存與利用價值,更好地發(fā)揮數(shù)據(jù)資源應(yīng)有的功能。當(dāng)然在具體優(yōu)化設(shè)計過程中還需要考慮運行環(huán)境、現(xiàn)實需要以及資金、技術(shù)等各方面的因素,加強對操作人員的培訓(xùn),不斷學(xué)習(xí)和引進新技術(shù)、新方法,才能更好地實現(xiàn)理念和技術(shù)的有效融合,全面提升云計算與大數(shù)據(jù)技術(shù)的有效融合水平,提高數(shù)據(jù)深度高效處理與利用價值。
參考文獻:
[1] 陳清金,張巖,陳存香.云計算環(huán)境下的大數(shù)據(jù)分析[J].郵電設(shè)計技術(shù),2015(5).
[2] 趙明哲.基于云計算的大數(shù)據(jù)分析流程的優(yōu)化路徑[J].中國新通信,2018(11).
[3] 宋杰,郭朝鵬,王智,等.Jean-MarcPIERSON.大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J].軟件學(xué)報,2014(4).
[4] 孫仕亮,陳俊宇.大數(shù)據(jù)分析的硬件與系統(tǒng)支持綜述[J].小型微型計算機系統(tǒng),2017(1).
[5] 王偉鈞.基于云計算的大數(shù)據(jù)分析流程的優(yōu)化路徑[J].電子技術(shù)與軟件工程,2017(11).
[6] 成靜靜,喻朝新.基于云計算的大數(shù)據(jù)統(tǒng)一分析平臺研究與設(shè)計[J].廣東通信技術(shù),2013(1).
【通聯(lián)編輯:唐一東】