何春 電子科技大學成都學院
隨著互聯(lián)網(wǎng)的普及與發(fā)展,世界已進入到信息爆炸的時代,網(wǎng)絡技術(shù)、移動通信技術(shù)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展都產(chǎn)生了海量的數(shù)據(jù)信息。2020年世界范圍數(shù)據(jù)總量將會達到達到35億TB,意味著大數(shù)據(jù)時代的到來,必然會催生對應的大數(shù)據(jù)處理技術(shù)。
云計算技術(shù)主要借助于集中式計算機資源,通過按需分配的形式,為終端用戶提供廉價的計算機大數(shù)據(jù)處理方案。云計算技術(shù)是處理海量數(shù)據(jù)的一種關(guān)鍵技術(shù)形式。對于終端用戶來說,在數(shù)據(jù)資源上處于較為透明的狀態(tài),能夠為行業(yè)發(fā)展以及分析提供數(shù)據(jù)計算服務,在服務能力上,能夠?qū)崿F(xiàn)無限的延展性。
大數(shù)據(jù)采集是整個數(shù)據(jù)處理的基礎(chǔ)性環(huán)節(jié),隨著互聯(lián)網(wǎng)技術(shù)的應用與發(fā)展終端數(shù)據(jù)收集逐漸得到普及,使得數(shù)據(jù)收集以及存儲量成為天文數(shù)字,數(shù)據(jù)之間的連接關(guān)系變得極為復雜,但是對于大數(shù)據(jù)的收集要實現(xiàn)采集的高精度以及高速度,以此才能夠提升信息采集的效率。
對于大數(shù)據(jù)進行分析之前,首先要進行數(shù)據(jù)的處理及集成,主要是對數(shù)據(jù)集進行格式化,然后對數(shù)據(jù)進行去噪聲處理,處理完成后,進一步得到集成數(shù)據(jù)集合。如果數(shù)據(jù)采集標準不統(tǒng)一,將會得到不一致的數(shù)據(jù)結(jié)構(gòu),必然會影響后期數(shù)據(jù)分析的效率以及精確度。因此對于所采集的大數(shù)據(jù)信息必須要統(tǒng)一格式,盡可能去掉一些無效用的信息數(shù)據(jù)。
在數(shù)據(jù)完成前期的處理以及集成之后,需要對數(shù)據(jù)進行分析,分析數(shù)據(jù)主要是能夠挖掘其在背后所潛在的價值。大數(shù)據(jù)的分析主要借助于數(shù)據(jù)倉庫的采集以及數(shù)據(jù)挖掘工具的存儲,對于大數(shù)據(jù)進行分析與傳統(tǒng)的數(shù)據(jù)分析有著較為明顯的差異性,主要是能夠提供的服務更加多樣化以及深入化。所面臨的客戶主要為其提供解決方案,實現(xiàn)獨立性的大數(shù)據(jù)分析服務。
對于大數(shù)據(jù)的分析結(jié)果要進行解釋和闡述,是直接得出成果的必要步驟,對于傳統(tǒng)的數(shù)據(jù)分析顯示主要依靠于文本的形式,但是隨著大數(shù)據(jù)的發(fā)展,傳統(tǒng)的數(shù)字顯示技術(shù)已經(jīng)難以滿足其后期的發(fā)展要求,因此在數(shù)據(jù)進行分析過程中,要引入可視化的數(shù)據(jù)解釋方案,對于數(shù)據(jù)結(jié)果進行模擬分析,這樣才能夠給數(shù)據(jù)分析用戶形象具體闡釋分析的結(jié)果,作為其作出決策的重要參考。
在云計算環(huán)境下的大數(shù)據(jù)處理技術(shù)主要集中于大規(guī)模的廉價計算平臺,利用網(wǎng)絡虛擬化技術(shù)實現(xiàn)廉價計算平臺的有效建設??梢詫⒂嬎銠C的存儲應用以及網(wǎng)絡數(shù)據(jù)的計算等轉(zhuǎn)化為虛擬的實體,對于富余的計算資源進行抽取,使之能夠形成兩者之間相互獨立的虛擬服務器來完成大數(shù)據(jù)的處理以及分析,能夠?qū)崿F(xiàn)底層硬件的虛擬化,同時也能夠有效構(gòu)建能夠擴展的計算機資源池,實現(xiàn)集成管理與虛擬計算以及計算節(jié)點流程化,也能夠有效實現(xiàn)大數(shù)據(jù)資源處理的實時遷移以及轉(zhuǎn)換。同時完成系統(tǒng)監(jiān)控以及子任務的部署。
在互聯(lián)網(wǎng)環(huán)境下,借助于計算機處理大數(shù)據(jù)技術(shù)必然會牽扯到Hadoop平臺。這種平臺作為MAP算法的一種框架,借助于其分布式的框架結(jié)構(gòu),包含分布式文件系統(tǒng)以及分布式的數(shù)據(jù)庫系統(tǒng)。利用這些強大的功能模塊,已成為目前市場上較為流行的大數(shù)據(jù)處理的框架性平臺,在實踐中得到了極為廣泛的應用,基于Hadoop平臺技術(shù)能夠有效實現(xiàn)大數(shù)據(jù)的分布式程序管理,實現(xiàn)大規(guī)模計算機的集群集成工作,從目前Hadoop技術(shù)的應用來看,全球大多數(shù)it公司都將其作為云計算主要基礎(chǔ)性框架平臺。
在云環(huán)境下,基于計算機對大數(shù)據(jù)進行處理和分析,必須要使用服務較為廉價的集群式服務器,可以通過分布式或者是并行式的方式對數(shù)據(jù)進行處理,在MapReduce技術(shù)進行開發(fā)的過程中,需要對MapReduce接口進行定義,在對于大數(shù)據(jù)進行分析調(diào)取完畢之后,利用計算機集群服務器調(diào)用整個用戶程序,然后對大數(shù)據(jù)集合進行拆分,從而實現(xiàn)將大數(shù)據(jù)的碎片化形成多個數(shù)據(jù)片段,然后建立系列性的鍵值,利用MapReduce任務配備數(shù)據(jù)片段,在MapReduce技術(shù)的支持下,能夠有效實現(xiàn)集群的大規(guī)模節(jié)點分配,最終結(jié)合鍵值對分配任務進行計算,形成鍵值的集合。如果在整個數(shù)據(jù)信息中包含相同的鍵值,那么會出現(xiàn)二元組合。
當MapReduce出現(xiàn)任務時,都會向二元組合進行鍵值分配,輸入相應的大數(shù)據(jù)集合運算,并且運行該函數(shù),在大數(shù)據(jù)進行處理的過程中,每一環(huán)節(jié)都需要負載均衡,提高容錯率均衡,才能夠?qū)崿F(xiàn)對于大數(shù)據(jù)處理的實時監(jiān)控。在這一過程中對于節(jié)點分配要均勻,保證每一個節(jié)點均有任務執(zhí)行,但是如果對大數(shù)據(jù)處理失敗,就會重新進行數(shù)據(jù)的處理。整個處理過程要高度滿足MapReduce運行的需要,才能夠?qū)崿F(xiàn)海量數(shù)據(jù)處理的高效性。借助于云計算技術(shù)能夠?qū)崿F(xiàn)對于海量數(shù)據(jù)的高效率處理,在此背景下可以達到tb級別的數(shù)據(jù)處理速度,同時在平臺內(nèi)可以采用SDFS數(shù)據(jù)寬帶技術(shù),借助于大量廉價的計算機服務集群,能夠?qū)Υ髷?shù)據(jù)的節(jié)點進行有效的擴展,以實現(xiàn)數(shù)據(jù)處理的高效化。
對于大數(shù)據(jù)進行處理,需要借助于MapReduce算法進行有效的映射,對于大規(guī)模數(shù)據(jù)進行合理的劃分,如果出現(xiàn)紙模塊需要借助于紙模塊的參數(shù)進行控制。借助于框架平臺提供的分布式管理系統(tǒng),有效載入大數(shù)據(jù)實體信息,從而實現(xiàn)大數(shù)據(jù)的智能采集與接收,在數(shù)據(jù)處理的環(huán)節(jié),基礎(chǔ)于MapReduce技術(shù)實現(xiàn)數(shù)據(jù)的高效率轉(zhuǎn)移。在整個云計算框架背景下,實現(xiàn)對數(shù)據(jù)的分布式管理,在運行MapReduce算法的過程中提供API技術(shù)支持。
在云計算背景下對大數(shù)據(jù)進行處理,特別是在第二級結(jié)構(gòu)中,軟件系統(tǒng)更為重要,該系統(tǒng)基于第一級構(gòu)建虛擬的資源,在大規(guī)模服務及集群化得到了廣泛的應用,可以將數(shù)據(jù)的資源得到虛擬化回收,并且搭建均衡的負載,有效提高大數(shù)據(jù)處理的容錯機制。同時為相關(guān)配置提供技術(shù)性支持,借助于SAT平臺技術(shù)實現(xiàn)對大數(shù)據(jù)接口處理以及內(nèi)容的編寫,有效實現(xiàn)不同行業(yè)的數(shù)據(jù)信息服務實現(xiàn)良好的用戶數(shù)據(jù)平臺支持,通過分部任務來提供虛擬的計算機節(jié)點,向用戶提供重要的終端性支持。借助于平臺的框架性設計,實現(xiàn)HDFS分布系統(tǒng)文件以及MapReduce技術(shù)的應用,實現(xiàn)數(shù)據(jù)處理業(yè)務的協(xié)調(diào)。在大數(shù)據(jù)計算資源處理中,基于數(shù)據(jù)存儲的要求,對云計算以及計算機網(wǎng)絡技術(shù)要合理進行引入對于大規(guī)模計算集群,實現(xiàn)規(guī)?;约凹谢墓芾?,搭建高效率的計算平臺,建立大數(shù)據(jù)的分析框架模型。
本文主要探討在云環(huán)境下大數(shù)據(jù)計算機處理的技術(shù),對Hadoop技術(shù)以及MapReduce技術(shù)的詳細探討,闡述了計算機如何在云環(huán)境下高效率的進行大數(shù)據(jù)的分析計算以及數(shù)據(jù)挖掘,希望能夠給相關(guān)研究員以借鑒和參考,以提升大數(shù)據(jù)云計算處理技術(shù)的應用價值。