何春
摘要:隨著計算機在大數(shù)據(jù)分析與處理的應(yīng)用逐漸深入,給人們的生活帶來諸多的進步,需要充分發(fā)揮計算機在大數(shù)據(jù)應(yīng)用中的重要作用。本文主要探討計算機大數(shù)據(jù)應(yīng)用的技術(shù)性理論,并且重點闡述了Hadoop架構(gòu)以及Storm兩種架構(gòu)技術(shù)方法,希望給相關(guān)研究人員以借鑒和參考。
關(guān)鍵詞:計算機;大數(shù)據(jù);技術(shù)應(yīng)用
1 前言
隨著信息時代的到來,人們處理的信息以爆炸式的方式增長,這就催生了大數(shù)據(jù)技術(shù)的進步與發(fā)展。利用計算機進行大數(shù)據(jù)應(yīng)用主要包括四個主要的部分,分別是大數(shù)據(jù)的采集、存儲、處理以及呈現(xiàn),計算機大數(shù)據(jù)的應(yīng)用主要包括大數(shù)據(jù)的采集預(yù)處理,存儲管理以及分析和挖掘,最終進行展現(xiàn)。利用計算機進行大數(shù)據(jù)分析,供人們決策與參考,因此闡述計算機大數(shù)據(jù)應(yīng)用技術(shù)理論有著非常重要的現(xiàn)實意義。
2 計算機大數(shù)據(jù)應(yīng)用技術(shù)
2.1大數(shù)據(jù)的采集技術(shù)
在大數(shù)據(jù)進行采集,主要利用傳感器、視頻數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)以及移動客戶端數(shù)據(jù)進行搜集,這些海量數(shù)據(jù)具有結(jié)構(gòu)化以及半結(jié)構(gòu)化特征,是大數(shù)據(jù)進行運行的根本。需要重點突破分布式數(shù)據(jù)的爬取以及采集,以得到全映像的數(shù)據(jù)形式。應(yīng)用計算機進行大數(shù)據(jù)采集,要實現(xiàn)對于智能化以及辦智能化數(shù)據(jù)的識別,跟蹤傳輸以及初步的處理,對大數(shù)據(jù)數(shù)據(jù)源要智能進行識別,并且提供虛擬的服務(wù)器,與物聯(lián)網(wǎng)環(huán)境相互連接,借助于分布虛擬存儲技術(shù)以及可視化接口網(wǎng)絡(luò)傳輸以及壓縮技術(shù)進行重點處理。
2.2大數(shù)據(jù)的預(yù)處理技術(shù)
第一,大數(shù)據(jù)的抽取。由于所采集的大數(shù)據(jù)信息具有多種結(jié)構(gòu)類型,因此需要借助于數(shù)據(jù)抽取技術(shù),將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為便于處理的數(shù)據(jù)結(jié)構(gòu),方便后期進行快速處理。
第二,大數(shù)據(jù)的清洗。并不是所有的大數(shù)據(jù)都具有使用價值,一些數(shù)據(jù)對分析結(jié)果有干擾,因此可以利用計算機大數(shù)據(jù)去噪的方法,排除無效信息,提煉有價值信息。
2.3存儲與管理技術(shù)
需要對大數(shù)據(jù)進行有效的存儲,建立相應(yīng)數(shù)據(jù)庫,方便后期進行調(diào)用,主要解決大數(shù)據(jù)的存儲表示以及傳輸關(guān)鍵問題。借助于分布式文件系統(tǒng),開發(fā)能夠優(yōu)化存儲以及計算的大數(shù)據(jù)存儲技術(shù)。大數(shù)據(jù)數(shù)據(jù)庫主要分為關(guān)系型數(shù)據(jù)庫以及非關(guān)系數(shù)據(jù)庫,對數(shù)據(jù)庫的銷毀加密解密訪問控制數(shù)據(jù)識別重點進行突破。
2.4大數(shù)據(jù)的挖掘技術(shù)
借助于現(xiàn)有的數(shù)據(jù)挖掘以及機器學(xué)習(xí)方法對數(shù)據(jù)網(wǎng)絡(luò)進行挖掘,與現(xiàn)有的數(shù)據(jù)連接以及相似性進行興趣分析以及行為分析??梢圆捎镁垲愱P(guān)聯(lián)規(guī)則序列模型以及依賴模型來發(fā)現(xiàn)數(shù)據(jù)應(yīng)用的趨勢,需要實現(xiàn)大數(shù)據(jù)分析的可視化,借助于數(shù)據(jù)圖像,能夠讓數(shù)據(jù)自身表達背后的聯(lián)系,也能讓用戶自身感受到大數(shù)據(jù)分析的結(jié)果。借助于數(shù)據(jù)挖掘的算法,能夠讓各種孤立的數(shù)據(jù)連接起來,挖掘內(nèi)在的價值。大數(shù)據(jù)挖掘技術(shù)能夠?qū)?shù)據(jù)背后隱藏的價值充分展現(xiàn)出來,提高人們的生產(chǎn)和生活效率,主要集中于商業(yè)智能、政府決策以及公共服務(wù)中,在政策決策、商業(yè)智能電網(wǎng)數(shù)據(jù)分析、環(huán)境監(jiān)測、交通數(shù)據(jù)分析、多媒體數(shù)據(jù)等領(lǐng)域產(chǎn)生了重大的影響。
3 計算機大數(shù)據(jù)應(yīng)用處理技術(shù)
3.1批處理技術(shù)
Hadoop框架性平臺主要來自于MAP,技術(shù)處理符合相應(yīng)的鍵值,以滿足對MAP以及RDUCE等算法的要求。這一過程主要包括從框架中進行數(shù)據(jù)的讀取,然后將數(shù)據(jù)拆解為各種可以分配的節(jié)點,針對每一個節(jié)點數(shù)據(jù)子集進行計算,重新分配中間結(jié)果,并且按照鍵值進行分組,對每一個節(jié)點計算結(jié)果進行重組,將計算的結(jié)果重新寫入到SDFS中。MAP技術(shù)具有較強的縮放的潛力,通過集群能夠快速實現(xiàn)學(xué)習(xí)曲線。處理引擎能夠提供較為成熟的批處理模型,適合對于時間要求并不高的大數(shù)據(jù)處理,成本比較低,與其他處理形式相比,借助于Hadoop能夠使用較多的工作負載平臺作為基礎(chǔ)。
;Hadoop架構(gòu)的主要核心是SDFS,又被稱為分布式文件系統(tǒng),這種分布式計算架構(gòu)是整個系統(tǒng)運行的基礎(chǔ),在系統(tǒng)集群中,每一個主節(jié)點要擔(dān)任文件管理系統(tǒng)數(shù)據(jù)分發(fā)任務(wù),區(qū)域節(jié)點主要負責(zé)文件的具體保存和執(zhí)行。Hadoop架構(gòu)關(guān)鍵就要借助于大量計算機服務(wù)器,形成計算機服務(wù)機群,實現(xiàn)對大數(shù)據(jù)的快速處理。對于大數(shù)據(jù)進行處理過程中,先對數(shù)據(jù)進行分解,然后在分配以相應(yīng)的服務(wù)器進行處理,最后將數(shù)據(jù)處理的結(jié)果進行整合。通過Hadoop大數(shù)據(jù)架構(gòu)分析操作,系統(tǒng)初始化時間比較長,因此提升處理的速度是快速實現(xiàn)大數(shù)據(jù)分析處理的關(guān)鍵所在。Hadoop系統(tǒng)的初始化時間對于最終處理的結(jié)果準(zhǔn)確性具有較大的影響,因此整個平臺并不適用于處理小型數(shù)據(jù)。Hadoop架構(gòu)進行任務(wù)處理的過程中,所碰到的技術(shù)問題更加顯著,在平臺中將數(shù)據(jù)進行存儲處理時,過程比較緩慢,因此架構(gòu)在對于處理變化較快的大數(shù)據(jù)時,仍然存在較多的問題。
3.2 流處理技術(shù)
流處理系統(tǒng)能夠?qū)M入系統(tǒng)的數(shù)據(jù)進行隨時運算,相當(dāng)于前面的批處理系統(tǒng)無需對數(shù)據(jù)集進行整體操作,而是對每一個數(shù)據(jù)進行操作。在流處理中對于數(shù)據(jù)集的定義是沒有邊界的,數(shù)據(jù)集只是代表目前進入到系統(tǒng)的數(shù)據(jù)總量工作,即在特定時間只能代表某一單一數(shù)據(jù)對于工作的處理,如果沒有明確停止,將沒有盡頭。。流處理系統(tǒng)可以進行無限制數(shù)據(jù)的處理,功能更加方便,快捷化,主要側(cè)重于功能性操作,針對于同一個數(shù)據(jù)執(zhí)行,會產(chǎn)生相同的結(jié)果。流處理比較適合于一些類型工作負載,基于時間衡量指標(biāo)最為合適,能夠?qū)τ跁r間數(shù)據(jù)變化作出相應(yīng)的關(guān)鍵性處理與Hadoop架構(gòu)相似,Storm結(jié)構(gòu)也是以體系結(jié)構(gòu)作為分析數(shù)據(jù)的基礎(chǔ),通過兩種服務(wù)進程有效實現(xiàn)分布式計算,其中主進程在集群主節(jié)點中運行,他的任務(wù)是分派以及分發(fā)數(shù)據(jù)處理的任務(wù),從進程主要在從節(jié)點中進行,主要負責(zé)任務(wù)的具體執(zhí)行。借助于Storm框架,能夠利用編程模型以流線型方式對大數(shù)據(jù)信息進行處理。信息流是主要的數(shù)據(jù)處理形式,每一條信息流都會對應(yīng)數(shù)據(jù)的輸入封裝。結(jié)合不斷流入的信息流,以分布式的處理來完成大數(shù)據(jù)的分析架構(gòu),SPOUT是整個數(shù)據(jù)信息的生產(chǎn)者,在架構(gòu)中屬于輸入性源頭,借助于異構(gòu)數(shù)據(jù)獲得相應(yīng)的信息源,同時發(fā)射信息流,實現(xiàn)大數(shù)據(jù)的流線化處理,具有多節(jié)點處理的效能,呈現(xiàn)具體的使用邏輯。
這兩組大數(shù)據(jù)的處理結(jié)構(gòu)中,Storm具有較多的優(yōu)點,這種架構(gòu)在實際運行過程中,系統(tǒng)不用每一次開啟都進行初始化,因此對于大數(shù)據(jù)處理的效率更高,在特別是小數(shù)據(jù)處理中更加具有優(yōu)勢。Storm架構(gòu)能夠高效的滿足人們對于UI數(shù)據(jù)的處理要求,它內(nèi)部所具有的SPOUT組件能夠?qū)Σ煌畔⒘鬟M行讀取,并且將信息流傳輸至BOLT組件進行處理,內(nèi)部組件能夠?qū)Χ鄠€BOLT組件進行聯(lián)合處理,有效實現(xiàn)了業(yè)務(wù)數(shù)據(jù)流的難度分配,實現(xiàn)數(shù)據(jù)轉(zhuǎn)換的高速性。這是一種側(cè)重于線性分配的處理形式,框架也是接近于實務(wù)處理。Storm技術(shù)能夠處理海量數(shù)據(jù),通過拓普分析進行編排輸入數(shù)據(jù),對于每一個片段執(zhí)行不同的轉(zhuǎn)換率操作。
4 結(jié)束語
隨著現(xiàn)代計算機技術(shù)的發(fā)展,大數(shù)據(jù)處理以及分析更加朝向智能化以及便捷化方向發(fā)展,給我們的生活帶來了極大的便利,因此需要有效了解計算機大數(shù)據(jù)應(yīng)用的理論,不斷進行探索與分析,把握整體架構(gòu),不斷提高大數(shù)據(jù)處理分析技術(shù)。
參考文獻
[1]蘇娜,史宏.基于大數(shù)據(jù)時代的計算機信息處理技術(shù)[J].計算機產(chǎn)品與流通,2020(09):9.
[2]屈永斌.“大數(shù)據(jù)”時代背景下計算機信息處理技術(shù)的實踐思考[J].計算機產(chǎn)品與流通,2020(09):139.
[3]楊威.基于大數(shù)據(jù)的計算機信息處理技術(shù)分析[J].集成電路應(yīng)用,2020,37(08):62-63.