張仁美
摘要
伴隨著現(xiàn)代化信息技術的發(fā)展,特別是互聯(lián)網(wǎng)的應用與普及,人們越來越多的采用互聯(lián)網(wǎng)技術進行工作、學習與生活活動,由此產(chǎn)生了大量的數(shù)據(jù)。如果能夠對這些數(shù)據(jù)進行整理和分析,就能夠得到許多有用的信息,這些信息將極大的促進社會生產(chǎn)的發(fā)展,因此,如何對互聯(lián)網(wǎng)中海量數(shù)據(jù)進行處理,并提取出有效信息,成為人們關注的重點。本文從Hadoop技術的使用必要性出發(fā),對Hadoop技術的應用進行研究。
【關鍵詞】數(shù)據(jù)處理 Hadoop平臺 應用
Hadoop技術時一種當前非常流行的數(shù)據(jù)處理技術,Hadoop技術可以對Web日志中的海量數(shù)據(jù)進行統(tǒng)計并處理,從而得到有效的數(shù)據(jù)處理信息。Web日志中包含著計算機使用用戶的大量數(shù)據(jù)信息,例如用戶的瀏覽喜好、訪問地點、訪問時間等,這些數(shù)據(jù)數(shù)量龐大,十分復雜,傳統(tǒng)的計算機數(shù)據(jù)處理技術對Web日志數(shù)據(jù)的處理能力較差,難以滿足現(xiàn)代社會對于數(shù)據(jù)處理的需求,Hadoop數(shù)據(jù)處理技術就是在這樣的背景下被發(fā)明出來并逐步普及。
1現(xiàn)代數(shù)據(jù)處理使用Hadoop數(shù)據(jù)處理技術的重要性分析
現(xiàn)代人對于互聯(lián)網(wǎng)的依賴越來越重,人們可以通過互聯(lián)網(wǎng)工作、學習、社交、娛樂、購物活動,這些活動都是建立在互聯(lián)網(wǎng)云計算技術的基礎上進行的,這些活動通過對Web進行訪問來實現(xiàn),而數(shù)據(jù)就是在對Web訪問的過程中產(chǎn)生的。舉一個生動的例子,以新浪微博網(wǎng)頁為例,公眾人物的“微博”訪問量過億,轉發(fā)和評論量過千萬已經(jīng)是非常常見的現(xiàn)象,由此產(chǎn)生的數(shù)據(jù)的數(shù)量之巨大可想而知。人們在訪問Web時留下的數(shù)據(jù)沒有規(guī)律可言,這些數(shù)據(jù)都是訪問用戶的個人生活數(shù)字化軌跡,與他人的重合率很小。Web訪問數(shù)據(jù)的數(shù)量過多,規(guī)律性較差的特點決定了對Web訪問數(shù)據(jù)處理的難度極高,但Web訪問數(shù)據(jù)中包含著大量的信息,如果可以對這些信息進行提取,從小的方面來說可以掌握Web訪問者的個人偏好和需求,從大的方面來說可以預估世界經(jīng)濟與政治動向。因此,如果能對這些數(shù)據(jù)進行有效處理,將會獲得巨大的信息價值。Hadoop技術就是在對數(shù)據(jù)處理要求越來越高的背景下誕生并投入使用的,Hadoop技術利用分布式方法對海量數(shù)據(jù)進行處理,從而實現(xiàn)對海量數(shù)據(jù)的快速分析。例如,從一個500M的數(shù)據(jù)庫中尋找到一個特定的內容,我們可以利用Linux命令grep,也可以對文件編程,通過正則匹配來得到我們想要的結果,但如果數(shù)據(jù)庫容量為100T,再利用以上兩種方法就行不通了,這時就需要用到Hadoop技術。Hadoop技術通過將Linux的鏈接pe組成分布式結點,然后再通過mapreduce規(guī)則定義接口方法,Hadoop就會自動的把信息分布到結點上,從而得到我們想要的結果。因此,Hadoop技術對于現(xiàn)代海量數(shù)據(jù)處理具有極高的重要性。
2Hadoop數(shù)據(jù)服務平臺中心的關鍵技術和應用
2.1技術要點
(1)當前數(shù)據(jù)服務平臺還需要不斷加強分布式層次化體系結構向外擴展的能力,一般大數(shù)據(jù)服務平臺系統(tǒng)都具有不同類別的分布形式并且可以不斷擴大整個體系結構所包含的范圍,這是大數(shù)據(jù)服務平臺在面對不同的儲存環(huán)境時有效的儲存管理辦法,以此來提高整個數(shù)據(jù)服務平臺的穩(wěn)定性并且有效的擴大平臺數(shù)據(jù)的容量。建設數(shù)據(jù)服務中心過程中一定要具有統(tǒng)一、適用性強的數(shù)據(jù)模型,確保數(shù)據(jù)模型能夠將各種類型結構的數(shù)據(jù)的基本特征明確的表達出來。需要簡化操作步驟,以便被大范圍的投入使用。由于目前大數(shù)據(jù)被廣泛的應用到不同的科學技術領域,需要對數(shù)據(jù)的儲存模式進行不同類別的配置。
(2)增加數(shù)據(jù)平臺的語言查詢能力,加大整個關系數(shù)據(jù)庫的集成速度。當前應用于數(shù)據(jù)服務平臺的查詢語言應主要通過系統(tǒng)的組織能力對非結構化語言進行統(tǒng)一的組織和管理。查詢過程中系統(tǒng)自動提取和整合整個平臺的非結構化數(shù)據(jù),確保整個查詢過程的高效性。大數(shù)據(jù)服務中心內部應配置相應的并行數(shù)據(jù)分析挖掘算法,在服務平臺內部設置相應數(shù)量的管理工具,對每個數(shù)據(jù)的真實含義進行充分的分析和挖掘,為廣大用戶提供準確性高的數(shù)據(jù)信息。將服務平臺的應用領域進行不斷的拓展,讓非結構數(shù)據(jù)具有開發(fā)式的結構框架,以適用于廣大用戶不同類型的數(shù)據(jù)檢索方法,改變數(shù)據(jù)平時的集成和融合方式,增加檢索數(shù)據(jù)整體的匹配性,努力打造一個開放統(tǒng)一的數(shù)據(jù)服務平臺,不斷拓展非結構化數(shù)據(jù)管理系統(tǒng)的應用范圍。數(shù)據(jù)服務平臺需要提供不同類別的系統(tǒng)接口,以便于用戶可以在不同的系統(tǒng)上使用數(shù)據(jù)服務平臺。
2.2主要應用
目前數(shù)據(jù)服務平臺多被應用到制作泛化表模型,可以將各種復雜的數(shù)據(jù)清晰的表示出來,并且能夠支持多種模式同時使用。能夠同時對大量的數(shù)據(jù)進行分析和計算,極大程度上提高了計算機處理大數(shù)據(jù)的綜合能力。Hadoop平臺的數(shù)據(jù)服務中心可根據(jù)系統(tǒng)儲存的需要進行擴大或縮小的自我調節(jié)。這也直接決定了數(shù)據(jù)的存放模式,可以將不同的數(shù)據(jù)進行分類存放,并且存放數(shù)據(jù)的位置并不是一成不變的,會不斷隨著系統(tǒng)負載的變化而不斷改變存放位置。利用Hadoop數(shù)據(jù)服務平臺所形成的泛化表結構是一個可進行調整的分層儲存結構,建立時以無模式對集合為主要基礎,讓不同結構層次的儲存空間相互聯(lián)系。一般上層儲存結構主要用于限定數(shù)據(jù)的基本邏輯結構,而下層的儲存結構主要規(guī)定了數(shù)據(jù)在物理上的組織方式,并且該儲存模式可以根據(jù)上層儲存數(shù)據(jù)的不同種類來配置與之相對應的下層結構。可以使用主從模式下的分布索引功能,以提高整個數(shù)據(jù)服務平臺的檢索效率,具有強大的語言查詢處理功能,支持大多數(shù)的語言查詢處理方式。
3總結
Hadoop技術可以對海量數(shù)據(jù)進行快速分析,從而高效的篩選出使用者想要獲取的數(shù)據(jù)信息,因此在現(xiàn)代大數(shù)據(jù)分析工作中被廣泛的應用;如果沒有Hadoop技術,網(wǎng)絡電商就無法為用戶推送個性化定制的商品推薦,社交網(wǎng)站也無法為用戶推送他們所感興趣的內容:因此,Hadoop技術對于海量數(shù)據(jù)處理的意義極高,我國的計算機專業(yè)研究人員應當進一步的對Hadoop技術進行提升與補充,從而進一步提升我國數(shù)據(jù)處理工作的效率與質量。
參考文獻
[1]張永芳,基于Hadoop平臺的并行數(shù)據(jù)挖掘算法研究[D].安徽理工大學,2016.
[2]羅樹蘭.基于Hadoop數(shù)據(jù)處理研究及應用[D].云南大學,2016.
[3]姜鋒,基于Hadoop平臺的海量數(shù)據(jù)處理研究及應用[D].北京郵電大學,2013.