唐永軍
摘? ?要:計算機技術在近年來發(fā)展十分迅速,各種大數(shù)據(jù)、物聯(lián)網(wǎng)也在不斷生長。大數(shù)據(jù)的出現(xiàn),能夠對大量的數(shù)據(jù)進行存儲,并對大量的數(shù)據(jù)進行處理。傳統(tǒng)模式下出現(xiàn)的數(shù)據(jù)庫根本滿足不了當下大數(shù)據(jù)的應用,在大數(shù)據(jù)的支持下,分布式數(shù)據(jù)庫也得到較大化發(fā)展。但是,實際中對大數(shù)據(jù)展開應用的時候存在一些難題。因此,設計一款分布式大數(shù)據(jù)管理系統(tǒng)十分必要,這可以給大數(shù)據(jù)的采集提供無限可能,還能夠增強數(shù)據(jù)的處理能力。
關鍵詞:分布式? 大數(shù)據(jù)? 管理系統(tǒng)
中圖分類號:TP311.13? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)11(c)-0152-02
利用大數(shù)據(jù)對數(shù)據(jù)進行檢索的時候,需要重點解決效率方面的問題,對分布式大數(shù)據(jù)管理系統(tǒng)加大設計,讓其成為新的系統(tǒng),讓大數(shù)據(jù)能夠具有較高的檢索效率,讓其能夠對海量的日志實施相應的檢索,并分析大量的數(shù)據(jù),讓大數(shù)據(jù)能夠具備實時處理方面的功能。
1? 大數(shù)據(jù)和云計算之間的關系
大數(shù)據(jù)技術不單單代表的是海量的數(shù)據(jù)信息,還需要對這些數(shù)據(jù)信息做好相應的處理。如果大數(shù)據(jù)是一種領域,對數(shù)據(jù)實施處理的能力就能夠展開這個區(qū)域具體的盈利關鍵,通過加工讓數(shù)據(jù)產(chǎn)生相應的價值。對大數(shù)據(jù)進行處理的時候,單臺的計算機根本發(fā)揮不出具體的作用,需要使用分布式的架構[1]。但是,這種架構具有一種強大的功能,就是可以對大量的數(shù)據(jù)展開分布式的挖掘,但是必須依托云計算的分布式數(shù)據(jù)庫展開存儲技術。云時代的發(fā)展,讓人們對大數(shù)據(jù)有了過多的關注。對大數(shù)據(jù)展開分析的時候需要將其和云計算有機地聯(lián)系在一起。對大數(shù)據(jù)展開分析的過程中,更需要使用相應的框架對整個電腦的工作展開支配,這樣花費的時間會更加多也會花費更多的金錢。
2? 分布式大數(shù)據(jù)管理系統(tǒng)結構組成
系統(tǒng)在運行的過程中,中央控制集群會發(fā)揮出相應的控制信號,從而接收到關于用戶的檢索請求,檢索工作的開展需要建立在用戶的需求之上。對系統(tǒng)的所有狀態(tài)展開實時的監(jiān)控,將系統(tǒng)中存在的異常及時的處理。將特定的集群方面的任務取消,優(yōu)化整個網(wǎng)絡中存在的連接資源,讓整個系統(tǒng)可以安全的運行,從而具有一定的穩(wěn)定性。
對于整個系統(tǒng)來說,入口就是大數(shù)據(jù)采集集群,大數(shù)據(jù)在實施采集的時候主要的過程是主要是執(zhí)行單元。需要在多臺機器上將數(shù)據(jù)采集功能開啟,從而收到較高的采集效率。具體的操作需要多臺機器的配合,打開緩存模式,在中央控制集群的輔助下緩存周期性的文件,保存永久的存儲集群[2]。
大數(shù)據(jù)檢索集群主要是用戶和系統(tǒng)交互的一個接口,可以通過自定義的命令發(fā)送中央控制集群的指示。中央控制集群更是需要利用大數(shù)據(jù)完成檢索,對系統(tǒng)的運行狀態(tài)實施相應的檢索,查詢具體的存儲集群。匯總結果,然后將結果反饋給數(shù)據(jù)檢索集群。利用視圖這樣的方式將最終的信息展現(xiàn)出來。
大數(shù)據(jù)永久存儲集群相當于一個倉庫,庫存量十分大,可以將數(shù)據(jù)永久的保留下來。將數(shù)據(jù)采集集群存在的周期特點有效發(fā)揮出來,做好數(shù)據(jù)的更新。采集好數(shù)據(jù)后并將其存儲,這樣可以讓提高工作效率。
其他的功能集群能夠打造編程的拓展窗口,這樣可以滿足更多的用戶需求,讓新的集群有更加強大的功能。
3? 分布式文件系統(tǒng)
3.1 分布式文件系統(tǒng)的組成架構
分布式文件系統(tǒng)可以對數(shù)據(jù)實施存儲,并管理系統(tǒng)的目錄和日志。同時,還需要完成通信工作,讓指令能夠順利的發(fā)出,對整個狀態(tài)能夠進行搜集,讓數(shù)據(jù)塊具有較高的完整性,對整個狀態(tài)做好相應的維護[3]。對數(shù)據(jù)塊做好創(chuàng)建,讓整個負載處于一個均衡的狀態(tài)。針對訪問要求的數(shù)據(jù)讓其能夠處于一個負載均衡的狀態(tài),并對其中存在的數(shù)據(jù)做好調整工作。在數(shù)據(jù)庫存較小的時候,需要對其中存在的一些文件進行復制,并將日志記錄全部刪除,對隱藏的文件進行回收,檢測陳舊的數(shù)據(jù),刪除不重要的信息。這樣存在的數(shù)據(jù)就會更加清晰,分類也會更加明確。
3.2 設計思路
對文件做好相應的劃分,存儲的過程中更是需要將其劃分成若干塊。每個文件塊的大小相對來說都是比較固定的,配置的時候可以十分隨意。為了讓系統(tǒng)具有較高的可靠性,可以采用冗余的方式,每個數(shù)據(jù)塊上面存在的服務器十分多,至少會有三臺以上的服務器,這樣可以讓系統(tǒng)具有較高的可靠性。對數(shù)據(jù)的訪問環(huán)節(jié)實施相應的調整和協(xié)調,需要讓數(shù)據(jù)具有良好的統(tǒng)一性。設置的過程中不可過于集中的設置,文件操作中大部分會是流式讀寫的方法,不能多次重復的讀寫,利用Data Node完成數(shù)據(jù)存儲的過程中,通過本地文件展開存儲。
4? 分布式大數(shù)據(jù)管理系統(tǒng)的算法分析
4.1 分布式大數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)結構
分布式大數(shù)據(jù)管理系統(tǒng)對數(shù)據(jù)進行存儲的時候,主要采取的方式是列的方式。所有字段必須遵循相應的順序進行排列,按照不同的類型來保存,如果系統(tǒng)容量過于大的時候,需要利用存儲單元來保存文件,這個文件也就是所說的數(shù)據(jù)塊。利用數(shù)據(jù)塊能夠對數(shù)據(jù)進行采集和檢索,對數(shù)據(jù)做好相應的存儲。系統(tǒng)在實施分類整理的時候通常采取的是分塊方式,利用中央控制集群將數(shù)據(jù)塊存儲起來,可以利用較短的時間完成數(shù)據(jù)的查詢工作。
4.2 分布式大數(shù)據(jù)管理系統(tǒng)的核心算法
4.2.1 系統(tǒng)數(shù)據(jù)查詢算法
系統(tǒng)數(shù)據(jù)查詢算法的流程通過圖1可以表現(xiàn)出來,主要分為5個步驟。第一,用戶完成對檢索工作的請求進行提交,然后由數(shù)據(jù)檢索集群接收檢索請求。第二,通過中央控制集群接收數(shù)據(jù)檢索集群中的信息。然后,針對用戶提出的信息迅速完成定位。第三,利用中央控制集群通過索引然后完成目標的查找工作。一旦檢測到索引方面存在的信息就不需要向查詢命令進行發(fā)送。第四,數(shù)據(jù)永久存儲集群進行查詢的時候需要遵循相應的條件,根據(jù)相關需求,對結構進行反饋[5]。在沒有找到的情況下,可以利用廣播完成查找,直到找到結果的出現(xiàn),對查詢結果完成反饋的時候需要對中央控制集群加大應用。
4.2.2 塊索引查詢算法
中央控制集群將用戶的請求接收之后就需要對數(shù)據(jù)做好剖析,優(yōu)化查詢的具體條件,對數(shù)據(jù)實施相應的優(yōu)化之后再對目標展開檢索,對整個算法流程實施相應的查詢。
對查詢條件實施相應的解析,然后讓模塊能夠重新組合在一起。如果分類信息中存在塊索引分類信息,就可以在緩存中將塊索引找出來,將查詢出來的信息發(fā)送給數(shù)據(jù)永久存儲集群,然后繼續(xù)等候,確保目標數(shù)據(jù)順利歸來[6]。當信息中不存在塊索引信息的時候,就需要利用常規(guī)模式對條件做好查詢,利用編程完成的接口給數(shù)據(jù)提供更多的查詢條件。對塊索引查詢算法進行引用,不斷提升查詢效率。
5? 結語
對實驗結果進行分析,對數(shù)據(jù)進行檢索的時候采用分布式數(shù)據(jù)管理系統(tǒng),會充分展現(xiàn)出利用該系統(tǒng)的優(yōu)勢。選擇合適的時間段,并選擇合理的檢索條件,就會大大提升檢索效率,這樣可以對海量的數(shù)據(jù)做好相應的處理。
參考文獻
[1] 王偉,廖正宇,張輝,等.基于大數(shù)據(jù)的鐵路信號系統(tǒng)數(shù)據(jù)存儲與分析系統(tǒng)設計與實現(xiàn)[J].信息網(wǎng)絡安全,2017(1):29-37.
[2] 孫小滿,劉春.基于大數(shù)據(jù)的分布式網(wǎng)絡安全管理平臺設計與研究[J].信息與電腦:理論版,2017(19):128-130.
[3] 佚名.基于Spark的分布式大數(shù)據(jù)分析算法研究[J].計算機應用與軟件,2019(1):39-44.
[4] 佚名.基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術在檔案管理系統(tǒng)中的研究應用[J].激光雜志,2017(2):142-145.
[5] 佚名.分布式大數(shù)據(jù)下多條件快速檢索的設計與實現(xiàn)[J].科學技術創(chuàng)新,2018(28):77-78.
[6] 王艷.淺談交通管理大數(shù)據(jù)分布式管理應用平臺的架構設計方案[J].科技與創(chuàng)新,2017(23):76-77.