陳書光
摘要:在大數(shù)據(jù)時代到來的今天,對數(shù)據(jù)庫處理技術進行研究顯得尤為必要。基于此點,該文從結構化、高度共享、獨立性和統(tǒng)一管理四個方面,對大數(shù)據(jù)數(shù)據(jù)庫的特點進行分析,在此基礎上,論述了大數(shù)據(jù)數(shù)據(jù)庫的處理技術,期望通過該文的研究能夠對促進大數(shù)據(jù)處理水平的提升有所幫助。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)庫;特點;處理技術
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)11-0024-02
現(xiàn)如今,幾乎每一天都會有EB級,甚至ZB級的數(shù)據(jù)生成,由此標志著大數(shù)據(jù)時代正式開啟。隨著數(shù)據(jù)的不斷增多,對數(shù)據(jù)庫處理提出更高的要求,為進一步提升大數(shù)據(jù)的處理效果,有必要加大相關處理技術的研究力度,以此來滿足數(shù)據(jù)存儲與管理需要。借此,下面就大數(shù)據(jù)數(shù)據(jù)庫的特點及處理技術展開分析探討。
1 大數(shù)據(jù)數(shù)據(jù)庫的特點分析
隨著大數(shù)據(jù)時代的開啟,使得數(shù)據(jù)庫的應用變得越來越廣泛,其在提升數(shù)據(jù)資源的價值方面具有不可替代的作用。大體上可將數(shù)據(jù)庫的特點歸納為以下幾個方面。
1.1 數(shù)據(jù)結構化
數(shù)據(jù)庫通常都是以系統(tǒng)的形式存在,存儲在數(shù)據(jù)庫中的數(shù)據(jù)面向的對象不再是某個具體的應用程序,而是全組織,由此使得數(shù)據(jù)庫具有了整體結構化的特點。在這一前提下,從數(shù)據(jù)庫中對相關數(shù)據(jù)進行存取變得更加靈活,不但可以存取數(shù)據(jù)庫中單個的數(shù)據(jù)項和整組數(shù)據(jù)項,也可以存取某一個記錄或是整組記錄。
1.2 數(shù)據(jù)高度共享
數(shù)據(jù)庫是各種類型數(shù)據(jù)的承載體,其能夠對數(shù)據(jù)進行存儲和管理。從數(shù)據(jù)庫的角度上講,它將數(shù)據(jù)視作為一個整體,存儲在數(shù)據(jù)庫中的數(shù)據(jù)面向的是整個系統(tǒng),正因如此,使得數(shù)據(jù)庫中的數(shù)據(jù)能夠被多個用戶及不同的應用程序共享使用。在大數(shù)據(jù)的背景下,數(shù)據(jù)量不斷激增,這樣不可避免地會出現(xiàn)一些相同的數(shù)據(jù),數(shù)據(jù)庫只會對相同的數(shù)據(jù)存儲一次,減少了數(shù)據(jù)冗余。
1.3 數(shù)據(jù)獨立
存儲在數(shù)據(jù)庫中的數(shù)據(jù),完全獨立于應用程序,這種獨立性的特征,使得數(shù)據(jù)結構及存取方式的改變,不會對應用程序造成影響。通常情況下,可將數(shù)據(jù)的獨立性細分為邏輯和物理兩個方面,無論是邏輯結構發(fā)生變化,還是物理結構發(fā)生變化,應用程序在不進行任何修改的情況下,都能夠保持正常運行,由此充分體現(xiàn)出數(shù)據(jù)庫的獨立性特點。
2 大數(shù)據(jù)數(shù)據(jù)庫的處理技術
大數(shù)據(jù)數(shù)據(jù)庫的處理技術主要包括采集、預處理、存儲與管理、分析與挖掘等,下面分別對這些處理技術進行分析。
2.1 大數(shù)據(jù)采集技術
根據(jù)相關調查統(tǒng)計結果顯示,得到有效利用的信息比例約為0.6%,而其余99.4%均未獲得利用,導致這一問題的主要原因是高價值的信息獲取采集的難度較大。
2.1.1 采集對象
從海量的大數(shù)據(jù)當中,采集到有利用價值的信息是推動大數(shù)據(jù)發(fā)展的關鍵之所在,正因如此,使得數(shù)據(jù)采集成為大數(shù)據(jù)數(shù)據(jù)庫處理技術中不可或缺的一項技術。數(shù)據(jù)采集簡稱DAQ,從本質的角度上講,DAQ是一個自動完成信息采集的過程,采集對象包括傳感器裝置、各種被測設備等。
2.1.2 數(shù)據(jù)分類及來源
(1)在大數(shù)據(jù)的背景下,新一代的數(shù)據(jù)結構體系被提出,該體系對新數(shù)據(jù)源進行重新歸納和分類,具體分為兩大類,一類是線上行為數(shù)據(jù),另一類是內容數(shù)據(jù),前者包括頁面數(shù)據(jù)、會話數(shù)據(jù)、交互數(shù)據(jù)以及表單數(shù)據(jù)等;后者包括日志、電子文檔、語音以媒體數(shù)據(jù)等。
(2)大體上可以將大數(shù)據(jù)的來源歸納為以下幾個方面:互聯(lián)網(wǎng)數(shù)據(jù)、傳感器數(shù)據(jù)、商業(yè)數(shù)據(jù)等,在這些數(shù)據(jù)來源的支撐下,使得大數(shù)據(jù)采集技術具備了數(shù)據(jù)量大、數(shù)據(jù)類型豐富、分布式數(shù)據(jù)庫等特點,并且還開發(fā)出一些全新的采集方法,如系統(tǒng)日志采集方法、網(wǎng)絡數(shù)據(jù)采集方法等。
2.2 大數(shù)據(jù)預處理技術
來源于現(xiàn)實世界中的數(shù)據(jù)具有不完整的特征,并且數(shù)據(jù)格式也不一致,所以很難對這些數(shù)據(jù)進行直接挖掘,即便能夠進行挖掘,最終的效果也并不理想。為給數(shù)據(jù)挖掘提供有利條件,便需要對數(shù)據(jù)進行預處理,數(shù)據(jù)預處理技術隨之產生。
2.2.1 預處理的目的
可用于數(shù)據(jù)預處理的方法相對較多,如數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成等。通過這些方法對數(shù)據(jù)進行處理后,不但能夠減少數(shù)據(jù)挖掘所需的時間,而且還能提高數(shù)據(jù)挖掘質量。
2.2.2 處理過程
對于數(shù)據(jù)庫而言,其需要對高質量的數(shù)據(jù)進行集成,如果數(shù)據(jù)質量不高,將會影響到集成效果,同時,原始數(shù)據(jù)當中都或多或少地存在一些問題,所以需要對數(shù)據(jù)進行預處理。通常情況下,數(shù)據(jù)預處理在數(shù)據(jù)挖掘過程中的時間占比約為60%左右。通過數(shù)據(jù)清洗能夠有效去除掉數(shù)據(jù)中所含的噪聲及無關信息;數(shù)據(jù)變換可以將原始數(shù)據(jù)轉換為適宜數(shù)據(jù)挖掘的形式;數(shù)據(jù)集成能夠將數(shù)據(jù)源中數(shù)據(jù)整合到一起后存儲于數(shù)據(jù)庫中。經上述流程處理后的數(shù)據(jù),可供數(shù)據(jù)挖掘使用。
2.3 大數(shù)據(jù)存儲與管理技術
隨著大數(shù)據(jù)時代的正式開始,各類數(shù)據(jù)呈現(xiàn)出激增的態(tài)勢,在對海量數(shù)據(jù)進行整理的過程中,需要使用到大數(shù)據(jù)存儲與管理技術。
2.3.1 數(shù)據(jù)存儲規(guī)模
數(shù)據(jù)量大是大數(shù)據(jù)最為突出的一個特點,起始計算量一般為PB級,有的甚至達到EB級,或是更高的ZB級,由此使得數(shù)據(jù)存儲規(guī)模呈現(xiàn)出大型化的趨勢。不僅如此,大數(shù)據(jù)的種類和來源具有多樣化的特點,這在一定程度上增大了數(shù)據(jù)存儲與管理的復雜程度。從目前的情況來看,大數(shù)據(jù)主要來自各種搜索引擎、電子商務、社交網(wǎng)絡、音視頻以及在線服務等領域,不同的領域數(shù)據(jù)形式有所差別,所以,在大數(shù)據(jù)時代,必須找到一種行之有效的方法,對海量數(shù)據(jù)的存儲問題進行解決。
2.3.2 存儲與管理方法
與國外的發(fā)達國家相比,我國在數(shù)據(jù)庫、云計算等技術方面明顯落后,傳統(tǒng)的數(shù)據(jù)庫很難滿足海量數(shù)據(jù)存儲的需要,提升數(shù)據(jù)存儲能力成為當務之急。大數(shù)據(jù)存儲與管理技術的提出,給這一問題的解決提供了途徑,大數(shù)據(jù)存儲與管理的有效形式包括數(shù)據(jù)加密、數(shù)據(jù)倉庫、云端存儲。
(1)私有數(shù)據(jù)在特定范圍的安全性非常高,但隨著網(wǎng)絡的普及,使得經由網(wǎng)絡發(fā)起的攻擊越來越多,私有數(shù)據(jù)的安全性受到威脅。通過數(shù)據(jù)加密技術的合理運用,能夠對來自網(wǎng)絡的惡意攻擊起到有效的防范,由此使得加密技術成為數(shù)據(jù)庫安全的重要保障。經過加密之后的數(shù)據(jù),無論傳輸還是存儲都要比未經加密的數(shù)據(jù)更為安全。
(2)大數(shù)據(jù)由于數(shù)據(jù)量過大,從而增大了管理難度,對數(shù)據(jù)進行精簡,則可降低管理難度,精簡的過程可以借助數(shù)據(jù)倉庫來實現(xiàn)。
2.4 大數(shù)據(jù)分析與挖掘技術
2.4.1 挖掘對象
數(shù)據(jù)挖掘簡稱DM,它既是一項技術,也是一個處理過程,是從原始數(shù)據(jù)中對隱含的、不為人知的、具有利用價值的信息進行提取的過程??捎糜跀?shù)據(jù)挖掘的對象相對較多,如數(shù)據(jù)倉庫、關系數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質數(shù)據(jù)庫以及互聯(lián)網(wǎng)等等。
2.4.2 挖掘流程
數(shù)據(jù)挖掘是一個較為復雜的過程,具體的挖掘流程如下:對當前的業(yè)務問題進行清晰定義,據(jù)此對挖掘目的進行確定;對數(shù)據(jù)進行準備,包括數(shù)據(jù)選取、提取目標數(shù)據(jù)集、數(shù)據(jù)預處理;按照數(shù)據(jù)的特點,對相應的算法進行選擇,并利用該算法,對處理好的數(shù)據(jù)集進行挖掘;評價挖掘結果,并將之轉換為可被用戶理解的內容。
2.4.3 挖掘方法
數(shù)據(jù)挖掘技術可以分為兩大類,一類是直接挖掘,另一類是間接挖掘,前者是以可用的數(shù)據(jù)為依托構建模型,通過該模型對剩余的數(shù)據(jù)進行描述;后者是用模型描述變量,并在變量中建立某種特定的關系??捎糜跀?shù)據(jù)挖掘的方法較多,其中較具代表性的有神經網(wǎng)絡、遺傳算法、決策樹、統(tǒng)計分析、模糊集等。
2.4.4 發(fā)展方向
數(shù)據(jù)挖掘作為大數(shù)據(jù)數(shù)據(jù)庫處理技術的核心,應當不斷進行技術突破,只有這樣,才能滿足大數(shù)據(jù)持續(xù)發(fā)展的需要。具體的突破方向如下:
(1)數(shù)據(jù)挖掘算法。這是大數(shù)據(jù)分析的基礎,不同的算法可用于不同的數(shù)據(jù)類型,進而深入到數(shù)據(jù)內部,挖掘出有利用價值的數(shù)據(jù)。因此,為某項特定的任務選取最為適宜的算法非常重要;
(2)預測性分析。這是大數(shù)據(jù)最為重要的一個應用領域,需要結合多種高級分析功能來完成,如預測建模、文本分析、實體分析、機器學習、優(yōu)化等。通過對數(shù)據(jù)的特點進行預測分析,能夠進一步了解當前的狀態(tài),為下一步行動方案的確定提供依據(jù)。
2.5 大數(shù)據(jù)檢索技術
2.5.1 主要模塊
1)集群主服務器(HMaster)。該服務器能夠對HBase(開源數(shù)據(jù)庫)中所有的元數(shù)據(jù)接口進行管理,并對集群中負責響應用戶請求的實例進行監(jiān)控。由于HBase架構當中能夠同時存在若干個的集群主服務器,依托相關機制,可以使集群主服務器中有一個處于平穩(wěn)的運行狀態(tài)。集群主服務器可以管理不同的負載,通過這種方法能夠對Region分區(qū)進行調整,從而使分區(qū)的負載始終保持均衡。
2)協(xié)同服務組件(ZooKeeper)。在HBase架構中,協(xié)同服務組件ZooKeeper的主要作用是對數(shù)據(jù)調度進行協(xié)調,由此能夠使集群中數(shù)據(jù)并發(fā)訪問的問題得到有效解決。ZooKeeper在對區(qū)域服務器進行注冊的過程中,可以采用Ephedral方法,這樣便于對區(qū)域服務器的運行進行實時監(jiān)測,從而及時發(fā)現(xiàn)區(qū)域服務器中出現(xiàn)的問題,并對問題進行快速反饋,防止單點問題的發(fā)生。
2.5.2 檢索方法
在將相關的數(shù)據(jù)寫入到HBase架構當中時,客戶端需要先訪問協(xié)同服務組件,并從其中對元數(shù)據(jù)表的位置信息進行獲取,隨后客戶端對元數(shù)據(jù)分區(qū)所在的區(qū)域服務器發(fā)起訪問,對表中的數(shù)據(jù)進行讀取,依托這部分數(shù)據(jù),客戶端能夠找到要寫入表的對應分區(qū),及其所在的區(qū)域服務器位置,進而發(fā)出寫入請求。當區(qū)域服務器接到客戶端發(fā)出寫入請求后,會對該請求做出快速響應,先將數(shù)據(jù)寫入到HLog中,再寫入緩存區(qū),當數(shù)據(jù)成功寫入后,操作完成。用戶提出數(shù)據(jù)檢索請求后,客戶端會訪問協(xié)同服務組件,找到需要檢索的信息后,會進行讀取,未找到會繼續(xù)進行掃描,直至找到為止,由區(qū)域服務器將檢索到的數(shù)據(jù)返回客戶端,完成數(shù)據(jù)檢索。
3 結論
綜上所述,在大數(shù)據(jù)時代到來的今天,各類數(shù)據(jù)呈現(xiàn)出大幅度激增的態(tài)勢,這對數(shù)據(jù)存儲與管理提出全新的挑戰(zhàn)。數(shù)據(jù)庫在數(shù)據(jù)管理和存儲中具有不可替代的作用,為使數(shù)據(jù)庫的作用得到最大限度的發(fā)揮,除要了解數(shù)據(jù)庫的特點之外,還要對相關的處理技術進行研究,以此來滿足不斷增長的數(shù)據(jù)處理需要,這對于促進大數(shù)據(jù)的持續(xù)發(fā)展具有重要的現(xiàn)實意義。
參考文獻:
[1] 蘇華友,梅松竹,李榮春,等.數(shù)據(jù)流技術在GPU和大數(shù)據(jù)處理中的應用[J].大數(shù)據(jù),2020,6(3):117-128.
[2] 熊志強,張嫻靜.基于大數(shù)據(jù)背景下的計算機信息處理技術研究[J].北京印刷學院學報,2020,28(1):142-144.
[3] 王現(xiàn)君.計算機數(shù)據(jù)處理中云計算技術的應用及發(fā)展方案研究[J].通信電源技術,2020,37(1):205-206.
[4] 段玉風.大數(shù)據(jù)環(huán)境下分布式數(shù)據(jù)抓取策略的研究與應用[J].網(wǎng)絡安全技術與應用,2019(12):75-76.
[5] 余利峰.面向分布式空間數(shù)據(jù)庫的矢量數(shù)據(jù)存儲與查詢處理關鍵技術研究[D].杭州:浙江大學,2018.
【通聯(lián)編輯:代影】