彭小珂 鄧運(yùn) 周子櫻
摘要 隨著我國(guó)步入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的儲(chǔ)存和管理成為了當(dāng)下熱議的問(wèn)題,分布式儲(chǔ)存技術(shù)的提出和使用取得了良好的效果?;诖耍疚南冗M(jìn)行了分布式存儲(chǔ)技術(shù)理論分析,然后研究了分布式存儲(chǔ)技術(shù)在大數(shù)據(jù)時(shí)代中的應(yīng)用,以期能夠加強(qiáng)大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理,提高數(shù)據(jù)的安全性和利用率。
【關(guān)鍵詞】分布式存儲(chǔ)技術(shù) 大數(shù)據(jù)時(shí)代 數(shù)據(jù)管理
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)具有高速、多樣、大規(guī)模的特征,在大量的數(shù)據(jù)背景下,數(shù)據(jù)容量已經(jīng)超過(guò)了儲(chǔ)存空間,極容易引發(fā)數(shù)據(jù)管理失控。分布式儲(chǔ)存技術(shù)由于其強(qiáng)大的優(yōu)化儲(chǔ)存空間優(yōu)勢(shì),能夠有效的實(shí)現(xiàn)空間的優(yōu)化,被應(yīng)用在大數(shù)據(jù)管理中。
1 分布式存儲(chǔ)技術(shù)理論分析
分布式儲(chǔ)存技術(shù)事實(shí)上衍生于集中式儲(chǔ)存技術(shù),和集中式儲(chǔ)存技術(shù)不同的是,分布式儲(chǔ)存技術(shù)是儲(chǔ)存數(shù)據(jù)在虛擬空間上,利用網(wǎng)絡(luò)優(yōu)勢(shì),將零散的空間虛擬成為一個(gè)整體,這個(gè)整體就成為了存儲(chǔ)的主體。在實(shí)際應(yīng)用中,數(shù)據(jù)被分開(kāi)儲(chǔ)存在不同的空間中,不是特定的節(jié)點(diǎn)上。隨著分布式儲(chǔ)存技術(shù)發(fā)展,分布式管理系統(tǒng)被逐漸研發(fā)應(yīng)用,這種系統(tǒng)能夠?qū)⒘闵⒌木W(wǎng)絡(luò)空間進(jìn)行整合,能夠通過(guò)服務(wù)器分散儲(chǔ)存,保障了系統(tǒng)的安全和應(yīng)用。在分布式儲(chǔ)存中,最關(guān)鍵的兩個(gè)特征是分散儲(chǔ)存和集中管理,基于分布式儲(chǔ)存技術(shù)構(gòu)建的分布式儲(chǔ)存系統(tǒng)能夠在有限成本的基礎(chǔ)上,進(jìn)行高效的數(shù)據(jù)管理。在大數(shù)據(jù)時(shí)代中,龐大的數(shù)據(jù)量讓數(shù)據(jù)管理陷入困境,使用分布式儲(chǔ)存技術(shù)帶給數(shù)據(jù)管理一種新思路,不僅能夠?qū)崿F(xiàn)數(shù)據(jù)的高效儲(chǔ)存,還實(shí)現(xiàn)了數(shù)據(jù)的高效管理,提高數(shù)據(jù)管理的效率,保障了數(shù)據(jù)的安全性,同時(shí)也為數(shù)據(jù)使用帶來(lái)了極大的便捷。
2 分布式存儲(chǔ)技術(shù)在大數(shù)據(jù)時(shí)代中的應(yīng)用
2.1 極限數(shù)據(jù)處理的分布式儲(chǔ)存技術(shù)
極限數(shù)據(jù)型分布式儲(chǔ)存技術(shù)的核心優(yōu)勢(shì)就是強(qiáng)大的數(shù)據(jù)儲(chǔ)存功能,最主要的應(yīng)用就是大量處理數(shù)據(jù),但是其數(shù)據(jù)模式操作也十分繁瑣。例如在飛機(jī)火車票的網(wǎng)站上使用的就是極限數(shù)據(jù)型分布式儲(chǔ)存技術(shù),由于票務(wù)數(shù)據(jù)信息量大,使用這項(xiàng)技術(shù)能夠有效處理票務(wù)數(shù)據(jù)。這項(xiàng)技術(shù)核心的設(shè)計(jì)理論是應(yīng)用集散和擴(kuò)展,具有強(qiáng)大的處理數(shù)據(jù)效率和能力,同時(shí)還能夠保障處理數(shù)據(jù)的一致性?,F(xiàn)階段分布式儲(chǔ)存系統(tǒng)得到廣泛的應(yīng)用,最常見(jiàn)的是Hadoop、NoSQL、NewSQL這三種,這三種本質(zhì)核心理論是一致的,也就是對(duì)分散儲(chǔ)存空間進(jìn)行優(yōu)化,是對(duì)資源配置的優(yōu)化。三種系統(tǒng)不同的地方在于,NewSQL是一種關(guān)系型的數(shù)據(jù)庫(kù)技術(shù),具備比較強(qiáng)大的擴(kuò)展性和兼容性,是建立在內(nèi)存基礎(chǔ)上的分布式儲(chǔ)存,這種技術(shù)能夠?qū)崿F(xiàn)十倍傳統(tǒng)系統(tǒng)處理數(shù)據(jù)的速度。
在極限數(shù)據(jù)型數(shù)據(jù)分布式儲(chǔ)存技術(shù)中最典型的系統(tǒng),事實(shí)上是GemFire系統(tǒng),在GemFire系統(tǒng)中,使用的擴(kuò)展模式是橫向的,不僅能夠和現(xiàn)存數(shù)據(jù)庫(kù)進(jìn)行連接,還能對(duì)儲(chǔ)存空間實(shí)施虛擬化處理,在此基礎(chǔ)上對(duì)儲(chǔ)存空間進(jìn)行統(tǒng)一的管理。應(yīng)用GemFire系統(tǒng)不需要依賴磁盤(pán)的讀寫(xiě),其自身具有較高的穩(wěn)定性,這樣能夠保障數(shù)據(jù)安全和可靠。例如在我國(guó)的12306網(wǎng)站上使用的就是Gem Fire系統(tǒng),不僅為我國(guó)人民提供了高質(zhì)的服務(wù),還進(jìn)行了搞笑的數(shù)據(jù)儲(chǔ)存服務(wù),提高了購(gòu)票的安全性和高效性,取得了良好的效果。
2.2 分布式對(duì)象儲(chǔ)存技術(shù)
分布式對(duì)象儲(chǔ)存是一對(duì)象為訪問(wèn)單元,能夠在網(wǎng)絡(luò)協(xié)議下實(shí)現(xiàn)讀寫(xiě)對(duì)象,核心思路在于分離數(shù)據(jù)和控制通路,在對(duì)象儲(chǔ)存設(shè)備的使用基礎(chǔ)上構(gòu)建儲(chǔ)存系統(tǒng)。其中每一個(gè)對(duì)象儲(chǔ)存設(shè)備具備一定的智能特質(zhì),能自行保存數(shù)據(jù)。在對(duì)象儲(chǔ)存系統(tǒng)中有兩種數(shù)據(jù)的描述,一種是容器,一種是對(duì)象。所有對(duì)象都是平等的,ID都是處于一個(gè)地址空間,并不是系統(tǒng)訊在的樹(shù)狀結(jié)構(gòu)。因此在對(duì)象儲(chǔ)存空間中訪問(wèn)對(duì)象需要經(jīng)過(guò)ID的識(shí)別,然后才能進(jìn)行對(duì)象的管理,不需要復(fù)雜結(jié)構(gòu)。對(duì)象儲(chǔ)存能夠提供抽象的接口,對(duì)象儲(chǔ)存能夠支持字節(jié)到數(shù)個(gè)TB范圍之內(nèi)的任何對(duì)象的儲(chǔ)存,業(yè)務(wù)能夠更加靈活的進(jìn)行數(shù)據(jù)分割。對(duì)象儲(chǔ)存的成本很低,是因?yàn)閷?duì)象儲(chǔ)存是建立在標(biāo)準(zhǔn)硬件設(shè)施基礎(chǔ)之上,僅需要普通服務(wù)器和硬盤(pán)即可。對(duì)象儲(chǔ)存是在軟件層引入散列技術(shù)以及數(shù)據(jù)冗余,犧牲一部分?jǐn)?shù)據(jù)一致性,來(lái)支持租戶的多種模式操作。
例如在分布式對(duì)象儲(chǔ)存系統(tǒng)中最典型的Swift系統(tǒng)中,Swift系統(tǒng)通過(guò)接口為客戶端和瀏覽器服務(wù),其儲(chǔ)存節(jié)點(diǎn)是完全相等的,屬于對(duì)稱式結(jié)構(gòu),在擴(kuò)容的時(shí)候,只需要增加幾個(gè)機(jī)器,就能夠提高擴(kuò)展性。由于其中不是主從機(jī)構(gòu),即使其中一個(gè)節(jié)點(diǎn)發(fā)生故障,數(shù)據(jù)也不會(huì)發(fā)生丟失。在上傳文件的時(shí)候,將請(qǐng)求發(fā)給接收器,查詢本地文件之后,在空間后端儲(chǔ)存文件,在反饋給用戶己成功的消息。2.3自定義儲(chǔ)存的分布式儲(chǔ)存技術(shù)
自定義分布式的儲(chǔ)存技術(shù)最根本的優(yōu)勢(shì)在于能夠根據(jù)系統(tǒng)的實(shí)際需求,提供個(gè)性化的儲(chǔ)存服務(wù),能夠滿足軟件的實(shí)際需求,系統(tǒng)能夠做出適應(yīng)的改進(jìn),這樣的優(yōu)勢(shì)完美的滿足的數(shù)據(jù)的多樣化變化。在自定義分布式的儲(chǔ)存系統(tǒng)中,最典型的就是Ceph系統(tǒng),Ceph系統(tǒng)中設(shè)有多個(gè)對(duì)外接口,為軟件多樣化的訪問(wèn)創(chuàng)造的了相對(duì)應(yīng)的路徑,包括數(shù)據(jù)塊及儲(chǔ)存模式等。同時(shí)Ceph系統(tǒng)還能夠提出多種儲(chǔ)存方案,例如常見(jiàn)的CephFS、Librbd以及RadosGW等儲(chǔ)存系統(tǒng),在這三種系統(tǒng)中,CephFS系統(tǒng)能夠?qū)崿F(xiàn)Posix的支持功能,Librbd系統(tǒng)能夠提供數(shù)據(jù)塊的支持,RadosGW儲(chǔ)存系統(tǒng)則能夠提供對(duì)象儲(chǔ)存的支持。由此可見(jiàn),Ceph系統(tǒng)覆蓋了多種儲(chǔ)存模式,除了跨度較大類型的規(guī)模布置。在我國(guó),分布式儲(chǔ)存技術(shù)已經(jīng)步入到一個(gè)重要階段,已經(jīng)衍生出多種數(shù)據(jù)儲(chǔ)存的模式,在應(yīng)用工程中,還需要根據(jù)客戶的需求選擇適合的儲(chǔ)存形式,才能夠提供給客戶更加優(yōu)質(zhì)的個(gè)性化數(shù)據(jù)管理服務(wù)。
3 結(jié)論
綜上所述,本文先是分析了分布式存儲(chǔ)技術(shù)理論,然后研究了分布式存儲(chǔ)技術(shù)在大數(shù)據(jù)時(shí)代中的應(yīng)用,分析了極限數(shù)據(jù)處理的分布式儲(chǔ)存技術(shù)應(yīng)用,分析了分布式對(duì)象儲(chǔ)存技術(shù)的優(yōu)勢(shì)和應(yīng)用,最后分析了自定義儲(chǔ)存的分布式儲(chǔ)存技術(shù)的應(yīng)用,應(yīng)用分布式儲(chǔ)存技術(shù),能夠在有限成本中實(shí)現(xiàn)最佳數(shù)據(jù)管理效果。
參考文獻(xiàn)
[1]刁喆,基于分布式存儲(chǔ)技術(shù)的高校集群存儲(chǔ)系統(tǒng)實(shí)踐與研究[J].信息與電腦(理論版),2018 (04):63-64.
[2]吳楠,分布式存儲(chǔ)技術(shù)及在運(yùn)營(yíng)商業(yè)務(wù)中的應(yīng)用[J].電信技術(shù),2017 (11):134-136.