楊蓮 馬磊 呂傳愛 李焱
摘 要:現(xiàn)如今,科技發(fā)展速度不斷加快,云存儲(chǔ)效率在先進(jìn)科技的帶動(dòng)下大大提高,但云存儲(chǔ)文件系統(tǒng)應(yīng)用期間受靜態(tài)完全副本冗余機(jī)制影響較大,這在一定程度上會(huì)增加云存儲(chǔ)負(fù)載壓力,最終影響系統(tǒng)運(yùn)行穩(wěn)定性,減慢系統(tǒng)運(yùn)行速度。文章首先簡(jiǎn)要介紹RS糾刪碼,然后針對(duì)HDFS完全副本與糾刪碼對(duì)比分析,最后重點(diǎn)探究RS糾刪碼基礎(chǔ)下HDFS云存儲(chǔ)動(dòng)態(tài)副本策略。
關(guān)鍵詞:RS糾刪碼;HDFS;云存儲(chǔ);動(dòng)態(tài)副本策略
中圖分類號(hào):TP333 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)24-0038-02
Abstract: Nowadays, the scientific and technological development is being accelerated, and the efficiency of cloud storage is greatly improved by advanced science and technology. However, the redundant mechanism of static full replica greatly affects the application of cloud storage file system. To some extent, this will increase the cloud storage load pressure, and ultimately affect the stability of the system and slow down the speed of the system. This paper first briefly introduces RS erasure codes, then compares HDFS full replica with erasure codes, and finally focuses on the dynamic replication strategy of HDFS cloud storage based on RS erasure codes.
Keywords: RS erasure code; HDFS; cloud storage; dynamic replication strategy
前言
隨著云存儲(chǔ)文件系統(tǒng)應(yīng)用頻率的不斷提高,以及系統(tǒng)存儲(chǔ)量的相應(yīng)增加,HDFS云存儲(chǔ)動(dòng)態(tài)副本策略能夠更好的滿足系統(tǒng)應(yīng)用需要,同時(shí),還能豐富RS糾刪碼理論內(nèi)容,大大縮短系統(tǒng)相應(yīng)時(shí)間。由此可見,本文針對(duì)該論題展開探究具有必要性,論題探究如下。
1 RS糾刪碼基本介紹
所謂RS糾刪碼,指的是等分?jǐn)?shù)據(jù)文件于數(shù)據(jù)塊,在此期間,字節(jié)為等分單位,接下來借助編碼完成校驗(yàn)塊生成操作。針對(duì)數(shù)據(jù)還原處理時(shí),充分準(zhǔn)備糾刪碼個(gè)別數(shù)據(jù)塊的校驗(yàn)塊即可,其中,數(shù)據(jù)塊內(nèi)含多個(gè)字節(jié),所含字節(jié)長度為W位。丟失數(shù)據(jù)分塊在允許的塊數(shù)范圍內(nèi),則原數(shù)據(jù)文件恢復(fù)不會(huì)受到影響[1]。
2 對(duì)比分析HDFS完全副本與糾刪碼
大數(shù)據(jù)時(shí)代悄然而至,在這一時(shí)代背景中,云存儲(chǔ)構(gòu)建存儲(chǔ)資源池,以此實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)目標(biāo)?,F(xiàn)如今,云存儲(chǔ)應(yīng)用范圍較廣,云存儲(chǔ)產(chǎn)品基于數(shù)據(jù)冗余機(jī)制完成具體應(yīng)用,常見方式主要有兩種,第一種即完全副本冗余——DPHS,第二種即糾刪碼——RS。前者即針對(duì)數(shù)據(jù)塊復(fù)制,并存儲(chǔ)于不同數(shù)據(jù)節(jié)點(diǎn),這能大大提高系統(tǒng)利用率,完全副本冗余——DPHS應(yīng)用簡(jiǎn)答,但應(yīng)用成本較高,并且還會(huì)影響系統(tǒng)可拓展性。相對(duì)而言,糾刪碼——RS能夠增強(qiáng)系統(tǒng)可靠性,提高空間利用效率。下文針對(duì)二者存在的優(yōu)缺點(diǎn)具體介紹,以便為接下來的分析工作奠定理論基礎(chǔ)。
2.1 完全副本冗余機(jī)制
DPHS模塊細(xì)分兩類,第一類即分布式存儲(chǔ),第二類即分布式管理,它以slave架構(gòu)為基礎(chǔ),由DataDode、NameNode等節(jié)點(diǎn)組成,兩節(jié)點(diǎn)分別負(fù)責(zé)數(shù)據(jù)存儲(chǔ)和原數(shù)據(jù)管理。DPHS針對(duì)數(shù)據(jù)分塊存儲(chǔ),以此提高文件存儲(chǔ)效率以及可靠性,同時(shí),還能提高數(shù)據(jù)利用率,DPHS應(yīng)用完全副本策略不僅會(huì)延長索引時(shí)間,而且還會(huì)提高線性成本,最終會(huì)增加系統(tǒng)運(yùn)行阻力,不利于提升系統(tǒng)性能。
2.2 糾刪碼冗余
糾刪碼在線性編碼特點(diǎn)的引導(dǎo)下大大提高空間利用率,并且能在短時(shí)間內(nèi)糾正錯(cuò)誤,盡最大可能保證數(shù)據(jù)準(zhǔn)確性。相關(guān)學(xué)者對(duì)比分析糾刪碼冗余以及完全備份冗余,分析可知,相同條件下前一種方法能夠擴(kuò)大存儲(chǔ)空間。本文介紹的RS糾刪碼特點(diǎn)表現(xiàn)為:小容量;較強(qiáng)糾錯(cuò)能力;編碼解碼速度較慢,將其用于谷歌分布式文件系統(tǒng)——Colossus,有步驟完成數(shù)據(jù)輸入。據(jù)實(shí)踐總結(jié)可知,RS糾刪碼應(yīng)用過程中存在些許不足,即編碼解碼過程較復(fù)雜,導(dǎo)致解碼效率大大降低。
從上述介紹中可以看出,完全副本冗余——DPHS與糾刪碼——RS均存在應(yīng)用優(yōu)勢(shì)和不足,為了更好的彌補(bǔ)不足,應(yīng)用HDFS云存儲(chǔ)動(dòng)態(tài)副本策略,以此提升系統(tǒng)實(shí)用性,該策略具體分析如下。
3 基于RS糾刪碼下HDFS云存儲(chǔ)動(dòng)態(tài)副本策略分析
3.1 基本介紹
以文件為目標(biāo)應(yīng)用RS糾刪碼動(dòng)態(tài)副本策略,最初應(yīng)用HDFS的過程中,為提高系統(tǒng)可靠性,加快數(shù)據(jù)讀取速度,適當(dāng)應(yīng)用完全副本策略,同時(shí),細(xì)分文件熱度級(jí)別,使其對(duì)應(yīng)副本數(shù)。接下來有步驟完成增減操作,直到文件熱度降低,待熱度低至要求的標(biāo)準(zhǔn)后,利用RS編碼細(xì)分為兩部分,第一部分即數(shù)據(jù)部分,數(shù)據(jù)利用率相對(duì)較高;第二部分即冗余編碼部分,待數(shù)據(jù)恢復(fù)后方可應(yīng)用,并在各個(gè)數(shù)據(jù)節(jié)點(diǎn)合理安排編碼塊。編碼文件內(nèi)部數(shù)據(jù)塊讀取時(shí),一旦出現(xiàn)數(shù)據(jù)丟失現(xiàn)象,通過解碼操作進(jìn)行文件獲取[2]。
3.2 制定設(shè)計(jì)目標(biāo)
由于數(shù)據(jù)增長速度不斷加快,數(shù)據(jù)量大大增多,對(duì)此,應(yīng)維持云存儲(chǔ)負(fù)載均衡能力,全面彌補(bǔ)完全副本冗余策略存在的劣勢(shì),設(shè)計(jì)合理的基于RS糾刪碼的動(dòng)態(tài)副本冗余策略,在這一過程中制定設(shè)計(jì)目標(biāo)。首先,掌握當(dāng)前大數(shù)據(jù)時(shí)代數(shù)據(jù)快速運(yùn)轉(zhuǎn)需要,并提高數(shù)據(jù)讀取效率;其次,提高數(shù)據(jù)真實(shí)性和可靠性,與時(shí)俱進(jìn)的更新存儲(chǔ)設(shè)備,避免數(shù)據(jù)信息失效,如果數(shù)據(jù)更新速度不及時(shí),那么數(shù)據(jù)可靠性得不到保證;然后,減少數(shù)據(jù)存儲(chǔ)成本,因?yàn)閿?shù)據(jù)量不斷增多,只有合理控制數(shù)據(jù)存儲(chǔ)成本,才能做好系統(tǒng)維護(hù)工作,并且系統(tǒng)拓展性能會(huì)不斷優(yōu)化。最后,優(yōu)化系統(tǒng)拓展性,增加適量的存儲(chǔ)設(shè)備,確保系統(tǒng)存儲(chǔ)水平大大提高。
3.3 優(yōu)化副本模塊
HDFS云存儲(chǔ)動(dòng)態(tài)副本策略在文件處理的過程中,要想降低存儲(chǔ)成本,務(wù)必細(xì)分文件內(nèi)容,平衡系統(tǒng)負(fù)載能力。在此期間,副本模塊用來調(diào)整文件熱度以及副本數(shù)量,只有文件熱度低至要求標(biāo)準(zhǔn),副本數(shù)自然會(huì)減少,最終存儲(chǔ)成本會(huì)大大降低。對(duì)于高熱度、多副本數(shù)的文件處理時(shí),通過適當(dāng)降低負(fù)載節(jié)點(diǎn)來平衡負(fù)載能力,充分發(fā)揮負(fù)載均衡優(yōu)勢(shì)。
針對(duì)文件熱度計(jì)算時(shí),既要了解文件大小,又要準(zhǔn)確統(tǒng)計(jì)訪問頻率,因?yàn)楦邿岫任募脑L問次數(shù)十分頻繁,進(jìn)而會(huì)相應(yīng)增加副本數(shù),大大提高數(shù)據(jù)讀取效率。在這一過程中,細(xì)分文件熱度,并對(duì)應(yīng)副本數(shù)與各級(jí)文件熱度,據(jù)此有步驟完成文件副本調(diào)整任務(wù)。如果副本數(shù)少于3,那么應(yīng)用糾錯(cuò)碼編譯模塊有序調(diào)整,盡可能提高數(shù)據(jù)可靠性。
3.4 調(diào)整糾刪碼編解碼模塊
糾刪碼編解碼模塊圍繞HDFS完成文件編解任務(wù),這在一定程度上能夠減輕客戶端工作壓力,避免客戶端工作任務(wù)量過多出現(xiàn)延時(shí)操作現(xiàn)象,與此同時(shí),能夠提升用戶滿意度,有利于提升系統(tǒng)服務(wù)質(zhì)量。糾刪碼——RS依據(jù)矩陣差異完成類別劃分,以此降低編碼復(fù)雜度。糾刪碼編解碼模塊應(yīng)用異步編碼模式,首先應(yīng)用多副本方式完成文件存儲(chǔ)任務(wù),待系統(tǒng)常規(guī)化運(yùn)行后,針對(duì)糾刪碼編解碼模塊適當(dāng)調(diào)整,細(xì)分文件熱度級(jí)別,以便為文件編碼奠定良好基礎(chǔ)。
3.5 實(shí)驗(yàn)分析
針對(duì)基于RS糾刪碼下HDFS云存儲(chǔ)動(dòng)態(tài)副本策略應(yīng)用效果進(jìn)行實(shí)驗(yàn)分析,全面了解該策略優(yōu)越性,同時(shí),構(gòu)建HDFS集群環(huán)境,有步驟組織測(cè)試活動(dòng),具體分析如下。
數(shù)據(jù)可靠性:針對(duì)RS(7.11)編碼處理,所選節(jié)點(diǎn)故障數(shù)量為四個(gè),動(dòng)態(tài)副本策略應(yīng)用后,其中一個(gè)節(jié)點(diǎn)故障能夠高效恢復(fù)文件,其余三個(gè)節(jié)點(diǎn)故障則不可。存儲(chǔ)效率:動(dòng)態(tài)副本策略適時(shí)應(yīng)用,不僅能夠提高系統(tǒng)存儲(chǔ)效率,而且還能優(yōu)化系統(tǒng)性能。負(fù)載均衡:應(yīng)用動(dòng)態(tài)副本策略,能夠減輕原有節(jié)點(diǎn)副本壓力,同時(shí),還能提高HDFS訪問效率,大大縮短系統(tǒng)訪問時(shí)間??偨Y(jié)可知,基于RS糾刪碼下HDFS云存儲(chǔ)動(dòng)態(tài)副本策略高效應(yīng)用,不僅符合云存儲(chǔ)系統(tǒng)持續(xù)發(fā)展需要,而且還能提升云存儲(chǔ)系統(tǒng)性能,在保證數(shù)據(jù)可靠性、提高數(shù)據(jù)存儲(chǔ)效率、提高負(fù)載均能能力等方面發(fā)揮重要作用[3]。
4 結(jié)束語
綜上所述,云存儲(chǔ)文件系統(tǒng)應(yīng)用原有存儲(chǔ)策略存在一定劣勢(shì),為滿足云存儲(chǔ)系統(tǒng)運(yùn)行需要,提高動(dòng)態(tài)副本策略應(yīng)用效率,以此補(bǔ)充原有存儲(chǔ)策略存在的不足,全面優(yōu)化云存儲(chǔ)系統(tǒng)性能,大大提高數(shù)據(jù)存儲(chǔ)可靠性。此外,有利于降低數(shù)據(jù)存儲(chǔ)成本,合理平衡系統(tǒng)負(fù)載能力,不斷提高文件讀取速度。
參考文獻(xiàn):
[1]左方,何欣.一種基于蟻群算法的云存儲(chǔ)副本動(dòng)態(tài)選擇機(jī)制研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(11):3368-3370+3374.
[2]張浩,趙磊,馮博.CACDP:適用于云存儲(chǔ)動(dòng)態(tài)策略的密文訪問控制方法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(07):1424-1435.
[3]胡德敏,余星.一種基于同態(tài)標(biāo)簽的動(dòng)態(tài)云存儲(chǔ)數(shù)據(jù)完整性驗(yàn)證方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(05):1362-1365+1395.