趙鐵柱 袁華強(qiáng)
(東莞理工學(xué)院 工程技術(shù)研究院,廣東東莞 523808)
分布式文件系統(tǒng)性能研究
趙鐵柱 袁華強(qiáng)
(東莞理工學(xué)院 工程技術(shù)研究院,廣東東莞 523808)
隨著海量數(shù)據(jù)存儲(chǔ)和I/O密集型應(yīng)用的發(fā)展,I/O越發(fā)成為了分布式存儲(chǔ)系統(tǒng)的性能瓶頸,分布式文件系統(tǒng)是解決I/O瓶頸問(wèn)題的重要途徑。如何系統(tǒng)地研究分布式文件系統(tǒng)的性能因子和優(yōu)化方案,是一個(gè)重要研究課題。本文系統(tǒng)地闡述了分布式文件系統(tǒng)的性能研究現(xiàn)狀,挖掘并分析了分布式文件系統(tǒng)的關(guān)鍵性能影響因子,為分布式文件系統(tǒng)的設(shè)計(jì)和性能優(yōu)化研究提供支持。
分布式文件系統(tǒng);數(shù)據(jù)存儲(chǔ);性能因子;性能優(yōu)化
近年來(lái),網(wǎng)絡(luò)應(yīng)用的快速普及和云存儲(chǔ)的推廣,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)海量的增長(zhǎng)態(tài)勢(shì)越發(fā)明顯。信息資源的爆炸性增長(zhǎng),對(duì)存儲(chǔ)系統(tǒng)的容量、可擴(kuò)展性、數(shù)據(jù)可用性以及I/O性能等方面提出了越來(lái)越高的要求。隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,服務(wù)器技術(shù),網(wǎng)絡(luò)技術(shù)和存儲(chǔ)技術(shù)都得到了快速的發(fā)展。雖然計(jì)算,傳輸和存儲(chǔ)三大IT基礎(chǔ)設(shè)施都得到了飛速的發(fā)展,但相當(dāng)于計(jì)算(數(shù)據(jù)處理)和傳輸而言,存儲(chǔ)技術(shù)相對(duì)發(fā)展緩慢,這主要是由于在I/O子系統(tǒng)方面缺乏相應(yīng)的提高,導(dǎo)致I/O成為了存儲(chǔ)系統(tǒng)的主要瓶頸。
分布式文件系統(tǒng)是指網(wǎng)絡(luò)中的多個(gè)存儲(chǔ)節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)組織起來(lái),并通過(guò)網(wǎng)絡(luò)來(lái)完成各存儲(chǔ)節(jié)點(diǎn)時(shí)的通信和控制的文件系統(tǒng)。典型的分布式文件系統(tǒng),如Lustre[1],GFS(Google File System)[2],HDFS(Hadoop Distributed File System)[3]等,將元數(shù)據(jù)和應(yīng)用程序數(shù)據(jù)分開存儲(chǔ),因?yàn)樵獢?shù)據(jù)和應(yīng)用程序數(shù)據(jù)的存儲(chǔ)和訪問(wèn)各有特性,可以針對(duì)這些個(gè)性,分而治之并優(yōu)化,明顯提高整個(gè)系統(tǒng)的I/O的性能。并行文件系統(tǒng)(也稱分布式并行文件系統(tǒng)),如GPFS(General Parallel File System)[4],PVFS(Parallel Virtual File System)[5],pMFS(Parallel MFS)[6],是一種特殊的分布式文件系統(tǒng),所謂并行文件系統(tǒng)是指應(yīng)用于多機(jī)環(huán)境的網(wǎng)絡(luò)文件系統(tǒng),單個(gè)文件的數(shù)據(jù)采用分條等形式存放于不同的I/O節(jié)點(diǎn)之上,支持多機(jī)多個(gè)進(jìn)程的并發(fā)存取,同時(shí)支持元數(shù)據(jù)和數(shù)據(jù)的分布存放,并提供單一的目錄空間。而要實(shí)現(xiàn)一個(gè)完整的并行文件系統(tǒng),需要實(shí)現(xiàn)如下兩個(gè)方面:第一,實(shí)現(xiàn)單一的文件映像,并行文件存放在盤陣上的具體分布情況對(duì)于用戶來(lái)說(shuō)是透明的,并行文件系統(tǒng)在用戶看來(lái)是一完整的樹型結(jié)構(gòu),在調(diào)用時(shí)只要給出文件名即可;第二,采用條帶化(Stripe)和分區(qū)(Partition)技術(shù),支持一個(gè)文件數(shù)據(jù)在多個(gè)磁盤之上和多個(gè)進(jìn)程之間的分布,即多個(gè)進(jìn)程并發(fā)讀寫多個(gè)磁盤上的數(shù)據(jù)。
分布式文件系統(tǒng)具有PB級(jí)海量數(shù)據(jù)存儲(chǔ)容量,高聚合并發(fā)帶寬,高可擴(kuò)展性,高可靠性,易管理和使用等特點(diǎn)。能夠有效地解決分布式存儲(chǔ)系統(tǒng)中海量數(shù)據(jù)存儲(chǔ)和I/O瓶頸問(wèn)題,成為了目前存儲(chǔ)工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。分布式文件系統(tǒng)是任何大規(guī)模分布式計(jì)算環(huán)境的重要組成部分,它的性能直接影響著整個(gè)分布式計(jì)算環(huán)境的執(zhí)行效率。因此,分布式文件系統(tǒng)的I/O研究和性能優(yōu)化是一個(gè)極具挑戰(zhàn)性和研究?jī)r(jià)值的工作。本文將系統(tǒng)地綜述分布式文件系統(tǒng)性能研究現(xiàn)狀,分析并挖掘出分布式文件系統(tǒng)的關(guān)鍵性能影響因子,為分布式文件系統(tǒng)性能研究和性能優(yōu)化提供重要的指導(dǎo)價(jià)值。
目前,分布式文件系統(tǒng)性能研究主要可分為4方面:系統(tǒng)配置參數(shù)分析與調(diào)優(yōu)研究,元數(shù)據(jù)訪問(wèn)優(yōu)化研究,性能建模與預(yù)測(cè)研究,可用性和可擴(kuò)展性研究。
1.1 系統(tǒng)配置參數(shù)分析與調(diào)優(yōu)研究
由于分布式文件系統(tǒng)的配置參數(shù)較多,研究者們主要通過(guò)實(shí)驗(yàn)和基準(zhǔn)測(cè)試的方法,對(duì)參數(shù)進(jìn)行分析,并根據(jù)測(cè)試結(jié)果提出一些經(jīng)驗(yàn)性的優(yōu)化。如Yu等通過(guò)實(shí)驗(yàn)的方法對(duì)并行I/O進(jìn)行了參數(shù)分析,配置和優(yōu)化[7]。Li等利用Fork-Join排隊(duì)模型對(duì)整個(gè)存儲(chǔ)系統(tǒng)框架進(jìn)行模擬,同時(shí)提出一種參數(shù)分析的方法[8]。另由于不同的應(yīng)用對(duì)文件系統(tǒng)的要求不同,文件系統(tǒng)在支持上層應(yīng)用時(shí)也呈現(xiàn)出各異的性能的差別。應(yīng)用的I/O特征對(duì)分布式文件系統(tǒng)的影響較大。關(guān)于應(yīng)用的I/O特征對(duì)分布式系統(tǒng)的性能影響的研究比較多,如文獻(xiàn)[9]對(duì)底層的磁盤陣列及相關(guān)的因素進(jìn)行了系統(tǒng)的研究。文獻(xiàn)[10]針對(duì)Lustre文件系統(tǒng)的架構(gòu)和性能因子進(jìn)行了詳細(xì)的介紹。文獻(xiàn)[11]針對(duì)分布式/并行文件系統(tǒng)的聚合I/O相關(guān)性能因素進(jìn)行了專門的研究。文獻(xiàn)[12]通過(guò)引入Fork-Join隊(duì)列模型對(duì)存儲(chǔ)系統(tǒng)的性能進(jìn)行參數(shù)分析。文獻(xiàn)[38]將活動(dòng)存儲(chǔ)引入到Lustre文件系統(tǒng)中,對(duì)系統(tǒng)進(jìn)行了性能評(píng)估和參數(shù)分析等。由于目前這方面的研究主要是通過(guò)設(shè)計(jì)一些特定系統(tǒng)的測(cè)試用例研究系統(tǒng)某些局部的性能,因此缺少一些系統(tǒng)性的,理論性的研究成果。
1.2 元數(shù)據(jù)訪問(wèn)優(yōu)化研究
元數(shù)據(jù)服務(wù)器主要負(fù)責(zé)元數(shù)據(jù)的存儲(chǔ)管理,提供元數(shù)據(jù)信息查詢服務(wù)。而元數(shù)據(jù)是一些數(shù)量巨大的小文件數(shù)據(jù),元數(shù)據(jù)操作量占了整個(gè)分布式系統(tǒng)操作量的50%以上。針對(duì)這些問(wèn)題,研究主要集中在以下幾個(gè)方面:提高元數(shù)據(jù)的存儲(chǔ)能力;優(yōu)化元數(shù)據(jù)的查詢效率;增強(qiáng)元數(shù)據(jù)的容錯(cuò)性和一致性等等。如Wang等提出二級(jí)元數(shù)據(jù)管理方法來(lái)提高分布式文件系統(tǒng)的可用性[13]。文獻(xiàn)[14]針對(duì)HDFS小文件的元數(shù)據(jù)管理方式進(jìn)行優(yōu)化,以提高HDFS對(duì)小文件的存取效率。目前,隨著元數(shù)據(jù)的海量增加,如何有效的組織,存儲(chǔ)海量元數(shù)據(jù),及如何提高海量元數(shù)據(jù)查詢響應(yīng)時(shí)間,成為研究熱點(diǎn)。因?yàn)樵械膯我辉獢?shù)據(jù)服務(wù)器無(wú)法滿足元數(shù)據(jù)量的要求。但組織元數(shù)據(jù)服務(wù)器集群池會(huì)明顯影響查詢效率,如何優(yōu)化元數(shù)據(jù)服務(wù)器的架構(gòu),同時(shí)兼顧元數(shù)據(jù)容量,查詢效率,元數(shù)據(jù)可靠性及一致性,是一個(gè)亟待解決的問(wèn)題。
1.3 性能建模與預(yù)測(cè)研究
這方面的研究側(cè)重于通過(guò)評(píng)估系統(tǒng)的性能,挖掘潛在的性能因素及特點(diǎn),預(yù)測(cè)及指導(dǎo)系統(tǒng)的性能優(yōu)化。主要的難點(diǎn)是:分布式文件系統(tǒng)結(jié)構(gòu)復(fù)雜,很難根據(jù)特定的應(yīng)用,選擇所需的性能因素;另外,系統(tǒng)的性能預(yù)測(cè)缺少必要理論支持,基本是從實(shí)驗(yàn)出發(fā),通過(guò)系統(tǒng)的性能表現(xiàn),提出一些經(jīng)驗(yàn)法則或預(yù)測(cè)模型。如Zhao等分析了Lustre潛在的性能因素,對(duì)Lustre文件系統(tǒng)進(jìn)行了系統(tǒng)的性能評(píng)估,挖掘出以Lustre為代表的分布式/并行文件系統(tǒng)的性能特點(diǎn)[15];根據(jù)Lustre文件系統(tǒng)性能的特點(diǎn),基于Lustre和灰色系統(tǒng)理論進(jìn)行性能預(yù)測(cè)[16];基于Lustre文件系統(tǒng)的性能評(píng)估結(jié)果,建立了一個(gè)針對(duì)分布式/并行文件系統(tǒng)的相對(duì)預(yù)測(cè)模型,取得了較好的預(yù)測(cè)效果[17]。Yu等對(duì)Cay XT的并行I/O性能進(jìn)行了有效的評(píng)估[18]。Shan等通過(guò)IOR基準(zhǔn)對(duì)Lustre文件系統(tǒng)的性能進(jìn)行了評(píng)估和分析[19]。但如何在一些特定的應(yīng)用如搜索引擎應(yīng)用下去評(píng)估和優(yōu)化底層的分布式文件系統(tǒng)的結(jié)構(gòu)和性能卻研究的很少。
1.4 可用性和可擴(kuò)展性研究
為了獲得好的性價(jià)比,分布式文件系統(tǒng)大部分運(yùn)行在廉價(jià)的PC集群上,因此系統(tǒng)的可用性和可擴(kuò)展性是十分關(guān)鍵的。這些研究主要的目標(biāo)是:在系統(tǒng)規(guī)模增大的同時(shí),如何保證系統(tǒng)軟硬件正常運(yùn)轉(zhuǎn)提供統(tǒng)一的服務(wù),如何擴(kuò)充系統(tǒng)規(guī)模來(lái)取得更好的性能和容量。主要研究包括:采用日志技術(shù)對(duì)系統(tǒng)進(jìn)行快速恢復(fù);采用類似RAID技術(shù),提供數(shù)據(jù)冗余存儲(chǔ)。對(duì)于網(wǎng)絡(luò)失效問(wèn)題,相關(guān)的解決方案有:1)將網(wǎng)絡(luò)劃分為多個(gè)通信塊,并規(guī)定只有包含特定比例的可用節(jié)點(diǎn)才能提供服務(wù),防止數(shù)據(jù)的不一致性,如GPFS[20];2)通過(guò)將系統(tǒng)層次化,簡(jiǎn)化系統(tǒng)的設(shè)計(jì)和管理難度,如GFS等[21];3)將存儲(chǔ)空間虛擬化,屏蔽存儲(chǔ)實(shí)現(xiàn)細(xì)節(jié),提高容錯(cuò)性,增強(qiáng)系統(tǒng)動(dòng)態(tài)負(fù)載均衡性[22]等;4)通過(guò)設(shè)計(jì)一些特定的系統(tǒng)拓?fù)浣Y(jié)構(gòu),增強(qiáng)系統(tǒng)的可用性,如Zhang等設(shè)計(jì)了一種邏輯鏡像環(huán)(LMR)的部署機(jī)制,可以顯著地提高分布式文件系統(tǒng)的可靠性和可擴(kuò)展性[23]。系統(tǒng)可靠性和可擴(kuò)展性的研究對(duì)一些特定的關(guān)鍵領(lǐng)域尤為重要。
研究分布式文件系統(tǒng)性能影響因子,有利于配置,設(shè)計(jì),優(yōu)化系統(tǒng)性能。影響了分布式文件系統(tǒng)性能的關(guān)鍵性能因子包括:條帶塊大小,條帶寬度,條帶偏移量,讀/寫Cache模式,服務(wù)線程數(shù)量。
2.1 條帶塊大小
分布式并行文件系統(tǒng)中,會(huì)采用條帶化技術(shù),將大的數(shù)據(jù)文件分塊(條帶分塊)存儲(chǔ)到多個(gè)存儲(chǔ)節(jié)點(diǎn)上,同時(shí)支持多個(gè)進(jìn)程并發(fā)讀寫多個(gè)磁盤上的數(shù)據(jù)。
在分布式文件系統(tǒng)中,條帶塊大小應(yīng)該是頁(yè)大?。≒age Size)的整數(shù)倍。通常來(lái)講,條帶塊對(duì)性能的影響比條帶寬度對(duì)性能的影響更難量化,體現(xiàn)在兩個(gè)方面:(1)減小條帶塊大小,隨著條帶塊大小的減小,文件被分割成越來(lái)越小的分塊。這樣就會(huì)有更多的磁盤來(lái)存儲(chǔ)同一個(gè)文件。理論上講,增加了數(shù)據(jù)傳輸?shù)男阅?,但同時(shí)降低了數(shù)據(jù)的定位性能。(2)增大條帶塊大小,增加條帶塊大小的效果和減小條帶塊大小的效果相反。對(duì)于給定大小的文件,將會(huì)有較少的磁盤來(lái)存儲(chǔ)它。因此傳送性能降低,而數(shù)據(jù)定位性能提高。
2.2 條帶寬度
條帶寬度,指數(shù)據(jù)磁盤的數(shù)目。條帶寬度影響文件系統(tǒng)并發(fā)I/O的粒度。條帶寬度越寬,則并發(fā)I/O粒度增加,反之,則減少并發(fā)I/O粒度。例如,在Lustre文件系統(tǒng)中,最大可使用的條帶數(shù)量是168。但實(shí)際的使用中,最大可使用的條帶數(shù)量受限于客戶端I/O速率和OSS端的性能(工作負(fù)載和數(shù)據(jù)負(fù)載)。在實(shí)踐中,Oracle公司建議:“使用擁有5或9個(gè)磁盤的RAID5磁盤陣列,或擁有6或10個(gè)磁盤的RAID6磁盤陣列”,其中在RAID5中,校驗(yàn)磁盤數(shù)目為1,在RAID6中,校驗(yàn)磁盤數(shù)目為2。
2.3 條帶偏移量
條帶偏移量指選擇存儲(chǔ)條帶數(shù)據(jù)的起始存儲(chǔ)節(jié)點(diǎn)位置,即決定條帶數(shù)據(jù)分布在哪些存儲(chǔ)節(jié)點(diǎn)上。條帶偏移量的設(shè)置直接影響著系統(tǒng)的空間和負(fù)載的均衡性。因此,要根據(jù)節(jié)點(diǎn)的當(dāng)前狀態(tài)以及數(shù)據(jù)塊的特征信息來(lái)選取合適的存儲(chǔ)節(jié)點(diǎn)。常見的條帶數(shù)據(jù)的分配策略,如輪詢方法、權(quán)重輪詢方法、最少連接數(shù)、散列均衡、處理能力均衡、響應(yīng)速度均衡和啟發(fā)式算法等[24]。
2.4 讀/寫Cache模式
通常而言,通過(guò)Cache技術(shù)將常用文件數(shù)據(jù)Cache起來(lái),可以顯著提高文件讀寫的I/O速率。尤其在處理小文件數(shù)據(jù)時(shí),常需要將可占用的內(nèi)存空間來(lái)Cache文件數(shù)據(jù),來(lái)提高I/O性能。因此在使用I/ O基準(zhǔn)測(cè)試工具測(cè)試系統(tǒng)性能時(shí),經(jīng)常需要屏蔽掉讀/寫Cache對(duì)文件系統(tǒng)I/O的影響。要耗盡內(nèi)存Buffer后再對(duì)低層的磁盤子系統(tǒng)進(jìn)行I/O性能測(cè)試。為了避免Cache效應(yīng)對(duì)I/O性能的影響,用于測(cè)試的文件大小被設(shè)置成節(jié)點(diǎn)內(nèi)存大小的數(shù)倍。
讀/寫Cache模式分為:提前讀(Read Ahead),讀直達(dá)(Read Through),延遲寫(Write Back)和寫直達(dá)(W rite Through)。是否使用提前讀或讀直達(dá)應(yīng)該根據(jù)工作負(fù)載的特征來(lái)定。何時(shí)使用提前讀或讀直達(dá)有不同的應(yīng)用情景。1)適合提前讀的情形:如果應(yīng)用工作負(fù)載穩(wěn)定且串行時(shí),提前讀可顯著提高I/O性能。但如果工作負(fù)載是隨機(jī)或性能的I/O請(qǐng)求大小小于條帶塊大小時(shí),提前讀會(huì)降低I/O性能。2)適合讀直達(dá)的情形:當(dāng)工作負(fù)載是隨機(jī)的或性能的I/O請(qǐng)求大小等于條帶塊大小時(shí),讀直達(dá)可提高I/O性能。3)延遲寫和寫直達(dá):在處理大量小文件或單個(gè)大文件時(shí),延遲寫Cache可以動(dòng)態(tài)的提高寫的性能。然而,如果Cache中的小文件過(guò)多,Cache flushing極有可能十分緩慢,因此,會(huì)引起整個(gè)吞吐量的下跌。另外,如果遭遇突然斷電的情況,延遲寫會(huì)造成數(shù)據(jù)丟失。如果在數(shù)據(jù)完整性要求比較高的情形下,不推薦使用延遲寫Cache。因此,在使用延遲寫Cache時(shí),需要在性能和風(fēng)險(xiǎn)之間權(quán)衡。
2.5 服務(wù)線程數(shù)量
在分布式文件系統(tǒng)中,數(shù)據(jù)存儲(chǔ)服務(wù)器和元數(shù)據(jù)存儲(chǔ)服務(wù)器的服務(wù)線程數(shù)量對(duì)文件系統(tǒng)的性能有著重要影響。服務(wù)線程數(shù)量影響I/O的并發(fā)度,隨著服務(wù)線程數(shù)量的增加,文件系統(tǒng)I/O并發(fā)度會(huì)相關(guān)的增加,但同時(shí)也會(huì)消耗過(guò)多的內(nèi)存和CPU資源。因此,根據(jù)應(yīng)用的特點(diǎn)和文件系統(tǒng)的配置,選擇合適的服務(wù)線程數(shù)量十分關(guān)鍵。
隨海量數(shù)據(jù)存儲(chǔ)、云存儲(chǔ)研究的展開,分布式文件系統(tǒng)性能研究越發(fā)顯得重要和迫切。分布式文件系統(tǒng)具有高可靠性,高可用性,高I/O帶寬和海量存儲(chǔ)容量等特點(diǎn),被認(rèn)為是管理和訪問(wèn)海量數(shù)據(jù)的有效方式。隨著云存儲(chǔ)時(shí)代的到來(lái),對(duì)分布式文件系統(tǒng)的研究,尤其是分布式文件系統(tǒng)I/O研究和性能研究,勢(shì)必受到更多的重視。本文在全面研究分布式文件系統(tǒng)的系統(tǒng)架構(gòu),性能因素和大量文獻(xiàn)的基礎(chǔ)上,系統(tǒng)地闡述了分布式文件系統(tǒng)的性能研究現(xiàn)狀,研究分析了分布式文件系統(tǒng)的關(guān)鍵性能影響因子,為分布式文件系統(tǒng)的研究提供重要的參考價(jià)值。鑒于分布式文件系統(tǒng)性能研究現(xiàn)狀,下一步的研究工作可從兩方面展開:1)面向應(yīng)用特征的分布式文件系統(tǒng)性能研究與優(yōu)化。難點(diǎn)在于:一方面是捕捉應(yīng)用的性能特征。通過(guò)捕捉特定應(yīng)用或某一類應(yīng)用的應(yīng)用特征,如讀/寫請(qǐng)求大小、讀/寫請(qǐng)求比率、I/O到達(dá)時(shí)間間隔、時(shí)空相關(guān)性等特征,為后續(xù)的建模提供數(shù)據(jù)基礎(chǔ);另一方面是面向應(yīng)用的性能建模。分析捕捉到的性能特征,挖掘出性能特征潛在的分布規(guī)律。同時(shí),優(yōu)化文件系統(tǒng)中的數(shù)據(jù)分布,減少不必要的I/O操作,提高數(shù)據(jù)的訪問(wèn)效率。對(duì)于一些重要的核心應(yīng)用,對(duì)分布式文件系統(tǒng)進(jìn)行面向應(yīng)用的優(yōu)化是十分必要的,可以有效地提高應(yīng)用性能。2)根據(jù)應(yīng)用需求,有效融合各種主流分布式文件系統(tǒng)的設(shè)計(jì)架構(gòu)優(yōu)勢(shì)是今后分布式文件系統(tǒng)可能的研究方向和發(fā)展趨勢(shì)。這種融合型的分布式文件系統(tǒng)可以發(fā)揮各分布式文件系統(tǒng)的性能優(yōu)勢(shì),較好地處理復(fù)合型應(yīng)用。如Lustre和HDFS這兩種分布式文件系統(tǒng)雖然系統(tǒng)實(shí)現(xiàn)結(jié)構(gòu)基本類似,但它們數(shù)據(jù)處理方式卻有較大差別。這兩種方式各有優(yōu)缺點(diǎn),因此可能并存??梢钥紤]借鑒Lustre的設(shè)計(jì)機(jī)制,進(jìn)一步優(yōu)化HDFS的設(shè)計(jì)和提高性能;或者在Lustre文件系統(tǒng)中增加復(fù)制等功能,支持搜索引擎的應(yīng)用需求。
[1] Oracle Corp.Lustre File System[EB/OL].http://wiki.lustre.org/index.php/Main-Page.
[2] Google Corp.Google File System[EB/OL].http://labs.google.com/papers/gfs.html.
[3] Apache Software Foundation.Hadoop Distributed File System[EB/OL].http://hadoop.apache.org/hdfs/.
[4] IBM Corp.General Parallel File System[EB/OL].http://www-03.ibm.com/systems/software/gpfs/.
[5] Clemson University and MASA Lab.Parallel Virtual File System[EB/OL].http://www.pvfs.org/.
[6] The Internet Engineering Steering Group.pMFS File System[EB/OL].http://www.pnfs.com/.
[7] Yu W,Vetter JS,Canon R S.Exploiting Lustre File Joining for Effective Collective IO[C]//the Seventh IEEE International Symposium on Cluster Computing and the Grid(CCGrid2007),2007:267-274.
[8] Li H Y,Liu Y,Cao Q.Approximate Parameters Analysis of A Closed Fork-Join Queue Model in An Object-Based Storage System[C]// the Eighth International Symposium on Optical Storage and 2008 International Workshop on Information Data Storage,2008:1-6.
[9] Verma A,Anand A.General Store Placement for Response Time Minimization in Parallel Disks[J].Journal of Parallel and Distributed Computing,2007,67(12):1286-1300.
[10] Yu W,Oral H S,Canon R S.Empirical analysis of a large-scale hierarchical storage system[C]//the14th Int'l Euro-Par Conference on Parallel Processing,2008:130-140.
[11] Bokhari S,Rutt B,Wyckoff P,etal.Experimental analysis of amass storage system[J].Concurrency and Computation:Practice and Experience,2006,18(4):1929-1950.
[12] Logan J,Dickens P.Towards an understanding of the performance of MPI-IO in Lustre file systems[C]//the 2008 IEEE Int'l Conf.on Cluster Computing,2008:330-335.
[13] Wang F,Yue Y L,F(xiàn)eng D.High Availability Storage System Based on Two-level Metadata Management[C]//the Proceedingsof the2007 Japan-China Joint Workshop on Frontier of Computer Science and Technology(FCST 2007),2007:41-48.
[14] Grant M,Saba Se,Wang J.Improving Metadata Management for Small Files in HDFS[C]//the 2009 IEEE International Conference on Cluster Computing and Workshops,2009:1-4.
[15] Zhao T Z,VerdiM,Dong SB,et.al.Evaluation ofa performancemodel of Lustre file system[C]//the fifth Annual ChinaGrid Conference. 2010:191-196.
[16] Zhao T Z,Hu JL.Performance evaluation of parallel file system based on Lustre and grey theory[C]//the 2010 Minth International Conference on Grid and Cloud Computing,2010:118-122.
[17] 趙鐵柱,董守斌,Verdi M,等.面向并行文件系統(tǒng)的性能評(píng)估及相對(duì)預(yù)測(cè)模型[J].軟件學(xué)報(bào),2011(09):2206-2222.
[18] Yu W,Vetter JS,Oral H S.Performance Characterization and Optimization of Parallel I/O on the Cray XT[C]//the 22nd IEEE International Parallel and Distributed Processing Symposium(IPDPS2008),2008:1-11.
[19] Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C]//the6th Symposium on Operating Systems Design and Implementation,2004:1-13.
[20] McKusick M K,Quinlan S.GFS:Evolution on Fast-forward[J].ACM Queue,2009,7(7):10-20.
[21] Jones T,Koniges A,Yates R K.Performance of the IBM General Parallel File System[C]//the 14th International Symposium on Parallel and Distributed Processing,2000:673-681.
[22] Zhang H,Wu W,Dong X.A High Availability Mechanism for Parallel File System[C]//the6th International Workshop on Advanced Parallel Processing Technologies(APPT 2005),LMCS 3756,2005:194-203.
[23] Kim J,Kim I,Kim T,et.al.Design and Implementation of Metworking Virtualization for Cluster File System[C]//the2009 IEEE International Conference on Computation Science and Its Application,2009:79-83.
[24] 曹鴻.支持智能條帶化的并行文件系統(tǒng)管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院碩士論文,2007.
Research on the Performance of Distributed File System
ZHAO Tie.zhu YUAN Hua.q iang
(Engineering and Technology Institute,Dongguan University of Technology,Dongguan 523808,China)
With the developmentofmass data storage and I/O intensive applications,I/O increasingly becomes the performance bottleneck of distributed storage system and the distributed file system is the importantway to solve the problem of I/O bottleneck.How to systematically study the performance factor and optimize scheme of the distributed file system is an important research topic.This paper systematically elaborates the referred performance research of the distributed file system,analyzing the key performance impact factors of the distributed file system,and providing the design and performance optimization research of distributed file system.
distributed file system;data storage;performance factor;performance optimization
TP311
A
1009-0312(2014)01-0020-05
2013-04-01
廣東省自然科學(xué)基金資助項(xiàng)目(S2012040007746);國(guó)家自然科學(xué)基金資助項(xiàng)目(61170216)。
趙鐵柱(1983—),男,湖南婁底人,博士,主要從事分布式并行計(jì)算、分布式存儲(chǔ)、云計(jì)算等研究。