張國平,黃 淼,馬 麗
(平頂山學(xué)院 軟件學(xué)院,河南 平頂山 467000)
MapReduce[1]已成為支持云計(jì)算的關(guān)鍵技術(shù)之一,流行的MapReduce模型實(shí)現(xiàn)包括Mars、Phoenix、Hadoop和Google的實(shí)現(xiàn)[2],其中,Hadoop因其開源特性而最受歡迎,然而,Hadoop大量的配置參數(shù)給用戶帶來一些挑戰(zhàn)[3].
云計(jì)算環(huán)境下,通常很難確定出有助于實(shí)現(xiàn)良好性能的參數(shù)集,即映射器數(shù)目、節(jié)點(diǎn)數(shù)目及其CPU速度、緩沖區(qū)大小,建立物理Hadoop環(huán)境評(píng)估具有上百甚至上千節(jié)點(diǎn)的Hadoop應(yīng)用的擴(kuò)展性變得非常困難甚至不可能實(shí)現(xiàn)[4].而這些挑戰(zhàn)使得必須存在一種可以調(diào)整Hadoop集群性能的模擬器,現(xiàn)有的MapReduce模擬器往往僅限于簡(jiǎn)單行為的應(yīng)用[5].
基于上述分析,本文設(shè)計(jì)了一種支持云計(jì)算的MapReduce模擬器,主要貢獻(xiàn)在于模擬Hadoop環(huán)境動(dòng)態(tài)行為的高精度,模擬器中可對(duì)大量Hadoop參數(shù)建模,如節(jié)點(diǎn)參數(shù)、集群參數(shù)、Hadoop系統(tǒng)參數(shù)及模擬器參數(shù).
模擬器的精度驗(yàn)證遵循兩個(gè)步驟:一、針對(duì)權(quán)威基準(zhǔn)研究驗(yàn)證;二、評(píng)估它的行為,比較使用兩個(gè)Hadoop應(yīng)用的物理Hadoop集群中模擬器的行為.比較結(jié)果表明,本文設(shè)計(jì)的模擬器在模擬Hadoop環(huán)境中獲得了較高的精度和穩(wěn)定性.
Hadoop應(yīng)用的性能受很多參數(shù)的影響,本節(jié)將描述對(duì)這些參數(shù)的建模.
處理器:模擬器缺省設(shè)計(jì)支持每個(gè)計(jì)算機(jī)一個(gè)處理器,但是處理器的數(shù)目可以改變,一個(gè)處理器可以有一個(gè)或多個(gè)內(nèi)核,一個(gè)處理器內(nèi)核的處理速度定義為每秒處理的數(shù)據(jù)單位量,可以從真實(shí)實(shí)驗(yàn)測(cè)試中測(cè)量.
硬盤:硬盤實(shí)體中,IO操作速度隨時(shí)變化,引入多個(gè)參數(shù)構(gòu)建遞減讀/寫模型,令xmax表示硬盤的最大讀/寫速度,從測(cè)試Seagate Barracuda 1 TB硬盤的實(shí)驗(yàn)結(jié)果得知,xmax讀速約為120 MB/s,寫速約為60 MB/s.令xmin表示硬盤的最小讀/寫速度,xmin讀速約為55 MB/s,寫速約為25 MB/s.另一個(gè)參數(shù),遞減系數(shù)r表示每秒速度降低多少,基于實(shí)驗(yàn)測(cè)試該系數(shù)約為0.005 6.使用這些參數(shù)利用式(1)能計(jì)算出硬盤的實(shí)時(shí)速度x:
(1)
內(nèi)存:在每個(gè)內(nèi)存實(shí)體中建模兩個(gè)參數(shù):讀和寫,實(shí)驗(yàn)測(cè)試中,多通道標(biāo)準(zhǔn)DDR2-800內(nèi)存的讀速高達(dá)6000 MB/s,寫速高達(dá)5000 MB/s.很明顯,如此高的讀速和寫速都不是系統(tǒng)的瓶頸.
以太網(wǎng)適配器:在每個(gè)以太網(wǎng)適配器實(shí)體中建模兩個(gè)參數(shù):上行帶寬和下行帶寬,帶寬范圍在100~1000 Mbps.
集群參數(shù)表示所模擬的Hadoop集群的詳細(xì)信息,涉及多個(gè)方面,包括節(jié)點(diǎn)數(shù)目、拓?fù)浣Y(jié)構(gòu)和網(wǎng)絡(luò)設(shè)施[6].
節(jié)點(diǎn)數(shù)目:節(jié)點(diǎn)數(shù)目在1到幾百之間變化.
拓?fù)浣Y(jié)構(gòu):節(jié)點(diǎn)數(shù)目可組織成某種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),目前的模擬器僅支持簡(jiǎn)單機(jī)架.
網(wǎng)絡(luò)設(shè)施:路由器速度范圍為100~1000 MB/s,定義路由器帶寬時(shí),必須配置一些獨(dú)立計(jì)算機(jī)連接到路由器,從而確定它們的網(wǎng)絡(luò)容量.
作業(yè)隊(duì)列和作業(yè)調(diào)度:作業(yè)隊(duì)列存放等待作業(yè)實(shí)體,根據(jù)不同的作業(yè)調(diào)度器,作業(yè)等待處理資源,模擬器支持Hadoop框架的兩個(gè)作業(yè)調(diào)度器,先進(jìn)先得調(diào)度器和公平調(diào)度器,這兩類調(diào)度器產(chǎn)生不同的作業(yè)處理順序.
Hadoop應(yīng)用開始處理數(shù)據(jù)之前,數(shù)據(jù)應(yīng)該預(yù)先保存到Hadoop分布式文件系統(tǒng) (Hadoop distributed file system, HDFS),文件的數(shù)目影響涉及的映射實(shí)例數(shù)目[7].
作業(yè)說明:描述作業(yè)屬性涉及許多參數(shù),JobID指跟蹤作業(yè)時(shí)分配給每個(gè)作業(yè)的唯一ID,是輸入數(shù)據(jù)的總大小,無論提交多少數(shù)據(jù)塊,該值為整個(gè)數(shù)據(jù)的總大小.
模擬Hadoop參數(shù):這組參數(shù)與Hadoop框架高度相關(guān),io.sort.mb表示排序映射輸出時(shí)所用的內(nèi)存緩沖區(qū)大小.io.sort.record.percent表示io.sort.mb為存儲(chǔ)映射輸出結(jié)果記錄邊界預(yù)留的比例,剩余空間用于映射輸出記錄它們本身.io.sort.spill.percent參數(shù)是一個(gè)閾值,確定映射實(shí)例何時(shí)啟動(dòng)溢出過程寫數(shù)據(jù)到內(nèi)存.若達(dá)到閾值,CPU處理暫停,刷新緩沖區(qū),意味著所有保存在虛擬內(nèi)存中的數(shù)據(jù)將溢出到硬盤.io.sort.factor(1)參數(shù)指定映射階段排序文件時(shí)合并的最大流數(shù)目,該參數(shù)顯著影響系統(tǒng)的IO參數(shù).mapred.reduce.parallel.copies指用于拷貝映射輸出到化簡(jiǎn)器的線程數(shù)目,根據(jù)硬件資源使用適當(dāng)數(shù)目的拷貝線程會(huì)提升系統(tǒng)性能.io.sort.factor(2)表示化簡(jiǎn)階段執(zhí)行排序文件時(shí)合并的最大流數(shù)目.The mapred.job.shuffle.input.buffer.percent為混洗拷貝階段分配給映射輸出緩沖區(qū)的總堆大小比例.mapred.inmem.merge.threshold表示啟動(dòng)合并輸出和溢出到硬盤過程的映射輸出數(shù)目閾值,使用該參數(shù),內(nèi)存中能夠操作較小數(shù)目的映射器輸出,而非局部硬盤,因此硬盤執(zhí)行排序和合并產(chǎn)生較少開銷.JVM Reuse參數(shù)在模擬器中部分模擬,使用JVM Reuse,可顯著降低一些短期任務(wù)產(chǎn)生的開銷.
模擬器本身需要一些參數(shù)控制其自身行為,下面介紹模擬器中的重要參數(shù).
系統(tǒng)時(shí)鐘:一個(gè)絕對(duì)且連續(xù)的計(jì)時(shí)元件,每次改變系統(tǒng)時(shí)鐘,當(dāng)前值會(huì)加1 s,用于記錄當(dāng)前系統(tǒng)時(shí)間,測(cè)量各種集群配置中Hadoop應(yīng)用的性能.
執(zhí)行速度:控制模擬器中所有元件的執(zhí)行速度.
精度級(jí)別:對(duì)于正常Hadoop應(yīng)用,將該參數(shù)設(shè)為秒級(jí),為了維持模擬中的高精度,也可設(shè)為毫秒級(jí).
共享參數(shù):控制共享資源的比率,包括硬盤和帶寬.比率定義為:r=AssignedResource/TotalResource.
基于Hadoop框架,本節(jié)描述模擬器的設(shè)計(jì).
為了執(zhí)行模擬,從集群讀取集群參數(shù),創(chuàng)建一個(gè)模擬的Hadoop集群環(huán)境.初始化指定數(shù)目的節(jié)點(diǎn),使用某種拓?fù)浣Y(jié)構(gòu)分配這些節(jié)點(diǎn).配置好集群后,由集群讀取處理節(jié)點(diǎn)參數(shù),而且指定節(jié)點(diǎn)類型,包括處理器、硬盤、內(nèi)存、主節(jié)點(diǎn)、備節(jié)點(diǎn)、映射實(shí)例和化簡(jiǎn)實(shí)例.這個(gè)初始化過程既能創(chuàng)建同構(gòu)節(jié)點(diǎn)也能創(chuàng)建異構(gòu)節(jié)點(diǎn).然后模擬的集群已準(zhǔn)備好使用各種作業(yè)調(diào)度器從作業(yè)隊(duì)列檢索傳入作業(yè),作業(yè)說明將由作業(yè)讀取元件處理,作業(yè)提交給模擬器進(jìn)行模擬.
模擬器遵循主備模式,模擬的映射實(shí)例(MapperSim)、化簡(jiǎn)實(shí)例(ReducerSim)、JobTracker(作業(yè)跟蹤器)和任務(wù)跟蹤器位于這些節(jié)點(diǎn)[8].
當(dāng)Hadoop應(yīng)用提交到模擬器時(shí),將輸入數(shù)據(jù)分割成許多數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊與一個(gè)映射實(shí)例關(guān)聯(lián),處理過程中,分配每個(gè)任務(wù)給映射實(shí)例執(zhí)行,映射實(shí)例的操作由MapperSim元件模擬.
MapperSim模擬每個(gè)節(jié)點(diǎn)上映射實(shí)例(映射器)的操作,它拷貝保存在HDFS上的數(shù)據(jù)到它自己的局部硬盤,通常每個(gè)MapperSim處理一個(gè)文件塊,但如果HDFS僅保存了一個(gè)文件塊時(shí),則分割的邏輯塊數(shù)目可控制作業(yè)中涉及的MapperSim實(shí)例數(shù)目.數(shù)據(jù)拷貝并保存在局部硬盤后,MapperSim開始處理數(shù)據(jù),基于模擬的Hadoop應(yīng)用的作業(yè)說明.處理過程中會(huì)產(chǎn)生中間數(shù)據(jù),為了改善IO性能,中間數(shù)據(jù)將寫入內(nèi)存緩沖區(qū).緩沖區(qū)中能夠預(yù)排序數(shù)據(jù),以便獲得高效率.數(shù)據(jù)一直往緩沖區(qū)中寫入,若達(dá)到閾值,則啟動(dòng)背景線程將數(shù)據(jù)溢出到硬盤,溢出發(fā)生時(shí)中間數(shù)據(jù)持續(xù)寫入到緩沖區(qū).若這段時(shí)間內(nèi)緩沖區(qū)滿了,則CPU處理受阻塞,直到溢出程序完成.對(duì)于每個(gè)輸出的溢出塊,在它寫入硬盤之前,背景線程將劃分塊成與化簡(jiǎn)實(shí)例相關(guān)的分區(qū),這期間會(huì)有內(nèi)存預(yù)排序,若需要合并函數(shù),排序后這個(gè)步驟中還涉及合并器,任務(wù)完成后,分區(qū)合并成單個(gè)文件,包含待拷貝到化簡(jiǎn)實(shí)例的有序數(shù)據(jù).
ReducerSim元件模擬Hadoop框架中的化簡(jiǎn)實(shí)例,用于收集MapperSim的輸出,化簡(jiǎn)到HDFS的最終輸出.
MappererSim元件中的輸出文件保存在局部硬盤,ReducerSim元件因其特殊劃分需要多個(gè)MapperSim元件的輸出.當(dāng)一個(gè)輸出準(zhǔn)備好時(shí)ReducerSim開始拷貝數(shù)據(jù),每個(gè)ReducerSim有多個(gè)拷貝線程,以便它能并行拷貝多個(gè)MapperSim元件的輸出結(jié)果.對(duì)于某些Hadoop應(yīng)用,化簡(jiǎn)實(shí)例可能需要處理涉及處理器但沒有IO操作的數(shù)據(jù),模擬器中的ReducerSim支持該特性,序列圖如圖1所示.
圖1 ReducerSim中的硬件交互
作業(yè)跟蹤器主要用于跟蹤模擬的作業(yè),任務(wù)跟蹤器用于運(yùn)行單個(gè)任務(wù).當(dāng)提交了作業(yè)時(shí),發(fā)送作業(yè)ID到作業(yè)跟蹤器進(jìn)行跟蹤,作業(yè)跟蹤器開始計(jì)算作業(yè)的輸入分割,然后為每個(gè)分割創(chuàng)建一個(gè)映射任務(wù).任務(wù)跟蹤器通過檢測(cè)信號(hào)周期性發(fā)送消息到作業(yè)跟蹤器,告訴作業(yè)跟蹤器該任務(wù)跟蹤器正在工作,作為部分檢測(cè)信號(hào),任務(wù)跟蹤器將告知是否完成當(dāng)前任務(wù)并準(zhǔn)備運(yùn)行新任務(wù),圖2表示模擬器中元件的工作流.
圖2 模擬器的工作流程
為了驗(yàn)證模擬器,本文執(zhí)行了許多測(cè)試,比較了模擬器的性能與公開的基準(zhǔn)結(jié)果,還建立了Hadoop集群的實(shí)驗(yàn)環(huán)境,用本文的Hadoop應(yīng)用評(píng)估了模擬器.
使用文獻(xiàn)[9]提出的3個(gè)基準(zhǔn)結(jié)果驗(yàn)證模擬器,這3個(gè)基準(zhǔn)為Grep任務(wù)、選擇任務(wù)和UDF聚合任務(wù).
3.1.1 Grep任務(wù)
在這項(xiàng)任務(wù)中精確模擬文獻(xiàn)[9]中基準(zhǔn)研究所做的工作,分別使用1個(gè)節(jié)點(diǎn)、10個(gè)節(jié)點(diǎn)、25個(gè)節(jié)點(diǎn)、50個(gè)節(jié)點(diǎn)和100個(gè)節(jié)點(diǎn)模擬集群,測(cè)試兩個(gè)場(chǎng)景:一個(gè)是分配給每個(gè)節(jié)點(diǎn)535MB數(shù)據(jù)去處理;另一個(gè)是提交1 TB數(shù)據(jù)到集群.每種場(chǎng)景評(píng)估5次,模擬結(jié)果分別如圖3所示,它們接近于基準(zhǔn)結(jié)果.兩種場(chǎng)景的置信區(qū)間小(第一種場(chǎng)景中在0~2.6 s范圍內(nèi),第二種場(chǎng)景中在4.1~7.6 s范圍內(nèi)),表明了模擬器的穩(wěn)定性能.
(a)535 MB/節(jié)點(diǎn) (b) 1 TB/集群
選擇任務(wù)的目的是觀察Hadoop框架處理復(fù)雜任務(wù)的性能,每個(gè)節(jié)點(diǎn)處理1 GB排序表,使用用戶定義的閾值檢索目標(biāo)pageURLs,本文模擬了這個(gè)任務(wù),模擬結(jié)果如圖4(a)所示.
(a)選擇任務(wù)評(píng)估 (b)聚合任務(wù)評(píng)估
3.1.2選擇任務(wù)
從圖4(a)可以看出,模擬結(jié)果接近基準(zhǔn)結(jié)果,置信區(qū)間小,在2.6~6.6 s范圍內(nèi).
3.1.3 UDF聚合任務(wù)
UDF聚合任務(wù)讀生成的文檔文件,搜索出現(xiàn)在內(nèi)容中的所有URLs,然后對(duì)于每個(gè)唯一URL,模擬器計(jì)數(shù)表示整個(gè)文件集中特定URL的唯一頁的數(shù)目,模擬結(jié)果如圖4(b)所示,從圖中可以看出,仍然與基準(zhǔn)結(jié)果接近,有小置信區(qū)間,表明了模擬器的高穩(wěn)定性.
本文實(shí)現(xiàn)了兩個(gè)Hadoop應(yīng)用:信息檢索和基于圖像標(biāo)注的內(nèi)容,在Hadoop實(shí)驗(yàn)集群和模擬器中評(píng)估兩個(gè)應(yīng)用,本節(jié)給出了評(píng)估結(jié)果.
3.2.1實(shí)驗(yàn)和模擬環(huán)境
Hadoop實(shí)驗(yàn)集群由4個(gè)節(jié)點(diǎn)組成,3個(gè)節(jié)點(diǎn)用作數(shù)據(jù)節(jié)點(diǎn),CPU Q6600@2.4G,RAM 3GB,230 GB Seagate硬盤,運(yùn)行OS Fadora 12,一個(gè)節(jié)點(diǎn)用作命名節(jié)點(diǎn),CPU C2D7750@2.26G, 2 GB RAM,運(yùn)行OS Fadora 12.每個(gè)數(shù)據(jù)節(jié)點(diǎn)缺省集群配置下采用4個(gè)映射器和1個(gè)化簡(jiǎn)器,網(wǎng)絡(luò)帶寬1 Gbps.使用模擬器模擬Hadoop集群,與上述實(shí)驗(yàn)集群的配置相同.
3.2.2MR-LSI
MR-LSI[1,5]是基于分布式LSI算法用于信息檢索的MapReduce,使用Hadoop框架設(shè)計(jì)并實(shí)現(xiàn)MR-LSI,MR-LSI擁有映射和化簡(jiǎn)函數(shù),包含大量IO操作,本文在實(shí)驗(yàn)環(huán)境和模擬器中評(píng)估了MR-LSI,結(jié)果如圖5(a)所示.
(a) MR-LSI (b) MR-SMO
從圖5(a)可以看出,模擬器的整體性能基本上與真實(shí)Hadoop集群接近,尤其是處理大尺寸數(shù)據(jù)集和涉及增加映射器數(shù)目的MapReduce作業(yè)的場(chǎng)景.此外,模擬器顯著優(yōu)于MRPerf,相比真實(shí)Hadoop集群的性能,正如前面所討論,使用太多Hadoop參數(shù)值的估計(jì)限制了MRPerf模擬MapReduce行為的精度.
3.2.3MR-SMO
MR-SMO[10]是基于分布式SMO算法的針對(duì)基于圖像注釋內(nèi)容的MapReduce,MR-SMO建立在Hadoop框架基礎(chǔ)上,也涉及映射和化簡(jiǎn)函數(shù).在實(shí)驗(yàn)Hadoop集群和模擬器中評(píng)估了MR-SMO,還利用MRPerf模擬器評(píng)估了MR-SMO的性能.從圖5(b)可以看出,使用模擬器的模擬集群性能與真實(shí)Hadoop集群的性能相當(dāng)接近,而MRPerf不能產(chǎn)生精確模擬結(jié)果.
前文已提到,許多參數(shù)會(huì)影響Hadoop應(yīng)用的性能,為了研究這些參數(shù)的影響,本文使用模擬器執(zhí)行了一系列模擬測(cè)試.研究了3個(gè)重要參數(shù)的影響,即數(shù)據(jù)塊大小、緩沖區(qū)大小和排序系數(shù),通過調(diào)整它們的值.使用MR-LSI算法作為這些測(cè)試中的一個(gè)Hadoop應(yīng)用,使用表1所示配置的模擬器模擬Hadoop集群.
表1 使用模擬器模擬Hadoop集群配置
3.3.1塊大小
增加數(shù)據(jù)塊大小會(huì)減少映射波形和IO操作數(shù),在這些測(cè)試中分別采用64 MB和100 MB的數(shù)據(jù)塊大小,圖6(a)表示數(shù)據(jù)塊大小對(duì)Hadoop應(yīng)用性能的影響.
(a)數(shù)據(jù)塊的影響 (b)緩沖大小的影響 (c)排序系數(shù)的影響
從圖6(a)可以看出,當(dāng)映射器的數(shù)目小于800時(shí),使用較大數(shù)據(jù)塊能產(chǎn)生更好的性能,由于映射器波形的數(shù)目減少了.但是當(dāng)映射器數(shù)目增加到800時(shí),數(shù)據(jù)塊大小幾乎不再影響Hadoop應(yīng)用的性能,原因是映射器數(shù)目變大時(shí),僅涉及小數(shù)目映射器波形.例如,在800個(gè)映射器的情況下,64 MB和100 MB兩種場(chǎng)景需要2個(gè)映射器波形產(chǎn)生類似性能.
3.3.2緩沖區(qū)大小
待溢出到硬盤的文件數(shù)目高度依賴于緩沖區(qū)大小,緩沖區(qū)越大,產(chǎn)生的文件數(shù)目越小,溢出文件數(shù)目越小,越能減少IO操作中的開銷.本文分別使用100 MB和1000 MB評(píng)估了緩沖區(qū)大小如何影響Hadoop應(yīng)用的性能.
從圖6(b)中可以看出,使用較大緩沖區(qū)能產(chǎn)生較好性能,與涉及的映射器數(shù)目無關(guān),原因是基于很多IO的Hadoop應(yīng)用,使用大緩沖區(qū)能減少硬盤操作數(shù)目,從而急劇減少開銷.
3.3.3排序系數(shù)
執(zhí)行排序時(shí),排序系數(shù)控制待合并的最大文件數(shù)目,使用大排序系數(shù)意味著某一時(shí)刻能合并多個(gè)文件,這會(huì)減少排序開銷,如圖6(c)所示為使用較大排序系數(shù)產(chǎn)生較好性能的場(chǎng)景.
Hadoop框架是一個(gè)涉及許多元件的復(fù)雜系統(tǒng),設(shè)計(jì)并實(shí)現(xiàn)模擬器來模擬這些元件及其交互,它以類似于Hadoop框架的方式工作,但是不能簡(jiǎn)單推斷模擬器能夠沒有任何限制的精確模擬Hadoop,模擬器的精度受許多因素的影響,如作業(yè)傳播的時(shí)間、映射實(shí)例的冷啟動(dòng)、鍵分布、系統(tǒng)通信、共享硬件資源和動(dòng)態(tài)IO負(fù)載,這些動(dòng)態(tài)因素會(huì)影響實(shí)驗(yàn)和模擬結(jié)果的性能,依賴于用戶應(yīng)用.
Hadoop的性能合并器特性也會(huì)影響模擬器的精度,但是,合并器實(shí)例不能在模擬器中完全實(shí)現(xiàn),合并器可以考慮為一個(gè)內(nèi)存排序過程,合并映射器的輸出并通過合并器寫入中間文件,然后發(fā)送文件到化簡(jiǎn)器,因此當(dāng)映射器數(shù)目小時(shí),使用合并器的益處不明顯,但是當(dāng)映射器數(shù)目變大時(shí),包括硬盤讀寫的系統(tǒng)IO操作和網(wǎng)絡(luò)實(shí)體將顯著受益于合并器的使用.
本文設(shè)計(jì)了一種支持云計(jì)算環(huán)境的MapReduce模擬器,用于模擬數(shù)據(jù)密集型MapReduce應(yīng)用,使用建立的基準(zhǔn)結(jié)果和實(shí)驗(yàn)環(huán)境驗(yàn)證了模擬器.結(jié)果表明,所設(shè)計(jì)的模擬器可以精確模擬Hadoop集群的動(dòng)態(tài)行為,可用于研究許多Hadoop參數(shù)的影響,通過調(diào)整參數(shù)值,也可用于研究涉及數(shù)百個(gè)節(jié)點(diǎn)的MapReduce應(yīng)用的擴(kuò)展性.
Hadoop框架的一個(gè)顯著特點(diǎn)是支持異構(gòu)計(jì)算環(huán)境,但是,Hadoop目前的應(yīng)用僅采用先進(jìn)先出和公平調(diào)度,不支持考慮各種計(jì)算機(jī)資源的負(fù)載平衡.未來研究將考慮將負(fù)載平衡加入到模擬器,利用它來對(duì)Hadoop框架進(jìn)行可能性擴(kuò)展.此外,還計(jì)劃在模擬較大型Hadoop集群中進(jìn)一步驗(yàn)證模擬器的精度,例如Amazon EC2云.