丁斌,袁博,鄭煥坤,邢志坤,王帆
(1.國網(wǎng)河北省電力有限公司雄安新區(qū)供電公司,河北 保定 071700;2.華北電力大學(xué),河北 保定 071000)
隨著新型電力系統(tǒng)建設(shè)的不斷加快,源網(wǎng)荷儲負(fù)荷控制類業(yè)務(wù)迅速發(fā)展,用電數(shù)據(jù)信息呈指數(shù)增長[1-2],數(shù)據(jù)分析和處理在未來新型電力系統(tǒng)建設(shè)過程中發(fā)揮的作用越來越重要[3-4]。對于相對固定的電力基礎(chǔ)設(shè)施[5],底層網(wǎng)絡(luò)架構(gòu)不能隨意更改,因此,依托現(xiàn)有電力數(shù)據(jù)存儲網(wǎng)絡(luò)架構(gòu),滿足未來電力業(yè)務(wù)對低時延數(shù)據(jù)處理的需求,對未來新型電力系統(tǒng)發(fā)展提出了更大的挑戰(zhàn)[6-7]。針對帶寬和數(shù)據(jù)中心(DC)位置分布受限的問題目前主要采用任務(wù)調(diào)度和數(shù)據(jù)副本管理兩種策略進(jìn)行解決[8]。但由于電力業(yè)務(wù)類型多樣,應(yīng)用場景多元化,數(shù)據(jù)處理差異性大,單純采用任務(wù)調(diào)度進(jìn)行數(shù)據(jù)之間的協(xié)調(diào)處理存在一定的困難,盡管通過數(shù)據(jù)副本管理能夠有效感知底層數(shù)據(jù)業(yè)務(wù)類型,為應(yīng)用程序提供底層支持[9],但目前大部分采用集中數(shù)據(jù)處理方式,許多電力數(shù)據(jù)應(yīng)用程序由于帶寬不足或延遲較長而導(dǎo)致效率低下[10-11]。因此,在數(shù)據(jù)并行計算框架下,基于數(shù)據(jù)中心的位置分布開發(fā)自適應(yīng)存儲管理是解決電力大數(shù)據(jù)處理問題的一種可行的、較好的解決方案。
在分布式數(shù)據(jù)中心,優(yōu)化副本管理是除任務(wù)調(diào)度之外的另一重要解決方案,廣泛應(yīng)用于移動網(wǎng)絡(luò)、節(jié)能管理、視頻業(yè)務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域工作,虛擬機(jī)管理[12]。為了解決副本管理中的布局問題,文獻(xiàn)[13]提出了一種基于K-List算法的調(diào)度機(jī)制,在保持低存儲成本的同時優(yōu)化文本訪問延遲。文獻(xiàn)[14]提出了一種基于拓?fù)涓兄膯l(fā)式算法,通過分析研究和實驗來識別DCs中MapReduce的性能問題,并構(gòu)建了一種最優(yōu)副本數(shù)據(jù)管理方案,最小化數(shù)據(jù)訪問成本。文獻(xiàn)[15]提出了一種核奇異值分解稀疏算法,以提高電力行業(yè)智能電能表數(shù)據(jù)壓縮比和分類精度,降低數(shù)據(jù)存儲容量。文獻(xiàn)[16]基于多線程和最大流量,提出了一種處理異構(gòu)存儲架構(gòu)的最優(yōu)副本選擇算法,并與黑箱方式下的最大流量算法進(jìn)行了比較,降低大量不必要的流計算,實現(xiàn)了更少的響應(yīng)延遲。為了減少數(shù)據(jù)可用時間和數(shù)據(jù)訪問時間,文獻(xiàn)[17]開發(fā)了復(fù)制算法,該算法使用多個標(biāo)準(zhǔn)對副本的選擇和放置進(jìn)行決策。該算法考慮了多個參數(shù),如存儲容量、帶寬和分布式站點的通信成本。
然而,上述這些研究大多集中在通用領(lǐng)域的數(shù)據(jù)優(yōu)化上,針對分布式電力大數(shù)據(jù)系統(tǒng)的存儲優(yōu)化管理研究較少,無法有效地應(yīng)用電力大數(shù)據(jù)存儲。對此,提出了一種基于隨機(jī)配置網(wǎng)絡(luò)(Stochastic Configuration Network,SCN)的自適應(yīng)副本管理系統(tǒng)(Prediction-based Adaptive Replica Management System,PARMS)充分考慮網(wǎng)絡(luò)流量和數(shù)據(jù)中心(Data Center,DC)的地理分布,構(gòu)建電力大數(shù)據(jù)自適應(yīng)副本管理模型。同時,提出了一種基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測方法,有效完成數(shù)據(jù)庫網(wǎng)絡(luò)資源的實時評估。為有效提升電力大數(shù)據(jù)副本管理效率降低數(shù)據(jù)處理延時,提出了一種面向新型電力系統(tǒng)的數(shù)據(jù)存儲和選擇的副本管理算法,實現(xiàn)電力大數(shù)據(jù)副本的靈活存儲和最優(yōu)選擇。最后,在相應(yīng)省公司開展試點驗證,該算法能夠有效地處理電力大數(shù)據(jù)存儲,降低數(shù)據(jù)處理延時。
電力大數(shù)據(jù)處理中心采用標(biāo)準(zhǔn)的分層結(jié)構(gòu),遵循嚴(yán)格的數(shù)據(jù)分層,各數(shù)據(jù)中心通過專用高速數(shù)據(jù)鏈路進(jìn)行連接。數(shù)據(jù)計算和資源存儲的異構(gòu)性導(dǎo)致各數(shù)據(jù)中心之間的網(wǎng)絡(luò)拓?fù)浜蛶捪鄬Ψ€(wěn)定。大功率數(shù)據(jù)處理任務(wù)對數(shù)據(jù)中心(Data Center,DC)的計算和存儲容量提出更大的挑戰(zhàn),大量不同容量的設(shè)備不斷部署到中心,導(dǎo)致計算或存儲服務(wù)器的性能存在明顯的異構(gòu)性。為了在相對固定的分布式數(shù)據(jù)中心上實現(xiàn)電力大數(shù)據(jù)的低延遲處理,提出了一種基于隨機(jī)配置網(wǎng)絡(luò)的自適應(yīng)副本管理模型,如圖1所示。集群中的跟蹤守護(hù)進(jìn)程和線程監(jiān)視系統(tǒng)為GaExUnit收集運行信息;GaExUnit對日志進(jìn)行再處理,轉(zhuǎn)發(fā)給智能分析系統(tǒng)進(jìn)行分析。根據(jù)智能分析系統(tǒng)的輸出,GaExUnit中的副本管理組件運行算法來優(yōu)化副本的放置和選擇,而優(yōu)化器執(zhí)行最優(yōu)指令。
圖1 基于隨機(jī)配置網(wǎng)絡(luò)的自適應(yīng)副本管理模型Fig.1 An adaptive replica management model based on randomly configured network
為有效應(yīng)對大量不同類型底層終端電力設(shè)備接入,對網(wǎng)絡(luò)數(shù)據(jù)流量的沖擊、降低副本管理負(fù)擔(dān),提出了一種基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測模型,基于網(wǎng)絡(luò)容量對底層設(shè)備進(jìn)行分類,為副本和系統(tǒng)管理提供底層設(shè)備流量數(shù)據(jù)指標(biāo),同時依托深度學(xué)習(xí)模型和計算任務(wù)的應(yīng)用信息,采用網(wǎng)絡(luò)流量負(fù)載預(yù)測框架為副本管理提供近期可能的網(wǎng)絡(luò)流量[18-19]。
針對計算服務(wù)器和存儲服務(wù)器的異構(gòu)性能所導(dǎo)致的可擴(kuò)展性問題,采用基于模糊C-means的聚類算法將計算服務(wù)器和存儲服務(wù)器劃分為不同的邏輯組。
電力大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)可以簡單地描述為一個有向圖G=(V,E),其中頂點集合V=CN∪SN,CN={cn1,...,cni,...,cnnc}表示計算節(jié)點,SN={sn1,...,sni,...,snnc}表示數(shù)據(jù)存儲節(jié)點(也稱數(shù)據(jù)節(jié)點),E表示節(jié)點之間的傳輸網(wǎng)絡(luò)鏈路。假設(shè)系統(tǒng)中有n個計算節(jié)點或數(shù)據(jù)節(jié)點,每個節(jié)點具有決定節(jié)點CPU速度、IPOS性能的屬性。pfi,k(1≤k≤np,k∈N)為第i個節(jié)點的第k個屬性。因此,第i個節(jié)點的所有屬性都可以表示為一個向量。
PFi=(λ1pfi,1,...,λkpfi,k,...,λppfi,np),PFi∈Rnp
(1)
式中λ是第j個屬性的系數(shù),它將屬性值的各個范圍歸一化為0~1。
將n個計算節(jié)點或存儲節(jié)點的所有屬性疊加,得到一個矩陣:
PF=(λkpfi,k),PFi∈Rnp
(2)
PF作為聚類算法的輸入。它的輸出是:
(3)
式中LCT或LST的下標(biāo)表示節(jié)點集群,表示節(jié)點集群處理數(shù)據(jù)的能力。
近年來,一些研究人員在基于數(shù)據(jù)并行計算的大數(shù)據(jù)處理系統(tǒng)中,采用應(yīng)用級數(shù)據(jù)訪問模式進(jìn)行流量預(yù)測,取得了比傳統(tǒng)預(yù)測算法更好的性能,與其他大數(shù)據(jù)處理平臺相比,DC架構(gòu)、數(shù)據(jù)采集方式以及電力大數(shù)據(jù)處理任務(wù)的執(zhí)行得到有效規(guī)范。對此提出了一種基于SCN的網(wǎng)絡(luò)流量預(yù)測模型,預(yù)測未來一段時間內(nèi)的網(wǎng)絡(luò)流量,如圖2所示。
該模型主要由以下三部分組成:
(1)基于操作員執(zhí)行時間擬合的SCN模型;
(2)從數(shù)據(jù)并行計算應(yīng)用中提取DAG信息并計算出每個階段的流量大??;
(3)對作業(yè)執(zhí)行日志的時間序列分析,以找出作業(yè)執(zhí)行順序的某些模式。
圖2 網(wǎng)絡(luò)流量預(yù)測模型Fig.2 Network traffic prediction model
定義1:任務(wù)描述符,工作節(jié)點執(zhí)行的計算任務(wù)的描述符,記為:
TRC=〈IS,DT,Pri,WCID,JCID,CPU,Mem,OP〉
(4)
式中IS為整數(shù)表示的輸入大小計算任務(wù);DT為 CSG收集的數(shù)據(jù)的類型分類;Pri為調(diào)度因子,用于計算資源分配的CPU和Mem調(diào)度器;WCID為聚類算法的聚類數(shù)目;JCID為一個計算任務(wù)是處理器密集型、內(nèi)存密集型還是輸入輸出(I/O)密集型;OP為數(shù)據(jù)的操作符號。
定義2:任務(wù)事件,操作符的描述符和需處理的數(shù)據(jù)量,記為enk。與 DCFs作為事件提供的運營商相關(guān)的事件ε={enk}的集合,k=1,…,ne。enk可以由元組{OP,IS}表示,元組由操作符OP和輸入數(shù)據(jù)IS的大小組成。在任務(wù)處理過程中一次運行的任務(wù)事件的狀態(tài)為RTE(EN),其中EN由任務(wù)事件組成,其持續(xù)時間表示為EN={(enk,tk)}。特別是,當(dāng)任務(wù)事件完成時,tk值為零或為空。在時間t工作節(jié)點cni的狀態(tài)可以表示為:
Si,t=RTE(i,(enk,tk,i),…,(ennc,tnc,i))
(5)
式中變量值在一段時間內(nèi)的變化情況計算如下:
ΔSi,Δt=(Si,tΘSi,t‘),t=(RTE(i,(en1,Δti,1),…,(enne,Δti,ne)))
(6)
式中 Δt表示完成任務(wù)事件的剩余時間。
根據(jù)上述定義和公式,我們現(xiàn)在介紹基于SCN的擬合模型。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法或其他深度學(xué)習(xí)模型相比,SCN在實現(xiàn)可靠預(yù)測結(jié)果的同時,對系統(tǒng)引入的開銷很小,系統(tǒng)輸入和輸出模型可近似表示為:
Xi,t=(t,TE,ΔSi,ΔT),Yi,t=tTE
(7)
作為我們預(yù)測框架的第二部分。除了為擬合模型提供操作日志,它還輸出一個三元組(源、目標(biāo)、流量大小)?;谶@些信息,使用SCN模型來預(yù)測流量接入網(wǎng)絡(luò)的時間。為了挖掘電力行業(yè)中的某些潛在的周期性,我們采用簡單但高效的序列模式挖掘算法,作為網(wǎng)絡(luò)流量預(yù)測框架的第三部分。
作為云存儲軟件系統(tǒng)的重要組成部分,副本管理技術(shù)在提高并發(fā)訪問、數(shù)據(jù)的可靠性和可用性方面發(fā)揮著非常重要的作用。副本管理包括副本生成、副本刪除、副本存儲和副本選擇[20],由于副本的存儲方式和管理策略對于未來新型電力系統(tǒng)大數(shù)據(jù)存儲產(chǎn)生的影響相對較大,對此文中著重對這兩部分進(jìn)行研究,并給出了對應(yīng)的算法。
在電力大數(shù)據(jù)系統(tǒng)中,相對固定的分布式控制系統(tǒng)之間的數(shù)據(jù)并行計算存在一些潛在模式或一定的周期性[21-22]。不同應(yīng)用程序的數(shù)據(jù)訪問頻率差異性較大,導(dǎo)致數(shù)據(jù)塊的冷熱程度不同。因此,我們需要通過考慮副本因素和存儲位置,針對副本存儲以及如何選擇副本做出最佳決策。
具有相同訪問頻率的數(shù)據(jù)塊可能具有不同的流行度,并根據(jù)不同的計算任務(wù)而變化。每個數(shù)據(jù)塊及其副本都與記錄其訪問流行度的時間戳隊列相關(guān)聯(lián)。數(shù)據(jù)塊流行度可表示為:
(8)
式中heatt+1(bi)為數(shù)據(jù)塊bi在時刻t+1訪問流行度的更新值;衰減函數(shù)log2(eλ(Tt+1-Tt))-2表示副本的訪問流行度隨時間的變化,冷卻系數(shù)λ、k和f與k∈(0,1)和f∈(-1,1)的系數(shù)一致;Rt為在時刻t的訪問次數(shù);Ft為從SEQS開始的一段時間內(nèi)I/O事件的預(yù)測序列中可能出現(xiàn)的訪問次數(shù);Z為歸一化因子。
通過使用最大似然估計,訪問因子被分配給SEQS的歷史日志中的每個數(shù)據(jù)塊。訪問因子和流行度之間的關(guān)系可表示為:
(9)
式中Rep(bi)為數(shù)據(jù)塊bi的訪問因子;heatT(bi)為bi在T時刻的訪問流行度;網(wǎng)絡(luò)數(shù)據(jù)塊評估參數(shù)θ∈Θ可表示為:
(10)
基于上述研究的網(wǎng)絡(luò)流量預(yù)測模型和數(shù)據(jù)塊流行度,提出了一種動態(tài)副本存儲算法,通過優(yōu)化分布式控制系統(tǒng)之間的網(wǎng)絡(luò)傳輸來提高系統(tǒng)吞吐量和數(shù)據(jù)傳輸速率,具體算法流程如圖3所示。
圖3 基于電力大數(shù)據(jù)的動態(tài)副本存儲算法Fig.3 Dynamic replica storage algorithm based on power big data
在副本存儲之后,選擇最佳副本滿足數(shù)據(jù)處理需求的實時性,面對不同的應(yīng)用場景是一個具有挑戰(zhàn)性的問題。為了衡量副本的可維護(hù)性,我們選擇了三個重要指標(biāo): 響應(yīng)時間、網(wǎng)絡(luò)流量負(fù)載和可靠性。根據(jù)給定計算任務(wù)的數(shù)據(jù)訪問的服務(wù)質(zhì)量(QoS)要求進(jìn)行加權(quán),即:w=(w1,w2,w3)w1+w2+w3=1(0 (1)選擇矩陣:副本選擇的可能性,表示為PM。假設(shè)給定計算任務(wù)的n個計算節(jié)點請求集合RC={rc1,rc2,...,rcnrs}和m個數(shù)據(jù)節(jié)點將副本保存為數(shù)據(jù)集RS={rs1,rs2,...,rsnrs}。n個計算節(jié)點的PM和m個數(shù)據(jù)塊副本可表示為: PM=RCtRS=(pmi,j)nrc×nrs (11) 式中pmi,j=1表示計算節(jié)點rci通過數(shù)據(jù)節(jié)點j請求副本rsj,pmi,j=0表示不請求副本訪問(1≤i≤nrc,1≤j≤nrs)。 (2)響應(yīng)時間QoS1:節(jié)點間數(shù)據(jù)傳輸?shù)男阅苤饕晒?jié)點間網(wǎng)絡(luò)傳輸容量決定。vi,j主要受整個NT的網(wǎng)絡(luò)歷史參數(shù)、網(wǎng)絡(luò)NV的運行狀態(tài)以及存儲服務(wù)器L的IPOS影響,具體表達(dá)式如下: (12) 式中a′,β′和γ′分別為NT網(wǎng)絡(luò)歷史參數(shù)、網(wǎng)絡(luò)NV的運行狀態(tài)和存儲服務(wù)器L的IPOS對應(yīng)的影響因子。 因此響應(yīng)時間的指標(biāo)矩陣可以表示為: QoS1←(vi,j) (13) (3)網(wǎng)絡(luò)流量負(fù)載QoS2:節(jié)點間的網(wǎng)絡(luò)流量負(fù)載也是副本選擇的一個重要因素。nli,j是網(wǎng)絡(luò)流量負(fù)載評估指標(biāo),由當(dāng)前網(wǎng)絡(luò)流量負(fù)載 (KNL)和擬合模型fτ預(yù)測的未來網(wǎng)絡(luò)流量負(fù)載荷(FNL)決定: (14) 式中μ(0≤μ≤1)網(wǎng)絡(luò)流量負(fù)載系數(shù),是通過檢查歷史數(shù)據(jù)設(shè)置的。因此,網(wǎng)絡(luò)流量負(fù)載指標(biāo)評估矩陣QoS2如下: QoS2=(nli,j)nrc×nrs (15) (16) 因此,可靠性的指標(biāo)評估矩陣QoS3可表示為: (17) (5)目標(biāo)函數(shù)的構(gòu)建:不同的PMnrc×nrs值,具有的不同副本選擇可能性?;诟北具x擇矩陣PMnrc×nrs和響應(yīng)時間、網(wǎng)絡(luò)流量負(fù)載、可靠性的指標(biāo)評估矩陣QoS1、QoS2、QoS3構(gòu)建對應(yīng)的目標(biāo)函數(shù)F1、F2、F3,具體表達(dá)形式如下: (18) 式中e是全1的向量,PM等價于PMnrc×nrs,F(xiàn)1(PM)、F2(PM)和F3(PM)分別為基于PMnrc×nrs的QoS1、QoS2和QoS3的值。 當(dāng)PM一定時,每個目標(biāo)函數(shù)達(dá)到最優(yōu)時為最佳副本選擇策略。同時,基于不同的應(yīng)用場景可設(shè)置對應(yīng)的響應(yīng)時間、網(wǎng)絡(luò)流量負(fù)載和可靠性的指標(biāo)權(quán)重wi(i=1,2,3)。從而構(gòu)建副本選擇的總體目標(biāo)函數(shù)。 F(PM)=F1(w1⊙PM)+F2(w2⊙PM)+ F3(w3⊙PM) (19) 這里有W=(wi,j)nrc×3,wj=(wi,j)nrc×1,(j=1,2,3)。因此,副本選擇策略的最優(yōu)解決方案是找到使目標(biāo)函數(shù)F(PM)最大的最優(yōu)副本選擇矩陣PMoptimal,為解決上述問題,提出了一種面向電力大數(shù)據(jù)云存儲的副本選擇算法,具體流程如圖4所示。 圖4 面向電力大數(shù)據(jù)云存儲的副本選擇算法Fig.4 Replica selection algorithm orienting power big data cloud storage 為了驗證所提的電力大數(shù)據(jù)副本管理策略的性能優(yōu)勢,選擇某電力公司的數(shù)據(jù)平臺進(jìn)行仿真實驗,首先基于實驗環(huán)境設(shè)置仿真參數(shù),然后,對所提出的整體電力大數(shù)據(jù)副本管理系統(tǒng)(PARMS)進(jìn)行仿真,驗證其在提高數(shù)據(jù)副本管理效率方面的優(yōu)勢,之后,分別對分布管理系統(tǒng)中所提出的動態(tài)副本存儲算法和選擇算法進(jìn)行仿真,驗證其性能優(yōu)勢。 基于分布式電力大數(shù)據(jù)處理系統(tǒng)進(jìn)行算法仿真。采用通用的延遲感知任務(wù)調(diào)度策略[23-25]來跨地區(qū)的分布式控制系統(tǒng)調(diào)度數(shù)據(jù)并行計算任務(wù)。表1為仿真過程中地理分散的分布式控制系統(tǒng)節(jié)點之間的可用帶寬,其中,L1為總部,L2為省分公司,L3為市分公司。 表1 分布式控制中心可用帶寬Tab.1 Available bandwidth of distributed control center 仿真過程中的數(shù)據(jù)中心的處理任務(wù)主要包括實時線損計算、用戶用電行為分析、用電異常監(jiān)測報警等電力大數(shù)據(jù)系統(tǒng)中的常規(guī)任務(wù)或數(shù)據(jù)挖掘程序。實驗平臺用于計算任務(wù)的數(shù)據(jù)量約為550 G,來自電力大數(shù)據(jù)系統(tǒng)中不同地理分布的云系統(tǒng),一些開放數(shù)據(jù)集也被引入PARMS系統(tǒng)進(jìn)行測試,如表2所示。 表2 地理分布任務(wù)分配Tab.2 Geographical distribution of tasks 實驗評估了通過所提出的副本管理策略減少的地理分布式控制系統(tǒng)上的讀取延遲。圖5為不同副本管理策略的數(shù)讀取時間。從節(jié)點間延遲的測量數(shù)據(jù)來看,所提的動態(tài)副本處理策略(PARMS)明顯優(yōu)于傳統(tǒng)固定動態(tài)分配方式(PARMS-hdfs)以及沒有進(jìn)行副本處理的方式(PARMS-N)。同時我們的副本管理策略實現(xiàn)了更好的性能,盡管讀取時間仍以線性速率增長。然而,這對于數(shù)據(jù)傳輸是不可避免的,因為它受到網(wǎng)絡(luò)帶寬和磁盤傳輸速率的限制??傮w而言,我們的算法在地理分布的分布式控制系統(tǒng)中的數(shù)據(jù)訪問方面取得了明顯的效果,更適用于跨區(qū)域分散的分布式控制系統(tǒng)進(jìn)行電力大數(shù)據(jù)處理。 圖5 三種副本管理策略的不同大小數(shù)據(jù)的 讀取時間分析Fig.5 Reading time of different size data of three replica management strategies 利用網(wǎng)絡(luò)流量的預(yù)測信息,PARMS可以優(yōu)化副本的放置和選擇,以提高效率。圖6為 地理分布的分布式控制系統(tǒng)中任務(wù)完成時間。這表明與其他系統(tǒng)相比,所提出的副本管理系統(tǒng)更能處理電力大數(shù)據(jù),使用PARMS進(jìn)行優(yōu)化后,作業(yè)完成時間減少了11.82%~12.56%。 圖6 不同副本管理策略下系統(tǒng)內(nèi)三種 任務(wù)的平均完成時間Fig.6 Average completion time of the three tasks in the system under different replica management strategies 這部分旨在通過使用副本存儲策略和數(shù)據(jù)節(jié)點分類來評估分布式計算任務(wù)的執(zhí)行結(jié)果。通過任務(wù)平均執(zhí)行時間對仿真結(jié)果進(jìn)行評估。在實驗中,數(shù)據(jù)節(jié)點被分為三個邏輯存儲區(qū)域,LST1、LST2和LST3(下標(biāo)值越小,其關(guān)聯(lián)節(jié)點的性能越好)。如圖7所示,所提出的動態(tài)副本存儲策略比固定副本策略執(zhí)行作業(yè)的花費的平均運行時間要少。 圖7 不同副本存儲策略任務(wù)處理時延對比Fig.7 Comparison of task processing latency with different replica placement strategies 該實驗驗證了副本選擇策略是否能夠滿足跨地理分布式 DC之間數(shù)據(jù)處理的多樣性數(shù)據(jù)訪問需求,分析了算法在系統(tǒng)運行時間內(nèi)各時間段的網(wǎng)絡(luò)資源利用的波動情況,數(shù)據(jù)庫默認(rèn)的副本選擇策略表示為df-RS,相關(guān)基于QoS的策略表示為mr-QoS,文中提出的基于QoS的策略表示為QoS-RS。如圖8所示。顯然QoS-RS比df-RS和mr-QoS具有更好的網(wǎng)絡(luò)利用率。 圖8 副本選擇策略的性能Fig.8 Performance of replica selection strategy 隨著新型電力系統(tǒng)的快速發(fā)展,電力大數(shù)據(jù)的實時處理變得越來越重要。為了在有限帶寬和相對固定的底層基礎(chǔ)設(shè)施條件下實現(xiàn)低延遲處理,文中設(shè)計并實現(xiàn)了一個用于地理分布的電力大數(shù)據(jù)存儲的自適應(yīng)副本管理系統(tǒng)PARMS。設(shè)計了高效的副本管理方法來優(yōu)化副本的放置和選擇。在CSG的電力公司平臺上進(jìn)行了一系列實驗。實驗結(jié)果表明,所述的副本管理策略能夠在一定程度上解決網(wǎng)絡(luò)傳輸瓶頸,提高分布式電力大數(shù)據(jù)系統(tǒng)的計算吞吐量。使用PARMS時,地理分布的分布式控制系統(tǒng)的作業(yè)完成時間平均減少了12.19%。未來的工作將為PARMS開發(fā)自適應(yīng)副本生成和刪除機(jī)制,并進(jìn)一步將副本管理策略與地理分布任務(wù)調(diào)度相結(jié)合。4 仿真結(jié)果
4.1 仿真參數(shù)設(shè)置
4.2 副本管理策略性能評估
4.3 動態(tài)副本存儲算法性能評估
4.4 副本選擇算法性能評估
5 結(jié)束語