梁 楊,丁長松,胡志剛
(1.湖南中醫(yī)藥大學信息科學與工程學院,湖南 長沙 410208)(2.湖南省中醫(yī)藥大數(shù)據(jù)分析實驗室,湖南 長沙 410208)(3.中南大學計算機學院,湖南 長沙 410083)
近年來,智能手機、聯(lián)網(wǎng)汽車、AR/VR等智能設(shè)備快速普及,各類移動終端產(chǎn)生的數(shù)據(jù)量呈爆炸式增長[1]. 多接入邊緣計算(multi-access edge computing,MEC)作為一種鄰近計算范式,其本質(zhì)是云計算向邊緣網(wǎng)絡(luò)的延伸. MEC允許邊緣服務(wù)器分布在不同的地理位置,將計算和存儲資源部署在移動用戶附近,因此可以提供比云計算服務(wù)更低延遲[2]. MEC框架在滿足訪問時延的前提下,在節(jié)省網(wǎng)絡(luò)帶寬、提高服務(wù)質(zhì)量(quality of service,QoS)、緩解數(shù)據(jù)中心壓力等方面具有天然的優(yōu)勢. 然而,在數(shù)據(jù)密集型應(yīng)用場景下因資源受限所帶來的一系列問題正引起研究者們的廣泛關(guān)注[3]. 由于邊緣節(jié)點存儲資源有限,數(shù)據(jù)密集型應(yīng)用會頻繁地進行遠程數(shù)據(jù)訪問,從而導致較高的往返延遲,甚至完全抵消MEC的優(yōu)勢[4].
在MEC環(huán)境中,大量移動邊緣設(shè)備將不斷產(chǎn)生和消費各類數(shù)據(jù),不恰當?shù)母北竟芾聿呗詷O易導致網(wǎng)絡(luò)資源浪費和通信延遲過高[5]. 一方面,當處理本地用戶任務(wù)的數(shù)據(jù)訪問請求時,由于邊緣節(jié)點存在嚴重自治,通常需要分別創(chuàng)建副本以減少遠程數(shù)據(jù)訪問的次數(shù),很容易出現(xiàn)副本的高冗余存儲和高頻次更新,導致“副本泛濫”、資源浪費等問題[6];另一方面,云邊網(wǎng)絡(luò)用戶對數(shù)據(jù)副本的多邊高并發(fā)請求具有隨機性和區(qū)域性,增加了“副本管理失控”的風險[7]. 因此對數(shù)據(jù)副本進行全局部署時,需要綜合權(quán)衡局部和全局的資源互補與沖突,進而確定最佳副本布局.
一般,不合理的副本部署不僅會增加任務(wù)響應(yīng)延遲,還會增加網(wǎng)絡(luò)和存儲開銷[8]. 為解決上述問題,本文提出一種基于“推薦-學習”的兩階段數(shù)據(jù)布局策略(two-stage data placement strategy,TDPS),通過“推薦”階段和“學習”階段對副本放置規(guī)則進行深度優(yōu)化. TDPS綜合考慮了副本流行度和用戶移動性,旨在實現(xiàn)訪問延遲和成本開銷的權(quán)衡優(yōu)化. 綜上所述,本文的主要貢獻包括4個方面:
(1)提出了一種基于“推薦-學習”的兩階段副本管理框架,通過將MEC環(huán)境下副本決策過程分解為“邊緣推薦”和“整體學習”兩個階段,有效整合了邊緣端的局部信息和云端的全局信息,優(yōu)化了副本管理機制;
(2)對目標問題進行形式化描述并構(gòu)建了數(shù)學模型,將MEC中的副本放置決策問題描述為具有延遲和成本約束的雙目標優(yōu)化問題;
(3)在“推薦”階段,提出一個基于移動預測和反饋優(yōu)化的副本推薦引擎,一定程度上解決了盲目創(chuàng)建副本的問題;在“學習”階段,提出一個基于A3C強化學習的副本放置規(guī)則學習模型,從全局視角下進一步保證了云邊系統(tǒng)的數(shù)據(jù)服務(wù)性能最優(yōu);
(4)實驗結(jié)果表明,本文基于“推薦-學習”的兩階段數(shù)據(jù)布局策略可以有效降低數(shù)據(jù)管理成本并改善用戶QoS滿意度.
隨著云計算和邊緣計算逐步融合,如何提高云邊系統(tǒng)的副本管理效率成為一個新興的研究熱點,引起國內(nèi)外研究者的廣泛關(guān)注[9]. 一些研究學者提出了基于數(shù)據(jù)流行度的靜態(tài)副本策略[10],在指定的存儲節(jié)點上設(shè)置固定的副本數(shù)量;而另外一些研究人員則提出了動態(tài)副本策略[11-12],允許根據(jù)用戶的行為特征動態(tài)地調(diào)整副本數(shù)量和位置. Jin等[13]提出了一種邊端協(xié)作存儲框架,在邊緣計算環(huán)境中協(xié)作存儲必要的數(shù)據(jù),以提高邊緣層的性能,減少將任務(wù)轉(zhuǎn)移到云數(shù)據(jù)中心的可能性. Vales等[14]提出一個將移動設(shè)備的存儲資源和霧節(jié)點集中起來的解決方案,有效解決了用戶訪問遠程云時面臨的訪問延遲、帶寬受限、通信開銷和位置盲目性等問題. Chang等[15]通過分析邊緣服務(wù)器的數(shù)據(jù)副本收入、成本和利潤,提出了面向MEC的自適應(yīng)副本機制,有效地縮短了任務(wù)平均響應(yīng)時間,提高了數(shù)據(jù)分組的服務(wù)質(zhì)量.
由于邊緣端存儲資源和通信帶寬都存在一定限制,副本優(yōu)化機制需要充分考慮資源受限條件下的副本管理. Teranishi等[16]提出了一種面向邊緣環(huán)境下物聯(lián)網(wǎng)應(yīng)用的動態(tài)數(shù)據(jù)流平臺,不僅能夠使物聯(lián)網(wǎng)應(yīng)用實現(xiàn)較小的延遲,而且可以避免物聯(lián)網(wǎng)應(yīng)用對網(wǎng)絡(luò)和計算資源造成過載;研究者還提出了一個具有多因素最少使用算法的分布式多級存儲模型[17],為處理海量物聯(lián)網(wǎng)數(shù)據(jù)時可能面臨的存儲受限和網(wǎng)絡(luò)擁塞等問題提供了有效的解決方案;Aral等[18]提出了一種智能分布式數(shù)據(jù)部署方案,解決了數(shù)據(jù)訪問延遲和副本放置成本等問題.
以上早期研究雖然考慮了邊緣端資源的有限性,但主要不足之處在于沒有充分利用云端已有的高性能資源. 對此,一些研究者針對云邊系統(tǒng)的副本管理優(yōu)化提出了若干新方法,其中最為突出的是基于機器學習的副本管理. Wang等[19]提出了一種基于強化學習的副本緩存框架,用于激勵邊緣設(shè)備為周邊用戶提供副本存儲服務(wù);為了能夠自適應(yīng)地利用網(wǎng)絡(luò)資源并降低任務(wù)響應(yīng)時間,研究者還提出了一種基于深度強化學習的智能資源分配方案[20]. 以上研究顯示,機器學習技術(shù)在實現(xiàn)“在線副本服務(wù)”方面具有較好的自適應(yīng)性和魯棒性.
綜上所述,優(yōu)化數(shù)據(jù)布局既需要考慮邊緣資源的受限性,還需要考慮網(wǎng)絡(luò)傳輸速度的差異性. 本文從以上兩個方面來分析現(xiàn)有系統(tǒng)數(shù)據(jù)服務(wù)的性能瓶頸,并提出基于“推薦-學習”的兩階段數(shù)據(jù)布局策略來動態(tài)協(xié)調(diào)云端和邊緣端的存儲資源分配,以期充分利用云端的高性能來彌補邊緣端的資源短缺.
根據(jù)云邊環(huán)境下面向移動用戶的典型應(yīng)用場景,本節(jié)提出了一個兩階段副本管理框架,并對目標問題進行模型構(gòu)建.
在云邊協(xié)同系統(tǒng)中,一個有效的數(shù)據(jù)布局策略必須充分考慮云端和邊緣端資源性能的差異. 針對由此導致的一系列性能瓶頸問題,本文提出了一種基于“推薦-學習”的兩階段副本管理機制TDPS,其整體架構(gòu)如圖1所示.
圖1 基于“推薦-學習”的兩階段副本管理架構(gòu)
在圖1中,TDPS架構(gòu)從邏輯上自下而上主要包含3層:用戶設(shè)備層、邊緣節(jié)點層和中心節(jié)點層.
(1)用戶設(shè)備層:主要包含各種具有移動性的用戶設(shè)備,需要向邊緣云或中心云請求數(shù)據(jù)服務(wù).
(2)邊緣節(jié)點層:主要由分布式邊緣節(jié)點組成,各邊緣節(jié)點部署有副本推薦引擎、邊緣資源管理器和本地狀態(tài)信息表,負責向中心節(jié)點層推薦熱點副本.
(3)中心節(jié)點層:云數(shù)據(jù)中心是本層的重要組件,主要包括副本放置規(guī)則學習模型、全局資源管理器和全網(wǎng)資源狀態(tài)表,負責對全網(wǎng)數(shù)據(jù)布局進行決策.
假設(shè)E={e1,e2,…,en}表示所有邊緣節(jié)點的集合,n為邊緣節(jié)點的總數(shù);F={f1,f2,…,fm}表示所有可訪問的文件全集,m為文件總數(shù);SZfi表示文件fi的大小.用戶所感知的訪問延遲主要依賴于用戶和待訪問文件之間的距離,則用戶和其對應(yīng)邊緣節(jié)點之間的平均等待延遲如式(1)所示.
(1)
式中,VE表示邊緣節(jié)點的數(shù)據(jù)傳輸速率;NRfi表示用戶請求訪問文件fi的總次數(shù).Xfi,ej是一個二進制變量,用以表示fi的副本是否位于ej上,如果fi的副本位于ej上,則Xfi,ej=1;否則Xfi,ej=0.
簡化起見,假設(shè)云數(shù)據(jù)中心存儲了所有文件的副本,如果用戶對fi的訪問請求沒有在本地得到滿足,則必須向遠程云請求fi,用戶與云數(shù)據(jù)中心之間的平均等待延遲可以表示為式(2).
(2)
此外,資源開銷同樣制約著數(shù)據(jù)布局問題的決策.本文主要考慮副本放置過程中網(wǎng)絡(luò)傳輸成本和邊緣存儲成本對總成本的影響.網(wǎng)絡(luò)傳輸成本是指文件從云數(shù)據(jù)中心傳輸?shù)竭吘壒?jié)點所產(chǎn)生的網(wǎng)絡(luò)傳輸開銷,如式(3)所示.
(3)
式中,Tunit表示從云數(shù)據(jù)中心到邊緣節(jié)點的單位數(shù)據(jù)傳輸成本,Ctx表示總傳輸開銷.
此外,因副本放置造成的存儲開銷亦不容忽視,則邊緣節(jié)點的副本存儲成本可以表示為式(4)所示.
(4)
式中,Sunit表示邊緣節(jié)點上單位數(shù)據(jù)的存儲成本,Csto表示總存儲開銷.
目標問題進一步轉(zhuǎn)化為式(5)所示.
Ψ=μ(ALE+ALC)+η(Ctx+Csto),
(5)
式中,μ+η=1,0<μ,η<1.
基于上述分析,為表示延遲和成本敏感的數(shù)據(jù)布局問題,構(gòu)建了如式(6)所示的雙目標優(yōu)化函數(shù).
(6)
本節(jié)提出一種基于“推薦-學習”的兩階段副本管理機制,綜合權(quán)衡全網(wǎng)的QoS和資源開銷,進而確定當前工作周期內(nèi)最優(yōu)的全局副本放置規(guī)則. 在副本推薦階段,通過在邊緣節(jié)點上構(gòu)建副本推薦引擎快速、準確地量化邊緣層副本訪問價值,縮小存在副本需求的局部文件規(guī)模,避免云端/邊緣端盲目創(chuàng)建副本,使服務(wù)提供商在保證QoS的同時減少不必要的資源開銷;在副本放置階段,云數(shù)據(jù)中心基于強化學習構(gòu)建全局副本放置規(guī)則學習模型,優(yōu)化數(shù)據(jù)布局,以期指導副本管理中間件進行副本放置和替換,在QoS和成本開銷間達到最佳折中,從整體上改進云邊環(huán)境下副本服務(wù)的各類性能指標.
為了快速、準確地量化邊緣端副本價值,最大程度減小副本規(guī)模,本文首先在邊緣節(jié)點上構(gòu)建副本推薦引擎,從局部層面上避免副本的盲目創(chuàng)建.
一方面,推薦引擎必須充分考慮用戶移動性和文件訪問特性,從而準確評估文件訪問概率;另一方面,引入反饋機制及時修正誤差,提高推薦引擎自適應(yīng)性. 基于此,副本推薦引擎的框架如圖2所示.
圖2 基于移動預測和反饋優(yōu)化的副本推薦引擎
由圖2可以看出,副本推薦引擎主要由輸入層、預測層、反饋層和推薦層組成. 其中,輸入層負責對數(shù)據(jù)進行預處理以滿足模型輸入的要求;預測層根據(jù)文件歷史流行度和用戶移動性來預測本地節(jié)點上不同副本的期望訪問概率;反饋層負責將副本的預測誤差輸入到反饋優(yōu)化器,計算誤差期望并確定補償系數(shù),及時反饋給預測層優(yōu)化預測精度;推薦層負責篩選滿足條件的副本,從中選擇價值排名靠前的若干副本,構(gòu)成副本推薦序列.
(7)
(8)
由此可見,副本推薦引擎同時考慮了邊緣節(jié)點上的文件歷史訪問流行度和用戶移動性的影響.
為改善價值評估模型性能,提高模型自適應(yīng)能力,本文在推薦引擎中引入反饋層,對預測層結(jié)果進行誤差分析,通過補償系數(shù)進一步對模型進行修正,則式(8)進一步改進為式(9)所示.
(9)
式中,λtc表示在時段tc時的模型補償系數(shù),且λtc>0.
最后,推薦引擎將根據(jù)副本期望訪問概率進行推薦,具體推薦過程如算法1所示.
首先,將tc時段邊緣節(jié)點es上的所有文件的期望訪問概率集作為推薦層的輸入;其次,根據(jù)價值閾值篩選出期望訪問概率不低于該閾值的文件;最后,如果存在滿足閾值要求的文件,則返回期望訪問概率中排名前K(K>0)的副本標識符列表.
算法1 副本推薦算法
② fori=1 tomdo
⑤ else
⑥FPPNew[i]=0;
⑦ end if
⑧ end for
⑨ ifFPPNew!=NULL then
⑩FPPTopK[·]=TopK(FPPNew);
邊緣端推薦的副本序列存在一定的局部性限制,為保證全局層面的QoS和系統(tǒng)性能最優(yōu),本文提出一種基于異步優(yōu)勢行動者-評論家算法(asynchronous advantage actor-critic,A3C)的副本放置規(guī)則學習模型,采用基于多線程機制的異步訓練框架,引入優(yōu)勢函數(shù)對策略網(wǎng)絡(luò)(Actor)和價值網(wǎng)絡(luò)(Critic)進行更新,使模型在訓練速度、收斂性能和預測精度等方面具有更好的表現(xiàn). 該模型由多個并行子線程和一個全局網(wǎng)絡(luò)組成,每個子線程由一個Actor和一個Critic組成,負責獨立運行Actor-Critic算法和并行進行參數(shù)探索,既獨立更新全局網(wǎng)絡(luò)參數(shù),又從全局網(wǎng)絡(luò)獲取參數(shù)指導;全局網(wǎng)絡(luò)主要包括一個全局Actor和一個全局Critic,負責匯總子線程與環(huán)境交互的結(jié)果,異步更新全局網(wǎng)絡(luò)參數(shù).
(10)
式中,T表示矩陣轉(zhuǎn)置,πj表示ej上的副本放置模式,πj,i表示fi的副本放置在ej上的概率,πj,i∈[0,1].πj,i=0表示fi的副本不能放置在ej上;反之,πj,i=1.
為有效度量智能體所選動作策略的優(yōu)劣,本文提出一個延遲-成本組合獎勵函數(shù),如式(11)所示.
(11)
式中,Lt(St,At)和Ct(St,At)分別表示在狀態(tài)-動作對(St,At)下的訪問延遲和成本開銷,LCt(St,At)表示組合獎勵.基于此,長期累計獎勵如式(12)所示.
(12)
式中,γ∈(0,1]為折扣因子,表示從環(huán)境狀態(tài)St開始,未來環(huán)境獎勵對累計獎勵的影響權(quán)重.顯然,模型訓練目標可以表示為最大化長期累計獎勵的期望,如式(13)所示.
(13)
式中,環(huán)境狀態(tài)S服從先驗分布F0,π表示在環(huán)境狀態(tài)St下選擇的副本放置策略,則此時狀態(tài)價值函數(shù)如式(14)所示.
Vπ(St)=Eπ[Rt|St=S],
(14)
類似地,智能體的動作價值函數(shù)如式(15)所示.
Qπ(St,At)=LCt(St,At)+γVπ(St+1),
(15)
為尋找使長期累計獎勵期望最大化的副本放置策略π,需要不斷更新策略參數(shù)θ,對此,智能體采用優(yōu)勢函數(shù)來評價某一策略動作所產(chǎn)生的增益大小,如式(16)所示.
Aπ(St,At)=Qπ(St,At)-Vπ(St),
(16)
式中,Vπ(S)的值由Critic網(wǎng)絡(luò)訓練獲得,若Aπ(S,A)>0,則表示在狀態(tài)St下執(zhí)行的動作有利于獎勵的增加,策略參數(shù)可以朝梯度方向更新以改進副本放置策略;反之,則不建議更新策略參數(shù).為加快長期累計獎勵期望收斂,通過梯度上升法更新Actor策略網(wǎng)絡(luò)參數(shù)θ,如式(17)所示.
θ=θ+μθlogπ(At|St;θ)Aπ(St,At),
(17)
式中,π(At|St;θ)∈[0,1]表示在St和θ條件下執(zhí)行At的概率,logπ(At|St;θ)∈[0,+∞)避免了梯度消失.μ為學習率,μ∈[10e-6,1].另外,為避免過早陷入局部收斂,在策略函數(shù)的損失函數(shù)中需增加π的交叉熵項,則式(17)可改進為式(18)所示.
θ=θ+μθlogπ(At|St;θ)Aπ(St,At)+ηθH[π(St;θ)],
(18)
式中,η為交叉熵權(quán)重因子,η∈[0,1].基于時間差分方法進行Critic價值網(wǎng)絡(luò)參數(shù)更新,其價值函數(shù)的損失函數(shù)如式(19)所示.
LOSS=(Qπ(St,At)-Vπ(St))2,
(19)
為加快式(19)所示損失函數(shù)收斂,通過梯度下降法更新Critic策略網(wǎng)絡(luò)參數(shù)θv,如式(20)所示.
(20)
式中,ε為學習率,ε∈[10e-6,1].對此,副本放置規(guī)則的A3C子線程學習算法偽代碼如算法2所示.
算法2 A3C子線程學習算法
輸入:環(huán)境狀態(tài)集合S,智能體動作集合A,A3C全局網(wǎng)絡(luò)的全局Actor參數(shù)θ和全局Critic參數(shù)θv,A3C子線程的Actor參數(shù)θ′和Critic參數(shù)θ′v,全局最大迭代次數(shù)Tmax和全局迭代計數(shù)器T,子線程單次迭代最大時間序列tmax和本地線程時間序列計數(shù)器t,折扣因子γ,學習率μ、ε,交叉熵權(quán)重因子η;
輸出:A3C全局神經(jīng)網(wǎng)絡(luò)參數(shù)θ、θv.
①T=0 andt=1
② repeat
③ dθ←0 and dθv←0;
④θ′←θandθ′v←θv;
⑤tstart=tandSt=getState(t);
⑥ repeat
⑦ 基于π(At|St;θ′)執(zhí)行動作At;
⑧ 獲得LCt(St,At) andSt+1;
⑨t(yī)←t+1 andT←T+1;
⑩ untilt-tstart==tmaxorSt==ST
為評價和分析所提出算法的性能,本文引入副本命中率、平均訪問延遲和成本節(jié)約率等[22]3項測試指標作為評估標準,將TDPS策略與其他基準算法進行比較,驗證所提算法在副本決策方面的有效性.
本文采用EdgecloudSim[23]平臺進行仿真實驗,模擬云邊環(huán)境. 邊緣節(jié)點的位置分布由BRITE[24]拓撲生成器給出,中心節(jié)點設(shè)置為距離各邊緣較遠的數(shù)據(jù)中心. 為了便于比較和分析,假定所有待訪問文件的大小相等,用戶提交的作業(yè)請求近似服從泊松分布,初始數(shù)據(jù)位置近似服從齊夫分布,用戶優(yōu)先向附近邊緣節(jié)點提出訪問請求,實驗參數(shù)的詳細設(shè)置如表1所示.
表1 實驗設(shè)置
本實驗將TDPS分別與D-ReP[18]、RPME[25]和HRS[26]3種基準算法在副本命中率、平均訪問延遲和成本節(jié)約率等方面進行對比,每次對比實驗采用同一性能指標,分別進行10組獨立重復實驗,以評估TDPS策略的性能,具體實驗結(jié)果與分析如下:
(1)副本命中率
副本命中率(replica hit rate,RHR)表示本地副本訪問次數(shù)占本地用戶請求總數(shù)的比例,用以衡量該策略的本地化水平,如式(21)所示.
(21)
圖3 不同副本部署策略的副本命中率比較
圖3表明,當并發(fā)請求規(guī)模較小時,TDPS的副本命中率與其他算法差距不大,甚至略低于某些算法;隨著并發(fā)請求數(shù)的增加,副本命中率總體呈上升趨勢,而TDPS的增長幅度明顯高于其他算法,說明其具有更好的副本放置決策能力. 主要原因是TDPS同時考慮了文件歷史流行度和用戶移動性帶來的影響,通過預測用戶位置并提前放置數(shù)據(jù)副本,有效提高了副本命中率;當并發(fā)請求規(guī)模較大時,各算法副本命中率的變化幅度不明顯,原因在于邊緣節(jié)點存儲空間有限,當副本數(shù)增加到一定程度后,僅進行必要的副本替換,副本命中率趨于穩(wěn)定.
(2)平均訪問延遲
平均訪問延遲(average access latency,AAL)表示從作業(yè)提交數(shù)據(jù)訪問請求到作業(yè)執(zhí)行完成的平均持續(xù)時間,如式(22)所示.
(22)
式中,ti(end)和ti(start)分別表示作業(yè)i的完成時間和開始時間,Q表示用戶提交的作業(yè)總數(shù). 圖4對比了TDPS與基準算法在平均訪問延遲方面的表現(xiàn).
圖4 不同副本部署策略的平均訪問延遲比較
由圖4可以看出,當并發(fā)請求數(shù)較少時,不同方法的平均訪問延遲差別不大,TDPS的平均訪問延遲甚至高于HRS,這是因為不同策略創(chuàng)建的副本數(shù)量均處于較低水平,使得服務(wù)響應(yīng)時間較為接近;當并發(fā)請求數(shù)達到500左右時,TDPS的平均訪問延遲比D-ReP減少約17.9%,比RPME減少約24.6%,原因在于TRMM具有更高的副本命中率;隨著并發(fā)請求的增加,TDPS平均訪問延遲的增長率明顯低于其他算法,進一步說明TDPS能夠有效增加用戶就近訪問數(shù)據(jù)的機會.
(3)成本節(jié)約率
成本節(jié)約率(cost saving rate,CSR)表示在所有作業(yè)請求中邊緣節(jié)點完成的作業(yè)總費用與中心節(jié)點完成的作業(yè)總費用之比,如式(23)所示.
(23)
圖5 不同副本部署策略的成本節(jié)約率比較
在圖5中,當并發(fā)請求規(guī)模較小時,TDPS與其他基準算法的成本節(jié)約率差距不大,各策略的成本節(jié)約率隨著并發(fā)請求數(shù)的增加而增加;當并發(fā)請求數(shù)達到500時,與HRS、D-ReP和RPME 3個基準算法相比,TDPS分別能夠節(jié)約2.68%、5.57%和8.43%的成本開銷;之后,隨著并發(fā)請求規(guī)模繼續(xù)增大,不同算法的成本節(jié)約率雖時有波動,但變化幅度始終處于一個較小范圍,總體維持動態(tài)平衡. 總體而言,TDPS能夠更顯著地提高成本節(jié)約率,原因在于:一方面,TDPS通過分布式副本推薦引擎為各邊緣節(jié)點推薦個性化副本序列,控制了局部副本規(guī)模;另一方面,TDPS基于副本放置規(guī)則學習模型優(yōu)化面向全網(wǎng)的副本放置決策,控制了全局副本規(guī)模. 因此,TDPS采用“推薦-學習”的兩級副本管理機制在成本控制方面的表現(xiàn)更優(yōu).
本文提出一種基于“推薦-學習”的兩階段數(shù)據(jù)布局策略TDPS,解決云邊環(huán)境下面向數(shù)據(jù)密集型應(yīng)用如何改善用戶QoS滿意度并降低云邊協(xié)同集群的管理和維護成本等核心問題. 采用基于移動預測和反饋優(yōu)化的副本推薦引擎挖掘局部熱點副本,通過基于A3C強化學習的副本放置規(guī)則學習模型有機整合邊緣推薦信息,優(yōu)化全網(wǎng)數(shù)據(jù)布局. 將TDPS與其他基準算法對比,實驗結(jié)果表明,所提出策略在不同測試指標下都明顯優(yōu)于其他算法,驗證了所提出方法的有效性. 下一步工作將考慮如何根據(jù)大規(guī)模分布式節(jié)點異構(gòu)性調(diào)整數(shù)據(jù)布局策略,并在真實場景下對研究問題進行實驗驗證.