摘 要:現(xiàn)有計算卸載方法沒有考慮終端設(shè)備和邊緣服務(wù)器的不同任務(wù)排隊情況,導(dǎo)致計算卸載模型的時延估計存在偏差。更重要的是,現(xiàn)有基于強化學(xué)習(xí)的計算卸載方法通過計算時序差分(temporal difference,TD)誤差進行經(jīng)驗重放,無法精確評估歷史經(jīng)驗的重要性,導(dǎo)致卸載決策精度降低。為解決上述問題,在移動蜂窩網(wǎng)絡(luò)邊緣計算場景下,考慮多設(shè)備、多服務(wù)器的計算卸載問題,提出一種基于Boosting優(yōu)先經(jīng)驗重放的協(xié)同計算卸載方法—COOPERANT。針對任務(wù)調(diào)度問題,COOPERANT構(gòu)建了終端設(shè)備任務(wù)排隊模型及服務(wù)器任務(wù)排隊模型;針對任務(wù)卸載問題,COOPERANT設(shè)計了融合Boosting的優(yōu)先經(jīng)驗重放算法、任務(wù)卸載聯(lián)合優(yōu)化模型、計算卸載多智能體深度強化學(xué)習(xí)模型及COOPERANT網(wǎng)絡(luò)更新策略。實驗證明,相比于遺傳算法、蟻群算法、鯨魚優(yōu)化算法、MADDPG算法、TD-MADDPG算法以及MAPPO算法,COOPERANT能夠有效降低系統(tǒng)時延和能耗開銷,提升網(wǎng)絡(luò)收斂速度。
關(guān)鍵詞:計算卸載;Boosting;多智能體深度強化學(xué)習(xí);優(yōu)先經(jīng)驗重放
中圖分類號:TP391"" 文獻標志碼:A"" 文章編號:1001-3695(2025)03-018-0777-11
doi:10.19734/j.issn.1001-3695.2024.08.0313
Co-computation offloading method based on boosting prioritized empirical replay
Huang Yia,b,c,d,Wang Wenxuana,b,c,d,Cui Yunhea,b,c,d,Chen Yia,b,c,d,Guo Chuna,b,c,d,Shen Guoweia,b,c,d
(a.State Key Laboratory of Public Big Data,b.Engineering Research Center of Text Computing amp; Cognitive Intelligence,Ministry of Education,c.College of Computer Science amp; Technology,d.Key Laboratory of Software Engineering amp; Information Security in Guizhou Province,Guizhou University,Guiyang 550025,China)
Abstract:The existing computation offloading methods have not considered different task queues in terminal devices and edge servers,resulting in queuing latency estimating error of computation offloading model.More important,the existing computation offloading methods based on reinforcement learning perform experience replay by calculating temporal difference(TD)error,which cannot accurately assess the importance of historical experience,resulting in lower offloading decision accuracy.To address the above issues,in the mobile cellular network edge computing scenario,this paper considered the problem of computation offloading with multiple devices and servers,and proposed a cooperative computation offloading method based on Boosting prioritized experience replay-COOPERANT.For the task scheduling problem,COOPERANT constructed terminal device task queuing models and server task queuing models.For the task offloading problem,COOPERANT designed a prioritized experience replay algorithm that integrated Boosting,a joint optimization model for task offloading,a multi-agent deep reinforcement learning model for computation offloading,and a COOPERANT network updating mechanism.Experimental results show that COOPERANT can effectively reduce system latency and energy consumption and improve the network convergence speed compared to genetic algorithm,ant colony algorithm,whale optimization algorithm,MADDPG algorithm,TD-MADDPG algorithm,and the MAPPO algorithm.
Key words:computation offloading;Boosting;multi-agent deep reinforcement learning;priority experience replay
0 引言
隨著移動蜂窩網(wǎng)絡(luò)中數(shù)以百萬計的終端設(shè)備連接到基站服務(wù)器,終端設(shè)備的大量業(yè)務(wù)數(shù)據(jù)被迫卸載至數(shù)據(jù)中心進行分布式云計算(distributed cloud computing,DCC)處理[1]。然而,傳統(tǒng)DCC的核心架構(gòu)過于依賴中心化的數(shù)據(jù)處理和存儲,致使數(shù)據(jù)傳輸過程產(chǎn)生較大傳輸延遲且加重網(wǎng)絡(luò)負荷[2],
使其無法滿足虛擬現(xiàn)實、增強現(xiàn)實以及無人駕駛等時延敏感型應(yīng)用的時延要求[3]。為解決上述問題,移動邊緣計算(mobile edge computing,MEC)應(yīng)運而生[4]。MEC將移動蜂窩網(wǎng)絡(luò)中的邊緣服務(wù)器部署在靠近用戶的位置,通過縮短終端設(shè)備與邊緣服務(wù)器之間的任務(wù)傳輸距離,
降低了任務(wù)計算時延和能耗開銷,減輕了網(wǎng)絡(luò)負擔(dān)[5]。MEC需要使用任務(wù)調(diào)度方法決定任務(wù)調(diào)度的優(yōu)先級;使用任務(wù)卸載方法決定任務(wù)卸載的位置。因此,MEC中的計算卸載方法對于決定終端設(shè)備任務(wù)調(diào)度優(yōu)先級以及任務(wù)卸載策略至關(guān)重要。
近年來,研究者們根據(jù)任務(wù)特性和網(wǎng)絡(luò)環(huán)境設(shè)計了不同的任務(wù)調(diào)度方法?,F(xiàn)有的計算卸載研究將同質(zhì)屬性的任務(wù)按照先來先服務(wù)(first come first service,F(xiàn)CFS)的方式處理[6~8]。卻忽略了時延、能耗敏感型任務(wù)的調(diào)度優(yōu)先級以及任務(wù)到達終端設(shè)備和邊緣服務(wù)器的不同任務(wù)排隊過程。
對于移動蜂窩網(wǎng)絡(luò)邊緣計算場景下多設(shè)備、多服務(wù)器任務(wù)卸載問題,早期研究者們基于啟發(fā)式算法設(shè)計任務(wù)卸載策略[9~12]。然而終端設(shè)備無法自主決定卸載策略,致使系統(tǒng)需要依賴其他機制或中心化決策實體決定卸載方法。現(xiàn)有研究方法利用具備試錯學(xué)習(xí)和自適應(yīng)能力的多智能體深度強化學(xué)習(xí)(multi-agent deep reinforcement learning,MADRL)解決上述問題[13~17]。由于在使用TD誤差優(yōu)先經(jīng)驗重放的MADRL中,TD誤差對噪聲的敏感性,使得計算網(wǎng)絡(luò)損失可能引入噪聲估計偏差,致使系統(tǒng)無法精確估計時延、能耗敏感型經(jīng)驗的樣本權(quán)重,造成歷史經(jīng)驗利用率低,從而降低計算卸載決策精度[18~22]。此外,現(xiàn)有MADRL方法采用隨機抽樣的方式選擇歷史經(jīng)驗,未考慮歷史經(jīng)驗采樣屬于集成學(xué)習(xí)中弱學(xué)習(xí)器的問題。Boosting算法是一種基于加權(quán)的集成學(xué)習(xí)方法,其具有通過調(diào)整訓(xùn)練樣本權(quán)重分布來優(yōu)化學(xué)習(xí)過程的特性,使基學(xué)習(xí)器聚焦于前一輪分類錯誤較高的樣本,從而提高模型整體的泛化能力。上述過程與強化學(xué)習(xí)中的優(yōu)先經(jīng)驗重放具有相似性,因此本文將Boosting思想引入深度強化學(xué)習(xí)算法的經(jīng)驗重放部分,以提高強化學(xué)習(xí)模型訓(xùn)練質(zhì)量,進而增加求解任務(wù)卸載的精度,降低任務(wù)的計算時延和能耗開銷。
綜上,針對計算卸載中多設(shè)備、多服務(wù)器任務(wù)調(diào)度及任務(wù)卸載場景,現(xiàn)有方法存在以下不足:
a)問題1:現(xiàn)有方法忽略了敏感型任務(wù)調(diào)度優(yōu)先級和終端設(shè)備以及邊緣服務(wù)器的不同任務(wù)排隊過程。在任務(wù)調(diào)度階段,現(xiàn)有方法未根據(jù)任務(wù)的時延、能耗敏感性同時決定任務(wù)調(diào)度優(yōu)先級。且現(xiàn)有方法忽略了任務(wù)到達終端設(shè)備和邊緣服務(wù)器后的不同排隊情況,致使任務(wù)卸載模型對任務(wù)的時延估計出現(xiàn)誤差,進而影響任務(wù)執(zhí)行的時延。
b)問題2:基于TD誤差的經(jīng)驗重放方法可能引入估計偏差。在任務(wù)卸載階段,現(xiàn)有強化學(xué)習(xí)方法采用TD誤差衡量歷史經(jīng)驗權(quán)重。TD誤差引入的估計偏差可能導(dǎo)致系統(tǒng)無法精確衡量歷史經(jīng)驗價值,造成高價值歷史經(jīng)驗利用率較低,從而影響任務(wù)卸載策略的求解精度,最終導(dǎo)致計算卸載環(huán)境系統(tǒng)時延及能耗增加。
為解決上述問題,本文提出了一種基于Boosting優(yōu)先經(jīng)驗重放的協(xié)同計算卸載方法-COOPERANT,主要貢獻如下:
a)針對問題1,COOPERANT在終端設(shè)備構(gòu)建了基于排隊論的搶占式M/M/1/∞/∞/priority排隊模型;在邊緣服務(wù)器構(gòu)建了基于排隊論的非搶占式M/M/S/∞/∞/FCFS排隊模型。根據(jù)任務(wù)特性,上述兩個模型考慮了計算卸載環(huán)境中終端設(shè)備以及服務(wù)器不同的任務(wù)排隊過程以及敏感型任務(wù)調(diào)度優(yōu)先級的問題,實現(xiàn)了更加準確的動態(tài)隨機環(huán)境下任務(wù)響應(yīng)時間的評估。
b)針對問題2,受Boosting思想啟發(fā),COOPERANT提出了一種融合Boosting的優(yōu)先經(jīng)驗重放方法。該方法考慮強化學(xué)習(xí)經(jīng)驗樣本與計算卸載環(huán)境獎勵的關(guān)系,提高了經(jīng)驗池中高價值經(jīng)驗利用率,從而降低了任務(wù)計算時延及能耗開銷。同時,COOPERANT還設(shè)計了任務(wù)卸載聯(lián)合優(yōu)化模型、任務(wù)卸載多智能體深度強化學(xué)習(xí)模型及COOPERANT網(wǎng)絡(luò)更新策略。
c)本文在移動蜂窩網(wǎng)絡(luò)邊緣計算場景下對COOPERANT進行了評估。實驗結(jié)果表明,COOPERANT與傳統(tǒng)啟發(fā)式遺傳算法和蟻群算法、元啟發(fā)式鯨魚優(yōu)化算法、隨機經(jīng)驗重放的多智能體深度確定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)、TD誤差優(yōu)先經(jīng)驗重放MADDPG、MAPPO等相比,能夠有效降低計算卸載環(huán)境中的任務(wù)計算時延及能耗開銷。
1 相關(guān)工作
國內(nèi)外研究者針對計算卸載中的任務(wù)調(diào)度和任務(wù)卸載技術(shù)進行了相關(guān)研究。在任務(wù)調(diào)度方面,Chen等人[6]基于排隊論采用M/M/1/∞/∞/FCFS排隊模型估計任務(wù)排隊時延,優(yōu)化任務(wù)調(diào)度場景中無人機的計算延遲。Zheng等人[7]設(shè)計M/M/N/∞/∞/FCFS模型對終端設(shè)備的任務(wù)流構(gòu)建多源流體隊列,優(yōu)化計算卸載過程中的系統(tǒng)總時延。
近些年,研究者們針對異構(gòu)任務(wù)進行改進。王玲玲[8]通過車輛計算能力、計算費用以及待服務(wù)節(jié)點數(shù)量等確定任務(wù)處理優(yōu)先級,在車輛構(gòu)建任務(wù)排隊隊列,最小化車輛任務(wù)計算時延開銷。Zhang等人[9]將車輛計算任務(wù)的通信開銷與計算需求之比作為任務(wù)卸載優(yōu)先級,以實現(xiàn)異構(gòu)任務(wù)的優(yōu)先級卸載。
針對任務(wù)卸載技術(shù),Huang等人[12]在邊緣計算場景下計算卸載問題中,針對時間和能耗采用多目標鯨魚優(yōu)化算法解決計算卸載的最優(yōu)卸載機制。雖然啟發(fā)式算法能夠一定程度上優(yōu)化系統(tǒng)開銷,但終端設(shè)備不具備自主決策能力。
近年來,深度強化學(xué)習(xí)在計算卸載領(lǐng)域有著廣泛研究。黃子祥等人[14]將端-邊場景中時延、能耗與無人機之間的負載均衡作為系統(tǒng)總代價,采用改進的APPO算法,以最小化系統(tǒng)總代價為目標進行卸載優(yōu)化。Wu等人[15]將移動蜂窩網(wǎng)絡(luò)中任務(wù)延遲和能耗成本總和作為優(yōu)化目標,采用納什均衡最小化用戶的總成本。Wu等人[16]設(shè)計M/M/1/FCSF模型估計任務(wù)排隊時延,同時在MADDPG中加入長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)提取歷史特征,加快智能體訓(xùn)練。Cheng等人[17]采用基于在線策略多智能體近端策略優(yōu)化算法(multi-agent proximal policy optimization,MAPPO),提高了能源效率。Foerster等人[18]隨機抽取歷史經(jīng)驗訓(xùn)練智能體網(wǎng)絡(luò),驗證經(jīng)驗重放能夠加快網(wǎng)絡(luò)收斂速度?,F(xiàn)有研究中,大多采用TD誤差實現(xiàn)優(yōu)先經(jīng)驗重放。文獻[19~22]利用TD誤差衡量歷史經(jīng)驗重要性,采用貝爾曼方程訓(xùn)練網(wǎng)絡(luò)。上述文獻在計算卸載環(huán)境中,TD誤差可能引入估計偏差,導(dǎo)致模型無法精確衡量時延及能耗敏感型歷史經(jīng)驗的重要性,造成高價值部分的經(jīng)驗利用率低,降低計算卸載決策精度,使得任務(wù)計算時延和能耗開銷過高。
綜上,針對任務(wù)調(diào)度,研究者們設(shè)計FCFS模型決定終端處理任務(wù)的優(yōu)先級,卻忽略了計算卸載中時延、能耗敏感型任務(wù)的調(diào)度優(yōu)先級,及任務(wù)在終端設(shè)備和邊緣服務(wù)器的不同排隊情況,進而錯誤估計任務(wù)的計算時延。針對任務(wù)卸載,研究者們采用強化學(xué)習(xí)算法解決任務(wù)卸載問題,并通過TD誤差衡量歷史經(jīng)驗抽樣權(quán)重,忽略了TD誤差引入的估計偏差導(dǎo)致系統(tǒng)無法精確衡量經(jīng)驗價值,造成系統(tǒng)時延及能耗增加。本文通過COOPERANT方法能很好地解決上述問題。
2 COOPERANT時延及能耗模型
本文研究聚焦于移動蜂窩網(wǎng)絡(luò)邊緣計算場景下的多設(shè)備、多服務(wù)器協(xié)同計算卸載問題。其中移動用戶作為終端設(shè)備,但其計算資源有限,無法獨立處理復(fù)雜任務(wù)。蜂窩基站連接移動用戶,并將任務(wù)卸載到覆蓋范圍內(nèi)的邊緣服務(wù)器。終端設(shè)備隨機分布在此范圍內(nèi)。一個時隙內(nèi),一個終端設(shè)備只能與一個傳輸信道建立連接,每個終端設(shè)備產(chǎn)生的任務(wù)只能通過一個傳輸信道上傳到基站邊緣服務(wù)器進行處理[23,24]。
針對該場景,本文設(shè)計的COOPERANT方法旨在最小化任務(wù)計算時延及能耗開銷。COOPERANT方法由計算卸載時延及能耗模型與基于Boosting優(yōu)先經(jīng)驗重放的任務(wù)卸載方法構(gòu)成,COOPERANT系統(tǒng)架構(gòu)如圖1所示。
COOPERANT時延能耗模型由五部分組成,分別是:a)終端設(shè)備搶占式M/M/1/∞/∞/Priority模型;b)邊緣服務(wù)器非搶占式M/M/S/∞/∞/FCFS模型;c)終端設(shè)備計算時延及能耗模型;d)任務(wù)傳輸時延及能耗模型;e)邊緣服務(wù)器計算時延模型。
2.1 終端設(shè)備搶占式M/M/1/∞/∞/Priority模型
本文將終端設(shè)備作為終端服務(wù)臺。系統(tǒng)的任務(wù)到達服從泊松分布,相繼到達時間間隔為λn。任務(wù)時間間隔服從參數(shù)為μm的負指數(shù)分布。在時刻t,終端設(shè)備m產(chǎn)生任務(wù)i,若終端設(shè)備m的服務(wù)隊列Q(serv)m為空,任務(wù)i馬上接受服務(wù);否則終端排隊系統(tǒng)從等待隊列Q(wait)m的隊首依次判斷任務(wù)j的優(yōu)先級pj,m(t)。若任務(wù)i優(yōu)先級pi,m(t)高于任務(wù)j的優(yōu)先級pj,m(t),任務(wù)i搶占Q(wait)m中任務(wù)j的相應(yīng)位置;否則任務(wù)i進入Q(wait)m末尾。任務(wù)i的優(yōu)先級pi,m(t)與任務(wù)j的優(yōu)先級pj,m(t)相同時,若任務(wù)i的最大容忍時延T(max)i,m(t)以及最大容忍能耗E(max)i,m(t)小于任務(wù)j的T(max)j,m(t)和E(max)j,m(t),任務(wù)i搶占Q(wait)m中任務(wù)j的相應(yīng)位置;否則不搶占。
本文用P(n,m)表示n個任務(wù)到達終端設(shè)備m排隊系統(tǒng)的概率,其服從概率分布,如式(1)所示。
3 基于Boosting優(yōu)先經(jīng)驗重放的計算卸載方法
本文研究的計算卸載場景中,任務(wù)調(diào)度及任務(wù)卸載屬于連續(xù)決策問題。本文目的是最大化回報獎勵,同時最小化時延及能耗開銷,因此最終目標是一個復(fù)雜的非凸優(yōu)化問題。在實際動態(tài)環(huán)境中,終端設(shè)備無法完全感知環(huán)境狀況。本文使用基于試錯學(xué)習(xí)和具備自適應(yīng)能力的多智能體深度強化學(xué)習(xí)模型解決該問題。一方面,該模型能夠通過所設(shè)計的融合Boosting的優(yōu)先經(jīng)驗重放方法,實現(xiàn)高價值經(jīng)驗的有效利用;另一方面,該模型也能夠通過與環(huán)境交互進行試錯學(xué)習(xí),在當(dāng)前決策的基礎(chǔ)上調(diào)整其動作,以找到適應(yīng)變化的策略。隨著時間的推移,智能體根據(jù)累積的經(jīng)驗逐步逼近全局最優(yōu)解,以更新和優(yōu)化策略。具體地,本文設(shè)計了基于Boosting優(yōu)先經(jīng)驗重放的任務(wù)卸載方法-COOPERANT。特別地,本文設(shè)計了融合Boosting的優(yōu)先經(jīng)驗重放方法,使用此方法提高COOPERANT的求解精度。
4 實驗結(jié)果與分析
4.1 實驗環(huán)境
本文仿真實驗基于Python和PyTorch對COOPERANT方法進行測試。與文獻[23,24]類似,在實驗中,每個邊緣服務(wù)器配備S={1,2,3,…,s}傳輸信道,邊緣服務(wù)器距離設(shè)置為25 m。每個邊緣服務(wù)器的覆蓋范圍為300 m。終端設(shè)備隨機分布在邊緣服務(wù)器的覆蓋范圍內(nèi)。本文中,Actor、Target Actor、Critic以及Target Critic網(wǎng)絡(luò)各設(shè)置一個輸入層、兩個隱藏層、一個輸出層。其中隱藏層神經(jīng)元數(shù)量為256個。神經(jīng)網(wǎng)絡(luò)采用Adam優(yōu)化器。本文為COOPERANT與對比方法設(shè)置了相同的計算卸載建模環(huán)境、狀態(tài)空間、動作空間、獎勵函數(shù)以及網(wǎng)絡(luò)訓(xùn)練超參數(shù)。其中,本文將COOPERANT與對比方法的狀態(tài)空間、動作空間和獎勵函數(shù)設(shè)置為式(30)~(32)。同時,COOPERANT與對比方法的計算卸載建模環(huán)境和網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置如表1所示。
4.2 實驗結(jié)果對比及分析
由于本文計算卸載環(huán)境為合作環(huán)境,而且所有終端設(shè)備合作完成卸載任務(wù),所以本文使用回報獎勵、時延以及能耗的平均值表示所有終端設(shè)備完成任務(wù)的整體水平。
任務(wù)到達率相同時,本文設(shè)置平均回報獎勵R(λn)、平均時延T(λn)以及平均能耗E(λn)分別表示算法在每一輪迭代中,迭代步長達到k步時,所有終端設(shè)備執(zhí)行k步卸載策略獲得獎勵的平均值、消耗時間的平均值以及消耗能耗的平均值,如式(63)~(65)所示。
其中:rt,m、Tt,m和Et,m分別表示終端設(shè)備m第t步的單步獎勵、單步時延和單步能耗;M為終端設(shè)備數(shù)量。本文在相同的任務(wù)到達率下,計算平均回報獎勵R(λn)、平均時延T(λn)和平均能耗E(λn),旨在衡量終端設(shè)備執(zhí)行卸載任務(wù)時,其回報獎勵、時延和能耗的整體水平,進而估計R(λn)、T(λn)和E(λn)在訓(xùn)練過程中何時收斂。上述參數(shù)收斂說明終端設(shè)備計算卸載任務(wù)所消耗的時延和能耗最低,此時輸出最優(yōu)卸載策略。同時,為方便比較,在相同任務(wù)到達率下,本文對不同算法的平均回報獎勵、平均時延和平均能耗進行了歸一化處理。
任務(wù)到達率不同時,本文使用平均回報獎勵R(λx)、平均時延T(λx)以及平均能耗E(λx)分別表示算法每輪執(zhí)行k步,迭代n輪后,n輪內(nèi)所有終端設(shè)備獲得獎勵和的平均值、消耗時間以及消耗能耗的平均值,如式(66)~(68)所示。
在不同任務(wù)到達率下,本文計算平均回報獎勵R(λx)、平均時延T(λx)和平均能耗E(λx),旨在反映終端設(shè)備執(zhí)行卸載決策的整體性能水平在不同任務(wù)到達率下的變化趨勢。
本文設(shè)計如下四組對比實驗:a)不同任務(wù)到達率下,任務(wù)在終端設(shè)備和邊緣服務(wù)器的排隊時延對比實驗;b)相同任務(wù)到達率下,COOPERANT歸一化平均時延T(λn)和平均能耗E(λn)對比實驗;c)相同任務(wù)到達率下,COOPERANT歸一化平均回報獎勵R(λn)和網(wǎng)絡(luò)平均損失對比實驗;d)不同任務(wù)到達率下,COOPERANT平均回報獎勵R(λx)、平均時延T(λx)以及平均能耗E(λx)對比實驗。同時設(shè)計COOPERANT方法與傳統(tǒng)啟發(fā)式遺傳算法(genetic algorithm,GA)和蟻群算法(ant colony optimization,ACO)、元啟發(fā)式鯨魚優(yōu)化算法(whale optimization algorithm,WOA)、隨機經(jīng)驗重放MADDPG模型(MADDPG)、基于TD誤差優(yōu)先經(jīng)驗重放MADDPG模型(TD-MADDPG)、MAPPO模型進行對比[10~12,14,17,22]。
4.2.1 排隊時延對比
本節(jié)針對終端設(shè)備搶占式M/M/1/∞/∞/Priority排隊模型以及邊緣服務(wù)器非搶占式M/M/S/∞/∞/FCFS排隊模型,將本文COOPERANT任務(wù)調(diào)度方法與FCFS任務(wù)調(diào)度模型進行比較。
如圖3所示,本文提出的終端設(shè)備任務(wù)搶占式M/M/1/∞/∞/Priority排隊模型相比于FCFS任務(wù)調(diào)度模型,終端設(shè)備平均排隊時延大幅降低。具體地,在不同的任務(wù)到達率下,F(xiàn)CFS任務(wù)調(diào)度模型的終端設(shè)備平均排隊時延為0.003 0 ms、0.006 0 ms、0.009 3 ms、0.012 7 ms、0.015 4 ms以及0.016 9 ms。COOPERANT的終端設(shè)備平均排隊時延分別為0.002 2 ms、0.003 0 ms、0.003 5 ms、0.004 1 ms、0.004 6 ms以及0.004 9 ms。
在不同任務(wù)到達率下,COOPERANT的終端設(shè)備平均排隊時延相比于FCFS任務(wù)調(diào)度模型降低約26.7%、50.0%、62.3%、67.7%、70.1%以及71.0%。
如圖4所示,本文提出的邊緣服務(wù)器M/M/S/∞/∞/FCFS排隊模型相比于FCFS任務(wù)調(diào)度模型,邊緣服務(wù)器的平均排隊時延大幅降低。在不同任務(wù)到達率下,F(xiàn)CFS任務(wù)調(diào)度模型的邊緣服務(wù)器平均排隊時延為1.02×10-5 ms、8.27×10-5 ms、3.71×10-4 ms、5.90×10-4 ms、1.69×10-3 ms以及2.71×10-3 ms。COOPERANT邊緣服務(wù)器平均排隊時延分別為3.57×10-6 ms、2.00×10-5 ms、7.50×10-5 ms、2.26×10-4 ms、5.68×10-4 ms以及1.26×10-3 ms。在不同任務(wù)到達率下,COOPERANT模型的邊緣服務(wù)器平均排隊時延相比于FCFS任務(wù)調(diào)度模型降低約65.0%、75.8%、79.8%、61.7%、66.4%以及53.5%。
造成上述現(xiàn)象的原因是在相同計算卸載環(huán)境下,終端任務(wù)M/M/1/∞/∞/Priority排隊模型以及邊緣服務(wù)器M/M/S/∞/∞/FCFS排隊模型實際考慮了時延、能耗敏感型任務(wù)的調(diào)度優(yōu)先級。在調(diào)度過程中,COOPERANT優(yōu)先調(diào)度高優(yōu)先級、低容忍時延和低容忍能耗的任務(wù),因此減少了任務(wù)在等待隊列的平均等待時間。
4.2.2 相同任務(wù)到達率下平均時延、平均能耗對比
本節(jié)在相同任務(wù)調(diào)度及卸載場景下,設(shè)置任務(wù)到達率λn為30 Mbit/s,比較COOPERANT與傳統(tǒng)啟發(fā)式GA和ACO、元啟發(fā)式WOA、多智能體深度強化學(xué)習(xí)TD-MADDPG、MADDPG、以及MAPPO等六種算法在系統(tǒng)平均時延和平均能耗的差異。
隨著算法訓(xùn)練次數(shù)的增加,終端設(shè)備在沒有任何先驗環(huán)境知識的情況下探索移動蜂窩網(wǎng)絡(luò)中計算卸載環(huán)境,七種算法的歸一化平均時延T(λn)和歸一化平均能耗E(λn)迅速下降。其中,基于GA、ACO以及WOA的計算卸載方法收斂速度快于COOPERANT,但COOPERANT的平均時延及平均能耗明顯低于基于GA、ACO以及WOA的計算卸載方法。同時,在多智能體深度強化學(xué)習(xí)算法中,COOPERANT算法的平均時延以及平均能耗都低于TD-MADDPG、MADDPG以及MAPPO三種算法。
如圖5所示,當(dāng)算法訓(xùn)練次數(shù)達到60輪以后,七種算法歸一化平均時延T(λn)已經(jīng)收斂。具體地,COOPERANT、TD-MADDPG、MADDPG、MAPPO、ACO、GA、WOA七種算法在60輪的平均時延T(λn)絕對值為0.95 ms、1.18 ms、1.25 ms、1.36 ms、1.59 ms、1.81 ms、1.47 ms。COOPERANT與六種算法相比,平均時延T(λn)降低約19.5%、24.0%、30.1%、40.3%、47.5%、35.4%。
如圖6所示,COOPERANT、TD-MADDPG、MADDPG、MAPPO、ACO、GA、WOA七種算法在60輪的平均能耗E(λn)絕對值為7.32×10-6 J、1.15×10-5 J、1.54×10-5 J、1.70×10-5 J、3.72×10-5 J、3.94×10-5 J、2.44×10-5 J。COOPERANT與六種算法相比,平均能耗E(λn)降低約36.3%、52.5%、56.9%、80.3%、81.4%、70.0%。
造成上述原因是傳統(tǒng)啟發(fā)式和元啟發(fā)式算法僅基于迭代和優(yōu)化機制尋找策略,而多智能體深度強化學(xué)習(xí)模型一方面涉及更復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠通過神經(jīng)網(wǎng)絡(luò)更好地提取策略特征,另一方面其具有更復(fù)雜的經(jīng)驗重放機制,能夠提高高價值歷史經(jīng)驗的利用率,同時多智能體強化學(xué)習(xí)具有的試錯學(xué)習(xí)方式也使其不易陷入局部最優(yōu)解。這些特性使得強化學(xué)習(xí)可以根據(jù)歷史經(jīng)驗和反饋動態(tài)調(diào)整策略,從而獲得使計算時延和能耗開銷更低的任務(wù)卸載策略。而在多智能體深度強化學(xué)習(xí)算法中,MAPPO算法根據(jù)當(dāng)前策略生成的數(shù)據(jù)學(xué)習(xí),導(dǎo)致其平均時延、平均能耗較高。MADDPG算法等概率采樣歷史經(jīng)驗,所以其平均時延和平均能耗低于MAPPO算法,但仍處于較低的水平。TD-MADDPG算法在MADDPG的基礎(chǔ)上加入TD誤差優(yōu)先經(jīng)驗重放,一定程度上提高了歷史經(jīng)驗利用率。但其引入的估計偏差致使算法不能精確估計時延、能耗敏感型經(jīng)驗樣本的重要性,所以TD-MADDPG算法的平均時延和平均能耗高于COOPERANT算法。COOPERANT算法通過實際獎勵衡量時延、能耗敏感型經(jīng)驗的重要性,提高了經(jīng)驗池中低時延、低能耗經(jīng)驗樣本的利用率。實驗結(jié)果表明,融合Boosting的優(yōu)先經(jīng)驗重放方法能夠精確衡量時延能耗敏感型經(jīng)驗樣本的重要性,有效降低任務(wù)的計算時延及能耗開銷。
綜上,COOPERANT基于Boosting思想,使用時延及能耗模型中的實際獎勵衡量時延、能耗敏感型任務(wù)的歷史經(jīng)驗,采用有放回獨立抽樣方式,優(yōu)化歷史經(jīng)驗篩選,高概率抽樣低時延、低能耗經(jīng)驗樣本,從而降低任務(wù)的平均時延及平均能耗開銷。
4.2.3 相同任務(wù)到達率平均回報獎勵、Critic網(wǎng)絡(luò)損失對比
本節(jié)在相同任務(wù)調(diào)度及卸載場景下,設(shè)置任務(wù)到達率λn為30 Mbit/s,比較COOPERANT與TD-MADDPG、MADDPG以及MAPPO三種算法在系統(tǒng)平均回報獎勵R(λn)和平均網(wǎng)絡(luò)損失方面的差異。
如圖7所示,COOPERANT算法的歸一化平均回報獎勵R(λn)收斂后高于TD-MADDPG、MADDPG以及MAPPO三種算法。訓(xùn)練次數(shù)達到60輪,COOPERANT、TD-MADDPG、MADDPG以及MAPPO四種算法收斂后的平均回報獎勵R(λn)絕對值為2.53、1.68、1.47、1.15。COOPERANT模型與TD-MADDPG、MADDPG以及MAPPO三種算法相比,平均回報獎勵R(λn)提高了約50.6%、72.1%、120.0%。
造成上述現(xiàn)象原因是MAPPO算法使用當(dāng)前策略數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),收斂后抖動仍然多于其余三種算法,其高時延和高能耗使得任務(wù)的平均回報獎勵最低。MADDPG算法等概率抽取歷史經(jīng)驗訓(xùn)練網(wǎng)絡(luò),所以其平均回報獎勵高于MAPPO算法。TD-MADDPG算法通過TD誤差衡量歷史經(jīng)驗重要性,采用優(yōu)先經(jīng)驗重放的方式訓(xùn)練網(wǎng)絡(luò),所以其平均回報獎勵高于隨機經(jīng)驗重放的MADDPG算法。但TD誤差引入的估計偏差致使TD-MADDPG算法無法精確估計時延、能耗敏感型任務(wù)的重要性,使得TD-MADDPG算法的平均回報獎勵小于COOPERANT算法。COOPERANT算法采用融合Boosting的優(yōu)先經(jīng)驗重放方法,高概率采樣低時延、低能耗的經(jīng)驗樣本,其平均回報獎勵高于另外三種算法。
實驗結(jié)果表明,COOPERANT將Boosting思想引入經(jīng)驗重放,提高了強化學(xué)習(xí)中的高價值歷史經(jīng)驗利用率,從而提高了系統(tǒng)平均回報獎勵。
Critic網(wǎng)絡(luò)損失能直觀反映多智能體深度強化學(xué)習(xí)模型中代理的學(xué)習(xí)效果。如圖8所示,隨訓(xùn)練次數(shù)增加,COOPERANT、TD-MADDPG、MADDPG以及MAPPO四種算法的網(wǎng)絡(luò)損失均明顯下降,最終收斂到相同的值,表明相同環(huán)境下四種算法都能找到卸載策略最優(yōu)解。通過比較可知,COOPERANT尋找卸載策略最優(yōu)解的時間低于MADDPG、TD-MADDPG以及MAPPO三種算法。具體地,在訓(xùn)練次數(shù)前20輪,四種算法的網(wǎng)絡(luò)損失值都大幅下降,在50輪以后收斂到相同的值。其中,四種算法分別在30輪、40輪、45輪、50輪收斂。COOPERANT與三種算法相比,收斂速度提高約25%、33.3%以及40.0%。
造成上述現(xiàn)象的原因是,COOPERANT算法更高概率采樣經(jīng)驗池中低時延、低能耗的經(jīng)驗樣本,加快網(wǎng)絡(luò)在訓(xùn)練初期的學(xué)習(xí)速度。所以COOPERANT算法相比于TD-MADDPG、MADDPG、MAPPO等算法更快達到收斂。
4.2.4 不同任務(wù)到達率平均回報獎勵、平均時延、平均能耗對比
本節(jié)在不同任務(wù)到達率下,對比COOPERANT、TD-MADDPG、MADDPG、MAPPO四種算法的300輪任務(wù)平均回報獎勵R(λx)、平均時延T(λx)以及平均能耗E(λx)。
如圖9所示,隨著任務(wù)的到達速率增大,終端設(shè)備和邊緣服務(wù)器處理任務(wù)的能力下降。任務(wù)在終端設(shè)備和邊緣服務(wù)器出現(xiàn)排隊等待情況,COOPERANT、TD-MADDPG、MADDPG、MAPPO四種算法的平均回報獎勵R(λx)呈下降趨勢。其中,COOPERANT算法的平均回報獎勵R(λx)下降趨勢低于其余三種算法。具體地,當(dāng)任務(wù)到達率為30 Mbit/s時,COOPERANT、TD-MADDPG、MADDPG以及MAPPO四種算法的平均回報獎勵R(λx)分別是-3.05、-4.30、-5.30、-5.74。COOPERANT與三種算法相比,平均回報獎勵提高約29.1%、42.5%、46.9%。
造成上述現(xiàn)象的原因是,MAPPO算法無法有效利用歷史經(jīng)驗訓(xùn)練,導(dǎo)致其在不同任務(wù)到達率下的平均回報獎勵都低于MADDPG算法。傳統(tǒng)MAPPG算法等概率采樣歷史經(jīng)驗,無法有效區(qū)分歷史高價值經(jīng)驗。TD-MADDPG算法相比于傳統(tǒng)MADDPG算法,采用TD誤差優(yōu)先經(jīng)驗重放,一定程度上提高了決策精度。所以TD-MADDPG算法的平均回報獎勵高于MADDPG算法。但由于TD誤差在計算中引入的估計偏差,致使TD-MADDPG算法的回報獎勵低于COOPERANT算法。COOPERANT算法提高了經(jīng)驗池中高回報獎勵經(jīng)驗的利用率,所以其平均回報獎勵高于其余三種算法。
如圖10、11所示,COOPERANT算法的平均時延T(λx)和平均能耗E(λx)低于MADDPG、TD-MADDPG以及MAPPO三種算法。具體地,任務(wù)到達率為30 Mbit/s時,COOPERANT、TD-MADDPG、MADDPG、MAPPO四種算法的平均時延T(λx)分別是2.46 ms、2.92 ms、3.41 ms、3.57 ms。COOPERANT與三種算法相比,平均時延T(λx)降低約15.7%、27.9%以及31.1%。對于能耗開銷,COOPERANT、TD-MADDPG、MADDPG、MAPPO四種算法的平均能耗E(λx)分別是0.083 J、0.101 J、0.131 J、0.140 J。COOPERANT與三種算法相比,平均能耗E(λx)降低約17.8%、36.6%以及40.7%。
造成上述現(xiàn)象的原因是,隨著任務(wù)到達率升高,終端設(shè)備和邊緣服務(wù)器計算量增大,從而導(dǎo)致任務(wù)計算時延和能耗開銷增加。由于COOPERANT算法能以更高的概率采集到經(jīng)驗池中低時延、低能耗的高價值經(jīng)驗,所以其平均時延與平均能耗均低于其余三種算法。
5 結(jié)束語
本文針對移動蜂窩網(wǎng)絡(luò)邊緣計算場景中多設(shè)備、多服務(wù)器任務(wù)調(diào)度及任務(wù)卸載問題,設(shè)計了基于Boosting優(yōu)先經(jīng)驗重放的協(xié)同計算卸載方法COOPERANT。COOPERANT分別在終端設(shè)備構(gòu)建搶占式M/M/1/∞/∞/Priority排隊模型,在邊緣服務(wù)器構(gòu)建非搶占式M/M/S/∞/∞/FCFS排隊模型,實現(xiàn)動態(tài)隨機環(huán)境下任務(wù)響應(yīng)時間的準確評估。同時,本文設(shè)計了基于Boosting優(yōu)先經(jīng)驗重放的COOPERANT計算卸載方法。其中包括:融合Boosting的COOPERANT優(yōu)先經(jīng)驗重放算法、COOPERANT任務(wù)卸載聯(lián)合優(yōu)化問題模型、COOPERANT多智能體強化學(xué)習(xí)模型以及COOPERANT網(wǎng)絡(luò)更新策略。最后,通過與GA、ACO、WOA、隨機經(jīng)驗重放MADDPG、TD誤差優(yōu)先經(jīng)驗重放MADDPG、MAPPO等算法的比較,證明了COOPERANT在解決多設(shè)備多服務(wù)器任務(wù)調(diào)度及任務(wù)卸載問題的有效性。
本文終端設(shè)備為合作關(guān)系,最終目標是最大化全局獎勵。根據(jù)環(huán)境的變化,終端設(shè)備搶占資源以優(yōu)先卸載任務(wù)至邊緣服務(wù)器。未來的研究會重點聚焦于同時考慮終端設(shè)備之間的合作與競爭關(guān)系,并基于此設(shè)計考慮競爭關(guān)系的計算卸載方法。
參考文獻:
[1]Mahbub M,Shubair R M.Contemporary advances in multi-access edge computing:a survey of fundamentals,architecture,technologies,deployment cases,security,challenges,and directions[J].Journal of Network and Computer Applications,2023,219:103726.
[2]George A S,George A S H,Baskar T.Edge computing and the future of cloud computing:a survey of industry perspectives and predictions[J].Partners Universal International Research Journal,2023,2(2):19-44.
[3]Yang J,Shah A A,Pezaros D.A survey of energy optimization approaches for computational task offloading and resource allocation in MEC networks[J].Electronics,2023,12(17):3548.
[4]Reiss-Mirzaei M,Ghobaei-Arani M,Esmaeili L.A review on the edge caching mechanisms in the mobile edge computing:a social-aware perspective[J].Internet of Things,2023,22:100690.
[5]陳琳,董甲東,潘凱,等.云邊端和D2D邊緣架構(gòu)下的計算卸載策略綜述[J].計算機工程與應(yīng)用,2023,59(15):55-67.(Chen Lin,Dong Jiadong,Pan Kai,et al.Survey of computation offloading strategies under cloud-edge-end and D2D edge architectures[J].Compu-ter Engineering and Applications,2023,59(15):55-67.)
[6]Chen Runfeng,Cui Li,Zhang Yuli,et al.Delay optimization with FCFS queuing model in mobile edge computing-assisted UAV swarms:a game-theoretic learning approach[C]//Proc of International Confe-rence on Wireless Communications and Signal Processing.Piscataway,NJ:IEEE Press,2020:245-250.
[7]Zheng Huan,Jin Shunfu.A multi-source fluid queue based stochastic model of the probabilistic offloading strategy in a MEC system with multiple mobile devices and a single MEC server[J].International Journal of Applied Mathematics and Computer Science,2022,32(1):125-138.
[8]王玲玲.基于移動邊緣計算的車聯(lián)網(wǎng)任務(wù)卸載策略研究[D].濟南:山東師范大學(xué),2023.(Wang Lingling.Research on task offloa-ding strategy of Internet of Vehicles based on mobile edge computing[D].Jinan:Shandong Normal University,2023.)
[9]Zhang Rui,Wu Libing,Cao Shuqin,et al.Task offloading with task classification and offloading nodes selection for MEC-enabled IoV[J].ACM Trans on Internet Technology,2021,22(2):1-24.
[10]Ge Haibo,Geng Jiajun,Yu An,et al.Research on collaborative computational offload strategy based on improved ant colony algorithm in edge computing[C]//Proc of the 5th International Conference on Natural Language Processing.Piscataway,NJ:IEEE Press,2023:486-490.
[11]Chuang Y T,Hung Y T.A real-time and ACO-based offloading algorithm in edge computing[J].Journal of Parallel and Distributed Computing,2023,179:104703.
[12]Huang Mengxing,Zhai Qianhao,Chen Yinjie,et al.Multi-objective whale optimization algorithm for computation offloading optimization in mobile edge computing[J].Sensors,2021,21(8):2628.
[13]Peng Haixia,Shen Xuemin.Multi-agent reinforcement learning based resource management in MEC-and UAV-assisted vehicular networks[J].IEEE Journal on Selected Areas in Communications,2020,39(1):131-141.
[14]黃子祥,張新有,邢煥來,等.無人機群場景下邊端協(xié)同計算卸載技術(shù)[J].計算機應(yīng)用研究,2024,41(5):1515-1520.(Huang Zi-xiang,Zhang Xinyou,Xing Huanlai,et al.Research on edge to end collaborative computing offloading technology in unmanned aircraft cluster scenarios[J].Application Research of Computers,2024,41(5):1515-1520.)
[15]Wu Liantao,Sun Peng,Wang Zhibo,et al.Computation offloading in multi-cell networks with collaborative edge-cloud computing:a game theoretic approach[J].IEEE Trans on Mobile Computing,2023,23(3):2093-2106.
[16]Wu Guowen,Xu Zhiqi,Zhang Hong,et al.Multi-agent DRL for joint completion delay and energy consumption with queuing theory in MEC-based IIoT[J].Journal of Parallel and Distributed Computing,2023,176:80-94.
[17]Cheng Ming,Zhu Canlin,Lin Min,et al.An O-MAPPO scheme for joint computation offloading and resources allocation in UAV assisted MEC systems[J].Computer Communications,2023,208:190-199.
[18]Foerster J,Nardelli N,F(xiàn)arquhar G,et al.Stabilising experience replay for deep multi-agent reinforcement learning[C]//Proc of the 34th International Conference on Machine Learning.2017:1146-1155.
[19]Liu Xuhai,Xue Zhenghai,Pang Jingcheng,et al.Regret minimization experience replay in off-policy reinforcement learning[C]//Advances in Neural Information Processing Systems.2021:17604-17615.
[20]Schaul T,Quan J,Antonoglou I,et al.Prioritized experience replay[C]//Proc of the 4th International Conference on Learning Representations.2016:322-355.
[21]Shi Huaguang,Tian Yuxiang,Li Hengji,et al.Task offloading and trajectory scheduling for UAV-enabled MEC networks:an MADRL algorithm with prioritized experience replay[J].Ad hoc Networks,2024,154:103371.
[22]Mei Yongsheng,Zhou Hanhan,Lan Tian,et al.Mac-po:multi-agent experience replay via collective priority optimization[C]//Proc of the 23rd International Conference on Autonomous Agents and Multi-agent Systems.2023:466-475.
[23]Xiao Hui,Huang Jiawei,Hu Zhigang,et al.Collaborative cloud-edge-end task offloading in MEC-based small cell networks with distributed wireless backhaul[J].IEEE Trans on Network and Service Mana-gement,2023,20(4):4542-4557.
[24]Meng Fan,Chen Peng,Wu Lenan,et al.Power allocation in multi-user cellular networks:deep reinforcement learning approaches[J].IEEE Trans on Wireless Communications,2020,19(10):6255-6267.
[25]Bukharin A,Li Yan,Yu Yue,et al.Robust multi-agent reinforcement learning via adversarial regularization:theoretical foundation and stable algorithms[C]//Advances in Neural Information Processing Systems.2024.
[26]Du Jianbo,Kong Ziwen,Sun Aijing,et al.MADDPG-based joint ser-vice placement and task offloading in MEC empowered air-ground integrated networks[J].IEEE Internet of Things Journal,2023,11(6):10600-10615.