摘 要:針對(duì)車聯(lián)網(wǎng)中邊緣節(jié)點(diǎn)的可信性無(wú)法保證的問(wèn)題,提出了一種基于聲譽(yù)的車聯(lián)網(wǎng)可信任務(wù)卸載模型,用記錄在區(qū)塊鏈上的邊緣節(jié)點(diǎn)聲譽(yù)來(lái)評(píng)估其可信度,從而幫助終端設(shè)備選取可靠的邊緣節(jié)點(diǎn)進(jìn)行任務(wù)卸載。同時(shí),將卸載策略建模為聲譽(yù)約束下的時(shí)延和能耗最小化問(wèn)題,采用多智能體深度確定性策略梯度算法來(lái)求解該NP-hard問(wèn)題的近似最優(yōu)解,邊緣服務(wù)器依據(jù)任務(wù)卸載的完成情況獲得獎(jiǎng)勵(lì),然后據(jù)此更新記錄在區(qū)塊鏈上的聲譽(yù)。仿真實(shí)驗(yàn)表明,與基準(zhǔn)測(cè)試方案相比,該算法在時(shí)延和能耗方面降低了25.58%~27.44%。
關(guān)鍵詞:車聯(lián)網(wǎng); 邊緣計(jì)算; 區(qū)塊鏈; 深度強(qiáng)化學(xué)習(xí); 任務(wù)卸載
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-007-1971-06
doi:10.19734/j.issn.1001-3695.2023.11.0546
Strategy on trusted task offloading for Internet of Vehicles based onmulti-agent deep reinforcement learning
Abstract:Aiming at the problem that the credibility of edge nodes in the Internet of Vehicles could not be guaranteed, this paper proposed a reputation-based task offloading and resource allocation model for the Internet of Vehicles, and used the reputation of edge nodes recorded on the blockchain to evaluate its credibility, so as to help the terminal devices select reliable edge nodes for task offloading. At the same time, this paper modeled the offloading strategy as the time delay and energy consumption minimization problem under the reputation constraint, and used the multi-agent deep deterministic policy gradient algorithm to solve the approximate optimal solution of the NP-hard problem. The edge server received rewards based on the completion of task offloading, and then updated the reputation recorded on the blockchain. Simulation experiments show that the proposed algorithm reduces in terms of time delay and energy consumption by 25.58% to 27.44% compared with the benchmark testing schemes.
Key words:Internet of Vehicles; edge computing; blockchain; deep reinforcement learning; task offloading
隨著車聯(lián)網(wǎng)的快速發(fā)展,計(jì)算密集型和時(shí)延敏感型的服務(wù)和應(yīng)用[1,2]不斷增加,資源受限的終端設(shè)備[3]無(wú)法滿足用戶日益增長(zhǎng)的服務(wù)需求[4]。邊緣計(jì)算[5]的計(jì)算和存儲(chǔ)能力[6]為解決上述問(wèn)題提供了很好的方向,車輛通過(guò)將任務(wù)卸載至鄰近的邊緣服務(wù)器,完成自身不能實(shí)現(xiàn)的任務(wù),同時(shí)可以更快地獲得服務(wù)響應(yīng)[7]。與云計(jì)算[8]相比,邊緣計(jì)算將服務(wù)匯聚到核心網(wǎng)絡(luò)的邊緣,降低了回程負(fù)荷和傳輸鏈路的距離,從而為用戶提供高帶寬、低延遲的網(wǎng)絡(luò)服務(wù)。
隨著人工智能的發(fā)展,研究人員開(kāi)始嘗試通過(guò)機(jī)器學(xué)習(xí)[9]來(lái)解決任務(wù)卸載問(wèn)題。對(duì)于邊緣計(jì)算環(huán)境中的任務(wù)卸載問(wèn)題,已有研究[10~14]致力于找到在時(shí)延和能耗約束下的最優(yōu)卸載策略,然而這些研究忽略了邊緣服務(wù)器一般在不受信任的環(huán)境中運(yùn)行[15]。終端設(shè)備更希望將任務(wù)卸載到可靠的邊緣服務(wù)器,雖然文獻(xiàn)[16~19]考慮了邊緣服務(wù)器的可信性,但是忽略了邊緣服務(wù)器進(jìn)行任務(wù)卸載而出現(xiàn)的時(shí)延和能耗問(wèn)題。
本文考慮邊緣服務(wù)器的可信問(wèn)題,提出了一個(gè)可信的邊緣計(jì)算卸載模型,激勵(lì)邊緣服務(wù)器參與任務(wù)卸載來(lái)獲取聲譽(yù),用記錄在區(qū)塊鏈上的聲譽(yù)評(píng)估邊緣服務(wù)器的可信度,依據(jù)實(shí)用拜占庭容錯(cuò)機(jī)制選擇一個(gè)邊緣服務(wù)器作為服務(wù)中心來(lái)決策邊緣服務(wù)器的卸載行為;將邊緣計(jì)算任務(wù)卸載問(wèn)題建模為計(jì)算、緩存和通信資源約束下的時(shí)延和能耗最小化問(wèn)題,采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法求解該問(wèn)題,以達(dá)到快速獲得卸載決策的目的。主要貢獻(xiàn)如下:a)采用聲譽(yù)機(jī)制來(lái)激勵(lì)邊緣服務(wù)器參與任務(wù)競(jìng)爭(zhēng),提高邊緣服務(wù)器的收益,幫助用戶選取可靠的邊緣服務(wù)器進(jìn)行任務(wù)卸載;b)綜合考慮時(shí)延和能耗,將任務(wù)卸載問(wèn)題轉(zhuǎn)換為求解目標(biāo)函數(shù)問(wèn)題,并通過(guò)改進(jìn)的MADDPG算法求解;c)通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了所提出算法的可行性和有效性。
1 相關(guān)工作
本文相關(guān)工作分為兩個(gè)方面:邊緣服務(wù)器對(duì)用戶的可信性問(wèn)題以及任務(wù)卸載產(chǎn)生的時(shí)延和能耗問(wèn)題??尚哦戎荚趲椭脩暨x取可靠的邊緣服務(wù)器進(jìn)行任務(wù)卸載。Kong等人[16]提出了一種基于多反饋信任機(jī)制的任務(wù)卸載策略,以提供可信的運(yùn)行環(huán)境和可靠的服務(wù)。Zheng等人[17]提出了一種基于信任度的自適應(yīng)訪問(wèn)控制方案,以提供在邊緣計(jì)算環(huán)境中的自適應(yīng)和細(xì)粒度的屬性訪問(wèn)控制。為提高服務(wù)遷移場(chǎng)景中邊緣節(jié)點(diǎn)的可靠性,El Ioini等人[18]研究了一種信任機(jī)制,邊緣節(jié)點(diǎn)可以基于信任分?jǐn)?shù)來(lái)決定將其服務(wù)和用戶信息遷移到哪個(gè)節(jié)點(diǎn)。Zeng等人[19]提出了一種基于信任的多智能體模仿學(xué)習(xí)方案來(lái)改善智能城市邊緣計(jì)算的任務(wù)卸載,使邊緣服務(wù)器能夠高效、準(zhǔn)確地獲取設(shè)備信任。上述研究雖然考慮了邊緣服務(wù)器對(duì)用戶的可信性,但是忽略了邊緣服務(wù)器在卸載時(shí)的時(shí)延和能耗問(wèn)題。
已有學(xué)者對(duì)邊緣計(jì)算環(huán)境下的任務(wù)卸載問(wèn)題進(jìn)行了一些研究。然而,傳統(tǒng)的任務(wù)卸載方法如遞歸和動(dòng)態(tài)規(guī)劃[20]在滿足終端設(shè)備日益提高的服務(wù)質(zhì)量需求方面面臨著巨大的挑戰(zhàn)[21]。因此,Zhao等人[10]開(kāi)發(fā)了一種雙延遲深度確定性策略梯度算法,通過(guò)無(wú)人機(jī)的軌跡、計(jì)算任務(wù)分配和通信資源管理來(lái)解決任務(wù)卸載問(wèn)題,以最小化執(zhí)行延遲和能量消耗的總和。Kong等人[11]為解決能源成本問(wèn)題,結(jié)合深度確定性策略梯度算法,設(shè)計(jì)了一種聯(lián)合計(jì)算和緩存框架。Liu等人[12]提出了一種深度Q網(wǎng)絡(luò)和深度確定性策略梯度算法來(lái)解決海上無(wú)人機(jī)群在邊緣計(jì)算網(wǎng)絡(luò)中的通信和計(jì)算的延遲最小化問(wèn)題。Zhang等人[13]提出了一種基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)任務(wù)卸載方案,確保多個(gè)邊緣服務(wù)器能以較低的任務(wù)延遲和能耗完成任務(wù)卸載和計(jì)算。為了減少計(jì)算卸載在時(shí)變信道條件下的計(jì)算復(fù)雜性,Chen等人[14]提出了一種基于深度強(qiáng)化學(xué)習(xí)的博弈學(xué)習(xí)算法,來(lái)提高處理和預(yù)測(cè)的能力以及時(shí)間序列中的延遲。對(duì)于邊緣計(jì)算環(huán)境中的任務(wù)卸載問(wèn)題,上述研究均致力于找到在時(shí)延和能耗約束下的最優(yōu)卸載策略,然而這些研究忽略了邊緣服務(wù)器的可信度。針對(duì)上述算法的局限性,本文綜合考慮在邊緣服務(wù)器可信性、時(shí)延和能耗的約束下的任務(wù)卸載問(wèn)題,采用聲譽(yù)機(jī)制和MADDPG算法來(lái)作出卸載決策。
2 系統(tǒng)模型及問(wèn)題描述
2.1 系統(tǒng)模型
模型主要由云、邊緣服務(wù)器和用戶設(shè)備組成。邊緣計(jì)算層部署了m個(gè)邊緣服務(wù)器,邊緣服務(wù)器相互協(xié)作為用戶設(shè)備(user devices,U={U1,U2,…,Ui,…,UN})提供服務(wù)。設(shè)備通過(guò)回程鏈路鏈接到邊緣服務(wù)器,邊緣服務(wù)器則通過(guò)高速鏈路訪問(wèn)云。圖1為模型的分層架構(gòu)和主要工作流程。
a)用戶和設(shè)備層:?jiǎn)蝹€(gè)用戶管理多個(gè)終端設(shè)備,一個(gè)終端設(shè)備通常負(fù)責(zé)一項(xiàng)或多項(xiàng)特定的數(shù)據(jù)收集,然后將收集到的數(shù)據(jù)移交給位于邊緣計(jì)算層的邊緣服務(wù)器進(jìn)行處理。
b)邊緣計(jì)算層:依據(jù)實(shí)用拜占庭容錯(cuò)機(jī)制[22]選出一個(gè)邊緣服務(wù)器作為服務(wù)中心(edge server service center,ESSC),其余邊緣服務(wù)器(edge server,ES={ES1,ES2,…,ESm,…,ESM})查看自身空閑的計(jì)算和存儲(chǔ)能力來(lái)決定是否參與任務(wù)競(jìng)爭(zhēng)。
c)區(qū)塊鏈層:依據(jù)智能合約[23]來(lái)確保ES之間相互信任,存儲(chǔ)用戶、設(shè)備、ES以及任務(wù)的相關(guān)信息,以確保區(qū)塊上的信息不可竄改。
d)云層:云服務(wù)器負(fù)責(zé)分析區(qū)塊鏈中的信息,判斷ES是否遵循智能合約,遵循智能合約的ES可以查看區(qū)塊鏈中的信息。ESSC以分布式方式分配計(jì)算、緩存和通信資源,通過(guò)MADDPG算法作出卸載決策,從而實(shí)現(xiàn)終端設(shè)備-邊緣-云之間的資源合作。層與層之間通過(guò)數(shù)據(jù)信息傳輸進(jìn)行相互協(xié)作,以實(shí)現(xiàn)模型功能。
2.1.1 聲譽(yù)模型
ESSC通過(guò)身份驗(yàn)證機(jī)制[23]來(lái)驗(yàn)證用戶身份和用戶車輛信息。ES通過(guò)任務(wù)卸載獲得收益,采用激勵(lì)機(jī)制使其收益最大化,并將其收益轉(zhuǎn)換為聲譽(yù)來(lái)選取可靠的ES。
ES通過(guò)以下方式獲得獎(jiǎng)勵(lì):a)基礎(chǔ)獎(jiǎng)勵(lì)rb:U支付獎(jiǎng)勵(lì)使ES完成任務(wù),其值不得超過(guò)U本身所擁有的,ES按時(shí)完成任務(wù)后,將獲得rb;b) 績(jī)效獎(jiǎng)勵(lì)rpe:當(dāng)任務(wù)執(zhí)行者ETe提前完成任務(wù)卸載時(shí),ESSC根據(jù)完成時(shí)間所給予的獎(jiǎng)勵(lì);c)參與者獎(jiǎng)勵(lì)rp:為鼓勵(lì)ES積極參與任務(wù)競(jìng)爭(zhēng),只要ES成為任務(wù)候選者ETc就給予一定的獎(jiǎng)勵(lì),該值是固定的,由ESSC獎(jiǎng)勵(lì)。通過(guò)驗(yàn)證的U發(fā)送任務(wù)請(qǐng)求和rb,ESSC廣播任務(wù)T的信息和rb,rb越高,則ETc就越多。競(jìng)爭(zhēng)成功的ETc作為ETe獲得的總獎(jiǎng)勵(lì)為
其中:tm是U允許ETe完成T的最大執(zhí)行時(shí)間,t′是ETe完成T所用的實(shí)際時(shí)間。依據(jù)t′計(jì)算rpe:
ETe的表現(xiàn)被記錄在區(qū)塊鏈中,以方便進(jìn)行長(zhǎng)期的聲譽(yù)評(píng)估。ES的基礎(chǔ)聲譽(yù)為
rpes=r(3)
ES只有保持高性能才能獲得高聲譽(yù),其聲譽(yù)應(yīng)根據(jù)一段時(shí)間內(nèi)完成多個(gè)T的性能來(lái)評(píng)估,以防止其通過(guò)少量T掩蓋過(guò)去糟糕的表現(xiàn)。同時(shí),ES不能以不穩(wěn)定的性能進(jìn)行任務(wù)卸載,以防止其在大量任務(wù)中隱藏不當(dāng)行為。ESSC首先確定用來(lái)評(píng)估聲譽(yù)的任務(wù)數(shù)量n,如U密度較高的區(qū)域,ES需執(zhí)行更多的任務(wù),即ESSC使用較大的n來(lái)防止惡意邊緣服務(wù)器快速建立聲譽(yù)。由于rpes不依賴ES的評(píng)級(jí),所以惡意邊緣服務(wù)器無(wú)法通過(guò)給予高評(píng)價(jià)來(lái)提高聲譽(yù)。ES的當(dāng)前聲譽(yù)根據(jù)任務(wù)卸載的歷史表現(xiàn)評(píng)估:
其中:rpnes是ES完成第n個(gè)T的聲譽(yù),α∈[0,1]。
如前所述,ES會(huì)因性能不穩(wěn)定而受到懲罰。nes表示ES在n個(gè)T中成功完成卸載的任務(wù)數(shù)量,則ES的最終聲譽(yù)為
通過(guò)這種方式,低rpes但具有高性能的ES仍可以參與任務(wù)競(jìng)爭(zhēng)。ETe會(huì)在完成任務(wù)后打包上傳給ESSC,用于聲譽(yù)評(píng)估和獎(jiǎng)勵(lì)發(fā)放。
2.1.2 時(shí)延模型
如前所述,ETc的聲譽(yù)表明其有能力在tm內(nèi)完成T。由于一些ETc可能更接近U,可以較低的時(shí)延與其通信,所以選擇ETe時(shí)還應(yīng)考慮時(shí)延問(wèn)題。在模型中,每個(gè)任務(wù)不能再進(jìn)一步被劃分。Ti既可以在Ui執(zhí)行,也可以卸載到ES。首先,用yi(x)表示U是否將任務(wù)卸載到ES,即
U通過(guò)正交頻分多址上傳數(shù)據(jù)。總可用的頻譜資源Cmsp由ESSC給出,信道數(shù)用chm表示,Bm=Cmsp/chm表示每個(gè)子信道的帶寬。U在每個(gè)時(shí)間槽決定是否將Ti卸載給ES。當(dāng)Ui選擇將Ti卸載到第m個(gè)ES(ESm)時(shí),上行和下行數(shù)據(jù)傳輸速率為
其中:trupi,m和trdowni,m分別表示為Ui和ESm之間的上行和下行傳輸功率,gupi,m和gdowni,m分別表示ESm和Ui之間的上行和下行信道增益,服從均值為0、單位方差為σ2的高斯分布,即為系統(tǒng)噪聲功率;Bupi,m和Bdowni,m分別表示分配給第m個(gè)鏈路的上行和下行信道帶寬。每個(gè)信道都有兩種狀態(tài),可以表示為fbm(x)∈{0,1},即為{空閑,繁忙}。當(dāng)信道正在傳輸任務(wù)時(shí),該信道將被占用,則狀態(tài)由空閑轉(zhuǎn)變?yōu)榉泵?。由于鏈路建立時(shí)間相對(duì)較短,所以這里只考慮數(shù)據(jù)傳輸時(shí)間。
a)本地計(jì)算模型。如果Ui根據(jù)當(dāng)前策略yi,0(x)選擇在時(shí)隙t局部計(jì)算Ti,則Ui的局部計(jì)算延遲只與執(zhí)行Ti所需的計(jì)算能力CPiu和周期Ciucpu有關(guān),即
b)任務(wù)卸載模型。如果Ui根據(jù)當(dāng)前策略yi,m(x)將Ti卸載到ES,則Ui需要將Ti傳輸給ETe。然后,ETe需要對(duì)Ti進(jìn)行卸載。最后,ETe將結(jié)果返回給Ui。
根據(jù)以上描述,Ui上傳Ti到ESm所需時(shí)間為
其中:Di表示Ti的數(shù)據(jù)大小,Di,mu表示Ui到ESm的上行數(shù)據(jù)傳輸速率,Di,mes表示Ui和ESm之間的距離。在此期間,信道處于繁忙狀態(tài),不能被用于傳輸另一個(gè)任務(wù)。
ESm完成任務(wù)卸載的時(shí)間為
其中:Cmcpu和CPi,mes分別表示ESm的CPU周期和計(jì)算能力。同時(shí),ESm傳輸數(shù)據(jù)給Ui的時(shí)間為
其中:DRi表示ESm完成任務(wù)卸載后的數(shù)據(jù)大小,Di,mes-u表示ESm到Ui的下行數(shù)據(jù)傳輸速率。
因此,ESm進(jìn)行任務(wù)卸載的時(shí)延表示為
模型的總時(shí)延為ηi=max{tiu,βi}(14)
2.1.3 能耗模型
選擇ETe關(guān)鍵標(biāo)準(zhǔn)還需考慮能耗問(wèn)題。Ti在Ui執(zhí)行和任務(wù)卸載到ES的能耗分別如下。
a)本地計(jì)算模型。每個(gè)計(jì)算周期的能耗[24]:
b)任務(wù)卸載模型。當(dāng)Ui選擇將任務(wù)卸載到ES,能耗產(chǎn)生主要在傳輸階段和執(zhí)行階段。這里不考慮ES執(zhí)行任務(wù)所造成的能耗。用Pi,mu-es表示ESm和Ui之間的傳輸功率,則ES卸載任務(wù)的能耗為
模型的總能耗為
2.2 問(wèn)題描述
最小化總時(shí)延和能耗是一個(gè)多目標(biāo)優(yōu)化問(wèn)題,然而在實(shí)踐中實(shí)現(xiàn)是非常復(fù)雜的。為簡(jiǎn)化問(wèn)題,便于理論分析,考慮了一個(gè)線性加權(quán)目標(biāo)函數(shù)。
其中:δ∈[0,1]表示在時(shí)延和能耗方面的權(quán)重。
ESSC選擇聲譽(yù)最高的ETc成為ETe。若所有ETmc沒(méi)有執(zhí)行過(guò)任務(wù),則成本最低的ETmc執(zhí)行Ti。因此,將目標(biāo)函數(shù)解耦為兩個(gè)子問(wèn)題。第一個(gè)優(yōu)化問(wèn)題為
其中:約束條件C1表示ES的計(jì)算和存儲(chǔ)資源的分配變量。C2表示卸載決策模式。C3和C4表示ES的計(jì)算和存儲(chǔ)資源的分配不能超過(guò)總資源量。C5表示邊緣服務(wù)器參與任務(wù)競(jìng)爭(zhēng)的聲譽(yù)要求。C6和C7分別表示CPU周期和ES計(jì)算能力不能超過(guò)最大值。C8和C9分別表示上行和下行鏈路容量的最大值。C10表示任務(wù)卸載時(shí)延需要滿足U的時(shí)延要求。C11表示時(shí)延和能耗的權(quán)重約束。第二個(gè)優(yōu)化問(wèn)題為
其中:C1表示ETe的成本限制,即在滿足[0,scmax]約束條件下,具有聲譽(yù)最大值的ETc作為ETe。
3 算法設(shè)計(jì)
優(yōu)化問(wèn)題P1是一個(gè)多邊緣服務(wù)器合作和競(jìng)爭(zhēng)問(wèn)題,其目的是找到成本最優(yōu)值,從而得到目標(biāo)聲譽(yù)rpmes和目標(biāo)邊緣服務(wù)器ETmc(優(yōu)化問(wèn)題P2)。由于上述優(yōu)化問(wèn)題是NP-hard問(wèn)題,傳統(tǒng)的優(yōu)化方法很難快速解決,所以提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載的優(yōu)化算法。
深度強(qiáng)化學(xué)習(xí)[25]利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,加快學(xué)習(xí)速度以實(shí)現(xiàn)更好的性能。深度Q網(wǎng)絡(luò)(deep Q-network,DQN)算法的建模是基于馬爾可夫決策過(guò)程進(jìn)行的,包括代理即ES、環(huán)境、狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)元素。具體來(lái)說(shuō),代理在時(shí)隙t處觀察環(huán)境以獲得當(dāng)前狀態(tài),根據(jù)當(dāng)前狀態(tài)執(zhí)行動(dòng)作,從環(huán)境中獲得獎(jiǎng)勵(lì),當(dāng)前狀態(tài)轉(zhuǎn)移為下一個(gè)狀態(tài),代理依據(jù)新的環(huán)境狀態(tài)執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì),此循環(huán)一直運(yùn)行到環(huán)境的最終狀態(tài)。
隨著智能體數(shù)量的增加,行動(dòng)者和評(píng)論家(actor-critic)算法會(huì)出現(xiàn)方差變大的問(wèn)題。從ES的角度來(lái)看,其他ES的策略會(huì)迅速升級(jí)并保持未知的狀態(tài),使得環(huán)境處于非平穩(wěn)狀態(tài)。MADDPG算法在actor-critic算法和深度確定性策略梯度算法的基礎(chǔ)上進(jìn)行了改進(jìn),允許多智能體即ES參與任務(wù)競(jìng)爭(zhēng),同時(shí)每個(gè)ES擁有目標(biāo)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò),以便通過(guò)深度確定性策略梯度獲得卸載策略。actor根據(jù)ES的狀態(tài)決定動(dòng)作,critic評(píng)估actor的行為,即輸出Q值。目標(biāo)和評(píng)估網(wǎng)絡(luò)參數(shù)更新記為θμes和θQes,經(jīng)驗(yàn)回放緩沖區(qū)Euclid Math OneDAp的存在降低了過(guò)擬合問(wèn)題和樣本相關(guān)性,更新參數(shù)時(shí),評(píng)估網(wǎng)絡(luò)從Euclid Math OneDAp中隨機(jī)獲取樣本?;贛ADDPG的主要思想,將P1轉(zhuǎn)換為馬爾可夫決策來(lái)表示任務(wù)卸載決策過(guò)程。
a)觀察狀態(tài)。在每個(gè)時(shí)間段,ESSC在其覆蓋范圍和當(dāng)前可用資源下從U收集任務(wù)請(qǐng)求,并建立虛擬任務(wù)隊(duì)列。οtaskt(t)=(T1,m(t),T2,m(t),…,TN,m(t))表示未處理任務(wù)的狀態(tài)。在時(shí)隙t,如果Ui遠(yuǎn)離ES的覆蓋范圍,則定義為Ti,m(t)=0。同時(shí),可用頻譜資源表示為ospm(t)=Cm,essp(t),可用計(jì)算資源表示為ocom(t)=CPi,mes(t) ,上行和下行的數(shù)據(jù)傳輸速率為oupm(t)=Di,mu(t)和odownm(t)=Di,mes-u(t),ES上的觀測(cè)狀態(tài)為οt(t)=(otaskt(t),ospm(t),ocom(t),oupm(t),odownm(t))。由于環(huán)境完全是觀測(cè)到的,所以觀察結(jié)果等價(jià)于環(huán)境狀態(tài),則一組系統(tǒng)觀測(cè)定義為
ο(t)=(o1(t),…,oM(t))(24)
b)動(dòng)作空間。在時(shí)隙t,動(dòng)作a(t)包含ESSC為Ui選擇的卸載策略。卸載決策變量為φi,l(t),φi,m(t),φi,h,m(t)∈{0,1},其中,φi,l(t)表示Ti(t)在Ui處理,在ES卸載則為φi,m(t),φi,h,m(t)表示ES將Ti(t)移交給另一個(gè)ES卸載。λi,m(t)和ωi,m(t)表示為Ti(t)分配的計(jì)算和緩存資源,則ES的動(dòng)作am(t)=(φi,l(t),φi,m(t),φi,h,m(t),λi,m(t),ωi,m(t))為
a(t)=(a1(t),…,aM(t))(25)
c)獎(jiǎng)勵(lì)函數(shù)。為提高ES的處理效率,ESSC將處理效率作為系統(tǒng)獎(jiǎng)勵(lì),記為ξm(t)。ζm(t)表示ES未完成卸載的懲罰,則獎(jiǎng)勵(lì)函數(shù)為
Rm(t)=ξm(t)-1/ζm(t)(26)
d)ε-貪婪。在學(xué)習(xí)階段,從動(dòng)作空間中隨機(jī)選擇一個(gè)動(dòng)作。在訓(xùn)練階段,從Euclid Math OneDAp選擇值最高的動(dòng)作。
MADDPG算法架構(gòu)如圖2所示。在訓(xùn)練狀態(tài)下,θ={θ1,…,θm}是m個(gè)ES的策略參數(shù)集,相應(yīng)的確定性策略集為μ={μθ1,…,μθm}。每個(gè)ES的評(píng)估網(wǎng)絡(luò)不僅知道其自身代理的變化,還知道其他ES的行動(dòng)策略。因此,ES的確定性策略梯度可以表示為
其中:Qμm(s,a1,…,aM)為Q函數(shù),s(t)=ο(t)。此外,critic對(duì)目標(biāo)Q函數(shù)的損失函數(shù)進(jìn)行更新:
其中:
其中:γ為折扣因子,a′j=μ′j(o′j)表示目標(biāo)網(wǎng)絡(luò)的預(yù)測(cè)動(dòng)作。
通過(guò)ES的最小化策略梯度來(lái)更新actor網(wǎng)絡(luò):
其中:b為樣本索引;χ表示小批量樣本。
最后,目標(biāo)網(wǎng)絡(luò)參數(shù)更新:
其中:0<τ<1。MADDPG算法的偽代碼如算法1所示?;谏鲜龆x,根據(jù)時(shí)延和能耗選出成本最低的ES,即
算法1 MADDPG算法
4 仿真與評(píng)估
本模型基于Python 3.7實(shí)現(xiàn),實(shí)驗(yàn)中使用的數(shù)據(jù)集為EUA[26]。該數(shù)據(jù)集包含了澳大利亞墨爾本中央商務(wù)區(qū)的基站和終端設(shè)備數(shù)據(jù),澳大利亞所有的蜂窩基站的地理位置作為邊緣服務(wù)器的位置。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。在實(shí)驗(yàn)中,將本文模型與以下三種方案比較:
a)local:U執(zhí)行任務(wù),不傳輸數(shù)據(jù)到ES進(jìn)行任務(wù)卸載。
b)DDQN算法[27]:主要針對(duì)DQN算法[25]的Q值過(guò)估計(jì)問(wèn)題,改變目標(biāo)值的計(jì)算方法。
c)D3QN算法[28]:該算法改動(dòng)了DQN算法的神經(jīng)網(wǎng)絡(luò)的最后一層,并通過(guò)狀態(tài)值與動(dòng)作值的和來(lái)表示Q值。
圖3顯示了各算法在平均獎(jiǎng)勵(lì)(即聲譽(yù))的收斂性能??梢悦黠@看出,MADDPG算法在前25輪劇烈波動(dòng),隨著訓(xùn)練次數(shù)的增加,調(diào)整評(píng)估和目標(biāo)網(wǎng)絡(luò)參數(shù),逐漸得到近似最優(yōu)策略和最優(yōu)策略對(duì)應(yīng)的狀態(tài)-動(dòng)作函數(shù)。因此,從25輪開(kāi)始,就可以獲得相對(duì)較高和穩(wěn)定的獎(jiǎng)勵(lì)。同時(shí),MADDPG算法的平均獎(jiǎng)勵(lì)優(yōu)于DDQN和D3QN算法13.8%~16.1%。圖4和5比較了各算法的平均服務(wù)響應(yīng)時(shí)延和能耗,MADDPG算法分別高于其他算法23.77%~62.59%和68.37%~72.98%。原因是該算法中的ES擁有不同的目標(biāo)和評(píng)估網(wǎng)絡(luò),利用ES的特點(diǎn)以實(shí)現(xiàn)更好的卸載策略,這驗(yàn)證了所提出算法的有效性。
圖6顯示隨著邊緣服務(wù)器數(shù)量的增加,各算法的服務(wù)響應(yīng)時(shí)延逐漸降低。這是因?yàn)镋S卸載任務(wù)的計(jì)算和存儲(chǔ)資源增大,使得路由循環(huán)和網(wǎng)絡(luò)暢通。與其他算法相比,當(dāng)ES從3增加到9時(shí),MADDPG算法的服務(wù)響應(yīng)時(shí)延減少30.31%~55.24%。
圖7(a)顯示隨著任務(wù)請(qǐng)求數(shù)量的增加,各算法的平均服務(wù)響應(yīng)時(shí)延也在增加。受ES的計(jì)算和存儲(chǔ)能力的限制,更多的服務(wù)請(qǐng)求意味著ES的工作負(fù)載更大,從而造成更大的延遲。該圖表明當(dāng)請(qǐng)求數(shù)量從2增加到20時(shí),MADDPG算法的時(shí)延增加了53.96%,而其他算法至少增加了61.85%和56.16%,同時(shí),MADDPG算法的時(shí)延增長(zhǎng)少于其他算法24.31%~27.93%。圖7(b)表明各算法的平均服務(wù)響應(yīng)能耗隨著請(qǐng)求數(shù)量的增加而增大,這是因?yàn)槟P湍芎臅?huì)隨著卸載負(fù)荷的增加而增加。該圖還表明MADDPG算法的能耗優(yōu)于其他算法33.47%和21.07%。當(dāng)負(fù)載水平增加和網(wǎng)絡(luò)變得擁擠時(shí),這種性能的差異會(huì)變得顯著。圖7(c)顯示了任務(wù)數(shù)量對(duì)成本的影響。任務(wù)請(qǐng)求數(shù)量的增加,使得所有策略的處理效率降低。這是因?yàn)檎?qǐng)求增加會(huì)產(chǎn)生更多具有不同需求的任務(wù),以競(jìng)爭(zhēng)ES有限的計(jì)算和存儲(chǔ)資源,導(dǎo)致部分任務(wù)無(wú)法被處理。由于ES的數(shù)量固定,對(duì)于延遲更敏感的任務(wù)將在本地執(zhí)行,所以模型處理效率降低,而成本逐漸增加。相比較而言,MADDPG算法性能最好,優(yōu)于對(duì)比算法27.44%和25.58%。
圖8顯示了ES計(jì)算能力的影響。如圖8(a)所示,ES計(jì)算能力的增加,使得其可執(zhí)行的任務(wù)數(shù)量增加,從而得到的平均獎(jiǎng)勵(lì)增加。當(dāng)ES的計(jì)算能力從0.5增加到3時(shí),MADDPG算法的平均獎(jiǎng)勵(lì)增加了13.89%,高于其他算法27.79%~55.48%。從圖8(b)可以看出,ES計(jì)算能力的增加使得更多的任務(wù)被卸載到ES,從而各算法的平均服務(wù)響應(yīng)時(shí)延降低。與其他算法相比,MADDPG算法的時(shí)延較低,特別是在ES的能力較弱的情況下,其處理時(shí)延整體降低了49.04%,少于其他算法5.9%~25.36%。圖8(c)顯示了ES的計(jì)算能力對(duì)能耗的影響,隨著其計(jì)算能力的增加,模型能耗降低,原因如前所述。同時(shí),MADDPG算法的能耗始終低于其他算法21.98%~33.52%。結(jié)果表明,該算法可以更快地將任務(wù)卸載到ES,從而降低了成本,如圖8(d)所示。
5 結(jié)束語(yǔ)
本文研究了在聲譽(yù)、時(shí)延和能耗的約束下,車聯(lián)網(wǎng)環(huán)境中的任務(wù)卸載問(wèn)題。為求解優(yōu)化問(wèn)題,提出了一種多智能體深度強(qiáng)化學(xué)習(xí)算法來(lái)決策任務(wù)卸載方案,幫助終端設(shè)備選取可靠的邊緣服務(wù)器來(lái)卸載任務(wù),同時(shí)獎(jiǎng)勵(lì)完成任務(wù)卸載的邊緣服務(wù)器。實(shí)驗(yàn)表明,本文算法比其他算法具有更好的性能。
下一步研究是結(jié)合聲譽(yù)機(jī)制來(lái)優(yōu)化本文所使用的共識(shí)機(jī)制。同時(shí),嘗試本研究是否能在其他場(chǎng)景中使用,如視頻分流。
參考文獻(xiàn):
[1]Wang Xiaojie, Zhu Hailin, Ning Zhaolong, et al. Blockchain intelligence for Internet of Vehicles: challenges and solutions[J]. IEEE Communications Surveys & Tutorials, 2023,25(4): 2325-2355.
[2]Hossain M S, Kumar L, El Haj Assad M, et al. Advancements and future prospects of electric vehicle technologies: a comprehensive review[J]. Complexity, 2022, 2022: 1-21.
[3]Gismalla M S M, Azmi A I, Salim M R B, et al. Survey on device to device (D2D) communicIi9sNrn0XXbJrV2rhErIpFT18J7yT0CFeQmA8HhVc18=ation for 5GB/6G networks: concept, applications, challenges, and future directions[J]. IEEE Access, 2022, 10: 30792-30821.
[4]Shafiq M, Tian Z, Bashir A K, et al. CorrAUC: a malicious bot-IoT traffic detection method in IoT network using machine-learning techniques[J]. IEEE Internet of Things Journal, 2020, 8(5): 3242-3254.
[5]韋睿, 祝長(zhǎng)鴻, 王怡, 等. 基于軟件定義網(wǎng)絡(luò)和移動(dòng)邊緣計(jì)算的車聯(lián)網(wǎng)高效任務(wù)卸載方案[J]. 計(jì)算機(jī)應(yīng)用研究, 2023,40(6): 1817-1824. (Wei Rui, Zhu Changhong, Wang Yi, et al. Efficient task offloading scheme of Internet of Vehicles based on software defined network and mobile edge computing[J]. Application Research of Computers, 2023,40(6): 1817-1824.)
[6]Haibeh L A, Yagoub M C E, Jarray A. A survey on mobile edge computing infrastructure: design, resource management, and optimization approaches[J]. IEEE Access, 2022,10: 27591-27610.
[7]Song Shinan, Fang Zhiyi, Jiang Jingyan. Fast-DRD: fast decentra-lized reinforcement distillation for deadline-aware edge computing[J]. Information Processing & Management, 2022,59(2): 102850.
[8]呂書(shū)玉, 馬中, 戴新發(fā), 等. 云控制系統(tǒng)研究現(xiàn)狀綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(5): 1287-1293. (Lyu Shuyu, Ma Zhong, Dai Xinfa, et al. Survey on cloud control systems[J]. Application Research of Computers, 2021,38(5): 1287-1293.)
[9]Hua Haochen, Li Yutong, Wang Tonghe, et al. Edge computing with artificial intelligence: a machine learning perspective[J]. ACM Computing Surveys, 2023,55(9): 1-35.
[10]Zhao Nan, Ye Zhiyang, Pei Yiyang, et al. Multi-agent deep reinforcement learning for task offloading in UAV-assisted mobile edge computing[J]. IEEE Trans on Wireless Communications, 2022,21(9): 6949-6960.
[11]Kong Xiangjie, Duan Gaohui, Hou Mingliang, et al. Deep reinforcement learning-based energy-efficient edge computing for Internet of Vehicles[J]. IEEE Trans on Industrial Informatics, 2022,18(9): 6308-6316.
[12]Liu Ying,Yan Junjie,Zhao Xiaohui. Deep reinforcement learning based latency minimization for mobile edge computing with virtualization in maritime UAV communication network[J]. IEEE Trans on Vehicular Technology, 2022,71(4): 4225-4236.
[13]Zhang Degan, Cao Lixiang, Zhu Haoli, et al. Task offloading method of edge computing in Internet of Vehicles based on deep reinforcement learning[J]. Cluster Computing, 2022,25(2): 1175-1187.
[14]Chen Miaojiang, Liu Wei, Wang Tian, et al. A game-based deep reinforcement learning approach for energy-efficient computation in MEC systems[J]. Knowledge-Based Systems, 2022, 235: 107660.
[15]Alsenani Y, Alnori A. Trust-aware scheduling for edge computing with task dependencies and unreliable servers[J]. IEEE Access, 2023, 11: 113514-113525.
[16]Kong Wenping, Li Xiaoyong, Hou Liyang, et al. A reliable and efficient task offloading strategy based on multifeedback trust mechanism for IoT edge computing[J]. IEEE Internet of Things Journal, 2022, 9(15): 13927-13941.
[17]Zheng Wenying, Chen Bing, He Debiao. An adaptive access control scheme based on trust degrees for edge computing[J]. Computer Standards & Interfaces, 2022, 82: 103640.
[18]El Ioini N, Barzegar H R, Pahl C. Trust management for service migration in multi-access edge computing environments[J]. Computer Communications, 2022, 194: 167-179.
[19]Zeng Pengjie, Liu Anfeng, Zhu Chunsheng, et al. Trust-based multi-agent imitation learning for green edge computing in smart cities[J]. IEEE Trans on Green Communications and Networking, 2022,6(3): 1635-1648.
[20]Pelle I, Szalay M, Czentye J, et al. Cost and latency optimized edge computing platform[J]. Electronics, 2022, 11(4): 561.
[21]Maray M, Shuja J. Computation offloading in mobile cloud computing and mobile edge computing: survey, taxonomy, and open issues[J]. Mobile Information Systems, 2022, 2022: article ID 1121822.
[22]Yang Jian, Jia Zhenhong, Su Ruiguo, et al. Improved fault-tolerant consensus based on the PBFT algorithm[J]. IEEE Access, 2022,10: 30274-30283.
[23]Zukarnain Z A, Muneer A, Ab Aziz M K. Authentication securing methods for mobile identity: issues, solutions and challenges[J]. Symmetry, 2022,14(4): 821.
[24]Zhu Anqing, Wen Youyun. Computing offloading strategy using improved genetic algorithm in mobile edge computing system[J]. Journal of Grid Computing, 2021,19(3): 38.
[25]Ladosz P, Weng L, Kim M, et al. Exploration in deep reinforcement learning: a survey[J]. Information Fusion, 2022, 85: 1-22.
[26]Lai P, He Qiang, Abdelrazek M, et al. Optimal edge user allocation in edge computing with variable sized vector bin packing[C]//Proc of the 16th International Conference on Service-Oriented Computing. Berlin: Springer, 2018: 230-245.
[27]Chraibi A, Ben A S, Touhafi A, et al. A novel dynamic multi-objective task scheduling optimization based on dueling DQN and PER[J]. The Journal of Supercomputing, 2023, 79: 21368-21423.
[28]Kwantwi T, Sun G, Kuadey N A E, et al. Blockchain-based computing resource trading in autonomous multi-access edge network slicing: a dueling double deep Q-learning approach[J]. IEEE Trans on Network and Service Management, 2023,20(3): 2912-2928.