黃子祥 張新有 邢煥來 馮力
摘 要:當今全球頻繁出現(xiàn)自然災害,針對一種無人機協(xié)同下的應(yīng)急救災計算卸載場景,提出一種帶有協(xié)調(diào)器的邊-端架構(gòu)。綜合考慮場景中的時延、能耗與無人機之間的負載均衡作為系統(tǒng)總代價,采用改進的深度強化學習算法APPO(advanced proximal policy optimization),以最小化系統(tǒng)總代價為目標進行卸載優(yōu)化。任務(wù)的部分卸載相比二進制卸載可以更大程度上降低系統(tǒng)的總代價,APPO算法針對不同的任務(wù)情況可以找到合適的卸載比例與無人機進行卸載。仿真與實驗結(jié)果表明,該算法與全本地處理相比,系統(tǒng)總代價降低了約50%,與較先進的A2C相比,系統(tǒng)總代價降低了約14%。展現(xiàn)了所提策略在該場景下的優(yōu)越性。
關(guān)鍵詞:邊緣計算; 深度強化學習; 邊端協(xié)同; 無人機協(xié)同; 計算卸載
中圖分類號:TP311 文獻標志碼:A?文章編號:1001-3695(2024)05-033-1515-06
doi:10.19734/j.issn.1001-3695.2023.08.0418
Research on edge to end collaborative computing offloading technology
in unmanned aircraft cluster scenarios
Abstract:This paper proposed a coordinated edge-to-edge architecture for an emergency response scenario assisted by unmanned aerial vehicles(UAVs), taking into consideration the frequent occurrence of natural disasters globally. The architecture incorporated a coordinator and aimed to minimize the overall system cost by considering factors such as latency, energy consumption, and loaded balancing among UAVs. And it utilized an improved deep reinforcement learning algorithm called advanced proximal policy optimization(APPO) to optimize the offloading process. Compared to binary offloading, partial offloading of tasks could effectively reduce the overall system cost. The APPO algorithm enabled users to determine suitable offloading ratios and allocate tasks to UAVs based on different task scenarios. Simulation and experimental results demonstrate a reduction of approximately 50% in the overall system cost compared to full local processing, and about 14% compared to the advanced A2C algorithm, showing the superiority of the proposed strategy in this specific scenario.
Key words:edge computing; deep reinforcement learning; edge to end collaboration; UAV collaboration; calculate uninstallation
0 引言
隨著AI應(yīng)用場景的不斷普及,計算密集型任務(wù)逐漸增長,這些對計算能力有著高要求的新興應(yīng)用只能依賴于高級的計算卸載和改進的基礎(chǔ)設(shè)施[1]。MCC(mobile cloud computing)擁有豐富的資源以及龐大的計算能力,以往用戶通常將某些計算密集型任務(wù)傳輸給云端進行處理,但會導致傳輸?shù)倪^程中時延較大且不穩(wěn)定,所以云計算的適用場景有限。對于實時性要求較高的任務(wù),如輔助/自動駕駛、應(yīng)急救災、戰(zhàn)場通信與偵察、人臉識別等,而單純的MCC已經(jīng)難以應(yīng)對這種新的挑戰(zhàn)。
隨著MEC這一新范式的出現(xiàn)[2],不僅彌補了終端計算能力不足的問題,與云計算相比還擁有較低的延遲以滿足時延敏感型任務(wù)的計算需求。MEC在靠近用戶端部署大量的邊緣服務(wù)器,將任務(wù)下沉到網(wǎng)絡(luò)邊緣側(cè)的邊緣服務(wù)器進行處理。與MCC相比,MEC服務(wù)器距離用戶更近,使得傳輸?shù)某杀窘档停鋸姶蟮挠嬎隳芰δ軡M足大多數(shù)應(yīng)用場景。計算卸載是MEC的關(guān)鍵技術(shù),如何綜合考慮任務(wù)復雜性、能耗、距離等因素設(shè)計出高效可靠的卸載方案是非常重要的。
由于無人機群具有靈活性更高、覆蓋面更廣、實時性更好等優(yōu)點,其可被用于日益復雜的戰(zhàn)場環(huán)境與當今全球頻繁出現(xiàn)的自然災害中。無人機可以輕松進入原本難以到達的受災地區(qū)以及危險的軍事區(qū)域,攜帶MEC服務(wù)器的無人機可提供通信及信息處理功能,為幸存用戶或救災人員提供計算服務(wù)。由于災害場景的復雜性、信息的多樣性以及信息處理的實時性要求,對MEC之間的協(xié)同處理能力提出了更高的要求。
在人工智能技術(shù)發(fā)展過程中,強化學習(reinforcement learning,RL)方法也開始應(yīng)用到計算卸載中來解決實際問題,并取得了較大的成功。近年來OpenAI公司公布的PPO(proximal policy optimization)算法在自動駕駛、機器人控制等領(lǐng)域取得了非凡的成就,該算法高效穩(wěn)定、適用范圍廣泛并可用于處理連續(xù)動作空間,因此本文將多因素優(yōu)化及改進的PPO算法應(yīng)用于本文的計算卸載模型中。本文的主要工作包括:
a)提出一種帶有協(xié)調(diào)器的邊-端架構(gòu),根據(jù)實際需求建立了災害場景下的無人機協(xié)同計算任務(wù)卸載模型。
b)采用改進的深度強化學習方法APPO以最小化延遲、能耗與負載均衡值的加權(quán)和為目標來優(yōu)化卸載決策。卸載不再是簡單的二進制卸載,而是可以進行部分卸載。并根據(jù)場景與需求詳細定義了狀態(tài)空間、動作空間和獎勵函數(shù)。
c)進行了實驗驗證。仿真結(jié)果表明,這種計算卸載方案不僅可以在實現(xiàn)負載均衡的前提下有效地降低此場景下的時延與能耗,還擁有較高的平均任務(wù)成功率。
1 相關(guān)工作
當前計算卸載技術(shù)的研究已經(jīng)成為邊緣計算中的熱點問題,但是不同的場景對于不同的計算卸載方案產(chǎn)生的效果不同,要根據(jù)實際情況選擇不同的卸載方案。在第六代(6G)網(wǎng)絡(luò)的背景下,無人機輔助卸載逐漸進入研究人員的視野。其中大部分研究優(yōu)化的內(nèi)容與時延、能耗或者無人機軌跡有關(guān)。
在有關(guān)無人機場景中針對時延這一問題,文獻[3]提出了一種新型的無人機輔助邊緣計算框架HOTSPOT,根據(jù)用戶分布的時變熱點將無人機定位在三維空間中,并提供相應(yīng)的邊緣計算卸載輔助以達到低延遲的要求,最后仿真證明了可行性。為了解決在沒有無人機的地區(qū)快速調(diào)度其他地區(qū)的無人機為物聯(lián)網(wǎng)設(shè)備提供卸載這一問題,文獻[4]提出了一種在無人機輔助下的空中計算系統(tǒng)中基于信任的主動通知任務(wù)卸載(TANTO)方案,但是該方案只考慮了單無人機的卸載問題。
由于當今社會低碳節(jié)能的倡導以及物聯(lián)網(wǎng)設(shè)備的電池容量有限,能耗也開始成為衡量系統(tǒng)優(yōu)劣的重要指標。文獻[5]提出了一種無人機計算通信智能卸載方案以降低能耗。首先選擇一些數(shù)據(jù)量較大的節(jié)點作為任務(wù)收集節(jié)點(TGN),TGN收集左側(cè)節(jié)點的所有任務(wù)。這樣無人機只飛行TGN進行卸載就可以節(jié)省能源。但該方案同樣沒有考慮多無人機協(xié)同問題。文獻[6]通過一種基于多智能體軟行為者-批評者(MASAC)優(yōu)化無人機群的任務(wù)劃分和功率分配策略,最后通過大量的實驗證明其降低了無人機群任務(wù)執(zhí)行的能量消耗。但此方案未考慮無人機之間的負載均衡。
部分研究人員還對無人機運動軌跡進行了優(yōu)化,以便快速響應(yīng)用戶請求與避障。例如,文獻[7]以最小化時延為目標,提出了一種潛在的博弈組合多智能體深度確定性策略梯度(MADDPG)方法來優(yōu)化無人機群的軌跡進行避障。但其沒有考慮系統(tǒng)的節(jié)能問題。文獻[8]研究了支持無人機的MEC網(wǎng)絡(luò),使用基于塊坐標下降法的迭代算法共同優(yōu)化無人機的軌跡、通信和計算資源分配以及物聯(lián)網(wǎng)設(shè)備的任務(wù)卸載決策。經(jīng)過測試,該方法有效降低了物聯(lián)網(wǎng)設(shè)備的總能耗,但此場景下未考慮時延與負載均衡并且也只有一架無人機進行工作。
此外,文獻[9]以最小化時延與無人機利用率為目標,使用無人機群進行災后救援,具體來說是將計算任務(wù)卸載問題轉(zhuǎn)換為雙邊匹配問題,然后開發(fā)了一種迭代算法,將每架無人機與最適合卸載的地面車輛相匹配。大量的仿真表明該方案可以有效地提高無人機的利用率,降低平均時延。但是該方案未考慮災區(qū)地面用戶能耗有限,也未考慮無人機之間的負載均衡問題,且任務(wù)只能進行二進制卸載。
總的來說,以往的大部分研究都是單無人機在城市小區(qū)、校園、智慧交通方面的卸載方案優(yōu)化,很少在救災應(yīng)急場景下開展研究,而快速有效的災后救援對災后恢復非常重要。并且在選擇卸載的方式時,往往選擇二進制卸載,即全在本地執(zhí)行或者全部卸載到無人機的MEC服務(wù)器執(zhí)行,這對于性能的提升有很大的局限性[10]。綜合上述問題,本文考慮構(gòu)建地震災區(qū)下無人機群相互協(xié)同的計算卸載模型,其中任務(wù)的部分卸載如圖1所示,并借鑒以往的研究將時延與能耗作為考慮因素,最后結(jié)合無人機的負載均衡進行優(yōu)化。
2 系統(tǒng)模型
2.1 網(wǎng)絡(luò)模型
如圖2所示,本文假設(shè)某地區(qū)發(fā)生地質(zhì)災害,地面通信設(shè)備、基站均受到不同程度的損壞,有關(guān)部門第一時間采用應(yīng)急方案。指揮中心通過一臺具有大運載能力和計算能力的母無人機,攜帶M個帶有MEC與邊緣協(xié)調(diào)器的子無人機{1,2,…,M}飛往災區(qū),無人機群在災區(qū)上空放飛,為地面N個用戶設(shè)備{1,2,…,N}提供通信及計算服務(wù)。
假設(shè)子無人機均飛行在某高度下的多個最優(yōu)位置,而母無人機距離災區(qū)較遠,極端情況下當所有子無人機均出現(xiàn)故障時,所有任務(wù)將傳輸至母無人機處理。用戶設(shè)備則隨機分布在地面。本文不考慮上述極端情況與無人機群的最優(yōu)路徑問題。用戶把任務(wù)傳輸至無人機,協(xié)調(diào)器通過智能算法將每個需要卸載的任務(wù)合適地分配到無人機的MEC服務(wù)器上執(zhí)行,每個MEC服務(wù)器擁有一個隊列,按照先來先服務(wù)進行卸載處理。假設(shè)時間τ被分為若干個時隙{t1,t2,…,tn}。用戶設(shè)備UE在每個時隙均會產(chǎn)生一個計算密集型任務(wù)。每個任務(wù)可以用一個三元組Rn={Dn,Cn,Tn}表示。其中:Dn表示該任務(wù)數(shù)據(jù)量的大??;Cn表示完成該任務(wù)所需要的CPU周期數(shù);Tn表示該任務(wù)的最大容忍延遲。
地面用戶N的位置可以用(xi,yi,0)表示,帶有MEC服務(wù)器的無人機的位置則可以用(Xu,Yu,H)表示。本文考慮每個時隙中用戶設(shè)備與無人機進行數(shù)據(jù)傳輸時的相對位置不變,用戶設(shè)備與無人機之間的信道增益gn可以表示為
其中:β0表示參考距離為1 m時的信道功率增益;dk表示用戶設(shè)備與無人機之間的距離。
由于用戶設(shè)備的計算能力有限,某些計算密集型任務(wù)需要卸載到無人機上的MEC服務(wù)器上執(zhí)行,這樣就產(chǎn)生了數(shù)據(jù)的上傳與下載。根據(jù)香農(nóng)公式并結(jié)合該場景下[10],用戶設(shè)備與無人機之間通信速率為
其中:W表示用戶設(shè)備與無人機之間的通信帶寬;pn為傳輸功率;N0是噪聲功率;gn表示上文中用戶設(shè)備與無人機之間的信道增益。
2.2 計算模型
2.2.1 時延模型
當任務(wù)需要卸載執(zhí)行時,系統(tǒng)會選擇將任務(wù)卸載到當前最優(yōu)的無人機上進行處理。任務(wù)卸載到無人機上時,需要考慮數(shù)據(jù)傳輸?shù)拇鷥r。詳細來說,計算卸載要考慮圖3中任務(wù)的上傳、排隊、卸載及返回時延。根據(jù)文獻[11],由于無人機的MEC服務(wù)器處理完返回的數(shù)據(jù)通常非常小,所以本文忽略其下載數(shù)據(jù)的時延。而數(shù)據(jù)把任務(wù)傳輸至無人機所需要的時間成本為
其中:p為卸載到某無人機的比例。而該卸載部分在無人機上的處理時延為
其中:frn為該無人機攜帶的MEC的計算能力。本文考慮的是一個任意比例卸載的模型,即有1-p比例仍在本地執(zhí)行,則其未卸載部分的本地執(zhí)行時間為
可以得出,在任意比例卸載時,總時延為
Trn=max{(Ttra+Texe),Trln}(6)
而某些數(shù)據(jù)量較小的任務(wù)可以直接被分配到本地設(shè)備執(zhí)行而不用上傳至無人機進行處理,所以僅本地處理只有處理任務(wù)的時間,用Tln表示:
其中:fln表示用戶設(shè)備UE的CPU頻率。一般來說其計算能力越強,fln越大,所處理任務(wù)的時間就越短。
2.2.2 能耗模型
在傳輸任務(wù)的過程中不僅消耗時間,還會產(chǎn)生能耗[12]。在部分卸載模型中,僅有部分任務(wù)上傳至無人機,另一部分則留在本地執(zhí)行。在本地部分任務(wù)卸載所產(chǎn)生的能耗為
Erln=k(1-p)Cn(8)
其中:k為CPU每輪所需要消耗的能量,通常k取
k=10-27(fln)2(9)
而另一部分在無人機邊緣側(cè)執(zhí)行卸載,所產(chǎn)生的能耗有一部分是傳輸數(shù)據(jù)時產(chǎn)生的,可以表示為
Erpn=PnTtra(10)
其中:Pn為用戶設(shè)備的發(fā)射功率。特殊地,當p=0時為僅在本地處理,能耗記為Eln。
Eln=kCn(11)
即可得出部分卸載時,用戶設(shè)備總的能量消耗為
Ern=Erln+Erpn(12)
2.2.3 負載均衡模型
一般情況下,任務(wù)傾向于卸載到計算能力最大的服務(wù)器上執(zhí)行。這將導致眾多任務(wù)向某一資源較為豐富的無人機發(fā)出卸載請求,而資源相對較少的無人機經(jīng)常處于空閑狀態(tài),不利于無人機之間進行協(xié)同工作。而負載均衡通過最佳化資源使用、最大化吞吐率等方法,可以很好地解決這一問題。
2.3 問題模型
為了使系統(tǒng)的總時延、總能耗與無人機負載均衡值的加權(quán)最小,本文參考文獻[13],將三者加權(quán)為Wn表示系統(tǒng)總代價。
Wn=λ×Trn+β×Ern+γLB(16)
其中:λ與β為權(quán)重因子,兩者之和為1。通常情況下,負載均衡值LB相對較小,為了平衡三者之間的大小關(guān)系,可把γ設(shè)置在(1,2)。在本文中,救災應(yīng)急場景下時延是重中之重,即可將λ設(shè)置的值大于β。因此,問題P可以表示為
并且需要滿足
s.t. C1:frn≤F
C2:Trn≤Tn
C3:p∈[0,1](18)
對于C1,式中F表示無人機的最大CPU頻率,含義為無人機分配給任務(wù)的CPU頻率不超過該無人機的最大CPU頻率。在C2中,體現(xiàn)了每個任務(wù)執(zhí)行時間不能超過其最大容忍時延。C3說明卸載的比例范圍應(yīng)該處于0~1。上述求解問題實際上是一個NP-hard問題,并且本文考慮的卸載與以往的二進制卸載不同,這使得求解變得更加復雜。本文考慮引入強化學習來求解該問題,得到該問題的一個近似最優(yōu)解。
3 改進APPO的計算卸載算法
3.1 MDP設(shè)計
用戶設(shè)備將任務(wù)卸載到無人機的這一過程可以理解為一個馬爾可夫決策過程(Markov decision process,MDP),MDP的目標是最大化智能體agent在整個序列中所獲得的獎勵總和。在下文中,闡述了針對上述問題最重要的三個元素,即狀態(tài)空間、動作空間、獎勵函數(shù)。
a)狀態(tài)空間。狀態(tài)空間中描述了agent所處的狀態(tài),結(jié)合MEC環(huán)境,本文考慮的狀態(tài)如下:定義在時隙t的狀態(tài)s(t)={Dn,Cn,Tn,frn,rn,Loadn},狀態(tài)中Dn、Cn、Tn、frn、rn均已經(jīng)在上文中解釋,此處不再贅述,Loadn則表示無人機的MEC當前的工作負載。
b)動作空間。在計算卸載中,動作對應(yīng)相應(yīng)的卸載決策,本文的動作需要描述卸載的比例與目標無人機,可將動作空間定義為A={p1,…,pN,G1,…,GN}。其中:pi代表第i個用戶卸載的比例;Gi表示第i個用戶卸載的無人機對象。
c)獎勵函數(shù)。在強化學習中,agent執(zhí)行某個動作后,環(huán)境會給出相應(yīng)的獎勵reward。一般來說,獎勵函數(shù)與目標函數(shù)關(guān)系緊密,在文獻[14,15]中直接把時延能耗作為獎勵函數(shù)。本文需要最小化系統(tǒng)總代價,因此得出獎勵函數(shù)應(yīng)該與目標函數(shù)呈負相關(guān)。
在實際卸載中,agent根據(jù)當前的狀態(tài)選擇相應(yīng)的動作即卸載比例,得到下一個狀態(tài),此時環(huán)境給出進行此動作對應(yīng)的獎勵,在進行上述訓練后最終得到一個最優(yōu)策略。針對本文地面用戶進行卸載所選擇的子無人機{1,2,…,M}對象是離散的,而任務(wù)的卸載比例p∈[0,1],其動作空間是連續(xù)的問題??紤]到PPO算法在無須任何環(huán)境的先驗知識前提下,也能學習到較好的卸載策略,且該算法既適用于離散動作空間又可以處理連續(xù)動作。因此使用改進的APPO算法來解決本文問題。
3.2 APPO算法設(shè)計
傳統(tǒng)PPO算法使用策略梯度方法進行訓練,其關(guān)鍵思想是通過觀察遵循策略獲得的執(zhí)行軌跡來估計期望總獎勵的梯度。策略梯度的計算如下:
其中:Aπθ(st,at)為優(yōu)勢函數(shù),其計算為
Aπθ(st,at)=Q(s,a)-V(s)(21)
其中:Q(s,a)表示在狀態(tài)s下采取動作a的價值;V(s)表示在狀態(tài)s下所有動作的平均價值。優(yōu)勢函數(shù)用于評估在某個狀態(tài)下采取某個動作相對于平均回報的優(yōu)劣程度。優(yōu)勢函數(shù)的值越大,表示采取該動作的優(yōu)勢越大。傳統(tǒng)PPO算法還加入了重要性采樣,其策略梯度略有不同。
本文將πθ(at|st)/πθ′(at|st)記為r(θ),其含義為當前策略的行動概率πθ(at|st)與上一個策略的行動概率πθ′(at|st)的比值。在PPO中,要求新舊兩個策略不能相差太大,是為了保證策略更新的安全性和穩(wěn)定性[16]。
針對本文所提出的邊端卸載場景,將PPO算法改進為APPO算法以便適用于當前工作需要。
a)如若某無人機的綜合負載頻繁變化且幅度較大,則不利于實現(xiàn)多無人機之間的負載均衡。通過使用剪切函數(shù)來限制策略更新的幅度,其目標函數(shù)表示如下:
當優(yōu)勢函數(shù)Aπθ(st,at)>0時,要增加該動作出現(xiàn)的概率;當優(yōu)勢函數(shù)Aπθ(st,at)<0時,要減小該動作出現(xiàn)的概率,并把r(θ)控制在(1-ε,1+ε)。此舉可以避免策略更新過于激進,利于實現(xiàn)多無人機的負載均衡。
b)本文采取線性衰減的方式處理學習率α,可以加速模型的收斂速度。在訓練初期,較大的學習率可以幫助模型快速收斂,而在訓練后期,較小的學習率可以避免過擬合,從而提高模型的泛化能力。并在動作輸出時采用Beta分布采樣,將動作控制在[0,1],避免了Gaussian分布的無界性。
c)本文在計算狀態(tài)值函數(shù)時采用V-trace方法,可以更加準確地估計其值并作為critic網(wǎng)絡(luò)的更新目標。
APPO算法架構(gòu)如圖4所示,包括actor網(wǎng)絡(luò)與critic網(wǎng)絡(luò)。actor網(wǎng)絡(luò)的輸入為狀態(tài),輸出為動作概率分布參數(shù)(對于連續(xù)動作空間而言)。在critic網(wǎng)絡(luò)中,輸入為狀態(tài)st,輸出為狀態(tài)的價值。首先將當前的狀態(tài)st輸入到actor網(wǎng)絡(luò)得到均值mu與方差sigma,將構(gòu)建的正態(tài)分布隨機抽樣一個動作at,執(zhí)行動作at后得到一個環(huán)境給的獎勵reward,狀態(tài)更新為s′t。得到一批數(shù)據(jù)后用critic網(wǎng)絡(luò)計算每個動作的價值V(e)、優(yōu)勢函數(shù)Aπθ(st,at)、策略損失函數(shù)(actor損失函數(shù))。critic網(wǎng)絡(luò)的損失函數(shù)為
loss=(V(e)-vtrace) 2(25)
其中:V(e)是critic網(wǎng)絡(luò)估計的回報;vtrace是真實回報。再采用梯度下降法更新critic網(wǎng)絡(luò)。更新網(wǎng)絡(luò)時要避免新舊網(wǎng)絡(luò)差距太大。重復以上步驟,直到策略收斂或達到一定的迭代次數(shù),最終,輸出最優(yōu)的策略。
算法1 APPO算法
4 仿真與結(jié)果分析
4.1 仿真場景
為驗證本文算法在上述建立的邊-端架構(gòu)場景下的時延、能耗與負載均衡值的優(yōu)越性,進行仿真實驗。本場景中假設(shè)地面用戶設(shè)備隨機分布在200×200 m2的正方形區(qū)域,無人機的飛行高度固定為30 m。實驗結(jié)果均為重復多次實驗的均值。MEC環(huán)境部分參數(shù)配置如表1所示。
選擇以下幾種算法與本文算法進行結(jié)果對比分析:
a)DQN?;赒-learning算法的DQN是強化學習中最經(jīng)典的算法之一,DQN算法使用神經(jīng)網(wǎng)絡(luò)來近似Q值函數(shù),以解決狀態(tài)空間過大的強化學習問題。
b)A2C算法。A2C算法是一種基于策略的強化學習算法。它結(jié)合了演員評論算法和優(yōu)勢函數(shù),用于學習策略以最大化預期獎勵。
c)隨機卸載執(zhí)行。對任務(wù)隨機選擇本地處理或卸載到無人機進行處理。
d)全部本地執(zhí)行。任務(wù)全部留在用戶本地處理,不進行卸載。由于該算法不涉及無人機,實驗中負載均衡值取0。
4.2 仿真結(jié)果及分析
強化學習中需要考慮的是如何使獎勵最大化,圖5為本文算法在20個設(shè)備下進行900余回合迭代的結(jié)果。該結(jié)果表明,在訓練200回合時,該模型已經(jīng)趨于收斂,獎勵值在-11上下波動。在與環(huán)境的交互中,agent通過不斷地學習來調(diào)整策略,該策略能夠使得在當前的狀態(tài)下作出動作得到最大化的累計獎勵。加入探索可以幫助算法更好地學習到環(huán)境的動態(tài)變化,從而提高算法的適應(yīng)性和泛化能力。
圖6展示了在不同數(shù)量的用戶設(shè)備下,各類算法的系統(tǒng)總代價變化情況。由于設(shè)備數(shù)量增加,所有算法的總代價均有不用程度的上升。本地處理的總代價增加最多,這是因為本地處理的能耗消耗較高,導致總代價上升迅速。其他涉及MEC的算法總代價增加主要因為無人機的MEC服務(wù)器數(shù)量與處理能力有限,隨著設(shè)備的不斷接入,MEC服務(wù)器平均分配給每個設(shè)備的資源減少,導致了處理時間的增加。在地面用戶數(shù)量相對較多,如35時,APPO算法的系統(tǒng)總代價相比其他算法優(yōu)勢顯著,與全本地處理相比降低了約50%,與DQN算法相比降低了約17%,與較為高效的A2C算法相比降低了約14%。
帶寬對計算卸載也有著一定的影響。在地面設(shè)備數(shù)量為20時,隨著帶寬的增加,四類算法的總能耗(焦耳)變化如圖7所示。在帶寬的增加過程中,本地處理的能耗保持穩(wěn)定,這是因為本地處理沒有涉及到任務(wù)的傳輸與下載。帶寬增加后任務(wù)卸載時的傳輸時間減小,任務(wù)的傳輸能耗也隨之減小。由于除本地處理外的其他算法傳輸任務(wù)成本減小,越來越多的任務(wù)選擇傳輸?shù)綗o人機進行卸載,所以總能耗有所降低。
圖8研究了任務(wù)所需CPU周期數(shù)對系統(tǒng)總代價的影響。在任務(wù)所需CPU周期數(shù)Cn的增加過程中,四類算法的總代價都變化明顯。當任務(wù)復雜度較小時,本地處理的負擔較小。但當任務(wù)復雜度增加時,本地處理難以應(yīng)對龐大的計算量,從而使得系統(tǒng)總代價迅速上升。APPO算法雖然波動明顯,但也是符合理論依據(jù)的,其他因素不變的情況下,Cn的增加無疑會直接影響到任務(wù)的執(zhí)行時間。在上述仿真中,當Cn=4 GHz時,APPO仍能保持最低的總代價,與全本地處理相比降低了約60%,與DQN相比降低了約13%,與A2C相比降低了約9%。
無人機中的MEC服務(wù)器的相關(guān)性能指標對于計算卸載效率有著重要的影響。本文主要考慮無人機的處理能力,無人機處理能力直接影響到處理任務(wù)的時延。當Cn=2.4 GHz時,根據(jù)圖9,在無人機的MEC處理能力提高的過程中,A2C、DQN、RAMEC、APPO的總時延逐漸減小,本地處理與無人機無關(guān)所以時延保持不變。在MEC服務(wù)器的處理能力變化過程中,APPO對比其他算法始終保持優(yōu)勢。
實現(xiàn)無人機之間的負載均衡是本文的目標之一,負載均衡使得各個無人機在處理任務(wù)時相對公平,提高了無人機之間的協(xié)同處理能力。本文使用負載均衡值LB來衡量負載均衡情況,其值越小代表負載均衡效果越好。在圖10中,Cn不斷增加導致各無人機中的負載增加,該場景下迫切需要一個高效的算法來解決負載均衡問題。A2C算法沒有APPO算法中的重要性采樣,導致其動作的隨機性相對增大而不利于各個無人機的負載均衡。APPO算法在各個任務(wù)復雜度下的LB均小于0.2,不僅驗證了γ取值范圍的可行性,也證明了APPO算法在負載均衡方面的有效性。
救災場景下,在截止時間內(nèi)完成任務(wù)直接關(guān)系著待救援人民的生命安全。表2中,給出Cn=1.3 GHz時,各算法在不同地面用戶數(shù)量下的平均任務(wù)成功率。如表2所示,三類強化學習算法的平均任務(wù)成功率均在90%以上,展現(xiàn)了強化學習處理卸載請求的高性能。隨著用戶數(shù)量增多,APPO算法始終能作出良好的卸載決策,其任務(wù)完成的比例均保持在97%以上,可以較好地處理應(yīng)急卸載請求。
5 結(jié)束語
本文以地震救災場景下的無人機協(xié)同輔助卸載為背景,創(chuàng)新地提出了一種帶有邊緣協(xié)調(diào)器的邊-端架構(gòu),以最小化系統(tǒng)總代價為目標,并采用改進深度強化學習算法進行任務(wù)的部分卸載。最后進行大量的仿真實驗,結(jié)果表明,與其他四類算法比較,本文算法在多種場景中表現(xiàn)最優(yōu),有效降低了系統(tǒng)總代價,從而驗證了本文算法的可行性與優(yōu)越性。在下一步工作中,將著重對于無人機協(xié)同的最優(yōu)路徑規(guī)劃的卸載問題進行研究。
參考文獻:
[1]Chen Min, Hao Yixue. Task offloading for mobile edge computing in software defined ultra-dense network[J]. IEEE Journal On Selec-ted Areas In Communications, 2018,36(3): 587-597.
[2]Pavel M, Zdenek B. Mobile edge computing: a survey on architecture and computation offloading[J]. IEEE Communications Surveys and Tutorials, 2017,19(3): 1628-1656.
[3]Liao Zhuofan, Ma Yinbao, Huang Jiawei, et al. HOTSPOT: a UAV-assisted dynamic mobility-aware offloading for mobile-edge computing in 3D space[J]. IEEE Trans On Vehicular Technology, 2021,8(13): 10940-10952.
[4]Jing Bai, Zeng Zhiwen, Wang Tian, et al. TANTO: an effective trust-based unmanned aerial vehicle computing system for the Internet of Things[J]. IEEE Internet of Things Journal, 2023,10(7): 5644-5661.
[5]Liu Run, Liu Anfeng, Qu Zhenzhe, et al. An UAV-enabled intel-ligent connected transportation system with 6G communications for Internet of Vehicles[J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24(2): 2045-2059.
[6]Cheng Zhipeng, Liwang Minghui, Ning Chen, et al. Deep reinforcement learning-based joint task and energy offloading in UAV-aided 6G intelligent edge networks[J]. Computer Communications, 2022,192: 234-244.
[7]Gao Ang, Qi Qang, Wei Liang, et al. Game combined multi-agent reinforcement learning approach for UAV assisted offloading[J]. IEEE Trans on Vehicular Technology, 2021, 70(12): 12888-12901.
[8]Li Wentao, Zhao Mingxiong, Wu Yuhui, et al. Collaborative offloa-ding for UAV-enabled time-sensitive MEC networks[J]. EURASIP Journal on Wireless Communications and Networking, 2021, 2021(1): article No.1.
[9]Wang Yutao, Chen Weiwei, Luan T H, et al. Task offloading for post-disaster rescue in unmanned aerial vehicles networks[J]. IEEE/ACM Trans On Networking, 2022,30:1525-1539.
[10]王錦, 張新有. 基于DQN的無人駕駛?cè)蝿?wù)卸載策略[J]. 計算機應(yīng)用研究, 2022,39(9): 2738-2744. (Wang Jin, Zhang Xinyou. DQN based unmanned driving task offloading strategy[J]. Application Research of Computers, 2022,39(9): 2738-2744.)
[11]Mao Yuyi, Zhang Jun, Letaief K B. Dynamic computation offloading for mobile-edge computing with energy harvesting devices[J]. IEEE Journal on Selected Areas in Communications, 2016,34(12): 3590-3605.
[12]姚維, 黃俊. 移動邊緣計算中的無人機群協(xié)同任務(wù)卸載策略研究[J]. 重慶郵電大學學報: 自然科學版, 2022,34(3): 507-514. (Yao Wei, Huang Jun. Research on the cooperative task unloading strategy of UAV clusters in mobile edge computing[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2022,34(3): 507-514.)
[13]盧海峰, 顧春華, 羅飛, 等. 基于深度強化學習的移動邊緣計算任務(wù)卸載研究[J]. 計算機研究與發(fā)展, 2020,57(7): 1539-1554. (Lu Haifeng, Gu Chunhua, Luo Fei, et al. Research on task unloading of mobile edge computing based on deep reinforcement learning[J]. Computer Research and Development, 2020,57(7): 1539-1554.)
[14]Huang Liang, Feng Xu, Zhang Cheng, et al. Deep reinforcement learning-based joint task offloading and bandwidth allocation for multi-user mobile edge computing[J]. Digital Communications & Networks, 2018, 251: 33-42.
[15]Abegaz M S, Gordon O B, Stephen A, et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021,8(15): 12203-12218.
[16]Watkins C J C H. Learning from delayed rewards[J]. Robotics & Autonomous Systems, 1995,15(4): 233-235.
[17]Espeholt L, Soyer H, Munos R, et al. IMPALA: scalable distributed Deep-RL with importance weighted actor-learner architectures[C]//Proc of the 35th International Conference on Machine Learning. [S.l.]: PMLR, 2018: 1407-1416.
[18]Li Ji, Gao Hui, Lyu Tiejun, et al. Deep reinforcement learning based computation offloading and resource allocation for MEC[C]//Proc of IEEE Wireless Communications and Networking Conference. Pisca-taway, NJ: IEEE Press, 2018.
[19]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-07-20). https://arxiv.org/abs/1707.06347.
[20]Zhu Xiaoyu, Luo Yueyi, Liu Anfeng, et al. A deep reinforcement learning-based resource management game in vehicular edge computing[J]. IEEE Trans on Intelligent Transportation Systems, 2022, 23(3): 2422-2433.
[21]袁昕旺, 謝智東, 譚信. 無人機邊緣計算中的資源管理優(yōu)化研究綜述[J]. 計算機科學, 2022,49(11): 234-241. (Yuan Xinwang, Xie Zhidong, Tan Xin. Overview of research on resource management optimization in UAV edge computing[J]. Computer Science, 2022, 49(11): 234-241.)
[22]楊天, 田霖, 孫茜, 等. 移動邊緣計算中基于用戶體驗的計算卸載方案[J]. 計算機工程, 2020,46(10): 33-40. (Yang Tian, Tian Lin, Sun Qian, et al. User experience based computing unloading scheme in mobile edge computing[J]. Computer Enginee-ring, 2020, 46(10): 33-40.)
[23]Wang Heng, Zhang Haijun, Liu Xiangnan, et al. Joint UAV placement optimization, resource allocation, and computation offloading for THz band: a DRL approach[J]. IEEE Trans on Wireless Communications, 2023, 22(7): 4890-4900.
[24]陳玉平, 劉波, 林偉偉, 等. 云邊協(xié)同綜述[J]. 計算機科學, 2021,48(3): 259-268. (Chen Yuping, Liu Bo, Lin Weiwei, et al. Overview of cloud edge collaboration[J]. Computer Science, 2021, 48(3): 259-268.)
[25]Gong Xiaoyu, Yu Jiayu, Lu Shuai, et al. Actor-critic with familiarity-based trajectory experience replay[J]. Information Sciences, 2022, 582: 633-647.
[26]于晶, 魯凌云, 李翔. 車聯(lián)網(wǎng)中基于DDQN的邊云協(xié)作任務(wù)卸載機制[J]. 計算機工程, 2022,48(12): 156-164. (Yu Jing, Lu Lingyun, Li Xiang. DDQN based edge cloud collaborative task offloading mechanism in the Internet of Vehicles[J]. Computer Engineering, 2022,48(12): 156-164.)
[27]Ning Zhaolong, Dong Peiran, Kong Xiangjie, et al. A cooperative partial computation offloading scheme for mobile edge computing enabled Internet of Things[J]. IEEE Internet of Things Journal, 2019, 6(3): 4804-4814.
[28]Qin Langtian, Lu Hancheng, Wu Feng. When the user-centric network meets mobile edge computing: challenges and optimization[J]. IEEE Communications Magazine, 2023,61(1): 114-120.
[29]王凌, 吳楚格, 范文慧. 邊緣計算資源分配與任務(wù)調(diào)度優(yōu)化綜述[J]. 系統(tǒng)仿真學報, 2021,33(3): 509-520. (Wang Ling, Wu Chuge, Fan Wenhui. Overview of edge computing resource allocation and task scheduling optimization[J]. Journal of System Simulation, 2021,33(3): 509-520.)
[30]盛津芳, 滕瀟雨, 李偉民, 等. 移動邊緣計算中基于改進拍賣模型的計算卸載策略[J]. 計算機應(yīng)用研究, 2020,37(6): 1688-1692. (Sheng Jinfang, Teng Xiaoyu, Li Weimin, et al. Computing unloading strategy based on improved auction model in mobile edge computing[J]. Application Research of Computers, 2020, 37(6): 1688-1692.)
[31]賈覲, 暴占彪. 改進GA的邊緣計算任務(wù)卸載與資源分配策略[J]. 計算機工程與設(shè)計, 2021,42(11): 3009-3017. (Jia Jin, Bao Zhanbiao. Task unloading and resource allocation strategy of improved GA for edge computing[J]. Computer Engineering and Design, 2021, 42(11): 3009-3017.)