魏憲鵬,付 芳,張志才
(山西大學 物理電子工程學院,山西 太原 030006)
由于無人機的靈活性、機動性和低成本,其在物聯(lián)網(Internet of Things,IoT)網絡中實時應用發(fā)揮著關鍵作用,如智能交通[1]、災難救援[2]、野火預防[3]等。在這些應用程序中,要求將IoT設備生成的實時數據盡可能新鮮地傳遞給接收器。例如,智能交通中復雜的數據和過時數據可能會導致錯誤的操作,甚至造成災難性的后果[4]。因此,保證接受數據的及時性對無人機輔助物聯(lián)網網絡至關重要。信息年齡(Age of Information,AoI)是一種有效的性能指標,其定義為自生成接收器的最新更新以來經過的時間量[5],其中最新收到的數據包的年齡值較小,因此,可以通過最小化AoI來保證接收數據的時效性。
基于深度強化學習(Deep Reinforcement Learning,DRL)的無人機軌跡設計被認為是處理無人機路徑規(guī)劃問題的有效方法[6-9],其中無人機被視為“智能體”,通過與環(huán)境直接交互獲得最優(yōu)軌跡。例如,Fu F 等[8]提出了一種基于好奇心驅動的DQN 路徑規(guī)劃方法;Wang L 等[9]提出了一種基于深度確定性策略梯度算法的無人機路徑設計方法,以降低分布式邊緣計算系統(tǒng)中用戶的能量開銷。然而,這些優(yōu)化問題大都受短期限制條件約束。眾所周知,無人機的飛行能量預算對無人機的路徑規(guī)劃有很大影響,然而,他們忽略了飛行的能耗成本??紤]到無人機承載能量的局限性,Hu X等[10]提出了一種最小化無人機能耗的無人機軌跡規(guī)劃方案;Liao Y 等[11]提出了一種多目標優(yōu)化方案,以最小化AoI 和無人機的能耗成本;Sun M 等[12]通過優(yōu)化無人機的飛行路徑和頻譜分配,在AoI 和飛行能量成本之間找到平衡。上述工作可以有效降低能耗,但不能保證無人機累積飛行能耗不超過總能耗預算。此外,在這些方案中,無人機的可用能量通常沒有得到充分利用,難以獲得最優(yōu)的無人機路徑規(guī)劃方案,從而導致高AoI。因此,如何充分利用無人機的能量做出更合理的決策是一個值得研究的問題。
本文研究無人機的路徑規(guī)劃和用戶關聯(lián)問題,以在滿足長期飛行能量約束的同時最小化AoI加權和。
無人機輔助物聯(lián)網場景如圖1 所示。IoT 設備隨機部署在室外區(qū)域,在該區(qū)域中,無人機從起點到目的地巡航,旨在收集IoT 設備的狀態(tài)信息盡可能新鮮。本文考慮的模型中,無人機在采集IoT 設備信息時會處于懸停狀態(tài),因此不會產生多普勒頻移現象[13]。令K={1,2,…,K}表示所有物聯(lián)網設備的集合,設備k的位置由qk=(xk,yk,0),?k∈K表示。UAV 的巡航時間分為T個時隙,每個時隙的長度為τs。假設UAV 在固定的高度H上運動,相應地,設q[t]=(x[t],y[t],H),?t∈T表示UAV 在第t個時隙的位置,q[0]=(xori,yori,H)表示UAV 的初始位置,q[T]=(xdest,ydest,H)表示UAV的目的地。
圖1 系統(tǒng)場景Fig.1 System scenario
無人機的能源推進成本通過式(2)計算
式中:P0為懸停狀態(tài)恒功率;P1為誘導功率;Utip為葉片的葉尖速度;v0為懸停狀態(tài)的轉子平均誘導速度;z0和ρ分別為機身阻力比和空氣密度;μ和ξ分別為轉子堅固度和轉子盤面積。為了UAV 保留足夠的能量以執(zhí)行其他功能,UAV 的機動性必須滿足以下能量約束
式中:Efly[T]為整個巡航期間累計推進能耗;Emax為UAV最大允許推進能耗[14]。
令Gk2U表示從裝置k到位置為q[t]的UAV 的平均信道增益,其在LoS 和非LoS(NLoS)鏈路[15]下求平均,計算公式為
式中:fc為載波頻率;ρ為光速;Λ為選擇概率;dk2U(q[t])為從設備k到UAV的距離
設備k與UAV之間可實現的數據速率
式中:PA[t]為k2U的發(fā)射功率;σ2為設備k處的高斯白噪聲功率。
通過聯(lián)合優(yōu)化UAV 的軌跡q[t]以及調度策略z[t]=在滿足能量約束的前提下,使整個飛行周期內的長期AoI加權和最小。問題表述為
式中:ωk為在式(6)中的權重,表示設備信息的相對重要性。UAV 的初始和最終位置在式(7)中給出。式(8)為無人機的速度約束,其中Vmax為UAV 的最大速度。式(9)和式(10)保證UAV在每個時間段內最多調度一個IoT 設備。式(11)表示Efly[T]整個巡航期間的累計推進能量消耗不能大于Emax。接下來,我們將式(6)建模為一個CMDP,然后采用一種新的DRL 算法,即Safe-Actor-Critic[16]來解決此CMDP問題。
本節(jié)將上述優(yōu)化問題(6)建模為CMDP。將CMDP一個元組表示為每個元素具體描述如下:
S=S′∪Sdest為環(huán)境狀態(tài)特征空間,其中S′為瞬態(tài)空間,Sdest為最終狀態(tài)空間。S′包括3個部分:無人機在t時隙的坐標q[t]=(x[t],y[t],H);物聯(lián)網設備的位置qk=(xk,yk,0);物聯(lián)網設備的AoI值?k∈K,t∈T。Sdest最終狀態(tài)空間為q[T]=(xdest,ydest,H)。
A為動作空間,包括無人機的速度vt和方向,以及無人機的調度策略z[t]。
P為狀態(tài)轉移概率函數。無人機的坐標根據p[t]=vt*τ+p[t-1]進行轉移,vt≤Vmax,vt為無人機在t時刻的飛行速度。
s0∈S為初始狀態(tài),其中包括q[0]=(x0,y0,H)及?k∈K。
r為獎勵函數,定義為
式中:Ω為一個正常數,用于將無人機誘導到最終位置[17-18]。
c為立即約束代價,定義為c(s,a)=Pfly[t]τ,c0為約束代價上限,根據式(11)有c0=Emax。
式中:T*為從起始狀態(tài)s0到目的地首次成功的時間。安全約束為
解決CMDP 問題的方法是找到最優(yōu)策略π*,使長期收益最大化,且滿足安全約束。CMDP 的優(yōu)化問題被公式化為
如何將長期約束Cπ(s0)轉化為可行的單步策略集是求解CMDP的關鍵。
本節(jié)利用Lyapunov函數理論來構建安全策略集。首先,假設可以獲得式(15)的可行策略,用πb(·|s)∈Π 表示。給定初始狀態(tài)s0和約束閾值c0,Lyapunov函數定義集為
式中:Bπb,c[?](s)為貝爾曼函數計算,即
對于??(s)∈Γπb(s0,c0),Lyapunov 函數誘導的安全策略集為
式中:?(s0)≤c0,?π(·|s)∈F?(s)為式(15)的可行性策略。從式(17)中可以看出,較大的? 意味著可以獲得較大的F?(s),因此,下面的關鍵工作是構造一個合適的Lyapunov函數?。
根據文獻[16]中的引理1,關于π*的長期約束Cπ*(s)可以轉化為πb誘導的Lyapunov函數,寫為
式中:Δ(st)為每一步中可用的附加約束成本,用于擴展可行的操作空間并改進策略。然而,在沒有π*的先驗知識的情況下構建Δ(st)是具有挑戰(zhàn)性的。為了降低計算復雜度[19],Δ(st)近似為
式中:c0-Cπb(s0)為從s0到最終狀態(tài)可用的總輔助約束成本;Ε[T*|s0,πb]為UAV 從開始位置到目的地的預期首次成功時間。通過這種方式,可以在規(guī)劃軌跡的同時充分利用UAV 的推進能量預算。根據式(18)可以得到?Δ(s) 是可以由計 算,其 中Q?Δ(s,a)=QC(s,a) +Δ(s)QT(s,a) 為?Δ的狀態(tài)-動作值,QC(s,a)為約束值,QT(s,a)為從s到最終狀態(tài)的殘差步長,Δ(s)QT(s,a)表示約束成本的其余部分。為保證策略π(a|s)安全,必須滿足[π(a|s)-πb(a|s)]TQ?Δ(a|s)≤Δ(s),這意味著由π(a|s) 引起的額外成本[π(a|s)-πb(a|s)]TQ?Δ(a|s)不能超過Δ(s)。然后,由?Δ(s)誘導的安全策略集(17)可以寫為
以下采用actor-critic 框架來解決問題(15)。在critic 部分,使用DNN 分別評估Q(s,a),QC(s,a)和QT(s,a)。
在每步中,新生成的數據被保存在經驗池中,即D←(s,a,r,c,s′)∪D,通過從經驗池中隨機采樣一批樣本(s,a,r,c,s′)來訓練DNN,并通過式(21)更新參數
同樣QC(s,a)和QT(s,a)也分別通過DNN 近似器Q(s,a;?C)和Q(s,a;?T)進行評估。參數?C和?T通過以下方式更新
基于上節(jié)獲得的QC(s,a)和QT(s,a)以及在式(20)中構建的安全策略集,可以計算出式(15)的最優(yōu)行動概率為
Safe Actor-Critic算法的框架如圖2 所示。
圖2 Safe Actor-Critic框架Fig.2 The framework of Safe Actor-Critic
算法收斂性可以在文獻[16]中找到。該算法包括了三部分:actor 部分,critic 部分以及經驗池,其學習率αc,t和αa,t滿足
模擬基于Python的模擬器上實現,其中環(huán)境的參數設置如下:在600 m×600 m的面積上隨即部署K個物聯(lián)網設備,無人機在該區(qū)域上空巡航,接收設備產生的數據,其懸停高度固定為H=100 m。傳輸速率的參數設置為fc=5.9 GHz,B=1 MHz[20],pk2U=0.1 W(?k∈K)[20],σ2=-110 dBm,信道參數的值為δ=9.61,β=0.16,ηLoS=1 dB,ηNLoS=20 dB[15]。無人機的能源推進成本參數設置為:P0=3.4 W,P1=118 W,Utip=60 m/s,Vmax=30 m/s,v0=5.4 m/s,ρ=1.225 km/m2,μ=0.03,z0=0.3,ξ=0.28 m2[21]。
圖3 為所提算法不同Actor 學習率之間的收斂性能,其滿足等式(26)且通過反復試驗來設置。在這一部分中,Critic 的學習率被設定為αc,t=5×10-4。算法總共運行500 回合,每個回合中包括100步。
圖3 不同Actor學習率獎勵表現Fig.3 The reward performance comparison with different actor’s learning rates
由圖3 可知,當學習率為αa,t=5×10-4,曲線大約150 回合處達到收斂,這是因為學習率過高,總會導致高方差和低獎勵。然而,當學習率下降為αa,t=1×10-5時,學習速率變慢。相比αa,t=1×10-5和αa,t=5×10-4,學習率為αa,t=5×10-5是最佳的學習率,該學習率在平均收益和方差方面具有良好的性能。
圖4 為不同Critic學習率之間的收斂性能,這里Actor的學習率被固定為αa,t=5×10-5。同樣發(fā)現算法的收斂性能對學習率非常敏感,學習率為αc,t=5×10-3導致顯著方差,而αc,t=3×10-4導致較長的學習時間,Critic 的最佳學習率為αc,t=5×10-4。因此,在下面的部分中,αa,t和αc,t分別被設為αa,t=5×10-5和αc,t=5×10-4。
圖4 不同Critic學習率獎勵表現Fig.4 The reward performance comparison with different critic’s learning rates
為了顯示所提出的基于Safe Actor-Critic(SAC)算法的高效率,還模擬了基于Safe DQN的算法(SDA)[7]和基于拉格朗日Actor-Critic 的算法(LAC)[21]。圖5 為無人機在不同的總能量預算下每次SAC、SDA 和LAC 的累積推進能量消耗。從圖5 可以看出,當Emax=1.1×104J 時,SAC的總推進能量成本在收斂后小于1.1×104J,SDA 的能耗成本同樣小于1.1×104J。當Emax=2.6×104J 時,SAC 的能耗約2.5×104J。這是因為SAC 基于能量預算Emax為無人機構建了一個安全策略集,因此,總推進能量成本不會超過預算Emax。當Emax=1.1×104J 時,LAC 的能量消耗約為1.5×104J。這是因為LAC 的策略不可能受到長期能源約束的嚴重限制,即UAV 的每回合的總推進能量成本可能超過總能量預算。
圖5 不同總能量預算下無人機飛行的累積推進能耗Fig.5 The UAV’s cumulative propulsion energy consumption per episode with different total energy budgets
圖6 為每回合SAC、LAC 和SDA 在不同總能量預算下的獎勵表現。
圖6 不同能量預算下每回合獎勵表現Fig.6 The reward performance per episode with different total energy budgets
從圖6 中可以看到,當Emax從1.1×104J 增加到Emax=2.6×104J 時,SAC 的獎勵明顯增加,這是因為Emax越大,則無人機的可行動空間越大,獲得最優(yōu)策略的機會越多[22],獲得的獎勵也越高。當Emax=1.1×104J 時,LAC 的獎勵比SAC 高,這是因為LAC 的策略并不嚴重受限于圖5 所示的能量預算。盡管在圖5 中,SDA 同樣受到能量約束,但是從圖6 中可以看出當Emax=1.1×104J時,SDA 的獎勵低于SAC,因此,根據圖5 和圖6 可知,與SDA 和LAC 相比,提出的SAC 可嚴格滿足推進能量消耗預算要求,并且收斂性能最佳。
圖7 所示為每個回合中不同的總能量預算下不同物聯(lián)網設備數目的AoI值,可見隨著物聯(lián)網設備數目的增加,AoI加權和顯著增加。這是因為無人機在每個時隙最多連接一臺設備,部署的設備越多,平均每臺設備享受的服務越少,AoI之和也隨之增加。此外,當能量預算增加時,固定數量物聯(lián)網設備的AoI會減少,這是因為有了更多的推進能量預算,無人機可以進行更靈活的軌跡規(guī)劃,以接收更高AoI值的設備。
圖7 不同IoT個數的AoI加權和Fig.7 The weighted sum AoI of different devices
圖8 顯示了每一階段的平均加權和AoI 與UAV飛行高度的關系,可見當無人機的高度增加時,AoI 值增加。由于物聯(lián)網設備到無人機的信道增益主要取決于兩者之間的距離,因此在帶寬和發(fā)射功率一定的情況下,飛行高度越高,信道條件越弱,傳輸速率越低。
圖8 不同高度下的建立表現Fig.8 The reward performance versus height
本研究的貢獻總結如下:
1)聯(lián)合優(yōu)化無人機的軌跡和物聯(lián)網設備調度策略以最小化網絡的加權和AoI,其中無人機累積飛行能量成本受能量預算限制。
2)由于優(yōu)化目標受一組短期約束和長期能量約束的限制,該問題被建模為約束馬爾可夫決策過程(CMDP)。
3)采用Safe Actor-Critic 來求解該CMDP,為保證策略安全,利用Lyapunov函數構建安全策略集,并基于此策略集訓練策略網絡。
在未來的工作中,我們將利用多智能體DRL方法討論多無人機場景下的AoI最小化問題。