周永濤,劉 唐,彭 艦
(1.四川大學(xué) 計(jì)算機(jī)學(xué)院, 成都 610065; 2.四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 成都 610101)
得益于無人機(jī)(unmanned aerial vehicle,UAV)的一些優(yōu)點(diǎn),例如很高的機(jī)動(dòng)性、可按需部署、成本較低等,可以將其作為空中基站[1](base station,BS)與地面用戶建立無線連接以提供通信服務(wù),增強(qiáng)網(wǎng)絡(luò)的覆蓋范圍以及數(shù)據(jù)傳輸性能。空中基站被部署在一定高度的空中,相較于傳統(tǒng)地面基站能夠有更大的機(jī)會(huì)與地面用戶建立視距鏈路連接(line-of-sight,LoS)。空戰(zhàn)基站有很多實(shí)際應(yīng)用場景,例如在地面基站受損的災(zāi)害環(huán)境中提供穩(wěn)定可靠的無線通信服務(wù),以及在傳統(tǒng)地面網(wǎng)絡(luò)出現(xiàn)擁塞時(shí)作為輔助通信基站。
近年來,無人機(jī)作為空中基站提供無線通信服務(wù)受到了較為廣泛的關(guān)注[2-9]。在關(guān)于基站無人機(jī)的研究中,有較多工作致力于尋找基站無人機(jī)的部署位置[4-6]。Zhang等[4]以最大化用戶體驗(yàn)質(zhì)量(quality of experience,QoE)為目標(biāo)尋找無人機(jī)的最佳部署位置;Zhang等[5]通過設(shè)計(jì)基站無人機(jī)的三維部署位置來增強(qiáng)目標(biāo)信號強(qiáng)度和減少信道干擾;Valiulahi等[6]在存在同頻道干擾的情況下,以最大化所有地面用戶可實(shí)現(xiàn)的最小系統(tǒng)吞吐量為目標(biāo)計(jì)算基站無人機(jī)最佳的三維部署位置。這類研究將無人機(jī)作為靜態(tài)空中基站,忽視了無人機(jī)的高機(jī)動(dòng)和可控制特性。另外,有部分研究關(guān)注于計(jì)算無人機(jī)的飛行路徑[7-9],通過規(guī)劃無人機(jī)的飛行路徑最大化下行通信中所有地面用戶的最小吞吐量[7]、最大化無人機(jī)飛行期間的整體平均總傳輸速率[8]、實(shí)現(xiàn)對目標(biāo)區(qū)域較高的通信覆蓋率[9]。這類研究在設(shè)計(jì)無人機(jī)飛行路徑時(shí)沒有考慮地面用戶位置可能發(fā)生變化。
上述對于基站無人機(jī)部署問題和飛行路徑規(guī)劃問題的研究很少考慮到地面用戶的移動(dòng)。然而在現(xiàn)實(shí)應(yīng)用場景中,地面用戶的活動(dòng)往往呈現(xiàn)動(dòng)態(tài)性和隨機(jī)性[10-11]。地面用戶持續(xù)移動(dòng)且基站無人機(jī)的通信范圍有限,可能降低地面移動(dòng)用戶與基站無人機(jī)間的無線通信速率,從而造成網(wǎng)絡(luò)性能的損失[12]。故在部署基站無人機(jī)的無線通信網(wǎng)絡(luò)中考慮地面用戶的移動(dòng)是必要的。
得益于無人機(jī)的機(jī)動(dòng)性和可控制特性,可以通過動(dòng)態(tài)調(diào)整無人機(jī)的飛行距離和飛行方向角(即規(guī)劃無人機(jī)的飛行路徑)實(shí)時(shí)追蹤地面移動(dòng)用戶,提高用戶與基站無人機(jī)間的無線通信速率,增強(qiáng)無人機(jī)網(wǎng)絡(luò)性能。在考慮地面用戶移動(dòng)的無人機(jī)網(wǎng)絡(luò)中,規(guī)劃基站無人機(jī)飛行路徑的挑戰(zhàn)主要有兩點(diǎn):一是無人機(jī)的飛行距離和飛行方向角都是連續(xù)變量[13],在連續(xù)空間內(nèi)尋找最優(yōu)的飛行動(dòng)作比較困難;二是在實(shí)時(shí)追蹤持續(xù)移動(dòng)的地面用戶時(shí),很難保持優(yōu)化算法的較高性能[14]。
本文提出一種基于DRL的基站無人機(jī)路徑規(guī)劃算法(DDPG-TD)來應(yīng)對地面用戶移動(dòng)的無人機(jī)網(wǎng)絡(luò),以避免由于用戶移動(dòng)造成的無人機(jī)網(wǎng)絡(luò)性能損失。將基站無人機(jī)提供通信服務(wù)的任務(wù)周期劃分為多個(gè)時(shí)間間隔相同的時(shí)隙,算法以最大化任務(wù)周期內(nèi)無人機(jī)網(wǎng)絡(luò)總吞吐量(所有時(shí)隙內(nèi)的網(wǎng)絡(luò)吞吐量之和)為目標(biāo),在連續(xù)動(dòng)作空間中計(jì)算出每個(gè)時(shí)隙內(nèi)無人機(jī)的飛行動(dòng)作,完成對無人機(jī)飛行路徑的規(guī)劃。算法中的DRL模型經(jīng)過訓(xùn)練后能夠針對變化的地面用戶位置做出相應(yīng)的飛行策略調(diào)整。為驗(yàn)證本文提出的算法在規(guī)劃基站無人機(jī)飛行路徑時(shí)的有效性,將DDPG-TD算法與3種較為常用的算法進(jìn)行比較。仿真結(jié)果表明,DDPG-TD算法中的無人機(jī)網(wǎng)絡(luò)吞吐量明顯高于3種對比算法。此外,本文還對DRL中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和超參設(shè)定進(jìn)行了實(shí)驗(yàn)對比,以挑選合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參設(shè)定。
在一個(gè)部署基站無人機(jī)的無線通信網(wǎng)絡(luò)中,有多個(gè)基站無人機(jī)為多個(gè)地面用戶提供無線通信服務(wù),地面用戶的位置可能持續(xù)變化,如圖1所示。
圖1 地面用戶移動(dòng)的無人機(jī)網(wǎng)絡(luò)示意圖
基站無人機(jī)的數(shù)量為K,地面用戶的數(shù)量為N。所有基站無人機(jī)可以通過通信衛(wèi)星與外部網(wǎng)絡(luò)建立通信連接。由于地面用戶的位置隨著時(shí)間的推移發(fā)生改變,可能導(dǎo)致固定位置部署的基站無人機(jī)與地面用戶間的無線通信速率下降。因此需要規(guī)劃無人機(jī)的飛行路徑實(shí)時(shí)追蹤地面移動(dòng)用戶,提高用戶與基站無人機(jī)間的無線通信速率。假定一個(gè)基站無人機(jī)為地面用戶提供網(wǎng)絡(luò)通信服務(wù)的任務(wù),該任務(wù)時(shí)長為T個(gè)時(shí)隙,每個(gè)時(shí)隙的時(shí)間間隔均相同。在任務(wù)初始時(shí)刻,每個(gè)基站無人機(jī)在隨機(jī)位置起飛,并以固定高度H飛行,隨后使用本文提出的路徑規(guī)劃算法不斷調(diào)整自己的飛行軌跡,使T個(gè)時(shí)隙的任務(wù)周期內(nèi)無人機(jī)網(wǎng)絡(luò)中總吞吐量最大化。每個(gè)用戶在一個(gè)時(shí)隙內(nèi)僅可以與一架基站無人機(jī)建立通信連接,無人機(jī)在同時(shí)服務(wù)多個(gè)地面用戶時(shí)使用的是頻分多址(frequency division multiple access,F(xiàn)DMA)技術(shù)。
給定時(shí)隙t基站無人機(jī)k的飛行方向角和飛行距離,基站無人機(jī)k在時(shí)隙t內(nèi)終點(diǎn)位置的三維坐標(biāo)可以表示為:
(1)
地面用戶的活動(dòng)具有動(dòng)態(tài)性和隨機(jī)性,目前有較多研究對地面用戶的活動(dòng)進(jìn)行預(yù)測建模,文獻(xiàn)[16]對這些地面用戶運(yùn)動(dòng)模型做了比較全面的調(diào)查。其中一種比較常見的模型是隨機(jī)游走模型(random walk model,RWM)。RWM中,地面用戶的移動(dòng)方向由均勻分布在[0,2π]之間的角度決定,且用戶被分配一個(gè)隨機(jī)速度,這個(gè)速度的范圍是[0,vmax],vmax表示一個(gè)普通行人的最大行走速度。
指定地面用戶n的移動(dòng)方向角和速度為(σn,vn),在時(shí)隙t的時(shí)間間隔充分小,且地面用戶的移動(dòng)速度v較小的前提下,用戶n在時(shí)隙t內(nèi)的二維坐標(biāo)表示為:
(2)
(3)
1.4.1通信覆蓋表示
(4)
1.4.2信道速率計(jì)算
地面用戶與基站無人機(jī)之間的通信連接可以看作是空對地通信信道(air-to-ground channels),該信道的路徑損失(path loss)被建模為視距鏈路連接(line-of-sight,LoS)和非視距鏈路連接(none-line-of-sight,NLoS)2個(gè)傳播類[17]。用戶n與無人機(jī)k之間建立LoS連接的概率計(jì)算如下:
(5)
式中: 常量參數(shù)α和β取決于環(huán)境(如城市環(huán)境或鄉(xiāng)村環(huán)境等)。φ=sin-1H/d表示用戶n與無人機(jī)k之間的仰角,由式(3)可以計(jì)算d。平均路徑損失可以表示為:
(6)
式中:fc和c分別表示載波頻率和光速,常量ηLoS和ηNLoS表示自由空間中信號傳播的額外損失。另外,非視距鏈路概率PNLoS=1-PLoS。
本文中無人機(jī)同時(shí)服務(wù)多個(gè)地面用戶使用的是FDMA技術(shù)。在計(jì)算用戶傳輸速率時(shí)不考慮用戶傳播信道之間的干擾。根據(jù)香農(nóng)公式,用戶n和無人機(jī)k之間的傳輸速率可以表示為:
Rn,k=Wn,klog2(1+10SNRn,k/10)
(7)
式中:Rn,k的單位是bit/s,Wn,k表示通信信道帶寬,SNRn,k是信噪比,計(jì)算如下:
SNRn,k=pn,kLn,k/Ngw
(8)
式中:pn,k表示無人機(jī)k到用戶n的傳輸功率,Ngw是加性高斯白噪聲(additive white gaussian noise),Ln,k可由式(6)計(jì)算。
為了提高用戶與基站無人機(jī)間的無線通信速率,增強(qiáng)無人機(jī)網(wǎng)絡(luò)性能,目標(biāo)是最大化任務(wù)周期內(nèi)無人機(jī)網(wǎng)絡(luò)的總吞吐量Csum:
(9)
由于無人機(jī)的飛行動(dòng)作空間是連續(xù)的,且地面用戶活動(dòng)呈現(xiàn)動(dòng)態(tài)性和隨機(jī)性,這就導(dǎo)致解決最大化Csum問題是具有挑戰(zhàn)性的[18]?;趥鹘y(tǒng)搜索式算法會(huì)帶來比較高的計(jì)算復(fù)雜度。為了解決該問題,本文提出DDPG-TD算法來計(jì)算基站無人機(jī)的飛行路徑。
強(qiáng)化學(xué)習(xí)是和監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)并列的第3種機(jī)器學(xué)習(xí)方法,其更側(cè)重于以交互目標(biāo)為導(dǎo)向進(jìn)行學(xué)習(xí),近年來強(qiáng)化學(xué)習(xí)在一些游戲應(yīng)用中表現(xiàn)出不錯(cuò)的性能。強(qiáng)化學(xué)習(xí)中,智能體與系統(tǒng)環(huán)境不斷進(jìn)行交互,以實(shí)現(xiàn)目標(biāo)收益最大化為目標(biāo),學(xué)習(xí)環(huán)境中不同狀態(tài)對應(yīng)的正確動(dòng)作。結(jié)合了深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)中狀態(tài)空間和動(dòng)作空間無限帶來的“維度災(zāi)難”問題,它利用神經(jīng)網(wǎng)絡(luò)幫助智能體在與環(huán)境的交互中不斷學(xué)習(xí)理想動(dòng)作,可以應(yīng)對更復(fù)雜的狀態(tài)空間和時(shí)變環(huán)境。
在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)中,智能體在離散的時(shí)間點(diǎn)(Epoch)與系統(tǒng)環(huán)境進(jìn)行交互。如圖2所示,在每一個(gè)時(shí)間點(diǎn)t,智能體觀察此時(shí)的環(huán)境狀態(tài)st,選擇執(zhí)行動(dòng)作at后得到相應(yīng)的獎(jiǎng)勵(lì)rt。強(qiáng)化學(xué)習(xí)旨在找到每個(gè)狀態(tài)下對應(yīng)的動(dòng)作,即策略π(s),該策略能夠最大化總的折扣獎(jiǎng)勵(lì)R:
圖2 強(qiáng)化學(xué)習(xí)中的智能體與環(huán)境交互示意圖
(10)
式中,r(·)是獎(jiǎng)勵(lì)函數(shù)(reward function),折扣因子γ∈[0,1]。
標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)需要記錄每個(gè)狀態(tài)下的動(dòng)作價(jià)值分布,當(dāng)環(huán)境狀態(tài)集合復(fù)雜甚至狀態(tài)空間連續(xù)時(shí),很難實(shí)現(xiàn)記錄每個(gè)狀態(tài)下的所有動(dòng)作價(jià)值。為了處理復(fù)雜的狀態(tài)空間,DRL使用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)構(gòu)成一個(gè)近似函數(shù)Q(·):
Q(st,at)=E[Rt|st,at]
(11)
(12)
式中:Q(·)近似估計(jì)動(dòng)作at在狀態(tài)st下的累積期望折扣獎(jiǎng)勵(lì)。DRL中比較常用的尋找策略π(s)的方法是貪心算法:
π(st)=argmaxatQ(st,at)
(13)
DRL中稱該網(wǎng)絡(luò)為深度Q神經(jīng)網(wǎng)絡(luò)(deep Q network,DQN)。最小化均方差損失函數(shù)L(θQ)訓(xùn)練DQN:
L(θQ)=E[yt-Q(st,at|θQ)]
(14)
式中:θQ是DQN的權(quán)重向量,yt是目標(biāo)價(jià)值,可以通過以下表達(dá)式計(jì)算:
yt=r(st,at)+γQ′[st+1,π′(st+1|θπ′)|θQ′]
(15)
深度強(qiáng)化學(xué)習(xí)一般利用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)技術(shù)協(xié)助訓(xùn)練神經(jīng)網(wǎng)絡(luò)[15]。經(jīng)驗(yàn)回放池用于保存智能體和環(huán)境交互得到的獎(jiǎng)勵(lì)值和狀態(tài)更新。訓(xùn)練階段,在經(jīng)驗(yàn)回放池中按一定規(guī)則采樣若干數(shù)據(jù)來更新神經(jīng)網(wǎng)絡(luò)。經(jīng)驗(yàn)回放能夠解除用來訓(xùn)練網(wǎng)絡(luò)的序列數(shù)據(jù)之間的相關(guān)性,能夠避免難收斂問題,同時(shí)訓(xùn)練過程也更加平滑。DRL使用目標(biāo)網(wǎng)絡(luò)估計(jì)目標(biāo)價(jià)值yt,雙網(wǎng)絡(luò)方式能夠消除DQN過度估計(jì)的問題。目標(biāo)網(wǎng)絡(luò)和原始DQN網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但是目標(biāo)網(wǎng)絡(luò)的參數(shù)更新要比原始網(wǎng)絡(luò)慢。
▽θπJ=E[▽atQ(s,a|θQ)|s=st,a=π(s|θπ)·
▽θππ(s|θπ)|s=st]
(16)
本文提出一種基于DRL的基站無人機(jī)路徑規(guī)劃算法。在該算法中,DRL智能體周期性地收集地面環(huán)境數(shù)據(jù)(地面用戶的位置),根據(jù)地面環(huán)境計(jì)算出每個(gè)時(shí)隙最優(yōu)的飛行動(dòng)作,并通過指令將動(dòng)作信息發(fā)送給正在提供無線通信服務(wù)的基站無人機(jī),無人機(jī)收到指令做出相應(yīng)的調(diào)整?;贒RL算法的設(shè)計(jì)思想,定義的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)值等如下:
1) 狀態(tài)st:在任務(wù)周期內(nèi)的每個(gè)時(shí)隙,定義的狀態(tài)st包含以下3個(gè)方面:
②pgn:當(dāng)前時(shí)隙地面用戶n的位置坐標(biāo);
③puk:當(dāng)前時(shí)隙基站無人機(jī)k的位置坐標(biāo)。
2) 動(dòng)作at:定義基站無人機(jī)在每個(gè)時(shí)隙的飛行動(dòng)作包含2個(gè)方面:
3) 獎(jiǎng)勵(lì)值rt:在時(shí)隙t采取了動(dòng)作at后得到的獎(jiǎng)勵(lì)值定義為:
(17)
4) 懲罰值penalty:每個(gè)時(shí)隙無人機(jī)執(zhí)行動(dòng)作at后,如果存在無人機(jī)飛出地面邊界或者無人機(jī)之間發(fā)生碰撞,將會(huì)在該時(shí)隙獲得的獎(jiǎng)勵(lì)值上減去懲罰值,這樣能夠有效避免無人機(jī)飛出地面邊界以及無人機(jī)之間發(fā)生碰撞。
如圖3所示,DDPG-TD算法由一個(gè)智能體和無人機(jī)網(wǎng)絡(luò)環(huán)境組成,智能體中有4個(gè)神經(jīng)網(wǎng)絡(luò)和一個(gè)經(jīng)驗(yàn)回放池。算法中的4個(gè)神經(jīng)網(wǎng)絡(luò),分別是評論者網(wǎng)絡(luò)Q(st,at|θQ)和執(zhí)行者網(wǎng)絡(luò)π(st|θπ),以及評論者目標(biāo)網(wǎng)絡(luò)Q′(st,at|θQ′)和執(zhí)行者目標(biāo)網(wǎng)絡(luò)π′(st|θπ′)。目標(biāo)網(wǎng)絡(luò)和原網(wǎng)絡(luò)具有相同的結(jié)構(gòu),算法使用目標(biāo)網(wǎng)絡(luò)解決網(wǎng)絡(luò)訓(xùn)練過程中的過度估計(jì)問題。網(wǎng)絡(luò)更新的數(shù)據(jù)由智能體和無人機(jī)網(wǎng)絡(luò)環(huán)境交互產(chǎn)生。在智能體與無人機(jī)網(wǎng)絡(luò)環(huán)境交互階段,執(zhí)行者網(wǎng)絡(luò)根據(jù)當(dāng)前時(shí)隙環(huán)境的狀態(tài)st計(jì)算出對應(yīng)的動(dòng)作at,智能體執(zhí)行該動(dòng)作并觀察得到環(huán)境狀態(tài)的轉(zhuǎn)變st+1以及對應(yīng)的獎(jiǎng)勵(lì)值rt,并將得到的數(shù)據(jù)(st,at,rt,st+1)存入經(jīng)驗(yàn)回放池。經(jīng)驗(yàn)回放池B的容量大小設(shè)置為S,并設(shè)置一個(gè)累積經(jīng)驗(yàn)閾值Bth,當(dāng)B中存放的數(shù)據(jù)量未達(dá)到Bth時(shí),無人機(jī)動(dòng)作at的選擇是隨機(jī)的;當(dāng)B中累積經(jīng)驗(yàn)數(shù)據(jù)達(dá)到Bth后,對π(st|θπ)加噪聲后得到無人機(jī)動(dòng)作at,本文采用正態(tài)分布隨機(jī)變量噪聲。
圖3 DDPG-TD算法框圖
在神經(jīng)網(wǎng)絡(luò)更新階段,先從經(jīng)驗(yàn)回放池B中隨機(jī)采樣大小為Bs的小批量數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行歸一化處理后,通過最小化式(10)的損失函數(shù)L(θQ)來更新評論者網(wǎng)絡(luò)參數(shù)θQ,并通過計(jì)算式(12)的梯度▽θπJ來更新執(zhí)行者網(wǎng)絡(luò)參數(shù)θπ。目標(biāo)網(wǎng)絡(luò)和原始網(wǎng)絡(luò)具有相同的結(jié)構(gòu),目標(biāo)網(wǎng)絡(luò)的更新速度慢于原始網(wǎng)絡(luò),更新速度由學(xué)習(xí)率控制。
在仿真實(shí)驗(yàn)中,設(shè)置一個(gè)大小為的1 000 m×1 000 m的矩形目標(biāo)區(qū)域,地面用戶的數(shù)量為20,網(wǎng)絡(luò)中部署2架基站無人機(jī)。相關(guān)參數(shù)[3,14]見表1。實(shí)驗(yàn)使用TensorFlow 2.0和Python 3.7,仿真設(shè)備為一臺搭載28核2.4 GHz的Intel Xeno E5處理器和一張24 GB顯存3090顯卡的計(jì)算機(jī)。網(wǎng)絡(luò)一共訓(xùn)練1 000幕(Episode),每一幕包含200個(gè)時(shí)隙(200 s)。執(zhí)行者網(wǎng)絡(luò)結(jié)構(gòu)為兩層全連接神經(jīng)網(wǎng)絡(luò),第一個(gè)隱藏層包含600個(gè)神經(jīng)元,第二個(gè)隱藏層包含500個(gè)神經(jīng)元,使用ReLU函數(shù)作為激活函數(shù)。執(zhí)行者網(wǎng)絡(luò)輸出層使用Sigmoid函數(shù)作為激活函數(shù),防止輸出的動(dòng)作值超過算法設(shè)計(jì)的邊界值。評論者網(wǎng)絡(luò)也是兩層全連接神經(jīng)網(wǎng)絡(luò),第一層第二層分別包含600和500個(gè)神經(jīng)元,使用ReLU函數(shù)作為激活函數(shù)。執(zhí)行者和評論者網(wǎng)絡(luò)中均使用L2權(quán)重衰減來防止過擬合。執(zhí)行者網(wǎng)絡(luò)和評論者網(wǎng)絡(luò)結(jié)構(gòu)見圖4。通過大量的實(shí)驗(yàn)比較,找到神經(jīng)網(wǎng)絡(luò)中性能表現(xiàn)良好的超參。設(shè)置采樣批量為512,折扣因子為0.9,執(zhí)行者網(wǎng)絡(luò)學(xué)習(xí)率為0.000 3。
表1 仿真參數(shù)
圖4 執(zhí)行者網(wǎng)絡(luò)和評論者網(wǎng)絡(luò)結(jié)構(gòu)示意圖
使用以下指標(biāo)來對DDPG-TD算法做性能評估:
1) 網(wǎng)絡(luò)吞吐量TPt:表示當(dāng)前時(shí)隙所有地面用戶無線傳輸速率之和,由式(7)計(jì)算傳輸速率。
(18)
將DDPG-TD算法與3種常見算法進(jìn)行對比:
2) DMC(distributed motion control)[3]:該算法將地面用戶區(qū)域?qū)o人機(jī)的吸引看作為一個(gè)虛擬的力,通過對無人機(jī)受到的力進(jìn)行受力分析,結(jié)合牛頓第二定律計(jì)算出無人機(jī)的飛行方向和飛行速度。
3) DDQN[19]:該算法也是強(qiáng)化學(xué)習(xí)算法。與DDPG-TD算法不同,該算法僅能夠在離散的動(dòng)作空間中選擇價(jià)值最大的飛行動(dòng)作。在DDQN算法實(shí)驗(yàn)中,將無人機(jī)的飛行動(dòng)作劃分成離散的值,例如飛行方向劃分為東、南、西、北4個(gè)方向,飛行距離劃分成小于等于dmax的多個(gè)值。
圖5展示了在DDPG-TD算法規(guī)劃的基站無人機(jī)飛行路徑下,無人機(jī)與地面用戶的位置分布,圖5(a)展示的是任務(wù)初始時(shí)刻2架無人機(jī)和20位地面用戶的位置分布,圖5(b)展示的是無人機(jī)執(zhí)行任務(wù)100 s后,圖5(c)展示的是無人機(jī)執(zhí)行任務(wù)200 s后。在仿真實(shí)驗(yàn)中,20位地面移動(dòng)用戶分為2個(gè)簇,每個(gè)簇中各10位用戶。2架無人機(jī)的初始位置分別設(shè)置為(450,200)和(550,200)。從1.4.2小節(jié)計(jì)算無線傳輸速率的過程可以看出,無人機(jī)與地面用戶的距離越近則地面用戶能夠獲得的無線傳輸速率越高。仿真實(shí)驗(yàn)中,圖5展示無人機(jī)會(huì)逐漸飛向用戶簇,以縮短移動(dòng)與地面用戶的距離,為用戶提供較高傳輸速率的無線通信服務(wù)。圖5中展示的地面用戶是以簇的形式向固定方向移動(dòng),這樣設(shè)定的目的是更清楚地展示無人機(jī)實(shí)時(shí)追蹤用戶的過程。在本文提出的DDPG-TD算法中,環(huán)境狀態(tài)的設(shè)定包含了全部地面用戶的位置以及無人機(jī)的位置。算法根據(jù)環(huán)境狀態(tài)決定無人機(jī)飛行動(dòng)作,故無論用戶如何移動(dòng),在獲得地面用戶位置和無人機(jī)位置后,算法均能夠規(guī)劃無人機(jī)飛行路徑。
圖5 無人機(jī)與地面用戶位置分布示意圖
圖6展示了本文提出的DDPG-TD算法與3種常見算法在每個(gè)時(shí)隙網(wǎng)絡(luò)吞吐量上的對比結(jié)果。DDPG-TD、DDQN以及DMC 3種算法的網(wǎng)絡(luò)吞吐量都有一個(gè)明顯上升并趨于穩(wěn)定的過程,而Random算法的網(wǎng)絡(luò)吞吐量僅在一定區(qū)間內(nèi)波動(dòng)。這是因?yàn)榍?種算法實(shí)現(xiàn)了無人機(jī)對地面移動(dòng)用戶的動(dòng)態(tài)追蹤,而Random算法中無人機(jī)每個(gè)時(shí)刻的飛行動(dòng)作都是隨機(jī)確定的。在無人機(jī)速度快于地面用戶移動(dòng)速度的前提下,DDPG-TD、DDQN以及DMC 3種算法通過規(guī)劃無人機(jī)飛行路徑不斷縮小無人機(jī)與地面移動(dòng)用戶的距離,以提高無人機(jī)與地面用戶之間的無線傳輸速率。在第10個(gè)時(shí)隙,DDPG-TD算法實(shí)現(xiàn)了每個(gè)時(shí)隙網(wǎng)絡(luò)吞吐量最大化;在第13個(gè)時(shí)隙,DDQN算法也實(shí)現(xiàn)了網(wǎng)絡(luò)吞吐量最大化;在第21個(gè)時(shí)隙,DMC算法基本實(shí)現(xiàn)了網(wǎng)絡(luò)吞吐量最大化。在DDPG-TD、DDQN以及DMC 3種算法的網(wǎng)絡(luò)吞吐量趨于穩(wěn)定后,前2種強(qiáng)化學(xué)習(xí)算法相較于DMC算法更加穩(wěn)定,DDQN在短暫波動(dòng)后網(wǎng)絡(luò)吞吐量基本穩(wěn)定。這是因?yàn)?種強(qiáng)化學(xué)習(xí)算法根據(jù)所有地面用戶的實(shí)時(shí)位置以及無人機(jī)的位置,以最大化吞吐量為目標(biāo)規(guī)劃無人機(jī)的飛行路徑,在一段時(shí)間后算法尋找到了無人機(jī)與地面用戶間最佳相對位置,故能夠保持網(wǎng)絡(luò)吞吐量穩(wěn)定。而DMC算法將地面用戶區(qū)域?qū)o人機(jī)的吸引看作為一個(gè)虛擬的力。文獻(xiàn)[3]給出該力的計(jì)算與無人機(jī)和用戶間的距離有關(guān),這種計(jì)算方法不能精確反應(yīng)無人機(jī)與用戶的位置對網(wǎng)絡(luò)吞吐量的影響,故DMC算法的網(wǎng)絡(luò)吞吐量在趨于穩(wěn)定后存在波動(dòng)的情況。可以看出,2種強(qiáng)化學(xué)習(xí)算法相較于DMC算法有更好的效果呈現(xiàn)。強(qiáng)化學(xué)習(xí)智能體與環(huán)境交互并學(xué)習(xí)最大化收益的策略,能夠更好地應(yīng)對地面用戶移動(dòng)的時(shí)變網(wǎng)絡(luò)環(huán)境。得益于能夠在連續(xù)空間中計(jì)算無人機(jī)的飛行動(dòng)作,DDPG-TD算法相較于DDQN算法能夠更快實(shí)現(xiàn)最大化網(wǎng)絡(luò)吞吐量的目標(biāo)(DDPG-TD算法在連續(xù)空間中計(jì)算飛行動(dòng)作,無人機(jī)的飛行路徑更加平滑)。在實(shí)際實(shí)驗(yàn)中,DDQN算法中的飛行動(dòng)作離散值越多,神經(jīng)網(wǎng)絡(luò)輸出維度會(huì)越大,網(wǎng)絡(luò)的結(jié)構(gòu)也會(huì)更復(fù)雜。
圖6 每時(shí)隙網(wǎng)絡(luò)吞吐量曲線
圖7是4種算法分別在前5個(gè)時(shí)隙間隔、前10個(gè)時(shí)隙間隔以及前15個(gè)時(shí)隙間隔內(nèi)的平均網(wǎng)絡(luò)吞吐量,是對圖6展示的吞吐量變化的補(bǔ)充。可以看出從前5個(gè)時(shí)隙到前10個(gè)時(shí)隙,再到前15個(gè)時(shí)隙,DDPG-TD、DDQN以及DMC 3種算法的平均吞吐量有明顯的上升趨勢,即3種算法在規(guī)劃無人機(jī)逐漸飛往用戶簇,縮小與用戶之間的距離,提高無線網(wǎng)絡(luò)傳輸速率。DDPG-TD算法可以在連續(xù)空間計(jì)算無人機(jī)的飛行動(dòng)作,所以能夠更快靠近用戶簇,故能夠保持平均吞吐量一直領(lǐng)先于對比的3種算法。
圖7 平均網(wǎng)絡(luò)吞吐量直方圖
圖8展示了超參對神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果的影響。結(jié)構(gòu)一(Struct1)是兩層全連接神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)分別包含500和400個(gè)神經(jīng)元;結(jié)構(gòu)二(Struct2)是兩層全連接神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)分別包含600和500個(gè)神經(jīng)元。在3個(gè)學(xué)習(xí)率0.000 2、0.000 3、0.000 4對比下,找到了相對較好的超參設(shè)置,即執(zhí)行者和評論者網(wǎng)絡(luò)結(jié)構(gòu)采用結(jié)構(gòu)二,網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.000 3。
圖8 不同超參對訓(xùn)練結(jié)果的影響直方圖
圖9展示了深度強(qiáng)化學(xué)習(xí)模型在訓(xùn)練過程中獎(jiǎng)勵(lì)值的變化情況。隨著訓(xùn)練輪次增加,獎(jiǎng)勵(lì)值逐漸增大并收斂在非常小的范圍內(nèi)[20]。獎(jiǎng)勵(lì)值的變化趨勢代表每訓(xùn)練輪次(Episode)網(wǎng)絡(luò)總吞吐量的變化趨勢。
圖9 訓(xùn)練過程中的獎(jiǎng)勵(lì)值曲線
提出了一種基于深度強(qiáng)化學(xué)習(xí)的基站無人機(jī)路徑規(guī)劃算法,該算法在地面用戶移動(dòng)的無人機(jī)網(wǎng)絡(luò)中規(guī)劃多架基站無人機(jī)的飛行路徑。仿真結(jié)果表明,通過所提算法規(guī)劃基站無人機(jī)飛行路徑,無人機(jī)網(wǎng)絡(luò)的吞吐量始終維持在較高水平。提出的算法是一種集中式算法,無人機(jī)的飛行動(dòng)作指令由后端服務(wù)設(shè)備計(jì)算給出,這對后端服務(wù)設(shè)備和無人機(jī)之間的往返通信連接有較高的帶寬要求,在某些特殊情況如災(zāi)害環(huán)境下后端服務(wù)設(shè)備帶寬可能無法支持與大量無人機(jī)進(jìn)行通信連接。分布式算法較好地解決了上述集中式算法存在的問題。