張建行 康 凱 錢 驊 楊 淼③
①(中國科學(xué)院上海高等研究院 上海 201210)
②(中國科學(xué)院大學(xué) 北京 100049)
③(上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院 上海 201210)
物聯(lián)網(wǎng)(Internet of Things, IoT)技術(shù)旨在構(gòu)建萬物互聯(lián)的世界,現(xiàn)已在多個領(lǐng)域有了廣泛的應(yīng)用。大量的網(wǎng)絡(luò)連接設(shè)備(可穿戴設(shè)備、智能設(shè)備、嵌入式傳感器等)部署在健康、交通、能源、工業(yè)等各個領(lǐng)域,實現(xiàn)數(shù)據(jù)采集、檢測、測量等用途。例如:將傳感器安裝在農(nóng)場中用以火災(zāi)預(yù)警;將傳感器安裝在災(zāi)難多發(fā)地或國家邊境,用以搜尋、營救以及邊境監(jiān)控等[1]。然而,在一些特殊的應(yīng)用場景中,如因地形地貌不適宜部署通信基礎(chǔ)設(shè)施的偏遠(yuǎn)地區(qū),物聯(lián)網(wǎng)終端設(shè)備(即地面節(jié)點)只能通過無線多跳的方式將數(shù)據(jù)傳回中心節(jié)點。這樣勢必會造成中心節(jié)點設(shè)備的能量消耗遠(yuǎn)高于邊緣節(jié)點,從而減少整個網(wǎng)絡(luò)的壽命[2]。同時這種傳輸方式的時延也無法得到保證。近幾年來,無人機(jī)技術(shù)快速發(fā)展。憑借無人機(jī)的高機(jī)動性、低成本等優(yōu)點,利用無人機(jī)收集地面物聯(lián)網(wǎng)設(shè)備的信息并傳回中心節(jié)點,是應(yīng)對上述特殊環(huán)境中物聯(lián)網(wǎng)通信問題的有效方法[3–5]。
使用無人機(jī)輔助物聯(lián)網(wǎng)通信引入了新的挑戰(zhàn)。由于無人機(jī)為能量受限的設(shè)備,如何規(guī)劃無人機(jī)的飛行路徑成為保障無人機(jī)輔助物聯(lián)網(wǎng)通信服務(wù)質(zhì)量(Quality of Service, QoS)的關(guān)鍵[3–5]。目前,許多工作聚焦于如何提升能量效率、最大化網(wǎng)絡(luò)覆蓋率、吞吐量等[6–11]。然而,在環(huán)境監(jiān)測、災(zāi)難救援等場景中,QoS主要受限于無人機(jī)從地面節(jié)點收集的信息的時效性?;趦?yōu)化吞吐量或延遲等指標(biāo)設(shè)計的路徑不能保證信息的時效性。比如,當(dāng)傳輸延遲小時,如果吞吐量也比較小,說明數(shù)據(jù)很少能傳輸?shù)街行墓?jié)點,數(shù)據(jù)可能不具有時效性;如果吞吐量較大,數(shù)據(jù)可能經(jīng)歷了長時間排隊,也有可能不具有時效性[12]。
信息年齡(Age of Information, AoI)定義為目前接收到的、生成時間最晚的數(shù)據(jù)包的生成時間與當(dāng)前時刻的時間差[13]。與傳統(tǒng)的衡量指標(biāo)相比,如吞吐量、延遲,AoI能更精確描述信息的時效性,因此AoI已在物聯(lián)網(wǎng)中廣泛地應(yīng)用[14]。AoI的變化與地面節(jié)點的采樣模式,即產(chǎn)生信息的間隔有關(guān),為了降低AoI,無人機(jī)應(yīng)在同樣時間內(nèi)更多訪問信息產(chǎn)生間隔較小的節(jié)點。因此,傳統(tǒng)方法如將問題建模成旅行商問題(the Travelling Salesman Problem,TSP),設(shè)計一條最短路徑并沿該路徑依次訪問所有設(shè)備的方法已不再適用[15–19]。Kaul等人[20]基于一個簡單的排隊論模型證明了最小化平均AoI的源節(jié)點采樣速率與最大化吞吐量或最大化上行速率的最佳采樣速率不同,這進(jìn)一步證明文獻(xiàn)[6–11]中提出的基于吞吐量等指標(biāo)的路徑規(guī)劃算法不再適用于優(yōu)化AoI的場景。同時,地面節(jié)點采樣模式是不確定甚至未知的,比如溫度傳感器用于溫度監(jiān)測時會按照固定的采樣頻率采集溫度信息,而用于火災(zāi)報警時,只有在溫度高于設(shè)定的閾值時才會采集信息[21]。因此,無人機(jī)的路徑規(guī)劃應(yīng)具備在線自動規(guī)劃,以適應(yīng)不同采樣模式的能力。強(qiáng)化學(xué)習(xí)作為一種與環(huán)境交互并根據(jù)當(dāng)前狀態(tài)選擇最優(yōu)動作的方法,在解決此類問題上有天然的優(yōu)越性。Zhou等人[21]在地面節(jié)點采樣模式未知的情況下,使用深度強(qiáng)化學(xué)習(xí)提出了基于AoI的路徑規(guī)劃算法(AoI-based Trajectory Planning, ATP)最小化無人機(jī)收集信息的平均AoI。ATP算法將無人機(jī)飛行過程劃分為多個相同長度的時隙,根據(jù)當(dāng)前狀態(tài)動態(tài)地決策下個時隙的飛行速度和方向。然而,其時隙設(shè)置約為1 s,即無人機(jī)需每隔1 s進(jìn)行一次轉(zhuǎn)向,這從能量消耗的角度來看是不合適的[6,22]。同時,其只考慮了位置對稱的4個地面節(jié)點,在地面節(jié)點數(shù)增加且位置隨機(jī)分布時的性能可能得不到保證。
本文針對現(xiàn)有無人機(jī)輔助物聯(lián)網(wǎng)中路徑規(guī)劃存在的不足,研究無人機(jī)信息采集場景中的路徑規(guī)劃問題。由于物聯(lián)網(wǎng)中地面節(jié)點的采樣模式未知,傳統(tǒng)路徑規(guī)劃方法不再適用。因此,本文首先通過把無人機(jī)信息收集過程建模成馬爾可夫過程(Markov Decision Processes, MDP),將路徑規(guī)劃問題轉(zhuǎn)化為序列決策問題,即無人機(jī)根據(jù)當(dāng)前狀態(tài)決策下一個前往采集信息的節(jié)點。這樣建模的好處為:無人機(jī)僅需從一個節(jié)點沿直線前往另一個節(jié)點后,才需一次轉(zhuǎn)向前往下一個節(jié)點,可減少無人機(jī)的能量消耗。其次,本文提出基于深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)框架[23]的路徑規(guī)劃算法。該算法將平均AoI和最大AoI的降低作為獎勵項,無人機(jī)通過優(yōu)化決策來降低平均AoI和最大AoI,同時保障收集信息的時效性和服務(wù)各節(jié)點的公平性。與傳統(tǒng)方法相比,DQN更關(guān)注長期收益(獎勵累加和)最大化,即如何使無人機(jī)整個飛行期間內(nèi)收集的信息平均AoI最低。本文通過仿真驗證本算法無人機(jī)收集信息的平均AoI,并與隨機(jī)算法、基于最大AoI的貪心法、最短路徑算法以及ATP算法進(jìn)行了性能對比。
本文的結(jié)構(gòu)如下:第1節(jié)介紹了無人機(jī)輔助物聯(lián)網(wǎng)通信中,路徑規(guī)劃的研究現(xiàn)狀與當(dāng)前存在的問題;第2節(jié)提出了本文應(yīng)用場景的系統(tǒng)模型與無人機(jī)路徑規(guī)劃的問題構(gòu)造;第3節(jié)詳細(xì)介紹了基于深度Q網(wǎng)絡(luò)的飛行路徑規(guī)劃的算法;第4節(jié),通過仿真,對比和展示了本算法的性能提升;最后,第5節(jié)對全文進(jìn)行了總結(jié)。
本文的研究面向偏遠(yuǎn)山區(qū)、農(nóng)場、軍事戰(zhàn)場、災(zāi)害救援等場景。在一個大小為L×L的區(qū)域中,存在M個用來收集信息或監(jiān)控的地面節(jié)點,這些節(jié)點由于基礎(chǔ)通信設(shè)施匱乏或已損壞無法與中心控制節(jié)點進(jìn)行通信。本文派遣一架無人機(jī)以固定高度在該區(qū)域內(nèi)飛行,當(dāng)無人機(jī)經(jīng)過地面節(jié)點上空,會與地面節(jié)點之間存在高質(zhì)量的直視徑信道,建立連接、收集地面節(jié)點發(fā)送的數(shù)據(jù)包并傳回中心控制節(jié)點。當(dāng)無人機(jī)接收到一個地面節(jié)點發(fā)送的數(shù)據(jù)包時,立刻根據(jù)包內(nèi)的時間戳更新AoI狀態(tài)信息,并前往下一節(jié)點。
其中,//·//2為L2范數(shù),v為無人機(jī)勻速飛行速度。在時刻T0=0,無人機(jī)由第1個地面節(jié)點的位置d1飛入該區(qū)域,并根據(jù)當(dāng)前狀態(tài)決策下個要前往采集信息的節(jié)點。K={1, 2, ···, K}用來表示無人機(jī)在最大飛行時間Tmax內(nèi)做的決策集合,即訪問物聯(lián)網(wǎng)中節(jié)點的次數(shù)。Ik∈M為無人機(jī)第k次決策所選擇的前往采集信息的節(jié)點編號,其中k∈K。Tk和lk=[lk,x,lk,y]分別用來表示無人機(jī)執(zhí)行第k次決策后的時刻和位置。矩陣A ∈RK×M為記錄AoI變化的矩陣,Ak,m為無人機(jī)執(zhí)行第k次決策后,第m個節(jié)點上傳的信息的AoI。無人機(jī)執(zhí)行第k次決策前往Ik節(jié)點采集信息,并如式(2)更新AoI狀態(tài)信息。
本文希望降低無人機(jī)單次航行過程中收集信息的平均AoI,因此,無人機(jī)飛行路徑規(guī)劃目標(biāo)為
其中,M為節(jié)點個數(shù)、K為無人機(jī)在Tmax時間內(nèi)所作決策的次數(shù)。由于物聯(lián)網(wǎng)中地面節(jié)點的信息采樣模式,即tm未知,傳統(tǒng)的優(yōu)化方法將不再適用。因此本文將該問題重新建模為MDP,使用DQN在環(huán)境中學(xué)習(xí)得到一個可用于無人機(jī)路徑規(guī)劃的策略,即根據(jù)當(dāng)前狀態(tài)選擇下個前往收集信息節(jié)點的策略。相比與傳統(tǒng)方法,如貪心算法,即前往當(dāng)前AoI最大的節(jié)點,DQN更關(guān)注長期收益(獎勵累加和)最大化,即如何使無人機(jī)在整個飛行期間內(nèi)收集信息的平均AoI最低。
本節(jié)展示了將問題轉(zhuǎn)換為馬爾可夫過程的流程和本文提出的無人機(jī)路徑規(guī)劃算法。
MDP為序列決策的經(jīng)典形式化表達(dá),是一種通過交互式學(xué)習(xí)實現(xiàn)目標(biāo)的理論框架。本小節(jié)通過把無人機(jī)路徑規(guī)劃構(gòu)造為MDP,并將問題式(3)轉(zhuǎn)換為決策問題。MDP由一個4元組來表示,即M= (S,A,P,R)。 其中S為表示整個過程中所有狀態(tài)s的集合;A為 所有動作a的集合;P為狀態(tài)轉(zhuǎn)移模型,即無人機(jī)在狀態(tài)s下,執(zhí)行一次動作a后,轉(zhuǎn)移至下一個狀態(tài)s′的 模型;R為執(zhí)行動作可獲得獎勵的集合。無人機(jī)的狀態(tài)空間、動作空間和獎勵定義如下:
(1) 狀態(tài)設(shè)置:無人機(jī)在做第k次決策前,觀察到的狀態(tài)定義為
其中,Ak-1,:為矩陣A的第k–1行。該狀態(tài)是對當(dāng)前無人機(jī)的懸停位置,所有節(jié)點上傳信息AoI的聯(lián)合觀察。
(2) 動作設(shè)置:無人機(jī)根據(jù)狀態(tài)sk選擇ak=Ik,其中Ik為選擇的下個將要訪問的地面節(jié)點的標(biāo)號,ak∈A。執(zhí)行該動作后,無人機(jī)位置更新為
一個地區(qū)的環(huán)境容量決定了在相應(yīng)的旅游資源中能夠承受的游客量,超過了環(huán)境容量的旅游發(fā)展,則會導(dǎo)致各種突發(fā)狀況的發(fā)生,造成環(huán)境的嚴(yán)重破壞,降低地區(qū)的旅游資源價值,對此,需要旅游業(yè)在發(fā)展的過程中,能夠把握好旅游資源的環(huán)境容量問題,防止因為過度旅游造成的環(huán)境破壞和損失。
(3) 獎勵設(shè)置:無人機(jī)執(zhí)行第k次決策后,會如式(2)更新AoI狀態(tài)信息,獎勵為
是此時所有接收到信息的AoI的最大值和平均值之和的反函數(shù),其中λ為輔助DQN收斂的超參數(shù)。強(qiáng)化學(xué)習(xí)對獎勵的大小十分敏感,獎勵設(shè)置不合理會使DQN無法收斂或陷入局部最優(yōu),因此引入超參λ輔助算法收斂。在DQN學(xué)習(xí)的過程中,智能體(無人機(jī))會選擇未來的獎勵加權(quán)和的期望值最大的動作,即每次執(zhí)行完決策的動作后,地面節(jié)點上傳信息的AoI的平均值和最大值越大,所得到的獎勵也就越小。因此無人機(jī)會通過不斷優(yōu)化決策ak來降低平均AoI。將AoI最大值引入獎勵項可以使無人機(jī)在降低平均AoI的同時,防止來自某一個地面節(jié)點的信息AoI過高,以保證服務(wù)各地面節(jié)點的公平性。
本文針對無人機(jī)輔助物聯(lián)網(wǎng)的應(yīng)用場景,提出一種基于深度Q網(wǎng)絡(luò)框架的無人機(jī)路徑規(guī)劃算法,來保證無人機(jī)收集數(shù)據(jù)的時效性。本算法中,無人機(jī)通過DQN來找出最優(yōu)的策略,即對于每一個狀態(tài)sk,找出使未來獎勵加權(quán)期望值R最大的動作,獎勵加權(quán)期望值R表達(dá)式為
其中,γ為獎勵打折率。本文使用π(a|s)=Pr(a=ak|s=sk)表示無人機(jī)選擇動作的策略。狀態(tài)價值函數(shù)Vπ(s)為從當(dāng)前狀態(tài)s開始,無人機(jī)按照策略π選取動作所獲得的加權(quán)獎勵的期望值,用來衡量策略π的好壞,如
其中,s′表示下一個狀態(tài),P r(s′,r|s,a)為狀態(tài)轉(zhuǎn)移模型。由狀態(tài)價值函數(shù)Vπ(s)可寫出動作-狀態(tài)價值函數(shù)Qπ(s,a),如
為無人機(jī)在當(dāng)前狀態(tài)s下,執(zhí)行動作a,然后按照策略π前進(jìn)所獲得的回報的概率期望值。根據(jù)當(dāng)前狀態(tài)選擇最優(yōu)的動作a?=arg maxaQπ(s,a)得出。在按上述方法求解最優(yōu)動作時,需用的狀態(tài)轉(zhuǎn)移模型P,然而,在本場景中,狀態(tài)轉(zhuǎn)移模型P未知,需按照迭代的方式進(jìn)行Qπ(s,a)的估計,迭代公式為
其中,α為學(xué)習(xí)速率。同時,由于本文場景的狀態(tài)空間和動作空間巨大,傳統(tǒng)的建立Q表記錄每個狀態(tài)對應(yīng)動作的Q值的方法不再適用,因此本文依據(jù)DQN框架,使用神經(jīng)網(wǎng)絡(luò)擬合狀態(tài)價值函數(shù)Qπ(s,a)。神經(jīng)網(wǎng)絡(luò)的輸入為狀態(tài)信息s和 動作a,輸出為該動作的Q值。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成以后,只需存儲神經(jīng)網(wǎng)絡(luò)的參數(shù)即可,根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出選擇Q值最大的動作,可節(jié)約大量存儲空間。
本文提出的基于DQN的路徑規(guī)劃算法框圖如圖1所示。算法具體描述為:首先創(chuàng)建兩個結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò),現(xiàn)實網(wǎng)絡(luò)Qr和目標(biāo)網(wǎng)絡(luò)Qt。兩個網(wǎng)絡(luò)結(jié)構(gòu)相同,均包含1個輸入層,兩個分別含有M+ 2和32個神經(jīng)元的全連接層,以及1個輸出層。其中,每個全連接層后加入ReLU激活函數(shù)層。首先,隨機(jī)初始化Qr的參數(shù)θr,并令Qt的參數(shù)θr=θt。無人機(jī)根據(jù)當(dāng)前觀察到的狀態(tài)s, 以ε的概率隨機(jī)選取動作(ε會隨著遞減因子μ經(jīng)過一定步長以后遞減至0),否則選取由Qr計算出的Q值最大的動作。無人機(jī)執(zhí)行動作以后,觀察下一個狀態(tài)s′和獎勵r,并將整個決策過程(s,a,r,s′)存儲在經(jīng)驗池D中,當(dāng)無人機(jī)達(dá)到終止?fàn)顟B(tài)則開始下一個回合。當(dāng)經(jīng)驗池存儲滿以后,無人機(jī)每做一次決策,會從經(jīng)驗池中隨機(jī)抽取|B|個 樣本組成訓(xùn)練集B用于更新網(wǎng)絡(luò)的參數(shù)。更新方式為最小化貝爾曼誤差函數(shù),
其中,y為目標(biāo)網(wǎng)絡(luò)Qt對現(xiàn)實網(wǎng)絡(luò)Qr的估計。本文使用隨機(jī)梯度下降的方式,即以θ ←θ ?α?θL(θ)形式進(jìn)行參數(shù)更新,其中α為學(xué)習(xí)速率,每隔固定步長w后 ,令θr=θt。圖1展示了本文提出的基于DQN的無人機(jī)路徑規(guī)劃算法完整流程。表1為基于DQN的無人機(jī)路徑規(guī)劃算法。
表1 基于DQN的無人機(jī)路徑規(guī)劃算法
圖1 DQN算法框圖
本節(jié)通過仿真驗證了基于DQN的無人機(jī)路徑規(guī)劃算法的性能,并與其他算法進(jìn)行了對比。本文共設(shè)置兩種仿真場景:第1種為所有傳感器均以相同采樣間隔進(jìn)行采樣,如溫度傳感器用于溫度監(jiān)測時,會以固定的采樣頻率采集溫度信息;第2種為所有傳感器以不同的采樣間隔進(jìn)行采樣,如溫度傳感器用于火災(zāi)預(yù)警時,只有在溫度高于設(shè)定的閾值時才會采集信息[21,24]。每個仿真場景均經(jīng)過100次蒙特卡羅模擬驗證DQN算法的魯棒性。物聯(lián)網(wǎng)網(wǎng)絡(luò)參數(shù)設(shè)置為:地面節(jié)點個數(shù)為M=15,區(qū)域長度為L=200 m,無人機(jī)飛行速度為v=30 m/s,最大航行時間為Tmax=3600 s。在仿真場景1中:每次蒙特卡羅模擬時,所有地面節(jié)點均會隨機(jī)賦予一個新的地理位置坐標(biāo)dm=[xm, ym],其中,0≤xm, ym≤L,采樣間隔均設(shè)置為10 s。在仿真場景2中:每次蒙特卡羅模擬時,所有地面節(jié)點會隨機(jī)賦予一個新的地理位置坐標(biāo)和新的采樣間隔tm,其中0≤tm≤15,每個傳感器采樣間隔均不相同。算法參數(shù)選擇DQN原論文中推薦的參數(shù),具體設(shè)置如表2所示[23]。
表2 DQN算法參數(shù)
本文選取無人機(jī)一個飛行周期內(nèi)的所有地面節(jié)點的平均AoI作為衡量不同算法性能的指標(biāo)。在仿真實驗中,本文將DQN算法與另外4種算法在兩種仿真場景下進(jìn)行了對比。第1種為隨機(jī)算法,即隨機(jī)選取動作,隨機(jī)算法被廣泛用于作為基準(zhǔn)算法,用來評估目標(biāo)算法性能是否有提升。第2種為基于最大AoI的貪心法,即無人機(jī)前往當(dāng)前時刻AoI最大的地面節(jié)點采集信息,貪心法復(fù)雜度較低,但在大多數(shù)情況下僅略優(yōu)于隨機(jī)算法。第3種為基于最短路徑的算法,即無人機(jī)沿著一條包含所有節(jié)點的最短閉合路徑飛行,循環(huán)往復(fù),直到最大飛行時間(因該算法為確定性算法,其AoI不隨訓(xùn)練回合變化),本文與該算法對比以證明基于最短路徑的算法在本文場景中已不適用。最后一種對比算法為文獻(xiàn)[21]中提出的ATP算法。
圖2(a)和圖2(b)分別展示了DQN算法與另外4種算法在兩種仿真場景中的對比結(jié)果,其中橫軸表示訓(xùn)練回合(無人機(jī)的一個飛行周期),縱軸表示該訓(xùn)練回合內(nèi)的地面節(jié)點平均AoI??梢钥吹?,經(jīng)過訓(xùn)練,DQN算法中地面節(jié)點每個回合內(nèi)的平均AoI中遠(yuǎn)低于隨機(jī)算法、貪心算法和最短路徑算法,說明基于深度強(qiáng)化學(xué)習(xí)的、啟發(fā)式無人機(jī)路徑規(guī)劃算法在本文仿真場景中更加適用。同時,DQN算法的性能略優(yōu)于ATP算法,這種優(yōu)勢來源于:ATP算法為基于價值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,但其在對無人機(jī)航行過程進(jìn)行建模時設(shè)計的動作空間為連續(xù)空間,這使得其算法復(fù)雜度異常之高。具體解釋可觀察本文算法的第(5)步,
圖2 不同算法在兩種仿真場景下的性能對比
其中,Qr(s,a;θr)為對應(yīng)的深度網(wǎng)絡(luò),ATP算法設(shè)計的無人機(jī)動作空間為連續(xù)空間,即動作a的取值為一個連續(xù)空間,這使得求解式(12)的復(fù)雜度過高,同時在訓(xùn)練過程中無人機(jī)每走一步需求解一次式(12),使得整個算法的復(fù)雜度異常之高,進(jìn)而難以進(jìn)行超參數(shù)的調(diào)優(yōu)。本文把無人機(jī)的動作空間設(shè)計為離散空間,如上文MDP構(gòu)造中動作設(shè)置所示,可選動作的個數(shù)為節(jié)點的個數(shù),大大降低了求解式(12)的復(fù)雜度,進(jìn)而降低了整個算法的復(fù)雜度。
表3列舉了無人機(jī)在飛行過程中地面節(jié)點的平均AoI。本文選取DQN算法訓(xùn)練穩(wěn)定后所有回合的平均AoI的均值評價DQN算法的性能。經(jīng)過訓(xùn)練,DQN算法中地面節(jié)點在兩個仿真場景下的平均AoI分別可降到7.7 s和8.8 s,說明本文提出的基于DQN的路徑規(guī)劃算法在地面節(jié)點采樣模式未知的情況下可以有效降低地面節(jié)點的平均AoI。同時,因仿真場景2中的隨機(jī)性更大,DQN算法在仿真場景中1中性能略優(yōu)于仿真場景2。與隨機(jī)算法、貪心算法、最短路徑算法和ATP算法相比,在仿真場景1中,DQN算法把平均AoI分別降低了81.9%,67.2%, 56.7%和39.2%;在仿真場景2中,DQN算法把平均AoI分別降低了80.5%, 68.1%, 54.4%和38.9%。
表3 不同算法的AoI性能對比(s)
圖3(a)和圖3(b)展示了地面各個節(jié)點在兩種仿真場景中不同算法下的平均AoI??梢钥闯觯疚奶岢龅幕贒QN的路徑規(guī)劃算法不僅性能提升顯著,并且不同節(jié)點之間的平均AoI差異較小。因為該算法在設(shè)計獎勵項時將當(dāng)前時刻的地面節(jié)點中的最大AoI也考慮進(jìn)去,作為懲罰項,因此本文算法可有效保證無人機(jī)服務(wù)各節(jié)點之間的公平性。
圖3 不同地面節(jié)點的平均AoI對比
同時,因仿真環(huán)境2更具有一般性,本文實驗研究了在仿真環(huán)境2中不同參數(shù)對基于DQN的無人機(jī)路徑規(guī)劃算法性能的影響。圖4(a)展示了無人機(jī)速度為30 m/s時,地面節(jié)點個數(shù)對DQN算法的影響。同時,本文選取了DQN算法在節(jié)點個數(shù)分別為5, 10, 15, 20時的訓(xùn)練曲線展示在圖4(b)中,其對應(yīng)的地面節(jié)點的平均AoI分別為3.7 s, 5.9 s, 8.8 s,15.3 s??梢钥吹剑S著節(jié)點個數(shù)的增加,地面節(jié)點的平均AoI也在增加,且增加的越來越多。當(dāng)節(jié)點數(shù)過多時,由于可選擇動作的增加,算法的穩(wěn)定性也隨之降低,如圖4(b)所示,節(jié)點個數(shù)為20的訓(xùn)練曲線波動明顯大于節(jié)點個數(shù)為5的訓(xùn)練曲線。
圖4 節(jié)點個數(shù)對DQN算法性能的影響
圖5(a)展示了無人機(jī)飛行速度對地面節(jié)點平均AoI的影響。圖5(b)展示了DQN算法在M=15時,無人機(jī)飛行速度分別為30 m/s, 25 m/s, 20 m/s,15 m/s時的訓(xùn)練曲線,其對應(yīng)的地面節(jié)點的AoI分別為8.8 s, 11.9 s, 14.1 s, 17.7 s??梢钥吹剑S著無人機(jī)飛行速度的增加,地面節(jié)點的平均AoI也在降低,并且兩者近似呈線性關(guān)系,例如當(dāng)無人機(jī)飛行速度降低一半時(如從30 m/s降到15 m/s),地面節(jié)點的AoI升高了約1倍(從8.8 s升至17.7 s)。
圖5 無人機(jī)飛行速度對DQN算法性能的影響
本節(jié)展示了DQN算法在無人機(jī)輔助物聯(lián)網(wǎng)收集數(shù)據(jù)中保障數(shù)據(jù)實時性的性能,并分別與隨機(jī)算法、貪心算法、最短路徑算法和ATP算法在無人機(jī)單次航行周期內(nèi)收集數(shù)據(jù)的平均AoI的對比,結(jié)果顯示,本文提出的DQN算法不僅能有效降低收集數(shù)據(jù)的AoI,并能有效保證無人機(jī)服務(wù)各地面節(jié)點的公平性。
隨著無人機(jī)技術(shù)的快速發(fā)展,將無人機(jī)應(yīng)用到物聯(lián)網(wǎng)中輔助收集數(shù)據(jù)擴(kuò)展了物聯(lián)網(wǎng)的應(yīng)用范圍,實現(xiàn)了在通信基礎(chǔ)設(shè)施匱乏或損壞場景中的通信。本文針對現(xiàn)有路徑規(guī)劃算法無法保證收集數(shù)據(jù)的實時性這一問題,提出一種基于DQN的無人機(jī)路徑規(guī)劃算法來收集地面節(jié)點產(chǎn)生的信息。該算法符合無人機(jī)的飛行模式,可以實現(xiàn)最小化無人機(jī)收集信息的平均AoI,并將最大AoI的降低引入DQN算法中的獎勵項,可有效保證無人機(jī)服務(wù)地面節(jié)點的公平性。仿真結(jié)果表明,經(jīng)與隨機(jī)算法、貪心算法、最短路徑算法和ATP算法對比,DQN算法把平均AoI分別降低了約81%, 67%, 56%和39%,性能提升顯著,有效保證了無人機(jī)數(shù)據(jù)搜集的時效性。