• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      無人機輔助無蜂窩大規(guī)模MIMO中的空地協(xié)同調(diào)度

      2022-09-03 03:23:20鄧丹昊王朝煒江帆王衛(wèi)東
      電信科學(xué) 2022年8期
      關(guān)鍵詞:蜂窩軌跡狀態(tài)

      鄧丹昊,王朝煒,江帆,王衛(wèi)東

      (1.北京郵電大學(xué)電子工程學(xué)院,北京 100876;2.西安郵電大學(xué)通信與信息工程學(xué)院,陜西 西安 710121)

      0 引言

      大規(guī)模多輸入多輸出(multiple-input multiple-output,MIMO)是 6G 的核心技術(shù)之一,具有大量天線的基站為占用相同時頻資源的多個用戶提供服務(wù),進一步提高了頻譜效率、能量效率以及可靠性[1-3]。根據(jù)天線陣列的部署情況,可以將大規(guī)模 MIMO系統(tǒng)定義為集中式或分布式。在分布式大規(guī)模 MIMO系統(tǒng)中,天線陣列被多個不同位置的接入點(access point,AP)所取代,這些接入點自由分布在整個通信區(qū)域內(nèi)。因此,分布式系統(tǒng)可以利用空間多樣性對抗陰影衰落,與集中式系統(tǒng)相比具有更高的覆蓋率。最近,文獻[4]提出了一種新的分布式系統(tǒng):無蜂窩大規(guī)模MIMO。該系統(tǒng)沒有小區(qū)和小區(qū)邊緣的概念,而是由一組分布式AP通過時分雙工模式,協(xié)同地服務(wù)于覆蓋范圍內(nèi)的所有活動用戶。AP接收和傳輸?shù)男盘栍芍醒胩幚砥鳎╟entral processing unit,CPU)采集、轉(zhuǎn)發(fā)與處理。無蜂窩系統(tǒng)可以緩解小區(qū)間干擾對傳統(tǒng)架構(gòu)中用戶的影響[5],從而提高系統(tǒng)性能。但是無蜂窩大規(guī)模MIMO也帶來了嚴重的多用戶干擾[6-7]、不完美全局信道狀態(tài)信息[8]、復(fù)雜的資源分配[8]等挑戰(zhàn)。例如,針對地面高速移動的用戶,無蜂窩大規(guī)模 MIMO需要頻繁地分配導(dǎo)頻資源檢測當前的信道狀態(tài)信息,因此會造成大量的資源消耗以及信息時延。

      不需要部署固定基礎(chǔ)設(shè)施就可以為地面用戶提供通信服務(wù),無人機輔助通信技術(shù)被認為是一種很有發(fā)展前景的技術(shù)[9-11],從而廣泛應(yīng)用于覆蓋增強、無線中繼和信息傳播等方面[12-15]。盡管學(xué)術(shù)界對此高度重視,但無人機輔助通信仍有許多問題亟待解決,如無人機在高動態(tài)環(huán)境下的軌跡部署等。針對用戶高速移動場景,基于用戶軌跡預(yù)測,提前設(shè)計無人機軌跡,可以減少無人機的響應(yīng)時間,從而為用戶提供更高質(zhì)量的服務(wù)[16]。文獻[16]采用回聲狀態(tài)網(wǎng)絡(luò)(echo state network,ESN)預(yù)測用戶位置,提出了一種多智能體Q-learning算法設(shè)計無人機軌跡。文獻[17]提出了一種基于異步并行計算的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法對無人機軌跡進行優(yōu)化。文獻[18]構(gòu)建了短期精確預(yù)測與長期粗預(yù)測相結(jié)合的框架,并采用滾動優(yōu)化方法獲取無人機航跡。

      本文針對無蜂窩大規(guī)模MIMO網(wǎng)絡(luò),首先區(qū)分網(wǎng)絡(luò)中的低速和高速用戶,分別構(gòu)建無蜂窩通信架構(gòu)和無人機輔助通信架構(gòu),兩種架構(gòu)以時分復(fù)用的方式交替進行通信服務(wù)。在無人機輔助通信架構(gòu)中,本文將無人機軌跡設(shè)計建模為序列決策問題,并進一步轉(zhuǎn)化為馬爾可夫決策過程(Markov decision process,MDP),基于深度強化學(xué)習(deep reinforcement learning,DRL)算法,提出一種無人機軌跡預(yù)測及資源管理方案。

      1 系統(tǒng)模型

      本文討論的無人機輔助無蜂窩大規(guī)模 MIMO網(wǎng)絡(luò)如圖1所示,系統(tǒng)包含M個AP、K個用戶、N架無人機,以及一個CPU。每個AP配置L根天線,而用戶和無人機則配置單根天線。CPU通過不斷發(fā)送導(dǎo)頻信號檢測用戶的信道狀態(tài)信息,據(jù)此進行各類資源分配。由于地面用戶的高速移動會改變用戶與AP間的路徑損失,從而影響信道狀態(tài)信息,CPU需要頻繁地為高速用戶分配導(dǎo)頻資源。因此,K個用戶根據(jù)移動速率劃分為Kl個低速用戶和Kh個高速用戶,其中K=Kl+Kh。本文提出一種雙系統(tǒng)架構(gòu),其中由M個AP和CPU組成的無蜂窩系統(tǒng)服務(wù)Kl個低速用戶,由N架無人機組成的無人機輔助通信系統(tǒng)則服務(wù)Kh個高速用戶。兩系統(tǒng)通過時分復(fù)用模式交替進行通信服務(wù),同時 AP與無人機占用不同的頻段避免系統(tǒng)間干擾。

      圖1 無人機輔助無蜂窩大規(guī)模MIMO網(wǎng)絡(luò)

      1.1 無蜂窩大規(guī)模MIMO系統(tǒng)

      首先,CPU計算針對Kl個低速用戶的波束成形信號,并通過量化前傳鏈路進行信號壓縮。之后,CPU將壓縮后的信號轉(zhuǎn)發(fā)到每個AP。AP端的接收信號可以表示為:

      其中,wm,kl(t) ∈ CL×1表示用戶kl與APm間的波束成形矩陣,skl(t)表示用戶kl的下行期望信號,該信號滿足為APm受到的壓縮噪聲。各個 AP將所接收的信號通過無線鏈路轉(zhuǎn)發(fā)給所有的低速用戶,因此,用戶kl的接收信號可以表示為:

      其中,hm,kl(t)表示用戶kl與 APm間的信道狀態(tài)信息矩陣,nkl表示用戶kl受到的加性白高斯噪聲(additive white Gaussian noise,AWGN)。用戶kl的可達速率為:

      所有低速用戶的總和速率可以表示為:

      1.2 無人機輔助通信系統(tǒng)

      假設(shè)每個無人機通過時分復(fù)用服務(wù)不同的用戶,同時所有無人機共享相同的頻段。為簡單起見,無人機飛行時長T被劃分為I個時長相等的時隙點。在實際應(yīng)用中,空對地信道主要以視距(line of sight,LoS)鏈路為主。因此,無人機n與高速用戶kh之間的信道增益遵循自由空間路徑損失模型,可以表示為:

      其中,β0表示表示參考距離d=1 m時的信道功率增益,qn[i]表示無人機n在時隙i的笛卡爾坐標,ukh[i]則表示用戶kh在時隙i的笛卡爾坐標。當無人機n服務(wù)用戶kh時,該用戶的信干噪比(signal to interference plus noise ratio,SINR)為:

      其中,pn[i]為無人機n在時隙i的發(fā)送功率,為高速用戶kh受到的AWGN功率。因此,用戶kh在時隙i的可達速率為:

      為了有效地提升系統(tǒng)內(nèi) AP和無人機的協(xié)作性能,本文的目標是構(gòu)建一個基于無人機軌跡設(shè)計和用戶調(diào)度的總和速率最大化問題,該問題的數(shù)學(xué)表達式為:

      2 基于 DRQN的無人機軌跡設(shè)計和用戶調(diào)度方案

      無人機軌跡設(shè)計問題屬于序列決策問題,該類問題通常需要聯(lián)合求解數(shù)千個優(yōu)化變量,且變量間存在極強的相關(guān)性[19]。因此,本文將問題(10)建模為MDP并利用DRL算法進行求解。

      2.1 MDP模型

      MDP由4個部分組成,分別為狀態(tài)s、動作a、獎勵r和動作選擇策略π。具體來說,智能體從系統(tǒng)中獲得當前的狀態(tài)s,并根據(jù)動作選擇策略π決定當前動作a。在智能體執(zhí)行動作a后,系統(tǒng)會轉(zhuǎn)變?yōu)橄乱粻顟B(tài)s′,并通過反饋獎勵r體現(xiàn)該狀態(tài)-動作對的可行性和最優(yōu)性。本文將地面CPU作為智能體來確定無人機的軌跡和用戶調(diào)度。式(10)中的狀態(tài)、動作和獎勵分別如下。

      ? 狀態(tài):系統(tǒng)狀態(tài)包含所有影響高速用戶軌跡預(yù)測和優(yōu)化問題式(10)的變量。用戶軌跡預(yù)測與用戶當前位置、速度和加速度有關(guān),分別表示為、和,其中,速度和加速度可以由過去3個時隙的位置推導(dǎo)。此外,優(yōu)化問題式(10)還與無人機的當前位置qn[i]以及當前的時隙i相關(guān)。

      ? 動作:無人機軌跡設(shè)計和用戶調(diào)度方案的動作包括兩個部分。假設(shè)無人機在每個時隙內(nèi)以固定的速度飛行,其下一時刻位置僅取決于當前的飛行方向dkl(i);同時,用戶調(diào)度可以用αn,kh[i]表示。

      ? 獎勵:獎勵函數(shù)的目標是在滿足約束(8)和約束(9)的前提下,最大化系統(tǒng)總和速率。因此,獎勵函數(shù)被定義為:

      其中,ξr(i)和ξc(i)為0-1指示器,一方面,本文設(shè)置負獎勵懲罰違反式(8)、式(9)的任何動作,并利用ξc(i)=1輔助判別;另一方面,當且僅當所有無人機到達目的地時,即ξr(i)=1時,當前動作被賦予正向獎勵。值得注意的是,無人機的軌跡設(shè)計需要在下一時刻得到反饋,因此狀態(tài)-動作對與獎勵值存在時間上的不對應(yīng)性。同時,由于用戶處于高速移動狀態(tài),當前時刻的用戶位置與下一時刻存在較大差異,需要根據(jù)下一時刻的用戶位置與無人機位置進行計算。

      2.2 DRQN算法

      DRL的核心目標是通過不斷與環(huán)境交互,學(xué)習到最優(yōu)的動作選擇策略π*。深度Q網(wǎng)絡(luò)(deepQ-network,DQN)算法采用Q函數(shù)Qπ(s,a)表示在狀態(tài)s處采取動作a的潛在價值:

      其中,γ∈ ( 0,1]為折扣因子,R(s,a)是在狀態(tài)s處采取動作a的即時獎勵,s′和a′分別為下一時刻的狀態(tài)和動作。理論上,最優(yōu)的動作a*應(yīng)該具有最大的潛在價值。因此,可以根據(jù)Q函數(shù)尋找當前的最優(yōu)動作:

      DQN通常采用兩個深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)搭建Q函數(shù)。其中,第一個DNN承擔Q函數(shù)的作用,被稱為主網(wǎng)絡(luò),網(wǎng)絡(luò)輸入為當前的狀態(tài)s,輸出為所有動作的Q值Q(s,a;θ)。第二個DNN用于更新主網(wǎng)絡(luò)權(quán)重θ,被稱為目標網(wǎng)絡(luò),且目標網(wǎng)絡(luò)的架構(gòu)與主網(wǎng)絡(luò)相同。DQN采用經(jīng)驗回放機制更新權(quán)重。具體來說,智能體將所經(jīng)歷的樣本(s,a,r,s′)存儲到經(jīng)驗池中,當存儲樣本達到最小容量時,智能體隨機采樣小批量的樣本計算目標Q值:

      其中,(sj,aj,rj,sj+1)為第j個采樣樣本,θ′表示目標網(wǎng)絡(luò)的權(quán)重,Q′(s,a;θ′)為目標網(wǎng)絡(luò)的輸出Q值。本文利用隨機梯度下降(stochastic gradient descent,SGD)法更新主網(wǎng)絡(luò)的權(quán)重θ。更新的目標是使主網(wǎng)絡(luò)輸出Q值與目標Q值之間的時序差分誤差(temporal-difference error,TD error)最小,因此損失函數(shù)被定義為:

      其中,B為采樣的樣本總數(shù)。損失函數(shù)式(15)相對于權(quán)重θ的梯度為:

      對于目標網(wǎng)絡(luò),其權(quán)重更新不需要獨立的損失函數(shù)與梯度,而是每Nt步更新為主網(wǎng)絡(luò)的權(quán)重θ→θ′。

      為了同步實現(xiàn)高速用戶的軌跡預(yù)測和資源優(yōu)化,本文在DQN的輸入層和全連接層之間插入了一個長短期記憶(long short-term memory,LSTM)層,將DQN發(fā)展為深度循環(huán)Q網(wǎng)絡(luò)(deep recurrentQ-network,DRQN)。其中,LSTM 層負責用戶軌跡預(yù)測,而全連接層根據(jù)輸入狀態(tài)和預(yù)測結(jié)果決定當前最優(yōu)動作。

      具體的算法流程如下。

      步驟1初始化主網(wǎng)絡(luò)、目標網(wǎng)絡(luò)、記憶池、高速用戶位置和移動方式、低速用戶位置和移動方式。

      步驟2初始化無人機的起始位置并生成初始狀態(tài)s(0)。

      步驟3根據(jù)ε-greedy策略選擇當前動作a(i)。

      步驟4執(zhí)行動作a(i),獲得當前獎勵r(i)和下一狀態(tài)s(i+1)。

      步驟5計算目標Q值,更新主網(wǎng)絡(luò)和目標網(wǎng)絡(luò)。

      步驟6重復(fù)步驟3~步驟5,直到無人機抵達目的地。

      步驟7重復(fù)步驟2~步驟6,直到訓(xùn)練步數(shù)滿足要求。

      3 仿真結(jié)果與分析

      3.1 仿真參數(shù)

      在仿真中,系統(tǒng)為1 km×1 km的正方形區(qū)域,包含100個AP、80個低速用戶、5~10個高速用戶、2架無人機和一個CPU。無人機的飛行高度為100 m,最大飛行速度為20 m/s,最大發(fā)送功率為30 dBm。高速用戶的最大移動速度為10 m/s。AP的最大發(fā)送功率為30 dBm。無蜂窩大規(guī)模MIMO系統(tǒng)進行通信服務(wù)時,AP為其覆蓋范圍內(nèi)的所有用戶平均分配、發(fā)送功率。AP與低速用戶之間的信道狀態(tài)信息綜合考慮路徑損失、陰影衰落等因素,具體的參數(shù)參考文獻[20]。無人機輔助通信系統(tǒng)與無蜂窩大規(guī)模 MIMO的通信時間占比為1:1。DRQN算法采用4層網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習率為0.000 5,折扣因子設(shè)定為0.9,經(jīng)過600個周期的訓(xùn)練獲得最終的動作選擇策略。

      3.2 仿真結(jié)果

      本文所提基于DRQN的無人機軌跡設(shè)計和用戶調(diào)度方案的收斂性能如圖2所示。具體而言,DQRN的收斂性由損失函數(shù)和系統(tǒng)性能兩方面決定。損失函數(shù)可以表示DRQN內(nèi)部神經(jīng)網(wǎng)絡(luò)的訓(xùn)練程度。理論上,損失函數(shù)會隨著訓(xùn)練的不斷進行而下降,最終趨于平穩(wěn);然而僅利用損失函數(shù)表征方案的收斂性是不充分的,這是因為神經(jīng)網(wǎng)絡(luò)的收斂并不能保證所提方案收斂到最優(yōu)策略,依舊存在方案收斂到局部最優(yōu)的可能性。系統(tǒng)性能則表示DRQN方案是否有穩(wěn)定的輸出結(jié)果。隨著訓(xùn)練的進行,系統(tǒng)性能會不斷上升直至穩(wěn)定。同樣,由于無法確定是否有更優(yōu)性能,方案的收斂性不能僅利用系統(tǒng)性能曲線表征,因此,本文同時考慮損失函數(shù)和系統(tǒng)性能,利用兩者的訓(xùn)練曲線說明方案的收斂性??梢钥闯觯瑑蓷l曲線在經(jīng)歷400個周期訓(xùn)練后基本穩(wěn)定,可以認為方案已經(jīng)收斂。

      圖2 基于DRQN的無人機軌跡設(shè)計和用戶調(diào)度方案的收斂性能

      不同的高速移動用戶數(shù)量下,不同方案的復(fù)雜度對比如圖3所示。本文采用平均運行時間表征方案復(fù)雜度。仿真結(jié)果顯示,所提出的 DRQN方案與其他方案相比,復(fù)雜度顯著降低。這是因為DRQN中的神經(jīng)網(wǎng)絡(luò)能夠有效地處理狀態(tài)-動作空間。對于Q-learning方案和貪婪方案,隨著用戶數(shù)的提升,兩種方案需要面對的狀態(tài)、動作數(shù)均呈指數(shù)增長。相應(yīng)地,兩種方案需要更多的時間遍歷所有可能的動作,因此方案復(fù)雜度以較快的速度上升。為了得到與DRQN方案相似的性能,DQN方案的算法主體采用4層網(wǎng)絡(luò),且網(wǎng)絡(luò)各層均為全連接層;然而,全連接層數(shù)的增加以及神經(jīng)元數(shù)的增長不僅會帶來性能的提升,也會使得方案的復(fù)雜度升高。

      圖3 不同的高速移動用戶數(shù)量下,不同方案的復(fù)雜度對比

      不同高速用戶數(shù)下的系統(tǒng)總和頻譜利用率對比如圖4所示,所提DRQN方案的性能略高于貪婪方案,且明顯優(yōu)于其他3種方案。隨著用戶數(shù)的增長,DRQN方案的優(yōu)勢也隨之增加。對于高速移動用戶,計算系統(tǒng)總和速率R所需要的用戶位置信息并不在系統(tǒng)狀態(tài)中,而是需要根據(jù)系統(tǒng)狀態(tài)進行預(yù)測。DRQN中的LSTM層能夠準確預(yù)測當前狀態(tài)s和下一狀態(tài)s′對應(yīng)的用戶位置,并將完整信息傳遞給相鄰的全連接層,從而促使方案獲得更佳的動作選擇策略。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)+DRL方案雖然能夠有效預(yù)測當前狀態(tài)s對應(yīng)的用戶位置,但是序列決策問題不僅需要當前的完整狀態(tài),還需要下一時刻的完整狀態(tài);也就是說,僅提供當前時刻的預(yù)測信息不足以支撐后續(xù)的DRL網(wǎng)絡(luò)進行準確預(yù)測,因此,該對比方案的性能相較所提方案有所降低。此外,DQN算法僅由全連接層構(gòu)成,無法預(yù)測高速用戶的移動軌跡,只能根據(jù)當前時刻的用戶位置信息進行動作選擇,因此會造成一定的性能降低。與圖3中的原因相同,Q-learning方案無法處理巨大的狀態(tài)-動作空間,有限的學(xué)習經(jīng)驗使得其性能顯著降低。

      圖4 不同高速用戶數(shù)下的系統(tǒng)總和頻譜利用率對比

      不同高速用戶軌跡數(shù)下的系統(tǒng)總和頻譜利用率如圖5所示。假設(shè)高速用戶沿著固定的軌跡移動,但每隔一段時間會更換移動軌跡。與圖4相似,所提DRQN方案性能略優(yōu)于貪婪方案。同時,隨著可選軌跡的增多,高速用戶的軌跡預(yù)測難度也不斷提升,使得RNN+DRL方案、DQN方案和Q-learning方案逐步失去自身的算法優(yōu)勢。

      4 結(jié)束語

      本文針對無人機輔助無蜂窩大規(guī)模MIMO網(wǎng)絡(luò),提出了一種雙系統(tǒng)架構(gòu),將用戶劃分為低速用戶和高速用戶,無蜂窩大規(guī)模MIMO系統(tǒng)服務(wù)低速用戶,無人機輔助通信系統(tǒng)服務(wù)高速用戶,針對系統(tǒng)總和速率最大化目標,構(gòu)建了基于高速用戶軌跡預(yù)測的無人機軌跡設(shè)計和用戶調(diào)度問題。本文進一步將問題轉(zhuǎn)化為MDP,并提出一種DRQN方案解決序列決策優(yōu)化問題,其中的 LSTM 層預(yù)測高速用戶移動軌跡,全連接層學(xué)習最優(yōu)動作選擇策略。仿真結(jié)果表明,所提DRQN方案相較于傳統(tǒng)的RNN+DRL方案、DQN方案、Q-learning方案和貪婪方案,具有顯著的性能提升。在今后的工作中,筆者將研究無人機在三維坐標下的飛行模式,通過精準的軌跡設(shè)計提升系統(tǒng)的通信能力。

      猜你喜歡
      蜂窩軌跡狀態(tài)
      蜂窩住宅
      軌跡
      軌跡
      蓄熱式爐用蜂窩體有了先進適用的標準
      四川冶金(2019年5期)2019-12-23 09:04:50
      狀態(tài)聯(lián)想
      軌跡
      生命的另一種狀態(tài)
      “蜂窩”住進輪胎里
      進化的軌跡(一)——進化,無盡的適應(yīng)
      中國三峽(2017年2期)2017-06-09 08:15:29
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      抚远县| 滨州市| 新泰市| 紫云| 台北县| 墨竹工卡县| 介休市| 云阳县| 新绛县| 阿坝县| 武安市| 沽源县| 密山市| 军事| 平顶山市| 砀山县| 招远市| 宁海县| 五寨县| 贵港市| 威远县| 桦甸市| 武清区| 屯门区| 浪卡子县| 修文县| 贡山| 红河县| 会昌县| 伊宁县| 青川县| 乌兰浩特市| 常宁市| 河池市| 陇南市| 定日县| 贵南县| 临邑县| 墨玉县| 大姚县| 江源县|