• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度強化學習在天基信息網(wǎng)絡中的應用
      ——現(xiàn)狀與前景

      2023-03-09 02:55:04唐斯琪潘志松胡谷雨李云波
      系統(tǒng)工程與電子技術 2023年3期
      關鍵詞:中繼決策衛(wèi)星

      唐斯琪, 潘志松,*, 胡谷雨, 吳 煬, 李云波

      (1. 陸軍工程大學指揮控制工程學院, 江蘇 南京 210007; 2. 北京信息通信技術研究中心, 北京 100036)

      0 引 言

      天基信息網(wǎng)絡(space information network,SIN)是全覆蓋、高速率、高可靠的未來6G網(wǎng)絡的重要組成部分。未來SIN的特點可歸納為[1]:① 網(wǎng)絡規(guī)模日趨龐大,包含大規(guī)模多層衛(wèi)星節(jié)點和異構終端;② 環(huán)境動態(tài)多變,信道條件、網(wǎng)絡拓撲和天基節(jié)點狀態(tài)等因素動態(tài)變化;③ 業(yè)務需求多樣。隨著天基物聯(lián)網(wǎng)的發(fā)展,SIN業(yè)務日益多樣化,這意味著業(yè)務需求、優(yōu)先級、用戶偏好的多樣化。

      上述特點給基于人工經(jīng)驗建模并通過優(yōu)化、博弈論或元啟發(fā)式方法求解的傳統(tǒng)SIN方法帶來如下挑戰(zhàn):① 傳統(tǒng)方法大多建立在準確已知模型的基礎上,但未來的SIN復雜異構,難以精確了解網(wǎng)絡細節(jié),確定性建模的誤差大;② 傳統(tǒng)方法需假設系統(tǒng)是靜態(tài)的,因此在動態(tài)環(huán)境中需不斷重復建模與優(yōu)化過程;③ 異構的節(jié)點、多樣的需求導致SIN中的優(yōu)化問題通常是復雜且非凸的,傳統(tǒng)方法往往需要迭代計算,代價較高且時效性較差。

      上述難點使研究者將目光投向數(shù)據(jù)驅動的深度強化學習(deep reinforcement learning,DRL)方法[2]。在SIN領域中應用DRL具有以下優(yōu)勢:① 不需已知準確定義的SIN模型,而是能通過與環(huán)境的交互優(yōu)化控制策略;② 不局限于靜態(tài)的某一時刻,而是能夠優(yōu)化序列決策的長期收益,更適合衛(wèi)星生命周期內的在線決策問題;③ 基于神經(jīng)網(wǎng)絡實現(xiàn)從環(huán)境特征到策略的映射,相比需迭代求解的優(yōu)化方法更具實時性;④ 可通過反饋感知環(huán)境變化,并隨之調整策略,更適合動態(tài)變化的SIN環(huán)境。

      由于具備以上優(yōu)勢,引入DRL方法已成為智能SIN的重要發(fā)展趨勢,具有廣闊研究前景。本文旨在對DRL在SIN中的研究現(xiàn)狀、應用思路和技術挑戰(zhàn)展開研究。首先梳理了應用于SIN領域的主流DRL方法,并回顧了DRL應用于資源分配、跳波束、計算卸載與緩存、路由、切換和網(wǎng)絡選擇領域的研究現(xiàn)狀,對現(xiàn)有研究工作介紹了其天基網(wǎng)絡場景、針對的問題和DRL方法的具體機制。在此基礎上,以星地網(wǎng)絡中繼選擇為例,說明DRL方法的設計思路,并通過仿真結果深入剖析現(xiàn)有基于DRL的方法對網(wǎng)絡性能的優(yōu)化效果與存在的問題。隨后,分析了DRL方法的局限性及將其應用于SIN領域所面臨的挑戰(zhàn)。最后,歸納總結了DRL領域目前的研究熱點,指出其可能解決的SIN應用中的難題,并討論了未來可能的研究方向,希望能為學者和工程師在SIN領域應用DRL方法提供研究思路。

      1 DRL方法

      本節(jié)梳理了SIN領域常用的DRL方法,并簡要介紹了其特點。SIN中常用的DRL方法及其分類如圖1所示。其中,深度Q網(wǎng)絡(deep Q network,DQN)是一種經(jīng)典的基于值函數(shù)的DRL方法,在SIN現(xiàn)有研究中應用最為廣泛。但其局限性在于僅支持離散的動作空間,無法處理功率控制等連續(xù)動作空間問題。深度確定性梯度(deep deterministic policy gradient, DDPG)算法是一種常見的基于策略梯度的DRL方法,其優(yōu)勢在于具備處理連續(xù)決策變量的能力,且針對SIN中的高維動作空間問題,可將高維離散動作轉化為連續(xù)變量,并利用DDPG方法進行決策。上述兩種常用的DRL方法都屬于集中式方法,而多智能體強化學習(multi-agent reinforcement learning,MARL),特別是多智能體深度強化學習(multi-agent deep reinforcement learning, MADRL),是一種分布式方法,可令大規(guī)模SIN的邊緣節(jié)點具備智能決策能力,避免集中式控制帶來的通信和時延代價。但此類方法收斂穩(wěn)定性相對較差,保證收斂效果的關鍵在于合理設計各智能體之間的通信和協(xié)作機制。

      圖1 SIN中常用的DRL方法分類Fig.1 Taxonomy of common DRL methods in SIN

      2 研究現(xiàn)狀

      本節(jié)首先介紹了DRL方法應用于SIN的整體框架,隨后從各類資源的優(yōu)化調度和網(wǎng)絡組織兩方面介紹了此領域的研究進展,具體分為資源分配、跳波束、計算卸載與緩存、路由選擇、衛(wèi)星切換和接入選擇。最后,總結了現(xiàn)有研究工作,并進一步歸納了SIN中DRL方法的設計思路。

      2.1 整體框架

      將DRL方法應用于解決SIN中的序列決策問題時,通常將待解決的問題建模為馬爾可夫決策過程(Markov decision process, MDP),其重點包含6個元素:智能體、環(huán)境、動作空間A、狀態(tài)空間S、即時收益r和策略π,如圖2所示。

      DRL方法的學習過程可簡要描述如下:在時間t,首先,智能體根據(jù)狀態(tài)空間S,觀察環(huán)境得到當前的狀態(tài)特征st,狀態(tài)空間S應包含此問題相關的信息,例如信道質量、衛(wèi)星節(jié)點狀態(tài)、用戶設備位置與傳輸需求,以及所需服務質量(quality of service, QoS)等。隨后,智能體從動作空間A中依據(jù)策略π將狀態(tài)特征st映射為動作at,得到資源分配、路由或切換問題的決策結果。最后,環(huán)境狀態(tài)st依據(jù)轉移概率p轉移至新狀態(tài)st+1,并將即時收益rt反饋給智能體,智能體利用經(jīng)驗{st,at,rt,st+1}訓練神經(jīng)網(wǎng)絡表征的策略π。

      圖2 基于DRL的SIN方法框架圖Fig.2 Framework of DRL-based SIN methods

      2.2 資源分配

      資源受限是包括衛(wèi)星網(wǎng)絡在內的無線通信網(wǎng)絡面臨的關鍵挑戰(zhàn)。優(yōu)化頻譜、功率等資源分配方案一直是SIN的研究熱點。DRL應用于資源分配領域,通常采用已分配資源、用戶需求、信道質量等信息構成狀態(tài)空間S,將可能的資源分配方案作為動作空間A,將吞吐量、能量利用率等優(yōu)化目標作為即時收益r,學習最優(yōu)分配策略為π。

      頻譜資源是衛(wèi)星網(wǎng)絡中最寶貴的資源之一。按照復用體制,頻譜資源分配可分為時分復用中的時隙分配和頻分復用中的信道分配。

      時隙分配在已有研究中通常被建模為整數(shù)規(guī)劃并轉化為裝包問題進行求解。文獻[3]指出,此類整數(shù)規(guī)劃求解思路難以在復雜動態(tài)環(huán)境中調整決策并優(yōu)化長期收益,因此提出一種基于DQN的多目標時隙分配方法。以頻譜效率、能量效率和用戶業(yè)務滿意度指數(shù)的加權作為即時收益r,提高了系統(tǒng)的綜合性能。但此方法僅能為用戶分配單個時隙,而難以進行多時隙聚合分配。

      針對頻分復用體制中的信道分配問題,文獻[4]采用已經(jīng)分配的信道與其對應地理位置為狀態(tài)s,將各個信道作為動作空間A,并通過求解Q網(wǎng)絡得到最優(yōu)策略π。文獻[4]指出,迭代的元啟發(fā)式資源分配算法[5]因計算復雜度高而難以保證實時性,且忽略了在線信道分配問題的序列性,因此提出了基于DQN的多波束地球靜止軌道(geostationary orbit, GEO)衛(wèi)星信道在線分配方法。在此基礎上,文獻[6]提出了低軌道(low earth orbit,LEO)衛(wèi)星物聯(lián)網(wǎng)場景下的信道資源分配方法。首先,提出了一種基于滑動塊的感知方法,以應對LEO星座的移動性;其次,針對LEO衛(wèi)星能量受限問題,提出了考慮能量利用率的信道分配方法,采用與文獻[4]類似的狀態(tài)表示方法和網(wǎng)絡結構,利用能量利用率改進DQN的即時收益r,將能耗降低了65%以上。但此方法并未考慮LEO衛(wèi)星切換對用戶信道分配方案的影響。

      不同于文獻[4,6]主要研究用戶的信道分配問題,文獻[7]關注各波束帶寬分配問題,考慮到多波束GEO衛(wèi)星的各個波束傳輸需求不均衡且存在動態(tài)變化的問題,提出了一種基于MARL的帶寬分配算法。將每個波束視為一個智能體,感知本波束的傳輸需求,并將其作為狀態(tài)s,并通過各智能體間的協(xié)作學習到各波束協(xié)同頻譜分配策略π。仿真實驗表明,此方法能使波束數(shù)據(jù)傳輸能力更符合動態(tài)流量需求,且時間復雜度更低。

      星上功率資源受限于衛(wèi)星太陽能電池板的容量,因此如何高效利用有限功率是SIN中的關鍵問題?;贒RL的功率分配方法往往通過感知鏈路狀態(tài)、干擾情況、用戶流量需求,為各波束和用戶確定恰當?shù)陌l(fā)送功率。文獻[8]利用DDPG方法感知各個波束緩沖區(qū)內的數(shù)據(jù)量,并將其作為狀態(tài)s,將發(fā)送功率作為動作a,在滿足用戶需求的條件下有效降低了功耗。然而,此方法的DRL動作空間與波束個數(shù)成正比,因此為保障DRL收斂,較適合于小規(guī)模波束的衛(wèi)星場景。文獻[9]比較了基于遺傳算法、模擬退火、粒子群、粒子群-遺傳混合方法和DRL的GEO衛(wèi)星動態(tài)功率分配方法在時間收斂性、連續(xù)可操作性、可擴展性和魯棒性等方面的性能。

      為解決衛(wèi)星的鏈路配置問題,通常將用戶流量需求和信道環(huán)境作為狀態(tài)空間S,將需配置的傳輸鏈路的通信參數(shù),包括調制方案、編碼速率、帶寬等,作為動作空間A。傳統(tǒng)方法通?;诮?jīng)驗規(guī)則或建模優(yōu)化得到固定配置,難以應對動態(tài)變化的復雜SIN環(huán)境。針對此問題,文獻[10]提出基于集成DQN的多目標鏈路資源配置認知模塊,將最大化吞吐量、最小化誤碼率和功耗、保持帶寬穩(wěn)定等多個優(yōu)化目標對應的指標加權作為即時收益r,優(yōu)化鏈路資源參數(shù)配置策略π,并進一步將此認知模塊部署于實際GEO衛(wèi)星進行測試,實測結果表明其有效提高了GEO衛(wèi)星系統(tǒng)在不同天氣狀態(tài)下的傳輸性能。

      綜上所述,基于DRL的資源分配方法可感知動態(tài)信道環(huán)境、可用資源和用戶流量需求,并收集這些信息作為狀態(tài)空間,利用空分復用降低同頻干擾,有效提高了頻譜和功率資源利用率。

      2.3 跳波束技術

      對時分復用體制的多波束衛(wèi)星,跳波束機制使其能夠根據(jù)空間分布不均勻的流量需求,在某一時間片點亮部分活躍波束,提供數(shù)據(jù)傳輸服務,如圖3所示。跳波束技術的關鍵是根據(jù)時變的流量動態(tài)調整,點亮波束集合。采用傳統(tǒng)方法求解跳波束問題多采用優(yōu)化或元啟發(fā)式方法,存在以下兩點不足:一是其解空間隨波束數(shù)量的增加急劇增加,易陷入局部最優(yōu);二是一旦流量分布發(fā)生變化,需重新建模并迭代求解,時效性差。

      衛(wèi)星運行過程中的跳波束決策是典型的動態(tài)環(huán)境中的序列決策問題,適合采用DRL求解。通常采用流量需求、信道質量作為決策依據(jù)的狀態(tài)s,將各個波束是否點亮作為動作a。

      圖3 衛(wèi)星跳波束效果圖Fig.3 Effect of satellite beam hopping

      文獻[11]利用DQN方法進行波束跳變決策,根據(jù)各波束緩沖區(qū)隊列長度和鏈路質量決定每一波束是否點亮。文獻[12]考慮到實時服務需要降低時延,而非實時服務需要提高傳輸速率,在文獻[11]的基礎上改進了即時收益r。并針對由動作空間大而導致的維度災難問題,提出基于雙環(huán)學習的多行動決策方法。相比最大化最小速率和遺傳算法,基于DRL的跳波束策略使平均傳輸時延分別降低了42.12%和21.4%。

      綜上所述,智能波束調度方法的優(yōu)勢在于可根據(jù)動態(tài)時變的業(yè)務需求和信道質量進行決策,使波束點亮方案所提供的傳輸速率與流量需求更趨一致。其面臨的主要問題在于隨著波束數(shù)量的增加,決策動作空間A成倍增加,對此文獻[12]提供了一種解決思路,但此問題尚未解決。

      2.4 計算卸載與緩存

      隨著計算任務在業(yè)務中占比的日益增加,計算卸載已成為地面網(wǎng)絡的研究熱點。隨著星上處理能力的日趨提高,衛(wèi)星不僅可以作為計算卸載的中繼傳輸節(jié)點,也可部署邊緣計算服務器提供計算能力[13]?;贒RL的計算卸載問題通常將任務的所有備選計算位置作為動作空間A,以任務處理時延(包括通信時延和計算時延)為即時收益r,用于優(yōu)化決策策略π。通常組成狀態(tài)空間A的信息包括:任務的計算量、數(shù)據(jù)通信量、信道質量和各網(wǎng)絡節(jié)點的通信與計算能力。

      文獻[14]將空天地一體化的物聯(lián)網(wǎng)場景中的任務卸載問題建模為受限的MDP,利用風險敏感的DQN,以當前無人機位置和任務隊列作為狀態(tài)s,在能量受限條件下,決定此計算任務的處理位置。動作空間A包括在無人機本地處理、卸載到基站或是衛(wèi)星處理。利用同等能耗,將平均時延降低了35%。針對衛(wèi)星輔助車對車場景下的計算卸載、計算和通信資源分配問題,文獻[15]將其分解為兩個子問題:一是固定卸載決策下的計算與通信資源分配,采用拉格朗日乘子法求解;二是確定資源分配條件下的任務卸載,建模為MDP后采用DRL決定卸載位置,從而有效降低了平均時延。

      緩存策略影響計算卸載效果,因此常對兩個問題進行聯(lián)合優(yōu)化,文獻[16-17]關注計算卸載與緩存的聯(lián)合決策問題。文獻[16]提出了一種基于DRL的通信、緩存和計算資源聯(lián)合分配方法。仿真結果表明,在不同的用戶衛(wèi)星夾角、內容大小、通信與緩存費用條件下,所提方法均能達到更優(yōu)性能。文獻[17]采用DRL中的異步優(yōu)勢動作評論家(asynchronous advantage actor-critic, A3C)算法,通過觀察用戶與各衛(wèi)星相對位置、GEO數(shù)據(jù)中繼衛(wèi)星狀態(tài)、通信鏈路質量、緩存狀態(tài)和各邊緣服務器的可用計算能力等信息作為狀態(tài)s,將接入的LEO衛(wèi)星、任務卸載的服務器、是否通過GEO衛(wèi)星中繼以及當前請求內容是否被緩存這4個問題的聯(lián)合決策作為動作a。此方案能有效提高單位資源的收益。

      綜上所述,基于DRL的計算卸載方法能有效感知任務的計算量、數(shù)據(jù)通信量、信道質量和各節(jié)點的通信與計算能力,通過對各任務進行優(yōu)化調度,降低平均處理時延。對環(huán)境信息的收集越充分,DRL方法的性能越好。但對信息的收集意味著通信、時延代價,現(xiàn)有研究尚缺乏對此代價的討論,而僅關注算法性能的提升。此外,現(xiàn)有的智能計算卸載研究大多采用集中式控制方式,難以應用于大規(guī)模SIN。

      2.5 路由選擇

      SIN的路由問題主要研究從發(fā)送端的接入衛(wèi)星到接收端的接入衛(wèi)星之間的傳輸路徑選擇,其過程如圖4所示。高效的衛(wèi)星路由算法應當對動態(tài)的網(wǎng)絡拓撲、鏈路質量、衛(wèi)星狀態(tài)和流量分布具備感知和自適應調整能力。

      圖4 衛(wèi)星路由問題示意圖Fig.4 Demonstration of satellite routing

      傳統(tǒng)路由方法存在以下兩點不足:一方面,隨著星座規(guī)模的增加,優(yōu)化問題的解空間急劇增加,且多個目標使優(yōu)化問題更加復雜;另一方面,傳統(tǒng)方法對時變流量的處理分為割裂的兩步:流量預測與后續(xù)的路由算法,由于預測本身存在誤差,分段式框架易導致誤差累積放大[18]。

      在基于DRL的路由方法中,智能體通過觀察包含鏈路質量的狀態(tài)空間S,將下一跳備選傳輸節(jié)點作為動作空間A,可以學習到能自適應感知鏈路狀態(tài)并動態(tài)調整的路由策略π。文獻[20-21]主要利用DRL感知動態(tài)變化的鏈路帶寬、丟包率、擁塞情況等信息和時變的不均勻業(yè)務流量。文獻[19]提出了一種基于Double DQN的LEO衛(wèi)星網(wǎng)絡路由算法,在每個衛(wèi)星節(jié)點智能體感知兩跳鄰居范圍內的鏈路狀態(tài),并決定下一跳路由。更進一步,文獻[20]利用長短期記憶(long short-term memory, LSTM)網(wǎng)絡對流量和鏈路質量的時序預測能力,提出了一種基于DDPG的軟件定義空天地一體化網(wǎng)絡路由算法。仿真結果表明,對比傳統(tǒng)方法,其能達到更低網(wǎng)絡時延和更高的吞吐量。

      文獻[22-23]則將衛(wèi)星節(jié)點的運行狀況加入狀態(tài)空間S,具體包括能量狀況和受干擾情況。針對巨型星座不考慮衛(wèi)星電池狀態(tài)的路由策略會集中消耗某些衛(wèi)星能量因而導致其電池壽命過早耗盡的問題,文獻[21]提出了一種基于DRL的能耗均勻路由算法。智能體感知由各節(jié)點能量狀況、當前剩余時延等信息構成的狀態(tài)s,并將下一跳路由作為動作a。仿真結果表明,所提算法能將端到端時延限制在所需范圍內,并有效延長了衛(wèi)星壽命。文獻[22]則利用DRL感知各衛(wèi)星節(jié)點的受干擾情況,提出了一種大規(guī)模異構衛(wèi)星網(wǎng)絡中的智能抗干擾的路由算法。智能體通過學習歷史信息構成的狀態(tài)s,感知受到干擾的衛(wèi)星節(jié)點,從而獲取可選的路由路徑集合。仿真結果表明,相比傳統(tǒng)抗干擾路由算法,所提算法的路由代價更低,收斂速度更快。

      綜上所述,基于DRL的智能路由方法通常將每個數(shù)據(jù)包作為智能體,利用動態(tài)變化的鏈路質量、流量、衛(wèi)星節(jié)點狀態(tài)等信息構成狀態(tài)空間S,利用歷史數(shù)據(jù)學習規(guī)律,并能根據(jù)環(huán)境的反饋進行策略調整,從而優(yōu)化端到端時延,避開干擾和擁塞。然而現(xiàn)有方法未考慮冷啟動問題,即DRL在尚未收斂的探索階段路由決策能力差,導致在方法部署初期,用戶經(jīng)常面臨由路由失敗造成的數(shù)據(jù)丟包。

      2.6 衛(wèi)星切換

      非靜止軌道衛(wèi)星的動態(tài)性導致衛(wèi)星與用戶產(chǎn)生相對運動,因此當衛(wèi)星無法繼續(xù)為用戶服務時,需在覆蓋此用戶的可選衛(wèi)星集合中選擇衛(wèi)星并進行切換。圖5為切換問題示意圖,當LEO衛(wèi)星1由于運動無法再為用戶1服務,用戶1需決定切換至LEO衛(wèi)星2或LEO衛(wèi)星3。

      圖5 衛(wèi)星切換問題示意圖Fig.5 Demonstration of satellite handover

      在已有傳統(tǒng)方法中,衛(wèi)星切換主要依據(jù)以下3個指標:最大服務時長[23]、最大仰角和最多可用信道資源,分別影響切換次數(shù)、服務質量和網(wǎng)絡負載。傳統(tǒng)切換方法通常采用綜合加權進行決策,各指標的權值來自專家對其重要性的判斷。這種決策方法一方面缺乏客觀性,大規(guī)模異構SIN的復雜性令專家難以歸納最優(yōu)權重;另一方面,這種決策方法對指標的偏好在多樣動態(tài)的衛(wèi)星業(yè)務場景中會發(fā)生變化,專家歸納的固定規(guī)則難以在各時刻始終保持最優(yōu)效果。

      針對上述問題,文獻[24]提出了一種用戶體驗質量(quality of experience, QoE)驅動的智能切換機制。首先,針對用戶終端高速運動和業(yè)務分布不均衡問題,將剩余服務時間、可用信道資源和端到端時延作為切換因子,建立模型對其進行估計,并進一步構成狀態(tài)空間S。隨后,利用DRL感知切換因子,進行切換決策,并將用戶體驗指標作為即時收益r,優(yōu)化切換策略π。文獻[25]針對集中式切換控制造成的信令開銷問題,提出了基于MARL的分布式切換方法。基于各可選衛(wèi)星的剩余服務時間和負載情況構成的狀態(tài)S,采用分布式Q學習學習切換策略π,并將是否發(fā)生切換和衛(wèi)星是否超載作為即時收益r,用于優(yōu)化策略π。這種機制避免了乒乓切換,大幅降低了平均切換次數(shù)和用戶阻塞率。

      綜上所述,基于DRL的智能切換方法通常將各個衛(wèi)星的剩余服務時間、仰角和剩余資源作為環(huán)境信息,構成狀態(tài)空間S,將所有可選衛(wèi)星的位置記為動作空間A,并根據(jù)需優(yōu)化的目標設計即時收益r。作為動作空間有以下兩方面優(yōu)勢,一方面通過優(yōu)化長期收益,避免了乒乓切換,降低了整個通信時長內的切換次數(shù);另一方面,不依賴專家對指標的定義與加權權重,而是直接通過環(huán)境反饋的實際結果優(yōu)化切換策略。但已有的研究大多集中于單層LEO衛(wèi)星網(wǎng)絡中的同層橫向切換,而尚缺乏對空天地一體化多層網(wǎng)絡中橫向和縱向并存的切換問題的研究。

      2.7 接入選擇

      在未來SIN中,用戶接入網(wǎng)包含多層衛(wèi)星節(jié)點、無人機和地面基站等,因此終端需在異構的網(wǎng)絡接入節(jié)點間進行接入選擇,以優(yōu)化傳輸效率,其與切換問題的差異見表1所示。

      表1 接入選擇與衛(wèi)星切換問題的區(qū)別

      隨著網(wǎng)絡規(guī)模的擴大,網(wǎng)絡結構的日趨復雜,接入選擇問題也愈加復雜。與切換方法類似,傳統(tǒng)接入選擇方法往往基于某時刻的信號強度、鏈路質量等指標的組合加權,而難以優(yōu)化動態(tài)網(wǎng)絡的長期性能。基于DRL的接入選擇方法[27]通過感知動態(tài)變化的環(huán)境信息進行序列決策。

      針對空天地一體化網(wǎng)絡接入基站選擇問題,文獻[26]指出,傳統(tǒng)基于信號強度的方法會導致負載不均衡和頻繁切換,因此提出一種基于DQN的智能接入選擇方法,將每個用戶節(jié)點作為智能體,感知各基站信號強度和用戶數(shù)量,并參考上一時刻連接基站和數(shù)據(jù)傳輸速率,將上述信息構成狀態(tài)S,優(yōu)化接入基站選擇策略π,有效提高了吞吐量并減少了網(wǎng)絡切換次數(shù)。在無人機輔助中繼的低軌衛(wèi)星通信場景中,由于網(wǎng)絡拓撲動態(tài)變化、衛(wèi)星數(shù)量繁多,文獻[27]利用DRL,將無人機接入選擇和飛行軌跡調整決策共同作為動作空間A,有效提高了系統(tǒng)的端到端數(shù)據(jù)傳輸速率和頻譜利用率。

      基于DRL組網(wǎng)的接入選擇算法通常采用衛(wèi)星、無人機、地面基站等異構接入點的狀態(tài)、業(yè)務需求和信道質量作為狀態(tài)空間S,將可選接入網(wǎng)絡作為動作空間A,數(shù)據(jù)傳輸效果作為即時收益r,以優(yōu)化網(wǎng)絡接入策略π。其未來研究可改進以下問題:①進一步研究大規(guī)模節(jié)點接入選擇面臨的高維決策空間問題;②考慮用戶運動性和用戶業(yè)務需求。

      2.8 小結

      本節(jié)歸納了上述基于DRL的SIN方法。在SIN中利用DRL方法,研究者需要進行以下判別:

      (1) 判斷此問題是否適合利用DRL方法求解;

      (2) 設計DRL方法的3個核心元素:行動空間A、狀態(tài)空間S和即時收益r。

      盡管DRL在無線通信領域的應用已有一定研究成果[29],但其在SIN領域中的應用尚處于起步階段。針對現(xiàn)有工作中應用DRL的研究方向,本節(jié)試圖根據(jù)其實用性的高低進行列表排序,如表2所示。對實用性的討論主要根據(jù)DRL方法在訓練階段和實際使用階段的計算換取策略的優(yōu)化效果,因此需要考察在SIN實際問題中是否能夠滿足DRL對計算能力的需求。同時也需要考慮算法實時性能是否能滿足應用需要,綜合考慮應用DRL方法是否能給此領域帶來收益。

      表2 SIN中應用DRL可行研究方向的實用性分析

      隨后,本節(jié)總結了SIN中基于DRL的解決方案的設計思路(見圖6)。圖6概括了SIN領域的DRL方法常見的狀態(tài)空間S、即時收益r和動作空間A所考慮的因素。研究者需要首先分析SIN領域具體問題的相關影響因素、優(yōu)化目標和決策任務,隨后分別對應設計DRL方法的狀態(tài)空間S、即時收益r和動作空間A,即可初步形成解決此問題的DRL思路。表3總結了本文介紹的現(xiàn)有研究,歸納概括了其應用場景、針對問題、優(yōu)化目標與采用的DRL方法。

      圖6 基于DRL的SIN方法設計示意圖Fig.6 Design demonstration of DRL-based SIN methods

      表3 基于DRL的SIN現(xiàn)有研究總結

      3 基于DRL的星地網(wǎng)絡中繼選擇算法

      對于星地網(wǎng)絡中繼節(jié)點選擇的已有研究,大多集中于信號強度、地理空間距離、信道質量、負載等因素,將中繼節(jié)點選擇問題建模為針對傳輸速率、系統(tǒng)吞吐量、中斷概率、能量利用率等指標的優(yōu)化問題,并利用優(yōu)化、博弈論等方法進行求解。通過分析已有研究工作,可以發(fā)現(xiàn)已有的星地網(wǎng)絡中繼選擇算法面臨的挑戰(zhàn)主要包括以下幾點[34]:

      (1) 大多數(shù)研究基于全局的信道狀態(tài)信息已知并且在較長一段時間內穩(wěn)定的假設。但在實際系統(tǒng)中,星地之間的通信信道一方面受天氣(降雨、降雪)、開放空間干擾等因素影響較大,呈現(xiàn)動態(tài)變化的特點,另一方面,大規(guī)模節(jié)點定期匯報、反饋其到衛(wèi)星和各個中繼節(jié)點間的信道質量信息所需的通信開銷較大。同時,由于衛(wèi)星通信鏈路較長,反饋的信道質量信息容易由于時延而過期。因此,在全網(wǎng)絡中定期進行信道質量信息的匯總、廣播,使每個設備都在明確全局實時、準確的信道增益的前提下進行中繼節(jié)點的選擇,這一思路在星地中繼網(wǎng)絡場景中難以實現(xiàn)。

      (2) 如何高效協(xié)調大規(guī)模終端的中繼節(jié)點選擇。由于衛(wèi)星覆蓋范圍廣,其接入的設備具有海量性和異構性,因此針對單個節(jié)點或者少量節(jié)點的中繼選擇算法難以協(xié)調成百上千的終端的中繼選擇控制。

      針對問題(1),本章提出一種基于DRL的算法——多智能體深度強化學習的分布式中繼選擇(distributed deep reinforcement learning, D -DRL)算法,將終端視為智能體,將上一時刻各個終端是否滿足需求作為環(huán)境信息,構成狀態(tài)空間S,將所有可接入的中繼節(jié)點作為動作空間A,將滿足QoS需求的傳輸速率作為即時收益r,優(yōu)化分布式的中繼選擇策略π。

      針對問題(2),D-DRL算法忽略了智能體決策之間的相互影響。但隨著終端規(guī)模的增加,此算法中其他智能體的動作會導致環(huán)境不穩(wěn)定,從而造成智能體收斂效率下降。因此,本章進一步采用平均場理論的MADRL方法,解決大規(guī)模終端中繼選擇問題。

      最后,本章通過仿真實驗討論了兩種方法對網(wǎng)絡性能的提升效果、時間效率,以及訓練與部署開銷。

      3.1 系統(tǒng)模型與問題建立

      在本章中,一個衛(wèi)星物聯(lián)網(wǎng)系統(tǒng)包含一個提供衛(wèi)星互聯(lián)網(wǎng)服務的LEO衛(wèi)星系統(tǒng),N個用戶終端節(jié)點組成的用戶集合U={U1,…,Un,…,UN},以及M個中繼節(jié)點組成的中繼集合R={R1,…,Rm…,RM}。本章針對下行信道,且中繼節(jié)點采用放大發(fā)送機制。

      根據(jù)中繼傳輸模式,將衛(wèi)星到地面終端的通信過程分為2個時隙。衛(wèi)星將信號xS(t)發(fā)送給地面中繼節(jié)點Rm和用戶節(jié)點Un,則地面節(jié)點處接收到的信號可以表示為

      (1)

      (2)

      在第2個時隙中,中繼節(jié)點Rm將第1個時隙接收到的衛(wèi)星信號放大并發(fā)送給用戶節(jié)點Un,放大因子為

      (3)

      那么終端Un處接收到的來自中繼節(jié)點Rm的信號可以表示為

      (4)

      t時刻,終端Un處接收到的從中繼節(jié)點Rm放大轉發(fā)的衛(wèi)星信號信噪比可以表示為

      (5)

      根據(jù)香農公式,衛(wèi)星信號經(jīng)過放大轉發(fā)機制的中繼節(jié)點Rm放大轉發(fā)傳輸給用戶節(jié)點Un可以實現(xiàn)的傳輸速率上限可表示為

      (6)

      (7)

      系統(tǒng)中的每一個用戶都通過選擇合適的中繼節(jié)點使自己在滿足最低QoS需求的前提下,獲得更大的傳輸速率。因此每個用戶需要滿足其最低的QoS需求,即:

      (8)

      系統(tǒng)吞吐量為

      (9)

      本文所研究的中繼節(jié)點選擇問題可以建模為如下優(yōu)化問題:

      其中,第1項約束表示任何一個用戶都只能接入一個中繼節(jié)點;第2項約束中Pmax表示中繼節(jié)點最高可用功率,表示任何中繼節(jié)點消耗的功率不能超過其最高功率限制;第3項約束表示用戶的傳輸速率需要達到其最低QoS要求。

      3.2 MDP

      在星地網(wǎng)絡中繼選擇場景中,下一時刻系統(tǒng)的狀態(tài)只與當前系統(tǒng)狀態(tài)和各個終端節(jié)點的中繼選擇決策有關,與之前所有時刻的狀態(tài)都沒有關系,符合MDP的定義。將每個終端視為一個智能體,其關鍵因素,包括動作空間Ai,狀態(tài)空間Si和即時收益Ri,定義如下。

      3.2.1 動作空間

      每個終端可以在系統(tǒng)中存在的M個中繼節(jié)點中選擇一個進行接入,因此動作空間(即可選的動作集合)為

      Ai={1,2,…,M}

      (10)

      3.2.2 狀態(tài)空間

      每個衛(wèi)星物聯(lián)網(wǎng)用戶的狀態(tài)向量包含其觀察到的與中繼節(jié)點選擇決策相關的環(huán)境信息。在本章中,用戶節(jié)點i在t時刻用來進行中繼選擇決策的環(huán)境信息可以表示為:

      (11)

      (1)t-1時刻所選擇的中繼節(jié)點。

      (12)

      (2)t-1時刻各終端QoS需求滿足情況

      為了降低通信代價,僅僅用一個01變量Qsi表示上一時刻節(jié)點i傳輸速率是否滿足QoS需求的情況:

      (13)

      3.2.3 即時收益

      對第i個智能體,其即時收益可以定義為

      (14)

      DUn為節(jié)點滿足QoS需求的最低數(shù)據(jù)傳輸速率,如果QoS需求無法被滿足,即時收益為0。

      3.3 基于簡單MADRL機制的中繼選擇算法D-DRL

      采用一種簡單直接的MADRL方法,即每個智能體采用獨立的DQN算法[35],將其他智能體視為環(huán)境的一部分。智能體利用環(huán)境交互反饋得到的即時收益,通過下式迭代更新表征Q值的神經(jīng)網(wǎng)絡參數(shù)。

      (15)

      3.4 基于Mean Field的大規(guī)模中繼選擇算法

      在基于獨立學習的MADRL方法中,每個智能體的環(huán)境不僅僅由其自身動作決定,也受其他智能體動作影響,因此環(huán)境的不穩(wěn)定會造成學習效果的降低。

      針對此問題,本文提出一種基于平均場的多智能體深度強化學習(mean-field multi-agent deep reinforcement learning, MF-MADRL)算法,其核心思想是將大規(guī)模智能體間的相互作用轉化為某個智能體與鄰居之間的平均作用,從而僅使用雙邊交互將Q值函數(shù)進行分解,即:

      (16)

      其中,N(i)為智能體i的鄰居。分解后,大幅降低了聯(lián)合動作a的維度,并且保持了物聯(lián)網(wǎng)終端的兩兩交互。

      (17)

      根據(jù)文獻[36],各個智能體兩兩相互作用的Q值函數(shù)Qi(s,a)可以進一步簡化為

      (18)

      即對于每個智能體i,其與其他每個智能體的相互作用可以近似化簡為i與一個虛擬智能體的相互作用,虛擬智能體代表了所有鄰居智能體的平均作用。

      (19)

      (20)

      3.5 基于遷移學習的部署方案

      由于DRL方法在訓練階段需要大量訓練數(shù)據(jù)對策略進行迭代,因此需要付出計算能力和訓練時間作為代價。通常采用的方法是在虛擬環(huán)境中訓練模型,將訓練好的模型部署到真實場景中。這種機制有助于避免真實場景中智能體由于探索造成的長時間低質量決策,但也面臨訓練環(huán)境與真實環(huán)境數(shù)據(jù)分布不一致的問題。

      為解決此問題,本章提出了一種簡潔的基于遷移學習的部署方案,利用少量真實環(huán)境中的迭代訓練,將模型從虛擬環(huán)境的源域高效遷移到真實場景的目標域。其具體機制如算法1所示。

      算法1 MF-MADRL算法的部署機制1. 在服務器中基于歷史數(shù)據(jù)構建仿真場景,包括狀態(tài)空間包含的信息;2. 在虛擬場景中訓練Q值網(wǎng)絡參數(shù)θ,至收斂;3. For終端節(jié)點U1, U2,…,UN:復制參數(shù)θ,初始化自身Q值網(wǎng)絡;將前2層神經(jīng)元參數(shù)固定,只調整后2層神經(jīng)元參數(shù),至網(wǎng)絡收斂得到參數(shù) θ′n。

      此部署方法基于微調機制,一方面固定前2層神經(jīng)元參數(shù),降低真實環(huán)境中收斂所需的訓練步數(shù),一方面通過訓練后2層神經(jīng)元使智能體從仿真環(huán)境的源域有效遷移至真實環(huán)境的目標域,以適應真實環(huán)境的數(shù)據(jù)分布。

      3.6 仿真結果

      仿真環(huán)境中,兩種能力不同的中繼節(jié)點分別為4個和9個,節(jié)點隨機分布,且發(fā)送功率分別為35 dbm和30 dbm。衛(wèi)星軌道高度為780 km,發(fā)射功率為50 dbm。地面終端不均勻地分布在仿真環(huán)境中,其QoS需求隨機分布在[80 kbps,100 kbps]范圍內。為進一步比較基于DRL的方法對網(wǎng)絡性能的優(yōu)化效果,并且分析其時效性,本節(jié)在節(jié)點數(shù)量為30和120的情況下分別利用遺傳(genetic algorithm,GA)算法和最大接收功率(maximum received power, MRP)方法與本章所提出的兩種基于MADRL的方法(D-DRL和MF-MADRL)進行對比。

      首先在終端數(shù)量為120的場景下進行仿真,分析所提的兩種基于MADRL的方法的收斂性。如圖7所示,基于最簡單MADRL機制的D-DRL方法收斂效果較差,在500回合后,每個回合達到滿足各個終端傳輸需求的迭代步數(shù)均為180次左右,而MF-MADRL則可以在60回合后有效降低每回合所需要的訓練次數(shù)。依據(jù)100回合后的模型,每次遇到環(huán)境發(fā)生變化,只需迭代訓練30次左右,就可以滿足所有終端的傳輸需求。

      圖7 兩種DRL方法滿足所有終端速率要求所需的訓練步數(shù)Fig.7 Number of iterations needed by two DRL methods for satisfying terminal’s requirements

      表4對比了兩種傳統(tǒng)方法和兩種基于MADRL的方法在不同節(jié)點規(guī)模情況下的吞吐量和運算效率。

      表4 各方法性能和可行性對比

      通過觀察表4可以發(fā)現(xiàn),GA方法較適合終端數(shù)量較少的場景,而在大規(guī)模終端場景中,其難以求解?;贒RL的中繼選擇算法D-DRL和MF-MADRL能有效優(yōu)化網(wǎng)絡性能,在大規(guī)模終端場景下,相比MRP機制,能將系統(tǒng)吞吐量分別提高10.05%和26.90%。而MF-MADRL算法對系統(tǒng)性能的提升明顯優(yōu)于D-DRL算法,其原因主要在于考慮到了終端之間的相互作用,因而協(xié)同效果更好。

      進一步對方法的可用性進行分析,主要包括時間效率和計算開銷。表4中的運算時間分析表明,基于MADRL的兩種方法D-DRL和MF-MADRL采用終端分布式?jīng)Q策,因此其時間效率不因終端數(shù)量的增加而降低。兩種方法的運算時間為算法從開始訓練到收斂所需所有迭代步數(shù)的整體訓練時間,兩者的整體訓練時間都顯著低于GA方法。在大規(guī)模場景下,平均場機制將MADRL算法的訓練所需時間降低了85.14%,有效提高了算法的收斂效率。主要原因在于D-DRL方法沒能考慮到智能體之間的交互,而是將其他智能體視為環(huán)境的一部分,因此其他智能體的決策會造成環(huán)境的不穩(wěn)定,影響DRL方法收斂。

      為降低部署過程中的計算開銷,第3.5節(jié)提出了基于遷移學習的部署機制。本節(jié)對其效果進行了仿真評估,如圖8所示,各個智能體若從頭開始訓練,需要至少400步迭代才能初步收斂,但當環(huán)境變化時,采用所提部署機制,僅需要200步訓練就能實現(xiàn)在新環(huán)境中的收斂,從而將部署到新環(huán)境所需的計算資源和時間開銷降低至50%。

      圖8 遷移機制MF-MADRL算法收斂效果的提升Fig.8 Improvement of convergence efficiency by transfer mechanism MF-MADRL algorithm

      4 應用局限性與面臨的挑戰(zhàn)

      盡管DRL作為一種智能方法在SIN中展現(xiàn)了廣闊的應用前景,但其特點決定其不可能適用于所有SIN領域內的問題。本節(jié)主要討論DRL在SIN中的應用局限性與面臨的挑戰(zhàn)。

      從方法本身的特點出發(fā),DRL方法只能解決MDP問題,即有馬爾可夫性的序列決策問題,可以通過圖7判斷SIN中的其他領域是否可以嘗試DRL方法,并通過表2分析使用DRL方法的代價,以及是否可以在實際系統(tǒng)中帶來足夠的收益。

      如圖9所示,首先非決策類問題無法用DRL方法優(yōu)化,例如信道估計[37]、性能分析[38]、異常數(shù)據(jù)流檢測[39]和天線設計[40]問題。其次,不需要多次決策的問題無法建模為MDP,無法利用DRL進行序列決策,例如衛(wèi)星地球站選址、衛(wèi)星天線設計等問題,這類問題只能決策一次。且DRL方法的優(yōu)勢在于對序列決策問題能有效優(yōu)化長期收益,因而不適合只進行一次決策的問題。再次,對于沒有明確指標反饋以判斷策略優(yōu)劣的問題,例如網(wǎng)絡運行狀態(tài)評估問題,DRL無法解決。最后,需要對環(huán)境是否變化進行判斷,對于靜態(tài)問題,DRL方法難以表現(xiàn)出超過優(yōu)化等方法的優(yōu)勢。

      圖9 DRL步驟是否可在SIN中應用的判斷流程Fig.9 Flowchart to decide whether DRL procedure can be applied in SIN research fields

      除上述DRL方法根本無法應用的領域,DRL方法還面臨計算資源、數(shù)據(jù)一致性和維度災難等挑戰(zhàn),本章將其進行整理歸納。

      4.1 星上計算與能量資源有限

      雖然DRL方法在一定程度上對SIN領域的相關決策問題進行了優(yōu)化,但其代價是訓練和使用深度神經(jīng)網(wǎng)絡過程中的計算開銷,與隨之帶來的能量開銷。

      與地面基站不同,受太空輻射和電池容量的制約,星上計算能力和能量資源寶貴,這制約了DRL方法在星上的廣泛部署使用。

      4.2 DRL方法在應用于高維動作空間時收斂不穩(wěn)定

      高維動作空間的DRL方法收斂不穩(wěn)定問題給其在SIN領域的應用帶來了挑戰(zhàn)。SIN問題中往往存在相互耦合的多個需要決策的問題,例如多維資源的聯(lián)合分配、任務卸載與網(wǎng)絡接入選擇的聯(lián)合決策等,其決策空間往往比人工智能領域的通用強化學習所需處理的更大?;贒RL的SIN方法現(xiàn)有研究直接將通用DRL方法引入而并未針對此高維動作空間問題進行改進,導致方法難以穩(wěn)定收斂。

      4.3 仿真數(shù)據(jù)與真實數(shù)據(jù)的差異

      現(xiàn)有方法通常在仿真環(huán)境中對DRL方法進行訓練,通過仿真環(huán)境產(chǎn)生的數(shù)據(jù)訓練神經(jīng)網(wǎng)絡。相比真實太空環(huán)境,仿真環(huán)境中模擬數(shù)據(jù)的生成通?;诤喕P?。作為一種數(shù)據(jù)驅動的方法,DRL方法主要依靠對環(huán)境狀態(tài)的觀察進行決策。因此,真實環(huán)境與仿真環(huán)境中數(shù)據(jù)分布的差異往往會導致在仿真環(huán)境中訓練收斂的DRL方法在實際部署中出現(xiàn)效果退化。仿真環(huán)境與實際環(huán)境之間的差異是DRL在SIN中進一步應用所面臨的挑戰(zhàn)。

      4.4 需要基于經(jīng)驗設計DRL機制

      雖然DRL方法作為一種數(shù)據(jù)驅動的方法,不需要基于專家經(jīng)驗對環(huán)境進行精確建模,但DRL方法的狀態(tài)特征、即時收益、神經(jīng)網(wǎng)絡結構和訓練參數(shù)往往需要人工選擇設計,且不同機制直接影響DRL方法對網(wǎng)絡狀態(tài)的感知效果和方法收斂能力,進而影響DRL方法的優(yōu)化效果。因此,對狀態(tài)特征的選取、對即時收益和神經(jīng)網(wǎng)絡結構的設計和對訓練參數(shù)的選擇還需較有經(jīng)驗的研究人員完成。在大規(guī)模SIN中,節(jié)點數(shù)量的增加使上述工作量急劇增加,給DRL方法的大范圍應用帶來挑戰(zhàn)。

      4.5 復雜優(yōu)化目標和約束需要精細處理

      SIN往往面臨多個互相沖突的復雜優(yōu)化目標或約束,例如時延、吞吐量、可靠性、功率利用率、頻譜利用率和業(yè)務QoS需求等?,F(xiàn)有基于DRL的SIN方法往往采用直接加權方法處理多個優(yōu)化目標,采用對即時收益的懲罰處理約束,過于簡單直接,影響了DRL方法的優(yōu)化效果。復雜的優(yōu)化目標和約束是SIN中問題的核心難點,也是進一步提高DRL方法效果面臨的挑戰(zhàn)。

      4.6 狀態(tài)信息數(shù)據(jù)缺失、過期

      SIN長時延和動態(tài)連接的特點給DRL方法的狀態(tài)數(shù)據(jù)收集帶來挑戰(zhàn)。與地面通信系統(tǒng)相比,天基網(wǎng)絡中頻繁的切換和動態(tài)的拓撲導致智能體通過回傳鏈路、額外通信等方式得到的環(huán)境信息或反饋信息,可能存在丟包、由超時導致的信息丟失現(xiàn)象;同時鏈路時延較長導致收集到的信息也面臨過期問題。DRL方法依賴收集到的數(shù)據(jù)感知環(huán)境狀態(tài),因此缺失、過期和不準確的狀態(tài)信息數(shù)據(jù)會使DRL方法難以有效決策。

      4.7 集中式與分布式控制

      在未來大規(guī)模異構系統(tǒng)中,DRL方法的控制機制選擇是一大挑戰(zhàn)。集中式的DRL方法能有效收斂,不易陷入局部最優(yōu),且更能保證資源分配和路由等策略在整個系統(tǒng)中的優(yōu)化效果。但在大規(guī)模異構系統(tǒng)中,集中式控制需付出通信和時延代價,且可拓展性差。與之相比,分布式DRL算法的優(yōu)勢在于可以使邊緣設備具備本地智能決策能力,時效性更好,且不增加核心網(wǎng)通信負擔;節(jié)點新增或節(jié)點離開系統(tǒng)并不需要更新算法,可拓展性強。其缺點在于智能體僅能觀察到部分環(huán)境信息,因而容易陷入次優(yōu)解,且收斂過程不夠穩(wěn)定。因此,DRL方法在未來大規(guī)模SIN中的應用面臨在集中式和分布式控制之間進行選擇或找到平衡的挑戰(zhàn)。

      5 DRL領域前沿研究進展

      不同于凸優(yōu)化、博弈論等較為成熟的方法,DRL類方法屬于人工智能的新興研究領域,其在經(jīng)典方法的基礎上還在不斷發(fā)展完善。本章簡要介紹了DRL方法的前沿進展[41-42],有助于研究者有效利用其解決SIN中面臨的挑戰(zhàn)。

      由于較多中、英文綜述已介紹了DRL方法和其近期進展,本章將重點集中于前沿DRL方法在SIN中的應用思路。

      5.1 逆強化學習與模仿學習

      現(xiàn)有的經(jīng)典DRL方法往往采用人工設定的即時收益。然而,一旦獎勵功能設計不當,就會對DRL的效果產(chǎn)生巨大影響。逆強化學習[43]從觀察到的專家示例中學習適當?shù)莫剟詈瘮?shù)。此方法適用于存在可以模仿的歷史決策記錄的應用問題。

      在SIN中,利用模仿學習是實現(xiàn)領域歷史記錄利用的可行途徑。在SIN領域中,存在珍貴有效的領域知識,例如經(jīng)過時間檢驗效果較好的決策軌跡。僅僅采用數(shù)據(jù)驅動的DRL方法無法利用這部分領域知識,而是花費大量計算資源和時間從大規(guī)模樣本中學習策略。借助模仿學習,可以利用歷史決策記錄指導智能體的學習。

      此外,現(xiàn)有經(jīng)典的DRL方法難以解決網(wǎng)絡運維管理中的大部分問題,例如故障判斷與解決,原因不僅在于其中蘊含大量運維領域的專家知識,也在于其即時收益很難由人工設定。采用模仿學習來應對此難題是一種值得嘗試的思路。

      5.2 遷移學習

      學習效率低是強化學習面臨的一大難題,往往需要數(shù)萬個訓練樣本才能有效收斂。針對這一問題,遷移強化學習[44]提出根據(jù)先前的任務獲取有用的知識,來解決新的任務,從而使智能體在一個新的目標域環(huán)境中,僅利用源域的學習成果,使用少量可用數(shù)據(jù)快速學習到最優(yōu)策略。

      遷移強化學習能降低智能體面對新環(huán)境的訓練效率。將其應用于SIN中,有助于解決仿真環(huán)境和真實環(huán)境之間數(shù)據(jù)分布差異的問題,在大規(guī)模節(jié)點的分布式?jīng)Q策機制中,可以在仿真環(huán)境中訓練一個基礎神經(jīng)網(wǎng)絡,將基礎神經(jīng)網(wǎng)絡分發(fā)給各個節(jié)點(衛(wèi)星或者終端)后,利用遷移學習使基礎神經(jīng)網(wǎng)絡高效適應需部署的本地環(huán)境。

      5.3 元強化學習

      元強化學習[45]是遷移強化學習的一類,其目標在于通過學習如何高效學習策略這一元知識,而在面對新任務或新環(huán)境時,具有較強泛化能力,能利用少量樣本快速學習。

      與遷移強化學習類似,元強化能有效解決DRL方法在SIN中應用面臨的仿真環(huán)境與真實環(huán)境的差異問題。其更進一步的優(yōu)勢在于,若有多個任務都采用DRL方法進行決策,例如終端需要進行接入選擇、任務卸載、信道選擇和發(fā)送功率控制,可以通過元強化學習抽取這些相似任務背后的共同模式,即歸納偏置終端面臨的類似任務,例如LEO衛(wèi)星在進行切換決策時,可以重用這一歸納偏置,而不需從頭學習。

      5.4 分層強化學習

      分層強化學習[46]的核心思路是將復雜問題抽象為不同層級,從而將復雜問題分解為子問題,分別進行解決,適合解決大規(guī)模復雜問題。高級別智能體主要關注高層目標是否達成,而低級別智能體則更關注精細的決策問題。

      此方法已經(jīng)被應用于無線通信領域,文獻[47]利用分層強化學習將中繼選擇和功率分配分解為兩個分層優(yōu)化目標,并在不同的層次上進行訓練,避免了由聯(lián)合決策造成的高維動作空間導致的DRL方法難以收斂的問題。

      在SIN中,也面臨相互耦合的決策變量導致的高維動作空間問題。例如LEO衛(wèi)星在切換時同時面臨切換衛(wèi)星選擇與信道選擇問題,現(xiàn)有方法往往將其視為兩個獨立問題分布求解,但割裂兩個問題是次優(yōu)解決方案,其實質是分層決策問題,可以采用此思路將聯(lián)合決策分解為多步,通過分層強化學習應對各個層次決策的收益稀疏問題。

      5.5 MARL

      對比DRL方法,MARL由于考慮了智能體之間的合作或競爭作用,對于分布式控制系統(tǒng)具有重要意義。目前此領域的研究熱點集中于信息通信機制、信度分配和與博弈理論的結合。

      MARL方法已被應用于包括SIN在內的無線通信領域中。針對大規(guī)模異構且通信時延長的SIN集中式控制導致的通信代價高、難以實時控制的問題,在進一步研究中,需要關注分布式的MARL方法與博弈論和聯(lián)邦學習的結合。研究智能體之間的通信、協(xié)作和競爭機制,使智能體獨立觀察本地環(huán)境信息并進行決策,避免由傳輸環(huán)境信息導致的帶寬消耗,提高決策時效性。同時,由于信息感知在網(wǎng)絡邊緣進行,不回傳至運營商數(shù)據(jù)中心,可實現(xiàn)一定程度的用戶隱私保護。

      更進一步,可深入研究分布式與集中式強化學習結合的控制框架,利用集中式強化學習控制核心網(wǎng),利用分布式的MARL控制邊緣接入網(wǎng)絡。

      6 未來研究方向

      6.1 針對復雜優(yōu)化問題改進DRL方法

      經(jīng)典的DRL方法大多適用于相對簡單直接的計算機領域問題,將其應用于SIN實際問題中,面臨高維決策空間、復雜約束和互相矛盾的多個優(yōu)化目標等難點,需要在DRL方法的改進上進行研究,使其適應SIN實際問題。文獻[14]采用風險敏感的DRL方法處理時延約束,對改進約束處理方式進行了初步探索,但此問題還有待深入研究。

      針對多決策變量的SIN問題中,由DRL動作空間過大導致的難以收斂的問題,一種可行的研究思路是采用層次強化學習方法,將SIN中的多個決策問題按照領域知識進行邏輯分層,通過分層強化機制降低動作空間維度,提高收斂效果。

      針對多個互相矛盾的優(yōu)化目標,在未來動態(tài)的SIN中,不同應用、不同網(wǎng)絡環(huán)境,對目標偏好是動態(tài)可變的,因此需要同時學習動態(tài)偏好和適應這一動態(tài)偏好的多目標DRL策略[48],針對此領域有待進一步研究。

      6.2 實際部署中的DRL遷移與更新

      現(xiàn)有基于DRL的SIN方法往往關注對各指標優(yōu)化效果的提升,而未考慮方法實際部署中面臨的問題。實際部署問題可歸納如下:① 星上稀缺的計算資源與DRL方法訓練代價之間的矛盾;② 訓練環(huán)境與實際部署環(huán)境之間的數(shù)據(jù)分布差異;③ 在大規(guī)模節(jié)點中分別訓練獨立模型,所消耗的計算資源較多;④ 面對由衛(wèi)星較長生命周期內的環(huán)境變化導致的模型過時,需考慮如何對模型進行更新。

      上述在實際部署中面臨的問題需要進一步進行研究。其可行思路是結合遷移學習、在線學習等機制,付出較少的迭代時間和計算代價,使在地面仿真環(huán)境訓練的DRL模型迅速適應星上部署環(huán)境、各個節(jié)點面臨的不同環(huán)境和變化后的環(huán)境,從而實現(xiàn)DRL中策略網(wǎng)絡參數(shù)根據(jù)環(huán)境變化的自適應調整與更新,進一步降低運維人員手動從頭訓練或手動調整DRL方法的工作量,同時節(jié)約了計算資源。

      基于遷移學習的思路將地面仿真環(huán)境中的數(shù)據(jù)視為源域,將真實數(shù)據(jù)視為目標域?;谠从蚝湍繕擞虻南嗨菩?在仿真環(huán)境中訓練收斂的神經(jīng)網(wǎng)絡參數(shù)對需要解決的問題已經(jīng)有了較好的認識和決策能力,因此部署上星之后,通過少量訓練步數(shù)的遷移,即可以有效解決具有不同數(shù)據(jù)分布的真實場景決策問題。

      6.3 結合其他機器學習方法應對數(shù)據(jù)問題

      針對DRL方法在SIN中面臨的環(huán)境信息數(shù)據(jù)缺失、數(shù)據(jù)噪音和數(shù)據(jù)分布偏差挑戰(zhàn),結合其他機器學習方法對環(huán)境數(shù)據(jù)進行預處理,值得深入研究。針對數(shù)據(jù)缺失問題,可以采用矩陣補全對缺失的信道質量數(shù)據(jù)進行補全,或利用循環(huán)神經(jīng)網(wǎng)絡[49]等方法對缺失的時序數(shù)據(jù)進行估計;針對數(shù)據(jù)噪聲問題,可以利用主成分分析等數(shù)據(jù)投影方法在降維的同時對數(shù)據(jù)進行降噪;針對仿真數(shù)據(jù)與真實數(shù)據(jù)存在的分布偏差,針對系統(tǒng)部署運行前真實數(shù)據(jù)積累量過少的問題,可以采用對抗生成網(wǎng)絡[50]降低仿真數(shù)據(jù)與真實數(shù)據(jù)分布之間的偏差,生成與真實數(shù)據(jù)同分布的仿真數(shù)據(jù),輔助DRL的訓練。

      6.4 SIN時空規(guī)律挖掘

      SIN的拓撲動態(tài)變化,并在連續(xù)時間片內構成規(guī)律的時空動態(tài)圖,因此SIN問題中的網(wǎng)絡流量、節(jié)點狀態(tài)和剩余資源等要素往往具有時空規(guī)律,這些規(guī)律和知識蘊含在SIN數(shù)據(jù)中?,F(xiàn)有方法大多對每個時間片內的問題進行割裂分析,而忽略了問題的時序特性和空間規(guī)律。如何挖掘并利用SIN中的時空規(guī)律進行決策,是將DRL方法應用于SIN時值得深入研究的方向。

      對具有動態(tài)圖關系的各衛(wèi)星和用戶節(jié)點深入挖掘時空規(guī)律的可行研究思路之一是圖神經(jīng)網(wǎng)絡[51]及其重要分支——時間圖神經(jīng)網(wǎng)絡。

      6.5 SIN多維任務協(xié)同

      未來SIN的發(fā)展方向是通信、導航、遙感一體化的服務系統(tǒng),從而實現(xiàn)一星多用、多星組網(wǎng),通過系統(tǒng)集成提高資源利用率和服務效率[52]。上述一體化天基信息港的核心在于對通信、導航和遙感任務進行協(xié)同資源分配、任務調度。包含大規(guī)模異構節(jié)點與多種任務的復雜系統(tǒng)難以準確建模,因此傳統(tǒng)方法難以求解。而DRL方法依靠其學習能力可以規(guī)避精確建模問題,是解決多任務協(xié)同問題的可行思路之一。

      6.6 DRL的自動化調參

      未來大規(guī)模SIN中需對多個節(jié)點、多個任務訓練DRL模型,隨著整個系統(tǒng)規(guī)模的增加,需要訓練的DRL模型數(shù)量成倍甚至成指數(shù)倍增長。因此,DRL的自動調參技術對其在實際應用中降低運維人員手動調參的工作量具有重要意義。在深度學習領域,針對自動調參方面的研究已較為成熟并得以實際應用,而DRL的自動調參技術處于初始階段,有待進一步研究。

      6.7 更加關注方法的可用性討論

      由于DRL在SIN中的應用研究尚處于起步階段,大多數(shù)研究更關注DRL方法對系統(tǒng)性能的優(yōu)化,而沒能充分權衡可用性與方法性能。

      可用性一方面指星上資源能否滿足方法對計算能力和能量資源的需求,另一方面體現(xiàn)在方法帶來的額外通信量開銷。

      針對星上資源受限問題,有以下幾種可能的解決思路:① 直接在方法設計時考慮相對淺層的神經(jīng)網(wǎng)絡結構,研究神經(jīng)網(wǎng)絡算法如何在嵌入式平臺上提高計算效率[53];② 利用深度學習領域中的知識蒸餾[54]、網(wǎng)絡結構剪枝[55]或網(wǎng)絡參數(shù)量化等方法,降低DRL中深度神經(jīng)網(wǎng)絡的計算量,因而節(jié)省能量消耗;③ 將遷移學習結合仿真環(huán)境訓練機制,降低模型部署過程中所需要的訓練開銷;④ 更加關注分布式的MARL,將切換、資源分配、計算卸載、網(wǎng)絡接入等決策問題從衛(wèi)星集中式控制框架轉換為用戶自組織智能化決策框架,DRL方法部署在運算能力較強的地面終端,做出決策后,衛(wèi)星只需要簡單地判斷是否可以對其服務即可。

      針對額外通信開銷問題,由于DRL方法基于對環(huán)境的觀察進行決策,因此對周圍通信信息的收集往往有助于提升決策效果,但收集信息(例如信道質量信息)往往帶來了額外的開銷,因此在設計DRL狀態(tài)空間時需要考慮額外通信開銷和性能提升之間的權衡。目前僅有少數(shù)工作考慮到了此通信代價問題。

      7 結 論

      新興的DRL方法是應對未來SIN大規(guī)模、異構和動態(tài)難點的可行思路之一,其在SIN領域的應用方興未艾,有廣闊研究前景。尚未有工作對DRL方法在SIN領域的應用進行充分總結與深入討論。為填補此研究空白,本文對DRL方法在SIN中的優(yōu)勢、應用思路、研究現(xiàn)狀和挑戰(zhàn)進行了全面綜述,內容如下:

      (1) 對DRL方法在SIN資源分配、跳波束、計算卸載與緩存、路由、衛(wèi)星切換和接入選擇領域的現(xiàn)有研究進行了深入分析與總結,有助于讀者了解如何設計應用于SIN領域的DRL方法,并進一步找到現(xiàn)有研究的改進思路。

      (2) 以星地網(wǎng)絡中繼選擇問題為例,提出了兩種基于DRL的算法,通過基于平均場的DRL方法解決了衛(wèi)星網(wǎng)絡問題中特有的大規(guī)模節(jié)點問題。仿真實驗結果表明,結合實際問題特點利用改進的DRL方法有助于進一步提升性能,且基于微調的模型遷移機制能有效提高星上部署階段的訓練效率,方法具有可行性。

      (3) 基于研究現(xiàn)狀,總結了DRL方法的局限性和其在SIN領域面臨的關鍵挑戰(zhàn)。

      (4) 分析了DRL領域的前沿熱點與其對SIN應用難點的解決思路,并在此基礎上,進一步討論了DRL方法在SIN應用領域未來可能的研究方向。

      猜你喜歡
      中繼決策衛(wèi)星
      miniSAR遙感衛(wèi)星
      為可持續(xù)決策提供依據(jù)
      靜止衛(wèi)星派
      科學家(2019年3期)2019-08-18 09:47:43
      決策為什么失誤了
      面向5G的緩存輔助多天線中繼策略
      電信科學(2017年6期)2017-07-01 15:44:35
      Puma" suede shoes with a focus on the Product variables
      中繼測控鏈路動態(tài)分析與計算方法研究
      航天器工程(2015年3期)2015-10-28 03:35:28
      Nakagami-m衰落下AF部分中繼選擇系統(tǒng)性能研究
      What Would Happen If All Satellites Stopped Working? 假如衛(wèi)星罷工一天
      新東方英語(2014年1期)2014-01-07 19:56:11
      一種新型多協(xié)作中繼選擇協(xié)議研究
      额济纳旗| 延安市| 左贡县| 金湖县| 卢湾区| 沙洋县| 武穴市| 四川省| 新龙县| 伊吾县| 长沙县| 巩义市| 德兴市| 睢宁县| 呼玛县| 调兵山市| 玛纳斯县| 余庆县| 罗田县| 锡林浩特市| 屏东市| 周至县| 巴南区| 景德镇市| 多伦县| 泽普县| 红安县| 疏勒县| 犍为县| 连云港市| 延长县| 塘沽区| 封开县| 泰来县| 仁寿县| 巴彦淖尔市| 辽源市| 石棉县| 福泉市| 黄大仙区| 万载县|