過萌竹,孫 君
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
大規(guī)模機器類通信(massive Machine Type Communication,mMTC)是第五代移動通信技術的三大應用場景之一[1],在遠程醫(yī)療、自動駕駛、智能交通等應用場景中發(fā)揮著關鍵作用[2]。在傳統(tǒng)接入方法下,MTC設備總是會選擇最佳信號質量的演進型Node(evolved Node B,eNB)進行接入,大量的MTC設備同時接入會引發(fā)碰撞,造成網絡擁塞[3]。這最終將導致無線電接入網擁塞、超低的設備復雜性和有限的電池壽命[4-5]。
起初,專家學者提出ACB[6](Access Class Barring)以及擴展ACB方案[7-8]來解決擁塞問題。通過限制設備的接入數量,減少擁塞并提高接入成功率。這些方案的局限性在于大規(guī)模設備帶來的高延遲以及不同到達率設備帶來的前導碼分配不均[9]。
因此,目前的研究傾向于機器學習輔助的接入控制方案。文獻[10]提出了一種基于Q學習算法的設備接入控制方案,該方案利用Q學習來動態(tài)調整ACB因子的值,達到優(yōu)化接入的目的。文獻[11]使用吞吐量和延遲作為強化學習的獎勵,MTC設備根據獎勵選擇基站,從而增加了設備的吞吐量并減少了延遲。文獻[12]結合NOMA(Non-Orthgonal Multiple Access)技術和Q學習,通過地理位置分區(qū)復用前導碼,從而提高接入成功率。文獻[13]提出了一種協(xié)作分布式Q學習機制,這能夠為MTC設備的傳輸找到唯一的RA(Random Access)時隙。文獻[14]提出了一種基于強化學習的ACB方案, 調整了所有設備的禁止因子和延遲敏感設備的縮放因子,以保證大規(guī)模MTC設備的隨機接入。文獻[15]提出一種基于Q學習的隨機接入算法,優(yōu)先為H2H(Human to Human)設備提供服務并最大化M2M(Machine to Machine)設備接入數量,使M2M設備業(yè)務不影響H2H業(yè)務。
然而,隨著MTC設備數量增多,上述方案的有效性大打折扣。因此,需要設計出一種能夠適應大規(guī)模接入場景的方案。該文采用基于深度強化學習的方法,在考慮的場景中,基站可以知道沖突的設備數量,MTC設備通過探索或經驗動態(tài)地選擇基站。在開始時,因為不確定環(huán)境知識的原因會采取探索行動,隨著訓練次數越來越多,智能體會執(zhí)行處于這一狀態(tài)時能獲得最大獎勵的動作。該方案可以讓MTC設備準確地選擇較空閑的基站進行接入,減少了接入的延遲,也增加了接入的容量。
如圖1所示,該文考慮四個基站共同服務的區(qū)域,四個基站都有各自的前導碼池。MTC設備可以向任意的基站發(fā)送信號,爭奪前導碼資源按照二步RA進行接入。二步RA是對四步RA的一種增強,其優(yōu)點是通過簡化現有的分別攜帶前導碼和有效負載的四步RA來減少延遲,它可以用來檢測發(fā)生沖突的前導碼的數量,進而可以檢測發(fā)生沖突設備的數量。
在RA過程開始之前,基站周期性地廣播系統(tǒng)信息塊,其中包括用于同步的多個關鍵參數、前導信息和為RA預先配置的資源。在二步RA的第一步中,MTC設備發(fā)送一個前導碼和PUSCH(Physical Uplink Share CHannel)上的有效負載。利用接收到的標記前導碼,基站可以檢測每個前導碼是否發(fā)生沖突,基站計算出當前發(fā)生沖突的設備總數K并通過下行鏈路傳送到邊緣側。
圖1 系統(tǒng)模型
多個MTC選擇同一前導碼會導致前導沖突,無法在當前RA時隙傳輸數據,這些設備不需要退避時間,可以在下一個RA時隙進行重新接入。該文考慮的情況為MTC設備最多重傳1次。進行隨機接入的MTC設備分為兩類,一類是上一個RA時隙中沖突的設備,另一類是新激活的MTC設備。新激活的MTC設備服從速率參數為λ的泊松分布。
(1)
由于服從參數為λ的泊松分布,有:
(2)
因此,η可被改寫成:
(3)
Q學習是強化學習中value-base的算法,Q即為Q(st,at),表示在狀態(tài)st下,采取動作at能夠獲得的獎勵的期望。Q學習算法的主要思想就是將狀態(tài)和動作建立成一個Q表來存儲Q值。根據這個表格來選取可獲得最大獎勵的動作。然而,當狀態(tài)空間特別大時,在巨大的Q表中找到最優(yōu)策略具有挑戰(zhàn)性。因此,面對大規(guī)模MTC接入問題,該文采用深度強化學習(Deep Reinforcement Learning,DRL)來代替?zhèn)鹘y(tǒng)的Q學習。
DRL基本思想是用一個深度神經網絡來近似表示估值函數。這個深度神經網絡被稱為深度Q網絡(Deep Q-network,DQN)。DQN算法的目標是逼近真實的Q(st,at),輸入是可能的狀態(tài),輸出是該狀態(tài)下所有動作的Q值。
大規(guī)模MTC設備的隨機接入問題,實際上是一個決策問題。該文利用DQN來作一個最優(yōu)決策。DQN的算法流程如圖2所示。
圖2 DQN算法流程
將每一個MTC設備定義為agent,agenti=MTCDi,1≤i≤MTCDmax。
獎勵R:獎勵的定義為:
(4)
其中,K為發(fā)生沖突的設備數量。
算法的目標是最大化預期獎勵,將RA時隙t時未來的累計獎勵定義為Ut。
(5)
每個基站都有前導碼池,每個MTC設備在M 2M幀中的每個前導碼都有單獨的Q值,并在每次接入嘗試時進行更新。Q值的更新公式為:
(6)
其中,α是學習率,Rt+1是獎勵或懲罰,取決于接入是否成功。采用貪婪策略,agent會選擇Q值最大的動作。DQN利用一個目標網絡和在線網絡來穩(wěn)定網絡的整體性能。目標網絡更新其權重,以最小化損失函數,定義為:
(7)
(8)
經典的DQN算法無法有效解決大規(guī)模場景中的連接問題,并且在決策能力以及收斂速度上有著很大的缺陷,因此需要對傳統(tǒng)的DQN算法進行改進。該文所提的D3QN算法在經驗回放采樣、目標值計算、網絡結構中都做出了改進,具體改進如下文所述。
2.2.1 優(yōu)先經驗回放
在D裝滿的時候,新的數據會覆蓋舊的數據。在學習的時候,網絡不僅學習當前的數據,還可以通過隨機從D中采樣小批量數據來進行訓練,通過減少訓練樣本之間的相關性,經驗回放的方法確保了模型的收斂,并且使得網絡的訓練更加高效。然而從經驗中均勻采用并不是一個最佳的方法,因為從全局來看,剛開始的經驗占總經驗的比重很小,被采樣到的概率是很小的。但這部分經驗具有較大的時間差分誤差,是值得關注并且學習的,因此需要根據優(yōu)先級對經驗庫中經驗進行采樣。在回放緩存中,將經驗按照時間差分誤差從高到低進行排序,定義優(yōu)先級為:
(9)
每個經驗所對應的采樣概率為:
(10)
其中,rank(i)是經驗在回放緩存中的排名。通過優(yōu)先經驗回放,網絡的訓練速度將會更快。
2.2.2 Dueling Double DQN
如式(8)所示,傳統(tǒng)DQN在計算目標Q值時,需要窮舉所有的動作,把最高Q值加上獎勵變成目標Q值。網絡誤差會導致得到的目標Q值是被高估的。對于目標Q值被高估的問題,在D3QN中,使用在線網絡去選擇動作,目標網絡去計算Q值,通過在線網絡和目標網絡的交互,有效避免了DQN算法的目標值估計過高問題。如下所示:
(11)
除了目標值計算方式不同之外,D3QN與DQN還存在網絡結構上的不同。如圖3所示,傳統(tǒng)的DQN直接輸出Q值,D3QN將Q網絡分成兩部分,第一部分僅與狀態(tài)s有關,與具體采用的動作a無關,記為V(s)。第二部分同時與狀態(tài)s和動作a都有關,記為A(s,a),那么最終輸出的Q值可以表示為:
Q(s,a)=A(s,a)+V(s)
(12)
圖3 傳統(tǒng)DQN與D3QN網絡結構對比
在傳統(tǒng)DQN中,當需要更新某個動作a的Q值,會采用直接更新Q網絡的方法讓這個動作a的Q值提升。在D3QN中,更新某個狀態(tài)s的值時,不是簡單地更新某個動作的值,而是把所以動作的Q值都更新了一次。因為這個區(qū)別,D3QN算法在更新網絡的時候,可以用更少的次數讓更多的值進行更新,網絡的訓練速度會更快。根據以上改進,給出了基于強化學習的D3QN算法詳細過程,如算法1所示。
算法1:基于強化學習的D3QN算法。
1.初始化replay memory D,初始化DQN網絡參數θ,初始化目標網絡替換頻率M。
2.初始化在線網絡Q(s,a;θ)。
4.通過消息傳遞初始化網絡的狀態(tài)st。
6.基站向基站e發(fā)送接入請求,根據接入的成功與否以及式(4)獲得相應的獎勵或懲罰。
7.通過消息傳遞控制器得到下一個狀態(tài)st+1。
9.從D中按照式(10)采樣小批量的N個樣本。
11.通過梯度下降最小化損失函數(7)。
12.經過M次,將在線網絡的參數θ復制給目標網絡的參數θ-,θ-=θ。
13.結束循環(huán)。
本節(jié)對所提擁塞控制方案進行仿真。網絡由4個基站和若干設備組成。設置用戶數為50個,基站的半徑為500米,可用前導碼為32個,由4個基站平分。D3QN網絡的超參數設置如表1所示。
表1 D3QN仿真參數
在其他超參數都固定的情況下,設置參數λ為10,分別測試了不同學習率α對算法收斂性能的影響,結果如圖4所示。從圖中可以看出,在訓練初期,樣本數不多,過高的α訓練效果是很好的,但圖中α為0.1時發(fā)生了過擬合現象。隨著樣本數的增加,學習任務越來越復雜,過高的α導致收斂不理想,并且還降低了接入成功率。因此選擇學習率0.000 1。
圖4 不同學習率α下的訓練收斂性
在其他超參數都固定的情況下,設置參數λ為10,分別測試了不同折扣率γ對算法收斂性能的影響,結果如圖5所示。從圖中可以看出,不同折扣率γ都能夠使網絡收斂到同樣好。γ為0.90時,約100個回合就收斂了。γ為0.95時,前500個回合依舊有明顯震蕩。而γ為0.99時,需要更多的回合才能收斂。折扣率γ越高,表示希望agent越多關注未來的情況,這比關注當前要難得多,導致訓練變得緩慢和困難。因此選擇折扣率為0.90。
圖5 不同折扣率γ下的訓練收斂性
如圖6所示。對于不同的λ,接入成功率首先隨著訓練回合數的增加而增加,然后逐漸穩(wěn)定,這證明了所提出的基于深度強化學習的方案是可以收斂的。穩(wěn)定時的接入成功率隨著λ的增加而下降,這是由于新激活的MTC設備增加,網絡中競爭前導碼資源的設備增多,增加了碰撞概率。
圖6 不同λ下的接入成功率
圖7給出了所提方案與其他方案(文獻[13])以及傳統(tǒng)方案的比較結果。在相同條件下,所提方案明顯優(yōu)于傳統(tǒng)方案和其他論文中的方案。例如,當λ=10時,基于深度強化學習的方案對比其他方案,接入失敗率可以從5×10-2降低到1.41×10-2。所提方案將接入失敗率下降了71.8%,與傳統(tǒng)方案作比較,所提方案將接入失敗率下降了85.7%。這是因為DRL追求的是最大化的累計獎勵,因此在每一次選擇基站的時候,會選擇從長遠出發(fā)來看最不容易發(fā)生沖突的那個基站。從圖中可以看出,所提方案在新接入設備增多時有更好的效果,接入成功率隨λ的增加下降的幅度明顯小于其他方案,這說明此方案可以提供更佳的接入性能。
圖7 不同方案對比
該文提出了一種基于DRL的前導碼分配方案,用于MTC設備在二步隨機接入中選擇合適的前導碼。通過基站的沖突設備數量來調整RL中獎勵的大小,設備將選擇較空閑的基站進行接入,減少了可能發(fā)生的沖突。采用D3QN以及優(yōu)先經驗回放來改善網絡的訓練,網絡將會快速收斂。與其他方法和傳統(tǒng)方法對比表明,該方案能夠獲得更高的接入成功率。