鄧 邱,方旭明
(西南交通大學,四川 成都 611756)
近年來,隨著無線技術的飛速發(fā)展,無線業(yè)務的應用越來越廣泛,比如在移動教學、視頻會議、虛擬現(xiàn)實(Virtual Reality,VR)和物聯(lián)網(wǎng)等設備[1]中的應用。由于各種智能設備的不斷涌現(xiàn),移動數(shù)據(jù)流量呈現(xiàn)爆炸式增長。為了滿足流量需求,Wi-Fi 不斷地提升傳輸速率,然而想要進一步突破吞吐量的瓶頸,盲目地提升傳輸速率并不可行。有研究[2]表明,IEEE 802.11 標準具有理論吞吐量上限和理論延遲下限,當傳輸速率達到足夠高時,僅僅增加傳輸速率而不減少開銷將限制吞吐量的提升。因此,減少開銷對于Wi-Fi 網(wǎng)絡實現(xiàn)更高的吞吐量是尤為關鍵的。在IEEE 802.11n 標準中引入了幀聚合技術[3-4],可以較好地解決上述問題。通過該技術,將多個較短的媒體訪問控制(Medium Access Control,MAC)幀組合成一個長的MAC 幀進行傳輸,可減少MAC 層和物理層的幀頭開銷以及信道訪問開銷,提高MAC 效率。
單用戶傳輸場景下的幀聚合機制迄今為止已經(jīng)得到了廣泛的研究。文獻[5]提出了一種基于802.11n 網(wǎng)絡的服務質量(Quality of Service,QoS)保證的幀聚合算法,根據(jù)隊列指標(例如平均隊列長度和鏈路利用率)并結合有效容量的概念,使用比例積分導數(shù)控制器來選擇合適的聚合MAC 協(xié)議數(shù)據(jù)單元(Aggregation-MAC Protocol Data Unit,A-MPDU)長度,以提高信道利用率和降低時延。文獻[6]針對幀聚合過程中的能耗問題,提出了一種基于在線學習的幀聚合方案,通過ε貪婪策略和模糊邏輯從MPDU 子幀大小集合中找到最優(yōu)子幀長度,以最大限度地減少網(wǎng)絡中的能耗。文獻[7]提出了一種基于隨機森林方法的幀聚合方案,首先利用Minstrel 速率控制算法確定調制與編碼方案(Modulation and Coding Scheme,MCS),再根據(jù)網(wǎng)絡狀態(tài)(例如信道利用率、所選MCS 傳輸成功率等)選擇合適的聚合幀長度,以提高網(wǎng)絡吞吐量。
IEEE 802.11n 之后的標準繼續(xù)使用幀聚合技術,并對此進行改進升級。IEEE 802.11ac 標準和IEEE 802.11ax 標準分別引入了多用戶多輸入多輸出(Multi-User Multiple-Input Multiple-Output,MUMIMO)技術和OFDMA 技術來支持多用戶幀聚合傳輸。在多用戶幀聚合傳輸機制下,用戶的傳輸時間需保持對齊[8]。由于網(wǎng)絡流量異構性強[9],且每個用戶的傳輸速率不同,導致用戶的傳輸時間不同,傳輸時間較短的用戶需要填充比特。在傳輸?shù)倪^程中,過多的填充比特會降低信道的利用率,影響系統(tǒng)的吞吐量。因此,設計有效的多用戶聚合幀長度優(yōu)化方案來合理填充比特顯得愈發(fā)重要。
目前,針對多用戶幀聚合傳輸技術的研究主要基于MU-MIMO 多用戶傳輸機制。文獻[10]提出用其他用戶的數(shù)據(jù)來代替填充的比特,以提高傳輸效率。文獻[11]與文獻[10]類似,提出用其他用戶的數(shù)據(jù)幀來填補空閑信道時間,設計了兩種填充方案,能以非常小的開銷收集所需的信息,同時防止填充幀損害原始幀的可解碼性。雖然用其他站點的數(shù)據(jù)來代替填充比特可以提高傳輸效率,但是這種方法需要修改標準,以允許空間流中有多個目的地,且需更改用戶幀結構以及MCS,增加了發(fā)送和接收過程的復雜性。文獻[12]提出了一種基于802.11ac 網(wǎng)絡的多用戶傳輸幀聚合方案,根據(jù)站點的數(shù)據(jù)緩存狀態(tài)和傳輸速率,找到最優(yōu)的多用戶聚合幀長度,以最大化傳輸效率。但是該方案是從所有用戶的傳輸時間中找出一個使當前網(wǎng)絡吞吐量最優(yōu)的傳輸時間,作為多用戶傳輸時間,這樣可能會陷入局部最優(yōu)。
針對OFDMA 多用戶幀聚合傳輸?shù)难芯旷r少,現(xiàn)有研究大多側重于OFDMA 中資源的優(yōu)化,比如資源單元(Resource Unit,RU)調度[13]、子載波分配[14]以及接入機制[15]的研究。多用戶聚合幀長度優(yōu)化這一問題在文獻中尚未得到深入的探討,但是多用戶幀的填充開銷對系統(tǒng)性能的影響不容忽視,是無線局域網(wǎng)中多用戶傳輸?shù)囊粋€重要設計因素。
綜上所述,盡管當前已有對多用戶幀聚合傳輸技術的研究,但主要是針對MU-MIMO 多用戶傳輸。由于OFDMA 多用戶傳輸與MU-MIMO 多用戶傳輸在傳輸機制方面有一定差異,因此針對MUMIMO 多用戶幀聚合傳輸?shù)膬?yōu)化方案不能完全適用于OFDMA 多用戶傳輸。
本文基于802.1ax Wi-Fi 網(wǎng)絡,對OFDMA 多用戶聚合幀長度優(yōu)化問題進行了研究,主要貢獻如下:
(1)提出了一種基于強化學習的OFDMA 多用戶聚合幀長度優(yōu)化方案,該方案將AP 作為智能體,通過訓練和學習,根據(jù)站點的緩存狀態(tài)決策出最佳的多用戶聚合幀長度。
(2)所提方案適用于下行和上行OFDMA 傳輸。因為無論是上行還是下行傳輸,都由AP 進行集中調度,AP 能夠獲得上、下行需要傳輸?shù)臄?shù)據(jù)信息[8],并以此來決策多用戶聚合幀長度。
(3)以上行傳輸場景為例進行問題建模,并通過仿真驗證了所提方案能夠減少幀聚合傳輸過程中的填充比特,增加傳輸?shù)挠行ж撦d,提升了系統(tǒng)吞吐量和信道利用率。
在本文中,幀聚合傳輸考慮上行傳輸場景,基于集中式網(wǎng)絡拓撲結構。如圖1 所示,系統(tǒng)中有一個AP 和n個站點(Station,STA),n個STA 均與AP 相關聯(lián),由AP 調度STA 的傳輸。AP 采用緩沖狀態(tài)報告輪詢(Buffer Status Report Poll,BSRP)的方式調度上行多用戶幀聚合傳輸,周期性地向STA發(fā)送觸發(fā)幀來收集緩存信息,根據(jù)緩存信息為STA分配RU 進行數(shù)據(jù)傳輸。
圖1 一個AP 和多個STA 組成的網(wǎng)絡拓撲
假設系統(tǒng)中STA 的集合表示為SSTA={STA1,STA2,…,STAn},忽略干擾,則STAi與AP 之間的信噪比(Signal to Noise Ratio,SNR)可表示為:
式中:PTX為STA 的發(fā)送功率,GTX和GRX分別為站點天線的發(fā)送增益和AP 天線的接收增益,PL為路徑傳輸損耗,路損模型使用標準中的802.11 傳輸模型[16],為環(huán)境中的噪聲功率。
根據(jù)香農公式可以計算出STAi在給定RU 下的最大傳輸速率:
式中:B為RU 的帶寬。
基于OFDMA 多用戶幀聚合傳輸?shù)倪^程如圖2所示,為了保證多用戶傳輸時間對齊,需要對傳輸時間較短的站點進行額外的比特填充,而多用戶聚合幀長度的設置決定了填充比特的數(shù)量。若采取聚合幀長度L1所對應的傳輸時間,那么所有站點都需要填充比特,這樣會降低系統(tǒng)吞吐量。若采取聚合幀長度L2所對應的傳輸時間,那么所有站點傳輸?shù)挠行ж撦d大大減少,也會降低系統(tǒng)吞吐量。因此,本文的目標是設計出合理的方案來對多用戶聚合幀長度進行優(yōu)化,以此最大化系統(tǒng)吞吐量,提高信道利用率。
圖2 OFDMA 多用戶幀聚合傳輸過程[8]
將STAi的緩存隊列記為li,對應的傳輸時間為li/vi,i=1,2,…,n,vi為STAi的實際傳輸速率。假設多用戶聚合幀長度設置為L,那么多用戶聚合幀傳輸時間為:
式中:vave為n個STA 的平均速率。
假設有k個STA 的傳輸時間小于多用戶幀聚合傳輸時間,那么這類STA 需要額外填充比特,據(jù)此系統(tǒng)吞吐量可以表示為:
式中:tcost為多用戶傳輸機制開銷;tdifs為分布式幀間隔持續(xù)時間;tsifs為短幀幀間隔持續(xù)時間;tbsrp和tbsr分別為緩存區(qū)狀態(tài)報告輪詢觸發(fā)幀和緩存區(qū)狀態(tài)報告的持續(xù)時間;ttf,tpre,thead和tba分別為觸發(fā)幀、前導碼、聚合幀幀頭和塊確認應答幀的傳輸時間。
因此,優(yōu)化問題可以表示為:
式中:Lmin為最小多用戶聚合幀長度;Lmax為最大多用戶聚合幀長度。
上述OFDMA 多用戶幀聚合傳輸場景下的幀長優(yōu)化問題實際上是一個動態(tài)調優(yōu)問題,而動態(tài)未知環(huán)境下的優(yōu)化問題可以被建模成馬爾可夫決策過程(Markov Decision Process,MDP)。Q learning 算法可以有效解決MDP 問題。然而OFDMA 多用戶傳輸過程較為復雜,且具有較大的狀態(tài)和動作空間,簡單的Q learning 算法難以解決。深度Q 網(wǎng)絡(Deep Q-Network,DQN)算法在Q learning 算法的基礎上引入了神經(jīng)網(wǎng)絡,來擬合Q 表,可以很好地解決此類復雜問題。因此,本文提出了利用DQN 算法來優(yōu)化OFDMA 多用戶聚合幀長度。
在強化學習中,智能體根據(jù)環(huán)境的狀態(tài)選擇動作并且執(zhí)行,環(huán)境根據(jù)智能體的動作進行狀態(tài)轉移,并給智能體一個獎勵或者懲罰。強化學習的三要素包括狀態(tài)空間、動作空間和獎勵函數(shù)。對于本文所考慮的OFDMA 多用戶場景,將AP 作為智能體,狀態(tài)空間、動作空間和獎勵函數(shù)定義如下:
狀態(tài)空間S:st∈S,S=[s1,s2,…,st],st=[l1,l2,…,ln],表示在t時刻n個STA 的緩存數(shù)據(jù)長度。AP 可以通過BSRP 幀向STA 發(fā)出請求,STA 通過緩存狀態(tài)報告(Buffer Status Report,BSR)向AP 反饋緩存數(shù)據(jù)信息。
動作空間A:at∈A,A=[a1,a2,…,at],對于當前狀態(tài)st,智能體可以根據(jù)決策策略采取動作at。at為可選的聚合幀長度L,范圍為[a,b],以步長δbyte 進行離散化。
獎勵函數(shù)r:r(st,at)表示在當前狀態(tài)st下選擇動作at得到的即時獎勵。在前面的優(yōu)化問題中,本文的研究目標是最大化系統(tǒng)吞吐量。因此,定義即時獎勵為t時刻的系統(tǒng)吞吐量,并將其歸一化,表達式如下:
式中:Th為式(5)中給出的含義;Thmax為網(wǎng)絡預期的最大吞吐量。
在t時刻,智能體通過觀察狀態(tài)st,按照策略π選擇相應的動作at,作用于環(huán)境,環(huán)境反饋給智能體一個即時獎勵r(st,at),然后轉移到下一個狀態(tài)。st+1智能體的目標是學習策略π,使其獲得的長期累積折扣獎勵最大化,表達式如下:
式中:γ∈[0,1]是折扣率。當γ接近于0 時,表明智能體更在意短期回報;反之,當γ接近于1 時,長期回報變得更加重要。因此,在選擇γ值時,應根據(jù)系統(tǒng)特性進行調整,來確保γ在合理的范圍內。
策略π是將當前狀態(tài)映射至動作的概率分布。狀態(tài)st的狀態(tài)值函數(shù)表示智能體在遵循策略π時一個狀態(tài)的值,表達式如下:
狀態(tài)-動作值函數(shù)則表示智能體在遵循策略π時,在狀態(tài)st下采取某個動作的好壞程度,表達式如下:
Bellman 方程常用于求解MDP 問題,其核心思想是尋找最優(yōu)狀態(tài)值函數(shù),即所有狀態(tài)值函數(shù)中的最大值函數(shù),表達式如下:
對于V*(s),一個狀態(tài)的最優(yōu)值等于在該狀態(tài)下采取的所有動作所產(chǎn)生的狀態(tài)-動作值函數(shù)中的最大值,表達式如下:
因此,可以通過尋找最優(yōu)狀態(tài)-動作值函數(shù)來尋找最優(yōu)策略π*。在Q learning 算法中,更新Q值Q(st,at)[17]的公式為:
式中:α為學習率。
Q learning 算法使用一張Q 表來存儲Q 值,在DQN 算法中,使用神經(jīng)網(wǎng)絡來近似Q 表輸出Q 值,即Q(st,at;θ)≈Q(st,at)。本文使用的DQN 算法模型如圖3 所示,為了提高網(wǎng)絡訓練的收斂性和穩(wěn)定性,DQN 引入了目標網(wǎng)絡和經(jīng)驗回放策略。通過梯度下降來更新θ值,損失函數(shù)表達如下:
圖3 DQN 算法模型
式中:Q_target為Q的目標值;θ'為目標網(wǎng)絡的權重。
本文提出的多用戶聚合幀長度優(yōu)化算法流程如下:
本節(jié)通過MATLAB 仿真對所提出的基于DQN算法的聚合幀長度優(yōu)化方案的性能進行驗證。
仿真場景設置為單AP 多STA 場景,STA 在AP周圍隨機分布。仿真采用IEEE 802.11ax 標準中基于OFDMA 的上行多用戶傳輸機制,由AP 調度STA 進行傳輸。信道帶寬設置為20 MHz,聚合幀采用A-MPDU 傳輸方式。具體參數(shù)如表1 所示。
表1 仿真參數(shù)設置
為了準確體現(xiàn)本文所提方案對網(wǎng)絡吞吐量性能的提升,在仿真中對所提方案與3 種基線方案進行了比較,這3 種基線方案具體如下文所述。
(1)基線方案1:將多用戶聚合幀傳輸過程中最長的用戶傳輸時間設置為多用戶傳輸時間,記為最大(Max)聚合方案。
(2)基線方案2:將多用戶聚合幀傳輸過程中最短的用戶傳輸時間設置為多用戶傳輸時間,記為最?。∕in)聚合方案。
(3)基線方案3:隨機選擇一個用戶的傳輸時間,將其設置為多用戶傳輸時間,記為隨機(Random)聚合方案。
圖4 給出了所提算法累積獎勵收斂曲線。在算法初期,累積獎勵較低,智能體通過不斷地探索和訓練,掌握了環(huán)境狀態(tài)和動作之間的映射,能夠做出更優(yōu)的動作選擇,累積獎勵不斷增加,最終達到收斂。
圖4 累積獎勵收斂曲線
圖5 給出了不同學習參數(shù)對系統(tǒng)吞吐量的影響。圖5(a)表示,設置ε=0.2,α=0.5,γ=0.2 時,系統(tǒng)吞吐量相對較大。在這種情況下,α值降低對于吞吐量的影響較小,但是α值增大,吞吐量卻大大降低。圖5(b)表示,設置ε=0.5,α=0.5 時,改變γ的值,系統(tǒng)吞吐量的變化較小。圖5(c)表示,對于ε=0.8,α=0.5,設置γ=0.8 時,系統(tǒng)吞吐量得到顯著提升。因此,在設置ε,α和γ的值時,應根據(jù)系統(tǒng)特性不斷調整,以使算法具有較好的性能提升效果。
圖5 吞吐量與學習參數(shù)的關系
圖6 和圖7 分別給出了4 種方案下不同STA 的吞吐量以及系統(tǒng)吞吐量。從圖6 可以看出,基于DQN 算法的聚合方案能夠有效提升每個STA 的吞吐量。
圖6 STA 吞吐量
圖7 系統(tǒng)吞吐量
從圖7 可以看出,Min 聚合方案吞吐量最低,而DQN 聚合方案吞吐量最高,其次是Max 和Random 聚合方案。主要是因為Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間,大大減少了每次傳輸過程中的有效負載,增加了協(xié)議開銷在聚合幀傳輸時間中的占比,從而降低系統(tǒng)吞吐量。Max 和Random 聚合方案相較于Min 聚合方案,能夠減少協(xié)議開銷在整個聚合幀傳輸時間中的占比,然而不可避免地會帶來一定程度的比特填充,從而降低系統(tǒng)吞吐量。而基于DQN 算法的聚合方案,可以根據(jù)站點的數(shù)據(jù)緩存情況,自適應地調整聚合幀長度,從而減少填充比特,增加傳輸過程中的有效負載,提升系統(tǒng)性能。
圖8 和圖9 分別給出了4 種方案下不同STA 的填充比特數(shù)量以及系統(tǒng)填充比特數(shù)量。從圖8 可以看出,基于DQN 算法的聚合方案能夠有效減少每個STA 的填充比特數(shù)量。
圖8 STA 填充比特數(shù)量
圖9 系統(tǒng)填充比特數(shù)量
從圖9 可以看出,由于Max 聚合方案將最長的用戶傳輸時間作為多用戶傳輸時間,導致填充比特數(shù)量最多,Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間,基本沒有填充比特,Random和DQN 聚合方案有一定程度的比特填充,但是DQN 聚合方案填充相對較少。因此,結合系統(tǒng)吞吐量與填充比特數(shù)量,可以看出DQN 聚合方案對于系統(tǒng)性能的提升是優(yōu)于其他三種方案的。
圖10 給出了4 種方案下的系統(tǒng)頻譜效率。從圖中可以看出,基于DQN 算法的聚合方案的頻譜效率較高。這是因為其可以根據(jù)各個站點的數(shù)據(jù)緩存情況,動態(tài)地找出最優(yōu)的聚合幀長度,從而減少填充比特,提高系統(tǒng)頻譜效率。其他3 種聚合方案的系統(tǒng)頻譜效率相對較低,這是因為過多地填充比特或者減少傳輸有效負載,會導致帶寬資源的浪費。
圖10 系統(tǒng)頻譜效率
本文基于OFDMA 傳輸過程,對多用戶聚合幀長度優(yōu)化問題進行了研究。首先給出了多用戶幀聚合傳輸過程的系統(tǒng)模型并建立了優(yōu)化問題,其次設計了基于深度強化學習框架的聚合幀長度優(yōu)化方案,最后通過MATLAB 進行仿真。仿真結果表明,本文所提出的方案能夠根據(jù)站點的數(shù)據(jù)緩存情況自適應選擇聚合幀長度,減少填充比特,增加有效傳輸負載,降低協(xié)議開銷在聚合幀傳輸時間中的占比,從而提升系統(tǒng)吞吐量和頻譜效率。
然而本文的研究還存在一些局限:一是在仿真過程中,只搭建了上行傳輸場景,從而只驗證了該方案對于上行傳輸系統(tǒng)性能提升的有效性和適用性;二是并未分析算法的復雜性,只驗證了算法對于系統(tǒng)性能的提升。在接下來的研究工作中,會從以下兩個方面進行完善:一是通過仿真驗證所提方案對于下行傳輸系統(tǒng)性能提升的有效性和適用性;二是在不同的仿真場景下,對于系統(tǒng)性能的提升以及算法的復雜性,與其他優(yōu)化算法進行對比分析。