李 芳 熊 俊* 趙肖迪 趙海濤 魏急波 蘇 曼
①(國防科技大學(xué)電子科學(xué)學(xué)院 長沙 410073)
②(湖南大學(xué)電氣與信息工程學(xué)院 長沙 410082)
③(北京跟蹤與通信技術(shù)研究所 北京 100094)
無線通信信道的開放性使其更容易受到未知干擾攻擊,對正常通信構(gòu)成威脅,因此抗干擾技術(shù)得到了廣泛的研究[1,2]。抗干擾技術(shù)主要是通過頻譜感知方式[3]檢測干擾信息,并根據(jù)自身通信狀態(tài)進(jìn)行干擾規(guī)避和對抗的過程,從而改善通信效率。干擾規(guī)避常用技術(shù)主要包括跳頻 (Frequency Hopping,FH)、傳輸速率自適應(yīng) (Rate Adaptive, RA)、功率控制等。如果干擾規(guī)律已知且恒定,可以使用監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,得到特定的策略進(jìn)行規(guī)避。但是一般無線環(huán)境中干擾規(guī)律未知且動態(tài)變化,預(yù)先制定好的規(guī)避策略難以適應(yīng)環(huán)境變化。當(dāng)干擾變化時原策略可能失效,無法采用監(jiān)督學(xué)習(xí)制定策略來優(yōu)化通信性能,需要探索更加有效的干擾規(guī)避算法。
在時域和頻域都動態(tài)變化的通信環(huán)境中,業(yè)界通常利用強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL)與環(huán)境進(jìn)行交互獲得學(xué)習(xí)經(jīng)驗來優(yōu)化干擾規(guī)避策略[4],從而達(dá)到規(guī)避干擾的目的。近年來,許多學(xué)者將動態(tài)頻譜接入 (Dynamic Spectrum Access,DSA) 和Q學(xué)習(xí)進(jìn)行結(jié)合,提出了多種有效的智能抗干擾方法。文獻(xiàn)[5,6]將信道選擇問題建模為馬爾可夫決策過程 (Markov Decision Process, MDP),提出了一種智能選擇最優(yōu)信道的實時強(qiáng)化學(xué)習(xí)算法(即Q學(xué)習(xí)),從而選擇條件較好的信道進(jìn)行數(shù)據(jù)傳輸來主動避免信道擁塞。在文獻(xiàn)[7]中,應(yīng)用極小極大-Q原理來確定用于傳輸數(shù)據(jù)信道的數(shù)目,并確定了如何在不同信道之間進(jìn)行信道切換的方案以規(guī)避干擾。文獻(xiàn)[8]在多信道動態(tài)抗干擾博弈中,基于強(qiáng)化Q學(xué)習(xí)技術(shù)提出了一種最優(yōu)的信道接入策略。此外,在認(rèn)知無線網(wǎng)絡(luò)(Cognitive wireless Network,CRN)場景中,文獻(xiàn)[9]提出的基于策略同步Q學(xué)習(xí)的信道分配策略主動避免了網(wǎng)絡(luò)中的信道擁塞問題。然而,以上算法均只采用信道切換進(jìn)行躲避干擾,顯然頻繁的信道切換會增大系統(tǒng)開銷,并不能帶來整體性能的提升,因此需要考慮其他方式來進(jìn)行躲避干擾,完成正常通信。
隨著通信設(shè)備的更新?lián)Q代,越來越多的通信設(shè)備開始具有切換通信頻率和調(diào)節(jié)發(fā)射功率的能力[10]。文獻(xiàn)[11]首次研究了多用戶場景下同時進(jìn)行信道選擇和功率分配決策的協(xié)作抗干擾問題,并將該問題建模為一個多主一從的Stackelberg博弈過程。文獻(xiàn)[12,13]提出的零和博弈研究了跳頻和傳輸速率控制,通過聯(lián)合優(yōu)化跳頻和傳輸速率自適應(yīng)技術(shù)來避免干擾。無線通信系統(tǒng)中的發(fā)送機(jī)通過改變其信道、調(diào)整其速率或同時改變這兩種方式來避開干擾,以提高系統(tǒng)的平均吞吐量,但該文獻(xiàn)僅對反應(yīng)式掃頻干擾這一種干擾模式做出了分析,并不適用于多種干擾環(huán)境。而文獻(xiàn)[14]則將上述決策問題描述為一個馬爾可夫決策過程,提出了一種基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)的抗干擾算法,該算法可以同時對通信頻率和功率進(jìn)行決策,但是該算法并沒有考慮信道切換的代價,不能從多方面說明算法的優(yōu)勢?;赒學(xué)習(xí)的2維抗干擾移動通信方案[15]為每個狀態(tài)策略保留Q函數(shù),用于選擇發(fā)射功率和接入信道,但是狀態(tài)空間維度過大會造成Q學(xué)習(xí)的學(xué)習(xí)速度降低,難以適應(yīng)動態(tài)變化的無線通信環(huán)境。
針對動態(tài)變化的干擾環(huán)境,干擾規(guī)避策略不僅需要考慮通信信道的接入和發(fā)射功率控制,還應(yīng)該考慮算法收斂速度以快速適應(yīng)環(huán)境變化??紤]這一聯(lián)合優(yōu)化目標(biāo),本文將動態(tài)變化環(huán)境中的干擾規(guī)避問題建模為一個馬爾可夫決策過程,提出了一種贏或?qū)W習(xí)快速策略爬山 (Win or Learn Fast Policy Hill-Climbing, WoLF-PHC)的干擾規(guī)避方法,本方法使用“贏或快學(xué)習(xí)”準(zhǔn)則以及可變的學(xué)習(xí)率,從而更快地實現(xiàn)最優(yōu)的干擾規(guī)避策略。本文主要的研究工作如下:
(1) 首先基于實際無線通信環(huán)境,建立2維時頻域的經(jīng)典干擾模型,比如掃頻干擾、隨機(jī)干擾、跟隨式干擾、貪婪隨機(jī)策略干擾,用于后續(xù)仿真驗證。
(2) 然后將干擾環(huán)境下的接入信道和發(fā)射功率控制問題建模為一個馬爾可夫決策過程,分別給出狀態(tài)、動作、轉(zhuǎn)移概率和獎勵4個元素,并將其定義為一個4元組(S,A,p,R)。
(3) 介紹傳統(tǒng)Q學(xué)習(xí)算法,接著提出一種基于WoLF-PHC學(xué)習(xí)的快速干擾規(guī)避算法。
(4) 將所提的WoLF-PHC算法與傳統(tǒng)Q學(xué)習(xí)和隨機(jī)策略進(jìn)行仿真對比,驗證了所提WoLF-PHC算法性能最佳。
為了模擬無線通信環(huán)境中的未知干擾,干擾機(jī)在每個時隙隨機(jī)選擇干擾信道并發(fā)送特定干擾功率的干擾信號,以惡化或中斷正在進(jìn)行的通信鏈路。本文考慮4種干擾模型[15]場景,分別為掃頻干擾、貪婪隨機(jī)策略干擾、跟隨式干擾、隨機(jī)干擾。具體定義如下:
(1) 掃頻干擾:每個時隙干擾m個信道,總信道數(shù)M為m的整數(shù)倍,掃頻周期即為T=M/m。例如,在第1個掃描周期先產(chǎn)生一個隨機(jī)序列[3,5,1,4,2,6], 即第1個時隙干擾信道[f3,f5],第2個時隙干擾信道[f1,f4], 第3個時隙干擾信道[f2,f6]。當(dāng)一個掃頻周期結(jié)束之后,繼續(xù)重復(fù)上一個周期的干擾策略。
(2) 貪婪隨機(jī)策略干擾:每個時隙隨機(jī)選擇干擾信道,使用P0=1?ε的概率干擾相同信道,P1=ε的概率隨機(jī)干擾新信道。假設(shè)每個時隙生成一個( 0,1) 的 隨機(jī)數(shù),如果這個隨機(jī)數(shù)小于ε,則隨機(jī)干擾一個新信道,如果這個隨機(jī)數(shù)大于ε,那么繼續(xù)干擾原信道。
(3) 跟隨式干擾:根據(jù)正在進(jìn)行通信的信道來選擇干擾策略。即干擾上一時隙通信所采用的信道,上一時隙通信采用哪個信道,當(dāng)前時隙就干擾哪個信道。
(4) 隨機(jī)干擾:每個時隙隨機(jī)選擇信道和干擾功率進(jìn)行干擾。
如圖1所示,考慮無線通信環(huán)境中,存在發(fā)送機(jī)、干擾機(jī)、接收機(jī)。設(shè)信道增益為1,發(fā)送信號為x(t),噪聲為n(t),干擾信號為z(t),那么接收信號y(t)為
圖1 系統(tǒng)模型
假設(shè)該系統(tǒng)中發(fā)送機(jī)的發(fā)射功率集合為PU={pu1,pu2,...,pui,...,puL},pui表示可供選擇的發(fā)射功率大小,共有L種發(fā)射功率。第k個時隙所使用的發(fā)射功率記為,∈PU。干擾功率集合設(shè)為PJ={pj1,pj2,...,pji,...,pjW},pji表示可供選擇的干擾功率大小,共有W種發(fā)射功率。第k個時隙干擾功率記為,∈PJ, 噪聲功率為σ2。利用頻譜感知算法[3],我們可以獲得未知環(huán)境下的干擾信息(即干擾所占信道和干擾功率)?;谶@一干擾信息,發(fā)送機(jī)需要選擇合適的信道和發(fā)射功率使接收信號達(dá)到一定的信干噪比,完成正常解調(diào)達(dá)到正常通信的目的。發(fā)送機(jī)應(yīng)盡量減少信道的切換和發(fā)射功率,以達(dá)到較少開銷的目的。這里引入信道切換代價和功率來衡量系統(tǒng)開銷。所謂信道切換代價,即為后一時隙與前一時隙選擇的通信信道不同時,進(jìn)行信道切換所帶來的代價;而功率代價,即為所使用的發(fā)射功率越大,成本越大。因此,在未知且動態(tài)變化的干擾環(huán)境中,發(fā)送機(jī)應(yīng)需要盡量減少信道切換和發(fā)射功率的代價,同時還要規(guī)避干擾,從而完成正常通信。
本文將未知環(huán)境下發(fā)送機(jī)選擇信道和功率控制過程建模為一個馬爾可夫決策過程 (Markov Decision Process, MDP)[6]。MDP為尋找最優(yōu)策略提供了數(shù)學(xué)模型,在描述MDP時,通常采用狀態(tài)、動作、轉(zhuǎn)移概率和獎勵這4個元素,并將其定義為一個4元組(S,A,p,R)。 其中,狀態(tài)空間S和動作空間A是離散的,由于本文的下一狀態(tài)由當(dāng)前動作確定,所以狀態(tài)轉(zhuǎn)移概率為確定值,記為p:S×S×A →[0,1],表示給定當(dāng)前狀態(tài)sk ∈S下選擇動作ak ∈A轉(zhuǎn)移到下一狀態(tài)sk+1∈S的概率。本文的MDP模型具體如下:
(1) 狀態(tài):定義第k個時隙的狀態(tài)為sk=(),其中∈{1,2,...,M},前者表示當(dāng)前時隙選擇的通信信道,后者表示當(dāng)前時隙干擾所占用的信道,設(shè)狀態(tài)空間為S。
(2) 動作:定義在第k個時隙用戶采取的動作為ak=(), 其中∈{1,2,...,M},∈PU。為第k+1個時隙用戶選擇的通信信道,為第k+1個時隙用戶采用的發(fā)射功率,動作空間大小為M×L, 記為A。
(3) 獎勵函數(shù):當(dāng)用戶在sk狀態(tài)執(zhí)行動作ak時,會獲得相應(yīng)的獎勵值Rk。這里定義第k個時隙的信干噪比 (Signal to Interference plus Noise Ratio, SINR)為
在學(xué)習(xí)過程中,用戶不斷與環(huán)境交互,探索干擾的變化規(guī)律,從而獲得最優(yōu)的傳輸策略。本文的系統(tǒng)目標(biāo)是優(yōu)化用戶的傳輸策略π,使系統(tǒng)的長期累積收益最大化,因此系統(tǒng)優(yōu)化問題可以建模為其中,γ (0<γ≤1)為折扣因子,表示未來收益對當(dāng)前收益的重要程度。
由于問題式(4)被建模為馬爾可夫決策問題,可以采用Q學(xué)習(xí)方法與環(huán)境進(jìn)行實時交互,根據(jù)選取動作得到下一時隙的反饋獎勵值,并不斷更新2維Q矩陣來實現(xiàn)抗干擾策略的優(yōu)化。下面將介紹傳統(tǒng)Q學(xué)習(xí)算法,并對該算法的現(xiàn)有缺陷進(jìn)行分析,進(jìn)而提出一種基于WoLF-PHC的快速強(qiáng)化學(xué)習(xí)算法。所提算法在未知干擾模型且干擾動態(tài)變化的情況下,不僅能保持Q學(xué)習(xí)的性能,而且能快速學(xué)習(xí)干擾變化規(guī)律并獲得最優(yōu)規(guī)避策略,在隨機(jī)干擾的情況下也能保證收斂。
采用Q學(xué)習(xí)的方法來解決MDP問題的主要思想是將狀態(tài)和動作構(gòu)建成一張2維Q表來存儲Q值,然后根據(jù)Q值來選取能夠獲得最大收益的動作。Q表中的元素即Q(s,a),表示在某一時隙的s狀態(tài)下(s∈S),采取動作a(a∈A)后預(yù)計能夠得到的累計獎勵值。在第k個時隙的狀態(tài)s下采取動作a,更新的Q函數(shù)為[6,12]
其中,sk,ak分別表示當(dāng)前的動作和狀態(tài),α ∈(0,1]表示學(xué)習(xí)率,γ ∈(0,1]表 示折扣因子,Rk代表在sk狀態(tài)執(zhí)行動作ak時(獲得的)獎勵值。Qk(sk,ak)為當(dāng)前的Q值,Qk+1sk,ak則表示更新后的Q值。maxaQk(sk+1,a) 表示下一個狀態(tài)所有Q值中的最大值。
在基于Q學(xué)習(xí)的選擇策略中,如果用戶總是選擇Q值對應(yīng)最大的動作,算法容易陷入局部最優(yōu),因此可以采用貪婪策略選擇動作。在貪婪選擇動作的過程中,產(chǎn)生一個[ 0,1]的隨機(jī)數(shù),如果該數(shù)小于ε,則隨機(jī)采取一個動作,否則選擇Q值最大對應(yīng)的動作。貪婪策略[16]定義為
基于Q學(xué)習(xí)的功率和信道選擇策略具體步驟如表1所示。
表1 基于Q學(xué)習(xí)的功率和信道選擇策略
Q學(xué)習(xí)采用恒定的學(xué)習(xí)率,收斂速度較慢。根據(jù)后面仿真結(jié)果圖2(d)可知,針對隨機(jī)策略的干擾該算法不一定達(dá)到收斂。在實際無線通信場景中,很難預(yù)知干擾的動態(tài)變化情況??梢姡瑐鹘y(tǒng)Q學(xué)習(xí)算法并不適用于所有環(huán)境。為此,本文提出了一種新的WoLF-PHC算法,其采用可變的學(xué)習(xí)率使用戶加快學(xué)習(xí),并且根據(jù)贏或快學(xué)習(xí)(Win or Learn Fast, WoLF)準(zhǔn)則保證了算法的收斂性。
圖2 不同干擾環(huán)境下的算法性能
贏或?qū)W習(xí)快速策略爬山(WoLF-PHC)[17]是將“贏或快學(xué)習(xí)” (WoLF)規(guī)則與“策略爬山法”(Policy Hill-Climbing, PHC)相結(jié)合的一種學(xué)習(xí)算法。其中PHC算法是Q學(xué)習(xí)的簡單擴(kuò)展,通過學(xué)習(xí)率δ ∈(0,1)逐步增大選擇最大行為值(即Q值)的概率來改進(jìn)策略。當(dāng)δ= 1時,該算法等效于Q學(xué)習(xí)算法。該算法中,Q函數(shù)的更新規(guī)則與Q學(xué)習(xí)算法中的更新規(guī)則相同,即式(5)所示。然而,面對隨機(jī)策略干擾,PHC算法依然無法收斂。因此,文獻(xiàn)[16]進(jìn)一步引入了WoLF算法以確保算法收斂。當(dāng)用戶當(dāng)前“贏”時,緩慢調(diào)整學(xué)習(xí)速率,當(dāng)用戶“輸”時,加快學(xué)習(xí)速率,這樣使得PHC算法能夠收斂到納什 均 衡。當(dāng) 前 策 略π(s,a) 和 平 均 策 略πˉ (s,a)之 間 的差異可以作為判斷算法輸或贏的標(biāo)準(zhǔn)。為了計算平均策略,引入C(s) 表 示當(dāng)前狀態(tài)s出現(xiàn)的次數(shù),平均策略的規(guī)則為
當(dāng)前策略π(s,a)的 初始值為1 /|A|,|A|為動作空間的長度。如果選擇最大Q值的動作,則當(dāng)前策略增加一個值;而選擇其他動作則減去一個值。當(dāng)前策略的更新規(guī)則可表示為
其中
基于WoLF-PHC學(xué)習(xí)的功率和信道策略具體步驟如表2所示。
表2 基于WoLF-PHC學(xué)習(xí)的功率和信道選擇策略
本節(jié)主要基于所提WoLF-PHC算法、Q學(xué)習(xí)算法以及隨機(jī)策略進(jìn)行信道和發(fā)射功率的選擇,并對這3種算法進(jìn)行仿真分析對比。其中,隨機(jī)策略是根據(jù)上一時隙的感知結(jié)果,下一時隙隨機(jī)選擇上一時隙未受干擾的信道和干擾功率。在仿真過程中,首先在頻譜感知信息完全正確的情況下,研究了算法的收斂性并對其進(jìn)行性能評估。其次,在頻譜感知結(jié)果存在誤差的情況下,對算法的魯棒性能進(jìn)行分析討論。仿真參數(shù)如表3所示。
表3 仿真參數(shù)
如圖2所示,本文針對掃頻干擾、貪婪隨機(jī)策略干擾、跟隨式干擾、隨機(jī)干擾4種典型干擾場景進(jìn)行性能分析。假設(shè)一共有M=6個頻率不重疊的通信信道,縱坐標(biāo)表示信道,橫坐標(biāo)代表時隙。實心色塊代表當(dāng)前時隙存在干擾的信道,顏色深淺代表干擾功率的大小,顏色越深代表功率越大,白色代表當(dāng)前時隙無干擾且不被占用的通信信道,網(wǎng)格塊代表當(dāng)前時隙正在通信的信道。其中,圖2(a)表示掃頻周期為T=3 ,每個時隙存在m=2個信道的掃頻干擾;圖2(b)為貪婪概率為ε= 0.2的貪婪隨機(jī)策略干擾;圖2(c)為跟隨式干擾,當(dāng)?shù)?個時隙選取f5信道進(jìn)行通信時,在第2個時隙就干擾f5信道;圖2(d)為隨機(jī)干擾。
為了對系統(tǒng)一段時間的性能進(jìn)行統(tǒng)計,仿真過程中在每50個時隙內(nèi)累積并統(tǒng)計一次獎勵值。假設(shè)歷史干擾檢測所占用的信道和干擾功率完全正確,由圖3(a)—圖3(c)可知,當(dāng)經(jīng)歷一段時間后,每種干擾模型下所得到的累積獎勵值能夠趨于穩(wěn)定,可見算法具有收斂性。此外,還可以觀察到WoLFPHC比Q學(xué)習(xí)能更快地達(dá)到收斂,這說明該算法能夠快速地學(xué)習(xí)干擾規(guī)律并迅速適應(yīng)環(huán)境,采取最優(yōu)策略使用戶完成通信。在算法收斂后,WoLFPHC和Q學(xué)習(xí)的性能相近,而隨機(jī)策略性能相比這兩者差很多。而由圖3(d)所示,針對隨機(jī)干擾,Q學(xué)習(xí)最終不能達(dá)到收斂,WoLF-PHC依然可以快速收斂。所以由仿真結(jié)果可知,在歷史頻譜感知結(jié)果完全正確的情況下,WoLF-PHC比Q學(xué)習(xí)可以獲得更快的收斂速度,且性能也略優(yōu)于Q學(xué)習(xí),遠(yuǎn)好于隨機(jī)策略。
圖3 4種典型干擾模型
圖4表示在掃頻干擾的環(huán)境下,WoLF-PHC算法基于不同誤檢概率下的干擾規(guī)避性能,其中p表示感知干擾所占信道錯誤的概率。由圖4可以看出,當(dāng)頻譜感知結(jié)果存在誤差時會對所提的干擾規(guī)避算法產(chǎn)生一定的影響。當(dāng)頻譜感知完全正確的情況下,干擾規(guī)避的性能優(yōu)于頻譜感知存在錯誤的情況,而且誤檢概率越大,干擾規(guī)避性能會越差,但隨著時間的推移,不同誤檢概率的干擾規(guī)避性能幾乎相近。而且,所提WoLF-PHC算法仍然能夠?qū)崿F(xiàn)收斂,對頻譜感知誤差具有一定的魯棒性。
圖4 頻譜感知誤差對所提干擾規(guī)避算法的影響
本文主要在未知干擾環(huán)境下,研究了一種聯(lián)合發(fā)射功率控制和動態(tài)信道接入的WoLF-PHC干擾規(guī)避方法。在4種典型的干擾環(huán)境下,通過對比基于Q學(xué)習(xí)的干擾規(guī)避方法、基于WoLF-PHC的干擾規(guī)避方法和隨機(jī)干擾選擇方法,可以看出前兩種算法都比隨機(jī)選擇方法性能更優(yōu)。所提的基于WoLF-PHC干擾規(guī)避方法的性能和收斂速度均比Q學(xué)習(xí)更好。進(jìn)一步,在頻譜感知結(jié)果存在誤差的情況下對干擾規(guī)避性能的影響進(jìn)行分析可知,頻譜感知的誤檢概率越大,干擾規(guī)避性能會略差。在不同頻譜感知誤差情況下,所提WoLF-PHC算法仍然能夠?qū)崿F(xiàn)收斂,具有一定的魯棒性。