朱佳璐,馬永濤,劉開華
(天津大學(xué)微電子學(xué)院,天津 300072)
隨著無線通信技術(shù)的發(fā)展,信道環(huán)境變得越來越復(fù)雜,其中干擾攻擊對通信質(zhì)量造成了嚴重威脅。近些年有許多關(guān)于干擾模式及抗干擾方法的研究[1-5]。針對這種無線通信抗干擾的頻譜決策問題,可以利用馬爾可夫決策過程(Markov Decision Process,MDP)[6]作為框架進行分析。MDP是一個離散時間隨機控制過程,它提供了一個數(shù)學(xué)框架來建模頻譜決策問題,以優(yōu)化其結(jié)果。求解MDP的目標是為所考慮的用戶找到最優(yōu)策略。在抗干擾場景中,它意味著為認知用戶找到最佳的信道進行通信,以避免被干擾。但是在存在干擾的無線通信場景下,得出確定的狀態(tài)轉(zhuǎn)移概率是不可能的,這個問題可以借助機器學(xué)習(xí)范疇內(nèi)的強化學(xué)習(xí)算法來解決。例如,強化學(xué)習(xí)中經(jīng)典的q-learning算法[7]。基于q-learning算法,文獻[8-9]中Slimeni等人主要研究了單用戶場景下的抗干擾問題,隨后Aref等人將單用戶場景拓展到了多用戶場景[10],同時引入了馬爾可夫博弈框架,構(gòu)建模型中多個用戶之間的關(guān)系。文獻[11]提出了一種聯(lián)合功率分配和信道選擇的決策算法,可以有效解決動態(tài)干擾問題。文獻[12]提出了一種協(xié)同多智能體抗干擾算法(CMAA)以獲得最優(yōu)抗干擾策略,同時考慮了虛警率以及誤檢率的影響。
隨著用戶數(shù)的增加,對于維度過大的狀態(tài)空間,傳統(tǒng)的強化學(xué)習(xí)方法難以收斂。傳統(tǒng)的強化學(xué)習(xí)已經(jīng)與深度學(xué)習(xí)方法相結(jié)合繼而解決維度災(zāi)難問題。谷歌DeepMind首次提出了將卷積神經(jīng)網(wǎng)絡(luò)與qlearning結(jié)合在一起的深度強化學(xué)習(xí)算法,將傳統(tǒng)的q-table改進成神經(jīng)網(wǎng)絡(luò)形式,根據(jù)神經(jīng)網(wǎng)絡(luò)擬合出的函數(shù)值選擇動作。文獻[13]提出了進行干擾模式識別后決策的方法,同時還考慮了跳頻系統(tǒng)能量的消耗問題。對于無線網(wǎng)絡(luò)中,動態(tài)的頻譜接入問題,文獻[14-15]主要對單用戶場景進行研究。其中文獻[15]利用了DQN和Double DQN方法,使得單個用戶在復(fù)雜干擾條件下可以實現(xiàn)對干擾的規(guī)避,實現(xiàn)最優(yōu)接入策略。文獻[16]中考慮了在多信道無線網(wǎng)絡(luò)中,網(wǎng)絡(luò)效用最大化的動態(tài)頻譜接入問題,dueling DQN[17]的引入改善了因連續(xù)的不良狀態(tài)對動作選擇的影響。
圖1是多用戶系統(tǒng)存在干擾影響的場景,用戶在多個信道中根據(jù)策略選擇信道進行通信,避免用戶之間沖突以及干擾影響。本文針對該干擾場景,在無需在線協(xié)調(diào)或用戶之間交換信息條件下,提出了一種融合了LSTM[18]和DQN算法的多用戶聯(lián)合抗干擾決策算法(MJADA),該算法同時考慮用戶之間的協(xié)調(diào)(即減少用戶接入同一信道的風(fēng)險)以及對干擾的規(guī)避兩方面因素,目標是最大化傳輸成功率,在多種干擾模式以及用戶數(shù)目增加的場景下,都能進行有效收斂,得出最優(yōu)的抗干擾策略。
圖1 干擾存在的場景圖
本文中所有用戶皆為認知用戶。認知用戶具有可以進行頻譜感知,主動檢測信道狀態(tài)的能力。在一定的區(qū)域內(nèi),多個認知用戶組成了一個認知無線網(wǎng)絡(luò)。假設(shè)信道感知部分是已知的,即每個認知用戶都可以感知到所有信道的狀態(tài)(是否被占用)。
如圖2所示,一個時隙中,用戶可以進行數(shù)據(jù)傳輸、頻譜感知[19]及信道選擇和學(xué)習(xí)決策等四個任務(wù)。在某個時隙t中,每個認知用戶只能選擇其中一個信道進行傳輸。假設(shè)接入無線網(wǎng)絡(luò)中的所有認知用戶在每個時隙都有傳輸任務(wù),但是認知用戶可以選擇在某時隙不選擇信道進行傳輸。認知用戶可以選擇的信道集合跟干擾可以占用的信道集合是相同的。
圖2 傳輸時隙結(jié)構(gòu)圖
圖3為智能體即認知用戶與環(huán)境的交互過程,在時隙t中,智能體從環(huán)境中感知到當前狀態(tài)s t∈S,其中S為狀態(tài)空間。根據(jù)狀態(tài)s t,在動作空間A中選擇動作a t,根據(jù)輸入狀態(tài)動作對(s t,a t),智能體會收到獎勵r t。在下一時隙t+1,狀態(tài)s t也會隨之轉(zhuǎn)變成新的狀態(tài)s t+1。在傳輸時隙的最后,智能體根據(jù)自己收到的獎勵來更新策略。智能體的目標就是使自己得到的獎勵最大化。在本文構(gòu)建的模型中,認知用戶從環(huán)境中感知到的信道狀況作為狀態(tài)信息,認知用戶的聯(lián)合動作空間作為動作信息。
圖3 智能體與環(huán)境交互過程
本文考慮的認知無線網(wǎng)絡(luò)中,認知用戶集合為N={1,2,…,N},可用信道集合M={1,2,…,M}。認知用戶數(shù)目為N,可用信道的數(shù)目為M,其中(N 該場景下的抗干擾問題模型中,任意一個認知用戶的動作空間A n={0,1,2,…,M},即用戶可以選擇信道集合M中任意一條信道進行通信。所有認知用戶的聯(lián)合動作空間為A=?A n(n=1,2,…,N),?表示笛卡爾積。狀態(tài)空間S由每個信道的狀態(tài)來表示。0表示信道被占用,1表示信道處于空閑狀態(tài),所以狀態(tài)空間內(nèi)有2M種狀態(tài)。例如,S t=[0,1,1,1,0,1]表示系統(tǒng)中共有6個信道,在時隙t中信道1和5被占用。認知用戶n在時隙t中選擇信道進行傳輸后都會得到一個獎勵r n(S t,a n,t)。 式中:a n表示認知用戶n選擇的動作,a j表示干擾器的動作,a l表示認知用戶集合中除用戶n以外的任意用戶選擇的動作。每個用戶在一段時間內(nèi)的累計折扣獎勵為: 式中:γ為折扣因子(0<γ<1),T為整個訓(xùn)練過程的時域。 在這個多用戶的模型中某個時隙t的全局獎勵為: 目標是經(jīng)過學(xué)習(xí),生成一個可以使每個用戶的長期累計獎勵最大化的策略。 強化學(xué)習(xí)基本原理是在智能體與環(huán)境不斷地交互過程中,根據(jù)自身從環(huán)境中得到的獎勵或者懲罰來改進自己的策略,從而生成最優(yōu)決策。傳統(tǒng)強化學(xué)習(xí)算法,例如q-learning,智能體是根據(jù)狀態(tài)動作值Q(s,a)來選擇動作的。通過不斷的迭代,Q(s,a)才會達到收斂。Q(s,a)的更新公式如下: 根據(jù)Bellman公式: 式中:α(0<α<1)是學(xué)習(xí)因子,可以調(diào)節(jié)更新的Q(s,a)幅度,表示算法的學(xué)習(xí)速率。一般會把它取為一個較小的接近0的數(shù)字。V?(st+1)是狀態(tài)值函數(shù),總是選擇當前最大的Q(s,a)值。q-learning將存Q(s,a)存在在一個二維表格q_table中,智能體通過查表的方式獲取。當狀態(tài)空間過大或者動作連續(xù)的時候,需要進行降維操作,成本較大。 DQN算法是一種基于q-learning的無模型的強化學(xué)習(xí)算法。DQN中使用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器來近似狀態(tài)動作值函數(shù),即用q(s,a;θi)≈Q(s,a)。其中θi為神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)。q(s,a;θi)即預(yù)測q值由神經(jīng)網(wǎng)絡(luò)來迭代更新。 DQN網(wǎng)絡(luò)以最小化q(s,a;θi)的預(yù)測誤差為目標來進行訓(xùn)練。誤差函數(shù)可以表示為: 式中:目標q值y i可以表示為: DQN算法通過梯度下降方法來更新權(quán)重并減小目標q值和預(yù)測q值之間的預(yù)測誤差。傳統(tǒng)的動作選擇原始策略π是總是選擇當前時隙最大的Q(s,a)的動作,容易陷入局部最優(yōu),這里我們采用ε-貪心策略: 式中:p e為0~1之間的隨機數(shù)。ε(0<ε<1)為探索概率。該策略以ε的概率在動作空間|A|中隨機抓取一個動作,避免陷入局部最優(yōu)。ε為探索概率,1-ε為利用(選擇當前最優(yōu)策略)概率。ε的值越大,利用的概率就越小。算法執(zhí)行初始階段,由于狀態(tài)動作空間較大,探索概率應(yīng)該取較大的值,隨著迭代次數(shù)的增加,逐漸策略接近最優(yōu),利用概率應(yīng)該隨之增加。本文中為了平衡概探索與利用的關(guān)系,ε的值隨著迭代次數(shù)變化而變化。 式中:εmax,εmin為ε能夠取到的的最大值和最小值,ξ表示衰減因子,τ表示當前迭代次數(shù)。 為了打破馬爾可夫狀態(tài)下數(shù)據(jù)之間的相關(guān)性,適應(yīng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練不相關(guān)的數(shù)據(jù)的特性,DQN設(shè)有經(jīng)驗回放(Experience Replay)功能。將智能體經(jīng)歷過的(s t,r t,a t,s t+1)數(shù)據(jù)樣本存儲起來,在神經(jīng)網(wǎng)絡(luò)更新參數(shù)的過程中隨機抽取部分數(shù)據(jù)樣本加入訓(xùn)練,從而打破數(shù)據(jù)的關(guān)聯(lián)性。 LSTM結(jié)構(gòu)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)構(gòu)。RNN可以利用歷史信息對序列數(shù)據(jù)進行處理和預(yù)測,LSTM的提出解決了RNN的長期以來存在的梯度消失問題,目前在自然語言處理領(lǐng)域中的應(yīng)用取得了巨大的進展[20]。LSTM結(jié)構(gòu)組成如圖4所示。 圖4中的遺忘門決定要丟棄的信息,輸入門決定讓多少新的信息加入,輸出門決定從本LSTM單元輸出到下一個單元的數(shù)據(jù)。遺忘門: 圖4 LSTM網(wǎng)絡(luò)結(jié)構(gòu)及模型展開 輸入門: 輸出門: 式中:W i,c,o,b i,c,o為三個門的輸入權(quán)重、輸入偏置,x t 為當前時刻t的輸入,h t-1為t-1時刻LSTM單元輸出,f t為遺忘門輸出,C t,~C t為細胞狀態(tài)和候選值。 LSTM結(jié)構(gòu)用三個門來對輸入的數(shù)據(jù)序列決定保留程度,可以實現(xiàn)通過歷史信息對未來進行預(yù)測。本文中的抗干擾場景是各個用戶無信息交換,所以無法確定其他用戶選擇了哪個信道。算法中加入LSTM結(jié)構(gòu),利用歷史信息的經(jīng)驗來幫助用戶對其他用戶的行為進行預(yù)估,得出更好的頻譜決策策略,減少用戶之間的沖突,提升MJADA算法的抗干擾性能。 如圖5所示,用戶n從外界感知到的信道狀態(tài)以及ACK信號、用戶動作等內(nèi)容構(gòu)成了輸入內(nèi)容X n(t)。假設(shè)一共有L個信道,那么X n(t)為一個的長度為2L+2的向量。向量中第1位表示用戶是否接入信道,1表示用戶未選擇信道通信,0則相反。第2至L+1位表示用戶在時隙t-1中選擇的動作,若用戶選擇了信道l(1≤l≤L),那么除了第l+1位為1,其他L-1個位置都為0。第L+2至2L+1位表示用戶檢測到的外部信道狀態(tài),信道被占用置0,信道空閑置1。X n(t)中最后一位為1,則代表用戶接收到ACK信號且傳輸成功。若傳輸失敗或者用戶未成功接收到ACK信號則為0。 圖5 輸入信息結(jié)構(gòu)圖 算法偽代碼如表1所示。 表1 算法偽代碼 在本文實驗利用python和MATLAB工具進行系統(tǒng)仿真和實驗分析。算法模型中的各種參數(shù)根據(jù)參考相關(guān)文獻以及本文場景因素綜合決定。本文的干擾場景掃頻干擾和隨機干擾。掃頻干擾是指干擾器在一定的時間段內(nèi)對各個信道進行周期性的占用。隨機干擾是指干擾器隨機的選擇任意的信道進行占用,無經(jīng)驗規(guī)律可循。本文將三種不同的抗干擾決策方法進行了對比。三種方法分別是MJADA、獨立DQN算法以及隨機策略。其中獨立DQN算法為用戶都各自使用DQN算法來進行抗干擾決策。 表2 參數(shù)設(shè)置 3.2.1 收斂性能分析 算法中的誤差函數(shù)是目標q值與預(yù)測q值的均方差。誤差函數(shù)的值越小,說明算法收斂的越好。為了比較不同算法的收斂性,我們對不同算法的誤差函數(shù)曲線進行對比。 圖6為掃頻干擾場景下MJADA與獨立DQN算法的誤差函數(shù)曲線,為50場仿真的平均結(jié)果。從圖6可知獨立DQN算法收斂速度較快,但是收斂效果較差,MJADA收斂效果較好。以圖6最后10000時隙為例,MJADA的平均誤差函數(shù)值為0.09,相較獨立DQN算法的平均誤差函數(shù)值0.43,收斂效果提升了近五倍。 圖6 不同算法誤差函數(shù)曲線對比圖 3.2.2 抗干擾性能分析 本文中的抗干擾性能可以用歸一化累計獎勵ˉRnormal作為衡量標準。根據(jù)式(4)可得: 式中:T為算法迭代次數(shù),隨著時隙數(shù)增加而增加。Rsum為在某一時隙中,全部用戶可以獲得最大獎勵總和。另一個抗干擾性能評價標準可以定義為成功進行傳輸任務(wù)的次數(shù)。 r nt為用戶n在時隙t收到的獎勵。用戶收到獎勵為1即為傳輸成功。那么時隙T內(nèi)全局傳輸成功次數(shù)為: 在算法收斂階段對一定時間的傳輸成功次數(shù)進行統(tǒng)計,從而評價頻譜決策策略的好壞。 圖7為掃頻干擾場景下應(yīng)用不同抗干擾方法的歸一化累計獎勵曲線。該曲線為50次仿真數(shù)據(jù)平均。因為隨機策略不會從環(huán)境信息中進行學(xué)習(xí),收斂很迅速但是抗干擾的效果差,歸一化累計獎勵基本維持在0.5132。獨立DQN算法的歸一化累計獎勵基本上能達到0.7037。MJADA的歸一化累計獎勵可以達到0.8189。在掃頻干擾場景下MJADA的性能相較獨立DQN算法提升了約16.4%,相較隨機策略提升了約59.6%。 圖7 掃頻干擾下不同抗干擾方法性能對比 圖8為某一次隨機干擾下不同抗干擾方法的歸一化累計獎勵曲線。從圖中可以看出,獨立DQN方法抗干擾效果最差,最終歸一化累計獎勵穩(wěn)定在0.1482。隨機策略的歸一化累計獎勵迅速收斂維持在0.4089。MJADA的歸一化累計獎勵隨著時隙增加逐漸增長,最終達到0.4693。 圖8 隨機干擾下不同抗干擾方法性能對比 圖9為在掃頻干擾場景下算法收斂階段5000個時隙內(nèi)全局傳輸成功次數(shù)曲線。為了避免偶然性,本圖數(shù)據(jù)為10次仿真數(shù)據(jù)平均,曲線較為光滑。仿真中兩個用戶的全局傳輸成功次數(shù)上限為100000。隨機策略下的平均全局成功傳輸概率次數(shù)為5597次。應(yīng)用獨立DQN方法基本穩(wěn)定在7212次。應(yīng)用MJADA可以達到9645次。在收斂階段,MJADA性能比起隨機策略高出約72.3%,比起獨立DQN算法提升33.7%。MJADA在收斂階段有約3.6%的概率傳輸失敗,這是由于算法根據(jù)ε-貪心策略來選擇動作,會進行一定概率的探索動作,而非全部選擇當前最優(yōu)策略,在探索的過程中用戶就會被干擾或者發(fā)生沖突,導(dǎo)致傳輸失敗。 圖9 隨機干擾下不同抗干擾方法性能對比 圖10為10個用戶在掃頻干擾場景下應(yīng)用不同抗干擾方法的歸一化累計獎勵曲線。該場景下共有20個可用信道,共運行1.5×105個時隙。本圖數(shù)據(jù)為10次仿真平均。在該場景下,隨機策略的歸一化累計獎勵基本穩(wěn)定在0.56左右。而MJADA的歸一化累計獎勵最后達到約0.81。雖然隨著用戶數(shù)的增加,收斂時間隨之增加,但是抗干擾效果仍然優(yōu)于隨機策略。獨立DQN算法由于用戶間沖突,效果最差,歸一化累計獎勵收斂在0.24。 本文對不同用戶數(shù)目在掃頻干擾場景下利用不同抗干擾方法進行仿真,對算法收斂階段的傳輸成功概率進行了統(tǒng)計。根據(jù)式(19),傳輸成功概率可表示為P S=W/NT1。設(shè)置T1=10000。因為用戶數(shù)目的增加會導(dǎo)致狀態(tài)空間幾何式增長,為了快速遍歷所有狀態(tài),避免陷入局部最優(yōu),重新設(shè)置參數(shù)εmax=0.4,εmin=0.1,仿真結(jié)果如表3所示,其中所有的傳輸成功概率精度為小數(shù)點后三位有效數(shù)字。 表3 傳輸成功概率統(tǒng)計表 如表3所示,隨機策略傳輸成功概率均在0.6以下。隨著用戶數(shù)目的增加,獨立DQN算法性能大幅下降,而本文提出MJADA算法均能夠?qū)崿F(xiàn)有效的收斂,傳輸成功概率維持在0.9以上,可以實現(xiàn)良好的抗干擾性能。 本文結(jié)合了LSTM結(jié)構(gòu)和DQN算法,將其應(yīng)用到了多用戶抗干擾的問題場景中,提出了一種MJADA方法。仿真結(jié)果表明,在多用戶之間無信息交換的條件下,對于固定模式或以及變化的干擾,該算法均能夠有效的收斂,保持著良好的沖突避免及抗干擾效果,相較獨立DQN算法以及隨機策略,性能均有大幅提升。2 多用戶聯(lián)合抗干擾決策算法
2.1 DQN算法
2.2 LSTM結(jié)構(gòu)
2.3 MJADA算法
3 仿真分析
3.1 仿真條件與場景
3.2 仿真結(jié)果
4 結(jié)語