呂光輝
(航天恒星科技有限公司,北京 100095)
隨著無線通信技術的快速發(fā)展和廣泛應用,對通信系統(tǒng)的安全性和可靠性要求也日益增加[1-3]。同時,通信系統(tǒng)面臨著各種各樣的干擾攻擊,包括有意的攻擊和無意的干擾,如電磁輻射干擾、多徑效應等。
傳統(tǒng)的干擾技術通常采用單一的干擾方式,如使用高功率信號、增加噪聲等,但這些方法往往容易被現(xiàn)代通信系統(tǒng)的抗干擾技術所抵抗。為了提高干擾系統(tǒng)的干擾效果和適應性,研究人員開始嘗試使用機器學習技術來開發(fā)智能干擾系統(tǒng)[4-6]。機器學習技術可以為干擾系統(tǒng)提供強大的自適應能力和決策能力,并且可以根據(jù)實際情況進行實時調整,從而在各種復雜環(huán)境中實現(xiàn)最優(yōu)的干擾效果[7-10]。因此,基于機器學習思想對通信干擾系統(tǒng)進行研究。
在通用軟件無線電外設可重構輸入/輸出(Universal Software Radio Peripheral Reconfigurable Input/Output,USRP RIO)軟件中設計一個無線通信干擾框架,其具體的結構可分為2 個部分,分別是干擾機和通信用戶。具體而言,在通信用戶功能實現(xiàn)方面可以看出,在發(fā)射機中,基本的通信任務由USRP RIO 實現(xiàn),如通信數(shù)據(jù)的傳輸、視頻的在線播放等。同時,計算機負責處理數(shù)據(jù)以滿足傳輸前的幀結構,并根據(jù)需要調整參數(shù)。接收機負責信號接收、轉發(fā)和資源配置。此外,干擾機的基本功能和發(fā)射機一樣,都是在USRP RIO 和計算機的基礎上實現(xiàn)功能。
數(shù)據(jù)幀是一種通信用戶在通信過程中使用的數(shù)據(jù)結構,它的結構設計參考了長期演進(Long Term Evolution,LTE)幀,具體由4個部分組成,包括數(shù)據(jù)塊、長期訓練場(Long Training Field,LTF)序列、烏拉姆-沃伯頓(Ulam-Warburton,UW)序列以及同步信息組(Synchronization Information Group,SIG)序列。其中,數(shù)據(jù)塊用于存儲需要傳輸?shù)臄?shù)據(jù);LTF 序列是對信道容量的估計,同時均衡信道的流量;UW 序列能夠緩解在通信干擾系統(tǒng)中由多徑影響產生的符號干擾,增強了系統(tǒng)的傳輸能力;SIG 序列是對調制方式進行設置,調制方式可選用正交相移鍵控(Quadrature Phase Shift Keying,QPSK)和64 位正交幅度調制(64 Quadrature Amplitude Modulation,64QAM)等。SIG 序列在接收機接收到信號后,可以得到信號的調制信息,然后對信號進行解調。發(fā)送機與接收機發(fā)送和接收信息的功能流程如圖1 和圖2 所示。在數(shù)據(jù)的傳輸過程中,設計可靠有效的收發(fā)功能策略可以使通信用戶實現(xiàn)高速的傳輸功能。
圖1 發(fā)送機的功能流程
圖2 接收機的功能流程
從圖1 中可以看出發(fā)送機的基本功能。系統(tǒng)的信息源經過正交幅度調制(Quadrature Amplitude Modulation,QAM)模塊調制以后,傳輸?shù)讲迦險W,在這個模塊中,緩解了通信干擾系統(tǒng)由多徑影響產生的符號干擾,增強了系統(tǒng)的傳輸能力,然后信息傳輸?shù)浇M幀中。此外,由LTF 序列和SIG 序列調制的信號通過反傅里葉變換(Inverse Fast Fourier Transform,IFFT)和二進制相移鍵控(Binary Phase Shift Keying,BPSK)調制模塊后,再通過插入UW 模塊傳輸?shù)浇M幀模塊中。此時,組幀模塊中的信號傳輸?shù)搅松漕l(Radio Frequency,RF)發(fā)送模塊,而在該模塊中,還接收了來自發(fā)射參數(shù)修改模塊的信號,其主要是對包括中心頻點、發(fā)射功率等通信參數(shù)進行配置。
圖2 表示的是接收機的基本流程。首先,當RF接收模塊收到來自接收參數(shù)修改模塊的信號后,將該信號傳輸?shù)綆馕鯱W,經由該模塊將信號傳輸?shù)娇焖俑道锶~變換(Fast Fourier Transform,F(xiàn)FT)模塊。在FFT 模塊中,信號分為2 部分傳輸,一部分直接傳輸?shù)筋l域均衡器,另一部分進入通過LTF 序列進行信道估計,然后再進入頻域均衡器。其次,信號傳輸?shù)絀FFT 模塊,該模塊中信號的流向又分為了2 個部分,一部分直接傳遞到QAM 中進行解調,另一部分通過SIG 序列確認QAM 制式,再傳輸?shù)絈AM 進行解調。最后,信號進入信宿。
干擾機的功能也很簡單,其工作原理與發(fā)射機非常相似。信號源中的信號傳輸?shù)絈AM模塊進行調制,調制后的信號再傳遞到RF 發(fā)送模塊。同時,該模塊接收了來自具有隨機干擾和掃頻干擾的發(fā)射參數(shù)修改模塊的信號,然后RF 接收模塊中的相關參數(shù)被改變,最后通過天線傳送到無線信號。
該系統(tǒng)的組成包括了通信用戶、數(shù)據(jù)處理中心、干擾機以及認知引擎,并且存在多個感知節(jié)點。通信用戶中發(fā)射機和接收機之間的通信策略可以利用不同的信道進行相互切換。此外,通信用戶和干擾機在工作時的頻率一樣,因此這些頻率中的頻段被等寬的劃分為L個信道,其中信道集L1的表達式為L1={1,2,3,…,L}。在這些信道集中,干擾機和通信用戶在每一個時間間隙中都只使用一個信道。
在干擾系統(tǒng)中,其工作流程分為2 個部分,首先是完成頻譜感知,需要利用數(shù)據(jù)處理中心和感知節(jié)點來實現(xiàn),從而得到在無線狀態(tài)下信道的相關信息,這部分叫做頻譜感知。根據(jù)得到的信道相關信息驅動認知引擎,使得其執(zhí)行強化學習算法;強化學習算法可以學習發(fā)射機和接收機信號切換的規(guī)律,然后采取相應的干擾策略,這一部分叫做干擾決策。
在動態(tài)變化的通信用戶信道中,干擾機要執(zhí)行有效的干擾任務,必須要先學習通信用戶的通信規(guī)范,然后再進行干擾。為了選擇合適的干擾信道,馬爾可夫決策過程(Markov Decision Process,MDP)可以被用來表示。MDP 具有4 大要素,分別是動作、狀態(tài)、獎勵以及轉移概率,具體表示如下。
(1)時隙i時,干擾機選擇的干擾動作表示為
式中:fi+1為i+1 時隙的干擾信道。
(2)時隙i時,系統(tǒng)狀態(tài)可表示為
式中:ji為干擾機當前的干擾信道;fi為當前通信用戶使用的通信信道。
(3)時隙i時,設ri表示干擾機在si狀態(tài)下選擇動作時ai獲得的獎勵。本文中獎勵具體定義為若干擾信道與通信信道一致,則ri=1,否則ri=0。
(4)時隙i時,轉移概率可表示為
其表示干擾機在si狀態(tài)下基于動作ai轉移到狀態(tài)si+1的概率。
Q 學習是一種無模型的強化學習方法,它的理論基礎是MDP,因此大部分情況下都被用來處理MDP 問題。引入Q 學習來選擇干擾信道,具體的更新公式為
式中:Q'(si,ai)為下一時刻的狀態(tài)和實際采取的行動對應的Q值;Q(si,ai)為當前時刻的狀態(tài)和實際采取的行動對應的Q值;α為學習率,用于控制每次更新的步長,取值范圍為[0,1];ri為在狀態(tài)si下執(zhí)行動作ai后得到的即時獎勵;γ為折扣因子,用于衡量未來獎勵的重要性,取值范圍為[0,1];為在下一個狀態(tài)si+1時,選擇動作a'的最大Q值。
迭代步驟中的最優(yōu)動作估計值ai可表示為
式中:A為當前狀態(tài)下可選擇動作的集合。
在頻譜感知中,其主要功能的實現(xiàn)是依靠系統(tǒng)中的數(shù)據(jù)處理中心和感知節(jié)點。其中,感知節(jié)點可以感知無線環(huán)境,然后接收頻譜信息,但并不會處理和分析數(shù)據(jù),而是將在無線環(huán)境中得到的頻譜信息進行結合,再將數(shù)據(jù)包轉換成一致的格式,傳送到數(shù)據(jù)處理中心模塊進行處理。感知節(jié)點是基于USRP RIO 實現(xiàn)的,并基于通信用戶的接收機進行設計,對相應RF 接收模塊的參數(shù)進行修改,然后對一些不在同一頻段上的頻譜數(shù)據(jù)進行收集。
Q 學習是干擾決策的核心。在數(shù)據(jù)處理中心處理過的數(shù)據(jù)被傳輸?shù)秸J知引擎,在認知引擎模塊中對Q學習進行訓練,生成Q 表。通過引入Q 學習來選擇干擾信道,最后再發(fā)送干擾信號干擾用戶的通信。具體的實現(xiàn)過程如下:(1)啟動發(fā)射機和接收機按照設定好的信道切換策略選擇信道并進行通信,發(fā)送數(shù)據(jù);(2)感知節(jié)點使用頻譜感知技術,在預設掃描頻段內實時掃描監(jiān)測當前的無線環(huán)境,獲取通信用戶頻譜數(shù)據(jù)信息,并將信息發(fā)送給數(shù)據(jù)處理中心;(3)數(shù)據(jù)處理中心收到數(shù)據(jù)后,對數(shù)據(jù)進行處理,獲取通信用戶的通信信道狀況,并將信息發(fā)送給認知引擎;(4)認知引擎根據(jù)接收到的信息執(zhí)行Q 學習算法。干擾機根據(jù)當前狀態(tài)選擇下一個干擾信道并發(fā)送干擾信號,根據(jù)通信信道狀態(tài)計算獎勵值r并進行Q 表和狀態(tài)的更新。
USRP RIO 軟件無線電平臺的射頻頻譜范圍為1.2 ~6 GHz,這個范圍過大,不利于實驗測試。在實驗設置中選擇部分頻段用于測試,設置發(fā)射機、接收機以及干擾機的工作頻段為2.2 ~2.8 GHz,頻率間隔為100 MHz。
在發(fā)射機的初始設置中,將發(fā)射增益設置為0 dBm,中心頻點的初始值設置為2.5 GHz,本振頻率設置為-1 Hz。在接收機中,將中心頻點的初始值、本振頻率以及發(fā)射增益值設置與發(fā)射機相同。圖3 表示的是無干擾時,信號傳輸過程的星座。從圖3 中可以看出,映射點都集中在一起,這是利用BPSK 調制方式得到的結果。
圖3 無干擾時的星座
圖4 表示的是在有干擾的情況下,信號傳輸過程的星座。從圖4 中可以看出,實驗效果并不好,沒有達到期望的效果。
圖4 有干擾時的星座
介紹了基于機器學習的通信干擾系統(tǒng)的研究。該系統(tǒng)采用強化學習來預測通信干擾,并結合智能技術來提高干擾效果。在USRP RIO 軟件的基礎上,該系統(tǒng)實現(xiàn)了頻譜感知和干擾決策2 個主要功能,具有自適應能力和決策能力。該系統(tǒng)的優(yōu)點是提高了干擾效果和適應性,并為未來的通信干擾技術研究提供了新思路及方法。