張曉博,王 海,馮智斌,李艾靜
(陸軍工程大學(xué)通信工程學(xué)院,江蘇南京 210003)
目前已有的中繼通信抗干擾研究中,文獻(xiàn)[1]針對功率域抗干擾問題,提出了一種以用戶為領(lǐng)導(dǎo)者、中繼為次領(lǐng)導(dǎo)者、干擾機為跟隨者的三層斯坦伯格博弈,證明了斯坦伯格均衡的存在性并求出了均衡解的閉式表達(dá)式。文獻(xiàn)[2]在前人基礎(chǔ)上,進(jìn)一步考慮了不完全信息對功率策略優(yōu)化帶來的影響。文獻(xiàn)[3]聚焦于多中繼通信場景,利用Q學(xué)習(xí)和多臂老虎機方法,實現(xiàn)了用戶中繼選擇和功率控制的聯(lián)合決策優(yōu)化。文獻(xiàn)[4]研究了掃頻、正弦和高斯隨機噪聲等不同干擾模式下的中繼通信選頻問題。文獻(xiàn)[5]針對非法中繼通信鏈路,提出了主動竊聽機制和抗中繼選擇干擾方法破壞非法通信。文獻(xiàn)[6]針對干擾環(huán)境下無人機通信網(wǎng)絡(luò)中的能耗問題,在無先驗信息條件下改進(jìn)了中繼功率策略。文獻(xiàn)[7]提出了一種基于在線學(xué)習(xí)的智能抗干擾架構(gòu),初步設(shè)計了一個抗干擾系統(tǒng)并介紹了系統(tǒng)各功能模塊。文獻(xiàn)[8]研究了竊聽場景下的中繼協(xié)作安全通信問題。文獻(xiàn)[9]研究了多跳中繼通信系統(tǒng)中的能效優(yōu)化問題,考慮功率對能效和傳輸時延的影響,提出以能效和傳輸時延為優(yōu)化對象的多目標(biāo)優(yōu)化功率控制算法。文獻(xiàn)[10]研究了干擾抑制區(qū)下的D2D通信模式選擇問題。文獻(xiàn)[11]針對常規(guī)通信模式易受跟蹤干擾攻擊的問題,提出了基于雙序列跳頻的抗干擾通信方法,有效降低了跟蹤干擾帶來的影響。在車聯(lián)網(wǎng)背景下,文獻(xiàn)[12]進(jìn)一步考慮外界惡意干擾和用戶間互擾帶來的影響,聯(lián)合優(yōu)化用戶的中繼選擇和波束成形策略,提高控制信息的傳輸可靠性。上述工作主要針對常規(guī)干擾模式或能量受限的反應(yīng)式干擾,通過功率調(diào)整硬抗或跳頻躲避的方式實現(xiàn)抗干擾通信,但在面臨具有壓制能力的跟蹤干擾時,傳統(tǒng)硬抗方式將不再適用。
在面對跟蹤干擾時,可以通過提高跳速的方式躲避跟蹤干擾,這是屬于硬件設(shè)備層面上的改進(jìn)。針對具有功率壓制和環(huán)境感知能力的干擾時,文獻(xiàn)[13]提出了一種新的合作抗干擾思路,設(shè)計了一種面向頻譜市場的補償機制,通過鼓勵低通信需求用戶成為誘餌,以高功率發(fā)送信號主動吸引干擾,從而為其他用戶合理配置通信資源。然而文獻(xiàn)[13]中需要有一個中心基站為所有用戶分配通信策略,且用戶與基站之間需要大量的信息交互。
本文針對通信方與干擾方之間的對抗特性以及跟蹤干擾被動跟隨的特性,構(gòu)建了基于主動誘導(dǎo)機制的斯坦伯格博弈模型,其中用戶作為領(lǐng)導(dǎo)者。所有用戶首先選出誘導(dǎo)中繼主動釋放偽通信信號吸引干擾攻擊,隨后在剩余可選中繼里選擇中繼進(jìn)行通信,而干擾機作為跟隨者,通過能量檢測選擇信號能量最大的信道進(jìn)行干擾,并證明了斯坦伯格均衡的存在性。在該博弈框架下,提出了基于Q學(xué)習(xí)和隨機自動學(xué)習(xí)機(Stochastic Learning Automata,SLA)的雙階段分層學(xué)習(xí)中繼選擇算法。仿真結(jié)果表明相比無誘導(dǎo)中繼條件下的多用戶SLA算法,所提算法能夠顯著提高用戶的平均滿意度。
在圖1所示的多用戶多中繼通信抗干擾網(wǎng)絡(luò)中,存在M個用戶收發(fā)對,N個中繼和一個移動惡意干擾機,考慮所有通信設(shè)備都具有單天線且為半雙工模式。每個用戶都有唯一對應(yīng)的目的接收端,其目的是在干擾環(huán)境中將消息發(fā)送至合法接收端。由于遠(yuǎn)距離條件下信道衰落嚴(yán)重,用戶與接收端之間的直傳鏈路不可用,所以用戶通過中繼轉(zhuǎn)發(fā)的方式與目的端進(jìn)行通信。干擾機始終處于移動狀態(tài),且具有信道感知能力和功率壓制能力,每次只能在一個信道上釋放噪聲干擾信號。
圖1 系統(tǒng)模型圖
中繼通信時隙如圖2所示,其中每個時隙包含4個階段。在第t個時隙里,在階段1所有用戶獨立地進(jìn)行分布式中繼選擇,并將中繼選擇結(jié)果發(fā)送至相關(guān)中繼。然后在階段2,用戶向各自所選的中繼發(fā)送消息。在階段3,中繼采用放大轉(zhuǎn)發(fā)(AF)的方式重新發(fā)送接收到的信息。在最后一個階段,目標(biāo)端將當(dāng)前時隙的信干噪比信息反饋給用戶。需要明確的是,在階段1和階段4中,用戶和接收端分別通過控制信道向中繼發(fā)送中繼選擇策略和向用戶反饋信干噪比信息,以保證干擾環(huán)境下指令信息傳輸?shù)目煽啃浴?/p>
圖2 通信時隙圖
定義用戶集合為 M = {1,2,…,M}, 中繼集合為 N = {1,2,…,N}, 共有 N 個信道,可用信道集合表示為N={1,2,…,fN},每個中繼n工作的信道為fn(該信息固定且任一用戶知道每個中繼對應(yīng)的信道)。所有用戶的發(fā)射功率為Pu,所有中繼的轉(zhuǎn)發(fā)功率為Pr,Pu、Pr始終保持不變。第m個用戶發(fā)射端、第n個中繼和干擾機的距離分別表示為 dum,j,drn,j。 第m個用戶發(fā)射端和第n個中繼的距離表示為dum,rn,第n個中繼和第m個用戶接收端的距離表示為 drn,dm。 基于信道衰落模型[14],上述各通信鏈路的信道增益分別為其中φ表示路徑衰落因子。
干擾機能夠通過能量檢測,選擇能量最大的信道進(jìn)行干擾(只能干擾一個信道)。由于在一個通信時隙內(nèi),用戶的中繼策略傳輸時間及接收端的反饋時間相比于通信時長可以忽略不計,所以只需考慮干擾機在階段2和階段3的影響,其信道干擾策略分別為 fj,1,fj,2, 定義如下
第m個用戶的中繼選擇策略為rm,則第rm個中繼接收來自第m個用戶信號的信干噪比為
當(dāng)多個用戶選擇相同中繼時,他們在階段3將共享時間資源[15],所以第rm個中繼轉(zhuǎn)發(fā)來自第m個用戶的信號,在第m個用戶接收端的信干噪比為
中繼采用AF模式,則第m個用戶發(fā)射端與其接收端之間的傳輸速率為
參考文獻(xiàn)[16]考慮第m個用戶的傳輸速率需求為C′m,給出第m個用戶的傳輸滿意度指標(biāo)為
系統(tǒng)的優(yōu)化目標(biāo)為最大化所有用戶的傳輸滿意度
在具有功率壓制能力的跟蹤干擾環(huán)境下,針對干擾能夠檢測能量信號最大的信道并被動跟隨的特性,提出了一種基于雙階段中繼選擇的主動誘導(dǎo)機制,在每個時隙選出一個中繼主動釋放偽通信信號,去吸引干擾攻擊,從而使用戶能夠通過其他中繼與接收端進(jìn)行通信。每個中繼既可以轉(zhuǎn)發(fā)用戶通信信息,也可以主動發(fā)送偽造信號吸引干擾機。
在每個時隙初始的用戶決策過程中,用戶進(jìn)行雙階段的中繼選擇。在第一個階段,所有用戶獨立決策,任一用戶m選出一個中繼am去主動吸引干擾,并將各自的選擇結(jié)果發(fā)送給相應(yīng)中繼,中繼am只有收到了不少于一半用戶數(shù)量的請求時,才會認(rèn)可該請求,并主動釋放偽通信信號吸引干擾攻擊,則實際上的誘導(dǎo)中繼a′定義如下
需要注意的是,如果所有中繼都沒有收到不少于一半用戶數(shù)量的請求時,那么該時隙沒有中繼會誘導(dǎo)自己去主動吸引干擾攻擊。
在第二個階段,所有用戶進(jìn)行分布式中繼決策,其中用戶m在除中繼am外的集合中選擇中繼rm協(xié)助通信;如果此時中繼rm恰巧為真實的誘導(dǎo)中繼a′,那么該時隙用戶m則無法獲得中繼轉(zhuǎn)發(fā)服務(wù),即通信失敗。
在面對跟蹤干擾的中繼通信場景中,所有用戶首先發(fā)送消息并選擇中繼協(xié)助轉(zhuǎn)發(fā),隨后干擾機通過能量檢測對信號強度最大的信道進(jìn)行干擾。
針對通信方與干擾方之間的對抗特性以及干擾機的被動跟隨特性,斯坦伯格博弈作為一種典型的分層博弈可以用來很好地建模該抗干擾問題,其中用戶作為領(lǐng)導(dǎo)者,干擾機作為跟隨者。所提博弈可以表示為G =(A,R,F(xiàn)j,ψ,V), 其中A和R 分別表示用戶的誘導(dǎo)中繼策略空間和通信中繼策略空間,F(xiàn)j表示干擾信道策略空間,ψ和V分別表示用戶和干擾機的效用函數(shù)。
基于第1節(jié)的建模定義,用戶和干擾的目標(biāo)分別為最大化傳輸滿意度和干擾效果。對于跟隨者,干擾機通過調(diào)整干擾策略以降低通信質(zhì)量。需要聲明的是,在研究干擾類型為跟蹤干擾的前提下,干擾機基于感知結(jié)果找到干擾信號能量最大的信道,等價于最大化其干擾效用,具體見式(1)。
對于領(lǐng)導(dǎo)者,所有用戶通過聯(lián)合優(yōu)化誘導(dǎo)中繼策略 A = (a1,a2,…,aM) 和通信中繼策略 R = (r1,r2,…,rM),最大化整個系統(tǒng)的傳輸滿意度
基于上述分析,在所提斯坦伯格博弈框架下,通過如下分層決策方法解決抗干擾問題
在該抗干擾問題中,考慮用戶采用混合策略以增加策略的隨機性來欺騙干擾機,從而進(jìn)一步提高抗干擾性能。令W和P分別表示所有用戶的誘導(dǎo)中繼和通信中繼混合策略集合,即所有用戶的雙階段中繼策略選擇的概率分布。令fj表示干擾機的干擾策略。
定義1如果用戶和干擾機都無法單方面地改變策略以提高效用,則策略集 (W?,P?,f?j) 構(gòu)成斯坦伯格均衡,并滿足以下條件
引理1存在一個用戶平穩(wěn)策略和一個干擾機平穩(wěn)策略,構(gòu)成斯坦伯格均衡。
證明:受文獻(xiàn)[17]的啟發(fā),每個有限策略博弈都有一個混合策略均衡[12],表明在所提博弈中存在斯坦伯格均衡。
對于干擾機,它希望最大化干擾效用函數(shù)并進(jìn)行干擾信道決策
已知干擾機的最優(yōu)策略,可得用戶的雙階段最優(yōu)中繼策略
基于上述分析,策略集 (W?,P?,f?j) 構(gòu)成斯坦伯格均衡。
考慮干擾機始終處于移動狀態(tài),因為所有中繼的轉(zhuǎn)發(fā)功率及位置固定,所以干擾機在某一固定位置時感知到的轉(zhuǎn)發(fā)信號能量最大的中繼也是固定的,但這些信息對己方是未知的。因此,考慮到干擾機在移動過程中的干擾策略和位置之間存在對應(yīng)關(guān)系,將第m個用戶的誘導(dǎo)中繼選擇決策過程建模為一個MDP,即 (Sm,Am,Pm,Rm) ,其中Sm表示第m個用戶的狀態(tài)空間,Am表示其動作空間,Pm表示其狀態(tài)轉(zhuǎn)移概率,Rm表示回報值。具體定義如下:
(1) 狀態(tài)空間Sm:fj(k-1) 表示在第k-1個時隙時的干擾所在信道,接收端通過判斷信干噪比是否為0和信號分析得出當(dāng)前時隙的干擾信道,并將其反饋給用戶。定義第m個用戶在第k個時隙的狀態(tài)為上一時隙的干擾信道,即 Sm(k) = fj(k - 1) ,用戶 m 的狀態(tài)空間為 Sm= {fj(1),fj(2),…,fj(k - 1),fj(k),…}。
(2)動作空間Am:am(k)表示用戶m在第k個時隙選擇哪個中繼去主動吸引干擾,其動作空間為Am= {am(1),am(2),…,am(k),…},am(k) ∈ {1,2,…,N}。
(3) 狀態(tài)轉(zhuǎn)移概率 Pm:Pm= (Sm(k + 1) |Sm(k),am(k)),Sm(k + 1),Sm(k) ∈Sm, 表示用戶m在第k個時隙從狀態(tài)Sm(k)選擇動作am(k)到達(dá)狀態(tài)Sm(k+1)的概率。
(4)回報值R:基于接收端的反饋,通過是否有某個用戶接收端仍然受到壓制性干擾判斷誘導(dǎo)中繼策略是否成功,即
由于強化學(xué)習(xí)可以在狀態(tài)轉(zhuǎn)移概率未知的情況下學(xué)習(xí)到最優(yōu)的策略,因此采用強化學(xué)習(xí)中使用最廣泛的Q學(xué)習(xí)[18]算法來進(jìn)行決策。在該問題中,所有用戶需要在未知環(huán)境中不斷做出動作以最大化自身長期累積回報,即用戶將利用Q學(xué)習(xí)方法去探索學(xué)習(xí)干擾機在不同位置上的干擾規(guī)律,從而優(yōu)化誘導(dǎo)中繼選擇策略。
綜上,提出了基于強化學(xué)習(xí)的誘導(dǎo)中繼決策方法。每個用戶在執(zhí)行算法過程中,會維護一張Q值表,以此來評估每個狀態(tài)下不同動作質(zhì)量。該算法在每個狀態(tài)下采取動作并獲得回報值,從而更新相應(yīng)的Q值,經(jīng)過多次迭代循環(huán)直至收斂到最優(yōu)誘導(dǎo)中繼選擇策略,Q函數(shù)可表示為
其中,α表示學(xué)習(xí)速率,γ表示折扣因子,α,γ∈[0,1]。 Rk表示當(dāng)前 Sk狀態(tài)的回報值, a~為狀態(tài)Sk+1下的所有可選的誘導(dǎo)中繼策略。用戶在選擇并執(zhí)行動作ak后,在k+1時隙到達(dá)Sk+1狀態(tài)。策略選擇概率向量 Wm(k) = (w1(k),…,wN(k)) 的更新公式為
其中,θ表示玻爾茲曼系數(shù)常量,wn(k+1)表示在第k+1個時隙用戶選擇第n個中繼作為誘導(dǎo)中繼的概率。
各個用戶在選出誘導(dǎo)中繼后,再運行分布式?jīng)Q策算法,從剩余的可選中繼選出合適的通信中繼。受隨機自動學(xué)習(xí)機[19]的啟發(fā),考慮到不同誘導(dǎo)中繼策略下用戶可選中繼集合不同,提出了基于多模SLA的中繼選擇算法。
以用戶在第k個時隙已經(jīng)選出中繼n作為誘導(dǎo)中繼為例,此時用戶可選中繼集合為{1,2,…,n-1,n + 1,…,N},定義此時的模型狀態(tài)為En,記Pn=[p1;p2;…;pm;…;pM]為所有用戶的中繼選擇混合策略, pm= [pm,1,…,pm,n-1,pm,n+1,…,pm,N]表示第m個用戶選擇各個中繼的概率,pm,n-1表示第m個用戶選擇第n-1個中繼的概率。
在當(dāng)前模型狀態(tài)En下,所有用戶分別基于各自的中繼選擇策略進(jìn)行通信,并在每個時隙末端,用戶能夠接收到來自對應(yīng)接收端的信道傳輸速率作為反饋信息,基于當(dāng)前的回報值,用戶對中繼選擇的混合策略進(jìn)行如下更新
其中,0<b<1為迭代步長,C~m為歸一化傳輸速率,表示為
需要聲明的是,每個用戶基于當(dāng)前選擇的誘導(dǎo)中繼,調(diào)用對應(yīng)模型狀態(tài)下的中繼選擇混合策略,進(jìn)行中繼選擇并基于反饋結(jié)果更新混合策略。而其他誘導(dǎo)中繼狀態(tài)下的混合策略不會被調(diào)用和更新。
采用MATLAB對所提算法進(jìn)行仿真,設(shè)置4個用戶、4個中繼、4個信道,初始化各類信道參數(shù)。背景噪聲密度為-174 dBm/Hz,所有用戶的發(fā)射功率為23 dBm,所有中繼的發(fā)射功率為30 dBm,每個信道的帶寬為1 MHz,用戶的傳輸速率需求為1 Mb/s,路徑衰落因子φ=2。
系統(tǒng)分布如圖3所示,存在4個用戶、4個中繼和一個干擾機。用戶1到用戶4的發(fā)射端和接收端分別位于(0.5 km,4.5 km)、(0.5 km,3.5 km)、(1 km,4 km)、(1.5 km,4 km)和(4 km,1.5 km)、(3.5 km,0.5 km)、(3.5 km,1 km)、(3.5 km,1.5 km),中繼1到中繼 4分別位于(1.5 km,2.5 km)、(2 km,3 km)、(2.5 km,3.5 km)、(2.5 km,3 km)。 干擾機的起點和終點分別為(3.5 km,4 km)和(4 km,3 km),并以10 m/s的速度在兩點之間往返移動。紅色箭頭代表干擾信號,藍(lán)色箭頭代表通信信號。
圖3 系統(tǒng)分布圖
圖4給出了用戶1的誘導(dǎo)中繼選擇概率,且所有用戶能夠達(dá)成基本一致的誘導(dǎo)中繼策略。從圖4中可以看出,隨著時間的推移,用戶會主動調(diào)整誘導(dǎo)中繼選擇概率,即在不同時段,用戶會傾向于選擇不同的誘導(dǎo)中繼。這是因為干擾機始終處于移動狀態(tài),在不同位置上,干擾機感知到通信信號能量最大的信道不同,其干擾策略也會發(fā)生改變,所以需要改變誘導(dǎo)中繼策略以達(dá)到吸引干擾的效果。
圖4 誘導(dǎo)中繼選擇概率
圖5、6分別給出了在不同誘導(dǎo)中繼策略下,用戶1的通信中繼選擇概率。從圖5可以看出,當(dāng)誘導(dǎo)中繼為第3個中繼時,用戶1更傾向于選擇中繼4進(jìn)行協(xié)助傳輸。從圖6可以看出,當(dāng)誘導(dǎo)中繼為第4個中繼時,用戶1更傾向于選擇中繼2進(jìn)行協(xié)助傳輸。結(jié)果表明,所提多模SLA中繼選擇算法可以使所有用戶在不同誘導(dǎo)中繼選擇策略下分開更新其中繼選擇概率并各自達(dá)到收斂,從而找到不同狀態(tài)下所有用戶的通信中繼選擇策略。
圖5 第3個誘導(dǎo)中繼下用戶1的通信中繼選擇概率
圖6 第4個誘導(dǎo)中繼下用戶1的通信中繼選擇概率
圖7給出了無誘導(dǎo)中繼策略下用戶1的通信中繼選擇概率。從圖7可以看出,用戶1在學(xué)習(xí)過程中以較大概率交替選擇中繼3和中繼4,并最終收斂至選擇中繼3進(jìn)行通信。結(jié)合圖3的系統(tǒng)分布和圖4誘導(dǎo)中繼選擇概率可以看出,此時用戶1大部分時間都會被干擾攻擊,進(jìn)而導(dǎo)致通信效用顯著降低。
圖7 無誘導(dǎo)中繼下用戶1的通信中繼選擇概率
根據(jù)圖3所示的系統(tǒng)分布圖,對干擾機的移動軌跡進(jìn)行等分取點,分別設(shè)點(3.5 km,4 km)、(3.625 km,3.75 km)、(3.75 km,3.5 km)、(3.875 km,3.25 km)和(4 km,3 km)為位置 1、位置2、位置3、位置4和位置5,并給出了無誘導(dǎo)中繼下的用戶滿意度,如圖8所示。所有用戶基于SLA算法進(jìn)行分布式中繼選擇,在沒有誘導(dǎo)中繼的條件下,每次至少存在一個中繼的轉(zhuǎn)發(fā)信息被干擾機干擾,所以圖中存在用戶1和用戶4滿意度為0的情況。具體體現(xiàn)為隨著干擾策略的改變,在位置1、位置2和位置3時,用戶1受到干擾且其滿意度為0,而在位置4和位置5時,用戶4受到干擾且其滿意度為0,而其他未受干擾用戶的滿意度較高。
圖8 無誘導(dǎo)中繼下的用戶滿意度
圖9給出了有誘導(dǎo)中繼下的用戶滿意度。從圖9中可以看出,由于有誘導(dǎo)中繼的存在,能夠使其他所有用戶?中繼通信對都不受到干擾的影響,但存在多個用戶選擇相同通信中繼的情況,如在位置1、位置2和位置3時,用戶1和用戶3選擇了相同中繼,所以他們的傳輸滿意度相較于用戶2和用戶3比較低;同理,在位置4和位置5時,用戶1和用戶4也選擇了相同中繼,所以滿意度相對較低。但整體與無誘導(dǎo)中繼情況相比,所提算法能夠保證在干擾策略發(fā)生變化的情況下,所有用戶的滿意度始終維持在較高的水準(zhǔn)。
圖9 有誘導(dǎo)中繼下的用戶滿意度
圖10記錄了整個迭代過程中用戶的平均滿意度,并給出4個中繼條件下用戶滿意度隨用戶數(shù)量變化的情況。圖10中紫色柱和綠色柱分別表示有誘導(dǎo)中繼條件下,所有用戶的平均滿意度和所有用戶中平均滿意度最低的用戶的值;藍(lán)色柱和黃色柱分別表示無誘導(dǎo)中繼條件下,所有用戶的平均滿意度和所有用戶中平均滿意度最低的用戶的值。從圖10中可以看出,誘導(dǎo)中繼的存在能夠使用戶的平均滿意度提高20%以上,并避免某一用戶的平均滿意度過低的情況,在中繼數(shù)量保持不變的前提下,隨著用戶數(shù)量的增加,所提算法依舊能夠保證較好的性能。
圖10 用戶滿意度性能對比示意圖
針對跟蹤干擾環(huán)境下的抗干擾中繼優(yōu)化問題,構(gòu)建了基于主動誘導(dǎo)機制的斯坦伯格博弈模型,用戶作為領(lǐng)導(dǎo)者,利用其先發(fā)制人的優(yōu)勢,通過選出誘導(dǎo)中繼去主動吸引干擾攻擊,保障其他中繼能夠可靠通信。提出了基于Q學(xué)習(xí)和隨機自動學(xué)習(xí)機的雙階段中繼選擇算法。仿真結(jié)果表明相比無誘導(dǎo)中繼條件下的多用戶SLA算法,所提算法能夠顯著提高用戶的平均滿意度,并避免了某一用戶的平均滿意度過低的情況,盡可能地保證所有用戶的通信需求。