蔣 華 侯夢(mèng)茹 張昕然 王慶瑞
1(北京電子科技學(xué)院通信工程系 北京 100070)2(西安電子科技大學(xué)通信工程學(xué)院 陜西 西安 710071)
隨著智能終端的普及,人們?cè)絹?lái)越依賴無(wú)線網(wǎng)絡(luò)進(jìn)行重要信息的傳輸。與通過(guò)密碼技術(shù)保護(hù)數(shù)據(jù)安全的傳統(tǒng)方法相比,通信系統(tǒng)的物理層安全通過(guò)利用通信介質(zhì)的缺陷來(lái)提供安全的無(wú)線傳輸,不僅不依賴于計(jì)算復(fù)雜性,同時(shí)具有很高的可擴(kuò)展性,為信息的保密傳輸提供了巨大優(yōu)勢(shì)[1-2]。作為最常用的物理層安全技術(shù),MIMO技術(shù)可以在一個(gè)或多個(gè)非法用戶存在的情況下支持高速率的安全通信[3]。近年提出的大規(guī)模多天線陣列MIMO技術(shù)可以在不增加帶寬或提高發(fā)射功率的情況下顯著提高數(shù)據(jù)吞吐量和鏈路可靠性,因此成為5G移動(dòng)通信系統(tǒng)的關(guān)鍵技術(shù)之一[4-5]。
在Massive MIMO系統(tǒng)中,在發(fā)射機(jī)上使用非常大的天線陣列(通常為數(shù)十甚至數(shù)百個(gè))接收器,數(shù)百個(gè)天線同時(shí)服務(wù)于數(shù)十個(gè)用戶。理論和測(cè)量結(jié)果表明,大規(guī)模MIMO技術(shù)可以通過(guò)利用低復(fù)雜度傳輸設(shè)計(jì)提供的大陣列增益來(lái)提供高功率和能源效率。此外,當(dāng)大量天線部署在基站時(shí),可以降低隨機(jī)損傷(如小規(guī)模衰落和噪聲)的干擾[6-7]。由于MIMO技術(shù)只能輻射天線陣固定下傾角水平方向的波束,為了更好地利用信號(hào)傳播的垂直角度分辨率,將MIMO的輻射信號(hào)控制在3D空間中,采用矩形、球形或圓柱形的天線陣列配置,被稱為3D MIMO技術(shù)。第三代合作伙伴計(jì)劃(3GPP)指出,具有大量天線的3D MIMO可被看作是Massive MIMO的實(shí)際形式之一[5]。
對(duì)于通信系統(tǒng)而言,信道容量上限代表了用戶可達(dá)的最大速率。文獻(xiàn)[8]提出了竊聽(tīng)信道三端口網(wǎng)絡(luò)的加密容量的概念。竊聽(tīng)者通過(guò)其自己的通道收聽(tīng)傳輸信號(hào)不能解碼消息的情況下,能夠以嚴(yán)格正確的速率可靠地進(jìn)行通信。即在加密容量存在的情況下,一定存在一種編碼方式使得非法用戶的信道容量為零。同時(shí)研究表明,隨著天線陣列規(guī)模的增加,信道容量將和天線數(shù)呈線性增長(zhǎng)的關(guān)系。因此對(duì)MIMO信道的物理層保密問(wèn)題引起了研究學(xué)者的廣泛興趣[9]。
馬爾可夫決策過(guò)程(MDP)模型是在不確定情況下進(jìn)行順序決策、考慮當(dāng)前決策的結(jié)果和未來(lái)的決策機(jī)會(huì)的數(shù)學(xué)方法[10]。在近幾年關(guān)于Massive MIMO技術(shù)的文獻(xiàn)中,經(jīng)常使用MDP模型作為優(yōu)化工具,在多小區(qū)Massive MIMO系統(tǒng)中實(shí)現(xiàn)全局最優(yōu)。例如使用MDP模型處理Massive MIMO通信系統(tǒng)的資源分配問(wèn)題[11]。在文獻(xiàn)[12]中,采用SMDP(semi-Markov decision process)方法,提出了一種資源分配方案,以實(shí)現(xiàn)OFDMA(orthogonal frequency division multiple Access)多小區(qū)協(xié)作網(wǎng)絡(luò)中保證通信質(zhì)量業(yè)務(wù)的最優(yōu)功率效率。Massive MIMO系統(tǒng)中的功率和速率分配問(wèn)題在文獻(xiàn)[13]中被建模為CMDP(constrained Markov decision process),其優(yōu)化目標(biāo)是受延遲約束的最小化發(fā)射功率。下行鏈路OFDMA系統(tǒng)的功率和子載波分配問(wèn)題在文獻(xiàn)[14]中被建模為CMDP,優(yōu)化目標(biāo)是在平均延遲約束下的最大化能量效率。當(dāng)模型參數(shù)不可知時(shí),強(qiáng)化學(xué)習(xí)算法被經(jīng)常用來(lái)求解MDP模型。它是從控制理論、統(tǒng)計(jì)學(xué)、心理學(xué)等相關(guān)學(xué)科發(fā)展而來(lái),具有自學(xué)習(xí)和在線學(xué)習(xí)的優(yōu)點(diǎn)[15]。MDP模型的最優(yōu)策略可以用值迭代和動(dòng)態(tài)規(guī)劃算法確定。值迭代算法的優(yōu)勢(shì)在于其在實(shí)現(xiàn)上的簡(jiǎn)易性,可以用來(lái)進(jìn)一步研究分析得到的最優(yōu)策略的結(jié)構(gòu)。
本文從物理層角度提出了基于MDP模型的Massive MIMO系統(tǒng)安全傳輸技術(shù)。利用互阻抗模型建立了Massive MIMO系統(tǒng)下行鏈路的信道模型。建立了基于平均無(wú)折扣回報(bào)的MDP模型,利用有限狀態(tài)馬氏信道FSMC的區(qū)間轉(zhuǎn)移概率模型[16],給出了MDP的轉(zhuǎn)移概率表達(dá)式,并提出了基于值迭代的動(dòng)態(tài)規(guī)劃算法,計(jì)算了全局最優(yōu)的系統(tǒng)加密容量。通過(guò)仿真對(duì)算法性能進(jìn)行了驗(yàn)證,給出了仿真結(jié)果,并對(duì)結(jié)果進(jìn)行了分析。仿真結(jié)果給出了基站發(fā)射信號(hào)功率對(duì)信道物理層加密容量的影響并評(píng)估了算法的性能。
如圖1所示,系統(tǒng)模型是多小區(qū)Massive MIMO系統(tǒng)的下行鏈路模型,此小區(qū)包括K個(gè)移動(dòng)用戶,每個(gè)小區(qū)的基站裝載NT根天線,每個(gè)用戶有NR根接收天線??紤]小區(qū)中使用相同時(shí)頻資源的一個(gè)合法用戶和一個(gè)竊聽(tīng)用戶,則系統(tǒng)的物理場(chǎng)景簡(jiǎn)化模型如圖2所示。
圖1 多小區(qū)Massive MIMO系統(tǒng)模型
圖2 系統(tǒng)下行鏈路簡(jiǎn)化模型
系統(tǒng)模型為:
yk,t=Htx+nt
(1)
yk,e=Hex+ne
(2)
式中:x∈NT×1表示基站端的發(fā)射信號(hào),yk,t∈NR×1和yk,e∈NR×1分別表示第k個(gè)小區(qū)的合法用戶和非法用戶接收到的信號(hào)和為服從獨(dú)立高斯分布,具有零均值和單位方差的加性高斯白噪聲。H={hk}為信道傳輸矩陣。在Massive MIMO信道場(chǎng)景下,應(yīng)使用互阻抗模型對(duì)信道進(jìn)行建模[5]。因此,第k個(gè)小區(qū)的傳輸信道為:
(3)
式中:hk∈NR×NT。
(4)
gk=[ZRkvk]T
(5)
ZP=(AZ+LZ)(Ψ+LZI)-1
(6)
(7)
式中:AZ、LZ、MZ分別表示天線的阻抗、負(fù)載阻抗和互耦阻抗。矩陣γk∈NT×NR,滿足:
(8)
(9)
為了模擬系統(tǒng)的物理層時(shí)變特性,建立有限狀態(tài)馬爾科夫信道(FSMC)模型來(lái)描述信道的時(shí)變行為。把下行鏈路增益量化為許多區(qū)間,第j個(gè)區(qū)間φj對(duì)應(yīng)一個(gè)鏈路增益范圍:φj={φ:χj≤φ≤χj+1},χj為區(qū)間邊界,信道被量化為FSMC模型。為上述Massive MIMO系統(tǒng)建立馬爾科夫決策過(guò)程(MDP)模型,模型的組成部分包括,各項(xiàng)分別代表狀態(tài)、動(dòng)作、狀態(tài)轉(zhuǎn)移函數(shù)、回報(bào)函數(shù),各項(xiàng)表述為:
(2) 動(dòng)作a:動(dòng)作用來(lái)控制系統(tǒng)的狀態(tài)。at表示t時(shí)刻下MDP模型的動(dòng)作,它代表基站的發(fā)射功率。馬爾科夫決策過(guò)程在t時(shí)刻所有可行的行為構(gòu)成一個(gè)行為集,即行為空間At,At={a1,a2,…,aNT}。
(3) 狀態(tài)轉(zhuǎn)移函數(shù)p:在離散的時(shí)刻t,對(duì)狀態(tài)st采取動(dòng)作at,狀態(tài)轉(zhuǎn)移至下一狀態(tài)st+1,其轉(zhuǎn)移通過(guò)狀態(tài)轉(zhuǎn)移函數(shù)得到。文獻(xiàn)[16]指出,假定在時(shí)間間隔T內(nèi)φ值保持在同一個(gè)區(qū)間內(nèi),在這個(gè)時(shí)間間隔結(jié)束時(shí),可能繼續(xù)停留在本區(qū)間內(nèi)或者轉(zhuǎn)移到相鄰的鏈路增益區(qū)間。定義狀態(tài)增量函數(shù)δ(·)用來(lái)表示相鄰狀態(tài)的變化量,則區(qū)間之間的轉(zhuǎn)移概率為:
(10)
式中:Lj是χj處的電平通過(guò)率,即單位時(shí)間內(nèi)信號(hào)包絡(luò)向下穿過(guò)電平χj的平均次數(shù),滿足:
(11)
式中:fm是多普勒頻率;ρ為基站發(fā)送端信噪比的期望。
ρ=E{SNRt}
(12)
(13)
式中:Rt代表單位時(shí)間內(nèi)信號(hào)傳輸速率;κj代表當(dāng)前狀態(tài)下的穩(wěn)態(tài)概率,滿足:
(14)
(4) 回報(bào)函數(shù)c:在與環(huán)境的交互過(guò)程中,在離散的時(shí)隙t,對(duì)狀態(tài)st采取動(dòng)作at,狀態(tài)轉(zhuǎn)移至下一狀態(tài)st+1,產(chǎn)生回報(bào)。在此Massive MIMO系統(tǒng)中,以系統(tǒng)物理層的加密容量作為MDP模型的回報(bào)函數(shù)。由于Massive MIMO的物理層安全優(yōu)勢(shì),可獲得加密容量的表達(dá)式,從而無(wú)需使用任何正式的加密系統(tǒng),該速率就可以可靠而安全地傳輸[17]。因此,三端口網(wǎng)絡(luò)竊聽(tīng)系統(tǒng)中的加密容量為:
(15)
式中:Rxx=E{xxH},是發(fā)送信號(hào)的自相關(guān)矩陣。
(5) 策略π:給定一個(gè)MDP模型,馬爾科夫策略就是在某一狀態(tài)下,決策者所采取的動(dòng)作或者所采取的動(dòng)作的概率。而在有限MDP中,一定至少存在一個(gè)策略π,使得任意狀態(tài)st∈S下,值函數(shù)Jπ(st)≥Jπ′(st),被稱為最優(yōu)策略π*。簡(jiǎn)單來(lái)說(shuō),解決一項(xiàng)強(qiáng)化學(xué)習(xí)任務(wù)的本質(zhì)是尋找到最優(yōu)策略。
強(qiáng)化學(xué)習(xí)算法是以評(píng)估價(jià)值函數(shù)為基礎(chǔ),通過(guò)價(jià)值函數(shù)將MDP的最優(yōu)標(biāo)準(zhǔn)與策略聯(lián)系起來(lái)。動(dòng)態(tài)規(guī)劃算法是在已知MDP模型的基礎(chǔ)上,首先計(jì)算狀態(tài)值函數(shù),然后利用模型,計(jì)算出該狀態(tài)下的最優(yōu)動(dòng)作,尋找出最優(yōu)化策略。為了計(jì)算系統(tǒng)最大化加密容量,采用值迭法算法,從初始狀態(tài)價(jià)值開(kāi)始反復(fù)迭代計(jì)算,最終收斂至全局最優(yōu)價(jià)值函數(shù)J*,從而達(dá)到系統(tǒng)模型的最優(yōu)結(jié)果。
(16)
根據(jù)貝爾曼方程,滿足值迭代算法,最優(yōu)值函數(shù)滿足的迭代形式如下:
(17)
式中:l為迭代步數(shù)。對(duì)于每個(gè)狀態(tài)s,迭代地更新每一個(gè)狀態(tài)動(dòng)作對(duì)應(yīng)的值,得到下一值函數(shù)Jl+1(s,a)。直到Jl+1(s,a)達(dá)到最優(yōu),滿足:
(18)
具體算法見(jiàn)算法1。
算法1基于MDP模型的物理層安全算法
步驟1 輸入轉(zhuǎn)移概率P(s′|s,a)和獎(jiǎng)賞函數(shù)R(s,a)
步驟2 初始化參數(shù):令J0(s,a)=0,temp=Jl(s,a)
步驟3 for 每個(gè)迭代步l={0,1,2,…}
do
Jl(s,a)←Jl+1(s,a)
until
|Jl(s,a)-temp|<ε,ε為足夠小量
圖3描述了基站發(fā)射信號(hào)對(duì)信道容量的影響,可以看出,隨著發(fā)射端信噪比的增大,加密容量會(huì)增大。當(dāng)最大發(fā)送信噪比大于某個(gè)門(mén)限信噪比時(shí),策略的性能增長(zhǎng)趨勢(shì)減緩并趨于恒定,因此當(dāng)發(fā)射功率較大時(shí),即使再增加發(fā)射功率,也不能進(jìn)一步提高系統(tǒng)加密容量。同時(shí),竊聽(tīng)用戶和信道噪聲功率會(huì)影響加密容量,竊聽(tīng)用戶接收信噪比增大,加密容量會(huì)減小;信道噪聲功率增大,加密容量減小。因此通信環(huán)境需要警惕干擾信號(hào),需要盡量減小干擾信號(hào)對(duì)加密容量的削弱作用,比如非法竊聽(tīng)用戶的接收信號(hào)和信道噪聲功率的負(fù)面影響,從而保證高質(zhì)量的通信。
由圖4可以看出,隨著竊聽(tīng)非法用戶接收端信噪比增大,加密容量會(huì)下降。非法用戶小規(guī)模的竊聽(tīng)對(duì)加密容量的影響不大,當(dāng)竊聽(tīng)用戶竊聽(tīng)信號(hào)過(guò)大時(shí),信道性能急劇惡化,因此通信傳輸過(guò)程中,減少非法用戶的竊聽(tīng)是保證通信質(zhì)量的基礎(chǔ)。同時(shí),圖4體現(xiàn)出信道本身的衰減對(duì)加密容量也有影響。同等前提條件下,合法用戶信道噪聲功率的增加會(huì)削弱加密容量。
圖4 竊聽(tīng)用戶接收端信噪比對(duì)信道容量的影響
表1是MDP模型的策略表,是一個(gè)輸出動(dòng)作標(biāo)號(hào)的序列。它描述了算法在不同狀態(tài)下尋找到的最優(yōu)策略,即基站在每一狀態(tài)下選擇的行為以確保模型中的加密容量最大。具體來(lái)說(shuō),就是在此算法下,基站可以根據(jù)不同的信道增益狀態(tài)選擇發(fā)射功率,使系統(tǒng)模型獲得最大的加密容量。
表1 策略π
本文基于MDP模型研究了Massive MIMO系統(tǒng)的物理層安全算法。通過(guò)對(duì)Massive MIMO下行鏈路模型進(jìn)行MDP建模,利用值迭代算法求解MDP模型,計(jì)算出系統(tǒng)最大化加密容量。根據(jù)算法模型,基站可以在不同信道增益下控制發(fā)射功率,求解出保證物理層加密容量的全局最優(yōu)策略。分析結(jié)果說(shuō)明了基站發(fā)射信號(hào)功率對(duì)三端口網(wǎng)絡(luò)信道物理層加密容量的影響,即系統(tǒng)的加密容量會(huì)隨著基站發(fā)射功率的增大而增大,隨著非法竊聽(tīng)用戶的接收信噪比的增大而減小,證明了算法的正確性和有效性。進(jìn)一步說(shuō)明強(qiáng)化學(xué)習(xí)的相關(guān)算法可以解決通信系統(tǒng)中相關(guān)的控制問(wèn)題,為今后的研究奠定了理論和應(yīng)用基礎(chǔ)。