李本翔,向路平,胡 杰,楊 鯤
(電子科技大學(xué) 信息與通信工程學(xué)院,四川 成都 611731)
隨著無線通信技術(shù)的發(fā)展,聯(lián)網(wǎng)設(shè)備的數(shù)量急劇增加,產(chǎn)生了許多新的通信場景和需求[1-2],例如車聯(lián)網(wǎng)(Vehicle-to-Everything,V2X)、物聯(lián)網(wǎng)(Internet of Things,IoT)等。未來6G承載多種智能應(yīng)用的V2X系統(tǒng)不僅對通信性能有著較高的要求[3],還要完成一定的感知任務(wù)。然而,隨著通信系統(tǒng)的載波頻段不斷提升,已經(jīng)和雷達(dá)感知的頻段相近,這會對雷達(dá)感知造成干擾,同時雷達(dá)也會影響通信性能。而通感一體化技術(shù)(Integrated Sensing and Communication,ISAC)是解決這一問題的關(guān)鍵,并且如今對于V2X系統(tǒng)中ISAC技術(shù)的研究已經(jīng)獲得了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[4]。
傳統(tǒng)的通信和雷達(dá)系統(tǒng)使用不同的正交頻帶并進(jìn)行獨(dú)立設(shè)計[5]。然而隨著大規(guī)模天線技術(shù)發(fā)展和毫米波技術(shù)的應(yīng)用,通信和雷達(dá)系統(tǒng)的性能都得到了大幅提升,并且可以共用一些硬件設(shè)備和頻譜資源,例如大規(guī)模天線雷達(dá)和大規(guī)模天線通信[6]。此外,在載波頻率達(dá)到毫米波頻段時,雷達(dá)系統(tǒng)與通信系統(tǒng)的信道特性和信號處理方法十分相似[7]。正是由于這些相似性,具有感知和雷達(dá)集成增益的ISAC被認(rèn)為是一種很有前景的技術(shù)。例如,在基于ISAC的V2X網(wǎng)絡(luò)中,路邊單元(Roadside Unit, RSU)通過利用從車輛上反射的ISAC回波信號來預(yù)測車輛的位置,從而提供更好的通信服務(wù)[8]。
發(fā)射機(jī)可以通過多種方式利用回波中的隱藏信息提高通信性能,包括自適應(yīng)調(diào)制(Adaptive Modulation,AM)、波束成形和自適應(yīng)編碼等。眾所周知,AM是一種基于信道估計來實(shí)現(xiàn)最優(yōu)容量的簡單且有效的方法[9]。通常,發(fā)射機(jī)從上行導(dǎo)頻信號中獲取信道信息,并根據(jù)誤碼率(Bit Error Rate,BER)選擇調(diào)制方案來提升通信性能。例如,文獻(xiàn)[10]提出了一種自適應(yīng)編碼和調(diào)制(Adaptive Coding and Modulation,ACM)技術(shù),該技術(shù)根據(jù)來自上行導(dǎo)頻反饋的飛機(jī)之間的距離信息確定調(diào)制和編碼方式。同時,文獻(xiàn)[11]使用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)根據(jù)導(dǎo)頻反饋的歷史信道狀態(tài)信息(Channel State Information,CSI)預(yù)測調(diào)制模式。然而,在ISAC系統(tǒng)中,發(fā)射機(jī)可以直接從雷達(dá)回波信號中獲得信道信息,無需導(dǎo)頻交互的過程。
如何根據(jù)反射的回波做出決策對ISAC系統(tǒng)來說是一個重要的挑戰(zhàn)。通常,這個過程被分為兩個步驟:① 從回波中估計反射體的位置和速度信息并由此估計信道狀態(tài);② 提升各種通信技術(shù)[5,12-15]。文獻(xiàn)[12]使用匹配濾波估計用戶的位置和速度,實(shí)時調(diào)整車輛的波束寬度,以此來覆蓋整個車輛。同樣,在匹配濾波之后,也可以利用擴(kuò)展卡爾曼濾波(Extended Kalman Filter,EKF)[13]、因子圖[14]等方法實(shí)現(xiàn)波束預(yù)測。此外,數(shù)據(jù)驅(qū)動技術(shù)也與ISAC系統(tǒng)相結(jié)合用來適應(yīng)復(fù)雜的時變環(huán)境[15],例如文獻(xiàn)[5]根據(jù)估計的信道狀態(tài)信息采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks ,DNNs)進(jìn)行波束預(yù)測。這些研究已經(jīng)證明了ISAC系統(tǒng)的優(yōu)越性。然而,ISAC系統(tǒng)中自適應(yīng)調(diào)制方案的設(shè)計還存在空缺,因此本文主要考慮基于ISAC系統(tǒng)AM的實(shí)現(xiàn),并與傳統(tǒng)通信進(jìn)行比較。
本文提出了一種ISAC系統(tǒng)傳輸協(xié)議,能夠基于回波預(yù)測下一個時刻的調(diào)制模式。相比于傳統(tǒng)通信減少了導(dǎo)頻開銷,提升了信道容量,并且減少了信道預(yù)測過程帶來的計算資源消耗。為了實(shí)現(xiàn)所提出的框架,采用DRL算法來實(shí)現(xiàn)AM,根據(jù)車輛距離預(yù)測下一時刻的調(diào)制模式,在保證滿足誤碼率約束同時,最大化通信容量。具體來說,RSU從回波中提取車輛的距離信息,并且將歷史距離作為DRL狀態(tài)輸入,下一時刻調(diào)制模式作為DRL動作輸出。
如圖1所示,本文考慮了V2X場景下基于ISAC的多輸入多輸出(Multiple-input Multiple-output,MIMO)系統(tǒng),一個配備了兩組均勻線性陣列天線(Uniform Linear Array,ULA)RSU為一輛車提供服務(wù)。其中,RSU包含Nt根發(fā)射天線和Nr根接收天線。通過多天線,RSU能夠向車輛發(fā)射下行ISAC信號并接收反射回波。
圖1 基于ISAC的系統(tǒng)通信模型
如圖2(a)所示,RSU與車輛之間的傳輸數(shù)據(jù)流被劃分為不同的時隙。在傳統(tǒng)通信中的AM策略依賴于車輛的上行導(dǎo)頻來獲得CSI從而做出決策[10-11],而在車輛高速移動的V2X網(wǎng)絡(luò)下,信道狀態(tài)時刻變化,頻繁的導(dǎo)頻交互會導(dǎo)致通信資源的浪費(fèi),也會導(dǎo)致信道估計的滯后。
ISAC輔助的傳輸協(xié)議可以有效地解決這個問題。如圖2(b)所示,在本文提出的基于ISAC的傳輸協(xié)議中,發(fā)射機(jī)連續(xù)發(fā)送ISAC信號用于下行通信和感知。具體來說,ISAC系統(tǒng)將每個時隙分為兩個階段:① 信號傳輸和回波接收;② 信號處理。例如,在第一階段,RSU根據(jù)上個時隙預(yù)測的調(diào)制模式傳輸ISAC信號并接收回波信號。在第二階段,RSU首先從回波信號中提取車輛的距離信息,然后根據(jù)距離直接預(yù)測下一個時隙的調(diào)制模式。因此,由于舍去了上下行導(dǎo)頻信號,ISAC系統(tǒng)下的AM相比于傳統(tǒng)通信能較大程度的提升系統(tǒng)容量,并且省去了信道預(yù)測的過程,一定程度上減少了計算資源的消耗。
(a) 傳統(tǒng)AM
在車輛運(yùn)動過程中,RSU可以使用ISAC信號感知車輛的位置。假設(shè)t時刻RSU傳輸給車輛的信息為s(t),所以RSU發(fā)送的下行信號表示為:
(1)
RSU通過天線接收車輛反射的ISAC回波。因?yàn)楣馑僮銐蚩?,本文假設(shè)車輛的位置在一個傳輸時隙中保持不變。所以反射的回波可以表示為:
(2)
RSU在接收到車輛反射回波后,采用匹配濾波的方法獲得信號的時延和多普勒頻移,由此估計車輛的距離和速度。匹配濾波如下所示:
(3)
式中,ΔTe表示 ISAC回波信號的持續(xù)時間。根據(jù)時延τn和多普勒頻移υn,車輛的距離dn和速度μn可以表示為:
(4)
(5)
式中,fc為載波頻率。
裝有單天線的車輛在t時刻接收到由RSU發(fā)送的下行信息可以表示為:
(6)
(7)
(8)
基于式(6)和式(8),車輛接收信號的SNR可以表示為:
(9)
假設(shè)RSU使用多進(jìn)制正交幅度調(diào)制(Multiple Quadrature Amplitude Modulation,MQAM),并且每個調(diào)制符號被傳輸?shù)母怕识家粯印8鶕?jù)文獻(xiàn)[18], 傳輸系統(tǒng)容量C*可以被上界和下界約束為:
Clow≤C*≤Cupper,
(10)
式中,上下邊界Clow和Cupper可以表示為:
(11)
式中,M表示RSU選擇的調(diào)制方式,χ表示調(diào)制星座點(diǎn)的集合,其中,xi和xj表示在集合中的任何一對調(diào)制符號。并且根據(jù)文獻(xiàn)[18],Clow和Cupper是漸進(jìn)緊的。因此,使用Cupper作為C去衡量系統(tǒng)的最大容量,可以描述為[19]:
(12)
此外,假設(shè)每個星座點(diǎn)的最近鄰數(shù)量均為4,則誤碼率可以表示為[20]:
(13)
式中,函數(shù)F(x)表示如下:
(14)
在式(12)~(13)的基礎(chǔ)上,可以建立一個優(yōu)化問題,在保證誤碼率滿足要求的同時提高通信速率:
(15)
s.t.ρ≤ρ0,
(16)
式中,ρ0為給定瞬時誤碼率上界。
本節(jié)基于文獻(xiàn)[21]提出了一種基于DRL的AM算法,DRL 智能體會根據(jù)狀態(tài)選擇具體的調(diào)制模式,這個過程可以被建模為一個馬爾可夫決策過程(Markov Decision Process,MDP)。由于車輛在V2X網(wǎng)絡(luò)中的狀態(tài)不斷變化,基本的RL算法的Q表不能管理無限連續(xù)的狀態(tài)空間,而DRL使用DNN建立Q表,然后通過更新DNN的權(quán)重來更新Q表[22],可以較好地適應(yīng)大規(guī)模動態(tài)環(huán)境[23]。如圖3所示,本文采用經(jīng)驗(yàn)重放和固定目標(biāo)網(wǎng)絡(luò)策略來加速訓(xùn)練過程[24]。
圖3 DRL結(jié)構(gòu)
(17)
(18)
基于所提出的ISAC傳輸協(xié)議,DRL網(wǎng)絡(luò)的輸入為汽車當(dāng)前距離dt和前k個時刻的距離{dt-1,dt-2,…,dt-k},輸出為預(yù)測的下一個時隙調(diào)制模式。因此,對DRL的狀態(tài)空間、動作空間、即時獎勵定義如下。
狀態(tài)空間即所有可能的狀態(tài)集合。具體時刻t的狀態(tài)由(k+1)個車輛距RSU的距離組成??梢悦枋鰹椋?/p>
st={dt,dt-1,…,dt-k}。
(19)
動作空間包括所有可能選擇的調(diào)制模式,如下所示:
A={M1,M2,…,MP},
(20)
在時隙j選擇的動作aj∈A。
即時獎勵為了在保證最佳的通信速率和質(zhì)量,即時獎勵被設(shè)計為:
(21)
式中,Ct+1和ρt+1可分別用式(12)~(13)計算。ρ0為最大瞬時誤碼率。該算法在約束ρt+1<ρ0下使Ct+1最大化,來實(shí)現(xiàn)下一時隙調(diào)制模式的預(yù)測,并由此解決式(15)~(16)中描述的優(yōu)化問題。DRL具體實(shí)現(xiàn)如算法1所示。
算法1 DRL算法輸入:存儲空間O,獎勵衰減γ,學(xué)習(xí)速率l,樣本數(shù)量B,初始化:分別用隨機(jī)權(quán)值θ+和θ-初始化Q網(wǎng)絡(luò)和目標(biāo)Q^網(wǎng)絡(luò)1. forepisode=1, E do2. 初始化狀態(tài)s13. fori= 1, I do4.根據(jù)貪婪因子隨機(jī)選擇動作為隨機(jī)值 或者最大Q值對應(yīng)動作,即ai=argmaxaQ(si,a;θ+)5.執(zhí)行動作ai,得到獎勵ri和下一個狀態(tài)si+16.將(si,ai,ri,si+1)存儲到O7.隨機(jī)在存儲空間采樣B個元組(sj,aj,rj,sj+1)8.計算ytarget j=rj+γmaxa'Q^(sj+1,a';θ-),并跟據(jù)預(yù)測誤差對Q網(wǎng)絡(luò)的權(quán)值θ+進(jìn)行梯度下降更新,預(yù)測誤差計算如式(17)9.每隔J步更新目標(biāo)網(wǎng)絡(luò)Q^=Q10. end for 11.end for
本節(jié)利用一些數(shù)值結(jié)果來評估所提算法的有效性。在所考慮的V2X系統(tǒng)中,N0=N1=-50 dBm。使用笛卡爾坐標(biāo)系來表示RSU與車輛之間的空間關(guān)系,RSU定義在[0 m, 0 m],車輛坐標(biāo)為[X,Y]。為不失一般性,設(shè)置Y為30 m。此外,假設(shè)車輛的初始速度μ0為23 m/s,車輛從道路左邊界[-150 m, 30 m]駛向右邊界[150 m, 30 m],加速度設(shè)置為a~N(0, 5 m/s2)。此外,假定發(fā)射機(jī)支持6種調(diào)制模式:0、4QAM、8QAM、16QAM、32QAM、64QAM,模式0意味著發(fā)射機(jī)繼續(xù)傳輸4QAM信號僅進(jìn)行感知。并且將輸入的距離信息進(jìn)行歸一化處理,設(shè)k=5。其他仿真參數(shù)見表1。
表1 仿真參數(shù)
本文使用如下基線來評價系統(tǒng)的性能:
傳統(tǒng)導(dǎo)頻訓(xùn)練考慮文獻(xiàn)[9]中使用的傳統(tǒng)通信方案,它從導(dǎo)頻交互中得到過時的CSI。本文直接使用此時刻ht作為下一時刻ht+1來選擇調(diào)制模式,其中導(dǎo)頻開銷假定為8%[25]。
理想模式根據(jù)完美CSI選擇給定瞬時BER約束下最優(yōu)調(diào)制模式。
DRL算法它建立在本文提出的考慮歷史距離的ISAC系統(tǒng)上。DRL中的DNN由一個包含(k+1)個神經(jīng)元的輸入層,3個分別包含200、100和40個神經(jīng)元的全連接隱藏層和一個包含6個神經(jīng)元的輸出層組成。此外,對DRL的一些參數(shù)進(jìn)行設(shè)置,例如存儲大小O、獎勵衰減γ、學(xué)習(xí)速率l,樣本數(shù)量B,更新間隔J分別設(shè)置為5 000、0.2、0.005、256、100,并且訓(xùn)練迭代次數(shù)E×I=1 000×1 000 。
自回歸(Auto Regressive,AR) 本文采用基于預(yù)測的AR算法,并將其運(yùn)用到提出的ISAC自適應(yīng)調(diào)制協(xié)議中,從而與本文提出的DRL算法進(jìn)行進(jìn)一步對比。即發(fā)射機(jī)通過回波估計信道狀態(tài),然后使用AR預(yù)測下一時刻信道狀態(tài),基于預(yù)測的信道狀態(tài)選擇調(diào)制模式。本文使用burg方法來估計AR模型的系數(shù)。
圖4展示了平均吞吐量(bit/s)和BER的對比。由圖4(a)可以看出,由于導(dǎo)頻符號占據(jù)一部分信息符號,傳統(tǒng)方法的平均吞吐量最低。AR、理想、DRL方法的平均吞吐量接近,證明了ISAC系統(tǒng)確實(shí)能夠提高通信速率。圖4(b)展示了模式選擇臨界點(diǎn)BER的比較,可以看出DRL可以滿足瞬時BER的約束,保證了信號傳輸?shù)目煽啃浴?/p>
(a) 吞吐量比較
圖5為車輛運(yùn)動過程中RSU在模式切換臨界點(diǎn)附近模式選擇的比較。由圖5可知,傳統(tǒng)方法使用的過時的CSI,所以具有滯后性,而基于回波的ISAC策略可以較為準(zhǔn)確地預(yù)測調(diào)制方案。
圖5 不同方法下模式選擇隨時間變化
本文考慮了ISAC系統(tǒng)下的自適應(yīng)調(diào)制方案設(shè)計,在V2X網(wǎng)絡(luò)中RSU根據(jù)車輛的位置提供不同調(diào)制模式來提升通信性能。在該場景下,RSU接收到車輛反射的回波信號后,通過匹配濾波估計車輛的距離和速度。為了在保證通信質(zhì)量的情況下最大化容量,RSU根據(jù)當(dāng)前車輛的距離,采用DRL算法預(yù)測下一時隙的調(diào)制模式。仿真結(jié)果表明,本文采用的基于ISAC的DRL算法能夠準(zhǔn)確地預(yù)測調(diào)制模式,相較于傳統(tǒng)通信在保證誤碼率的情況下,通信容量有較大的提升,并且具有較好的魯棒性。此外,本文僅考慮了視距信道,在今后的工作中可以考慮在有非視距信道影響下的自適應(yīng)調(diào)制問題。