桑萬(wàn)超,高 暉
(1.北京郵電大學(xué) 人工智能學(xué)院,北京 100876;2.北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876)
近年來(lái),同時(shí)具備通信支持和感知探測(cè)功能的智能無(wú)人機(jī)需求呈現(xiàn)出急劇增長(zhǎng)的趨勢(shì)[1],對(duì)于當(dāng)前基于通信感知分離設(shè)計(jì)的傳統(tǒng)無(wú)人機(jī)系統(tǒng)構(gòu)成了挑戰(zhàn),而通信感知一體化技術(shù)是應(yīng)對(duì)該挑戰(zhàn)的一種可行途徑。然而無(wú)人機(jī)平臺(tái)移動(dòng)軌跡更復(fù)雜,對(duì)感知信息精度要求更高[2],且移動(dòng)速度更快帶來(lái)更嚴(yán)重的多普勒擴(kuò)展,使得信道呈現(xiàn)快變特性[3],從而增加了感知開(kāi)銷(xiāo),進(jìn)而增加了無(wú)人機(jī)網(wǎng)絡(luò)內(nèi)無(wú)線資源的開(kāi)銷(xiāo);此外,無(wú)人機(jī)大多基于電池供電,在續(xù)航飛行消耗大部分能量的前提下,無(wú)人機(jī)對(duì)信息、通信處理的效能尤為敏感。因此,需要持續(xù)提升無(wú)人機(jī)感知與通信的效能以支持未來(lái)大規(guī)模的無(wú)人機(jī)協(xié)同任務(wù)驅(qū)動(dòng)組網(wǎng)。
最近以來(lái)通信感知融合技術(shù)取得了一定進(jìn)展,可望為構(gòu)建高效能無(wú)人機(jī)網(wǎng)絡(luò)助力,其中關(guān)于通信感知一體的空口波形設(shè)計(jì)是其核心技術(shù)之一。當(dāng)前通信感知一體波形包括感知原生的一體化波形和通信原生的一體化波形。感知原生的一體化波形包括可承載通信數(shù)據(jù)的調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave,F(xiàn)MCW)波形[4]、線性調(diào)頻(Linear Frequency Modulation,LFM)系列波形[5]以及基于Chrip信號(hào)的波形[6];通信原生的一體化波形包括基于正交頻分復(fù)用(Orthogonal Frequency Division Multiplexing,OFDM)族的波形[7]和基于正交時(shí)頻空間(Orthogonal Time Frequency Space,OTFS)的波形[8]。其中對(duì)于通信感知一體化的OFDM波形而言,Knill提出了一種基于壓縮感知的自適應(yīng)稀疏匹配追蹤感知方法[9],提高了低移動(dòng)性場(chǎng)景下目標(biāo)檢測(cè)精度。Hadani提出的OTFS波形,已被證明在雙色散信道中比OFDM有顯著的抗多普勒衰落性能提高[9]。YUAN提出的面向SISO-OTFS系統(tǒng)的通感一體最大似然(Maximum Likelihood Estimation, MLE)估計(jì)器[10]與Dehkordi提出的基于MIMO-OTFS的雷達(dá)傳感系統(tǒng)[11]均證明了OTFS波形在通信和傳感方面具有很好的適用性。因此可以充分利用現(xiàn)有通信感知融合波形技術(shù)成果以提高無(wú)人機(jī)網(wǎng)絡(luò)綜合通感效能。
基于任務(wù)驅(qū)動(dòng)的無(wú)人機(jī)組網(wǎng)由于無(wú)人機(jī)工作環(huán)境的高移動(dòng)性導(dǎo)致其網(wǎng)絡(luò)拓?fù)涑尸F(xiàn)更高動(dòng)態(tài)性,而單一波形由于受限于其特定的信號(hào)處理方式,往往僅在部分信道狀態(tài)下具有較好的能耗性?xún)r(jià)比,因此需要更為靈活敏捷的通信感知融合波形與協(xié)議機(jī)制設(shè)計(jì),以適配高動(dòng)態(tài)變化的場(chǎng)景。其中諸如OFDM族波形受限于高移動(dòng)性下多普勒頻偏,會(huì)產(chǎn)生嚴(yán)重子載波間干擾,使得其感知精度嚴(yán)重下降,因此基于單一OFDM族的通信感知一體化系統(tǒng)不適合于高速無(wú)人機(jī)場(chǎng)景。而等效于對(duì)OFDM進(jìn)行塊處理的單一OTFS波形[12],其調(diào)制解調(diào)等運(yùn)算的算法復(fù)雜度較高[13],難以支持能量受限的無(wú)人機(jī)平臺(tái)長(zhǎng)期使用,在低移動(dòng)性場(chǎng)景下會(huì)產(chǎn)生嚴(yán)重的能耗資源浪費(fèi)。此外現(xiàn)有的通信感知一體化協(xié)議也存在時(shí)間開(kāi)銷(xiāo)過(guò)高的缺陷,這是因?yàn)闊o(wú)人機(jī)動(dòng)態(tài)性高,無(wú)人機(jī)通信節(jié)點(diǎn)對(duì)之間需要雙向的感知與通信工作,傳統(tǒng)基于雷達(dá)的主動(dòng)感知機(jī)制為實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)感知信息同步需要有較多的感知信息交互開(kāi)銷(xiāo)[14],因此需要新的通信感知融合協(xié)議機(jī)制以減小相應(yīng)開(kāi)銷(xiāo)。綜上,現(xiàn)有的通信感知融合波形及協(xié)議機(jī)制都需要改進(jìn),以更好地支撐具有高動(dòng)態(tài)特性的任務(wù)驅(qū)動(dòng)無(wú)人機(jī)協(xié)同組網(wǎng)。
本文考慮基于通信感知一體化的任務(wù)驅(qū)動(dòng)無(wú)人機(jī)網(wǎng)絡(luò)場(chǎng)景,該網(wǎng)絡(luò)會(huì)因?yàn)闊o(wú)人機(jī)的高移動(dòng)性而帶來(lái)拓?fù)涞膭?dòng)態(tài)變化。為了利用感知信息和不同波形的通信特征降低通信感知一體化過(guò)程中包括綜合效能和時(shí)間開(kāi)銷(xiāo)在內(nèi)的綜合開(kāi)銷(xiāo),提出了一種新的通信感知自適應(yīng)波形機(jī)制以及高時(shí)效性的通信感知融合協(xié)議,首先綜合考慮包括不同波形的算法復(fù)雜度、載荷能力以及誤碼率性能等特征在內(nèi)的波形綜合效能,設(shè)計(jì)了一種感知信息驅(qū)動(dòng)的波形選擇機(jī)制,并提出“基于先驗(yàn)信息輔助的Q-Learning”波形決策方案對(duì)其中的波形決策過(guò)程進(jìn)行實(shí)現(xiàn),以達(dá)到在不同飛行場(chǎng)景下無(wú)人機(jī)所采取的通信方案綜合效能優(yōu)化與在復(fù)雜多變的場(chǎng)景下更好的波形決策魯棒性。在由多無(wú)人機(jī)節(jié)點(diǎn)構(gòu)成的無(wú)人機(jī)網(wǎng)絡(luò)內(nèi),為進(jìn)一步降低以發(fā)送探測(cè)波形接收回波為特征的主動(dòng)感知方式中由于無(wú)人機(jī)節(jié)點(diǎn)間交換感知信息而產(chǎn)生的系統(tǒng)開(kāi)銷(xiāo),本文進(jìn)一步提出了一種信號(hào)發(fā)送端主動(dòng)感知與信號(hào)接收端被動(dòng)感知相結(jié)合的主被動(dòng)融合感知方案。最后通過(guò)一套從起飛到執(zhí)行任務(wù)再到完成任務(wù)歸庫(kù)的無(wú)人機(jī)動(dòng)態(tài)場(chǎng)景仿真,驗(yàn)證了波形選擇機(jī)制的綜合效能開(kāi)銷(xiāo)相對(duì)單一波形系統(tǒng)而言是最佳的,所提出“基于先驗(yàn)信息輔助的Q-Learning”混合決策方案在動(dòng)態(tài)場(chǎng)景下具有很好的魯棒性。
無(wú)人機(jī)通信感知一體化系統(tǒng)應(yīng)用場(chǎng)景如圖1所示,其中無(wú)人機(jī)根據(jù)氣動(dòng)學(xué)劃分為固定翼與旋翼無(wú)人機(jī)兩種,無(wú)人機(jī)搭配多功能天線陣,且感知與通信共用一套發(fā)射接收機(jī)裝置。無(wú)人機(jī)雷達(dá)感知復(fù)雜障礙物目標(biāo)與其他無(wú)人機(jī),并以無(wú)人機(jī)網(wǎng)絡(luò)內(nèi)信息共享形式實(shí)時(shí)更新場(chǎng)景信息,進(jìn)而實(shí)現(xiàn)目標(biāo)追蹤、碰撞避免以及無(wú)人機(jī)網(wǎng)絡(luò)拓?fù)湟?guī)劃等任務(wù),本文將重點(diǎn)關(guān)注該場(chǎng)景下,任務(wù)驅(qū)動(dòng)的無(wú)人機(jī)間通感一體化波形中的通信感知融合問(wèn)題。
圖1 無(wú)人機(jī)通信感知融合系統(tǒng)示意圖
本文研究的無(wú)人機(jī)通信感知一體化系統(tǒng)是以通信波形為基礎(chǔ),使得每架無(wú)人機(jī)同時(shí)具有環(huán)境感知和數(shù)據(jù)傳輸?shù)墓δ?。每個(gè)無(wú)人機(jī)接收天線所收到的是目標(biāo)回波和其他無(wú)人機(jī)通信感知一體化信號(hào)。而發(fā)射天線陣可以輻射sub-6G信號(hào)和毫米波信號(hào),實(shí)現(xiàn)廣域覆蓋的高精度感知與通信功能。
通信感知一體化波形選擇機(jī)制旨在無(wú)人機(jī)針對(duì)高動(dòng)態(tài)飛行環(huán)境自適應(yīng)調(diào)整其通感一體波形,使其實(shí)現(xiàn)綜合能耗最優(yōu)。常見(jiàn)的波形方案可以劃分為多載波和單載波波形。當(dāng)前學(xué)術(shù)界討論較為廣泛的波形包括OFDM族波形、廣義頻分復(fù)用波形(Generalized Frequency Division Multiplexing, GFDM)[15]、橢圓球面波多載波索引調(diào)制波形[16]、OTFS波形以及單載波的SC-FDE波形[17]。不同波形特征如表1所示,本文重點(diǎn)關(guān)注了無(wú)人機(jī)場(chǎng)景下較為敏感的參數(shù),包括是否抗多徑干擾、多普勒頻偏、系統(tǒng)實(shí)現(xiàn)復(fù)雜度高低以及峰均功率比。
表1 常見(jiàn)通信波形特征
這些波形各具特點(diǎn),例如GFDM則很好地解決了OFDM帶外輻射過(guò)高導(dǎo)致的PAPR過(guò)高問(wèn)題[15],使得其可以實(shí)現(xiàn)更高的通信容量,但代價(jià)是降低了誤碼率性能;橢圓波則具備能量集中性特點(diǎn)[16],在提高頻增利用率以及能量效率方面具有很大優(yōu)勢(shì);而SC-FDE系統(tǒng)因其單載波特征很好地解決了多普勒頻偏問(wèn)題,但其數(shù)據(jù)吞吐量則受到了限制[17]。本文針對(duì)無(wú)人機(jī)通信感知一體化場(chǎng)景應(yīng)用OTFS、OFDM以及SC-FDE三種載波波形構(gòu)建選擇機(jī)制。
本節(jié)對(duì)于發(fā)射機(jī)與接收機(jī)結(jié)構(gòu)以及適配幀結(jié)構(gòu)進(jìn)行討論。與現(xiàn)有采用單一波形的通信感知一體設(shè)計(jì)方案所不同的是,本文考慮了不同波形發(fā)射機(jī)及其在調(diào)制解調(diào)過(guò)程中的算法復(fù)雜度、載荷能力以及誤碼率性能等特征在內(nèi)的波形綜合開(kāi)銷(xiāo)。由于不同波形在不同場(chǎng)景下的性能表現(xiàn)存在差異,因而本文采用自適應(yīng)波形選擇機(jī)制以挖掘潛在的信號(hào)的綜合效能。感知信息驅(qū)動(dòng)的自適應(yīng)波形選擇機(jī)制發(fā)射機(jī)與接收機(jī)設(shè)計(jì)如圖2所示,圖中單架無(wú)人機(jī)同時(shí)搭載了具有通信感知一體化功能的發(fā)射機(jī)與接收機(jī)。
圖2 基于自適應(yīng)波形選擇機(jī)制的發(fā)射機(jī)接收機(jī)示意圖
此外對(duì)于本文方案應(yīng)用的OTFS與OFDM波形而言,文獻(xiàn)[18]指出二者存在硬件實(shí)現(xiàn)的兼容性,也就是OTFS波形可以以O(shè)FDM系統(tǒng)為載體,此外OTFS系統(tǒng)可以視為OFDM與SC-FDE系統(tǒng)的線性耦合[19],這對(duì)于在統(tǒng)一硬件設(shè)備下兼容三種波形提供了理論依據(jù)。
同時(shí)對(duì)于三種波形而言,其在低速且散射體較少條件下,三者性能相接近;而在高移動(dòng)且多散射體場(chǎng)景下,OTFS對(duì)抗嚴(yán)重多普勒擴(kuò)展的能力明顯優(yōu)于OFDM系統(tǒng)[20],但是OTFS波形由于相比OFDM而言增加了辛傅里葉變換對(duì),信號(hào)處理復(fù)雜度明顯上升,進(jìn)而導(dǎo)致較高的終端處理時(shí)延。與此同時(shí),OTFS在信道編碼短碼低開(kāi)銷(xiāo)場(chǎng)景下性能優(yōu)于OFDM,當(dāng)信道編碼開(kāi)銷(xiāo)較大時(shí)則兩者性能差異并不明顯[21],而SC-FDE系統(tǒng)基于其單載波特性,抵抗頻偏和相位噪聲的能力相對(duì)于OFDM而言較強(qiáng),但同時(shí)降低了數(shù)據(jù)傳輸速率[22]。
表2[21,23]整理了基于OFDM的OTFS系統(tǒng)復(fù)雜度、OFDM系統(tǒng)復(fù)雜度以及SC-FDE系統(tǒng)復(fù)雜度。
表2 OTFS、OFDM以及SC-FDE系統(tǒng)的運(yùn)算復(fù)雜度
此外,OTFS相比較于OFDM在感知精度性能有優(yōu)勢(shì),Raviteja指出基于 OTFS的雷達(dá)波形在速度檢測(cè)方面比基于OFDM的雷達(dá)波形精確度更高[23],并且在高移動(dòng)場(chǎng)景下OTFS相對(duì)于OFDM有著更高的檢測(cè)分辨度,這對(duì)于提升在高移動(dòng)場(chǎng)景中通信感知融合系統(tǒng)下的感知輔助通信性能有利,而SC-FDE 和OFDM 在處理流程上有很多相似的地方,但由于 SC-FDE 是在時(shí)域上進(jìn)行信號(hào)判決的,對(duì)定時(shí)偏差更加敏感,這對(duì)于基于時(shí)間域匹配濾波器的雷達(dá)而言不利,因而其感知精度相對(duì)OFDM而言更差一些[22]。
為了綜合量化反映選擇不同波形對(duì)應(yīng)的“收益”與“代價(jià)”,這里引入了綜合效能參量。由于本文關(guān)注的整體性能與開(kāi)銷(xiāo)往往是一段時(shí)間內(nèi)所有可用波形的綜合效能概率統(tǒng)計(jì)平均值,因此從時(shí)刻0到時(shí)刻T-1單獨(dú)一側(cè)收發(fā)機(jī)的綜合效能參量表達(dá)式如下:
對(duì)編號(hào)為i的波形而言,其對(duì)應(yīng)綜合效能與一定場(chǎng)景下的波形傳輸誤碼率eri成反比,與能耗參量Pi成反比,與感知精度Si(衡量標(biāo)準(zhǔn)采用歸一化范圍輪廓參數(shù)的倒數(shù)Normalized Range Profile,NRP)成正比,此外也參考了4G-LTE中的容量需求波形自適應(yīng)策略,根據(jù)不同場(chǎng)景下的容量需求劃分單載波與多載波波形應(yīng)用場(chǎng)景,以減少不必要的帶寬資源占用。這里能耗參量Pi為算法所需“功率”,對(duì)于同一硬件系統(tǒng)而言,該參量正比于該波形調(diào)制或解調(diào)時(shí)所需復(fù)數(shù)運(yùn)算單元數(shù)量CMi,通過(guò)表2所整理的調(diào)制解調(diào)端運(yùn)算復(fù)數(shù)因子冪指數(shù)Pe帶入以2為底的指數(shù)運(yùn)算式可得:
CMi=2Pe。
本文進(jìn)一步定義了以下吞吐量-容量需求比,該比值滿(mǎn)足與通信載荷需求相關(guān)的階梯函數(shù):
式中,波形與載荷需求適配表示了兩種典型場(chǎng)景:高通信載荷需求下無(wú)人機(jī)使用了多載波波形,而低載荷需求(例如僅傳遞通信控制信令與少量通信數(shù)據(jù)信令)時(shí)無(wú)人機(jī)使用了單載波波形。F函數(shù)的階梯取值n表示所選波形與通信載荷需求適配的“激勵(lì)”值,該值應(yīng)大于1,且該值應(yīng)可以實(shí)現(xiàn)明顯區(qū)分“適配與不適配”的場(chǎng)景,本文在后續(xù)仿真中為明顯區(qū)分所采用的三種波形綜合能效中的載荷能力,將該值設(shè)定為了10。
pi(t)表示時(shí)刻t內(nèi)選擇編號(hào)為i的波形的概率,由于所采集感知信息將識(shí)別當(dāng)前無(wú)人機(jī)飛行場(chǎng)景,并會(huì)實(shí)時(shí)做出波形調(diào)整,該概率與無(wú)人機(jī)獲取感知信息后交由波形決策過(guò)程中識(shí)別的實(shí)際飛行場(chǎng)景有關(guān),具體而言,波形決策算法根據(jù)無(wú)人機(jī)通過(guò)一體化波形獲取的感知信息計(jì)算選擇不同波形的概率,例如在高移動(dòng)且障礙物較多的大吞吐量需求場(chǎng)景下,OTFS波形被選擇為實(shí)際使用波形的概率要大于另外兩種波形。
而對(duì)于由一對(duì)收發(fā)機(jī)構(gòu)成的通感機(jī)組而言,本文定義其對(duì)應(yīng)的綜合效能為該組內(nèi)收發(fā)機(jī)的綜合能效平均值,這里保證收發(fā)機(jī)所采用波形一致:
基于感知驅(qū)動(dòng)的融合波形傳輸系統(tǒng),本文提出了適配協(xié)議模型,對(duì)感知幀控制幀時(shí)隙做了以下設(shè)計(jì)。
數(shù)據(jù)幀包括數(shù)據(jù)幀(Data Frame)和功能幀(Control Frame)兩種幀,并在必要位置植入導(dǎo)頻。其中上行控制幀中包括數(shù)據(jù)傳輸控制、信息感知與波形控制三種子幀。上行、下行數(shù)據(jù)幀結(jié)構(gòu)如圖3所示。
圖3 上行、下行數(shù)據(jù)幀結(jié)構(gòu)示意圖
當(dāng)該數(shù)據(jù)幀為上行模式時(shí),數(shù)據(jù)幀將攜帶Wave Control幀,該幀塊攜帶發(fā)送端無(wú)人機(jī)根據(jù)感知信息驅(qū)動(dòng)做出的波形決策信息,起到對(duì)接收端無(wú)人機(jī)進(jìn)行波形控制的作用。當(dāng)該數(shù)據(jù)幀為下行模式時(shí),數(shù)據(jù)幀將攜帶Wave Response數(shù)據(jù)幀,該幀塊表征接收無(wú)人機(jī)是否響應(yīng)波形調(diào)整。
感知信息驅(qū)動(dòng)自適應(yīng)波形選擇機(jī)制的決策過(guò)程存在基于環(huán)境而行動(dòng),以期實(shí)現(xiàn)最大化預(yù)期收益的特征。該過(guò)程具有明顯的函數(shù)映射形式的特征,然而目前對(duì)于該機(jī)制的映射數(shù)學(xué)表達(dá)形式并不很容易求得,這是受限于環(huán)境多變以及內(nèi)部過(guò)于復(fù)雜的數(shù)值關(guān)系。因此本文考慮了兩種較為便捷的映射表示形式。理想情況下如果無(wú)人機(jī)對(duì)于所有飛行環(huán)境都能存儲(chǔ)與精準(zhǔn)識(shí)別,以實(shí)現(xiàn)在不同場(chǎng)景下所使用波形的綜合效能最優(yōu)化,則此時(shí)可以認(rèn)為是一種“理想判決”。但是由于實(shí)際場(chǎng)景過(guò)于復(fù)雜多變以至于實(shí)際構(gòu)成的場(chǎng)景識(shí)別存儲(chǔ)過(guò)于龐大,以至于無(wú)人機(jī)幾乎不可能以靜態(tài)的方式識(shí)別所有場(chǎng)景,因此“理想判決”并不能完全實(shí)現(xiàn)。
第一種思路是使用基于查詢(xún)本地存儲(chǔ)的先驗(yàn)信息的“查表”,不過(guò)“查表”需要事先進(jìn)行仿真或?qū)嶋H采集參數(shù),并且與實(shí)際飛行場(chǎng)景綁定,以實(shí)現(xiàn)有限場(chǎng)景的識(shí)別,然而對(duì)于更為復(fù)雜的多變場(chǎng)景而言性能不佳,缺乏魯棒性。
而當(dāng)前可以在動(dòng)態(tài)場(chǎng)景下實(shí)現(xiàn)跟隨環(huán)境變化實(shí)時(shí)魯棒地做出最優(yōu)決策的一種方法便是強(qiáng)化學(xué)習(xí),波形選擇機(jī)制最終期望實(shí)現(xiàn)某段時(shí)間內(nèi)的“綜合能效”,可以認(rèn)為是強(qiáng)化學(xué)習(xí)過(guò)程中的“獎(jiǎng)勵(lì)”信息。
2.3.1 基于先驗(yàn)信息的決策方案
本文通過(guò)仿真給出了基于先驗(yàn)信息的決策方案的一個(gè)典型案例,如表3所示。
表3 一種先驗(yàn)信息存儲(chǔ)參照庫(kù)的案例示意
具體仿真環(huán)境為:使用軟件為Matlab 2020a版本,仿真平臺(tái)為e3 1231v3 處理器、內(nèi)存16 GB、顯卡RX5600xt的臺(tái)式機(jī)。其中OTFS、OFDM波形系統(tǒng)中通信幀塊模式表征了其二維數(shù)據(jù)塊矩陣尺寸參照文獻(xiàn)[22]對(duì)應(yīng)參數(shù)預(yù)設(shè),典型值為32×32、64×64、128×128、256×256,載波中心頻率設(shè)置為2.4 GHz,信道采用包括sub-6G信道和具有稀疏特性的毫米波信道,并通過(guò)對(duì)信道參數(shù)和無(wú)人機(jī)飛行參數(shù)在不同場(chǎng)景設(shè)定下進(jìn)行仿真。
2.3.2 基于先驗(yàn)信息與強(qiáng)化學(xué)習(xí)的決策方案
基于強(qiáng)化學(xué)習(xí)決策過(guò)程可詳細(xì)描述為:強(qiáng)化學(xué)習(xí)模型在獲取從感知信息中提取的障礙物數(shù)量、收發(fā)機(jī)相對(duì)移動(dòng)狀態(tài)、通信感知一體化系統(tǒng)感知狀態(tài)和通信請(qǐng)求等狀態(tài)后,對(duì)所應(yīng)用的空口波形進(jìn)行決策,以期望實(shí)現(xiàn)綜合效能最優(yōu)這一長(zhǎng)期回報(bào)。這里對(duì)于采用Q-Learning方案下的決策問(wèn)題進(jìn)行分析討論。
17-Learning中的智能體、狀態(tài)、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)如下所述:
① 智能體:無(wú)人機(jī)單體i;
④ 即時(shí)獎(jiǎng)勵(lì)函數(shù)代表第t個(gè)時(shí)隙的狀態(tài)中執(zhí)行動(dòng)作的獎(jiǎng)勵(lì),本方案中所用獎(jiǎng)勵(lì)函數(shù)即為綜合效能函數(shù)。算法設(shè)置初始狀態(tài),并根據(jù)輸入的狀態(tài)矩陣判別信息,決策下一回合的傳輸動(dòng)作,同時(shí)根據(jù)當(dāng)前估計(jì)價(jià)值和目標(biāo)價(jià)值依據(jù)梯度下降法更新權(quán)值參數(shù)。
⑤ 此外,為了實(shí)現(xiàn)快速?zèng)Q策,提高強(qiáng)化學(xué)習(xí)算法的效率,這里同時(shí)添加了存儲(chǔ)先驗(yàn)信息的表格,如果感知信息判斷識(shí)別到當(dāng)前環(huán)境是表格中已經(jīng)記錄到的,則直接調(diào)取表格信息,否則將針對(duì)該環(huán)境進(jìn)行實(shí)時(shí)訓(xùn)練,此時(shí)將會(huì)產(chǎn)生訓(xùn)練時(shí)延,并存在一定的綜合效能滯后現(xiàn)象。而后將Q-Learning算法所學(xué)習(xí)到的“新場(chǎng)景”補(bǔ)充進(jìn)表格中,最終實(shí)現(xiàn)一種“基于先驗(yàn)信息輔助的Q-Learning”的混合決策方案。
基于波形選擇機(jī)制方案,可以根據(jù)感知信息獲取的主體不同以及所應(yīng)用的感知波形,將感知方式劃分為基于傳統(tǒng)雷達(dá)模式的通用波形主動(dòng)感知以及本文提出的基于OTFS波形的主被動(dòng)融合感知兩種感知方式。這里的通用波形是指包含但不限于本文所使用的OFDM、OTFS以及SC-FDE波形。
在無(wú)人機(jī)網(wǎng)絡(luò)場(chǎng)景下,為了實(shí)現(xiàn)無(wú)人機(jī)網(wǎng)絡(luò)內(nèi)感知信息共享的需求,傳統(tǒng)雷達(dá)通信一體化場(chǎng)景下的傳輸數(shù)據(jù)幀中會(huì)存在一部分?jǐn)?shù)據(jù)幀用于傳輸感知信息。本文所述基于OTFS通信波形的主被動(dòng)感知融合方案相對(duì)于雷達(dá)方式的主動(dòng)感知的優(yōu)勢(shì)在于在通信的同時(shí)可以實(shí)現(xiàn)發(fā)射端接收端同時(shí)完成感知任務(wù),進(jìn)而減少了用于共享感知信息的開(kāi)銷(xiāo),兩種方案的時(shí)分協(xié)議對(duì)比如圖5所示。
圖5 兩種感知方式數(shù)據(jù)幀結(jié)構(gòu)
2.4.1 基于通用波形的主動(dòng)感知
基于通用波形的主動(dòng)感知的感知信息獲取是信號(hào)發(fā)送方,其核心思想為利用被感知對(duì)象所形成的回波來(lái)估計(jì)感知相關(guān)參數(shù),如圖4(a)所示,具體流程描述如下:
(a) 主動(dòng)感知 (b)主被動(dòng)協(xié)同感知
這里假定存在兩架參與通信感知過(guò)程的無(wú)人機(jī)U1與U2,其中U1為需要獲得感知信息的無(wú)人機(jī),U2為被感知無(wú)人機(jī)。U1首先發(fā)送感知數(shù)據(jù)幀,該數(shù)據(jù)幀采用與通信數(shù)據(jù)幀不同的數(shù)據(jù)內(nèi)容分布結(jié)構(gòu),使得其在回波接收之后可以用于區(qū)分一般數(shù)據(jù)回波,方便檢測(cè)提取。
感知數(shù)據(jù)波到達(dá)U2以及O1、O2等散射體形成反射回波,此時(shí)U1接收反射回波并計(jì)算頻偏、時(shí)延以及角度等信息。
2.4.2 基于OTFS波形的主被動(dòng)感知融合
主被動(dòng)融合感知中的被動(dòng)感知主體是接收無(wú)人機(jī),在接收到發(fā)射無(wú)人機(jī)信號(hào)之后,根據(jù)接收信號(hào)信道特征分析處理所得發(fā)送無(wú)人機(jī)的空間位置信息。
如圖4(b)所示,無(wú)人機(jī)U1采用探測(cè)OTFS波形將感知數(shù)據(jù)幀發(fā)送至U2,此時(shí)U2處理所接收感知數(shù)據(jù)幀形成U2側(cè)測(cè)量感知信息,感知信息在U2以及信道內(nèi)散射體處形成的回波則由U1接收并計(jì)算得到U1側(cè)感知信息,由于散射體的反射系數(shù)不同導(dǎo)致兩個(gè)感知信息會(huì)略有差異。下面給出主動(dòng)被動(dòng)融合感知減少感知信息開(kāi)銷(xiāo)原理。
對(duì)于信號(hào)發(fā)射端無(wú)人機(jī)U1傳輸一段定義在延遲-多普勒域內(nèi)的感知幀數(shù)據(jù)x∈CM×N,M,N分別表示數(shù)據(jù)塊延遲域和多普勒域的尺寸。x經(jīng)過(guò)延遲多普勒域多徑信道hDD后到達(dá)接收無(wú)人機(jī)U2,對(duì)應(yīng)接收信號(hào)y,同時(shí)信號(hào)經(jīng)反射后回到發(fā)射端無(wú)人機(jī)U1接收到反射回波r。
y=XhDD+v,
本節(jié)對(duì)比仿真分析了單一波形系統(tǒng)與“自適應(yīng)波形選擇機(jī)制”方案的綜合效用參數(shù)在動(dòng)態(tài)場(chǎng)景下的瞬時(shí)與時(shí)均效果,以驗(yàn)證所提出的波形選擇機(jī)制可以實(shí)現(xiàn)感知適應(yīng)性調(diào)整,同時(shí)保證系統(tǒng)的綜合效能最優(yōu)。這里設(shè)置仿真場(chǎng)景劃分為五個(gè)階段,其中無(wú)人機(jī)采用2.4 GHz載波頻率。
階段A無(wú)人機(jī)起飛,該階段移動(dòng)速度較低,數(shù)值小于15 m/s,障礙物較少,散射體數(shù)目小于3個(gè),通信內(nèi)容以控制信令為主;
階段B高速經(jīng)過(guò)一段控制站中繼通信區(qū),該區(qū)域通信需求較小,且障礙物較少,散射體數(shù)目小于5個(gè),但是相對(duì)移動(dòng)速度很高,在30~45 m/s范圍內(nèi);
階段C高速經(jīng)過(guò)一段圖像采集與多無(wú)人機(jī)通信區(qū),此區(qū)間內(nèi)滿(mǎn)足較高的移動(dòng)速度且障礙物較多,具體移動(dòng)速度在30~45 m/s范圍內(nèi),散射體數(shù)目大于15個(gè),同時(shí)有較高的通信質(zhì)量與容量需求,因此數(shù)據(jù)幀塊模式矩陣尺寸大于等于64×64;
階段D在完成該任務(wù)后進(jìn)入通信UE密集區(qū),該區(qū)域內(nèi)無(wú)人機(jī)降低速度甚至懸停以提供臨時(shí)基站服務(wù),移動(dòng)速度在0~15 m/s范圍內(nèi),散射體數(shù)目大于15個(gè),數(shù)據(jù)幀塊模式矩陣尺寸大于等于64×64,該區(qū)域提供較大規(guī)模的通信服務(wù);
階段E最后完成所有任務(wù),無(wú)人機(jī)返回機(jī)場(chǎng),無(wú)人機(jī)移動(dòng)速度小于15 m/s,散射體數(shù)目小于5個(gè)。該段場(chǎng)景各單一波形系統(tǒng)與“自適應(yīng)波形選擇機(jī)制”方案的“性能-能耗-容量”綜合效能仿真評(píng)估結(jié)果如圖6所示,根據(jù)圖6可知波形選擇方案(理想判決)相比于其他單一波形方案而言,可以近似最優(yōu)解的方式保證每個(gè)時(shí)間段內(nèi)的綜合效能最佳。
圖6 不同階段單一與“自適應(yīng)波形選擇機(jī)制”綜合效能仿真對(duì)比
仿真對(duì)比了理想決策方案、基于先驗(yàn)信息的決策方案以及基于先驗(yàn)信息輔助與Q-Learning的混合決策方案的魯棒性。根據(jù)圖7可知本文所推薦的基于先驗(yàn)信息輔助的Q-Learning波形決策方案可以實(shí)現(xiàn)更接近于理想決策的效果,對(duì)比單一的查表法雖然犧牲了復(fù)雜度,相對(duì)于理想狀態(tài)由于有在線學(xué)習(xí)過(guò)程,因此也存在一定的判決遲延,但是該方法提高了整體的魯棒性,尤其體現(xiàn)在通信信道狀態(tài)發(fā)生諸如仿真A中階段B、C、D等具有劇烈變化的場(chǎng)景時(shí),依然可以保持較高的綜合能效比。
圖7 基于Q-Learning的決策算法可行性驗(yàn)證與不同決策方案性能對(duì)比
仿真分析驗(yàn)證了主被動(dòng)感知可以降低每架無(wú)人機(jī)用于感知功能的平均開(kāi)銷(xiāo)。場(chǎng)景為一個(gè)基于由5架無(wú)人機(jī)構(gòu)成的平面無(wú)人機(jī)網(wǎng)絡(luò),每架無(wú)人機(jī)均勻分布于一個(gè)五邊形網(wǎng)絡(luò)頂點(diǎn),如圖8所示。每個(gè)無(wú)人機(jī)采用波束掃描的方式來(lái)實(shí)現(xiàn)對(duì)其他無(wú)人機(jī)的感知操作,在定位其他無(wú)人機(jī)后采取定向波束的方式向目標(biāo)無(wú)人機(jī)發(fā)送感知信息共享。當(dāng)已定位某架無(wú)人機(jī)時(shí),無(wú)人機(jī)下次進(jìn)行感知時(shí)將不再對(duì)該角度方向進(jìn)行掃描,假設(shè)每一輪掃描時(shí)間足夠短,無(wú)人機(jī)網(wǎng)絡(luò)并未發(fā)生拓?fù)渥兓?,并假定感知?shù)據(jù)幀此時(shí)采用的數(shù)據(jù)幀塊模式為32×32,則其對(duì)應(yīng)物理幀長(zhǎng)度為1 kbit,并假設(shè)每次共享交換產(chǎn)生的開(kāi)銷(xiāo)為2 kbit,其中包含無(wú)人機(jī)間的相對(duì)距離、速度、角度等感知信息,最終目標(biāo)狀態(tài)為所有無(wú)人機(jī)對(duì)于網(wǎng)絡(luò)具有完整的拓?fù)湫畔ⅰ?/p>
圖8 無(wú)人機(jī)網(wǎng)絡(luò)示意圖
對(duì)于主動(dòng)感知而言,每次雷達(dá)掃描一個(gè)角度,無(wú)人機(jī)立刻對(duì)該方向的目標(biāo)無(wú)人機(jī)傳輸一次當(dāng)前無(wú)人機(jī)已獲悉的拓?fù)涓兄畔?,也就是?zhí)行一次感知信息共享。所設(shè)計(jì)仿真方案可描述為:從無(wú)人機(jī)a開(kāi)始,a進(jìn)行四次角度掃描以定位其余4架無(wú)人機(jī),并按照b→c→d→e的順序掃描,這樣無(wú)人機(jī)b會(huì)首先獲悉a的拓?fù)湮恢?,c會(huì)獲悉a和b的拓?fù)湮恢?,d會(huì)獲知a,b,c的拓?fù)湮恢?。e會(huì)在a掃描完成后獲知全部無(wú)人機(jī)的位置,e便不再需要掃描操作,此時(shí)a產(chǎn)生的開(kāi)銷(xiāo)為4×(1+2)=12 kbit。類(lèi)似的b從c角度開(kāi)始掃描,到e截至,總開(kāi)銷(xiāo)為9 kbit。
主被動(dòng)融合感知無(wú)需感知信息共享,且同樣按照主動(dòng)感知的掃描順序進(jìn)行掃描,從a無(wú)人機(jī)開(kāi)始,遍歷完b至e后,產(chǎn)生總開(kāi)銷(xiāo)為4 kbit,此時(shí)b至e均同時(shí)獲悉了a無(wú)人機(jī)的拓?fù)湫畔?。b掃描則從c開(kāi)始至e,此時(shí)c至e同時(shí)獲悉了b的拓?fù)湮恢?,產(chǎn)生開(kāi)銷(xiāo)為3 kbit。以此類(lèi)推至d結(jié)束,e同樣不需要進(jìn)行掃描即可獲取網(wǎng)絡(luò)所有信息。
對(duì)于兩種感知方式均假設(shè)兩架無(wú)人機(jī)間感知間隔相同的單位時(shí)間t。主動(dòng)感知與主被動(dòng)融合感知的網(wǎng)絡(luò)內(nèi)累計(jì)開(kāi)銷(xiāo)仿真對(duì)比如圖9所示,根據(jù)結(jié)果可知主被動(dòng)融合感知相對(duì)于基于感知信息交換的主動(dòng)感知而言,可以降低67%的感知信息開(kāi)銷(xiāo)。
圖9 不同感知方案的開(kāi)銷(xiāo)對(duì)比
本文針對(duì)無(wú)人機(jī)通信感知一體化場(chǎng)景下的綜合能耗與時(shí)間開(kāi)銷(xiāo)的優(yōu)化進(jìn)行討論,提出了一種波形選擇機(jī)制以及一種主被動(dòng)融合感知機(jī)制。通過(guò)聯(lián)合考慮不同波形的算法復(fù)雜度、波形載荷能力、抗信道干擾能力等因素,引入了綜合能耗性?xún)r(jià)比參量,進(jìn)而得出動(dòng)態(tài)場(chǎng)景下的最佳波形決策機(jī)制,可以提升50%左右的綜合能效比。為了能適應(yīng)高動(dòng)態(tài)飛行環(huán)境下高魯棒性波形決策需求,本文進(jìn)一步利用Q-Learning算法結(jié)合本地先驗(yàn)信息存儲(chǔ)對(duì)波形決策算法進(jìn)行設(shè)計(jì)與實(shí)現(xiàn),得到近似“理想波形決策”的波形決策方案次優(yōu)解。而后從感知信息開(kāi)銷(xiāo)優(yōu)化角度入手,利用波形決策機(jī)制下的OTFS波形的定義域特性實(shí)現(xiàn)了主動(dòng)感知與被動(dòng)感知的融合,減少了無(wú)人機(jī)網(wǎng)絡(luò)內(nèi)感知信息的同步開(kāi)銷(xiāo),本文所提方案對(duì)于未來(lái)無(wú)人機(jī)網(wǎng)絡(luò)物理層優(yōu)化提供了一個(gè)有效思路。