閆曉曈,劉丹譜,張志龍
(北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876)
星地融合網(wǎng)絡(luò)作為地面網(wǎng)絡(luò)與衛(wèi)星網(wǎng)絡(luò)緊密融合的通信網(wǎng)絡(luò)架構(gòu),憑借靈活組網(wǎng)、抗災(zāi)性強(qiáng)、可靠性高、應(yīng)急通信等優(yōu)勢(shì)實(shí)現(xiàn)全球無(wú)縫立體覆蓋[1],是關(guān)乎國(guó)家安全戰(zhàn)略需求的關(guān)鍵基礎(chǔ)設(shè)施[2-3],具有廣闊的發(fā)展?jié)摿εc應(yīng)用前景。與此同時(shí),緩存作為一種應(yīng)用廣泛的網(wǎng)絡(luò)性能優(yōu)化技術(shù),可有效緩解由重復(fù)請(qǐng)求業(yè)務(wù)導(dǎo)致的網(wǎng)絡(luò)擁塞,進(jìn)而縮短獲取請(qǐng)求內(nèi)容時(shí)延,對(duì)于提升星地融合網(wǎng)絡(luò)性能與用戶體驗(yàn)質(zhì)量(Quality of Experience,QoE)具有重要意義。
通用移動(dòng)通信系統(tǒng)中的業(yè)務(wù),依據(jù)業(yè)務(wù)的時(shí)延敏感度被劃分為會(huì)話型(Conversational)、流媒體型(Streaming)、交互型(Interactive)與背景型(Background)[4]。星地融合網(wǎng)絡(luò)所承載的通信業(yè)務(wù)劃分也可參照上述分類[5-7]。
目前已有多位學(xué)者針對(duì)異構(gòu)物聯(lián)網(wǎng)[8]、端到端輔助無(wú)線網(wǎng)絡(luò)[9]、移動(dòng)信息物理融合網(wǎng)絡(luò)[10]與無(wú)人機(jī)通信網(wǎng)絡(luò)[11]等傳統(tǒng)通信網(wǎng)絡(luò)的緩存策略展開(kāi)研究,通過(guò)優(yōu)化緩存策略獲得性能提升。上述研究在傳統(tǒng)無(wú)線通信網(wǎng)絡(luò)中有較好的應(yīng)用效果,但其網(wǎng)絡(luò)組成相對(duì)簡(jiǎn)單、拓?fù)浣Y(jié)構(gòu)穩(wěn)定,難以直接集成到具有網(wǎng)絡(luò)組成多元異構(gòu)、網(wǎng)絡(luò)拓?fù)鋭?dòng)態(tài)變化等特征的星地融合網(wǎng)絡(luò)中,且未考慮使用緩存的業(yè)務(wù)類型。也有許多學(xué)者針對(duì)具體業(yè)務(wù)類型展開(kāi)緩存策略研究。文獻(xiàn)[12]將松弛凸問(wèn)題與裝箱問(wèn)題相結(jié)合,提出一種隨機(jī)緩存與多播聯(lián)合策略,對(duì)大規(guī)模無(wú)線網(wǎng)絡(luò)中流媒體型業(yè)務(wù)成功傳輸率進(jìn)行提升。文獻(xiàn)[13-15]則對(duì)包含宏基站與微基站的異構(gòu)地面無(wú)線網(wǎng)絡(luò)中流媒體型業(yè)務(wù)的緩存策略進(jìn)行優(yōu)化,改善了時(shí)延、QoE、緩存命中率等性能。文獻(xiàn)[16]基于吞吐量設(shè)計(jì)資源調(diào)度策略以提升蜂窩網(wǎng)絡(luò)中流媒體型業(yè)務(wù)的QoE。
現(xiàn)有與緩存策略相關(guān)的研究大多聚焦于傳統(tǒng)無(wú)線網(wǎng)絡(luò)或單一業(yè)務(wù),在多類型業(yè)務(wù)并發(fā)場(chǎng)景中如何量化評(píng)估不同業(yè)務(wù)的緩存收益并實(shí)現(xiàn)對(duì)有限緩存資源的最高效利用,目前并無(wú)現(xiàn)成解決方案。此外,若單純將已有地面網(wǎng)絡(luò)緩存策略集成到星地融合網(wǎng)絡(luò)也難以適應(yīng)其網(wǎng)絡(luò)組成多元異構(gòu)、網(wǎng)絡(luò)拓?fù)鋭?dòng)態(tài)變化等特征。對(duì)此,本文將對(duì)星地融合網(wǎng)絡(luò)中多類型業(yè)務(wù)并發(fā)場(chǎng)景的緩存策略展開(kāi)探索與驗(yàn)證。
星地融合網(wǎng)絡(luò)場(chǎng)景如圖1所示,該網(wǎng)絡(luò)中包含S顆緩存容量均為Caps的LEO,其集合表示為S={si|i=1,2,3,…,s,…,S};B個(gè)緩存容量均為Capb的地面站,其集合為B={bi|i=1,2,3,…,b,…,B},地面站覆蓋范圍內(nèi)均勻分布X個(gè)小區(qū),每個(gè)小區(qū)平均Z個(gè)用戶。假定遠(yuǎn)端核心網(wǎng)(Core Network)處包含所有用戶請(qǐng)求內(nèi)容。
使用一個(gè)S×(S+B)的0-1矩陣Gt表示星地融合網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)間的連接狀態(tài)。
(1)
如表1所示,會(huì)話型業(yè)務(wù)以雙方或多方實(shí)時(shí)交流為主,上行數(shù)據(jù)與下行數(shù)據(jù)具有近似對(duì)稱、高時(shí)延敏感度等特征。在實(shí)際場(chǎng)景中此類業(yè)務(wù)并不存在大量重復(fù)請(qǐng)求情況,因此不在緩存策略中對(duì)其進(jìn)行考慮。而流媒體型、交互型、背景型則均有下行數(shù)據(jù)量明顯高于上行數(shù)據(jù)量的不對(duì)稱性與重復(fù)請(qǐng)求等特性,其緩存需求較高。然而現(xiàn)有緩存策略往往缺少對(duì)多類型業(yè)務(wù)差異化需求的考慮,網(wǎng)絡(luò)性能與用戶體驗(yàn)質(zhì)量都存在提升空間。因此,有必要對(duì)星地融合網(wǎng)絡(luò)中的緩存策略進(jìn)行進(jìn)一步研究與優(yōu)化。
表1 4種業(yè)務(wù)類型及其屬性Tab.1 Four types of services and their attributes
(2)
式中:a為業(yè)務(wù)類型,C為請(qǐng)求業(yè)務(wù)內(nèi)容總數(shù),r為業(yè)務(wù)內(nèi)容的流行次序,βa為(0,1]的Zipf特征參數(shù),NC,βa為C階歸一化系數(shù)。設(shè)定三類業(yè)務(wù)的特征參數(shù)βa為相同值β,根據(jù)Riemann’s zeta函數(shù)性質(zhì)可得,β值越大,pa(r,β,C)取值越集中。
(3)
通信鏈路包含用戶與地面站之間的用戶鏈路(User Link,UL),地面站與LEO間的饋電鏈路(Feeder Link,FL),LEO之間的星間鏈路(Inter-Satellite Link,ISL),以及LEO到Core Network之間的回程鏈路。對(duì)于下行饋電鏈路,接收信噪比可表示為[20]:
SNRFL(dB)=EIRP-LOSS+G-K-k-Bf,
(4)
式中:EIRP為等效全向輻射功率,P為放大器輸出功率,G為天線增益,K為系統(tǒng)等效噪聲溫度,k為玻爾茲曼常數(shù),Bf為信道帶寬,LOSS為饋線損耗。為方便建模,饋電鏈路數(shù)據(jù)傳輸速率設(shè)為理想香農(nóng)容量,由此可得:
RFL=Bflog(1+SNRFL),
(5)
式中:RFL為饋電鏈路傳輸速率,Bf為L(zhǎng)EO波束的下行饋電鏈路信道帶寬。
對(duì)不同緩存狀態(tài)下獲取請(qǐng)求內(nèi)容的時(shí)延情況進(jìn)行分析,進(jìn)一步建立各類業(yè)務(wù)的時(shí)間效用函數(shù),最終構(gòu)建系統(tǒng)和效用最大化問(wèn)題。
在多類型業(yè)務(wù)并發(fā)的星地融合網(wǎng)絡(luò)場(chǎng)景中,用戶終端獲取請(qǐng)求內(nèi)容的時(shí)延包含以下4種情況。
① 從地面站側(cè)獲取請(qǐng)求內(nèi)容的時(shí)延等于用戶鏈路時(shí)延,即:
(6)
式中:RUL代表每個(gè)用戶可分配到的地面站側(cè)信道速率,
(7)
式中:Rb為地面站b的鏈路容量。
② 從衛(wèi)星側(cè)獲取請(qǐng)求內(nèi)容的時(shí)延組成為D1與FL傳輸及傳播時(shí)延:
(8)
③ 從相鄰衛(wèi)星側(cè)獲取請(qǐng)求內(nèi)容的時(shí)延組成為D2與ISL傳輸及傳播時(shí)延。ISL的信道模型可使用由空間傳播模型[21]:
(9)
④ 從遠(yuǎn)端核心網(wǎng)獲取請(qǐng)求內(nèi)容的時(shí)延包含D2與BL時(shí)延T(s,c),即:
(10)
本文基于文獻(xiàn)[22-23]中不同類型業(yè)務(wù)的時(shí)間與帶寬效用函數(shù)與不同業(yè)務(wù)自身時(shí)延敏感度,使用Sigmoid函數(shù)對(duì)星地融合網(wǎng)絡(luò)中多類型業(yè)務(wù)的時(shí)間效用函數(shù)進(jìn)行擬合,得到三類典型業(yè)務(wù)的時(shí)間效用函數(shù)數(shù)學(xué)表達(dá)模型如下:
① 流媒體型業(yè)務(wù)
(11)
② 交互型業(yè)務(wù)
(12)
③ 背景型業(yè)務(wù)
(13)
考慮有三種內(nèi)容重復(fù)請(qǐng)求類業(yè)務(wù)并發(fā)的星地兩級(jí)緩存網(wǎng)絡(luò)場(chǎng)景,將緩存策略的優(yōu)化目標(biāo)設(shè)定為最大化系統(tǒng)和效用,引入內(nèi)容流行度作為效用權(quán)重,即特定時(shí)間內(nèi)所有瞬時(shí)效用的加權(quán)總和。
(14)
基于上述系統(tǒng)模型與優(yōu)化問(wèn)題,本文考慮采用深度強(qiáng)化學(xué)習(xí)算法對(duì)多類型業(yè)務(wù)并發(fā)緩存策略問(wèn)題進(jìn)行求解。由于以DQN為代表的DRL方法需要對(duì)操作空間進(jìn)行離散化處理,顯然不適用于星地融合網(wǎng)絡(luò)場(chǎng)景中緩存策略的探索。而深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法能有效彌補(bǔ)Actor-Critic神經(jīng)網(wǎng)絡(luò)每次參數(shù)更新前后均存在關(guān)聯(lián)性,導(dǎo)致神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)解與難以同時(shí)收斂的缺點(diǎn),可用于解決星地融合網(wǎng)絡(luò)中連續(xù)緩存動(dòng)作控制問(wèn)題[24]。
鑒于星地融合網(wǎng)絡(luò)中節(jié)點(diǎn)眾多且拓?fù)潢P(guān)系動(dòng)態(tài)變化,使得單智能體DRL實(shí)際應(yīng)用困難,本文最終采用DDPG的多智能體版本——多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法。MADDPG作為一種基于DDPG算法進(jìn)行擴(kuò)展的多智能體DRL算法,核心思想為分散執(zhí)行、集中評(píng)價(jià),其算法架構(gòu)如圖2所示。首先,為避免智能體(agent)之間的策略相互干擾,每個(gè)agent使用獨(dú)立的行動(dòng)者網(wǎng)絡(luò)來(lái)選擇動(dòng)作空間(action),這種分散執(zhí)行機(jī)制使得每個(gè)agent可學(xué)習(xí)到自己的最優(yōu)策略。其次,以經(jīng)驗(yàn)回放來(lái)解決樣本的相關(guān)性問(wèn)題,即評(píng)論者網(wǎng)絡(luò)使用之前的經(jīng)驗(yàn)樣本來(lái)集中訓(xùn)練策略網(wǎng)絡(luò),并通過(guò)隨機(jī)抽樣的方式來(lái)減小樣本間的相關(guān)性。
圖2 MADDPG算法架構(gòu)Fig.2 Architecture of MADDPG algorithm
① agent:星地兩級(jí)緩存網(wǎng)絡(luò)中每一個(gè)地面站與每一顆衛(wèi)星都被認(rèn)為是一個(gè)agent。
⑤ 獎(jiǎng)勵(lì)函數(shù)(reward):
(15)
即:t時(shí)刻agent單位緩存資源的效用值,Total_Utilityt為當(dāng)前agent獲得的總效用,Cache_resource為當(dāng)前agent擁有的緩存容量大小。若直接以總效用值作為獎(jiǎng)勵(lì)函數(shù),會(huì)使得獎(jiǎng)勵(lì)數(shù)值波動(dòng)空間較大,造成深度強(qiáng)化學(xué)習(xí)算法難以收斂,故以agent單位緩存資源的效用值作為獎(jiǎng)勵(lì)函數(shù)。
MADDPG作為一種基于DDPG算法進(jìn)行擴(kuò)展的多智能體DRL算法,其設(shè)計(jì)思路基于分離策略與經(jīng)驗(yàn)回放兩個(gè)關(guān)鍵要素。首先,為避免agent之間的策略相互干擾,每個(gè)agent使用獨(dú)立的行動(dòng)者網(wǎng)絡(luò)來(lái)選擇action,這種策略分離機(jī)制使得每個(gè)agent可學(xué)習(xí)到自己的最優(yōu)策略。其次,以經(jīng)驗(yàn)回放來(lái)解決樣本的相關(guān)性問(wèn)題,即使用之前的經(jīng)驗(yàn)樣本來(lái)訓(xùn)練策略網(wǎng)絡(luò),并通過(guò)隨機(jī)抽樣的方式來(lái)減小樣本間的相關(guān)性。為解決多類型業(yè)務(wù)并發(fā)緩存問(wèn)題,本文提出的MADDPG-CMTS算法流程如算法1所示。
本節(jié)對(duì)多類型業(yè)務(wù)并發(fā)緩存策略仿真實(shí)驗(yàn)參數(shù)設(shè)置與結(jié)果進(jìn)行分析說(shuō)明。
衛(wèi)星軌道及移動(dòng)模型主要參考Iridium星座[25],利用STK軟件獲取。在具體仿真中選取兩個(gè)相鄰軌道面,共計(jì)22顆LEO。以O(shè)FDMA技術(shù)為地面用戶終端動(dòng)態(tài)分配帶寬資源。仿真的具體參數(shù)配置如表2所示。
設(shè)置MADDPG算法的訓(xùn)練次數(shù)K為2 000,訓(xùn)練步數(shù)M為50,行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)率為1×10-4,評(píng)論者網(wǎng)絡(luò)學(xué)習(xí)率為1×10-3,經(jīng)驗(yàn)回放池大小為20 000,從經(jīng)驗(yàn)回放池抽取的批大小為128,折扣因子γ設(shè)為0.95。在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方面,將行動(dòng)者網(wǎng)絡(luò)與評(píng)論者網(wǎng)絡(luò)設(shè)計(jì)為兩層神經(jīng)元數(shù)量為256的隱藏層。
對(duì)比算法設(shè)置如下:
① 僅在地面站節(jié)點(diǎn)部署MADDPG-CMTS算法,在衛(wèi)星節(jié)點(diǎn)部署MPC算法;
② 僅在衛(wèi)星節(jié)點(diǎn)部署MADDPG-CMTS算法,在地面站節(jié)點(diǎn)部署MPC算法;
③ 星地融合網(wǎng)絡(luò)所有節(jié)點(diǎn)均部署MPC算法;
④ 星地融合網(wǎng)絡(luò)所有節(jié)點(diǎn)均部署RR算法。
圖3為衛(wèi)星側(cè)緩存空間為50 MB,小區(qū)平均用戶數(shù)為60時(shí),總效用隨Zipf分布參數(shù)β(即請(qǐng)求內(nèi)容流行集中度)的變化曲線。
(a) Caps=Capb=50 MB,Z=60
(b) Caps=50 MB,Capb=100 MB,Z=60圖3 不同Zipf分布參數(shù)下總效用對(duì)比Fig.3 Comparison of total utility under different Zipf distribution parameters
由圖3(a)可知,內(nèi)容流行度越集中,緩存內(nèi)容被請(qǐng)求的概率越高,緩存策略產(chǎn)生的效用亦越高。其中對(duì)比算法3由于在地面站側(cè)與衛(wèi)星側(cè)均緩存有最受歡迎的請(qǐng)求內(nèi)容,兩級(jí)緩存之間沒(méi)有協(xié)作,造成緩存資源的重復(fù)占用,因而獲取的總效用較低。對(duì)比算法4隨機(jī)緩存請(qǐng)求內(nèi)容,由于較大概率緩存到被請(qǐng)求概率較低的內(nèi)容,因此效用值很低,且其緩存策略與內(nèi)容流行度無(wú)關(guān),因此曲線變化趨勢(shì)不明顯。所提MADDPG-CMTS算法相較于對(duì)比算法在內(nèi)容流行度集中程度不同的情況中均能獲得更高的系統(tǒng)總效用。
為更好地切合現(xiàn)實(shí)情況,將地面站側(cè)緩存空間設(shè)置為衛(wèi)星側(cè)的兩倍(即100 MB),保持其他條件不變進(jìn)行仿真對(duì)比,結(jié)果如圖3(b)所示。與圖3(a)對(duì)比,總效用隨內(nèi)容流行集中度變化的趨勢(shì)相似,然而各算法的總效用均有較為明顯的提升。因此在后續(xù)仿真驗(yàn)證中將衛(wèi)星側(cè)與地面站側(cè)緩存空間分別固定為50 MB與100 MB,Zipf分布參數(shù)取值為1。其中,對(duì)比算法1因地面站緩存資源占比增大,其效用變化相較于星地兩級(jí)緩存資源相同時(shí)更貼近于所提MADDPG-CMTS算法。此外,對(duì)比算法4的效用值有一定程度的提升,然而由于整體數(shù)值偏低,曲線變化趨勢(shì)不明顯。
圖4為系統(tǒng)總效用隨小區(qū)平均用戶數(shù)的變化曲線。隨著小區(qū)用戶數(shù)的增多,系統(tǒng)中用戶終端及請(qǐng)求次數(shù)同比例增加,已緩存內(nèi)容被請(qǐng)求的概率亦會(huì)隨之增加。
圖4 不同小區(qū)平均用戶數(shù)下總效用對(duì)比Fig.4 Comparison of total utility under different average number of cell users
圖4表明,所提MADDPG-CMTS算法在所設(shè)用戶數(shù)范圍內(nèi)均能獲得更好的系統(tǒng)效用。其中,在小區(qū)平均用戶數(shù)為60時(shí)即可取得較理想的系統(tǒng)總效用,因此在其他仿真驗(yàn)證中小區(qū)平均用戶數(shù)取值固定為60。
圖5為所提算法與MPC算法在地面站側(cè)與衛(wèi)星側(cè)緩存情況的對(duì)比圖。
(a) 地面站側(cè)
(b) 衛(wèi)星側(cè)圖5 所提算法與MPC算法的緩存情況對(duì)比Fig.5 Comparison between the proposed algorithm and MPC algorithm
由圖5可知,MPC算法并不關(guān)注業(yè)務(wù)的類型,對(duì)不同的業(yè)務(wù)無(wú)差別的緩存其流行度最高的請(qǐng)求內(nèi)容。而所提MADDPG-CMTS算法對(duì)不同類型業(yè)務(wù)的緩存則呈現(xiàn)差異性,流媒體型業(yè)務(wù)相較于交互型業(yè)務(wù)時(shí)延敏感度更高,然而其常見(jiàn)請(qǐng)求為音頻、視頻等,內(nèi)容大小高于交互型,其單位緩存資源的效用值隨之降低。在實(shí)際場(chǎng)景中,用戶對(duì)流媒體型業(yè)務(wù)的信息流內(nèi)時(shí)間關(guān)聯(lián)性更為在意,如同樣觀看一段視頻,播放過(guò)程中多次卡頓與視頻延遲1 min流暢播出相比,用戶對(duì)于前者更為敏感。
圖6為衛(wèi)星側(cè)緩存空間為50 MB,地面站側(cè)緩存空間為100 MB,Zipf分布參數(shù)為1,小區(qū)平均用戶數(shù)為60時(shí),所提算法與MPC算法中不同類型的業(yè)務(wù)獲取請(qǐng)求內(nèi)容的平均時(shí)延。
圖6 所提算法與MPC算法獲取請(qǐng)求內(nèi)容 平均時(shí)延對(duì)比Fig.6 Comparison between the proposed algorithm and MPC algorithm to obtain request content average delay
由圖6可知,相對(duì)于MPC算法,所提算法中背景型業(yè)務(wù)獲取請(qǐng)求內(nèi)容的時(shí)延更長(zhǎng),而流媒體型與交互型業(yè)務(wù)獲取請(qǐng)求內(nèi)容的時(shí)延則有不同程度的降低。由背景型業(yè)務(wù)的時(shí)間效用曲線可知,其效用隨時(shí)延變化并不明顯,對(duì)于流行度相同的內(nèi)容,是否緩存對(duì)應(yīng)的效用相差不大,而所提MADDPG-CMTS算法對(duì)流行度較高的內(nèi)容進(jìn)行緩存則可在一定程度上緩解背景型業(yè)務(wù)重復(fù)請(qǐng)求造成星地融合網(wǎng)絡(luò)對(duì)回程鏈路的依賴。
本文針對(duì)未來(lái)星地融合網(wǎng)絡(luò)中多類型業(yè)務(wù)并發(fā)的問(wèn)題,為具有重復(fù)請(qǐng)求特征的三類業(yè)務(wù)構(gòu)建時(shí)間效用函數(shù),提出一種MADDPG-CMTS算法,并對(duì)所提方案性能進(jìn)行了評(píng)估。仿真結(jié)果表明,與最受歡迎內(nèi)容、隨機(jī)替換等傳統(tǒng)緩存策略相比,所提方案可明顯提升系統(tǒng)總效用,從而提高用戶體驗(yàn)質(zhì)量。