徐素潔, 胡 欣, 王 銀, 王麗冰, 馬仕君, 王衛(wèi)東
(北京郵電大學(xué) 電子工程學(xué)院,北京 100876)
高通量衛(wèi)星作為國(guó)家信息網(wǎng)絡(luò)的重大基礎(chǔ)設(shè)施,以其覆蓋范圍廣、通信質(zhì)量好、運(yùn)行維護(hù)費(fèi)用低等特點(diǎn),在保障國(guó)計(jì)民生等領(lǐng)域發(fā)揮著不可替代的作用[1]。隨著用戶數(shù)量和數(shù)據(jù)業(yè)務(wù)的顯著增長(zhǎng),人們對(duì)其提供業(yè)務(wù)的多樣性和服務(wù)質(zhì)量等方面提出了更高的要求。面對(duì)信息的爆發(fā)式增長(zhǎng),高通量衛(wèi)星不可避免地存在星上資源受限的特征,具體表現(xiàn)在頻譜資源、功率、計(jì)算和存儲(chǔ)資源上。智能自主以及靈活高效地對(duì)高通量衛(wèi)星通信系統(tǒng)的可用信道和功率進(jìn)行動(dòng)態(tài)分配,對(duì)提升衛(wèi)星的通信能力和資源利用率具有重要意義。
在功率分配方面,目前針對(duì)高通量多波束衛(wèi)星系統(tǒng)功率分配研究主要包括固定分配和動(dòng)態(tài)分配兩方面。傳統(tǒng)的衛(wèi)星系統(tǒng)在功率分配方面多采用固定分配方式[2],但是這種方式難以適應(yīng)實(shí)際通信場(chǎng)景中通信需求量的動(dòng)態(tài)性,極易造成資源的浪費(fèi)。為了克服固定分配的缺點(diǎn),各種動(dòng)態(tài)功率分配算法[3-7]應(yīng)運(yùn)而生。文獻(xiàn)[3]指出,未來(lái)移動(dòng)行業(yè)中用戶需求量晝夜變化大,為滿足動(dòng)態(tài)的需求變化,許多高通量衛(wèi)星將具備靈活的功率和帶寬分配功能。大量可調(diào)的衛(wèi)星參數(shù)可以保證用最少的資源來(lái)滿足需求,特別是涉及高維問(wèn)題,手動(dòng)分配資源變得更加不切實(shí)際。因此,研究動(dòng)態(tài)衛(wèi)星功率分配算法顯得尤為重要。文獻(xiàn)[4]提出最大化系統(tǒng)容量算法,即注水算法,該算法實(shí)現(xiàn)功率自適應(yīng)分配的同時(shí)實(shí)現(xiàn)總的數(shù)據(jù)傳輸速率最大化,但并未考慮各波束間功率資源分配的公平性以及業(yè)務(wù)優(yōu)先級(jí)。Hong等[5]提出將動(dòng)態(tài)功率分配問(wèn)題建模成一個(gè)約束條件為非線性函數(shù)的優(yōu)化問(wèn)題,兼顧公平性和系統(tǒng)總?cè)萘?,并通過(guò)拉格朗日乘數(shù)法對(duì)該優(yōu)化問(wèn)題求解。而在多波束衛(wèi)星系統(tǒng)中分配資源以滿足流量需求的問(wèn)題被證明是NP-hard和NP-hard近似問(wèn)題, 文獻(xiàn)[6]為啟發(fā)式算法提出了通用的理論框架,在存在系統(tǒng)功率約束的情況下,將問(wèn)題分解成基于顏色的子問(wèn)題,降低了相關(guān)復(fù)雜性,使該資源分配方法切實(shí)可行。文獻(xiàn)[7]的研究結(jié)果表明,盡管基于元啟發(fā)的方法在解決功率和帶寬分配問(wèn)題上具有不錯(cuò)的效果,但這些算法并沒(méi)有實(shí)時(shí)處理能力。
為了將人工智能賦能于衛(wèi)星通信場(chǎng)景,北京郵電大學(xué)空天地智能感知與通信研究所將深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)框架引入衛(wèi)星通信的無(wú)線資源管理領(lǐng)域,為低復(fù)雜度實(shí)時(shí)動(dòng)態(tài)地實(shí)現(xiàn)無(wú)線資源管理提供了全新的解決思路[8]。由于功率的控制維度可以分為連續(xù)量控制和離散量控制,傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)框架可以滿足離散量功率控制的技術(shù)需求,而不能直接應(yīng)用于連續(xù)量功率控制場(chǎng)景。在文獻(xiàn)[8]的基礎(chǔ)上,麻省理工學(xué)院系統(tǒng)架構(gòu)實(shí)驗(yàn)室提出一種基于深度強(qiáng)化學(xué)習(xí)的近端策略優(yōu)化框架,可實(shí)現(xiàn)對(duì)衛(wèi)星功率的連續(xù)量控制[9]。然而,這種方法沒(méi)有考慮衛(wèi)星場(chǎng)景中的同頻干擾問(wèn)題,在流量需求較低時(shí)效果不佳。文獻(xiàn)[10]提出了一種基于深度強(qiáng)化學(xué)習(xí)的抗干擾算法,可以獲得最優(yōu)的抗干擾策略,該方法僅依賴局部觀測(cè)信息,應(yīng)用范圍更加廣泛。
鑒于無(wú)線場(chǎng)景的復(fù)雜性,無(wú)模型的深度強(qiáng)化學(xué)習(xí)更能滿足多波束衛(wèi)星的技術(shù)需求。因此,本文利用無(wú)模型的強(qiáng)化學(xué)習(xí)方法,提出一種基于深度強(qiáng)化學(xué)習(xí)的近端策略優(yōu)化方法,通過(guò)使用神經(jīng)網(wǎng)絡(luò)對(duì)策略進(jìn)行建模,實(shí)現(xiàn)狀態(tài)與動(dòng)作之間可行的映射,合理化狀態(tài)、收益的設(shè)計(jì),使智能體完全根據(jù)過(guò)去經(jīng)驗(yàn)不斷改進(jìn)策略,實(shí)現(xiàn)策略優(yōu)化。該方法可較低復(fù)雜度地動(dòng)態(tài)控制高通量衛(wèi)星各波束的功率分配,滿足衛(wèi)星請(qǐng)求容量和功率有效利用率的多優(yōu)化目標(biāo)需求。
本文考慮了一種運(yùn)行在Ka頻段的高吞吐量多波束衛(wèi)星系統(tǒng)。多波束衛(wèi)星系統(tǒng)通過(guò)多波束天線,產(chǎn)生多個(gè)點(diǎn)波束覆蓋地面區(qū)域。為突出資源分配中功率控制的優(yōu)化問(wèn)題,假設(shè)饋線鏈路為無(wú)噪聲的,并將下行信道建模為加性高斯白噪聲(AWGN)信道。為了在每個(gè)波束上實(shí)現(xiàn)靈活的功率分配,假設(shè)衛(wèi)星有效載荷配備了必要的模塊,例如多端口放大器(MPAs)、行波管放大器(TWTAs)。多波束衛(wèi)星通信系統(tǒng)可以通過(guò)波束間的頻率復(fù)用來(lái)提高頻譜效率。假設(shè)信道分配方式為固定頻分復(fù)用,頻率復(fù)用因子為4,圖1描述了多波束衛(wèi)星通信。不過(guò),多波束場(chǎng)景適用于任何形狀、大小的波束以及任何頻率復(fù)用模式。
圖1 多波束衛(wèi)星通信示意圖
衛(wèi)星在地面上的多波束表示為B={n|n=1,2,…,N}。功率控制屬于資源分配問(wèn)題,通常資源分配還包括帶寬分配。通過(guò)四色復(fù)用,總可用下行帶寬Btot平均分布在4種顏色中,每一顏色的可用波束帶寬為Btot/4。除了每個(gè)波束功率分配外的載波分配,假設(shè)每一波束傳輸?shù)腗個(gè)載波,并平均共享每一顏色的可用波束帶寬,其中一個(gè)載波表示用于傳輸數(shù)據(jù)流的基本頻譜實(shí)體,載波帶寬Bc=Btot/(4M)。以上假設(shè)將系統(tǒng)可用帶寬Btot通過(guò)頻率復(fù)用并在波束和載波之間進(jìn)行了分配,信道資源相互正交,提高了信道利用率。
下面對(duì)系統(tǒng)總可用功率Ptot進(jìn)行合理分配,使不同波束的比特速率滿足各自的流量需求。定義每個(gè)波束的功率分配矢量為Pb
Pb=[Pb,1,Pb,2,…,Pb,M]
(1)
式中:Pb,c為分配給b波束載波c的功率,其中b=1,…,N;c=1,…,M,以波束為基礎(chǔ)的功率分配矩陣P表示為
(2)
然而,實(shí)際中波束轉(zhuǎn)發(fā)器的所有載波都由同一個(gè)放大器放大,因此對(duì)給不同載波分配的功率電平的范圍設(shè)置了限制。在假定的情形下,放大的載波輸出功率平均地分給帶寬相等的載波(Bc),因?yàn)檩d波的功率與它的帶寬成比例。因此,采用等功率載流子共享總波束功率。假定波束功率分配不均勻,同時(shí)每個(gè)波束載波功率分配均勻,載波發(fā)射功率Pb,c=Pb/M。最后用Pb(OBO)表示波束b的發(fā)射功率與所需輸出功率回退(Output back off,OBO)的關(guān)系。
(3)
由此可以計(jì)算出波束b內(nèi)載波c覆蓋范圍內(nèi)的終端接收的信干噪比(Signal to interference plus noise ratio,SINR),SINR的計(jì)算由DVB-S2采用的自適應(yīng)編碼和調(diào)制方案的總頻譜效率決定。由于波束增益和傳播信道條件在覆蓋范圍內(nèi)的變化,每個(gè)終端都有不同的SNIR值,如式(4)所示。
(4)
式中:N0為噪聲功率譜密度。它依賴于接收機(jī)天線和等效噪聲溫度以及覆蓋區(qū)域上的氣候條件,因?yàn)樵肼暅囟葧?huì)因降雨衰減而加劇。再根據(jù)香農(nóng)定理得到位于波束b的接收載波c在信道(Bc)上的信道容量,如式(5)所示。
Cb,c=Bclog2(1+SINRb,c)=
(5)
首先,針對(duì)波束間業(yè)務(wù)量分布不均勻的問(wèn)題提高多波束衛(wèi)星系統(tǒng)的資源利用率,以滿足流量需求的同時(shí)最小化系統(tǒng)功耗為目標(biāo),完成功率資源分配。當(dāng)優(yōu)化變量為載波功率Pb,c時(shí),則要滿足
(6)
(7)
(8)
(9)
優(yōu)化目的是確定滿足各自流量需求的波束功率級(jí)Pb,同時(shí)使直流功耗最小。在有限的功率資源情況下,在較短的時(shí)間內(nèi)最佳地分配這些資源,降低總體未滿足系統(tǒng)需求(Unsatisfied system capacity ratio, USCR)和溢出系統(tǒng)需求的和(Overflow system capacity ratio, OSCR)分別為
(10)
(11)
式中:Cb表示波束b提供的信道容量,Db表示波束b的流量需求。
(12)
(13)
(14)
Pb,t≥0 ?b∈B
(15)
式中:B為衛(wèi)星的波束集合。
式(12)為多波束衛(wèi)星通信系統(tǒng)中動(dòng)態(tài)功率分配的最優(yōu)化目標(biāo),其中α為加權(quán)常數(shù),用于定義兩個(gè)目標(biāo)之間的優(yōu)先級(jí)。式(13)表示每個(gè)波束分配的功率不應(yīng)超過(guò)單波束功率限制。式(14)表示波束總發(fā)射功率不應(yīng)超過(guò)衛(wèi)星的機(jī)載總功率。每個(gè)終端的下行容量,與分配的帶寬、功率、發(fā)射天線增益以及接收天線增益相關(guān)。當(dāng)終端位置確定時(shí),可以通過(guò)調(diào)整帶寬、功率分配方式來(lái)調(diào)整信道容量。本文通過(guò)調(diào)整各波束分配的功率調(diào)整信道容量,在滿足系統(tǒng)需求的同時(shí)最小化系統(tǒng)功耗。
作為機(jī)器學(xué)習(xí)的一種,強(qiáng)化學(xué)習(xí)在智能體與環(huán)境交互的過(guò)程中,通過(guò)環(huán)境的反饋提升自身決策能力。強(qiáng)化學(xué)習(xí)算法流程框圖如圖2所示。
圖2 強(qiáng)化學(xué)習(xí)算法框圖
基本的強(qiáng)化學(xué)習(xí)架構(gòu)由兩個(gè)基本要素組成:智能體和環(huán)境。給定狀態(tài)st表征某個(gè)時(shí)間步t的環(huán)境狀態(tài),智能體的目標(biāo)是采取將累計(jì)收益Gt最大化的動(dòng)作at,定義為
(16)
式中:T為episode的長(zhǎng)度,rk為在時(shí)間步k獲得的獎(jiǎng)勵(lì),γ為折扣因子。
深度強(qiáng)化學(xué)習(xí)研究目前正處于快速發(fā)展階段,其涉及的算法有基于值函數(shù)的深度Q網(wǎng)絡(luò)及相關(guān)改進(jìn)算法和深度確定性策略網(wǎng)絡(luò)、基于策略的近端策略優(yōu)化算法以及異步優(yōu)勢(shì)動(dòng)作評(píng)判算法,還有同時(shí)訓(xùn)練多個(gè)任務(wù)的無(wú)監(jiān)督輔助強(qiáng)化學(xué)習(xí)。
PPO算法是2017年由Open AI提出的一種DRL算法[11]。深度強(qiáng)化學(xué)習(xí)方法選用目前最先進(jìn)的近端策略優(yōu)化算法,PPO 算法是策略梯度(Policy gradient)方法的一種改進(jìn)算法。策略梯度算法作為基于策略的優(yōu)化方法,與基于值的優(yōu)化方法相比更適合應(yīng)用在具有連續(xù)的狀態(tài)動(dòng)作空間的問(wèn)題中。
策略梯度方法對(duì)于訓(xùn)練步長(zhǎng)的選擇十分敏感,過(guò)大或過(guò)小的步長(zhǎng)均會(huì)造成非常差的結(jié)果,而PPO 算法的提出解決了訓(xùn)練步長(zhǎng)難以確定的問(wèn)題。在PPO算法中,通過(guò)限制每步策略更新的大小消除這種缺陷,使用clip 代理函數(shù)和自適應(yīng)kl懲罰和限制每次迭代時(shí)策略的更新大小。PPO 能夠在易于實(shí)現(xiàn)、樣本復(fù)雜度和易于調(diào)整之間實(shí)現(xiàn)平衡,對(duì)于連續(xù)控制問(wèn)題有很好的性能,穩(wěn)定性和收斂性的優(yōu)勢(shì)使得PPO成為Open AI主推的深度強(qiáng)化學(xué)習(xí)方法。
圖3顯示了針對(duì)多波束衛(wèi)星動(dòng)態(tài)功率分配的DRL架構(gòu)。本文使用PPO算法的策略梯度方法改進(jìn)分配策略。PPO算法通過(guò)與環(huán)境交互采樣數(shù)據(jù),并使用隨機(jī)梯度上升優(yōu)化“替代”目標(biāo)函數(shù)。由于該算法不允許對(duì)策略進(jìn)行較大的連續(xù)更改,因此可以防止在某些情況下策略性能明顯變差的問(wèn)題,使系統(tǒng)更加穩(wěn)定。
圖3 DRL架構(gòu)
本文通過(guò)神經(jīng)網(wǎng)絡(luò)給出功率分配策略。神經(jīng)網(wǎng)絡(luò)是一種基于大腦神經(jīng)結(jié)構(gòu)的非線性計(jì)算模型,能夠?qū)W習(xí)執(zhí)行分類(lèi)、預(yù)測(cè)、決策和可視化等任務(wù)。由人工神經(jīng)元組成的人工神經(jīng)網(wǎng)絡(luò)組成3個(gè)相互連接的層:輸入層、隱藏層和輸出層。在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播作為一種有效的學(xué)習(xí)算法來(lái)計(jì)算損失函數(shù)的梯度,并調(diào)整每個(gè)神經(jīng)元的權(quán)值。如圖3所示,神經(jīng)網(wǎng)絡(luò)是對(duì)于Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練。狀態(tài)分別輸入到Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),圖中的Policy和Old policy都是Actor網(wǎng)絡(luò)。Old policy由Policy在訓(xùn)練完一個(gè)批次后進(jìn)行更新。
圖3中的環(huán)境由衛(wèi)星系統(tǒng)以及每個(gè)波束的流量需求組成,是與問(wèn)題相關(guān)且智能體無(wú)法直接控制的內(nèi)容。智能體即衛(wèi)星根據(jù)環(huán)境狀態(tài)進(jìn)行功率分配,即策略分配,根據(jù)環(huán)境狀態(tài)選擇動(dòng)作,以及策略優(yōu)化算法,該算法根據(jù)過(guò)往經(jīng)驗(yàn)不斷改進(jìn)分配策略。功率分配中,連續(xù)變量為每束波束的流量需求以及分配給波束的功率值,因此不同的環(huán)境狀態(tài)和執(zhí)行動(dòng)作的數(shù)量是無(wú)限的。在這種情況下,在分配策略中存儲(chǔ)每一個(gè)狀態(tài)的最佳動(dòng)作是不切實(shí)際的,因此本文使用神經(jīng)網(wǎng)絡(luò)對(duì)策略進(jìn)行建模,在輸入狀態(tài)和輸出動(dòng)作之間實(shí)現(xiàn)可行的映射。
2.2.1 狀態(tài)
在衛(wèi)星總功率有限的情況下,波束通過(guò)選擇合適的傳輸功率來(lái)克服共信道干擾和降雨衰減的影響,滿足當(dāng)前的流量需求。該決策變量基于當(dāng)前時(shí)刻t波束需求Db與上一時(shí)刻波束提供容量Ct-1的差值。因此,狀態(tài)只與當(dāng)前時(shí)刻的流量需求狀況和上一時(shí)刻的動(dòng)作,即上一時(shí)刻的功率分配情況有關(guān),將狀態(tài)表示為
st=(Dt-Ct-1)
(17)
2.2.2 動(dòng)作
(18)
2.2.3 收益
收益的設(shè)計(jì)需要綜合考慮未滿足系統(tǒng)需求的比例USCR和溢出系統(tǒng)需求的比例OSCR, 通過(guò)α權(quán)重的設(shè)計(jì),可以保證在滿足波束流量需求的前提下,使提供容量可以略大于流量需求。波束內(nèi)的信道容量越接近于流量需求,rt越接近于1,表征該狀態(tài)較好,反之表征該狀態(tài)較差。
Reward=1-USCR(Pb,t)-α*OSCR(Pb,t)
(19)
式中:Cb,t表示t時(shí)刻波束b提供的信道容量,Db,t表示t時(shí)刻波束b的流量需求。
2.2.4 下一時(shí)刻狀態(tài)
下一個(gè)狀態(tài)是在時(shí)間步t+1觀察到的波束環(huán)境,該環(huán)境由時(shí)間步t中所有波束的動(dòng)作確定。此外,通過(guò)對(duì)Reward范圍進(jìn)行判斷,實(shí)現(xiàn)流量需求的變化。當(dāng)Reward處于設(shè)定的較好的范圍內(nèi)時(shí),流量需求跳轉(zhuǎn)到下一時(shí)刻;當(dāng)Reward不能滿足當(dāng)前規(guī)定范圍時(shí),流量需求不改變,直至Reward達(dá)到較好的值,此時(shí)狀態(tài)的改變直接由上一時(shí)刻的動(dòng)作決定。
算法實(shí)現(xiàn)流程主要分為初始化、訓(xùn)練更新和性能評(píng)估統(tǒng)計(jì)3個(gè)階段,其中初始化階段進(jìn)行衛(wèi)星場(chǎng)景參數(shù)的初始化,以及PPO學(xué)習(xí)率等參數(shù)以及Actor及Critic網(wǎng)絡(luò)的初始化,在功率資源初始化階段,多波束衛(wèi)星星上總功率平均分配給各波束。訓(xùn)練更新階段,根據(jù)衛(wèi)星通信系統(tǒng)中各波束用戶通信業(yè)務(wù)請(qǐng)求情況以及系統(tǒng)中可用功率資源,完成功率動(dòng)態(tài)分配的馬爾科夫決策過(guò)程(Markov decision process, MDP),進(jìn)行功率分配策略的學(xué)習(xí)更新。最后在指定的訓(xùn)練周期內(nèi),繪制出訓(xùn)練期間內(nèi)性能指標(biāo)變化的曲線圖,以及對(duì)最后流量需求和提供的信道容量的柱狀圖進(jìn)行對(duì)比,對(duì)智能體學(xué)習(xí)到的動(dòng)態(tài)功率分配結(jié)果進(jìn)行性能統(tǒng)計(jì)。下面對(duì)3個(gè)階段具體說(shuō)明。
(1)初始化階段
① 初始化衛(wèi)星通信場(chǎng)景相關(guān)參數(shù),工作頻段、系統(tǒng)帶寬、功率譜密度等。
② 初始化PPO算法的相關(guān)參數(shù),運(yùn)行周期,每周期訓(xùn)練次數(shù),Actor和Critic網(wǎng)絡(luò)的學(xué)習(xí)率等。
③ 統(tǒng)計(jì)系統(tǒng)中各波束覆蓋情況以及波束的流量需求。
(2) 訓(xùn)練與更新階段
① 每周期內(nèi)進(jìn)行重置以及經(jīng)驗(yàn)Buffer。
② PPO內(nèi)Actor網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)st選取動(dòng)作at。
③ 環(huán)境根據(jù)選區(qū)的動(dòng)作以及當(dāng)前狀態(tài)更新?tīng)顟B(tài)并返回下一狀態(tài),收益和平均通信滿意度。
④ 儲(chǔ)存經(jīng)驗(yàn)條目st,at,rt到經(jīng)驗(yàn)池。
⑤ 如果訓(xùn)練次數(shù)等于訓(xùn)練批次,則計(jì)算優(yōu)勢(shì)函數(shù)、經(jīng)驗(yàn)池內(nèi)數(shù)據(jù)與新網(wǎng)絡(luò)重置經(jīng)驗(yàn)。
(3) 性能評(píng)估
根據(jù)每個(gè)周期內(nèi)計(jì)算的周期平均收益、周期平均通信滿意度繪制曲線圖。
本文的仿真平臺(tái)為Python3.6.0。在多波束衛(wèi)星通信系統(tǒng)中,地球同步軌道(Geosynchronous earth orbit,GEO)衛(wèi)星各波束間業(yè)務(wù)量非均勻分布,終端用戶利用所分配的帶寬、功率等資源與GEO衛(wèi)星進(jìn)行通信,并根據(jù)各用戶下行容量計(jì)算系統(tǒng)容量,將各方案進(jìn)行對(duì)比。
(1)仿真參數(shù)設(shè)計(jì)
在考慮的GEO多波束衛(wèi)星功率分配仿真場(chǎng)景中,衛(wèi)星處于Ka波段,工作頻段為20 GHz,產(chǎn)生N=37個(gè)點(diǎn)波束覆蓋地面區(qū)域,表示為B={n|n=1,2,…,N} ,可用總帶寬為Btot=500 MHz,可用總功率Ptot=2 000 W。表1為多波束衛(wèi)星動(dòng)態(tài)功率分配系統(tǒng)的仿真參數(shù)。近端策略優(yōu)化(PPO)算法參數(shù)的設(shè)置如表2所示。
(2)仿真結(jié)果
本文使用系統(tǒng)一日服務(wù)作為參考,每一小時(shí)對(duì)系統(tǒng)流量請(qǐng)求進(jìn)行采樣并對(duì)37波束動(dòng)態(tài)功率分配。隨著時(shí)間的變化,實(shí)際的業(yè)務(wù)量分布是不均勻的。圖4顯示了一天中流量變化的假定曲線。如圖所示,一天的流量高峰時(shí)段是上午7:00~9:00和下午14:00~18:00左右,而清晨和深夜是流量需求相對(duì)較低的時(shí)間段。
表1 動(dòng)態(tài)功率分配場(chǎng)景仿真參數(shù)
表2 PPO算法參數(shù)設(shè)計(jì)
圖4 24小時(shí)流量需求變化圖
為了更好地理解所提算法的優(yōu)勢(shì),在圖5~8中分別將4個(gè)不同時(shí)刻包括高峰、非高峰的請(qǐng)求流量與提供容量進(jìn)行了對(duì)比。
圖5~8中,藍(lán)色矩形代表流量需求,綠色矩形代表提供的信道容量??梢钥吹搅髁啃枨筝^低時(shí),各波束均能滿足終端的流量需求;流量需求較高時(shí),分配的功率可以滿足大多數(shù)波束的流量需求。仿真結(jié)果表明,該算法能夠靈活地分配功率資源,功率資源利用率更高。
圖5 12:00時(shí)流量需求與提供容量
圖6 5:00時(shí)流量需求與提供容量
圖7 9:00時(shí)流量需求與提供容量
圖8 18:00流量需求與提供容量
收益隨時(shí)間變化情況如圖9所示,未滿足系統(tǒng)需求與溢出系統(tǒng)需求的和USCR+OSCR隨時(shí)間變化情況如圖10所示。
圖9 Reward、(USCR+OSCR)收斂圖
圖10 48小時(shí)需求與提供容量對(duì)比
圖10為48小時(shí)歸一化后的流量需求與提供容量對(duì)比,與文獻(xiàn)[8]相比,提供容量不僅對(duì)峰值需求產(chǎn)生響應(yīng),當(dāng)需求量較低時(shí),智能體也能為波束分配合理的功率,減少衛(wèi)星資源的浪費(fèi)。此外,由于衛(wèi)星通信有較大的時(shí)延,訓(xùn)練網(wǎng)絡(luò)放在地面端,并將訓(xùn)練好的輸入和輸出數(shù)據(jù)集在衛(wèi)星端引入深度學(xué)習(xí),生成一個(gè)可以直接感知狀態(tài)并輸出功率的深度學(xué)習(xí)網(wǎng)絡(luò)。圖11為L(zhǎng)oss曲線收斂圖,輸入一個(gè)流量需求,深度學(xué)習(xí)網(wǎng)絡(luò)可以馬上生成對(duì)應(yīng)狀態(tài)的功率。
圖11 Loss曲線收斂圖
本文提出并驗(yàn)證了一種基于策略的近端策略優(yōu)化算法的衛(wèi)星功率動(dòng)態(tài)控制方法。實(shí)驗(yàn)結(jié)果表明,基于近端策略優(yōu)化算法的衛(wèi)星動(dòng)態(tài)功率控制方法表現(xiàn)出不錯(cuò)的性能,能較好地處理實(shí)際的流量需求,并給出不同波束的最優(yōu)功率分配值。同時(shí),本文對(duì)衛(wèi)星功率分配系統(tǒng)模型做了較全面的分析,為后續(xù)研究更加貼合實(shí)際的衛(wèi)星場(chǎng)景打下了基礎(chǔ),但是本文所實(shí)現(xiàn)的內(nèi)容還有不足,后續(xù)需要對(duì)DRL架構(gòu)進(jìn)一步完善,并進(jìn)一步驗(yàn)證智能體的泛化能力。