班亞明,馬 寧,王玉清,孫文宇*,王寶寶,劉秀芳,賈慧燕
(1.中國(guó)電科網(wǎng)絡(luò)通信研究院,河北 石家莊 050081;2.航天系統(tǒng)部裝備部軍事代表局駐石家莊軍事代表室,河北 石家莊 050081)
在衛(wèi)星資源有限的前提下,如何實(shí)現(xiàn)衛(wèi)星通信任務(wù)的快速高效調(diào)度,最大限度滿足地面通信任務(wù)對(duì)星上資源的需求是天基網(wǎng)絡(luò)面臨的關(guān)鍵問題之一[1-3]。而隨著衛(wèi)星通信任務(wù)需求量的增長(zhǎng),特殊情況下有限衛(wèi)星資源無法滿足所有用戶需求,此時(shí)需要通過任務(wù)調(diào)度方法盡量提高滿足率。
在當(dāng)前的衛(wèi)星通信任務(wù)調(diào)度問題研究中,一是大多數(shù)研究使用運(yùn)籌學(xué)模型和啟發(fā)式算法進(jìn)行衛(wèi)星通信任務(wù)調(diào)度,但是當(dāng)實(shí)際中調(diào)度問題的約束較多時(shí),會(huì)導(dǎo)致對(duì)需要求解的變量與復(fù)雜度的激增,而過多的求解變量使得上述算法和模型難以高效收斂至較優(yōu)的局部最優(yōu)解;二是隨著強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展[4-6]以及衛(wèi)星通信系統(tǒng)感知能力的提升,越來越多的經(jīng)驗(yàn)數(shù)據(jù)被保存,而深度強(qiáng)化學(xué)習(xí)由于自身特性可以有效利用這些數(shù)據(jù)從中發(fā)現(xiàn)規(guī)律、學(xué)習(xí)策略,因此基于強(qiáng)化學(xué)習(xí)的方法在任務(wù)與資源調(diào)度中被更多地研究[7-8],并適用于衛(wèi)星通信中的任務(wù)調(diào)度問題。
基于上述背景,本文基于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的任務(wù)調(diào)度方法,針對(duì)衛(wèi)星通信系統(tǒng)的場(chǎng)景提出了一種多分支深度Q網(wǎng)絡(luò)模型,主要研究?jī)?nèi)容和貢獻(xiàn)如下:
首先,提出了一種基于深度強(qiáng)化學(xué)習(xí)模型的任務(wù)調(diào)度方法,該模型通過引入了任務(wù)列表分支網(wǎng)絡(luò)(TL分支)和資源池分支網(wǎng)絡(luò)(RP分支),多分支深度Q網(wǎng)絡(luò)能夠同時(shí)對(duì)衛(wèi)星資源池狀態(tài)和衛(wèi)星任務(wù)狀態(tài)提取特征。隨后拼接特征嵌入,并將其輸入價(jià)值分支網(wǎng)絡(luò)(Value分支)計(jì)算動(dòng)作價(jià)值函數(shù),并依據(jù)最優(yōu)動(dòng)作價(jià)值函數(shù)進(jìn)行任務(wù)選擇動(dòng)作和優(yōu)先級(jí)選擇動(dòng)作。多分支深度Q網(wǎng)絡(luò)具有很多優(yōu)秀的特性。其次,基于深度強(qiáng)化學(xué)習(xí)的解決方案在決策過程相比啟發(fā)式算法非常高效。雖然強(qiáng)化學(xué)習(xí)策略的訓(xùn)練非常耗時(shí),但是這些訓(xùn)練工作可以離線進(jìn)行,實(shí)際中只需要利用訓(xùn)練好的模型進(jìn)行推理,因而在絕大部分情況下可以做到近似實(shí)時(shí)決策。最后,使用強(qiáng)化學(xué)習(xí)的方法并不需要顯式地對(duì)未來進(jìn)行預(yù)測(cè),模型可以從交互經(jīng)驗(yàn)、海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、學(xué)習(xí)策略,從而幫助作出合適的決策。
任務(wù)調(diào)度過程在基于透明轉(zhuǎn)發(fā)器的衛(wèi)星通信系統(tǒng)中被廣泛應(yīng)用,尤其是頻率和時(shí)間資源的調(diào)度中,基于透明衛(wèi)星轉(zhuǎn)發(fā)器的任務(wù)調(diào)度過程如圖1所示。一般情況下,使用衛(wèi)星通信網(wǎng)絡(luò)的用戶需要提前對(duì)任務(wù)需求進(jìn)行提報(bào),將其使用的帶寬資源與時(shí)間一起提交至寬帶通信衛(wèi)星的運(yùn)行控制中心。運(yùn)行控制中心為衛(wèi)星的每個(gè)轉(zhuǎn)發(fā)器維護(hù)一個(gè)分配的資源表,轉(zhuǎn)發(fā)器中每個(gè)資源段的任務(wù)時(shí)間記錄在該表中,并在多個(gè)星地綜合網(wǎng)絡(luò)之間共享。隨后,運(yùn)行控制中心將在表中找到滿足需求提報(bào)者任務(wù)的空閑資源段,更新相應(yīng)的任務(wù)時(shí)間段,并將分配結(jié)果通知需求提報(bào)者。最后,需求提報(bào)者利用分配的衛(wèi)星轉(zhuǎn)發(fā)器資源建立衛(wèi)星通信網(wǎng)絡(luò)。
透明衛(wèi)星轉(zhuǎn)發(fā)器任務(wù)調(diào)度過程如果依賴于人工,只有在任務(wù)需求量較少的情況下才可行。隨著任務(wù)需求的強(qiáng)度不斷加大與任務(wù)資源需求的靈活變化和多樣性提升,任務(wù)調(diào)度過程造成的衛(wèi)星轉(zhuǎn)發(fā)器頻率碎片化的現(xiàn)象日益嚴(yán)重,對(duì)人工搜索空閑資源段進(jìn)行任務(wù)需求調(diào)度和維護(hù)帶來了相當(dāng)大的挑戰(zhàn)。這些挑戰(zhàn)增加了任務(wù)的復(fù)雜性和對(duì)運(yùn)行控制中心的技術(shù)要求以及衛(wèi)星系統(tǒng)的運(yùn)營(yíng)成本,并且由于其經(jīng)驗(yàn)性質(zhì),手動(dòng)搜索很難保證資源的最佳利用。此外,當(dāng)高優(yōu)先級(jí)任務(wù)的需求無法立即得到滿足而需要搶占低優(yōu)先級(jí)任務(wù)的現(xiàn)有資源時(shí),如何選擇搶占對(duì)象以保證影響最小也是決策過程需要考慮的問題。
通過對(duì)任務(wù)和資源進(jìn)行合理快速調(diào)度,衛(wèi)星通信任務(wù)調(diào)度方法能夠在多約束的條件下提高衛(wèi)星轉(zhuǎn)發(fā)器資源(頻率和占用時(shí)間)的使用率,通過多分支深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)提高衛(wèi)星資源占用率的示意如圖1所示。多約束條件下任務(wù)調(diào)度問題已經(jīng)被證明是NP問題[9-10],一些傳統(tǒng)運(yùn)籌學(xué)算法[11-12]、貪心算法[13]和啟發(fā)式算法[14-16]已經(jīng)被應(yīng)用在了衛(wèi)星通信任務(wù)調(diào)度領(lǐng)域和其他任務(wù)調(diào)度領(lǐng)域中。
圖1 通過多分支DQN提高衛(wèi)星資源占用率Fig.1 Multi-branch DQN is used to improve satellite resource occupancy
用于衛(wèi)星通信的基于多分支DQN的任務(wù)調(diào)度方法可以定義如下:在固定的衛(wèi)星通信系統(tǒng)條件下,將衛(wèi)星通信系統(tǒng)的衛(wèi)星任務(wù)需求和資源池生成定義為強(qiáng)化學(xué)習(xí)的環(huán)境。在該環(huán)境中,狀態(tài)包括資源池狀態(tài)srp和任務(wù)列表狀態(tài)stl,t時(shí)刻的狀態(tài)被定義為st,以及一系列用于決策的有效動(dòng)作集A(s)。多分支DQN控制的智能體會(huì)在動(dòng)作集合A(s)中選擇一個(gè)有效的動(dòng)作at∈A(s),并于時(shí)間t時(shí)在環(huán)境中執(zhí)行動(dòng)作at以獲得獎(jiǎng)勵(lì)rt,之后環(huán)境的狀態(tài)發(fā)生轉(zhuǎn)移至st+1。在該方法中,將執(zhí)行迭代直到環(huán)境達(dá)到終止條件,即所有分配完成并且資源池沒有更多資源可供分配時(shí)終止。
使用多分支DQN模型解決衛(wèi)星通信任務(wù)調(diào)度問題實(shí)質(zhì)上是找到了比使用啟發(fā)式算法更好的排序序列,其最終目標(biāo)是最小化分配結(jié)果的資源占用率,縮短衛(wèi)星任務(wù)分配總時(shí)間。多分支深度Q網(wǎng)絡(luò)是一種基于DQN[6]的離線策略(Off-policy)方法,是一種典型的價(jià)值優(yōu)化強(qiáng)化學(xué)習(xí)算法,詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)在2.3節(jié)進(jìn)行闡述。
多分支DQN將衛(wèi)星運(yùn)控中心建模為智能體(Agent),將任務(wù)需求和衛(wèi)星通信資源建模為環(huán)境(Environment)。此外,還將討論用于衛(wèi)星通信任務(wù)調(diào)度問題的多分支DQN模型中定義的強(qiáng)化學(xué)習(xí)的主要元素,包括狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)。同時(shí),模型訓(xùn)練階段的經(jīng)驗(yàn)回放、目標(biāo)網(wǎng)絡(luò)和損失函數(shù)的定義也會(huì)得到詳細(xì)介紹。
圖2 基于多分支深度Q網(wǎng)絡(luò)的任務(wù)調(diào)度方法整體圖Fig.2 Overview of the proposed multi-branch DQN based task scheduling method
①狀態(tài)空間
t時(shí)刻下的衛(wèi)星任務(wù)需求和資源池狀態(tài)st=(srp,stl)t是對(duì)該時(shí)刻下資源池狀態(tài)srp和任務(wù)列表狀態(tài)stl的觀測(cè)。當(dāng)有新的任務(wù)需求時(shí),需要對(duì)任務(wù)列表狀態(tài)stl進(jìn)行格式化并更新任務(wù)列表stl的狀態(tài),stl可以表示為:
stl={[o1,φ1(t1),φ2(f1)],…,[om,φ1(tm),φ2(fm)], (1)
式中:om表示衛(wèi)星資源池中第m個(gè)任務(wù)的分配狀態(tài),tm和fm分別表示任務(wù)占用的衛(wèi)星時(shí)間和頻率資源,φ1(tm)=N×tm/Δt和φ2(fm)=N×fm/Δf為tm和fm的狀態(tài)重構(gòu),使它們符合模型輸入的張量大小,tm和fm均在[1,N]內(nèi)重新表述,Δf和Δt分別表示衛(wèi)星資源池中的時(shí)間資源和頻率資源范圍。
通過將頻率資源和時(shí)間資源在各自維度上分別劃分N-1次,可以將衛(wèi)星資源池劃分為N×N個(gè)資源塊。狀態(tài)矩陣srp用于表示資源池中每個(gè)資源塊的占用情況。srp的表示如下:
(2)
式中:p(n,n)為(n,n)資源塊中衛(wèi)星資源池的占用指示。
②動(dòng)作空間
在衛(wèi)星通信任務(wù)調(diào)度問題中,可用動(dòng)作空間A(s)是衛(wèi)星控制系統(tǒng)的決策空間,根據(jù)t時(shí)刻的當(dāng)前狀態(tài)st從A(s)中選擇動(dòng)作at??捎玫牟僮骺臻g取決于分配的資源的類型和資源的限制,包括優(yōu)先動(dòng)作空間Ap和選擇動(dòng)作空間Ac。形式上,A(s)可以定義為:
A(s)={(Ac(i),Ap(j))|1≤i≤m,j=0,1},
(3)
式中:ac=Ac(i)為任務(wù)選擇動(dòng)作,表示本輪在列表中選擇的任務(wù)號(hào);ap=Ap(j)是資源搜索優(yōu)先級(jí)的動(dòng)作,表示分配時(shí)頻率搜索或時(shí)間搜索的優(yōu)先級(jí)。
動(dòng)作選擇的探索機(jī)制直接影響采樣性能。因此,在訓(xùn)練階段,動(dòng)作選擇采用-貪婪策略。多分支DQN以概率從A(s)中隨機(jī)采樣,可以表示為:
(4)
在測(cè)試階段,多分支DQN會(huì)選擇概率分布Q*(st,at)中概率最高的at。
③獎(jiǎng)勵(lì)
以資源占用率作為算法的優(yōu)化目標(biāo),即網(wǎng)絡(luò)的獎(jiǎng)勵(lì)值rt,代表對(duì)狀態(tài)st下所選動(dòng)作at的評(píng)價(jià)。任務(wù)分配后,資源占用率越高,獎(jiǎng)勵(lì)值越高。對(duì)于相同資源塊大小的任務(wù)分配,資源占用率越接近上限,獎(jiǎng)勵(lì)值應(yīng)該越大?;谏鲜鲈瓌t,獎(jiǎng)勵(lì)設(shè)計(jì)如下式所示:
(5)
式中:非負(fù)乘數(shù)ε用于避免無窮值。
④經(jīng)驗(yàn)回放
在訓(xùn)練階段,同一般DQN方法采用了經(jīng)驗(yàn)回放(Reply Memory)技巧來消除衛(wèi)星任務(wù)分配系統(tǒng)中與環(huán)境交互產(chǎn)生的樣本數(shù)據(jù)的相關(guān)性。原因在于深度神經(jīng)網(wǎng)絡(luò)要求輸入樣本不相關(guān),但是對(duì)于衛(wèi)星任務(wù)分配系統(tǒng),任務(wù)分配順序與最終資源占用率之間存在顯著的相關(guān)性。而且,經(jīng)驗(yàn)回放保證了一個(gè)樣本可以多次參與訓(xùn)練,從而提高學(xué)習(xí)效率。每個(gè)訓(xùn)練步驟中生成的四元組et=〈st,at,st+1,rt〉保存在經(jīng)驗(yàn)回放池中。
⑤目標(biāo)網(wǎng)絡(luò)
在訓(xùn)練階段,本文使用目標(biāo)網(wǎng)絡(luò)來計(jì)算TD目標(biāo),SGD只更新DQN的參數(shù),而不更新目標(biāo)網(wǎng)絡(luò)的參數(shù)。原因在于,即便衛(wèi)星任務(wù)分配問題中分配動(dòng)作并非最優(yōu),但其獎(jiǎng)勵(lì)通常是正值,并且會(huì)出現(xiàn)類似于DQN的高估問題,這會(huì)導(dǎo)致每次使用二元組〈st,at〉更新多分支DQN參數(shù)ω時(shí),該模型往往會(huì)高估〈st,at〉的Q值。TD目標(biāo)計(jì)算如下:
(6)
式中:γ為折扣因子獎(jiǎng)勵(lì)。目標(biāo)網(wǎng)絡(luò)的參數(shù)ω-定期更新,多分支DQN中目標(biāo)更新間隔T根據(jù)經(jīng)驗(yàn)設(shè)置為100。目標(biāo)網(wǎng)絡(luò)的參數(shù)通過計(jì)算ω和ω-的加權(quán)平均值來更新,然后再將值分配給ω-。
⑥損失函數(shù)
考慮到Q函數(shù)的自洽性,按照最小化Q(st,at;ω)和TD目標(biāo)yt估計(jì)誤差的原則更新動(dòng)作價(jià)值函數(shù)。在一個(gè)訓(xùn)練輪次中,通過模型推理獲得狀態(tài)st和st+1之間的獎(jiǎng)勵(lì)值rt后,可以得到本次狀態(tài)轉(zhuǎn)移的四元組〈st,at,st+1,rt〉,隨后損失函數(shù)L(ω)由以下等式計(jì)算:
L(ω)=E[(yt-Q(st,at;ω))2],
(7)
式中:yt通過式(6)計(jì)算。
本節(jié)描述所提出的多分支DQN的網(wǎng)絡(luò)結(jié)構(gòu),包括其RP分支、TL分支和Value分支,以及其詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。
圖3 多分支DQN的模型結(jié)構(gòu)示意Fig.3 Structure of the proposed multi-branch DQN model
RP分支是卷積神經(jīng)網(wǎng)絡(luò)(CNN),由卷積模塊組成,每個(gè)模塊由卷積層、BN層和ReLU激活組成。衛(wèi)星資源池狀態(tài)矩陣srp(根據(jù)式(2)計(jì)算)的輸入大小為N×N,類似于2D圖像,因此,RP分支使用CNN的結(jié)構(gòu)更有利于提取衛(wèi)星資源池狀態(tài)的判別特征frp。RP分支的作用是從輸入srp中提取特征,并將其作為推導(dǎo)動(dòng)作價(jià)值函數(shù)的判決條件。TL分支是一個(gè)全連接(Fully Connected,FC)神經(jīng)網(wǎng)絡(luò),其輸入序列為衛(wèi)星任務(wù)列表stl(由式(1)計(jì)算得到)經(jīng)序列化后通過FC層從中提取特征,輸入大小為3×M。TL分支的目標(biāo)是從輸入stl中提取特征,這些特征與frp一起用于估計(jì)動(dòng)作價(jià)值函數(shù)。RP分支和TL分支是并行的,它們的輸出通過Concat層連接起來。然后,將frp和ftl連接起來,生成用于動(dòng)作價(jià)值函數(shù)估計(jì)的全局特征f,隨后將其用作Value分支的輸入來計(jì)算Q(st,at;ω)。與TL分支類似,Value分支也是基于FC層的神經(jīng)網(wǎng)絡(luò)。
TL分支、RP分支和Value分支共同構(gòu)成了多分支DQN的整體結(jié)構(gòu),如表1所示。與一般的強(qiáng)化學(xué)習(xí)模型相比,該模型結(jié)合了多種衛(wèi)星資源類型的特點(diǎn),更適合不同類型的狀態(tài)輸入,更加關(guān)注衛(wèi)星通信系統(tǒng)的資源狀態(tài)。特別是,根據(jù)要解決的衛(wèi)星分配問題的復(fù)雜性(例如任務(wù)數(shù)量、資源池塊劃分的大小),可以利用更深、更復(fù)雜的網(wǎng)絡(luò)作為該模型的骨干。然而,主干結(jié)構(gòu)的選擇超出了本文的范圍。為了簡(jiǎn)化,多分支DQN僅采用相對(duì)較淺的網(wǎng)絡(luò)進(jìn)行調(diào)查。
RP分支輸入的高度和寬度均為N。在第三個(gè)卷積層使用了擴(kuò)展特征圖的技巧(表1中的Conv3)。再改模型中還采用批量歸一化和Dropout來緩解ICS與過度擬合問題。在模型訓(xùn)練完成后,進(jìn)行去BN操作,以提高模型的推理速度,進(jìn)一步減少衛(wèi)星通信任務(wù)調(diào)度時(shí)間。
由于當(dāng)前缺少公開衛(wèi)星通信任務(wù)調(diào)度數(shù)據(jù)集,本文使用了2種隨機(jī)生成方法來生成衛(wèi)星任務(wù)列表數(shù)據(jù)集,并進(jìn)行深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練。第一種方法是零浪費(fèi)衛(wèi)星任務(wù)列表數(shù)據(jù)集生成方法[17],可以用于比較不同分配方法之間的性能。第二種是非零浪費(fèi)數(shù)據(jù)集生成方法,這種方法更符合衛(wèi)星任務(wù)列表的實(shí)際情況。
在所有實(shí)驗(yàn)中,批量大小固定為32,使用SGD優(yōu)化器,針對(duì)不同的episode,動(dòng)量為0.9,權(quán)重衰減為0.000 5。在所有卷積和全連接層后添加BN和ReLU層,并通過Kaiming初始化[18]來初始化參數(shù)。為了消除隨機(jī)因素,在訓(xùn)練模型時(shí)手動(dòng)固定隨機(jī)種子,以確保模型的初始化參數(shù)在不同實(shí)驗(yàn)運(yùn)行中保持一致,避免影響對(duì)比實(shí)驗(yàn)的有效性和合理性。TL分支、Value分支和RL分支的初始學(xué)習(xí)率分別設(shè)置為0.001、0.001和0.01。經(jīng)驗(yàn)回放池的緩沖區(qū)大小設(shè)置為1×105,經(jīng)驗(yàn)回放的超參數(shù)設(shè)置如下:分別為α=0.3、β=0.5和η=0.000 005。梯度裁剪設(shè)置為20,折扣因子獎(jiǎng)勵(lì)γ設(shè)置為0.95。目標(biāo)網(wǎng)絡(luò)解決了訓(xùn)練階段的高估問題,目標(biāo)更新間隔為100。非負(fù)乘數(shù)ε根據(jù)經(jīng)驗(yàn)設(shè)置為0.1。
基于3.1節(jié)中生成的零浪費(fèi)和非零浪費(fèi)數(shù)據(jù)集,本文對(duì)任務(wù)調(diào)度性能和運(yùn)行時(shí)間性能進(jìn)行了對(duì)比實(shí)驗(yàn),證明了所提出的多分支DQN模型的有效性。具體來說,本文的對(duì)比實(shí)驗(yàn)如表2所示,主要比較了本文方法與傳統(tǒng)貪婪算法和啟發(fā)式算法的性能。此外,還分析了實(shí)驗(yàn)結(jié)果以及基于強(qiáng)化學(xué)習(xí)的多分支DQN模型如何影響衛(wèi)星通信任務(wù)調(diào)度算法。
表2 本文方法與其他算法在零浪費(fèi)數(shù)據(jù)集的對(duì)比Tab.2 Comparisons of the proposed multi-branch DQN with existing methods on the zero-waste dataset
由表2可以看出,與貪心算法和啟發(fā)式算法相比,在零浪費(fèi)數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),多分支DQN在平均資源占用性能(AOP)和運(yùn)行時(shí)開銷(RO)方面都有顯著改善。本文方法與貪心算法(Bottom Left[13])相比,可以在時(shí)限允許范圍內(nèi)大幅提高AOP指標(biāo),并且隨著衛(wèi)星任務(wù)數(shù)量的增加,本文方法的性能提升更加明顯。例如,當(dāng)M=40時(shí),本文方法的性能(95.1%)明顯高于GA-PSO[15](93.9%)。這是由于多分支Q網(wǎng)絡(luò)模型能夠從先前的經(jīng)驗(yàn)中學(xué)習(xí),不同的分支可以準(zhǔn)確地學(xué)習(xí)和提取多狀態(tài)特征,而不是對(duì)每個(gè)預(yù)測(cè)進(jìn)行啟發(fā)式探索。特別是對(duì)時(shí)間復(fù)雜度而言,本文方法(1.47 s)可以顯著降低完整任務(wù)調(diào)度過程的運(yùn)行時(shí)開銷(32.54 s)。原因在于與GA-PSO等啟發(fā)式算法相比,基于強(qiáng)化學(xué)習(xí)的方法消除了迭代過程時(shí)間,而多分支Q網(wǎng)絡(luò)模型的訓(xùn)練過程雖長(zhǎng)但可以離線進(jìn)行,實(shí)際中僅使用訓(xùn)練好的模型進(jìn)行推理。
本文還在非零浪費(fèi)數(shù)據(jù)集中進(jìn)行了對(duì)比實(shí)驗(yàn),來更廣泛的評(píng)估多分支Q網(wǎng)絡(luò)模型的性能,模型的訓(xùn)練和測(cè)試的參數(shù)設(shè)置相同。實(shí)驗(yàn)結(jié)果如表3所示,與零浪費(fèi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相似。由于非零浪費(fèi),無法知道該數(shù)據(jù)集上的最優(yōu)分配結(jié)果,但仍然可以使用AOP來比較每種方法的性能。與GA-PSO相比,本文方法在M=40時(shí),AOP(89.6%)和運(yùn)行時(shí)開銷(1.52 s)方面也取得了更好的性能。
表3 本文方法與其他算法在非零浪費(fèi)數(shù)據(jù)集的對(duì)比Tab.3 Comparisons of the proposed multi-branch DQN with existing methods on the non-zero waste dataset
從表2和表3可以得出結(jié)論:① 本文所提出的多分支Q網(wǎng)絡(luò)模型與Bottom Left和GA-PSO相比,在非零浪費(fèi)和零浪費(fèi)數(shù)據(jù)集均取得更好的AOP,并且隨著任務(wù)數(shù)量的增加,性能的提升變得更加明顯。② 與GA-PSO等啟發(fā)式算法相比,本文模型具有分配運(yùn)行時(shí)間更短的優(yōu)點(diǎn),這是由于多分支Q網(wǎng)絡(luò)模型在推理階段不需要啟發(fā)式算法的迭代過程,而大部分時(shí)間僅消耗在模型的訓(xùn)練過程上。以上結(jié)果證明,訓(xùn)練后的基于多分支的DQN模型能夠有效解決衛(wèi)星通信任務(wù)調(diào)度問題,TL分支和RP分支能夠準(zhǔn)確提取衛(wèi)星資源池狀態(tài)和衛(wèi)星任務(wù)狀態(tài)的判別特征。實(shí)驗(yàn)結(jié)果驗(yàn)證了強(qiáng)化學(xué)習(xí)算法在衛(wèi)星通信任務(wù)調(diào)度問題上的應(yīng)用效果。
本文提出多分支Q網(wǎng)絡(luò)模型是一個(gè)基于透明轉(zhuǎn)發(fā)器的衛(wèi)星通信任務(wù)調(diào)度問題的強(qiáng)化學(xué)習(xí)解決方案。通過在網(wǎng)絡(luò)中引入TL分支和RP分支,準(zhǔn)確提取資源池和任務(wù)列表的判別特征。基于DQN的結(jié)構(gòu),通過Value分支選擇包括優(yōu)先級(jí)和任務(wù)索引號(hào)在內(nèi)的多種動(dòng)作價(jià)值函數(shù),大大提高了平均占用率和時(shí)間消耗的性能。綜合實(shí)驗(yàn)表明,提出的模型在生成的零浪費(fèi)任務(wù)數(shù)據(jù)集和非零浪費(fèi)任務(wù)數(shù)據(jù)集上為比傳統(tǒng)的貪婪方法和啟發(fā)式方法表現(xiàn)得更好。這些實(shí)驗(yàn)結(jié)果表明了本文方法在解決衛(wèi)星通信任務(wù)調(diào)度問題方面的有效性和可靠性。