• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Dueling-DDQN的星上帶寬資源預(yù)留算法研究

    2024-01-04 04:31:34劉治國(guó)張姣姣潘成勝
    兵器裝備工程學(xué)報(bào) 2023年12期
    關(guān)鍵詞:服務(wù)質(zhì)量信道分配

    劉治國(guó),張姣姣,潘成勝

    (1.大連大學(xué) 信息工程學(xué)院, 遼寧 大連 116600; 2.大連大學(xué) 通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室, 遼寧 大連 116600;3.南京信息工程大學(xué) 電子與信息工程學(xué)院, 南京 211800)

    0 引言

    衛(wèi)星通信網(wǎng)絡(luò)由于其覆蓋廣、部署快、不受地面情況影響的優(yōu)點(diǎn),已經(jīng)被用于多個(gè)商用系統(tǒng),同時(shí)在國(guó)家基礎(chǔ)服務(wù)、搶險(xiǎn)救災(zāi)、軍事應(yīng)用等方面也是最可靠的通信手段[1-2]。然而由于衛(wèi)星高速運(yùn)動(dòng),低地球軌道(low earth orbit,LEO)衛(wèi)星經(jīng)常發(fā)生點(diǎn)波束切換。新的點(diǎn)波束沒有足夠的可用帶寬,可能會(huì)導(dǎo)致切換失敗概率增加,降低用戶服務(wù)(quality of service,QoS)滿意度。因此本文中的重點(diǎn)在于如何利用合適的帶寬預(yù)留策略來滿足用戶的高QoS需求。

    Maral等[3]提出了允許保證切換(guaranteed handover,GH)策略,該策略實(shí)現(xiàn)了一個(gè)合適的信道預(yù)留過程,保證正在進(jìn)行的呼叫所有切換的成功,仿真證明GH方案比排隊(duì)方案獲得了更好的服務(wù)質(zhì)量。但是,造成信道資源嚴(yán)重浪費(fèi),鎖定的信道無法為其他新的業(yè)務(wù)或者是切換業(yè)務(wù)使用。

    Huang等[4]提出基于概率的動(dòng)態(tài)信道預(yù)留(probability dynamic reservation,PDR)的通信接納方案,根據(jù)實(shí)時(shí)業(yè)務(wù)的切換概率來動(dòng)態(tài)預(yù)留帶寬。仿真證明該方案不僅降低了新通信阻塞概率,而且在一定程度上減少了越區(qū)切換連接丟失概率,同時(shí)保持了較高的資源利用率。

    Chen等[5]提出一種基于自適應(yīng)概率的預(yù)留策略(reservation strategy based on adaptive probability,APRS),在一定的概率下,為前一個(gè)小區(qū)預(yù)留的帶寬可以分配給新呼叫請(qǐng)求。仿真證明,通過這種方式,增加系統(tǒng)可以服務(wù)的用戶數(shù)量并有效地使用帶寬。

    Li等[6]提出了一種多波束聯(lián)合資源分配(multi-beam joint resource allocation,MJRA)方案,充分利用不擁擠的波束帶寬資源,在保證QoS的同時(shí)提高系統(tǒng)性能。

    雖然上述文獻(xiàn)在一定程度上解決了頻繁點(diǎn)波束切換缺乏可用帶寬導(dǎo)致用戶連接中斷的問題,并降低了切換失敗率和新呼叫阻塞概率,提高了用戶服務(wù)質(zhì)量,但是策略中關(guān)于相關(guān)參數(shù)的計(jì)算過度依賴人工先驗(yàn)條件,其策略缺少靈活性。

    針對(duì)上述問題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可根據(jù)用戶的業(yè)務(wù)特性進(jìn)行帶寬資源預(yù)留。該方法首先構(gòu)建SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型來獲取衛(wèi)星資源情況,然后構(gòu)建Dueling-DDQN(dueling-double deep Q-network)網(wǎng)絡(luò)結(jié)構(gòu),并作為決策評(píng)估器,可以避免人為條件的干擾,其中在網(wǎng)絡(luò)結(jié)構(gòu)中引入Noisy方法,增加探索效率。最后通過Dueling-DDQN算法對(duì)帶寬資源進(jìn)行智能分配,有效提高用戶的服務(wù)質(zhì)量和帶寬利用率。

    1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型

    SDN[7]衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型由3個(gè)部分組成,包括GEO控制層、LEO轉(zhuǎn)發(fā)層和用戶請(qǐng)求接入層。

    在圖1中,利用深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法來解決星上帶寬資源的動(dòng)態(tài)預(yù)留問題[8-9],其中 SDN 控制器被部署為 GEO(geosynchronous earth orbit) 衛(wèi)星中的智能體(Agent),對(duì)整個(gè)衛(wèi)星網(wǎng)絡(luò)的全局資源控制,為各類呼叫請(qǐng)求制定動(dòng)態(tài)細(xì)粒度的預(yù)留方法。通信用戶向LEO衛(wèi)星發(fā)出呼叫請(qǐng)求,LEO衛(wèi)星會(huì)將用戶呼叫請(qǐng)求信息作為狀態(tài)信息(State,s),傳遞給Agent以分配帶寬,Agent處理呼叫請(qǐng)求總共有3種動(dòng)作策略(Action,a)以最大帶寬分配、以最小帶寬分配和不分配,通過最小帶寬分配和不分配來預(yù)留帶寬。Agent將動(dòng)作策略返回給LEO衛(wèi)星,LEO衛(wèi)星會(huì)返回給Agent一個(gè)獎(jiǎng)勵(lì)(Reward,r),為了評(píng)估當(dāng)前動(dòng)作的質(zhì)量,通過環(huán)境狀態(tài)和智能體之間的持續(xù)交互,最終獲得獎(jiǎng)勵(lì)積累最大的策略,并將最終的帶寬資源預(yù)留策略返回給用戶。

    圖1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型圖

    關(guān)于模型的元素設(shè)置如下:

    1) 狀態(tài)信息。假設(shè)一顆LEO衛(wèi)星的每個(gè)點(diǎn)波束對(duì)應(yīng)的總帶寬為Bm,可以為G種業(yè)務(wù)類型提供服務(wù),類別屬于Class Ⅰ或Class Ⅱ(G∈{Class Ⅰ, Class Ⅱ})[10-11]。業(yè)務(wù)優(yōu)先級(jí)的權(quán)重定義為λ=[λ1,λ2,…,λG]。通信用戶向低軌衛(wèi)星網(wǎng)絡(luò)系統(tǒng)發(fā)出呼叫請(qǐng)求P=[WS1,WS2,…,WSi…,WSn]T,n代表呼叫請(qǐng)求個(gè)數(shù),其中WSi=[WBi,WCi]。WBi代表業(yè)務(wù)類型WBi∈{1,2,…,G},WCi表示呼叫類型WCi∈{0,1}(0代表新呼叫,1代表切換呼叫)。

    相應(yīng)的狀態(tài)信息包含呼叫請(qǐng)求信息WSi,si可以表示為

    si=WSi

    (1)

    2) 動(dòng)作策略。在Dueling-DDQN算法中,輸入一個(gè)狀態(tài)State,會(huì)對(duì)當(dāng)前的呼叫請(qǐng)求進(jìn)行帶寬分配,接著便會(huì)執(zhí)行這個(gè)動(dòng)作ai。本文中對(duì)呼叫請(qǐng)求處理有3種帶寬分配方式,定義為

    (2)

    式(2)中:Bmax表示以最大帶寬接入,Bmin表示以最小帶寬接入,Failed表示接入失敗。因?yàn)锽min和Failed會(huì)影響信道預(yù)留,可以通過動(dòng)作Bmin和Failed來處理呼叫請(qǐng)求,以預(yù)留帶寬。

    3) 獎(jiǎng)勵(lì)。以動(dòng)作ai處理呼叫信息后,需要根據(jù)實(shí)際環(huán)境來檢驗(yàn)信道帶寬分配方式ai的有效程度。環(huán)境會(huì)向Agent提供獎(jiǎng)勵(lì)反饋,反映Action所執(zhí)行的正確性。如果所執(zhí)行的Action是一個(gè)拒絕操作,那么環(huán)境狀態(tài)便會(huì)提供一個(gè)負(fù)反饋。本文中關(guān)于3種動(dòng)作,對(duì)應(yīng)的初始獎(jiǎng)勵(lì)r′i定義如下:

    (3)

    以最大帶寬處理呼叫請(qǐng)求,獲得的獎(jiǎng)勵(lì)最大,以最小帶寬處理呼叫請(qǐng)求獲得第二獎(jiǎng)勵(lì),拒絕獲得負(fù)獎(jiǎng)勵(lì),所以r0>r1>0>r2。此外,WSi的呼叫類型對(duì)策略的績(jī)效有不同的影響,如式(4)所示。σ0反映切換連接的優(yōu)先級(jí),σ1表示新連接的優(yōu)先級(jí)。

    (4)

    2 衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留策略

    2.1 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)

    圖2 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)

    2.2 Dueling-DDQN策略

    1) 決策目標(biāo)。星上資源預(yù)留過程,是根據(jù)衛(wèi)星帶寬資源利用情況和呼叫信息,以分配信道帶寬,并根據(jù)獲得的累積獎(jiǎng)勵(lì)確定最優(yōu)的資源預(yù)留策略。由于衛(wèi)星帶寬有限,不能以最高獎(jiǎng)勵(lì)處理每一個(gè)業(yè)務(wù)請(qǐng)求,本文中方法的最終目標(biāo)是確定一個(gè)長(zhǎng)期性能增益最大、最優(yōu)的動(dòng)態(tài)星上資源策略π*,π*定義如下:

    (5)

    式(5)中:γ表示獎(jiǎng)勵(lì)重要性的折扣因子,Eπ[·]表示帶寬預(yù)留策略π*的期望。

    (6)

    但是在原始的Dueling DQN算法中采用的epsilon-greedy(ε-greedy)是通過根據(jù)行動(dòng)的最佳概率來選擇行動(dòng),從而提高探索效率。但是,ε-greedy實(shí)際上對(duì)于很多問題[13]都是無效的,在某些情況下,由于探索空間有限[14],可能永遠(yuǎn)無法通過ε-greedy學(xué)習(xí)到最優(yōu)策略。因此將Noisy[15]方法應(yīng)用于Dueling-DDQN框架中,解決ε-greedy存在探索效率低效的問題。Noisy與傳統(tǒng)的探索啟發(fā)式方法ε-greedy策略不同,引入?yún)?shù)噪聲Noisy提高探索效率。

    所以本文中關(guān)于價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù)的計(jì)算,加入Noisy方法,最終動(dòng)作值函數(shù)可以表示為式(7):

    (7)

    (8)

    (9)

    (10)

    由于無法通過學(xué)習(xí)Q函數(shù)來唯一確定價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù),通過優(yōu)勢(shì)函數(shù)的平均值來解決可識(shí)別性問題,如式(11)所示:

    (11)

    Dueling-DDQN算法中DDQN算法[16]是在原有的DQN算法模型基礎(chǔ)上,通過解耦目標(biāo)Q值動(dòng)作的選擇和目標(biāo)Q值的計(jì)算,消除由于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的最大Q值導(dǎo)致的誤差,每次更新也將神經(jīng)網(wǎng)絡(luò)向誤差最大的目標(biāo)Q值進(jìn)行改進(jìn),導(dǎo)致存在過度估計(jì)問題。在動(dòng)作選擇時(shí),不是在目標(biāo)Q網(wǎng)絡(luò)里面找各個(gè)動(dòng)作中最大Q值,而是先在當(dāng)前Q網(wǎng)絡(luò)中找出最大Q值對(duì)應(yīng)的動(dòng)作,具體表達(dá)為式(12):

    (12)

    利用式(12)選擇出的amax去計(jì)算目標(biāo)Q值,如式(13):

    (13)

    DDQN的最終目標(biāo)Q值,可由式(12)和式(13)可得:

    (14)

    3) 損失(Loss)函數(shù)構(gòu)建。Dueling-DDQN算法基于Q-Learning來確定Loss函數(shù),函數(shù)表達(dá)式為

    (15)

    2.3 Dueling-DDQN算法流程

    Q網(wǎng)絡(luò)通過最小化Loss函數(shù)持續(xù)更新神經(jīng)網(wǎng)絡(luò)參數(shù),基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法流程如下:

    算法:基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法

    1.初始化記憶池容量D,遍歷次數(shù)M

    2.初始化衛(wèi)星系統(tǒng)相關(guān)參數(shù)

    4.統(tǒng)計(jì)用戶業(yè)務(wù)的請(qǐng)求情況和衛(wèi)星當(dāng)前帶寬資源利用情況;

    5. for episode=1,Mdo

    6. 初始化衛(wèi)星資源狀態(tài)信息si

    7. fori=1,ndo

    8. 以Noisy方法使得Q值隨機(jī)化

    9. 執(zhí)行帶寬分配動(dòng)作ai,更新狀態(tài)信息si,并獲取衛(wèi)星下一資源狀態(tài)信息si+1

    10.獲得當(dāng)前獎(jiǎng)賞ri

    11.將轉(zhuǎn)換transition存儲(chǔ)到記憶池中

    12. ifD>5 000 then

    13. 隨機(jī)從記憶池中選擇一批數(shù)據(jù)進(jìn)行訓(xùn)練

    14. 代入式(15)更新Q網(wǎng)絡(luò);

    15. end if

    16. end for

    17.end for

    18.返回最優(yōu)策略

    2.4 性能評(píng)估指標(biāo)

    為了衡量信道帶寬預(yù)留策略的性能,通過3個(gè)部分來定義性能評(píng)估指標(biāo)。Pe1作為用戶通信過程中的系統(tǒng)整體性能評(píng)估的參考指標(biāo)。具體式(16)所示:

    (16)

    Pe2為通信速度的效益評(píng)估指標(biāo),具體表示為式(17):

    (17)

    Pe3為帶寬利用率評(píng)估指標(biāo),具體表示為式(18):

    (18)

    3 仿真

    考慮衛(wèi)星在環(huán)繞地球的圓形軌道上周期性和固定的軌道運(yùn)動(dòng)所帶來的軌道可預(yù)測(cè)性,可以將單顆衛(wèi)星覆蓋模型簡(jiǎn)化為小區(qū)模型[18-20],并且衛(wèi)星覆蓋范圍內(nèi)的用戶滿足均勻分布[21]。模擬了G種典型的多媒體服務(wù)[10],這些多媒體應(yīng)用的業(yè)務(wù)參數(shù)定義在表1中。在仿真模型中,衛(wèi)星方面的模擬參數(shù)[22],定義如表2所示。根據(jù)各類優(yōu)先級(jí)情況和中斷正在進(jìn)行的連接更加影響用戶QoS,優(yōu)先級(jí)權(quán)重和權(quán)值參數(shù)[4,8]定義如表3所示。文中方法所涉及的深度強(qiáng)化學(xué)習(xí)參數(shù)也定義在表3中。經(jīng)過多次實(shí)驗(yàn)不同的學(xué)習(xí)率獲得不同的性能,收斂速度也會(huì)不同,所以表3中學(xué)習(xí)率設(shè)置為0.01[23],學(xué)習(xí)速率為0.01時(shí)收斂的速率最快,穩(wěn)定性高。

    表1 數(shù)據(jù)相關(guān)參數(shù)

    表2 衛(wèi)星相關(guān)參數(shù)

    表3 方法相關(guān)參數(shù)

    在仿真模型中,針對(duì)不同的連接到達(dá)速率,我們比較了不同接入策略下的系統(tǒng)性能,包括基于無優(yōu)先接入策略(NPS)、基于概率的動(dòng)態(tài)信道預(yù)留策略(PDR)、基于DQN的衛(wèi)星信道帶寬資源預(yù)留策略(DBR)和基于Dueling-DDQN的星上帶寬資源預(yù)留策略(DDBRR),最終仿真圖如圖3、圖4和圖5所示。

    圖3分析了系統(tǒng)整體服務(wù)質(zhì)量,按照式(16)所示,可以看出Pe1越大,用戶服務(wù)質(zhì)量越低,Pe1越小,用戶服務(wù)質(zhì)量越好。顯然,本文中所提出的基于DDBRR策略性能最好,因?yàn)镈DBRR策略避免了人工干擾,通過建立Dueling-DDQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來做決策。DBR策略因?yàn)檫^估計(jì)等問題性能低于DDBR策略,而NPS策略性能最差,因?yàn)镹PS策略沒有為高優(yōu)先級(jí)的業(yè)務(wù)呼叫保留信道。

    圖3 Pe1用戶整體服務(wù)質(zhì)量

    圖4顯示了性能評(píng)估指標(biāo)Pe2的仿真結(jié)果,從圖4中可以看出,本文中提出的DDBRR策略的Pe2值在所有方案中最低,但是從用戶通信速度滿意度方面,DDBRR策略性能優(yōu)于NPS、PDR和DBR策略。

    圖4 Pe2用戶通信速度服務(wù)質(zhì)量

    帶寬利用率是衡量系統(tǒng)的一個(gè)重要參數(shù),通過資源利用率來衡量系統(tǒng)性能。圖5表示了4種策略的帶寬利用率與連接到達(dá)速率的關(guān)系,性能評(píng)估指標(biāo)Pe3。與其他3種策略相比DDBRR策略帶寬利用率最高,說明本文中所提出的策略可以更加有效的利用系統(tǒng)帶寬資源。

    圖5 Pe3帶寬利用率

    4 結(jié)論

    針對(duì)波束頻繁切換缺乏可用帶寬導(dǎo)致用戶連接中斷問題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可以根據(jù)當(dāng)前的衛(wèi)星資源狀態(tài)來做出最佳的帶寬分配策略?;贒ueling-DDQN算法,利用Dueling Network提高學(xué)習(xí)性能,通過DDQN保證無偏估計(jì),其中加入Noisy來增加探索空間,通過不斷的學(xué)習(xí)探索來為請(qǐng)求動(dòng)態(tài)分配帶寬。

    通過仿真證明所提出的星上帶寬資源預(yù)留算法,可以保障用戶整體服務(wù)質(zhì)量、用戶通話質(zhì)量滿意度和最大化提高帶寬資源利用率。下一步的研究工作中將針對(duì)Dueling-DDQN算法模型中經(jīng)驗(yàn)池采樣方法進(jìn)行優(yōu)化,降低經(jīng)驗(yàn)相關(guān)性。

    猜你喜歡
    服務(wù)質(zhì)量信道分配
    應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
    論如何提升博物館人性化公共服務(wù)質(zhì)量
    收藏界(2019年2期)2019-10-12 08:26:42
    遺產(chǎn)的分配
    一種分配十分不均的財(cái)富
    績(jī)效考核分配的實(shí)踐與思考
    基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
    一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
    傾聽患者心聲 提高服務(wù)質(zhì)量
    堅(jiān)持履職盡責(zé) 提升服務(wù)質(zhì)量
    基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
    濮阳县| 九寨沟县| 宜州市| 灵山县| 黄冈市| 三台县| 静安区| 玉环县| 景东| 女性| 监利县| 土默特左旗| 静乐县| 黄陵县| 海林市| 贞丰县| 宣化县| 濉溪县| 龙陵县| 湟中县| 来凤县| 石嘴山市| 邻水| 宾阳县| 五华县| 南澳县| 西华县| 潮安县| 马边| 海盐县| 扎囊县| 宕昌县| 绵阳市| 呈贡县| 鲁甸县| 四子王旗| 葫芦岛市| 榆社县| 庄河市| 四子王旗| 油尖旺区|