黃萬偉, 鄭向雨, 張超欽, 王蘇南, 張校輝
(1.鄭州輕工業(yè)大學(xué) 軟件學(xué)院,河南 鄭州 450001;2.鄭州輕工業(yè)大學(xué) 計算機與通信工程學(xué)院,河南 鄭州 450001;3.深圳職業(yè)技術(shù)學(xué)院 電子與通信工程學(xué)院,廣東 深圳 518055;4.河南信安通信技術(shù)股份有限公司,河南 鄭州 450001)
近年來,隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)用戶應(yīng)用需求不斷多樣化,新型網(wǎng)絡(luò)應(yīng)用和服務(wù)應(yīng)運而生,導(dǎo)致網(wǎng)絡(luò)規(guī)模和運維管理逐漸復(fù)雜[1]。路由作為網(wǎng)絡(luò)通信的基礎(chǔ),確保數(shù)據(jù)包從源節(jié)點高效地發(fā)送到目標(biāo)節(jié)點,因此合理的路由算法是保障用戶體驗質(zhì)量(quality of experience, QoE)[2]的前提,然而面對不斷復(fù)雜的網(wǎng)絡(luò)環(huán)境,傳統(tǒng)路由算法已難以保證用戶體驗質(zhì)量。隨著人工智能的興起,基于機器學(xué)習(xí)的智能路由算法逐漸展現(xiàn)出發(fā)展?jié)摿Α,F(xiàn)階段,研究人員嘗試在軟件定義網(wǎng)絡(luò)(software defined network, SDN)[3]環(huán)境下實現(xiàn)智能路由優(yōu)化,利用SDN控制器可編程接口,可實現(xiàn)網(wǎng)絡(luò)功能的靈活部署和細粒度網(wǎng)絡(luò)監(jiān)測,有效促進網(wǎng)絡(luò)管理的靈活性。
目前,研究者們基于機器學(xué)習(xí)對路由算法展開深入研究,提出了一系列智能路由算法解決方案。Reza等[4]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的流量分類方案,根據(jù)流量類別適配不同的路由算法,從而實現(xiàn)了不同流量類別的路由優(yōu)化;Tang等[5]提出了一種基于實時深度學(xué)習(xí)的智能流量控制方法,該方法通過將特定狀態(tài)輸入到卷積神經(jīng)網(wǎng)絡(luò),根據(jù)鏈路擁塞程度選擇接近最優(yōu)的路由策略,相比于傳統(tǒng)路由算法實現(xiàn)了較低的丟包率和平均時延。Rao等[6]提出了一種基于深度強化學(xué)習(xí)的約束智能路由方法,通過拉格朗日乘子法求解約束問題,使得路由服務(wù)能夠滿足用戶對網(wǎng)絡(luò)性能的差異化需求。Liu等[7]提出了一種面向軟件定義數(shù)據(jù)中心網(wǎng)絡(luò)中智能路由的深度強化學(xué)習(xí)方法,通過多個網(wǎng)絡(luò)資源重組方法,實現(xiàn)了不同網(wǎng)絡(luò)狀態(tài)下自適應(yīng)路由優(yōu)化。上述基于SDN的智能路由算法已廣泛應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò),展現(xiàn)出良好的性能優(yōu)勢,但此類算法通常采用前饋神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)各層之間以單向無反饋的方式連接,缺乏時間序列信號之間的密切聯(lián)系,難以獲取接近真實的網(wǎng)絡(luò)狀態(tài)。因此,面對復(fù)雜的網(wǎng)絡(luò)環(huán)境,此類路由算法往往處理效率低下,難以充分發(fā)揮SDN的集中控制管理優(yōu)勢。
針對上述問題,提出一種基于深度強化學(xué)習(xí)的多路徑智能路由算法RDPG-Route,在循環(huán)確定性策略梯度(recurrent deterministic policy gradient, RDPG)的基礎(chǔ)上實現(xiàn)路由更新,使RDPG-Route具有處理高緯度問題的算法優(yōu)勢。將RDPG-Route與SDN網(wǎng)絡(luò)架構(gòu)相結(jié)合,訓(xùn)練過程采用循環(huán)神經(jīng)網(wǎng)絡(luò)中較為經(jīng)典的長短期記憶網(wǎng)絡(luò),利用其循環(huán)核中記憶體的存儲能力,可有效減少歷史狀態(tài)的輸入,提高神經(jīng)網(wǎng)絡(luò)收斂效率,進而充分發(fā)揮SDN控制管理優(yōu)勢。SDN環(huán)境下,通過控制器動態(tài)收集并提取有效網(wǎng)絡(luò)信息作為狀態(tài)輸入神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,再根據(jù)訓(xùn)練收斂后生成的多條加權(quán)最短路徑進行流量拆分,達到多路徑流量傳輸效果,使RDPG-Route在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境下,具有較好的優(yōu)化效率,并有效降低網(wǎng)絡(luò)傳輸時延和丟包率、增大吞吐量、最小化最大鏈路利用率。
RDPG-Route智能路由框架依賴于SDN環(huán)境,主要包括數(shù)據(jù)平面的可編程交換機、控制平面的SDN控制器以及控制器上層的RDPG-Route智能路由算法,如圖1所示。SDN網(wǎng)絡(luò)架構(gòu)具有集中控制功能,可實現(xiàn)網(wǎng)絡(luò)的全局化集中管理,其中可編程交換機負責(zé)網(wǎng)絡(luò)中狀態(tài)統(tǒng)計,包括網(wǎng)絡(luò)拓撲中鏈路/節(jié)點信息、網(wǎng)絡(luò)傳輸性能等指標(biāo);SDN控制器負責(zé)信息收集和統(tǒng)計,包括流量信息、路由轉(zhuǎn)發(fā)表等;RDPG-Route智能路由算法負責(zé)網(wǎng)絡(luò)狀態(tài)的輸入,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸出動作值作為鏈路權(quán)重,用于生成智能路由策略。
圖1 RDPG-Route智能路由框架Figure 1 RDPG-Route intelligent routing framework
RDPG-Route智能路由策略生成過程包括5個步驟,具體如下。
(1)信息收集。SDN控制器通過南向接口收集統(tǒng)計各種網(wǎng)絡(luò)狀態(tài)信息,包括網(wǎng)絡(luò)拓撲結(jié)構(gòu)、鏈路帶寬、流量分布、資源利用率、網(wǎng)絡(luò)時延和抖動等,控制器將所收集信息進行統(tǒng)一化格式處理,并提取智能路由所需的狀態(tài)信息。
(2)狀態(tài)輸入。SDN控制器通過北向接口將第1步中提取的有效信息作為狀態(tài)信息輸入RDPG-Route,本文所需的狀態(tài)信息包括鏈路帶寬、利用率、時延、丟包率和吞吐量等,通過神經(jīng)網(wǎng)絡(luò)輸入接口完成狀態(tài)輸入。
(3)訓(xùn)練過程。首先將狀態(tài)信息按照一定格式輸入神經(jīng)網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸出動作值作為鏈路權(quán)重,并計算出源節(jié)點到目標(biāo)節(jié)點的多條加權(quán)最短路徑;其次按照路徑權(quán)重占比拆分流量;最后根據(jù)獎勵值反饋調(diào)整動作,經(jīng)過迭代完成訓(xùn)練。
(4)策略輸出。神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂后,按照最終輸出的每條路徑所分配流量比例作為訓(xùn)練結(jié)果,生成智能路由策略,并通過北向接口輸出到控制器。
(5)流表更新。控制器將獲取到的智能路由策略處理轉(zhuǎn)化為流表項,并通過南向接口實現(xiàn)流表轉(zhuǎn)發(fā),路由設(shè)備根據(jù)智能路由策略生成的路由表對數(shù)據(jù)流方向進行調(diào)整,完成智能路由控制。
RDPG-Route采用DRL(deep reinforcement learning, DRL)[8-9]中循環(huán)確定性策略梯度(recurrent deterministic policy gradient, RDPG)[10]算法,該算法結(jié)合了actor-critic框架[11]和改進的deep recurrent Q-learning network框架[12],在原有深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)[13-14]基礎(chǔ)上引入循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[15],利用RNN隱藏層功能可存儲歷史狀態(tài)信息這一特征,確保在訓(xùn)練過程中只需要處理當(dāng)前時刻狀態(tài),無須重復(fù)處理歷史狀態(tài),可有效降低訓(xùn)練時間,同時增強訓(xùn)練效果?;赗DPG的actor-critic算法框架中,critic主要用于對state和action的價值進行估計,actor負責(zé)接收critic所作評價,從而用于action函數(shù)在Q網(wǎng)絡(luò)中的幾何梯度(▽aQcritic(s,a))。具體RDPG算法框架如圖2所示。
圖2 RDPG算法框架Figure 2 RDPG algorithm framework
圖2中循環(huán)神經(jīng)網(wǎng)絡(luò)均采用較為典型的長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[16]作為神經(jīng)網(wǎng)絡(luò),并將LSTM神經(jīng)網(wǎng)絡(luò)引入actor和critic網(wǎng)絡(luò)結(jié)構(gòu),利用LSTM對歷史狀態(tài)的存儲能力,能夠有效處理時序性相關(guān)數(shù)據(jù),可在當(dāng)前網(wǎng)絡(luò)拓撲結(jié)構(gòu)、鏈路帶寬、時延、吞吐量和鏈路利用率等信息較少情況下,經(jīng)過迭代訓(xùn)練完成參數(shù)更新。同時,RDPG算法框架中引入經(jīng)驗回放池D,在智能體與環(huán)境交互每t個時間步,都會將交互結(jié)果轉(zhuǎn)移至經(jīng)驗回放池D={d1,d2,d3,…,dt},其中dt={st,at,rt,st+1}。訓(xùn)練過程神經(jīng)網(wǎng)絡(luò)可從D中隨機抽取獨立樣本更新策略網(wǎng)絡(luò),有效提高算法的穩(wěn)定性。其更新過程如下。
首先采用f作為actor或critic中記錄歷史state的LSTM,利用f掃描得到歷史state變量h-1,掃描過程如式(1)所示:
h-1=f((st)-1|hinit)。
(1)
然后從D中隨機選取批量TD梯度,進行critic的誤差梯度▽θQL(θQ)預(yù)測:
yti)▽θQQ(ht,i,at,i|θQ)。
(2)
式中:yti為預(yù)期目標(biāo)值,由目標(biāo)critic計算得出,其過程首先以ht+1為輸入,在目標(biāo)actor中計算得出μ′,進而得到下一時刻的動作at+1,i,將at+1,i與下一時刻的歷史狀態(tài)ht+1作為輸入可計算yti,計算過程如式(3)所示。
|yti=rti+γQ′(ht+1,μ′(ht+1,i|θμ′)|θQ′)。
(3)
式中:θμ′為目標(biāo)actor參數(shù),用于生成輸出策略a′=μ′(st+1|θμ′);θQ′為目標(biāo)critic參數(shù),用于評估當(dāng)前策略的價值。
接著采用Adam網(wǎng)絡(luò)優(yōu)化器進行最小化critic誤差,進一步更新critic。最后使用Q網(wǎng)絡(luò)梯度計算actor梯度,計算過程如式(4)所示:
▽θμμ(h|θμ)|h=ht,i。
(4)
式中:J為評價策略μ的性能函數(shù)。
RDPG-Route智能路由算法流程如下所示。
算法1RDPG-Route智能路由算法。
輸入:網(wǎng)絡(luò)鏈路帶寬、時延、吞吐量和鏈路利用率作為狀態(tài)信息s輸入;
輸出:優(yōu)化多路徑路由,以鏈路權(quán)重w輸出。
①Forepisode = 1Mdo
②Initalize參數(shù)θμ,θQ,θμ′,θQ′,經(jīng)驗回放池D;
③Initalizes0、h0、隨機噪聲分布;
④Fort= 1Tdo
⑤ht←ht-1,st;
⑥wt←at=μ(ht|θμ)+v,v~;
⑦rt←wt;
⑧End
⑨D←(s1,a1,r1,…,sT,aT,rT);
⑩RandomlyselectN(s1,i,a1,i,r1,i,…,sT,i,aT,i,rT,i)i=1,…,NfromD;
▽θμμ(h|θμ)|h=ht,i;
RDPG-Route智能路由算法應(yīng)用于SDN網(wǎng)絡(luò)架構(gòu),利用SDN控制器收集并統(tǒng)計網(wǎng)絡(luò)信息和更新路由器轉(zhuǎn)發(fā)表等優(yōu)勢,使RDPG-Route算法可根據(jù)SDN控制器所提取的網(wǎng)絡(luò)信息進行策略網(wǎng)絡(luò)參數(shù)更新,經(jīng)過神經(jīng)網(wǎng)絡(luò)的反復(fù)迭代生成接近最優(yōu)的路由策略,從而實現(xiàn)智能路由控制。RDPG-Route智能路由與環(huán)境交互過程見圖3。
圖3 RDPG-Route智能路由與環(huán)境交互過程Figure 3 RDPG-Route intelligent routing and environment interaction process
圖3中SDN控制器主要負責(zé)信息采集和路由策略的轉(zhuǎn)發(fā)工作。首先通過控制器對底層網(wǎng)絡(luò)狀態(tài)進行全局信息采集,經(jīng)過統(tǒng)計處理后傳送至RDPG-Route智能體用于生成路由策略,再利用SDN控制器將路由策略作為動作通過南向接口轉(zhuǎn)發(fā)至底層網(wǎng)絡(luò),底層網(wǎng)絡(luò)根據(jù)路由策略更新網(wǎng)絡(luò),同時按照獎勵標(biāo)準(zhǔn)進行網(wǎng)絡(luò)性能反饋。上述過程經(jīng)過智能體與網(wǎng)絡(luò)環(huán)境反復(fù)交互,不斷利用網(wǎng)絡(luò)狀態(tài)和累計獎勵值進行動作更新,智能路由SAR具體映射過程如下。
2.2.1 狀態(tài)映射
狀態(tài)是反映當(dāng)前網(wǎng)絡(luò)環(huán)境的實時信息,如當(dāng)前所處網(wǎng)絡(luò)鏈路帶寬、利用率、時延、丟包率和吞吐量等。狀態(tài)的獲取可通過SDN控制器利用南向接口對整個網(wǎng)絡(luò)拓撲結(jié)構(gòu)、數(shù)據(jù)狀態(tài)信息進行收集,對收集到的信息進行處理和匯總,進而提取有效網(wǎng)絡(luò)狀態(tài)信息傳送至智能體,智能體根據(jù)網(wǎng)絡(luò)狀態(tài)信息來生成動作。本文采用鏈路帶寬、時延、吞吐量和鏈路利用率作為狀態(tài)信息,按格式輸入到LSTM對應(yīng)節(jié)點進行訓(xùn)練,隨著迭代次數(shù)的增加,智能體能夠掌握更多的網(wǎng)絡(luò)狀況,從而通過定制的網(wǎng)絡(luò)策略提供較優(yōu)網(wǎng)絡(luò)服務(wù)。
2.2.2 動作映射
2.2.3 獎勵值映射
獎勵值用來反饋神經(jīng)網(wǎng)絡(luò)提供動作的優(yōu)劣,通常是對當(dāng)前時刻網(wǎng)絡(luò)狀況和智能體所做動作的評價,并且可根據(jù)需求設(shè)定優(yōu)化目標(biāo)函數(shù)。本文以平均端到端時延(delay)、抖動(jitter)和丟包率(loss)作為綜合評價指標(biāo),獎勵值計算如式(5)所示:
(5)
式中:α、β和γ為權(quán)重參數(shù),取值范圍均為0~1。計算過程可以通過某一性能指標(biāo)的重要程度調(diào)整權(quán)重參數(shù),獎勵值計算完成后將獎勵值結(jié)果返回智能體,從而調(diào)整多路徑路由鏈路權(quán)重以及流量拆分比。模型訓(xùn)練收斂過程中,隨著訓(xùn)練步數(shù)的增加不斷累計獎勵值,可通過累計獎勵值上升趨勢和獎勵值總數(shù)判斷訓(xùn)練模型的收斂效率。
仿真實驗過程采用網(wǎng)絡(luò)仿真軟件NS3[17]對RDPG-Route智能路由算法進行性能測試。實驗使用Topology Zoo數(shù)據(jù)集中OS3E[18]的基本網(wǎng)絡(luò)拓撲結(jié)構(gòu),包含38個路由節(jié)點和48條鏈路,鏈路帶寬均默認設(shè)置為100 MB/s。RDPG-Route基于SDN網(wǎng)絡(luò)架構(gòu),采用RDPG算法框架實現(xiàn)路由更新,其中控制層采用POX控制器實現(xiàn)網(wǎng)絡(luò)集中管理,數(shù)據(jù)層使用Open vSwith虛擬開源交換機實現(xiàn)數(shù)據(jù)平面的組網(wǎng)。實驗軟件環(huán)境為Tensorflow1.8.0和Python3.5,數(shù)值計算使用Numpy開源庫,構(gòu)建和操作復(fù)雜圖結(jié)構(gòu)分析工具使用NetworkX,以及用于連接DRL算法和訓(xùn)練環(huán)境OpenAI的Gym環(huán)境接口。實驗的硬件實現(xiàn)平臺為Linux操作系統(tǒng)Ubuntu18.04、i5-10600KF版CPU、DDR4內(nèi)存和1塊GTX-3080顯卡。
RDPG-Route訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)使用Adam優(yōu)化器和Relu激活函數(shù),其參數(shù)涉及DRL訓(xùn)練過程中算法訓(xùn)練步數(shù)、學(xué)習(xí)率、目標(biāo)網(wǎng)絡(luò)參數(shù)更新率和經(jīng)驗回放池單元大小等,具體配置如表1所示。
表1 仿真實驗參數(shù)配置Table 1 Simulation experiment parameter configuration
據(jù)統(tǒng)計,在端到端通信過程中周期性網(wǎng)絡(luò)流量占據(jù)了主要成分,并且不同網(wǎng)絡(luò)的流量強度和周期性各不相同[19],因此本文搭建了兩種不同網(wǎng)絡(luò)流量強度和周期性流量的實驗環(huán)境。為評估本文路由算法的優(yōu)化性能,實驗分別將RDPG-Route與經(jīng)典路由算法和當(dāng)前最優(yōu)的智能路由算法進行對比。對比算法包括:①傳統(tǒng)的等價多路徑路由算法(equal cost multipath routing, ECMP);②基于深度強化學(xué)習(xí)進行流量工程的智能路由算法DRL-TE[20];③基于深度強化學(xué)習(xí)的智能路由算法DRL-R-DDPG[7]。主要對比內(nèi)容包括:算法收斂性和有效性,以及網(wǎng)絡(luò)平均端到端時延、吞吐量和丟包率等性能指標(biāo)。
3.2.1 智能路由算法的收斂性和有效性
為驗證智能路由算法的收斂性和有效性,本次實驗以累計獎勵值變化趨勢為依據(jù)進行了實驗對比。實驗統(tǒng)一采用式(5)作為計算標(biāo)準(zhǔn),為保證累計獎勵值最大化,權(quán)重參數(shù)α、β和γ設(shè)置為1。RDPG-Route、DRL-TE和DRL-R-DDPG訓(xùn)練過程中累計獎勵值變化情況如圖4所示。圖4中隨著訓(xùn)練步數(shù)的增加,DRL-TE累計獎勵值變化趨勢較為平緩,DRL-R-DDPG展現(xiàn)出了一定的上升趨勢,但是相較于RDPG-Route上升趨勢仍較為緩慢,因此RDPG-Route路由算法具有較好的收斂性和有效性。此外,本次實驗驗證了不同流量強度下RDPG-Route路由算法的收斂性和有效性,實驗設(shè)置4種不同等級的流量強度,分別占用帶寬的25%、50%、75%和100%,針對不同的流量強度隨機生成500個流量矩陣,然后對每個流量強度進行150 000步訓(xùn)練,訓(xùn)練完成輸入1 000個流量矩陣進行性能測試,最后通過輸出平均端到端時延作為測試結(jié)果,實驗結(jié)果如圖5所示。由圖5可以看出,隨著訓(xùn)練步數(shù)增加,平均端到端時延不斷降低,尤其是在流量強度較大情況下,RDPG-Route展現(xiàn)出較好的收斂性和有效性。
圖4 累計獎勵值變化Figure 4 Changes in cumulative reward value
圖5 不同流量強度下RDPG-Route平均端到端時延變化Figure 5 Variation of average end-to-end delay of RDPG-Route with different traffic intensity
3.2.2 周期性網(wǎng)絡(luò)流量下路由算法性能評估
由于端到端通信過程中周期性網(wǎng)絡(luò)流量占據(jù)了主要成分,因此本實驗在不同周期性流量占比情況下進行了實驗對比。實驗以平均端到端時延作為性能評估指標(biāo),并且為凸顯時延性能的重要性,實驗考慮將獎勵值公式中權(quán)重參數(shù)α設(shè)置為1,β和γ均設(shè)置為0.5,周期性流量占比分別設(shè)置為60%、70%、80%和90%,實驗結(jié)果如圖6所示。由圖6可以看出,隨著周期性流量占比增加,傳統(tǒng)ECMP路由算法的平均端到端時延一直處于較高水平,DRL-TE、DRL-R-DDPG和RDPG-Route平均端到端時延均呈降低趨勢,其中RDPG-Route平均端到端時延相較于其他路由算法一直處于較低水平,原因是RDPG-Route采用LSTM作為神經(jīng)網(wǎng)絡(luò),可利用循環(huán)核中記憶體的存儲能力,通過訓(xùn)練發(fā)現(xiàn)流量規(guī)律,在此基礎(chǔ)上制定出路由策略,使其面對周期性的網(wǎng)絡(luò)流量能夠有效降低網(wǎng)絡(luò)時延??傮w來說,RDPG-Route在周期性網(wǎng)絡(luò)流量特征下有較優(yōu)的平均端到端時延。
圖6 周期性流量下平均端到端時延Figure 6 Average end-to-end delay with periodic traffic
3.2.3 不同流量強度下路由算法性能評估
為驗證RDPG-Route在真實網(wǎng)絡(luò)場景下的優(yōu)化性能,實驗設(shè)置了不同流量強度的網(wǎng)絡(luò)負載環(huán)境。實驗以平均端到端時延、吞吐量、丟包率和最大鏈路利用率作為評估指標(biāo),權(quán)重參數(shù)α、β和γ均設(shè)置為1,實驗結(jié)果如圖7所示。由圖7可以看出隨著網(wǎng)絡(luò)流量強度的增加,RDPG-Route相較于ECMP、DRL-TE和DRL-R-DDPG,其平均端到端時延上升趨勢較為緩慢,并且具有吞吐量高、丟包率和最大鏈路利用率低等優(yōu)勢。原因是傳統(tǒng)ECMP路由算法在流量強度增加的情況下不會根據(jù)負載和鏈路情況做出應(yīng)急適配,容易造成鏈路擁塞;DRL-TE和DRL-R-DDPG分別采用DNN和CNN神經(jīng)網(wǎng)絡(luò)通過流量分布關(guān)聯(lián)性分析實現(xiàn)路由優(yōu)化,隨著網(wǎng)絡(luò)流量強度的增加,神經(jīng)網(wǎng)絡(luò)提取流量特征難度增加,收斂速度較慢,性能指標(biāo)不佳;本文利用RDPG模型處理高緯度算法優(yōu)勢,以及LSTM神經(jīng)網(wǎng)絡(luò)較優(yōu)的收斂速度,能夠在網(wǎng)絡(luò)流量強度逐漸增加的情況下制定更優(yōu)的路由策略。通過計算,在不同流量強度下,RDPG-Route相比于其他較優(yōu)路由算法,至少降低了7.2%平均端到端時延,提高了6.5%吞吐量,減少了8.9%丟包率和6.3%的最大鏈路利用率。
圖7 不同流量強度下路由算法優(yōu)化性能Figure 7 Routing algorithm optimization performance with different traffic intensity
針對傳統(tǒng)路由算法難以提供用戶體驗質(zhì)量保證問題,本文在軟件定義網(wǎng)絡(luò)的新型網(wǎng)絡(luò)架構(gòu)下,提出一種基于DRL的多路徑智能路由算法RDPG-Route,采用RDPG算法框架和LSTM神經(jīng)網(wǎng)絡(luò)動態(tài)感知網(wǎng)絡(luò)環(huán)境的變化,實現(xiàn)了以下兩個目標(biāo):①在網(wǎng)絡(luò)流量強度較大的情況下具有較好的收斂性和有效性;②在周期性流量和不同網(wǎng)絡(luò)流量強度下具有較好網(wǎng)絡(luò)性能。將RDPG-Route與ECMP、DRL-TE和DRL-R-DDPG路由算法進行對比,實驗結(jié)果表明該算法相比于其他智能路由算法具有較好的收斂性和有效性,并且至少降低了7.2%平均端到端時延,提高了6.5%吞吐量,減少了8.9%丟包率和6.3%的最大鏈路利用率。