金仙美,王佳妮,趙力強, 朱伏生
(1.西安電子科技大學 通信工程學院,陜西 西安 710068;2.廣東省新一代通信與網(wǎng)絡創(chuàng)新研究院,廣東 廣州 510700)
隨著信息技術的發(fā)展,接入互聯(lián)網(wǎng)的流量大小 與移動網(wǎng)絡應用場景數(shù)量都在飛速增長[1]。多樣化的業(yè)務場景對時延、可靠性、帶寬、接入數(shù)量等通信需求越發(fā)嚴苛,數(shù)目激增的無線通信和IoT設備導致用戶需求和無線資源與算力資源之間的矛盾愈發(fā)突出?,F(xiàn)有的資源分配模式單一,且缺少用戶行為感知,難以精確刻畫業(yè)務需求變化趨勢,導致運營商提供的網(wǎng)絡服務質量和網(wǎng)絡管理質量下降[2]。解決問題要求運營商實時感知網(wǎng)絡狀態(tài),預測用戶需求變化,提前調配、預留網(wǎng)絡資源,避免資源緊缺現(xiàn)象發(fā)生。因此需要設計面向6G(6th Generation Mobile Communication System)網(wǎng)絡的通感算融合資源分配算法,實現(xiàn)無線資源精確、按需分配,提高網(wǎng)絡資源利用率的同時保證用戶的服務質量(Quality of Service,QoS)。
而無線接入網(wǎng)中,網(wǎng)絡環(huán)境復雜多變,網(wǎng)絡中的資源種類繁多,但資源總量有限[3],傳統(tǒng)的基于數(shù)學模型的網(wǎng)絡優(yōu)化方法不再適用[4-6],因此算力、存儲以及網(wǎng)絡資源分配問題得到許多研究人員的關注。其中深度強化學習(Deep Reinforcement Learning,DRL)算法可以通過與未知環(huán)境交互來實現(xiàn)系統(tǒng)性能的自我優(yōu)化,從而受到極大的研究關注[7-9]。文獻[10]使用幾種DRL算法敏銳地捕捉來自不同切片的用戶需求,從而產(chǎn)生資源分配策略,并在平臺上實施和評估這些算法,驗證所研究方法的優(yōu)越性能。為使資源分配更加精細化,有研究者提出基于多時間尺度的資源分配方法。文獻[11]提出一個分層DL框架,在每個長時隙中,服務提供商采用DRL算法來確定切片配置參數(shù),在每個短時隙和小時隙中增強移動帶寬(Enhanced Mobile Broadband,eMBB)和低時延高可靠通信(Ultra-Reliable Low-Latency Communications,uRLLC)調度器使用DNN算法分別將無線資源分配給相應的用戶。文獻[12]中也提出一種雙層控制粒度的智能無線接入網(wǎng)(Radio Access Network,RAN)切片策略,旨在最大化服務的長期QoS和切片SE,其中上層控制器通過業(yè)務流量的動態(tài)變化自適應調節(jié)切片配置以確保QoS性能,而下層控制器在小時間尺度上給用戶分配無線資源來提高切片的SE。但是上述資源分配算法沒有考慮頻繁調整資源分配策略帶來的損耗問題。
綜上,常見的資源分配算法均只考慮在同一時間粒度內對資源進行調整,資源管理粒度單一,難以應對高度復雜的場景建模,隨后衍生出雙時間尺度資源分配算法。雙時間尺度的資源分配算法在兩個不同的層面分別采用大尺度的粗粒度資源管控和小尺度的精細化資源調配,對資源的管理更加高效方便。但在無線通信的實際應用場景中,基站內資源分配操作的更新,需要耗費基站本身的計算資源。因此,適當?shù)母倪M資源調整的頻率,在多時間粒度上給基站和用戶的資源進行調整,可以減少調整資源的成本,從而緩解算法在實際場景中占用資源較多的問題。
針對上述面臨的一些復雜的無線接入網(wǎng)智能感知與資源分配問題,提出一種面向6G通感算融合的多粒度資源分配算法。將RAN中的通信、感知、計算資源聯(lián)合優(yōu)化問題建模為最大化效用函數(shù)問題(即所有用戶的時延、頻譜效率以及調整資源成本的加權和),并滿足用戶所能容忍的最小數(shù)據(jù)傳輸速率、所有用戶與基站占用的資源不超過系統(tǒng)總資源等約束,進而獲得最優(yōu)的資源分配策略。
對于用戶的感知信息(用戶未來流量、業(yè)務類型),采用常用的方法進行感知。文中對流量的預測包含用戶的流量預測和基站的流量預測,統(tǒng)稱為流量預測,采用多步預測的Seq2Seq模型,由于其內部存在編碼器和解碼器兩部分,可以更好地表征歷史數(shù)據(jù)特征并且用此特征進行未來數(shù)據(jù)的預測。在業(yè)務估計方面采用的卷積神經(jīng)網(wǎng)絡(CNN)自動提取流量數(shù)據(jù)特征進行業(yè)務估計。本文重點在于利用流量預測與業(yè)務估計的結果實現(xiàn)基于通感算融合的多粒度資源分配算法,下面重點說明對多粒度資源分配算法的建模。
時間維度被劃分為多個傳輸時間間隔(Transmission Time Interval,TTI),某一時間間隔被記為t∈{0,1,2,3,…,T},T為資源分配策略中的最大有效時間長度。共有N個用戶設備與基站之間通過無線鏈路進行信息傳輸,某一用戶設備被記為n∈{1,2,3,…,N}。則用戶n在某一時間間隔t內占用的帶寬資源表示為:
Bn,t=1.8×105×en,t,
(1)
式中,en,t為基站在某一時間間隔t內分配給用戶n的RB數(shù)量,而每個RB所占用的帶寬為180 kHz。
在時間間隔t內用戶n與基站之間的信噪比(signal-to-Noise Ratio,SNR)可以定義為:
(2)
式中,σ2為加性高斯白噪聲功率,gn,t為用戶n與基站相連接的無線信道在時間間隔t內的信道增益,pn,t為無線信道的發(fā)射功率,那么基站在時間間隔t內向用戶n傳輸數(shù)據(jù)的速率可以表示為:
(3)
(4)
基站處理數(shù)據(jù)的速率也是影響用戶QoE的一個重要因素,而基站處理數(shù)據(jù)的速率與基站的計算資源有關。因此,本節(jié)對基站的計算過程進行建模。
基站在某一時隙t內的計算速率定義為:
(5)
式中,ωt為基站分配的計算資源,單位為cycles/s,φBS>0表示基站處理一位數(shù)據(jù)流所需的計算周期,單位為cycles/bit,由應用程序的屬性決定,假設該值為一個定值,不會隨時間的變化而變化,則基站在時間間隔t內處理所有數(shù)據(jù)的時延可以表示為:
(6)
式中,ft為基站在某一時間間隔t內需要處理的數(shù)據(jù)量大小,為所有用戶的流量之和。
記基站在時間間隔t內發(fā)送給某一用戶設備n的數(shù)據(jù)量為fn,t,則下一個時間間隔t+1內基站需要發(fā)送給用戶n的流量可以表示為:
(7)
(8)
數(shù)據(jù)流從基站側傳輸?shù)接脩舳说臅r延包括傳輸延遲和基站處理延遲兩部分,其中傳輸時延由基站與用戶n之間的數(shù)據(jù)傳輸速率決定,而基站處理時延由基站的計算資源決定。在本節(jié)所述的系統(tǒng)模型中,時延被定義為傳輸時延和基站處理時延的總和。因此,數(shù)據(jù)流從基站傳輸?shù)接脩舳薾的總時延被建模為:
Dn,t=μt+δn,t,
(9)
式中,μt為基站處理時延,δn,t為傳輸時延。當基站需要傳輸?shù)接脩舳说臄?shù)據(jù)流較小時,基站處理時延接近于0,此時,Dn,t主要由傳輸時延決定;當基站需要傳輸?shù)接脩舳说臄?shù)據(jù)流較大時,Dn,t主要由基站處理時延和傳輸時延共同決定。
本文所提算法與其他資源分配算法的不同之處在于考慮由于實時調整資源分配策略而造成的資源損耗問題,并將該問題轉化為一個多時間粒度資源分配問題,多時間粒度體現(xiàn)在算法所生成策略的有效作用時間,盡可能減少資源調整的次數(shù)。本文通過調整兩次資源調整之間的時間間隔實現(xiàn)資源調整頻率的降低,而該時間間隔的大小是由資源分配算法本身所決定的,與當前以及未來的環(huán)境狀態(tài)有關,是一個不確定的值,也就是在多個時間粒度上進行資源分配,不是以固定的頻次分配資源,即多粒度資源分配。所設計的資源分配算法在狀態(tài)Si下進行第i次決策時所產(chǎn)生的資源分配策略Ai中不僅包含多種資源分配的數(shù)值大小,也包含這些資源的有效作用時間τi,其中Si與Ai將在下一節(jié)進行詳細介紹。本節(jié)從用戶的QoE、SE和執(zhí)行動作的成本三個角度出發(fā)構建系統(tǒng)的效用函數(shù),可表示為:
(10)
(11)
(12)
式中,βn,t,1,β2分別為數(shù)據(jù)流總時延和平均SE的權重因子,η為資源調整成本的權重因子,表示這三個量在效用函數(shù)中的重要性。由于不同的業(yè)務對時延需求不同,因此權重因子βn,t,1在用戶訪問不同的業(yè)務時所取的值也不相同。對于用戶的業(yè)務估計采用常用的CNN進行。
本文的目標是獲得最優(yōu)的RAN資源分配策略,該策略能夠在滿足資源調度約束的同時,最大化系統(tǒng)的效用函數(shù),總結如下:
maxUi(Si,Ai)
C4:ωt+ωE<ωmax,?t∈τi,
(13)
決斗深度Q網(wǎng)絡(Dueling Deep Q-network,Dueling DQN)算法是DQN算法的改進版。兩者的主要區(qū)別在于所采用的用于擬合Q函數(shù)的神經(jīng)網(wǎng)絡結構不同,如圖1所示。
圖1 DQN算法與Dueling DQN算法Q網(wǎng)絡結構對比圖
DQN算法中采用Q網(wǎng)絡由三個卷積層以及兩個全連接層構成,DQN的Q網(wǎng)絡是單流的,該網(wǎng)絡結構只考慮在當前狀態(tài)下采用哪個動作可以獲得最大的獎勵值。而Dueling DQN算法中采用的Q網(wǎng)絡是雙流的,分別表示狀態(tài)值函數(shù)和動作優(yōu)勢函數(shù),利用匯聚的兩種狀態(tài)函數(shù)擬合Q函數(shù),該網(wǎng)絡結構著重關注重要狀態(tài),忽略不重要狀態(tài),因此收斂速度更快,更容易尋找最優(yōu)策略。
根據(jù)Dueling DQN算法的網(wǎng)絡結構,狀態(tài)值函數(shù)可以表示為Vπ(Si;θ,ξ),動作優(yōu)勢函數(shù)可以表示為Aπ(Si,Ai;θ,α)。其中,θ為三個卷積層的網(wǎng)絡參數(shù),ξ表示狀態(tài)值函數(shù)的全連接層的網(wǎng)絡參數(shù),α表示動作優(yōu)勢函數(shù)全連接層的網(wǎng)絡參數(shù),為得到唯一的V(Si;θ,ξ)和A(Si,Ai;θ,α),得到Q函數(shù)為:
Q(Si,Ai;θ,α,ξ)=V(Si;θ,ξ)+
(14)
由于DQN算法架構均需要構建狀態(tài)集、動作集以及獎勵函數(shù),因此根據(jù)本文的場景,將分別介紹這三者在本文中的定義。
(1) 狀態(tài)集定義
(15)
所以,本系統(tǒng)的狀態(tài)集可以表示為:
S={S1,S2,…,Si}。
(16)
(2) 動作集定義
在本文所構建的模型中,資源分配算法需要求解出基站所需的計算資源、基站為每個用戶分配的RB資源和發(fā)射功率資源。因此每一次動作Ai包含需要分配的各種資源的數(shù)值大小以及資源分配結果的有效作用時間,可以表示為:
(17)
(3) 獎勵函數(shù)
在強化學習中獎勵值越大,代表選擇的策略越符合優(yōu)化目標。在本節(jié)中,目標是在滿足約束的同時最大化系統(tǒng)效用函數(shù)值。所以系統(tǒng)效用函數(shù)值越大,策略獲得的獎賞越大,獎賞可以表示為:
R(Si,Ai)=Ui(Si,Ai)。
(18)
DQN的目標在于求解出累積獎賞最大時所對應的策略,表示為:
(19)
式中,Q(Si,Ai)是一個無限期折扣報酬,λi是一個折扣因子,當i足夠大時,λi趨近于零。
在狀態(tài)Si下采取行動Ai是一個馬爾科夫過程,根據(jù)馬爾科夫狀態(tài)轉移的過程可知,下一個狀態(tài)Si,與之前的狀態(tài)均無關,僅僅與此刻的狀態(tài)以及所采取的行動有關,因此Q函數(shù)的更新可以為:
Q(Si,Ai)→Q(Si,Ai)+ψ(R(Si,Ai)+
λmaxQ(Si,,Ai,)-Q(Si,Ai)),
(20)
式中,ψ為學習率。
在Dueling DQN算法中包含兩個與Q函數(shù)相關并且結構相同的DNN,其中一個DNN用于擬合Q函數(shù)的值,被稱為評估Q網(wǎng)絡,表示為:
Q(Ai,Si;θ,α,ξ)≈Q*(Ai,Si),
(21)
式中,θ為評估Q網(wǎng)絡中設定的三個卷積層的網(wǎng)絡參數(shù),ξ表示評估Q網(wǎng)絡中狀態(tài)值函數(shù)全連接層的網(wǎng)絡參數(shù),α表示評估Q網(wǎng)絡中動作優(yōu)勢函數(shù)全連接層的網(wǎng)絡參數(shù)。另一個DNN用于得到目標Q值,被稱為目標Q網(wǎng)絡,表示為:
(22)
式中,θ-為目標Q網(wǎng)絡中設定的三個卷積層的網(wǎng)絡參數(shù),ξ-表示目標Q網(wǎng)絡中狀態(tài)值函數(shù)全連接層的網(wǎng)絡參數(shù),α-表示目標Q網(wǎng)絡中動作優(yōu)勢函數(shù)全連接層的網(wǎng)絡參數(shù)。
在學習階段,會將隨機抽樣的樣本(Si,Ai,R(Si,Ai),Si,)存放到經(jīng)驗池中,只有當經(jīng)驗池中所存儲的樣本數(shù)量大于隨機抽樣的樣本數(shù)量時才開始訓練。在訓練階段,agent從經(jīng)驗池中隨機抽取小批量樣本(si,ai,r(si,ai),si,),將si作為評估Q網(wǎng)絡的輸入,(r(si,ai),si,)作為目標Q網(wǎng)絡的輸入。在每一步訓練中,Dueling DQN都通過最小化損失函數(shù)的方式對兩個DNN的參數(shù)進行更新,損失函數(shù)可以表示為:
將從經(jīng)驗池中抽取的樣本輸入到評估Q網(wǎng)絡中計算該網(wǎng)絡參數(shù)θ對應的梯度θ,再使用Adam算法對網(wǎng)絡參數(shù)θ進行更新。并每隔一段時間將評估Q網(wǎng)絡的參數(shù)〈θ,α,ξ〉直接賦值給〈θ-,α-,ξ-〉,實現(xiàn)目標Q網(wǎng)絡參數(shù)更新。整體算法流程如算法1所示。
算法1 基于Dueling DQN的多粒度資源分配算法輸入:動作集A,獎勵衰減因子λ,經(jīng)驗池K的最大容量,最大允許誤差ε,更新參數(shù)的樣本批次,目標Q網(wǎng)絡參數(shù)<θ-,α-,ξ->更新間隔Z。輸出:最優(yōu)策略,滿足用戶QoS條件下,得到資源分配的結果以及資源分配的有效時間所組成的最佳動作序列。1. 初始化:經(jīng)驗池K,評估Q網(wǎng)絡參數(shù)<θ,α,ξ>,目標Q網(wǎng)絡參數(shù)<θ-,α-,ξ->=<θ,α,ξ>。2. 初始化存儲空間3. Step = 04. for episode = 1,2,... do5. for t= 1,2,... do6. 初始化網(wǎng)絡狀態(tài)Si;7. agent的Q網(wǎng)絡使用狀態(tài)Si作為輸入,輸出所有動作對應的Q值,根據(jù)公式π*從所有Q值中選擇動作Ai;8. 將agent所選定的動作Ai輸入環(huán)境中執(zhí)行,然后獲得R(Si,Ai)以及下一個狀態(tài)Si,;9. agent將經(jīng)驗(Si,Ai,R(Si,Ai),Si,)存入經(jīng)驗池D中;10. Si←Si,;11. if Step > 10012. 從經(jīng)驗池K中隨機抽取G個樣本(si,ai,r(si,ai),si,)進行訓練;13. 利用DNN計算Q值,用式(4)~(22)計算損失函數(shù),并使用Adam算法對評估Q網(wǎng)絡參數(shù)<θ,α,ξ>進行更新;每迭代Z步后,進行一次操作;14. end if;15. Step += 1;16. end for17. end for
本小節(jié)搭建的長期演進(Long Term Evolution,LTE)實驗平臺均借助開源軟件實現(xiàn),并且全部網(wǎng)元、算法實現(xiàn)等都部署在Docker容器中,統(tǒng)稱為網(wǎng)絡功能(Network Functions,NFs),從而實現(xiàn)網(wǎng)絡功能的虛擬化,然后由Kubenetes對這些NFs進行統(tǒng)一管理。
平臺所需的硬件環(huán)境包括三臺x86通用服務器、一個NETGEAR開放虛擬交換機(Open vSwitch,OVS)型號為MT7621AT、一個通用軟件無線電外設(Universal Software Radiio Peripheral,USRP)型號為USRP210、三個用戶手機型號為華為Mate7。其中三臺通用服務器分別用作CNN、SequentialSeq模型的訓練與在線推理,實現(xiàn)網(wǎng)絡感知;部署開源軟件LTE無線接入網(wǎng)OAI-eNB和FlexRAN,實現(xiàn)無線接入網(wǎng)控制面與用戶面;部署開源OAI軟件核心網(wǎng)。
FlexRAN,用于給用戶分配無線資源;Docker,用于承載各個面中每個虛擬化后的NFs,對服務器底層的硬件資源進行虛擬化處理,保證各個NFs能夠正常工作;Python,主要用于感知面、智能融合面中各種與AI相關的網(wǎng)絡功能的開發(fā)與實現(xiàn);Nginx,用于搭建相關業(yè)務的服務器,滿足用戶對業(yè)務多樣性的需求。
由于受到軟硬件條件的限制,無法針對每個用戶調整發(fā)射功率,因此在將算法部署到實驗平臺中時對其進行一定的簡化。將資源分配算法部署在Dockers容器中。當該節(jié)點中所有的pod從containerCreating到running狀態(tài)后即說明K8s集群以及基于網(wǎng)絡智能感知的多粒度資源分配算法平臺已經(jīng)部署成功。
本節(jié)中基于深度強化學習的多粒度資源分配算法的參數(shù)配置主要根據(jù)經(jīng)驗進行選取,學習率為0.001,折扣因子為0.95,經(jīng)驗回放為5 000,隨機采樣樣本數(shù)為128,更新頻率為100,迭代次數(shù)為8 000??紤]到流量采樣時間對流量預測與業(yè)務估計的影響,實驗驗證在保存完整流量信息的流量采樣時間為1 s和10 s的情況,在結果圖中用括號標注。
3.2.1 資源分配算法對頻譜效率的影響
圖2對比用戶在訪問電子書業(yè)務時采用不同分配算法對頻譜效率的影響。
從圖2(a)可以看出,采用平均分配算法時頻譜效率只達到2.4 bit·s-1·Hz-1,而采用其他兩種資源分配算法為用戶分配RB資源時頻譜效率可達3.2 bit·s-1·Hz-1左右。此外,采用基于網(wǎng)絡智能感知的多粒度資源分配算法的頻譜效率與單粒度接近。
從圖2(b)圖中看出,采用平均分配算法時頻譜效率只達到2.4 bit·s-1·Hz-1,而采用其他兩種資源分配算法為用戶分配RB資源時頻譜效率可達3.2 bit·s-1·Hz-1左右;同樣,采用基于網(wǎng)絡智能感知的多粒度資源分配算法的頻譜效率與單粒度接近。
(a) 流量采樣時間為1 s
導致以上結果的原因是平均資源分配方法給每個用戶都分配15個RB資源,在用戶下載電子書時RB資源非常充足,因此頻譜效率較低,而其他兩種資源分配算法綜合考慮業(yè)務的時延和頻譜效率兩個因素,因此頻譜效率較高。但是,由于基于網(wǎng)絡智能感知的單粒度資源分配算法在每個TTI內都會執(zhí)行一次資源分配動作,可以根據(jù)網(wǎng)絡和資源狀況靈活調整資源分配策略,而基于網(wǎng)絡智能感知的多粒度資源分配算法每隔幾個TTI才會重新執(zhí)行一次資源分配動作,因此,基于網(wǎng)絡智能感知的單粒度資源分配算法的頻譜效率比較穩(wěn)定。
3.2.2 不同分配算法對總時延的影響
圖3對比采用不同資源分配算法后對數(shù)據(jù)傳輸總時延的影響。定義總時延為基站處理數(shù)據(jù)的時延與數(shù)據(jù)通過無線信道傳輸時的時延之和。圖3(a)為流量采樣時間為1 s的情況下流量傳輸所產(chǎn)生時延的累計概率分布圖,可以看出,當采用平均資源分配算法時,只有一部分業(yè)務流量可以在1 s以內到達用戶端,而采用其他兩種資源分配算法,大多數(shù)業(yè)務流量可以在1 s以內到達用戶端,而且單粒度資源分配算法的時延總體上稍微小于多粒度資源分配算法。
圖3(b)為流量采樣時間為10 s的情況下流量傳輸所產(chǎn)生時延的累計概率分布圖,可以看出,采用平均資源分配算法時,只有一部分業(yè)務流量可以在10 s內到達用戶端,而采用其他兩種資源分配算法,大多數(shù)業(yè)務流量可以在1 s以內到達用戶端,并且兩種算法相差不大。
(a) 流量采樣時間為1 s
這是由于采用平均資源分配算法時每個用戶平均分配RB資源,當用戶訪問視頻業(yè)務時會發(fā)生卡頓,造成傳輸時延增大,而其他兩種資源分配算法會由于流量預測誤差等因素,也會偶爾有RB資源分配不足的情況,造成傳輸時延稍微增大,但是本文所提出的算法根據(jù)基站所需發(fā)送的流量數(shù)據(jù)調整基站的計算資源從而降低處理時延,根據(jù)用戶的未來流量調整用戶的RB資源從而降低傳輸時延,因此總時延都小于平均資源分配算法。
3.2.3 不同流量采樣時間對執(zhí)行動作成本的影響
由于本文所提算法相較于其他資源分配算法,考慮基站執(zhí)行資源分配動作時所消耗的成本,因此對相同建模下采用單粒度和多粒度資源分配算法的成本進行對比,如圖4所示。
其中基站執(zhí)行資源分配動作的成本使用perf工具進行測試。結合圖2~圖4可以看出,隨著資源分配執(zhí)行時間的增加,執(zhí)行資源分配動作所耗費的成本越來越多,但是在頻譜效率和總時延都達到類似性能的情況下,流量采樣時間為1 s單粒度資源分配算法所耗費的成本遠高于多粒度資源分配算法,流量采樣時間為10 s單粒度資源分配算法所耗費的成本也高于多粒度資源分配算法,這是因為單粒度資源分配算法頻繁更改資源分配策略所造成的。
圖4 不同流量采樣時間對執(zhí)行動作成本的影響
3.2.4 用戶的RB資源分配結果測試
本文中使用50 M帶寬的LTE網(wǎng)絡,以RBG(3個RB)[14]為單位給用戶分配RB資源。圖5和圖6分別為在流量采樣時間為1 s和流量采樣時間為10 s的前提下基于網(wǎng)絡智能感知的多粒度資源分配算法為用戶分配的RB資源。
圖5 用戶的RB資源分配結果圖(流量采樣時間為1 s)
圖6 用戶的RB資源分配結果圖(流量采樣時間為10 s)
由圖5和圖6可以看出,當用戶訪問高清視頻業(yè)務時,資源分配算法為其分配18個RB,當用戶訪問無損音樂時,資源分配算法為其分配3個RB,當用戶訪問電子書業(yè)務時,資源分配算法為其分配9個RB,均可以滿足用戶的需求。
3.2.5 流量預測精度對用戶QoE的影響
QoE能夠準確反映當前資源分配策略下用戶的體驗,而用戶的QoE是由各項QoS綜合后的結果,不能使用單一的指標描述各種業(yè)務的QoE[15]。有研究[16]針對視頻業(yè)務給出常見的評估指標,如起始時延、卡頓次數(shù)等,本文將這些指標推廣到本文所提供的高清視頻、無損音樂和電子書業(yè)務,具體的評估指標定義如下文所述。
起始時延是指每項業(yè)務開始之前的持續(xù)時間。針對高清視頻業(yè)務,是指從用戶發(fā)出請求到視頻開始播放的時間;針對無損音樂業(yè)務,是指從用戶發(fā)出請求到音樂開始播放的時間;針對電子書業(yè)務,是指從用戶發(fā)出請求到電子書內容展示在瀏覽器中經(jīng)過的時間。
卡頓次數(shù)由于瀏覽器在業(yè)務開始前會將業(yè)務內容先放在緩沖區(qū),只有當業(yè)務流填充緩沖區(qū)的速率大于或者等于業(yè)務播放的速率時,業(yè)務才不會發(fā)生卡頓。針對高清視頻和無損音樂業(yè)務,是指視頻或音樂在播放過程中發(fā)生卡頓的次數(shù)。針對電子書業(yè)務,是指電子書加載內容總量不變且持續(xù)時間大于2 s時發(fā)生的次數(shù)。
圖7為流量采樣時間為1 s的情況下,設置不同歷史步長(H)和未來步長(T)的流量預測參數(shù)對業(yè)務平均起始時延的影響。從圖中可以看出,無損音樂的平均起始時延最低,電子書的平均起始時延在0.5~1.9 s,高清視頻的平均起始時延最高,在1.6~3.8 s,而且每種業(yè)務的平均起始時延大小與決定系數(shù)R2成負相關,即決定系數(shù)越大,該參數(shù)設置下的流量預測精度越高,資源分配策略越好,每種業(yè)務的平均起始時延越小。
(a) 歷史步長為4 (b) 歷史步長為6 (c) 歷史步長為8
圖8為流量采樣時間為10 s的情況下,設置不同歷史步長(H)和未來步長(T)的流量預測參數(shù)對業(yè)務平均起始時延的影響。從圖中可以看出,無損音樂的平均起始時延最低,電子書的平均起始時延為0.8~2.4 s,高清視頻的平均起始時延最高,為3.5~5.6 s,而且每種業(yè)務的平均起始時延大小與決定系數(shù)R2也成負相關。
(a) 歷史步長為2 (b) 歷史步長為4 (c) 歷史步長為6
圖9為流量采樣時間為1 s的情況下,設置不同歷史步長和未來步長的流量預測參數(shù)對業(yè)務平均中斷次數(shù)的影響。從圖中可以看出,無損音樂在播放過程中基本不會發(fā)生中斷,電子書的平均中斷次數(shù)在一次以下,高清視頻的平均中斷次數(shù)最高,而且每種業(yè)務的平均中斷次數(shù)與決定系數(shù)R2成負相關,即決定系數(shù)越大,該參數(shù)設置下的流量預測精度越高,資源分配策略越好,每種業(yè)務的平均中斷次數(shù)越小。
(a) 歷史步長為4 (b) 歷史步長為6 (c) 歷史步長為8
圖10為流量采樣時間為10 s的情況下,設置不同歷史步長和未來步長的流量預測參數(shù)對業(yè)務平均中斷次數(shù)的影響。從圖中可以看出,無損音樂在播放過程中基本不會發(fā)生中斷,電子書的平均中斷次數(shù)在2次以下,高清視頻的平均中斷次數(shù)最高,在3~6次之間。
(a) 歷史步長為2 (b) 歷史步長為4 (c) 歷史步長為6
對比圖7和圖8、圖9和圖10可知,流量采樣時間為1 s的用戶QoE比流量采樣時間為10 s的用戶QoE好,這是由于流量采樣時間越小,多粒度資源調整越精細,用戶的QoE越好。
綜上,實驗結果證明,在面向6G通感算融合的多粒度資源分配算法可以滿足用戶QoE的情況下,本文算法能夠提高網(wǎng)絡頻譜效率,并降低傳輸時延、處理時延和資源分配動作執(zhí)行的成本。
本文提出一種面向6G通感算融合的多粒度資源分配算法,多時間粒度體現(xiàn)在算法所生成策略的有效作用時間。首先,將通信、感知、計算資源聯(lián)合優(yōu)化問題建模為多時間粒度上的最大化效用函數(shù)問題,并滿足用戶所能容忍的最小數(shù)據(jù)傳輸速率、所有用戶與基站占用的資源不超過系統(tǒng)總資源等約束。其次,采用Dueling DQN算法對該問題進行求解,將感知信息(流量預測與業(yè)務類型估計結果)、通信信息(信噪比、發(fā)射功率、資源塊數(shù)等)和計算信息(基站的計算資源)作為狀態(tài)集;將資源分配策略有效作用時間粒度、資源塊數(shù)、發(fā)射功率、基站的計算資源作為動作集;將所有用戶的時延、頻譜效率以及執(zhí)行動作成本的加權和作為獎勵值;最后,在基于開源軟件搭建的實驗平臺中,將本文的算法與現(xiàn)有資源分配算法進行對比,驗證本文所提的算法能夠提高網(wǎng)絡頻譜效率,并降低傳輸時延、處理時延和資源分配動作執(zhí)行的成本。