聶 雷,劉 博,李 鵬,何 亨
(1.武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.武漢科技大學(xué)智能信息處理與實時工業(yè)系統(tǒng)重點實驗室,湖北 武漢 430065)
隨著城市交通的飛速發(fā)展,汽車保有量在近十幾年來急劇增長,導(dǎo)致交通擁堵和安全問題日益突出[1]。近年來,車載自組織網(wǎng)絡(luò)VANET(Vehicular Ad hoc NETworks)作為一種結(jié)構(gòu)開放的車輛通信網(wǎng)絡(luò),在交通信號控制、內(nèi)容協(xié)助下載、車輛路徑規(guī)劃和緊急消息廣播等方面得到了廣泛的研究與應(yīng)用[2 - 5],有效推動了智能交通的發(fā)展。
車載網(wǎng)絡(luò)中的各類服務(wù)與應(yīng)用依賴于接入網(wǎng)絡(luò)中數(shù)據(jù)的可靠傳輸和交互,隨著移動通信技術(shù)的飛速發(fā)展,具有高速率、低時延優(yōu)勢的5G通信技術(shù)近幾年受到了人們的青睞。然而,現(xiàn)階段的5G網(wǎng)絡(luò)在短時間內(nèi)無法實現(xiàn)全面部署,此外單一類型的網(wǎng)絡(luò)難以滿足終端用戶的多樣化需求[6],因此多種無線網(wǎng)絡(luò)共存的車載網(wǎng)絡(luò),即融合5G通信的異構(gòu)車載網(wǎng)絡(luò)是城市智能交通發(fā)展的必然趨勢。由于車輛的移動性和用戶需求的多樣性,導(dǎo)致異構(gòu)車載網(wǎng)絡(luò)存在拓撲結(jié)構(gòu)頻繁變化和網(wǎng)絡(luò)資源利用不均衡的現(xiàn)象。如何保證車輛終端進行高效的網(wǎng)絡(luò)選擇和切換,在保障用戶服務(wù)質(zhì)量QoS(Quality of Service)的同時提高網(wǎng)絡(luò)資源利用率是現(xiàn)階段亟需解決的問題[7]。
上述問題的求解可以看作是一個多目標優(yōu)化的決策過程,目前有大量基于多屬性決策MADM(Multi-Attribute Decision-Making)的研究成果[8 - 10],與傳統(tǒng)的基于單因素決策的方法[11]相比較,它們能夠較好地提高網(wǎng)絡(luò)屬性權(quán)重和網(wǎng)絡(luò)性能評價的準確性,從而為網(wǎng)絡(luò)的選擇和切換提供依據(jù)。然而,該類方法主要針對單臺車輛終端進行決策,無法得到系統(tǒng)整體長期有效的切換策略集合,不利于異構(gòu)網(wǎng)絡(luò)資源的合理利用。Q學(xué)習(xí)(Q-learning)是一種基于系統(tǒng)狀態(tài)下動作回報價值且與模型無關(guān)的強化學(xué)習(xí)算法,其利用智能體與環(huán)境的交互來迭代學(xué)習(xí)優(yōu)化策略,從而實現(xiàn)特定的優(yōu)化目標,基于Q學(xué)習(xí)的方法能夠更加有效地解決異構(gòu)網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)選擇問題。然而,現(xiàn)有基于Q學(xué)習(xí)的方法通常存在由狀態(tài)空間過大引起的迭代效率低下和收斂速度較慢的問題,同時Q值表更新產(chǎn)生的過高估計現(xiàn)象容易導(dǎo)致網(wǎng)絡(luò)資源的不均衡利用。
考慮到未來融合5G通信的異構(gòu)車載網(wǎng)絡(luò)環(huán)境,本文提出一種基于多智能體Q學(xué)習(xí)的網(wǎng)絡(luò)選擇方法MQSM(Multi-agent Q-learning based Selection Method)。該方法的目標是在融合5G通信的異構(gòu)車載網(wǎng)絡(luò)環(huán)境下得到普遍適用的系統(tǒng)長期運動狀態(tài)下的最優(yōu)網(wǎng)絡(luò)切換策略集合,在保證車輛終端用戶的良好QoS體驗的同時,提高異構(gòu)車載網(wǎng)絡(luò)的資源利用率。
異構(gòu)車載網(wǎng)絡(luò)環(huán)境下車載終端用戶如何選擇接入網(wǎng)絡(luò)可直接影響其服務(wù)質(zhì)量和網(wǎng)絡(luò)資源的利用率?;诙鄬傩詻Q策的網(wǎng)絡(luò)選擇方法通過網(wǎng)絡(luò)的多種屬性對網(wǎng)絡(luò)性能進行評估,從而為用戶提供選擇網(wǎng)絡(luò)的依據(jù)。文獻[12]提出了一種結(jié)合層次分析法AHP(Analytic Hierarchy Process)的多標準訪問選擇方法MCAS(Multi-Criteria Access Selection),通過設(shè)計能效、信號強度、網(wǎng)絡(luò)成本、延遲和帶寬的效用函數(shù)建立了多約束優(yōu)化模型,并提出了一種啟發(fā)式算法計算效用函數(shù)的最優(yōu)解,極大地提高了對網(wǎng)絡(luò)性能評價的準確性。文獻[13]提出了一種基于網(wǎng)絡(luò)屬性和用戶偏好的異構(gòu)網(wǎng)絡(luò)選擇方法,該方法結(jié)合了3種基于多屬性決策的方法來提高效用函數(shù)的準確性,這些方法包括模糊層次分析法FAHP(Fuzzy Analytic Hierarchy Process)、熵Entropy和最優(yōu)理想解排序法TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)。文獻[14]提出了一種基于效用函數(shù)和TOPSIS的新策略,通過添加或刪除網(wǎng)絡(luò)來消除異常排名,并選擇最高排名的網(wǎng)絡(luò)作為最優(yōu)解。然而,基于多屬性決策的網(wǎng)絡(luò)選擇方法僅從優(yōu)化單臺車輛的角度出發(fā),沒有考慮到系統(tǒng)中其他車輛的信息和整體網(wǎng)絡(luò)資源的利用情況。
與基于多屬性決策的網(wǎng)絡(luò)選擇方法不同,基于Q學(xué)習(xí)的網(wǎng)絡(luò)選擇方法更加傾向于獲得系統(tǒng)長期有效的最優(yōu)網(wǎng)絡(luò)選擇決策集合[15,16]。文獻[17]提出了一種基于Q學(xué)習(xí)的垂直切換算法,目的是獲得最大化用戶體驗質(zhì)量QoE(Quality of Experience)效用值的最優(yōu)網(wǎng)絡(luò)。然而該模型的回報值獎勵方法過于簡單,難以適應(yīng)網(wǎng)絡(luò)屬性較多的異構(gòu)車載網(wǎng)絡(luò)環(huán)境。文獻[18]提出了一種多智能體協(xié)作學(xué)習(xí)方法CMA-DQN(Cooperative Multi-Agent learning based on Deep Q-Network),該方法將蜂窩網(wǎng)絡(luò)中的用戶進行劃分,通過多個智能體的協(xié)作學(xué)習(xí)來獲取回報值,并使用Double Q-Learning算法進行Q值表更新,有效解決了單表Q學(xué)習(xí)在狀態(tài)空間過大時產(chǎn)生的無法正常收斂問題。文獻[19]提出了一種雙Q學(xué)習(xí)路由協(xié)議DQLR(Double Q-Learning Routing)來預(yù)測消息的下一跳傳播,實驗結(jié)果表明,雙Q值表交替更新的方式比單表更新的方式更為穩(wěn)定。文獻[20]提出了一種多智能體網(wǎng)絡(luò)選擇算法MANSA(Multi-Agent Network Selection Algorithm),將狀態(tài)相似的車輛用戶劃分為一個智能體,每個智能體采用一個Q值表進行學(xué)習(xí)更新。然而該方法中的智能體彼此之間不交流學(xué)習(xí)經(jīng)驗,并且只采用單Q值表更新方式,容易出現(xiàn)過高估計的問題。文獻[21]提出了一種基于Q學(xué)習(xí)的網(wǎng)絡(luò)選擇機制QBNS(Q-learning Based Network Selection),其將網(wǎng)絡(luò)容量和用戶的服務(wù)質(zhì)量作為網(wǎng)絡(luò)性能的評價指標,通過求解自定義的優(yōu)化方差獲得了更好的總回報值,但該方法同樣存在由單表更新引起的過高估計現(xiàn)象。
基于多屬性決策的網(wǎng)絡(luò)選擇方法在評價網(wǎng)絡(luò)性能方面具有較高的準確性,例如MCAS[12]方法,然而該類方法無法得到系統(tǒng)整體長期有效的最優(yōu)切換決策集合?;赒學(xué)習(xí)的決策方法在上述方面有著獨特的優(yōu)勢,但是現(xiàn)階段仍然存在許多問題,例如MANSA[20]和QBNS[21]方法,雖然都通過Q學(xué)習(xí)優(yōu)化了決策模型,且前者還提出了一個簡單的多智能體分割方法,但是核心的回報值函數(shù)設(shè)計過于簡單,無法準確體現(xiàn)網(wǎng)絡(luò)性能效用評分;此外,Q值表更新方式單調(diào),無法應(yīng)對更為復(fù)雜的異構(gòu)車載網(wǎng)絡(luò)環(huán)境。針對以上問題,本文提出了一種基于多智能體Q學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)切換方法,其關(guān)鍵在于使用一種綜合效用函數(shù)來計算動作的即時回報值,極大地提高了回報獎勵值的準確性,并采用一種多智能體協(xié)作學(xué)習(xí)方式提高學(xué)習(xí)迭代的效率,同時引入了多表交替更新來解決過高估計問題,與同類方法相比,該方法具有更好的穩(wěn)定性,提高了網(wǎng)絡(luò)資源利用率。
本文將一定地理范圍內(nèi)的異構(gòu)車載網(wǎng)絡(luò)作為整體進行分析,對應(yīng)的系統(tǒng)模型如圖1所示。該系統(tǒng)模型展現(xiàn)了一個典型城市交通環(huán)境下的異構(gòu)車載網(wǎng)絡(luò)環(huán)境,且該系統(tǒng)模型滿足以下假設(shè)條件:
(1)車輛行駛在多車道的城市道路上,其速度和方向隨著時間在不斷變化;
(2)來自4個移動通信基站的信號(分別是LTE、WLAN1、WLAN2和5G)覆蓋了整個交叉路口及相鄰區(qū)域,行駛在該區(qū)域的車輛被所有基站的信號范圍所覆蓋,且任意車輛同一時刻只接入一個網(wǎng)絡(luò)中享受數(shù)據(jù)通信服務(wù);
(3)車輛終端裝配有適用于車與車V2V(Vehicle-to- Vehicle)通信的車載端元OBU(On-Board Unit)和適用于車與基礎(chǔ)設(shè)施V2I(Vehicle-to- Infrastructure)通信的移動通信接口,從而支持數(shù)據(jù)的實時傳輸與交互;
(4)車輛傳輸和交互業(yè)務(wù)流主要分為語音對話、實時流媒體、網(wǎng)絡(luò)交互和后臺下載4種流量類型。
Figure 1 System model圖1 系統(tǒng)模型
Q-learning是一種基于價值(Value-based)且與模型無關(guān)的強化學(xué)習(xí)算法,其利用智能體與環(huán)境的交互來迭代學(xué)習(xí)優(yōu)化策略,從而實現(xiàn)特定的優(yōu)化目標。Q-learning根據(jù)狀態(tài)空間S={s1,s2,…,sm}和動作集合A={a1,a2,…,an}構(gòu)建二維矩陣Q值表Q,用于評估期望的累計折扣回報值,并決策當前環(huán)境狀態(tài)的執(zhí)行動作。具體來講,每次迭代過程中智能體首先觀察當前時刻t的環(huán)境狀態(tài)st,并根據(jù)貪婪策略ε-greedy選擇動作at,獲得即時回報值r(st,at);接著,智能體基于下一時刻t+1的最大預(yù)期折扣值maxQ(st+1,at+1)更新當前狀態(tài)和動作對應(yīng)的Q值。即當前狀態(tài)st指向下一狀態(tài)st+1,且Q值的更新公式如式(1)所示:
Q(st+1,at+1)=Q(st,at)+
(1)
其中,α表示學(xué)習(xí)率,γ表示折扣因子。
重復(fù)上述過程直到指向最終時刻狀態(tài),此過程記為完成一次學(xué)習(xí)。不斷重復(fù)學(xué)習(xí)過程,直到總預(yù)期折扣值收斂,則得到最優(yōu)Q值矩陣,此時迭代結(jié)束,且每一個狀態(tài)對應(yīng)的最優(yōu)動作組成了最優(yōu)策略集合。
一般基于單智能體的Q-learning算法的最優(yōu)策略是最大化回報值,而對于基于多智能體的Q-learning算法而言,則是使得所有智能體的策略達到納什均衡(Nash Equilibrium)[22]。本節(jié)采用基于多智能體Q學(xué)習(xí)的思想解決了單智能體狀態(tài)空間過大導(dǎo)致算法無法正常收斂的問題[23],并基于協(xié)作學(xué)習(xí)的思想提出一種即時回報值計算方法,提高了動作選擇評價的準確性。
(1)智能體。
本文將異構(gòu)車載網(wǎng)絡(luò)系統(tǒng)視作一個整體,首先根據(jù)車輛行駛方向和速度信息,將相同方向和近似速度的車輛劃分為一個群體,即將所有的車輛終端劃分為N個群體,記作G= (G1,G2,…,GN),且群體Gi(1 ≤i≤N)對應(yīng)智能體Agenti,群體Gi的狀態(tài)空間為Si(Si?S)。單個群體內(nèi)的車輛具有相似的運動狀態(tài),因此這些車輛維護了一個相對穩(wěn)定的網(wǎng)絡(luò)拓撲?;谲囕v之間的信息交互,群體Gi使用智能體Agenti進行迭代學(xué)習(xí),并得到該群體的最優(yōu)動作策略集合。每次學(xué)習(xí)時所有智能體同時執(zhí)行操作,且每個群體均會學(xué)習(xí)其他群體此刻動作的即時回報值。利用群體間的協(xié)作學(xué)習(xí),從而得到異構(gòu)車載網(wǎng)絡(luò)系統(tǒng)的最優(yōu)動作策略集合。
(2)狀態(tài)。
異構(gòu)車載網(wǎng)絡(luò)系統(tǒng)中備選網(wǎng)絡(luò)的性能受到多種網(wǎng)絡(luò)屬性的影響,例如帶寬B、時延D、延遲抖動J、丟失率L、誤碼率E和成本C。系統(tǒng)中被智能體觀察的狀態(tài)數(shù)量正比于車輛節(jié)點的數(shù)量。
(3)動作。
異構(gòu)車載網(wǎng)絡(luò)系統(tǒng)中,算法的動作選擇就是網(wǎng)絡(luò)選擇。備選網(wǎng)絡(luò)集合記為Net= {net1,net2,…,netM},其中M表示網(wǎng)絡(luò)數(shù)量。
(4)回報值。
群體Gi的智能體Agenti在狀態(tài)st下選擇動作at,然后計算網(wǎng)絡(luò)屬性的綜合效用值,接著將網(wǎng)絡(luò)的QoS評分記為未考慮其他群體影響的初始即時回報值ri(st,at),且ri(st,at)的計算方法如式(2)所示:
(2)
其中,u(x)表示網(wǎng)絡(luò)屬性x的綜合效用值,其計算方法如式(3)所示。
u(x)=βf(x)wx+(1-β)uobj
(3)
其中,f(x)表示網(wǎng)絡(luò)屬性x的效用函數(shù),β表示效用值權(quán)重因子,wx表示不同決策屬性效用函數(shù)的綜合權(quán)重,uobj表示屬性的客觀效用值,且采用最優(yōu)理想解排序法TOPSIS[14]計算uobj。
為了得到更為準確的網(wǎng)絡(luò)屬性綜合效用值,wx將主客觀效用值加權(quán)求和,且滿足式(4)和式(5):
(4)
wx=μwsub+(1-μ)wobj
(5)
其中,μ(0<μ<1)表示主客觀權(quán)重因子,wsub和wobj分別表示主觀和客觀權(quán)重。本文采用模糊層次分析法FAHP[13]計算主觀權(quán)重wsub,采用熵Entropy[10]計算客觀權(quán)重wobj。
除了體現(xiàn)QoS的網(wǎng)絡(luò)屬性之外,車載終端接收網(wǎng)絡(luò)信號的強度和備選網(wǎng)絡(luò)的網(wǎng)絡(luò)容量變化也會影響網(wǎng)絡(luò)的性能,從而影響動作選擇后的即時回報值和網(wǎng)絡(luò)資源的利用率。這里分別引入基于網(wǎng)絡(luò)接收信號強度RSS(Recieved Signal Strength)的效用函數(shù)u(rss)和基于網(wǎng)絡(luò)容量NC(Network Capacity)的效用函數(shù)u(nc),其計算方法分別如式(6)和式(7)所示:
(6)
(7)
(8)
其中,λ(0<λ<1)表示折扣因子,1≤i,j≤N且i≠j。
計算綜合即時回報值的具體過程如算法1所示。
算法1群體Gi綜合即時回報值算法
輸入:選擇動作at,網(wǎng)絡(luò)狀態(tài)st,車輛信息,備選網(wǎng)絡(luò)容量capacity,選擇網(wǎng)絡(luò)的屬性參數(shù)列表list,網(wǎng)絡(luò)屬性的參數(shù)修正值K,網(wǎng)絡(luò)接收信號強度門限值Trss,最大網(wǎng)絡(luò)容量maxCapacity。
初始化網(wǎng)絡(luò)屬性參數(shù)矩陣;
計算車輛終端對at對應(yīng)的網(wǎng)絡(luò)接收信號強度rss;
ifrss elseifcapacity>maxCapacity else{ 根據(jù)式(6)和式(7)對網(wǎng)絡(luò)屬性進行參數(shù)預(yù)處理; 對于網(wǎng)絡(luò)屬性B:list(x)=list(x)·(ω·u(rss)+ (1-ω)·u(nc)); 對于網(wǎng)絡(luò)屬性D,J,L,E:list(x)=list(x)+ω(1-u(rss))·K+ (1-ω)·(1-u(nc))·K; 標準化和歸一化參數(shù)矩陣; 使用FAHP計算主觀權(quán)重wsub,使用Entropy計算客觀權(quán)重wobj,根據(jù)式(5)計算綜合權(quán)重wx; 使用TOPSIS計算客觀效用值uobj,根據(jù)式(3)計算綜合效用值u(x); return} 現(xiàn)有的Q-learning算法在進行Q值更新時通常采用單表自更新方式,容易出現(xiàn)過高估計的問題,即導(dǎo)致某一動作的評價值過高,使得在多次迭代后動作的評價值不再準確。針對該問題,本節(jié)基于協(xié)作學(xué)習(xí)的即時回報值計算方法,采用雙表交替更新的方式進行迭代學(xué)習(xí)。下面以群體Gi為例描述算法的交替更新過程。 首先在創(chuàng)建Gi的Q值表時,分別創(chuàng)建QA和QB2個相同的Q值表,每一個Q值表是由狀態(tài)子空間Si和動作集合A構(gòu)成的二維矩陣,儲存每一個動作的長期報酬。2個表同時參與更新,其中一個表負責動作的選擇,另一個表負責Q值的更新。每當更新Q值表時,隨機使用一個表對另一個表進行更新,且一次動作選擇只會對一個Q值表進行更新。對應(yīng)的2個更新函數(shù)公式分別如式(9)和式(10)所示: (9) (10) 動作的選擇采用ε-greedy策略,公式如式(11)所示: (11) 在學(xué)習(xí)開始時,系統(tǒng)希望能夠探索所有的狀態(tài)-動作,概率初始值應(yīng)很大,保證系統(tǒng)能夠?qū)W習(xí)到所有的可能情況,智能體隨機選擇一個網(wǎng)絡(luò)接入動作,下一狀態(tài)同樣采取隨機策略,其更新公式分別如式(9)和式(10)所示: (12) (13) 隨著迭代的進行,系統(tǒng)希望能夠進行更加高效的學(xué)習(xí),所以概率應(yīng)取一個很小的值,保證對最大Q值對應(yīng)動作進行擴展學(xué)習(xí),此時智能體選擇動作報酬最大的動作,下一狀態(tài)同樣采取最優(yōu)選取策略。由于每次學(xué)習(xí)時都會同時使用2個Q函數(shù),因此,學(xué)習(xí)效率并不低于傳統(tǒng)的單表更新方式?;诙嘀悄荏wQ學(xué)習(xí)的網(wǎng)絡(luò)選擇算法如算法2所示。 算法2基于多智能體Q學(xué)習(xí)的網(wǎng)絡(luò)選擇算法 輸入:狀態(tài)空間S、動作集合A、學(xué)習(xí)率α、折扣率γ、探索率ε、學(xué)習(xí)迭代次數(shù)episode。 輸出:新Q值表。 初始化Q值表; fori=1:episodedo 初始化群體Gi的網(wǎng)絡(luò)狀態(tài)空間Si; whileSiis not NULLdo fori=1:Ndo 群體Gi的智能體Agenti觀察當前狀態(tài)st,根據(jù)式(11)選擇動作; Agenti根據(jù)算法1計算群體Gi的綜合即時回報值; Agenti尋找下一狀態(tài)st+1; ifAgenti采取隨機動作 根據(jù)式(12)和式(13)隨機更新QA或者QB; elseifAgenti采取最優(yōu)動作選擇 { if更新QA 根據(jù)式(9)更新QA; elseif更新QB 根據(jù)式(10)更新QB;} 當前狀態(tài)st指向下一狀態(tài)st+1。 endfor endwhile endfor 根據(jù)多智能體納什均衡的收斂性證明[22],算法在多次迭代之后會達到收斂狀態(tài)。在預(yù)設(shè)迭代次數(shù)完成之后,若收斂成功,則輸出Gi的Q值表,其狀態(tài)對應(yīng)的最優(yōu)動作策略集合即為Gi的最優(yōu)網(wǎng)絡(luò)切換策略集合;若收斂失敗,說明學(xué)習(xí)迭代無法如期完成,算法收斂性較差。 通過模擬城市場景下的交叉路口,并采用矩陣運算初始化車輛節(jié)點。如圖1所示,異構(gòu)車載網(wǎng)絡(luò)環(huán)境中車輛速度被設(shè)置為15~70 km/h,且包含了LTE、WLAN1、WLAN2和5G共4個無線通信基站。網(wǎng)絡(luò)及網(wǎng)絡(luò)屬性參數(shù)值的設(shè)置綜合考慮了文獻[12,13,20,21]的網(wǎng)絡(luò)參數(shù)設(shè)置,其中,網(wǎng)絡(luò)的覆蓋半徑和容量信息如表1所示。網(wǎng)絡(luò)屬性參數(shù)初始值如表2所示,除帶寬B和成本C以外,其他網(wǎng)絡(luò)屬性參數(shù)值均在一定范圍內(nèi)波動。網(wǎng)絡(luò)屬性參數(shù)權(quán)重分配如表3所示。此外,調(diào)整參數(shù)的初始值是由多次實驗以及相關(guān)參考文獻確定的經(jīng)驗值,例如根據(jù)Q學(xué)習(xí)本身的特性,學(xué)習(xí)率應(yīng)該保持在較低值,以提高每次學(xué)習(xí)的精度,折扣率應(yīng)該保持在較高值,以保證當前動作選擇作為主要回報值參考對象,調(diào)整參數(shù)初始值的具體設(shè)置如表4所示。 在實驗部分,本文所提出的基于多智能體Q學(xué)習(xí)的異構(gòu)車載網(wǎng)絡(luò)選擇方法MQSM選取了同類型的MANSA[20]和QBNS[21]方法,以及基于多屬性決策的MCAS[12]方法作為對比對象。通過多次實驗分別比較了4種方法的系統(tǒng)總切換次數(shù)、系統(tǒng)平均總折扣值和網(wǎng)絡(luò)容量利用率。 Table 1 Network radius and capacity表1 網(wǎng)絡(luò)半徑及容量 Table 4 Initial value of the adjusted parameters表4 調(diào)整參數(shù)初始值 首先,4種方法的系統(tǒng)總切換次數(shù)分別在不同車輛數(shù)量和車輛速度下進行了對比,結(jié)果如圖2所示。考慮到網(wǎng)絡(luò)資源的利用率,過少的切換次數(shù)會導(dǎo)致優(yōu)先接入的5G網(wǎng)絡(luò)資源利用較為集中,因此適當?shù)卦黾忧袚Q次數(shù)有利于異構(gòu)網(wǎng)絡(luò)資源的充分利用。從圖2a中可以看出,4種方法的系統(tǒng)總切換次數(shù)均隨著車輛數(shù)量的增加呈現(xiàn)出增長趨勢。其中,基于多屬性決策的MCAS方法的總切換次數(shù)明顯少于另外3種基于Q學(xué)習(xí)的方法,這是因為MCAS方法針對單臺車輛進行決策,每臺車輛都從優(yōu)化自身的角度出發(fā)優(yōu)先選擇性能最佳的5G網(wǎng)絡(luò),只有當車輛數(shù)量超過一定閾值導(dǎo)致5G網(wǎng)絡(luò)負載過大時才會選擇切換到其他網(wǎng)絡(luò)中。而基于Q學(xué)習(xí)的其他3種方法從提高整個系統(tǒng)資源利用率出發(fā),在保證用戶QoS的前提下合理利用所有類型的網(wǎng)絡(luò)資源,因此會產(chǎn)生更多的切換次數(shù)。3種基于Q學(xué)習(xí)的方法中,MANSA和QBNS在車輛數(shù)量增長到70以后都出現(xiàn)了較為明顯的波動情況,其中QBNS的波動尤為明顯,而本文的MQSM方法波動較為平穩(wěn)。產(chǎn)生此結(jié)果的原因是QBNS和MANSA均使用了單表更新方式,容易出現(xiàn)某些動作選擇評價值過高估計的現(xiàn)象,導(dǎo)致大量用戶長期接入同一網(wǎng)絡(luò),多次迭代后,此次學(xué)習(xí)得到的獎勵值超出正常值,大量用戶接入同一網(wǎng)絡(luò)且不再進行切換選擇,導(dǎo)致切換次數(shù)大幅度減少。而MQSM使用雙表更新,避免了過高估計問題的大量出現(xiàn),同時MQSM使用了多約束效用函數(shù),將網(wǎng)絡(luò)的QoS評分作為即時回報值,大大提高了決策的準確性。圖2b是在車輛數(shù)量為80的情況下,4種方法的系統(tǒng)總切換次數(shù)在不同車輛速度下的變化情況,且均呈現(xiàn)出先增后減的現(xiàn)象。其中,MCAS方法的總切換次數(shù)最少,其他3種基于Q學(xué)習(xí)的方法相對較多,該結(jié)果的原因與圖2a的分析一致。同時可以看出,MQSM相比MANSA更適應(yīng)速度的變化,具有良好的穩(wěn)定性。 Table 2 Initial value of network attribute parameters表2 網(wǎng)絡(luò)屬性參數(shù)初始值 Table 3 Weight distribution of network attribute parameters表3 網(wǎng)絡(luò)屬性參數(shù)權(quán)重分配 Figure 2 Total handovers of system圖2 系統(tǒng)總切換次數(shù) 其次,比較了3種基于強化學(xué)習(xí)的方法在不同迭代次數(shù)下的系統(tǒng)平均總折扣值,結(jié)果如圖3所示。3種方法平均總折扣值的增長速度均隨著迭代次數(shù)的增加逐漸減小,其中MQSM和MANSA在迭代次數(shù)達到100后趨于收斂,比QBNS更快到達收斂狀態(tài)。這是因為MQSM和MANSA使用了多智能體的協(xié)作模式,相對于單智能體模式的QBNS可以減少狀態(tài)空間,從而加快收斂。未達到收斂狀態(tài)時,MQSM的平均總折扣值比MANSA更低,這是因為其使用了雙Q值表交替更新的方式,使得學(xué)習(xí)效率相對較低,導(dǎo)致迭代次數(shù)相對較多,但MQSM解決了MANSA單表更新導(dǎo)致的過高估計問題,使得總折扣值相對較小。 Figure 3 Average total discount value of system圖3 系統(tǒng)平均總折扣值 Figure 4 Network resource utilization圖4 網(wǎng)絡(luò)資源利用率 最后,比較了4種方法在車輛數(shù)量為100時的網(wǎng)絡(luò)資源利用率,結(jié)果如圖4所示。5G網(wǎng)絡(luò)展現(xiàn)出的優(yōu)秀性能使得其成為車輛終端用戶的主要選擇傾向,QBNS和MANSA的5G網(wǎng)絡(luò)占用容量接近甚至超過了5G網(wǎng)絡(luò)所能容納用戶數(shù)量的最高值,明顯是總折扣值估計過高,導(dǎo)致大量用戶接入了理論上性能最優(yōu),但實際上已經(jīng)負載嚴重的5G網(wǎng)絡(luò),使得其他網(wǎng)絡(luò)資源無法得到充分利用;MQSM的5G網(wǎng)絡(luò)占用容量保持在一個良好的水平,并且其他網(wǎng)絡(luò)得到了更好的利用,整體上網(wǎng)絡(luò)利用率最高。該結(jié)果體現(xiàn)了MQSM的模型設(shè)計更為合理,可以在保證5G網(wǎng)絡(luò)容量合理利用的同時,提高其他網(wǎng)絡(luò)的接入數(shù)量,使系統(tǒng)在長期的運動狀態(tài)下保持較高的網(wǎng)絡(luò)資源利用率。 為了獲得異構(gòu)車載網(wǎng)絡(luò)環(huán)境下系統(tǒng)長期有效的最優(yōu)網(wǎng)絡(luò)切換決策集合,考慮到未來融合5G通信的異構(gòu)車載網(wǎng)絡(luò)環(huán)境,提出一種基于多智能體Q學(xué)習(xí)的網(wǎng)絡(luò)選擇方法MQSM,用于在保證車輛終端用戶的良好QoS體驗的同時,提高異構(gòu)車載網(wǎng)絡(luò)的資源利用率。該方法構(gòu)建了一個以Q-learning為基礎(chǔ)的多智能體協(xié)作學(xué)習(xí)模型,通過設(shè)計的多約束效用函數(shù)計算網(wǎng)絡(luò)的QoS評分作為回報值獎勵,從而更加準確地評價網(wǎng)絡(luò)性能。此外,利用雙Q值表交替更新方式優(yōu)化學(xué)習(xí)過程,一定程度上解決了過高估計問題。實驗結(jié)果表明,該方法在不同的交通條件下均具備良好的適應(yīng)性和穩(wěn)定性,有效提高了網(wǎng)絡(luò)資源利用率。 隨著城市智能交通的發(fā)展,異構(gòu)車載網(wǎng)絡(luò)中車載終端用戶的需求將更加多樣化,用于評估網(wǎng)絡(luò)性能的屬性種類和數(shù)量將變得更加復(fù)雜,對應(yīng)的網(wǎng)絡(luò)狀態(tài)空間也將更加龐大。當前的多智能體Q學(xué)習(xí)模型在復(fù)雜化后的異構(gòu)車載網(wǎng)絡(luò)中難以發(fā)揮作用,因此在下階段的工作中,將考慮結(jié)合深度學(xué)習(xí)來應(yīng)對更加復(fù)雜的環(huán)境。4.3 基于多智能體Q-learning的網(wǎng)絡(luò)選擇
5 實驗與分析
5.1 實驗環(huán)境與參數(shù)
5.2 實驗結(jié)果與分析
6 結(jié)束語