李昕,孫君,2
研究與開發(fā)
基于價值差異學(xué)習(xí)的多小區(qū)mMTC接入算法
李昕1,孫君1,2
(1. 南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003;2. 江蘇省無線通信重點實驗室,江蘇 南京 210003)
在5G大連接物聯(lián)網(wǎng)場景下,針對大連接物聯(lián)網(wǎng)設(shè)備(massive machine type communication device,mMTCD)的接入擁塞現(xiàn)象,提出了基于價值差異探索的雙重深度Q網(wǎng)絡(luò)(double deep Q network with value-difference based exploration,VDBE-DDQN)算法。該算法著重解決了在多小區(qū)網(wǎng)絡(luò)環(huán)境下mMTCD接入基站的問題,并將該深度強化算法的狀態(tài)轉(zhuǎn)移過程建模為馬爾可夫決策過程。該算法使用雙重深度Q網(wǎng)絡(luò)來擬合目標(biāo)狀態(tài)—動作值函數(shù),并采用基于價值差異的探索策略,可以同時利用當(dāng)前條件和預(yù)期的未來需求來應(yīng)對環(huán)境變化,每個mMTCD根據(jù)當(dāng)前值函數(shù)與網(wǎng)絡(luò)估計的下一時刻值函數(shù)的差異來更新探索概率,而不是使用統(tǒng)一的標(biāo)準,從而為mMTCD選擇最佳基站。仿真結(jié)果表明,所提算法可有效提高系統(tǒng)的接入成功率。
大連接物聯(lián)網(wǎng);隨機接入;強化學(xué)習(xí);基站選擇
5G移動通信及未來移動網(wǎng)絡(luò)(包括物聯(lián)網(wǎng))的部署正在推動先進物聯(lián)網(wǎng)的發(fā)展[1–3],將人與人之間通信拓展到人與物、物與物之間通信,開啟萬物互聯(lián)時代[4]。大連接物聯(lián)網(wǎng)(massive machine-type communication,mMTC)系統(tǒng)的主要挑戰(zhàn)是在上行鏈路中為大量設(shè)備設(shè)計穩(wěn)定高效的隨機接入方案[5]。特別是,隨著5G移動通信的發(fā)展和大規(guī)模物聯(lián)網(wǎng)場景的出現(xiàn),數(shù)以百計的大連接物聯(lián)網(wǎng)設(shè)備(massive machine type communication device,mMTCD)被連接起來[6]。據(jù)Statista統(tǒng)計,到2030年,全球預(yù)計將使用500億臺物聯(lián)網(wǎng)設(shè)備[7],為未來的蜂窩網(wǎng)絡(luò)設(shè)想一個真正的大連接物聯(lián)網(wǎng)場景。但是,mMTCD的快速增長為隨機接入(random access,RA)帶來各方面的挑戰(zhàn)[8]。
為了解決蜂窩物聯(lián)網(wǎng)中的RA擁塞問題,3GPP提出了幾種解決方案,包括訪問等級限制及其變體、特定于mMTC的退避方法、時隙RA、RA資源分離和分頁RA方法[9]。此外,文獻[10]中還研究了其他方案,如優(yōu)先級RA、基于分組的RA和碼擴展的RA。然而,大多數(shù)現(xiàn)有的方法適用于集中式系統(tǒng),并且是被動的,而不是具有高度動態(tài)特性的mMTCD所需的。因此,目前的研究傾向于強化學(xué)習(xí)(reinforcement learning,RL)輔助的接入控制方案,因為它更適應(yīng)于學(xué)習(xí)系統(tǒng)變化和參數(shù)不確定的環(huán)境。
在RL中,Q-學(xué)習(xí)因其無模型和分布式特性,更適合mMTC場景。文獻[11]提出了一種基于協(xié)同Q-學(xué)習(xí)的擁塞避免方法,該方法利用每個時隙的擁塞水平來設(shè)置獎勵函數(shù)。文獻[12]中,每個mMTCD通過Q-學(xué)習(xí)選擇其傳輸?shù)臅r隙和傳輸功率來提高系統(tǒng)吞吐量。文獻[13]提出結(jié)合NOMA和Q-學(xué)習(xí)方法,以便在前導(dǎo)分離域中顯著分開區(qū)域中的設(shè)備,既可以重用前導(dǎo)碼而不會發(fā)生沖突,減少連接嘗試。文獻[14]提出雙Q-學(xué)習(xí)算法,該算法可以動態(tài)地適應(yīng)ACB機制的接入限制參數(shù)。雙Q-學(xué)習(xí)的實現(xiàn)可以降低傳統(tǒng)Q-學(xué)習(xí)過高估計Q值的風(fēng)險,避免導(dǎo)致次優(yōu)性能。文獻[15]提出了基于多智能體的智能前導(dǎo)碼選擇機制,將神經(jīng)網(wǎng)絡(luò)與RL結(jié)合,有效提高了mMTCD接入的性能。同時為解決mMTCD的接入問題提供了思路。以上方案只關(guān)注在單小區(qū)接入過程中的擁塞問題,很少關(guān)注在基站側(cè)的影響。即使mMTCD完成了隨機接入過程,也會出現(xiàn)過載和資源分配失敗。因此需要設(shè)計高效穩(wěn)定的eNB選擇方案,以適應(yīng)mMTC的特性,減少網(wǎng)絡(luò)擁塞和過載。文獻[16]中Q-學(xué)習(xí)用于選擇最佳可用基站,使用吞吐量和時延作為QoS測量和獎勵。文獻[17]在時隙多小區(qū)隨機接入的場景下,提出了一種基于指數(shù)權(quán)重探索與開發(fā)的RL算法,用于選擇關(guān)聯(lián)的接入點。但是文獻[16-17]不能處理網(wǎng)絡(luò)密度的增長,因此過載仍然是一個問題。雖然Q-學(xué)習(xí)因其分布式和無模型特性而被廣泛使用,但是在mMTC場景下,其并不能解決網(wǎng)絡(luò)密度增長帶來的挑戰(zhàn),可能會使其Q表過大并且增加查表難度導(dǎo)致函數(shù)難收斂。因此,本文引入神經(jīng)網(wǎng)絡(luò)擬合Q表來優(yōu)化傳統(tǒng)用于隨機接入的RL算法,并使用雙重網(wǎng)絡(luò)提高算法精度。同時,提出一種探索策略,進一步提高算法性能,與現(xiàn)有的基于多小區(qū)隨機接入的算法相比,本文算法降低了選擇eNB的隨機性,更能選擇最優(yōu)的eNB。
因此,本文提出了基于價值差異的雙重深度Q網(wǎng)絡(luò)(double deep Q network with value-difference based exploration,VDBE-DDQN)算法來解決多小區(qū)網(wǎng)絡(luò)環(huán)境下的eNB選擇問題。通過雙重深度Q網(wǎng)絡(luò)(double deep Q network,DDQN)來學(xué)習(xí)mMTCD到eNB的直接映射,同時,當(dāng)網(wǎng)絡(luò)參數(shù)未知時,引入價值差異探索(value-difference based exploration,VDBE)的研究方法,根據(jù)每個mMTCD自身學(xué)習(xí)的情況更新探索概率,使學(xué)習(xí)過程更符合每個mMTCD的需求。在學(xué)習(xí)過程中,知道的信息越多,越有可能在所知的eNB中選擇最優(yōu)eNB,而不是隨機選擇。本文所提方法與其他多小區(qū)網(wǎng)絡(luò)選擇基站的隨機接入方法相比,能夠允許大量mMTCD的接入,并有效提高系統(tǒng)中mMTCD的接入成功率。
系統(tǒng)模型如圖1所示,系統(tǒng)模型由位于小區(qū)原點的eNB和隨機分布在其周圍的個mMTCD組成。本文只考慮mMTCD與eNB之間的上行鏈路傳輸,其中mMTCD以信號和數(shù)據(jù)的形式向eNB發(fā)送接入請求,eNB充當(dāng)數(shù)據(jù)集中器,并向其覆蓋區(qū)域的設(shè)備廣播控制消息??紤]個小區(qū),每個小區(qū)由位于其原點的基站所覆蓋。區(qū)域1的mMTCD僅由eNB1服務(wù),3個小區(qū)重疊區(qū)域的設(shè)備可以選擇3個eNB中的任一個通信。如果多個集中器可用,那么每個mMTCD每次只能選其中一個通信。
圖1 系統(tǒng)模型
在隨機接入之前,設(shè)備需要等待前導(dǎo)碼來傳輸分組,前導(dǎo)碼被定義為向eNB發(fā)送數(shù)據(jù)包的傳輸機會[18]。如果多個設(shè)備同時選擇相同的前導(dǎo)碼,那么會發(fā)生前導(dǎo)碼碰撞,使設(shè)備無法分配到前導(dǎo)碼,無法向eNB傳輸數(shù)據(jù)包。所以重疊區(qū)域的mMTCD在發(fā)送數(shù)據(jù)包之前必須選擇一個eNB進行傳輸,那么擁塞較少的eNB將有更大的可能將前導(dǎo)碼分配給mMTCD,增加成功接入的可能。除此之外,接入失敗的設(shè)備可以在下一時隙重新請求接入。為了評估在多小區(qū)網(wǎng)絡(luò)下系統(tǒng)的性能,將接入成功率作為性能指標(biāo):
在RL中,智能體通過試錯來學(xué)習(xí)。智能體與環(huán)境交互的學(xué)習(xí)過程可以被視為馬爾可夫決策過程(Markov decision process,MDP),其被定義為一個四元組[],分別表示狀態(tài)集、動作集、狀態(tài)轉(zhuǎn)移和獎勵。RL框架與MDP如圖2所示,為RL中智能體與環(huán)境的交互過程以及將其狀態(tài)轉(zhuǎn)移描述為MDP。
圖2 RL框架與MDP
Q-學(xué)習(xí)是RL最常見的一種,通過對智能體與其環(huán)境之間的交互進行抽樣觀察學(xué)習(xí)值函數(shù)。在時隙,先基于當(dāng)前狀態(tài),使用貪婪法按一定概率選擇動作,得到獎勵,進入新狀態(tài)。每個狀態(tài)下的Q值通過以下迭代過程[19]計算:
設(shè)備每隔一段時間檢測當(dāng)前小區(qū)的網(wǎng)絡(luò)狀態(tài),并根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)決定是否切換小區(qū)來達到更好的接入效果。與算法相關(guān)的狀態(tài)、動作和感知獎勵定義如下。
狀態(tài):狀態(tài)為mMTC設(shè)備,連接它所選擇的eNB。
獎勵R:獎勵是在mMTCD向eNB發(fā)送接入請求之后獲得,需考慮mMTCD是否在網(wǎng)絡(luò)覆蓋范圍。如果不在覆蓋范圍,設(shè)置=0,此時mMTCD向eNB發(fā)送任何請求都無效,獎勵值為0;如果在覆蓋范圍,設(shè)置=1。此時若eNB接收了mMTCD的接入請求,則發(fā)送確認信息;若mMTCD發(fā)送數(shù)據(jù)失敗,說明選擇同一個eNB的設(shè)備發(fā)生了碰撞沖突。
此外,算法將深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)代替Q表,并將其稱為深度Q網(wǎng)絡(luò)(deep Q network,DQN)。在DQN中,通過DNN對值函數(shù)近似,可表示為:
目標(biāo)值表示為:
其中,表示目標(biāo)網(wǎng)絡(luò)的權(quán)重。
此外,由于在Q-學(xué)習(xí)和DQN方法中使用相同的值來選擇和評估動作,Q值函數(shù)可能過于樂觀。因此,使用DDQN[20]通過以下定義的目標(biāo)值替換(8)的值來緩解上述問題:
算法1:基于VDBE-DDQN的eNB選擇算法描述
for 每個回合數(shù)=1,...,
for每個0,...,
每個mMTCD觀察狀態(tài)
根據(jù)式(13)更新
end for
end for
表1 仿真參數(shù)設(shè)置
圖4 不同學(xué)習(xí)率下的性能
不同優(yōu)化算法的性能如圖5所示,其針對參數(shù)更新的不同優(yōu)化算法的性能。在學(xué)習(xí)開始時,這3種情況下的訓(xùn)練步數(shù)都非常大。隨著回合數(shù)增加,收斂速度有增加的趨勢。RMSProp優(yōu)化算法的收斂速度最快。因此,選擇RMSProp算法更新參數(shù)。
圖5 不同優(yōu)化算法的性能
圖6 不同折扣率γ的性能
3種算法性能比較如圖7所示,其比較了3種不同探索策略的DRL算法的接入成功率。在學(xué)習(xí)開始時,3種算法下的接入成功率都很低。隨著訓(xùn)練回合數(shù)增加,成功率和收斂速度都有增加趨勢。其中,本文算法的成功率最高,其次是greedy-RL算法,softmax-RL算法成功率相對最低。此外,由于系統(tǒng)模型分布著不在小區(qū)覆蓋范圍的設(shè)備,因此無法接入基站,影響接入成功率。
圖7 3種算法性能比較
圖8 不同值對3種算法的性能影響
針對大連接物聯(lián)網(wǎng)場景,本文提出了VDBE- DDQN算法來解決在多小區(qū)網(wǎng)絡(luò)環(huán)境下mMTCD選擇eNB的問題。首先,本文將此RL算法的狀態(tài)轉(zhuǎn)移過程建模為MDP,定義了其中的狀態(tài)、動作和獎勵函數(shù),并根據(jù)設(shè)備之間的協(xié)作獲得接入失敗設(shè)備的碰撞級別作為獎勵。其次,通過設(shè)計的網(wǎng)絡(luò)來近似值函數(shù),通過不斷學(xué)習(xí)使目標(biāo)值與值函數(shù)無限接近。同時,DDQN也解決了傳統(tǒng)算法對值函數(shù)高估的問題。然后,通過VDBE方法使每個mMTCD有適合自己的探索概率,而不是統(tǒng)一的標(biāo)準。此外,該算法還能夠感知網(wǎng)絡(luò)環(huán)境的變化,調(diào)整探索和利用的比值。仿真結(jié)果表明,所提方法在接入成功率方面優(yōu)于其他方法。
[1] TULLBERG H, POPOVSKI P, LI Z X, et al. The METIS 5G system concept: meeting the 5G requirements[J]. IEEE Communications Magazine, 2016, 54(12): 132-139.
[2] Latva-aho M, Lepp?nen K, Clazzer F, et al. Key drivers and research challenges for 6G ubiquitous wireless intelligence[J]. 2020.
[3] BI Q. Ten trends in the cellular industry and an outlook on 6G[J]. IEEE Communications Magazine, 2019, 57(12): 31-36.[LinkOut]
[4] 董石磊, 趙婧博. 面向工業(yè)場景的 5G 專網(wǎng)解決方案研究[J]. 電信科學(xué), 2021, 37(11): 97-103.
DONG S L, ZHAO J B. Research on 5G private networking schemes for industry[J]. Telecommunications Science, 2021, 37(11): 97-103.
[5] POPLI S, JHA R K, JAIN S. A survey on energy efficient narrowband internet of things (NBIoT): architecture, application and challenges[J]. IEEE Access, 2018(7): 16739-16776.
[6] NAVARRO-ORTIZ J, ROMERO-DIAZ P, SENDRA S, et al. A survey on 5G usage scenarios and traffic models[J]. IEEE Communications Surveys & Tutorials, 2020, 22(2): 905-929.
[7] ANALYTICS S. Number of Internet of things(IoT) connected devices worldwide in 2018, 2025 and 2030(in billions)[J]. Statista Inc, 2020(7): 17.
[8] SHARMA S K, WANG X B. Toward massive machine type communications in ultra-dense cellular IoT networks: current issues and machine learning-assisted solutions[J]. IEEE Communications Surveys & Tutorials, 2020, 22(1): 426-471.
[9] 3GPP. Study on RAN improvements for machine-type communications:TR 37.868[R]. 2011.
[10] ALI M S, HOSSAIN E, KIM D I. LTE/LTE-A random access for massive machine-type communications in smart cities[J]. IEEE Communications Magazine, 2017, 55(1): 76-83.
[11] SHARMA S K, WANG X B. Collaborative distributed Q-learning for RACH congestion minimization in cellular IoT networks[J]. IEEE Communications Letters, 2019, 23(4): 600-603.
[12] DA SILVA M V, SOUZA R D, ALVES H, et al. A NOMA-based Q-learning random access method for machine type communications[J]. IEEE Wireless Communications Letters, 2020, 9(10): 1720-1724.
[13] TSOUKANERI G, WU S B, WANG Y. Probabilistic preamble selection with reinforcement learning for massive machine type communication (MTC) devices[C]//Proceedings of 2019 IEEE 30th Annual International Symposium on Personal, Indoor and Mobile Radio Communications. Piscataway: IEEE Press, 2019: 1-6.
[14] PACHECO-PARAMO D, TELLO-OQUENDO L. Adjustable access control mechanism in cellular MTC networks: a double Q-learning approach[C]//Proceedings of 2019 IEEE Fourth Ecuador Technical Chapters Meeting. Piscataway: IEEE Press, 2019: 1-6.
[15] BAI J N, SONG H, YI Y, et al. Multiagent reinforcement learning meets random access in massive cellular Internet of Things[J]. IEEE Internet of Things Journal, 2021, 8(24): 17417-17428.
[16] MOHAMMED A H, KHWAJA A S, ANPALAGAN A, et al. Base Station selection in M2M communication using Q-learning algorithm in LTE-A networks[C]//Proceedings of 2015 IEEE 29th International Conference on Advanced Information Networking and Applications. Piscataway: IEEE Press, 2015: 17-22.
[17] LEE D, ZHAO Y, LEE J. Reinforcement learning for random access in multi-cell networks[C]//Proceedings of 2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). Piscataway: IEEE Press, 2021: 335-338.
[18] MOON J, LIM Y. Access control of MTC devices using reinforcement learning approach[C]//Proceedings of 2017 International Conference on Information Networking (ICOIN). Piscataway: IEEE Press, 2017: 641-643.
[19] LIEN S Y, CHEN K C, LIN Y H. Toward ubiquitous massive accesses in 3GPP machine-to-machine communications[J]. IEEE Communications Magazine, 2011, 49(4): 66-74.
[20] VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016: 2094-2100.
[21] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[22] TIELEMAN T, HINTON G. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude[J]. COURSERA: Neural networks for machine learning, 2012, 4(2): 26-31.
Value-difference learning based mMTC devices access algorithm in multi-cell network
LI Xin1, SUN Jun1,2
1. College of Telecommunications & Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China 2. Jiangsu Key Laboratory of Wireless Communications, Nanjing 210003, China
In the massive machine type communication scenario of 5G, the access congestion problem of massive machine type communication devices (mMTCD) in multi-cell network is very important. A double deep Q network with value-difference based exploration (VDBE-DDQN) algorithm was proposed. The algorithm focused on the solution that could reduce the collision when a number of mMTCDs accessed to eNB in multi-cell network. The state transition process of the deep reinforcement learning algorithm was modeled as Markov decision process. Furthermore, the algorithm used a double deep Q network to fit the target state-action value function, and it employed an exploration strategy based on value-difference to adapt the change of the environment, which could take advantage of both current conditions and expected future needs. Moreover, each mMTCD updated the probability of exploration according to the difference between the current value function and the next value function estimated by the network, rather than using the same standard to select the best base eNB for the mMTCD. Simulation results show that the proposed algorithm can effectively improve the access success rate of the system.
mMTC, RA, reinforcement learning, eNB selection
: The National Natural Science Foundation of China (No.61771255), Provincial and Ministerial Key Laboratory Open Project (No.20190904)
TN929.5
A
10.11959/j.issn.1000?0801.2022152
2022?01?13;
2022?04?06?
國家自然科學(xué)基金資助項目(No.61771255);省部級重點實驗室開放課題項目(No.20190904)
李昕(1997? ),女,南京郵電大學(xué)通信與信息工程學(xué)院碩士生,主要研究方向為大連接物聯(lián)網(wǎng)設(shè)備的隨機接入。
孫君(1980? ),女,南京郵電大學(xué)副研究員、碩士生導(dǎo)師,主要研究方向為無線網(wǎng)絡(luò)、無線資源管理和物聯(lián)網(wǎng)。