謝 然,白雪敏,李淑豐,張鳳霞,于 江,孫久會
(1.31107 部隊,江蘇 南京 210000;2.陸軍工程大學(xué),江蘇 南京 210000)
隨著先進寬頻無線技術(shù)快速和廣泛的發(fā)展,以及對高速率高質(zhì)量服務(wù)的需求增加,傳統(tǒng)的靜態(tài)頻譜分配政策正變得過時。為了盡可能地提高授權(quán)頻譜的利用率,認知無線電(Cognitive Radio,CR)的概念被提出。認知無線電是一種智能無線通信系統(tǒng),能夠自動感知周圍頻譜的使用情況,并在不影響授權(quán)用戶正常通信的情況下機會式地接入空閑頻譜(Opportunistic Specturm Access)。通常來說,授權(quán)用戶被稱為主要用戶(PUs),非授權(quán)用戶稱為次要用戶(SUs)或認知用戶。認知用戶應(yīng)當(dāng)具有頻譜感知能力以檢測是否存在頻譜空洞,并且能夠根據(jù)感知結(jié)果重配置或調(diào)整軟硬件參數(shù)和工作參數(shù)。
認知無線電技術(shù)在不改變現(xiàn)有頻譜分配政策的情況下使有價值的頻譜資源得到復(fù)用,從而解決了頻譜利用率低的問題。其核心思想是通過動態(tài)頻譜接入來實現(xiàn)頻譜共享[1],頻譜共享的含義是SUs 可以使用PUs 的空閑頻譜,但前提是不能對PUs 的通信產(chǎn)生干擾。頻譜共享通常包括四個步驟:頻譜感知(Spectrum Senseing)、頻譜分配(Spectrum Allocation)、頻譜接入(Spectrum Access)、頻譜切換(Spectrum Handoff)。而這些功能的實現(xiàn),除了必須的軟硬件條件外,還必須依靠復(fù)雜的學(xué)習(xí)和決策機制。如何協(xié)助無線電用戶進行智能自適應(yīng)學(xué)習(xí)和決策,以滿足無線網(wǎng)絡(luò)的多樣化要求,是無線通信技術(shù)面臨的挑戰(zhàn)。
機器學(xué)習(xí)(Machine Learning)作為強大的人工智能工具之一,近年來被廣泛地用于無線通信網(wǎng)絡(luò),如大規(guī)模多輸入多輸出(Multiple-Input Multiple-Output,MIMO)、終端直通(Device-to-Device,D2D)網(wǎng)絡(luò)、由femtocells 和small cells 組成的異構(gòu)網(wǎng)絡(luò)等[2]。機器學(xué)習(xí)可大致分類為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)3 大類。機器學(xué)習(xí)應(yīng)用在無線網(wǎng)絡(luò)特別是認知無線網(wǎng)絡(luò)中的優(yōu)勢主要體現(xiàn)在以下3個方面[3]。
(1)允許CR 用戶以分布式的方式獨立自適應(yīng)地感知、決策并接入頻譜資源,減少了對控制單元的需求,避免了獲取全局觀測值所需的信息交互和信令開銷。
(2)區(qū)別于傳統(tǒng)方法中預(yù)設(shè)或提取特征,基于機器學(xué)習(xí)的方法可以自動從數(shù)據(jù)中提取特征,以便CR 用戶(agent)在不需要任何先驗知識或?qū)o線網(wǎng)絡(luò)環(huán)境的假設(shè)的情況下實現(xiàn)其網(wǎng)絡(luò)效能目標。
(3)通過周期性的訓(xùn)練,數(shù)據(jù)驅(qū)動方法的性能不會受到無線電環(huán)境變化的顯著影響,因此對環(huán)境具有較強的魯棒性。
本文主要探索機器學(xué)習(xí)中的強化學(xué)習(xí)和深度學(xué)習(xí)在認知無線網(wǎng)絡(luò)頻譜共享方面的應(yīng)用。
強化學(xué)習(xí)依賴于一個動態(tài)的迭代學(xué)習(xí)和決策過程??捎糜谕茰y未知網(wǎng)絡(luò)條件下的移動用戶決策,如頻譜共享中未知信道可用性條件下的信道接入,蜂窩網(wǎng)絡(luò)中未知資源質(zhì)量條件下的分布式資源分配。深度學(xué)習(xí)算法如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長短期記憶(Long Short Term Memory,LSTM)遞歸神經(jīng)網(wǎng)絡(luò),作為目前最先進的分類任務(wù),已經(jīng)被應(yīng)用于包括頻譜感知、頻譜分配等各個無線網(wǎng)絡(luò)領(lǐng)域[4]。其他經(jīng)典的機器學(xué)習(xí)技術(shù),如支持向量機(Support Vector Machine,SVM)和K-nearest neighbor(KNN)分類器已經(jīng)被廣泛用于包括涉及多個傳感器的分布式(或合作)頻譜感知當(dāng)中,并有效提高了方案性能。
強化學(xué)習(xí)(Reinforcement Learning,RL)是機器學(xué)習(xí)的一個重要分支,主要用來解決連續(xù)決策的問題(如頻譜接入和切換)。強化學(xué)習(xí)也可以應(yīng)用到有序列輸出的問題中,因為它可以針對一系列變化的環(huán)境狀態(tài),輸出一系列對應(yīng)的行動。
大多數(shù)的強化學(xué)習(xí)問題都可以用馬爾科夫決策過程(Markov Decision Process,MDP)來進行問題建模。對于一個為了達到目標狀態(tài)的決策問題,一般存在一個智能體(Agent)來感知周圍的環(huán)境狀態(tài)(State),同時根據(jù)策略(Policy)在當(dāng)前環(huán)境中執(zhí)行一個動作(Action)從而達到另一個環(huán)境狀態(tài)(next state),同時得到一個獎勵(Reward)??梢酝ㄟ^包含5 個元素的元組來表示這一過程(S,A,P,γ,R)。其中:S表示智能體的狀態(tài)集;A表示智能體的動作集;P表示狀態(tài)轉(zhuǎn)移矩陣;γ∈(0,1)表示折扣因子,用于計算累積獎勵,表明越遠的獎勵對當(dāng)前的貢獻越少;R表示獎勵值函數(shù),Agent 每執(zhí)行一個動作(或離開某一狀態(tài))都會得到一個獎勵值。此外,模型中應(yīng)含有但未提現(xiàn)在元組中的策略π,表示從狀態(tài)到動作的一種映射,也可表示為a=π(s)。
由于延遲回報的特性,要度量一種策略的好壞程度,則需要定義在某種策略情況下的一個函數(shù)來表明當(dāng)前的狀態(tài)下所做的策略對長遠的影響,即衡量該狀態(tài)的好壞程度,這個函數(shù)被稱作值函數(shù)(Value Function),可表示為:
式(1)表明值函數(shù)V π(s)在初始狀態(tài)為s的情況下采取策略π得到的一個累積的獎勵期望值。根據(jù)其馬爾科夫性質(zhì)進行迭代可得到Bellman 方程[5]:
可簡單表達為:
通過Bellman 方程,可以得知值函數(shù)的求解是一個動態(tài)規(guī)劃的迭代過程。使用動態(tài)規(guī)劃算法進行迭代計算便可得出所有狀態(tài)穩(wěn)定的值函數(shù)值。在實際的強化學(xué)習(xí)問題中,往往使用的是動作值函數(shù)(Action-Value Function),用Q(s,a)表示,表達式為:
處于狀態(tài)s的情況下,經(jīng)過某種策略π達到狀態(tài)s′,兩個狀態(tài)都有自己的值函數(shù)對應(yīng)的值,同時知道這兩種狀態(tài)之間的轉(zhuǎn)換獎勵r,就可以通過Bellman 方程進行迭代求解。
對于強化學(xué)習(xí)問題的求解,主要的算法分為兩種:基于動態(tài)規(guī)劃的算法和基于策略優(yōu)化的算法。基于動態(tài)規(guī)劃(Dynamic Programing,DP)的算法主要包括值迭代(Value Iteration)、策略迭代(Policy Iteration),在無模型的算法中又可以分為蒙特卡洛(Monte Carlo,MC)算法和時序差分(Temporal-Difference,TD)算法。最有名的Q-Learning 算法也是一種值迭代,其更新表達式為:
計算出來的Q值存儲在Q 表中,以便下一次更新使用。
近年來,深度學(xué)習(xí)極大地促進了計算機視覺(Computer Vision,CV)和自然語言處理(Natural Language Processing,NLP)的發(fā)展。作為DL 的核心技術(shù),人工神經(jīng)網(wǎng)絡(luò)被用來近似輸入與輸出之間的關(guān)系。典型的神經(jīng)網(wǎng)絡(luò)一般由三部分組成,即輸入層、輸出層和隱含層。在每一層中,放置許多具有不同激活功能的細胞,相鄰層的細胞按預(yù)先設(shè)計的方式相互連接。隨著網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的發(fā)展,對于不同類型的數(shù)據(jù)有不同的網(wǎng)絡(luò)結(jié)構(gòu)。例如:卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層和全連接層組成,適合于圖像;遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在隱含層中包含許多遞歸細胞,適合用于時間序列數(shù)據(jù)。文獻[6]在神經(jīng)網(wǎng)絡(luò)的設(shè)計中引入了dropout 等技術(shù),以提高DL 的泛化和收斂性能。
(1)深度神經(jīng)網(wǎng)絡(luò)(DNN)。深度神經(jīng)網(wǎng)絡(luò)是一種判別模型,可以使用反向傳播算法進行訓(xùn)練,權(quán)重更新可以使用隨機梯度下降法進行求解。廣義上,深度神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)的總稱,包括其他一系列的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等;狹義上,DNN 指的是只有全連接的網(wǎng)絡(luò)結(jié)構(gòu)。
(2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)。卷積神經(jīng)網(wǎng)絡(luò)由一個或多個卷積層和頂端的全連接層組成,同時也包括關(guān)聯(lián)權(quán)重和池化層(Pooling Layer)。這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的二維結(jié)構(gòu)。
(3)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種處理時間序列數(shù)據(jù)的強大工具。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,遞歸網(wǎng)絡(luò)的每一層都有許多相互連接的細胞(cells)。同一層中的所有cells 都具有相同的結(jié)構(gòu),并且每個cell 都將其信息傳遞給它的后續(xù)cell。RNN 的輸出不僅取決于它的當(dāng)前輸入,還取決于過去時間的記憶。雖然RNN 的目的是學(xué)習(xí)長期依賴性,但理論和經(jīng)驗表明它很難學(xué)習(xí)并長期保存信息。長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的提出就是為了解決長期保存輸入的問題。LSTM 網(wǎng)絡(luò)被證明比傳統(tǒng)的RNN 更加有效。
隨著機器學(xué)習(xí)的應(yīng)用和發(fā)展,各種機器學(xué)習(xí)方法正在融合和升級。深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是Google 的Deep Mind團隊提出的一種算法框架,是一種用于決策學(xué)習(xí)的算法。該算法結(jié)合了深度學(xué)習(xí)以及強化學(xué)習(xí)各自的優(yōu)點:深度學(xué)習(xí)善于做非線性的擬合,而強化學(xué)習(xí)適合于做決策學(xué)習(xí)。其算法的核心還是強化學(xué)習(xí)。
在使用傳統(tǒng)的強化學(xué)習(xí)算法(如Q-learning)進行決策優(yōu)化時,隨著狀態(tài)維度的變化,問題的計算量會顯著地變化,即所謂的維度災(zāi)難(The Curse of Dimensionality)。具體來說,Q-learning 需要一個二維Q表來存儲環(huán)境中所有肯定狀態(tài)和每個狀態(tài)的行動Q值,對于狀態(tài)空間較大的問題來說用Q表來存儲所有狀態(tài)動作對的Q值是不現(xiàn)實的。即使硬件可以滿足狀態(tài)的存儲量要求,但在這樣一個大Q表中查詢狀態(tài)是相當(dāng)耗時的[7]。
深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)把狀態(tài)和行動作為神經(jīng)網(wǎng)絡(luò)的輸入,然后通過神經(jīng)網(wǎng)絡(luò)的分析操作來估計Q值,所以不需要表中記錄的Q值,而是直接使用神經(jīng)網(wǎng)絡(luò)生成Q值。然后根據(jù)Q 學(xué)習(xí)的原則,直接選擇值最大的動作作為下一步要做的動作。
頻譜感知是頻譜共享的第一步,SU 在時域、空域和頻域上不斷檢測PU 正在使用的頻段,以確定是否存在頻譜空洞。因此,準確地感知頻譜空洞是頻譜共享的前提。
對于無線信道來說,可以將認知用戶感知的能量矢量當(dāng)作特征矢量并饋入分類器來決定信道是否可用。進行在線分類之前,分類器需要經(jīng)過訓(xùn)練階段。文獻[8]提出了一種基于機器學(xué)習(xí)技術(shù)的協(xié)同頻譜感知算法(Collaborative Spectrum Sensing,CSS)用于模式分類。所提出的技術(shù)能夠以在線方式隱式學(xué)習(xí)周圍環(huán)境(如PU 和CR 的網(wǎng)絡(luò)拓撲和信道衰落)。與傳統(tǒng)的需要環(huán)境先驗知識進行優(yōu)化的CSS 技術(shù)相比,所提出的技術(shù)具有更強的適應(yīng)性。而且,所使用的技術(shù)具有更多的決策域,從而使感知結(jié)果更加精確。文中還提到了其他基于機器學(xué)習(xí)的感知分類技術(shù)如屬于無監(jiān)督學(xué)習(xí)的K 均值聚類(K-means Clustering)和高斯混合模型(Gaussian Mixed Model,GMM)、屬于監(jiān)督學(xué)習(xí)的支持向量機(SVM)和加權(quán)K-nearest-neighbor(KNN)。在文獻[4]中,作者具體比較了2 種基于經(jīng)典信號檢測理論的方法、3 種經(jīng)典機器學(xué)習(xí)算法和8 種深度學(xué)習(xí)算法分類器模型的實現(xiàn)細節(jié)。
不同于通常使用的N 維能量向量,文獻[9]提出一種低維概率向量作為基于機器學(xué)習(xí)的CSS 分類器的特征向量。文中研究了基于這種概率向量的K-means clustering 和SVM 算法,針對具有單一PU和N個SUs 的CRN,提出的概率向量可以將現(xiàn)有的能量向量從N維降至2 維,在達到相同的檢測精度的情況下,訓(xùn)練時間和分類更短。
為了解決傳統(tǒng)OFDM 系統(tǒng)感知方法中存在的噪聲不確定性、時延和載頻偏移等問題,文獻[10]中作者提出了基于深度學(xué)習(xí)網(wǎng)絡(luò)的感知結(jié)構(gòu)。相較于手動描述事件特征,文中利用多層非線性處理單元即深度架構(gòu)來提取信號中已知的和可能隱藏的特征,并證明與現(xiàn)有感知方法相比,所提方法對時延、噪聲不確定性和載頻偏移的魯棒性更強,特別是在低信噪比條件下,具有更高的感知精度。
頻譜分配是在頻譜空洞可用性的基礎(chǔ)上,將頻譜分配給SUs。頻譜空洞數(shù)并不是固定的,而不同的SU 對服務(wù)質(zhì)量(Quality of Service,QoS)的要求不同,因此是以競爭的方式來使用。頻譜分配的關(guān)鍵在于設(shè)計高效的分配算法和規(guī)則,在滿足效用需求(如帶寬、功率、吞吐量等)的情況下盡可能提高頻譜利用率。
文獻[11]考慮了在認知用戶數(shù)量多于主用戶信道的條件下,每個認知用戶可以看作獨立的智能體與隨機環(huán)境進行交互。所提出的強化學(xué)習(xí)算法可以將頻譜動態(tài)地分配給認知用戶,并進行功率控制。實驗證明該算法能在較少的迭代次數(shù)內(nèi)收斂。
為了解決現(xiàn)有頻譜資源分配算法在高計算復(fù)雜度情況下難以實現(xiàn)的問題,文獻[12]針對衛(wèi)星物聯(lián)網(wǎng)提出了一種基于深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的集中動態(tài)信道分配方法,稱為CA-DRL。該方法利用深度神經(jīng)網(wǎng)絡(luò)強大的表示能力,通過不斷學(xué)習(xí)分配策略,做出智能分配決策,從而最小化所有傳感器的平均傳輸延遲。
文獻[13]基于學(xué)習(xí)算法提出了能量和跨層感知資源分配技術(shù),使認知用戶有效地定位和利用頻譜空洞。所提技術(shù)包含兩階段啟發(fā)式算法,第一階段提出了兩個信道分配的學(xué)習(xí)程序,并在最優(yōu)性、可擴展性和魯棒性方面進行了比較;第二階段采用優(yōu)化求解解決了功率分配問題。
文獻[14]提出用非確定性Q-Learning 算法解決認知用戶的信道分配問題,即向認知用戶提供主用戶信道使用模式的先驗知識,并使用時效技術(shù)避免了低優(yōu)先級用戶的資源短缺。
在文獻[15]中,作者提出了基于異構(gòu)強化學(xué)習(xí)算法的多目標策略模型對蜂窩網(wǎng)絡(luò)進行自配置和優(yōu)化,旨在解決蜂窩網(wǎng)絡(luò)下行鏈路的資源分配和干擾協(xié)調(diào)問題。具體目標有兩個:一是為機會頻譜接入確定可用的頻段資源;二是在細致的限制條件下配置終端,以避免干擾并滿足服務(wù)質(zhì)量要求。
PUs 對于授權(quán)頻譜具有優(yōu)先接入權(quán),SUs 的接入需要高效的算法在PUs和SUs、SUs之間進行協(xié)調(diào),避免發(fā)生碰撞。
多臂老虎機(Multi-Armed Bandits,MAB)模型常用于解決“利用”(Exploitation)和“探索”(Exploration)問題,即“直接執(zhí)行當(dāng)前收益最大的動作”和“探索是否有更大收益的動作”之間的矛盾。具體到頻譜接入的場景下,將選擇某個信道接入等效于拉動老虎機的拉桿,每個拉桿對應(yīng)的獎勵值等效于接入信道的優(yōu)劣程度(如帶寬、駐留時長、信道質(zhì)量等)。而“利用”和“探索”的均衡就在于以怎樣的順序和多大的概率接入回報已知的信道和探索接入回報未知的信道。然而MAB 模型對信道統(tǒng)計特性的非平穩(wěn)性很敏感,因此文獻[16]研究了離線靈敏度來優(yōu)化MAB 分配策略的參數(shù)調(diào)優(yōu),并提出了半動態(tài)參數(shù)調(diào)整方案實現(xiàn)參數(shù)的在線更新。這種自適應(yīng)的MAB 方案提高了認知用戶在動態(tài)環(huán)境中的性能。在文獻[17]中,作者將D2D用戶作為認知用戶,在缺少信道質(zhì)量和可用性的先驗知識的情況下,建立起多用戶多臂老虎機模型,提出了包含校準預(yù)測(Calibrated Forecasting)和無悔老虎機學(xué)習(xí)(No-regret Bandit Learning)兩個模塊的算法。其中校準預(yù)測用來預(yù)測用戶的聯(lián)合行動集,無悔學(xué)習(xí)用來對可用選擇的獎勵產(chǎn)生過程進行可靠預(yù)測。
在文獻[18]中,作者將多信道接入問題表述為未知系統(tǒng)動力學(xué)的部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP),并應(yīng)用深度Q 網(wǎng)絡(luò)(DQN)來解決。文中首先研究了在已知系統(tǒng)動力學(xué)條件下的最優(yōu)策略,并通過仿真表明DQN 在缺少先驗知識的情況下也能獲得同樣的最優(yōu)性能。之后通過更一般的模擬和真實數(shù)據(jù)跟蹤,將DQN 與短視策略和基于惠特爾指數(shù)的啟發(fā)式算法進行性能比較,發(fā)現(xiàn)DQN在更復(fù)雜的情況下可以達到近乎最優(yōu)的性能。
在文獻[19]中,作者對基礎(chǔ)的DQN 算法進行了修改,加入了LSTM 層、Double Q-Learning、dueling DQN 等元素,使算法性能得到進一步提升。同時,文中根據(jù)不同的網(wǎng)絡(luò)效用優(yōu)化目標(競爭式和合作式),允許每個用戶自適應(yīng)地調(diào)整其傳輸參數(shù)以達到最優(yōu)目的。
頻譜切換主要發(fā)生在以下兩種情況:一是SU占用頻段的PU 重新出現(xiàn)時;二是當(dāng)SU 的地理位置出現(xiàn)大的變化或當(dāng)前頻段不能滿足通信質(zhì)量需求時。當(dāng)存在多個涉及切換的SU,或者存在多個可接入信道時,必須設(shè)計高效的算法來協(xié)調(diào)SUs 的接入行為。
文獻[20]指出傳統(tǒng)的頻譜切換機制在切換過程中會產(chǎn)生明顯的時延,從而導(dǎo)致服務(wù)的不連續(xù)性。在密集無線局域網(wǎng)(Dense WLAN)中,作者根據(jù)切換決策的時間相關(guān)性將決策過程建模為MDP,并提出了基于DQN 的切換管理方案。該方案使網(wǎng)絡(luò)可以從零開始獲取用戶行為和網(wǎng)絡(luò)狀態(tài),利用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)提取細粒度的判別特征,在時變的密集無線局域網(wǎng)中適應(yīng)其學(xué)習(xí),依賴于實時網(wǎng)絡(luò)統(tǒng)計數(shù)據(jù)做出切換決策。仿真結(jié)果表明,DCRQN 能有效地提高切換過程中的數(shù)據(jù)速率,優(yōu)于傳統(tǒng)的切換方案。
文獻[21]提出了一種使用強化學(xué)習(xí)方法的基于測量丟包率的頻譜切換方案。作者在具有多個PU和SU 的系統(tǒng)模型中,設(shè)計了一種新的狀態(tài)空間描述方法作為強化學(xué)習(xí)算法的輸入,并使用測量的PDR 代替計算的丟包率來更新平均意見得分(Mean Opinion Score,MOS)。與現(xiàn)有的基于QOE 的計算丟包率方案相比,所提方案在動態(tài)環(huán)境中能夠更快地收斂,更加顯著地降低系統(tǒng)丟包率。
信道估計問題是認知無線電系統(tǒng)中的一個經(jīng)典問題。信道估計通常包括對PU 到達概率、占用時間以及信號強度等參數(shù)的估計。傳統(tǒng)的強化學(xué)習(xí)方法如馬爾科夫模型及各類變型、貝葉斯推斷等可以方便地用于頻譜特征參數(shù)的學(xué)習(xí)和估計。在文獻[22]中,作者根據(jù)PU 是否存在構(gòu)建了一個雙態(tài)隱馬爾科夫模型(Hidden Markov Model,HMM),并利用標準期望最大化算法(Expectation Maximization Algorithm,EM)對可用信道的留存時間、PU 的活動狀態(tài)等進行估計。
在文獻[23]中,針對MIMO 系統(tǒng)中導(dǎo)頻污染問題,作者提出了在估計目標小區(qū)中期望鏈路的信道參數(shù)同時估計來自相鄰小區(qū)的干擾鏈路的信道參數(shù)的方法,通過將接收信號轉(zhuǎn)換到波束域,證明了利用稀疏貝葉斯學(xué)習(xí)技術(shù)可以解決信道估計問題。所提出的信道估計方法不需要信道協(xié)方差矩陣的可用性、背景噪聲水平,也不需要單元間的協(xié)調(diào),并且在導(dǎo)頻污染存在的情況下,信道估計的性能較傳統(tǒng)方法有實質(zhì)的提升。
頻譜預(yù)測可以作為頻譜感知和頻譜接入的前期工作。頻譜感知過程需要消耗相當(dāng)大的能量,可以通過使用頻譜預(yù)測方法發(fā)現(xiàn)頻譜空洞來減少感知次數(shù)。使用可靠的預(yù)測方案,認知用戶將只需要感應(yīng)那些被預(yù)測為空閑的頻道。通過降低預(yù)測的錯誤率,頻譜利用率也可以提高。
文獻[24]將頻譜預(yù)測問題抽象為二元序列預(yù)測問題,使用多層感知機(Multilayer Perceptron,MLP)設(shè)計了信道狀態(tài)預(yù)測器在輸入和輸出數(shù)據(jù)之間建立映射函數(shù),輸入數(shù)據(jù)為截至?xí)r刻T,長度為τ的二元序列,輸出數(shù)據(jù)為T+1 時刻的信道狀態(tài),忙碌狀態(tài)和空閑狀態(tài)分別用二進制符號1 和-1 表示。在多信道系統(tǒng)中,每個信道都會分配一個預(yù)測器。
文獻[25]應(yīng)用了LSTM 較強的求解時間序列的能力,在兩個真實的數(shù)據(jù)集上提出了基于深度學(xué)習(xí)的頻譜預(yù)測方案。其中:第一個數(shù)據(jù)集用于預(yù)測信道占用狀態(tài),作者首先使用田口法確定了神經(jīng)網(wǎng)絡(luò)的最優(yōu)結(jié)構(gòu),并分析了網(wǎng)絡(luò)中各個超參數(shù)的效果。然后從回歸和分類兩個視角建立了的LSTM 神經(jīng)網(wǎng)絡(luò)進行頻譜預(yù)測;第二個數(shù)據(jù)集用于信道質(zhì)量預(yù)測,作者比較了LSTM 神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)多層感知器神經(jīng)網(wǎng)絡(luò)的預(yù)測性能。從統(tǒng)計學(xué)的角度來看,LSTM 神經(jīng)網(wǎng)絡(luò)比MLP 神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測性能,也更穩(wěn)定。
本文對機器學(xué)習(xí)技術(shù)中的強化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的原理進行簡單介紹,展現(xiàn)了其在認知無線網(wǎng)絡(luò)特別是頻譜共享領(lǐng)域的應(yīng)用??梢园l(fā)現(xiàn),機器學(xué)習(xí)技術(shù)應(yīng)用廣泛、可擴展性強,且對網(wǎng)絡(luò)性能提升作用明顯,特別是在動態(tài)適應(yīng)性方面有著巨大潛力。隨著機器學(xué)習(xí)技術(shù)的不斷發(fā)展,認知無線網(wǎng)絡(luò)中也會出現(xiàn)越來越多機器學(xué)習(xí)的身影,其在改變頻譜稀缺現(xiàn)狀、進一步提升網(wǎng)絡(luò)性能方面的作用值得期待。