梁 燕,胡垚林,惠 瑩
(1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.信號與信息處理重慶市重點實驗室,重慶 400065)
隨著無線通信技術(shù)快速發(fā)展,頻譜資源的有效利用問題顯得尤為重要[1-2]。傳統(tǒng)的靜態(tài)頻譜訪問機制不能充分利用授權(quán)頻帶,導(dǎo)致頻段浪費。在認知無線電網(wǎng)絡(luò)(Cognitive Radio Network,CRN)中,主要用戶(Primary User,PU)擁有使用授權(quán)頻譜的優(yōu)先權(quán),當PU不活動時,可以允許次要用戶(Secondary User,SU)機會接入頻譜[3]。因而,基于CRN機制提出有效的頻譜管理策略對于下一代無線通信網(wǎng)絡(luò)至關(guān)重要[4]。
對頻譜的有效利用,首先要解決SU對授權(quán)頻譜的感知問題。目前,使用深度學習(Deep Learning,DL)或深度強化學習(Deep Reinforcement Learning,DRL)完成頻譜感知吸引了廣大研究學者的注意。文獻[5]提出了一種基于長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的頻譜感知,從頻譜數(shù)據(jù)中學習隱式特征,利用PU活動統(tǒng)計信息提高CRN的性能,在低信噪比下檢測性能和分類精度都有提高。但是,文中只研究了單個PU和SU的情況,而且性能的提高是以更長的訓練時間和執(zhí)行時間增加為代價的。文獻[6]和[7]提出了單個PU多個SU情況下基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學習頻譜感知算法。文獻[8]將CNN和LSTM一起使用來提高分類精度。文獻[9]提出混合頻譜感知方案,將能量檢測、似然比檢驗和人工神經(jīng)網(wǎng)絡(luò)結(jié)合,通過在不同信號上的評估,驗證所提方案優(yōu)于經(jīng)典的能量檢測和改進的能量檢測,但是存在訓練時間長和計算復(fù)雜度高的缺點。文獻[10]將融合中心作為智能體,使用DRL改善合作頻譜感知的性能。文獻[11]使用DRL進行頻譜感知并對探索與利用進行平衡設(shè)置。
頻譜感知階段進行瞬時頻譜狀態(tài)的檢測,而動態(tài)頻譜接入(Dynamic Spectrum Access,DSA)對檢測到的空閑頻譜完成機會接入。隨著DRL技術(shù)的不斷發(fā)展,其在動態(tài)頻譜接入領(lǐng)域也得到了較廣泛的應(yīng)用。免模型的DRL方法可以處理動態(tài)變化的環(huán)境,有效適應(yīng)復(fù)雜的實際模型。文獻[12]研究基于DRL的動態(tài)多信道訪問問題。文獻[13]使用深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)進行動態(tài)信道訪問和功率控制。文獻[14]將DQN用于動態(tài)頻譜接入,以分布式方式學習適當?shù)念l譜訪問策略。文獻[15]采用優(yōu)先經(jīng)驗回放雙深度Q學習進行頻譜接入,從而提高了系統(tǒng)性能。文獻[16]將DQN與進化博弈論結(jié)合,提出了一種分布式多用戶動態(tài)頻譜訪問的新方法,可以減少次要用戶之間的碰撞率,增加系統(tǒng)容量。
綜上,現(xiàn)有基于DRL技術(shù)對頻譜管理策略的研究未能聯(lián)合考慮頻譜感知與頻譜接入兩個環(huán)節(jié),在頻譜感知中往往忽略了頻譜接入策略對感知結(jié)果的影響,在頻譜接入中沒有考慮頻譜感知存在的錯誤情況。因此,本文在文獻[17]的基礎(chǔ)上建立頻譜感知中存在錯誤和頻譜接入中存在用戶碰撞的場景,使用競爭雙深度Q網(wǎng)絡(luò)(Dueling Double Deep Q-Network,DDQN)進行感知和接入問題的完整性研究。競爭DDQN由雙深度Q網(wǎng)絡(luò)(Double Deep Q-Network,DDQN)和競爭深度Q網(wǎng)絡(luò)(Dueling Deep Q-Network,DQN)優(yōu)化設(shè)計而得,分別利用了兩種網(wǎng)絡(luò)解決過估計問題和學習環(huán)境狀態(tài)真實值的優(yōu)勢。
假設(shè)系統(tǒng)中有M={1,2,…,i,…,m}個PU、N={1,2,…,j,…,n}個SU和C={1,2,…,k,…,c}個信道。假定PU以一定的規(guī)則占用一些頻譜,SU應(yīng)該確保在不干擾PU的前提下訪問頻譜。為簡潔起見,不考慮用戶的功率控制策略。一般來說,當一個PU占據(jù)頻譜時,所有SU都不能占用這些頻譜,由于硬件和功率限制,每個SU在每個時隙中只能感知一個頻譜。SU不知道PU占用頻譜的規(guī)律,因此需要根據(jù)之前的感知結(jié)果預(yù)測頻譜狀態(tài)。
(1)
頻譜感知完成后進行頻譜接入。為了成功傳輸數(shù)據(jù),所有SU旨在盡可能頻繁地選擇空閑頻譜。由于頻譜切換模式和其他SU的選擇未知,因此每個SU每次只能嘗試感知和訪問不同的頻譜,并根據(jù)自己的觀測盡可能確定頻譜模式。通過這種方式,SU可以了解所選頻譜處于空閑或繁忙狀態(tài),做出是否接入的動作。SU接入后得到回報,回報將反映接入動作的好壞。上述過程重復(fù)執(zhí)行,SU作為智能體,會根據(jù)歷史學習經(jīng)驗在需要選擇信道的下一時間段內(nèi)預(yù)測空閑頻譜,進行動態(tài)頻譜接入。具體模型描述如圖1所示。
在無線信道環(huán)境中,頻譜狀態(tài)變化描述為部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Processes,POMDP)。使用基于學習的方法可以解決POMDP問題。為了完成感知和接入操作,首先要定義深度強化學習的智能體、狀態(tài)、觀測、動作、回報和策略。
在CRN中,SU可以在PU未使用頻譜空穴時,動態(tài)地接入和使用頻譜資源,因此將SU作為智能體探索動態(tài)變化的信道環(huán)境。
假設(shè)每個頻譜有兩種可能的狀態(tài):空閑(用“1”表示)和繁忙(用“0”表示)?!翱臻e”表示PU未占用頻譜(此時PU不活躍),SU可以機會性地訪問該頻譜;“繁忙”表示頻譜被PU占用(此時PU活躍),SU無法訪問該頻譜。將每個頻譜的狀態(tài)表示為
(2)
所有狀態(tài)的集合表示為
S={s1(t),s2(t),…,si(t),…,sm(t)} 。
(3)
將每個頻譜狀態(tài)的變化描述為如圖2所示的兩狀態(tài)馬爾科夫鏈。圖中有兩種變化情況:保持當前狀態(tài)(從0到0或者從1到1)或轉(zhuǎn)移到其他狀態(tài)(從0到1或者從1到0)。
圖2 兩狀態(tài)馬爾科夫鏈
圖中p00,p01,p10和p11都是馬爾科夫轉(zhuǎn)移概率。將實際無線信道中頻譜狀態(tài)轉(zhuǎn)移過程描述為圖3所示。SU應(yīng)該確保在不干擾PU的情況下訪問空閑頻譜。一般情況下,當PU占用頻譜時,所有SU都不能使用這些頻譜。
圖3 頻譜狀態(tài)轉(zhuǎn)移過程
頻譜感知中,初始化頻譜是空閑或繁忙狀態(tài)的實際值作為觀測數(shù)據(jù)。
頻譜接入中,根據(jù)感知結(jié)果得到感知錯誤概率p,因此觀測數(shù)據(jù)是對頻譜狀態(tài)(1-p)的正確反映。因此,將觀測定義為
(4)
SU在t時刻進行觀測的結(jié)果表示為
O={o1(t),o2(t),…,oi(t),…,om(t)} 。
(5)
頻譜感知中,SU選擇一個信道的過程就是動作,有幾個信道就有幾種可選擇的動作,但是每次學習只能選擇一個動作。
頻譜接入中,SU根據(jù)頻譜感知結(jié)果決定保持當前狀態(tài)或接入頻譜,有以下幾種情況:
①SU所選頻譜是空閑狀態(tài),并且沒有其他SU選擇該頻譜,說明SU之間沒有碰撞,可以接入頻譜,這是DSA最想要達到的狀態(tài)。
②SU所選頻譜被PU占用,此時由于SU感知到的頻譜是繁忙狀態(tài),因此SU不接入頻譜。
③多個SU選擇同一空閑頻譜,會發(fā)生SU之間的碰撞,此時讓多個SU都不接入頻譜,以此避免發(fā)生碰撞情況。
用aj(t)=i表示在t時刻用戶j選擇接入信道i傳輸數(shù)據(jù)(對應(yīng)情況①),aj(t)=0表示不能接入信道傳輸數(shù)據(jù)(對應(yīng)情況②和③),從而將每個SU的動作表示為
A={a1(t),a2(t),…,aj(t),…,an(t)} 。
(6)
頻譜感知中,根據(jù)選擇動作獲得的狀態(tài)進行觀測和回報的劃分。這里的觀測是學習到的觀測值,也就是一次頻譜感知的結(jié)果。根據(jù)感知結(jié)果進行回報的分類,主要有以下幾種情況:
1)如果SU執(zhí)行動作選擇了某一信道,得到該信道上的頻譜狀態(tài)是繁忙,那么SU接收信號的計算使用頻譜感知模型中的H1。
首先根據(jù)PU和SU的位置以及無線信道模型計算PU和SU的距離,在此基礎(chǔ)上使用公式(1)第一行求出信號強度(PU信號加噪聲信號)。計算檢測概率并將這個概率作為閾值,與隨機產(chǎn)生的概率值進行對比:
①如果隨機產(chǎn)生的概率小于檢測概率,觀測值就是0,回報值設(shè)置為1;
②如果隨機產(chǎn)生的概率大于檢測概率,觀測值就是1,回報值設(shè)置為-1.5。
回報為-1.5的設(shè)置:將繁忙信道檢測為空閑就表示PU未使用信道,此時如果SU接入信道,將會影響PU對信道的使用,這種情況是頻譜感知中最不應(yīng)該出現(xiàn)的,所以設(shè)置最低的回報。
2)如果SU執(zhí)行動作選擇了某一信道,得到該信道上頻譜狀態(tài)是空閑,那么SU接收信號的計算使用頻譜感知模型中的H0。
因為PU是空閑狀態(tài),所以使用公式(1)第二行計算信號強度(只有噪聲信號)。計算誤警概率,將這個概率作為閾值,與一個隨機產(chǎn)生的概率進行對比:
①如果隨機產(chǎn)生的概率小于誤警概率,觀測值就是0,回報值設(shè)置為-1;
②如果隨機產(chǎn)生的概率大于誤警概率,觀測值就是1,回報值設(shè)置為1。
回報為-1的設(shè)置:可用頻譜被檢測為不可用,這種結(jié)果對于之后的頻譜接入來說會影響空閑信道利用率,因此設(shè)置為一個較低的負值。
綜上,將感知信道得到的回報表示為
(7)
頻譜接入中,執(zhí)行動作后根據(jù)動作情況獲得回報:如果SU選擇的頻譜是空閑狀態(tài),則傳輸成功,分配正回報;如果SU選擇的頻譜被占用或者SU之間發(fā)生碰撞,則傳輸失敗,回報為零。因此,將接入頻譜得到的回報表示為
(8)
得到回報的反饋后,每個頻譜狀態(tài)將根據(jù)馬爾科夫鏈改變。在下一時隙SU將感知新的頻譜狀態(tài)進行動態(tài)頻譜接入。
頻譜感知中,只要感知結(jié)果正確,得到的回報就是1。頻譜感知的目標是盡可能得出正確的檢測結(jié)果,在有限時間內(nèi)對所有感知結(jié)果進行累加,累加和越大,說明感知越準確。為方便計算,對累加結(jié)果求平均,得到頻譜感知正確率。
這一評判指標的計算與平均累積回報的計算方式相同。定義Mi(t)為在時間T內(nèi)感知的總次數(shù),因此,在時間T內(nèi)每一次正確感知對總感知的貢獻為1/Mi(t),所以感知正確率的計算與回報函數(shù)的計算公式相同,定義為
(9)
有限時間T內(nèi)平均累積回報定義為
(10)
頻譜接入的目標是提高頻譜利用率,而利用率與選擇空閑信道的頻率相關(guān),因此將DSA的目標轉(zhuǎn)變?yōu)樽畲蟪潭鹊卦黾舆x擇空閑信道的頻率。同樣使用上述推導(dǎo)過程,將DSA的目標轉(zhuǎn)換為最大化公式(10)中的回報。
綜上所述,頻譜感知和頻譜接入的目標都是最大化式(10)中的回報。找到最優(yōu)策略π*:S→A就能最大化回報,常用的方法是使用深度強化學習通過計算最佳Q值找出π*。因此,接下來將進行深度強化學習方法的比較,選擇一個最佳方法。
通過結(jié)合深度學習和強化學習得到的深度強化學習為解決策略相關(guān)問題提供了有效思路。DQN利用經(jīng)驗回放機制將歷史狀態(tài)、動作、回報以及下一狀態(tài)的數(shù)據(jù)存儲在經(jīng)驗回放池中,訓練時隨機抽取部分數(shù)據(jù),消除數(shù)據(jù)相關(guān)性和依賴性的同時減小了值函數(shù)估計中的偏差。另外,DQN構(gòu)建了兩個結(jié)構(gòu)相同的網(wǎng)絡(luò)(當前網(wǎng)絡(luò)和目標網(wǎng)絡(luò))來計算當前Q值和目標Q值,但是使用max函數(shù)可能會導(dǎo)致訓練目標選擇過高的估計值,造成過估計(最終得到的算法模型與實際效果有很大偏差)。
DDQN可以解決過估計問題。與DQN直接在目標Q網(wǎng)絡(luò)中找各個動作的最大值相反,DDQN使用兩個參數(shù)不同的網(wǎng)絡(luò)模型,先在當前網(wǎng)絡(luò)中找出最大Q值對應(yīng)的動作,然后利用這個選擇的動作在目標網(wǎng)絡(luò)中計算目標Q值,完成對動作選擇和值估計的分開計算,使過估計問題得以解決。
為了進一步提高算法穩(wěn)定性,競爭DQN對神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)進行改進,將動作-狀態(tài)值分為兩部分計算,最后合在一起得到每個動作的Q值,這個值是智能體學到環(huán)境狀態(tài)中的真實值。
綜上所述,DQN傾向于選擇過高的值,使性能有偏差,DDQN可以解決過估計問題,競爭DQN使算法更穩(wěn)定。因此設(shè)計將競爭DQN和DDQN結(jié)合的競爭DDQN,通過優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)保證算法的穩(wěn)定性,使智能體學到更加真實的值。
競爭DDQN的結(jié)構(gòu)如圖4所示。將競爭DDQN使用的兩個神經(jīng)網(wǎng)絡(luò)分別定義為DQN1和DQN2。在每個神經(jīng)網(wǎng)絡(luò)中加入兩個子網(wǎng)絡(luò),分別為價值函數(shù)網(wǎng)絡(luò)(用于計算環(huán)境本身的價值)和優(yōu)勢函數(shù)網(wǎng)絡(luò)(用于計算選擇某個動作帶來的優(yōu)勢值)。對價值函數(shù)和優(yōu)勢函數(shù)的值進行線性組合得到DQN1的輸出。DQN1用于選擇最大Q值對應(yīng)的動作,將得到的動作作為輸入數(shù)據(jù)送入DQN2,DQN2使用和DQN1同樣的網(wǎng)絡(luò)結(jié)構(gòu)計算輸出目標Q值。
圖4 競爭DDQN結(jié)構(gòu)
基于競爭DDQN的頻譜感知和接入過程如圖5所示,左邊是遵循馬爾科夫轉(zhuǎn)移過程的信道環(huán)境,右邊是競爭DDQN。在學習過程中,SU作為智能體在狀態(tài)s下選擇執(zhí)行動作a,獲得回報r并更新狀態(tài)為s′,將這些數(shù)據(jù)以(s,a,r,s′)的形式存儲到經(jīng)驗回放池中。
圖5 基于競爭DDQN的頻譜感知和接入
當回放池中有足夠的經(jīng)驗樣本時,隨機提取批量樣本,根據(jù)狀態(tài)-動作對計算當前網(wǎng)絡(luò)中的Q(s,a;θ)值并更新?lián)p失函數(shù)中的網(wǎng)絡(luò)模型參數(shù)θ-,SU根據(jù)更新后的目標網(wǎng)絡(luò)Q(s′,a′;θ-)值基于狀態(tài)s′為下一時間步選擇動作a′。在頻譜感知階段,SU選擇一個頻譜進行檢測;在頻譜接入階段,SU分析頻譜狀態(tài)。如果頻譜空閑,SU可以進行接入并傳輸數(shù)據(jù);如果頻譜繁忙,表明此時PU正在傳輸數(shù)據(jù),SU必須重新感知頻譜進行接入。重復(fù)執(zhí)行上述過程,完成不同時隙上的頻譜感知和接入操作。
競爭DDQN的頻譜感知和接入過程如下:
輸入:頻譜狀態(tài)數(shù)據(jù)S={s1(t),s2(t),…,si(t),…,sm(t)}
輸出:回報數(shù)據(jù)R={r1(t),r2(t),…,ri(t),…,rm(t)}
1初始化參數(shù):經(jīng)驗回放池大小D,存儲經(jīng)驗樣本的最大值M
2初始化網(wǎng)絡(luò):當前Q網(wǎng)絡(luò)和目標Q網(wǎng)絡(luò)
3 for(inti=1;i<=1000;i++),do://使迭代次數(shù)從1到1 000
4 for(intj=1;j<=n;j++),do://對于每個次要用戶做循環(huán)
5執(zhí)行感知頻譜,得到感知結(jié)果
6執(zhí)行頻譜接入
7獲得oj,aj,rj,oj+1
8存儲(oj,aj,rj,oj+1)到經(jīng)驗回放池,當樣本足夠時開始訓練
9隨機提取批量樣本(oj,aj,rj,oj+1)進行訓練
11梯度下降算法更新?lián)p失函數(shù)中的網(wǎng)絡(luò)模型參數(shù)yj′←(yj-Q(oj,aj,θ))2
12每隔一定時間步重置Q′←Q
13根據(jù)Q值計算回報值大小
14 end
15 end
系統(tǒng)模型的詳細參數(shù)如表1所示。在無線網(wǎng)絡(luò)環(huán)境中,假設(shè)有9個SU和8個PU,信道個數(shù)設(shè)置為8確保每個PU至少有一個信道可以使用。信道狀態(tài)有兩種,分別是0和1。
表1 系統(tǒng)模型詳細參數(shù)
由于多數(shù)許可頻帶的利用率低,即信道處于空閑狀態(tài)的概率大,因此p11的值應(yīng)該高,而p00的值應(yīng)該低。所以分別從[0.7,1]和[0,0.3]上的均勻分布中隨機選擇每個信道的狀態(tài)轉(zhuǎn)移概率p11和p00,然后計算出相應(yīng)的p10=1-p11和p01=1-p00。
在深度強化學習中使用經(jīng)驗回放可以存儲先前的觀測數(shù)據(jù),并打破數(shù)據(jù)樣本間的相關(guān)性,使訓練穩(wěn)定收斂[19]。因此,將經(jīng)驗回放技術(shù)用于DQN、DDQN和競爭DDQN并在TensorFlow中實現(xiàn)。競爭DDQN的最終參數(shù)確定為一個全連接的神經(jīng)網(wǎng)絡(luò),其中兩個隱藏層包含200個神經(jīng)元。每個神經(jīng)元的激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit,ReLU),計算公式為
f(x)=max(x,0) 。
(11)
應(yīng)用貪婪策略將隨機動作探索概率設(shè)置為0.95。當更新神經(jīng)網(wǎng)絡(luò)的權(quán)重時,從經(jīng)驗回放池中隨機抽取10個訓練樣本計算損失函數(shù),使用自適應(yīng)矩估計(Adaptive Moment Estimation,Adam)算法更新權(quán)重。網(wǎng)絡(luò)參數(shù)的詳細信息如表2所示。
表2 網(wǎng)絡(luò)參數(shù)詳細信息
訓練使用的數(shù)據(jù)主要是頻譜狀態(tài)數(shù)據(jù),是根據(jù)文獻[17]中的方法生成的,該方法同樣在其他基于深度強化學習的文獻(比如文獻[18])中使用。
信道狀態(tài)數(shù)據(jù)產(chǎn)生過程如下:
1初始化 SU數(shù)量為N,信道數(shù)量為M,總時間為T
2初始化 信道狀態(tài)數(shù)據(jù)為0或1,信道狀態(tài)轉(zhuǎn)移概率為p00和p11
3循環(huán) 信道數(shù)量從1到M:
4 循環(huán) 時間從1到T:
5 對比下一時隙保持當前狀態(tài)的概率和服從均勻分布的隨機采樣得到的概率
如果前者大于后者,則保持當前狀態(tài);反之,狀態(tài)改變,更新狀態(tài)
6 結(jié)束循環(huán)
7結(jié)束循環(huán)
根據(jù)狀態(tài)轉(zhuǎn)移概率p11和p00,可以獲得頻譜狀態(tài)切換過程。頻譜在不同時隙部分狀態(tài)變化如圖6所示,黑色表示頻譜在相應(yīng)時間上是空閑的,白色表示頻譜被占用。
圖6 頻譜狀態(tài)變化情況
首先是深度強化學習方法的Q值對比(由于DDQN和競爭DDQN方法計算Q值的過程相同,因此這里只對比了DQN和競爭DDQN方法),然后是損失值對比(只有在使用強化學習方法時才會有損失值的計算,因此這里對比了DQN、DDQN和競爭DDQN方法),最后是平均累積回報值的對比(用于衡量感知正確率)。隨機接入是作為頻譜接入的基準方法加入的。
圖7給出了DQN和競爭DDQN的Q值數(shù)據(jù)。由于DDQN和競爭DDQN用到的Q值計算方式相同,所以這里只對比競爭DDQN和DQN的Q值。
由圖7可知,隨著迭代次數(shù)的增加,Q值逐漸穩(wěn)定。競爭DDQN的Q值始終比DQN的Q值小,這是因為DQN中使用max函數(shù)可以快速讓Q值向最優(yōu)目標靠近,但是每次都選擇最大的Q值容易導(dǎo)致過估計。而競爭DDQN使用兩個不同的網(wǎng)絡(luò)模型參數(shù)進行動作選擇和Q值計算,解決了該問題。這里注意,Q值是評估動作的價值,即在某個狀態(tài)下執(zhí)行某個動作時得到的獎勵。根據(jù)貪婪算法選擇動作時會以大概率選擇獎勵最高的動作,因此圖中大部分Q值是較大的,而Q值突然變小是因為小概率隨機選擇動作得到的獎勵值較小。
圖8給出了幾種方案損失值對比。DQN、DDQN和競爭DDQN在迭代到第200次時損失均達到穩(wěn)定,其中DQN的損失值最大,DDQN次之,競爭DDQN損失值最小,說明競爭DDQN相比于DDQN和DQN預(yù)測模型更好。
圖8 不同方法的損失值對比
采用感知正確率作為頻譜感知問題的衡量指標。根據(jù)上文分析,感知正確率的計算與平均累積回報值的計算結(jié)果相等。因此,以迭代次數(shù)作為橫軸,平均累積回報值作為縱軸得到每種方法的平均累積回報值大小。由圖9可以看出,隨著迭代次數(shù)的增加,平均累積回報值逐漸增加并維持穩(wěn)定,其中DQN方法得到的回報結(jié)果波動幅度較大,DDQN次之,競爭DDQN結(jié)果最穩(wěn)定。DQN、DDQN和競爭DDQN的平均累積回報分別為0.94,0.96和0.98。也就是說,DQN、DDQN和競爭DDQN方法用于頻譜感知時,正確率分別為94%,96%和98%。因此,本文提出的競爭DDQN在進行頻譜感知時得到的平均累積回報值最大且最穩(wěn)定,即感知效果最好。
圖9 平均累積回報值對比
根據(jù)圖9的仿真結(jié)果得到DQN、DDQN和競爭DDQN的感知錯誤率分別為6%,4%和2%,將這三個數(shù)據(jù)作為動態(tài)頻譜接入時對頻譜進行觀測的錯誤率。圖10以隨機接入策略為參考基線,對比解決DSA問題時不同接入策略的回報值。其中隨機接入策略指沒有學習過程,SU在每個時隙開始隨機選擇頻譜,所有頻譜的訪問概率均相同,由于沒有關(guān)于信道狀態(tài)的預(yù)測,因此獲得的回報最低。圖10所示的平均累積回報分別為0.81(隨機接入),0.88(DQN),0.89(DDQN)和0.92(競爭DDQN)。從圖中看出,相比于DQN和DDQN,競爭性DDQN的回報值最高且最穩(wěn)定,因此對信道的利用率更好。
圖10 平均累積回報值對比
此外,還將本文使用的競爭DDQN方法與多臂老虎機(Multi-armed Bandits,MAB)和競爭雙拍賣方法進行對比,對比結(jié)果如表3所示。從表中可以可出,對于MAB和競爭DDQN,兩者時間復(fù)雜度相同,但是競爭DDQN的累積回報更高,所以本文方法更優(yōu)。而競爭雙拍賣方法時間復(fù)雜度雖然低,但是它需要信道環(huán)境的先驗知識,而且信道利用率也沒有競爭DDQN高,所以綜合對比得到競爭DDQN是MAB和競爭雙拍賣中最優(yōu)的方法。
表3 三種方案對比
對于認知無線電網(wǎng)絡(luò)中的頻譜感知和頻譜接入問題,本文首先建立了多用戶多信道的存在感知錯誤和接入碰撞的信道模型,然后設(shè)計了一種既能使網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化又能解決過估計問題的競爭DDQN方法,使用該方法完成了頻譜感知和頻譜接入這兩個任務(wù)。最后通過仿真,驗證了相比于DQN和DDQN,使用競爭DDQN方法進行頻譜感知時的感知正確率和動態(tài)頻譜接入時的信道利用率都得到有效提高。
未來將考慮在SU可以感知的頻譜數(shù)量有限的情況下,在感知頻譜的數(shù)量和感知結(jié)果的可靠性之間進行權(quán)衡。另外,本文所提算法的實用效果還需要在實際的公共數(shù)據(jù)集上做進一步驗證。