• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合改進強化學(xué)習(xí)的認知無線電抗干擾決策算法

      2019-05-07 06:02:26馬永濤南亞飛張云蕾
      計算機與生活 2019年4期
      關(guān)鍵詞:能效信道狀態(tài)

      朱 芮,馬永濤,南亞飛,張云蕾

      天津大學(xué) 微電子學(xué)院,天津 300072

      1 引言

      隨著無線通信技術(shù)的發(fā)展,有限的無線電資源不能滿足日益激增的業(yè)務(wù)需求,同時也存在部分頻段利用率過低的情況。為了解決頻譜利用的不均衡,認知無線電(cognitive radio,CR)[1]技術(shù)應(yīng)運而生。CR系統(tǒng)被定義為智能無線通信[2]系統(tǒng),指系統(tǒng)能感知無線電頻譜環(huán)境,并且結(jié)合智能學(xué)習(xí)算法動態(tài)地調(diào)整傳輸參數(shù),以達到合理占用授權(quán)用戶頻段的目的。針對頻譜資源的有效利用問題,不僅在分配管理方面引起了研究熱潮,而且出于對認知用戶性能的保障,認知用戶本身處于易受到干擾的無線電環(huán)境的問題也引起了相關(guān)重視。尤其在軍事認知無線電中,面對可能的動態(tài)干擾,需要探索更加有效的抗干擾決策算法。

      在頻譜資源分配管理方面,對于典型的靜態(tài)干擾問題,采用與智能算法結(jié)合的決策方案??梢酝ㄟ^進化算法和粒子群算法等優(yōu)化算法[3]來尋找未被干擾的頻段信息,通過神經(jīng)網(wǎng)絡(luò)算法和支持向量機算法等監(jiān)督式學(xué)習(xí)算法[4]訓(xùn)練某種干擾場景下的數(shù)據(jù),得到干擾的特征進而規(guī)避干擾頻點。本文主要研究對環(huán)境認知的要求低,適應(yīng)動態(tài)變化的性能強的模式自由的強化學(xué)習(xí)[5](reinforcement learning,RL)算法。將RL算法融合到中心式認知系統(tǒng)的資源分配和管理中,能夠?qū)φJ知系統(tǒng)的內(nèi)部參數(shù)進行自適應(yīng)調(diào)整[6],從而達到頻譜資源充分利用的目的。文獻[7-8]在結(jié)合5G通信技術(shù)的基礎(chǔ)上,給出RL算法未來應(yīng)用于認知無線電感知和決策的構(gòu)想。面對認知系統(tǒng)中存在智能干擾問題,文獻[9]用馬爾可夫參數(shù)化模型求解干擾和能量收集的聯(lián)合決策問題,并給出能量收集情況下合理的認知用戶策略尋優(yōu)算法。對有固定干擾策略的認知環(huán)境,文獻[10]研究了以認知用戶的吞吐量為參考標準的RL算法模型,分析了系統(tǒng)的功率分配性能。文獻[11-12]中將RL融合到聯(lián)合感知和決策的寬帶自適應(yīng)無線電系統(tǒng)中,以算法的收斂時間為反饋指標,提出了信道選擇的優(yōu)化決策模型。

      考慮認知用戶和干擾器之間的動態(tài)交互,聯(lián)系到博弈論模型中的競爭關(guān)系。文獻[13]利用博弈模型來解決CR干擾情況下功率控制問題,提高了CR決策性能。在博弈論的前景理論角度,文獻[14]對認知用戶和干擾之間的交互進行了系統(tǒng)的分析,通過設(shè)計效用函數(shù)找到博弈的納什均衡點,進而給出提高吞吐量的策略選擇。文獻[15-16]中將多認知用戶與干擾器的相互作用構(gòu)建為零和博弈模型,借助RL算法對頻譜質(zhì)量和多信道選擇策略進行了分析。以上文章介紹了融合RL算法的CR頻譜分配問題和結(jié)合博弈論思想的CR系統(tǒng)容量分析,但其主要是解決系統(tǒng)功率分配或者用戶信道選擇單個問題。

      本文針對認知用戶面對的動態(tài)干擾問題,提出了一種聯(lián)合功率分配和信道選擇的決策算法,即存在智能干擾器的情況,在參考博弈思想的前提下構(gòu)建效用函數(shù),設(shè)計認知用戶能量效率[17]為RL算法的評價函數(shù),將改進的在策略RL算法應(yīng)用到不需要信道轉(zhuǎn)移概率信息的認知用戶與干擾環(huán)境的交互模型中。第2章描述了認知用戶與干擾器的CR交互的場景;第3章討論了改進的在策略SARSA(state-actionreward-state-action)算法,并把無線電場景與改進算法合理地聯(lián)系起來;第4章介紹了相關(guān)參數(shù) 設(shè)置、算法仿真以及系統(tǒng)性能分析;最后進行總結(jié)與展望。

      2 認知系統(tǒng)模型

      圖1是單個授權(quán)用戶系統(tǒng)中存在多個信道的場景。授權(quán)用戶將其授權(quán)頻段劃分為信道增益不等的多個信道,明確指出某時隙內(nèi),無論是認知用戶還是干擾器都只允許接入多個信道中的一個,圖中虛線代表可能選擇的信道,實線表示真正選擇的信道。假設(shè)信道感知部分已知,認知用戶能夠?qū)崟r地監(jiān)測信道情況,主動地對授權(quán)用戶的存在進行規(guī)避,當感知到授權(quán)用戶的存在時,立刻釋放當前占用信道。智能干擾器只對認知用戶進行干擾,因此當授權(quán)用戶存在時,認知用戶和干擾器都不占用信道。

      本文主要研究單個認知用戶與單個干擾器的情況。將兩者的交互過程構(gòu)建為強化學(xué)習(xí)模型,認知用戶以自主地選擇其發(fā)射功率和信道為目的,來保證其性能相對最優(yōu)。如圖1所示,當認知用戶2不存在時,即單個認知用戶1與單個干擾器的交互。然后拓展場景到多用戶的中心式CR系統(tǒng)與單個干擾器模型[11]中,由一個認知中心管理不同認知用戶的發(fā)射功率和信道的分配,并假設(shè)此時干擾器能夠同時干擾多個信道。

      認知用戶作為中心進行考慮時,將認知用戶感知到的無線電環(huán)境作為狀態(tài)信息,將認知用戶選擇的發(fā)射功率和所選信道標號作為動作信息。智能干擾器同樣可選擇自己的發(fā)射功率和占用信道來對認知用戶的傳輸造成干擾,但其作為認知用戶的狀態(tài)信息存在。在兩者交互過程中,假設(shè)認知用戶和干擾器同時做出策略選擇,兩者只能以彼此的上一歷史信息為學(xué)習(xí)參考進行動作選擇[13]。

      CR系統(tǒng)中通用的性能衡量參數(shù)主要有信干噪比(signal to interference plus noise ratio,SINR)、吞吐量、中斷概率以及能量損耗等。借鑒基于博弈的無線電資源分配管理思想[18],認知用戶以干擾器的動作選擇為依據(jù),綜合發(fā)射功率和信道選擇要求給出認知用戶的SINR定義形式:

      式中,p表示發(fā)射功率,h表示信道增益,ε表示高斯白噪聲功率,i表示信道標號,s和j下標分別代表其屬于認知用戶或干擾器。S表示認知環(huán)境信息,a表示認知用戶的參數(shù)選擇,β表示授權(quán)用戶的存在信息,I(·)是指示函數(shù),I(is,ij)代表認知用戶與干擾器選中同一信道。在發(fā)射功率的選擇上,發(fā)射功率越大,接收端將會得到更高的SINR,但會消耗更多的能量。同時考慮到認知用戶與干擾器的交互過程中,認知用戶為了規(guī)避可能的干擾選擇跳頻的情況,給出能量消耗的表達:

      e表示單位發(fā)射能量損耗,c表示跳頻能量損耗,代表認知用戶是否跳轉(zhuǎn)信道。

      傳統(tǒng)算法僅以滿足最低通信質(zhì)量或者可達到的傳輸速率的最優(yōu)化為單一目標,本文在可達速率的基礎(chǔ)上,加入能量消耗的考慮,從通信質(zhì)量和通信條件兩方面來設(shè)計效用函數(shù),更具有能效均衡[19]意義。以下定義系統(tǒng)能效的比率形式:

      式中,W表示信道帶寬。將計算能效的函數(shù)表示為RL中的瞬時獎勵函數(shù),通過兩者動態(tài)的交互,認知用戶能夠?qū)崟r地改變策略選擇,進而改善頻譜效用。

      3 融合強化學(xué)習(xí)的認知抗干擾算法

      強化學(xué)習(xí)算法作為一種模式自由的在線機器學(xué)習(xí)算法,不需要狀態(tài)轉(zhuǎn)移概率作為先驗信息,在智能體與環(huán)境的交互過程中旨在通過試錯來學(xué)習(xí),使得選擇的策略獲得最大的平均累計獎賞值。傳統(tǒng)RL算法中以狀態(tài)動作值函數(shù)Q(S,a)為標準衡量算法的性能,Q函數(shù)本質(zhì)是狀態(tài)與動作之間的映射關(guān)系,代表不同狀態(tài)下不同動作選擇的一個策略參考。Q值函數(shù)更新規(guī)則表示如下:

      式中,α是學(xué)習(xí)因子,表示算法學(xué)習(xí)速率,γ為折損因子。式(6)是狀態(tài)值函數(shù),表示對當前狀態(tài)的一種動作選擇:總是選擇最大Q函數(shù)值的作為V(S)。

      最初RL應(yīng)用于迷宮中路徑尋優(yōu)[20],不同的RL方法在不同的場景下具有各自的優(yōu)勢和劣勢。由于認知用戶在接近實際的CR環(huán)境中,不能夠獲得完整的環(huán)境信息,因而融合RL算法于認知系統(tǒng)中。在未知信道轉(zhuǎn)移概率的情況下,將認知用戶與動態(tài)干擾之間的交互構(gòu)建為RL算法模型,可憑借觀察到的狀態(tài)信息和對應(yīng)的獎勵反饋信息對自身參數(shù)進行動態(tài)的策略選擇,從一定程度上減少了認知決策對環(huán)境信息的要求。本文根據(jù)認知場景考慮了從屬于時序差分[21](temporal difference,TD)強化學(xué)習(xí)算法的SARSA算法和TD(λ)算法。

      結(jié)合RL算法的單個認知用戶與單個干擾器交互模型中,將認知用戶的動作表示為a=[p,i],其中p∈Ps,i∈Φ,a∈Α(Α:Ps×Φ);智能干擾器以同樣方式選擇自己的策略為d=[p,i],p∈Pj,i∈Φ,d∈Λ(Λ:Pj×Φ);將信道的情況與干擾器的策略選擇作為認知用戶的狀態(tài)信息S=[β,d],β∈B,d∈Λ,S∈Ω(Ω:B×Λ)。若空閑信道數(shù)量為M,將信道的增益集合表示為固定的常量形式H={Δ?m|0<m<M},對應(yīng)的瞬時獎勵值用認知用戶的能效式(4)表示。在多認知用戶多信道的功率分配系統(tǒng)模型中,假設(shè)干擾器同時能夠干擾多個信道,系統(tǒng)模型的參數(shù)設(shè)置與單認知用戶類似。假設(shè)干擾器同時能夠干擾J個信道,狀態(tài)空間近似為S'=(S1×S2×???×SJ)。認知用戶的策略選擇由認知中心作為與環(huán)境交互的智能體,動作空間據(jù)認知用戶個數(shù)W變化近似為Α'=(Α1×Α2×???×Αw)。在認知中心的分配下,將單個用戶的能效分別計算,系統(tǒng)的總能效記為多個用戶的能效之和。

      CR系統(tǒng)中的干擾具有不確定性和不穩(wěn)定性,不能把當前的信息當作全部特征信息做認知決策和判斷,需要一段時間的信息收集。但傳統(tǒng)SARSA算法僅利用當前因素,不考慮其他未來因素的影響,具有局部性,不能保證整個過程的全局最優(yōu)。TD(λ)學(xué)習(xí)算法[22]是對原始TD算法的改進,對不同的時間差分情況以參數(shù)λ給出一定的權(quán)重表達。綜合借鑒SARSA算法和TD(λ)算法的優(yōu)勢,把場景適應(yīng)性、當前的影響與未來步驟可能對當前的影響融合在一起,在犧牲少許復(fù)雜度的情況下,提出多步SARSA算法來有效提高收斂速度和性能。

      本文據(jù)TD(λ)學(xué)習(xí)算法以權(quán)重的形式采取不同的步驟反饋情況,參考Watkins觀點[23]的某時刻的校正K步截止獎勵形式和文獻[24]中K步的TD(λ)加權(quán)平均值的獎勵形式,給出結(jié)合SARSA算法的某時刻的K步獎勵定義:

      式中,rt表示當前的瞬時獎勵值,rt+i表示未來i步的瞬時獎勵值,λγ部分表示對應(yīng)于不同的步驟權(quán)重影響。為了簡便記錄給出如下式子:

      因此可重新改寫K步截止獎勵的形式如下:

      將式(10)代入式(5)中,給出改進的多步SARSA學(xué)習(xí)的Q函數(shù)更新規(guī)則:

      改進的SARSA算法將選擇的動作真正應(yīng)用到算法的迭代當中,在更新時選擇的下一狀態(tài)和動作都需要執(zhí)行,因此成為在線的學(xué)習(xí)算法。式(11)表示狀態(tài)動作對的Q值更新規(guī)則,對比于式(5),這個Q值的更新就綜合了未來K步的影響。

      此外,傳統(tǒng)的動作選擇算法思想是在策略的基礎(chǔ)上結(jié)合隨機思想,將局部最優(yōu)解接近整體最優(yōu)解。如下給出貪心策略的定義:

      其中,pr表示隨機生成的概率;ε表示探索與利用的均衡閾值參數(shù),參數(shù)越小算法越傾向利用經(jīng)驗對策略選擇,否則算法傾向于選擇一個隨機的動作。

      選擇固定參數(shù)會使得算法不能隨著迭代的進行有效地均衡探索與利用,本文對固定參數(shù)的貪心算法進行改進,以交互次數(shù)的自然對數(shù)的倒數(shù)為均衡參數(shù)ε,來增強算法的學(xué)習(xí)靈活性。在算法的初始階段交互次數(shù)小,對環(huán)境信息沒有足夠的了解,對當前的狀態(tài)需要更多地探索不同動作會帶來的結(jié)果,充實不同狀態(tài)下動作選擇的Q值,此時設(shè)定的均衡參數(shù)較大,符合以大概率來探索可能的解的需求。在算法的后續(xù)階段,當收集到部分環(huán)境信息后,對不同狀態(tài)下的動作選擇有了初步的掌握,此時設(shè)定的均衡參數(shù)逐漸變小趨于0.1,能保證以較大的概率充分利用已獲得的歷史經(jīng)驗的同時,以較小的概率對環(huán)境狀態(tài)的隨機動作選擇做出探索。

      算法初始時隨機假定一個干擾動作,在交互過程中,認知用戶以感知到的信道信息和干擾的前一動作信息為當前狀態(tài)信息,以改進貪心算法選擇動作,結(jié)合獎勵值rk,λ對Q值函數(shù)內(nèi)容更新。當授權(quán)用戶存在時β=0,認知用戶和干擾器都不進行動作選擇,記錄此次的獎勵值r=0。如下以認知用戶為主體,以前一次干擾策略和信道信息為狀態(tài),給出算法核心步驟:

      (1)初始化。初始數(shù)組Q、E、E'元素為0,對于初始環(huán)境狀態(tài)S=S0,默認以相等概率(|A|表示動作空間的大?。╇S機選取初始狀態(tài)的動作a=a0,并執(zhí)行該動作。

      (2)循環(huán)。設(shè)定算法執(zhí)行的最大循環(huán)次數(shù)N:

      ①執(zhí)行動作后,以認知用戶對信道的實時監(jiān)測性能觀察到下一環(huán)境狀態(tài)情況St+1,進而用改進貪心算法選擇其動作at+1。每次選擇動作時,隨機生成一個概率值,并比較概率值與交互次數(shù)的自然對數(shù)的倒數(shù)值的大小,利用式(12)選擇動作。

      ②用式(4)計算當前狀態(tài)-動作選擇的能效即獎勵r,進行實時的記錄;并由式(8)、式(9)計算et和et'存放于E、E'數(shù)組中。

      ③采用式(11)更新Q(S,a),隨著算法進行其值逐漸變化,表示對當前S-a選擇的評價更新。

      ④將下一狀態(tài)和動作對當前的狀態(tài)和動作更新S=St+1,a=at+1,并判斷當前的執(zhí)行次數(shù)是否到達N,未到達則開始新一輪迭代,否則算法結(jié)束。

      4 系統(tǒng)仿真與性能分析

      利用MATLAB仿真軟件,根據(jù)相關(guān)參考文獻數(shù)據(jù)設(shè)定認知決策系統(tǒng)模型中參數(shù)。將認知用戶和干擾的發(fā)射等級設(shè)置為3級Ps/j={1 dBm,3 dBm,6 dBm}。可用信道的個數(shù)設(shè)置為M=4,Φ={1,2,3,4},單位信道增益設(shè)置為Δ=0.2,信道帶寬記為單位帶寬B=1 MHz。設(shè)置單位的發(fā)射功率能耗e=0.02,設(shè)置認知用戶跳頻的能耗c=0.02。噪聲功率設(shè)置為-60 dBm,折損因子δ=0.7,參數(shù)λ=0.85,授權(quán)用戶的存在用β=0/1表示。

      4.1 收斂性

      為了體現(xiàn)改進的SARSA學(xué)習(xí)算法對比于傳統(tǒng)算法的收斂性能,在相同的隨機選擇狀態(tài)場景下,以每次迭代的Q函數(shù)平均偏差為收斂參考標準。設(shè)定折損因子δ=0.7,權(quán)重參數(shù)λ=0.8,學(xué)習(xí)速率α根據(jù)迭代次數(shù)倒數(shù)來設(shè)計,迭代次數(shù)根據(jù)算法的狀態(tài)和動作空間合理選擇N=10 000。針對K步驟的確定,K的增加會導(dǎo)致算法復(fù)雜度的增加,僅在較低的復(fù)雜度情況下,討論了K=2,5,10不同步數(shù)的算法對比情況。

      圖2曲線為算法執(zhí)行100次后取其統(tǒng)計平均得到近似結(jié)果,能夠看出多步的學(xué)習(xí)算法比傳統(tǒng)的算法在初始階段收斂速率快。若以平均偏差0.05為界,改進算法約比原始算法收斂效果提高一倍,但后期趨于穩(wěn)定。這是由于傳統(tǒng)算法在積累到一定的迭代次數(shù)后也能夠?qū)Νh(huán)境信息進行學(xué)習(xí),改進的算法在初始依靠未來步驟影響能夠較快地探索較優(yōu)策略選擇。對比于不同的步數(shù)選擇上,考慮到計算復(fù)雜度與迭代次數(shù)足夠情況下,算法的效果都能較好收斂,在以后的仿真中固定步驟K=5。

      Fig.2 Comparison of improved algorithm and original convergent圖2 改進算法與原始收斂比較

      4.2 抗干擾性能

      構(gòu)建認知用戶與干擾器之間的交互過程,考慮到多步的改進算法對初始部分的收斂情況有提高,設(shè)置前部分的迭代次數(shù)用多步改進算法,后部分的迭代用原始算法。算法最終的結(jié)果以整個過程中迭代的累計平均獎勵的歸一化形式表示:

      式中,N隨著迭代次數(shù)的增加而增加。累計平均獎勵以概率的形式表示算法選擇的動作的平均效果,其值越大代表算法選擇的策略對干擾存在場景越有效。另一有效的策略選擇評價準則定義為成功次數(shù):將評價能效的瞬時r函數(shù)值在每次的交互過程中記錄下來,在給定性能閾值的條件下,大于閾值的效用記為1,小于閾值的效用記為0。閾值的選取依據(jù)得到的實時仿真數(shù)據(jù),選擇中位數(shù)作為通用標準閾值。

      動態(tài)干擾定義為在認知用戶對認知環(huán)境做出動作選擇后,具有信道感知能力的智能干擾器能在下一狀態(tài)對當前可能的用戶占用的信道進行干擾,為了更加貼近實際,設(shè)置干擾器以一定的感知誤差概率pe=0.1進行干擾。隨機干擾場景下設(shè)置干擾器以隨機概率的形式生成干擾策略,不依賴于其他條件。本文對比了三種不同的策略選擇,包括智能策略、固定策略和隨機策略。智能策略表示按照改進的算法或傳統(tǒng)算法進行動作選擇,固定策略以選擇信道增益最大信道為標準選擇動作,隨機策略則是在動作選擇上服從均勻分布。

      隨機干擾場景下認知用戶無法得到干擾策略的任何信息。圖3僅表示某一次隨機干擾存在情況下的仿真結(jié)果,對比了不同策略的累計平均獎勵值的變化曲線。因為固定策略和隨機策略選擇動作的條件固定,不能夠動態(tài)地隨環(huán)境的變化而智能轉(zhuǎn)變,所以初始階段都會出現(xiàn)一段時間內(nèi)的性能不穩(wěn)定,且隨著迭代次數(shù)的增加性能不會有所提高。但智能策略通過強化學(xué)習(xí)對環(huán)境進行有效的策略嘗試和信息學(xué)習(xí),以Q值函數(shù)評價標準,依然能夠選擇較優(yōu)的信道和功率策略,使系統(tǒng)性能有明顯的提高。

      Fig.3 Performance comparison of algorithm and other strategies in one stochastic interference圖3 某一次隨機干擾下算法與不同策略性能對比

      Fig.4 Performance comparison of algorithm and other strategies in dynamic interference圖4 動態(tài)干擾下算法與不同策略性能對比

      由于初始的狀態(tài)和動作選擇不同,可能會導(dǎo)致不同的狀態(tài)動作選擇軌跡。為了體現(xiàn)性能的穩(wěn)定性,圖4是動態(tài)干擾場景下算法50次的統(tǒng)計平均曲線。結(jié)果顯示所提出算法可以使得累計平均能效收斂到0.755,傳統(tǒng)學(xué)習(xí)算法的累計平均能效收斂到0.626左右,固定策略的累計平均能效平穩(wěn)于0.511,隨機選擇策略累計平均能效穩(wěn)定在0.396。由于固定策略和隨機策略是不會隨環(huán)境改變的,因此決策效果收斂快且后期不會有所改進。智能算法在初期通過對環(huán)境大范圍地探索可能解,存在一個學(xué)習(xí)過程對應(yīng)于曲線上升部分,后期以改進貪心思想更多地利用累計信息決策,使得算法效果逐漸收斂。改進算法的平均能效性能比傳統(tǒng)算法提高約20%,比固定策略大概提高47.8%,比隨機策略提高90.6%左右,說明改進SARSA算法能夠?qū)討B(tài)的認知環(huán)境變化做出自適應(yīng)的策略調(diào)整,為簡單的認知抗干擾問題提供有效的決策方案。

      圖5為隨機干擾場景下不同策略的50次累計平均獎勵值的變化曲線。對比于動態(tài)干擾的效果,由于動態(tài)干擾策略相對隨機干擾存在一定的經(jīng)驗規(guī)律,因此本場景的整體算法決策效果會比動態(tài)干擾場景的略差。結(jié)果表明改進的學(xué)習(xí)算法較傳統(tǒng)算法依然具有9%的性能提高,頻譜的能效比給出的固定策略提高25.5%,較隨機策略選擇性能提高61.1%左右。

      Fig.5 Performance comparison of algorithm and other strategies in stochastic interference圖5 隨機干擾下算法與不同策略性能對比

      圖6表示隨著算法的進行認知用戶與干擾器交互過程中成功的交互次數(shù),與圖5的效果相對應(yīng)。在單次的實驗結(jié)果中,由于認知用戶在嘗試不同的狀態(tài)動作選擇時首先經(jīng)過一個探索的過程,算法初期階段的成功次數(shù)為0;經(jīng)過交互次數(shù)的增加,成功次數(shù)曲線圖是階梯式增加的。圖6是保證效果穩(wěn)定性的50次平均結(jié)果,階梯增加的效果不明顯,但成功次數(shù)整體上升的趨勢是不變的。

      Fig.6 Relatively successful action selection in stochastic interference圖6 隨機干擾下相對成功的動作選擇

      考慮本文參數(shù)設(shè)定,假定由一個認知中心管理兩個認知用戶,干擾器能同時干擾兩個信道,系統(tǒng)的總能效為兩個用戶的能效之和性。由于認知中心和干擾器的設(shè)定,導(dǎo)致強化學(xué)習(xí)算法的狀態(tài)空間和動作空間成平方倍增加。為了遍歷所有可能的狀態(tài)動作組合找到最優(yōu),在仿真的參數(shù)設(shè)置中需要合理地提高整個算法的迭代次數(shù)至50 000。仿真結(jié)果如圖7所示,改進算法的整體性能對比隨機策略約提高47.7%左右,說明所提出的算法在該環(huán)境中選擇的功率和信道策略同樣比隨機選擇策略有效。

      Fig.7 Algorithm comparison of random state multi-user situation圖7 隨機狀態(tài)下多用戶情況算法對比

      5 結(jié)束語

      本文首先基于傳統(tǒng)強化學(xué)習(xí)算法提出了改進的SARSA算法,并用仿真結(jié)果證明了其收斂性能的提高。然后在合理利用認知環(huán)境信息的情況下,分析了認知用戶在干擾存在場景中的學(xué)習(xí)決策,將改進的SARSA算法融合進認知決策當中,提出了一種抗干擾決策算法。通過仿真環(huán)境與認知用戶的交互過程,以認知用戶的能效為性能參數(shù),證明了不同策略下提出算法在該場景中的合理有效性,對未來復(fù)雜的CR場景認知進行了初步的探索。

      猜你喜歡
      能效信道狀態(tài)
      上海:穩(wěn)中有進 能效趨優(yōu)
      狀態(tài)聯(lián)想
      生命的另一種狀態(tài)
      關(guān)注能效
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      堅持是成功前的狀態(tài)
      山東青年(2016年3期)2016-02-28 14:25:52
      基于導(dǎo)頻的OFDM信道估計技術(shù)
      一種改進的基于DFT-MMSE的信道估計方法
      基于MED信道選擇和虛擬嵌入塊的YASS改進算法
      淺談實現(xiàn)高能效制造的未來發(fā)展趨勢
      自動化博覽(2014年6期)2014-02-28 22:32:07
      庄浪县| 榆社县| 广西| 永川市| 边坝县| 和静县| 张家口市| 新平| 寿光市| 天镇县| 喀喇| 上杭县| 和顺县| 措美县| 都昌县| 莲花县| 曲靖市| 佛学| 开远市| 四平市| 江门市| 平潭县| 玛曲县| 禄劝| 衢州市| 金湖县| 永康市| 东阳市| 子长县| 雅江县| 同仁县| 株洲县| 吉首市| 德州市| 乡宁县| 沁阳市| 福州市| 云和县| 河源市| 莱芜市| 瓮安县|