(海軍工程大學(xué) 電子工程學(xué)院,武漢 430033)
應(yīng)答式干擾下基于Q學(xué)習(xí)算法的跳頻系統(tǒng)信道調(diào)度方法*
徐長(zhǎng)月**,黃高明,侯小陽(yáng)
(海軍工程大學(xué) 電子工程學(xué)院,武漢 430033)
針對(duì)應(yīng)答式干擾對(duì)跳頻通信的影響,提出了基于Q學(xué)習(xí)算法的認(rèn)知無(wú)線電跳頻系統(tǒng)信道調(diào)度模型。該模型根據(jù)認(rèn)知系統(tǒng)對(duì)跳頻行為的實(shí)時(shí)回報(bào)評(píng)估值,運(yùn)用機(jī)器學(xué)習(xí)的方法尋找出最合理的規(guī)避干擾策略,最終達(dá)到適應(yīng)干擾的目的。運(yùn)用Simulink對(duì)該干擾方式下的算法應(yīng)用性能進(jìn)行了仿真驗(yàn)證,結(jié)果表明該算法能夠降低跳頻系統(tǒng)此干擾下的誤比特率到1%以下,基本接近未受干擾下的誤比特率。
認(rèn)知無(wú)線電;跳頻系統(tǒng);應(yīng)答式干擾;Q學(xué)習(xí);信道調(diào)度
隨著電磁環(huán)境的日趨復(fù)雜,傳統(tǒng)的通信電子防護(hù)能力已經(jīng)不能很好地適應(yīng)新環(huán)境,具體表現(xiàn)為電子防護(hù)感知能力弱、智能化和自適應(yīng)水平不高[1]。跳頻干擾能夠針對(duì)通信網(wǎng)絡(luò),給我方的信息系統(tǒng)帶來(lái)極大的威脅。
為了消除這種干擾的影響,傳統(tǒng)跳頻系統(tǒng)通常是從幾種常規(guī)的“抗干擾”技術(shù)著手,如文獻(xiàn)[2]利用擴(kuò)展頻譜的方法來(lái)降低干擾增益,文獻(xiàn)[3]采用增加跳速的方法來(lái)提升系統(tǒng)性能,文獻(xiàn)[4]則通過(guò)組網(wǎng)的方式提升通信網(wǎng)絡(luò)的可靠性等。然而,隨著干擾技術(shù)的日益發(fā)展,這些方式均有其實(shí)際應(yīng)用的局限性,防護(hù)效果愈加不理想。
人工智能和軟件無(wú)線電技術(shù)的發(fā)展催生了認(rèn)知無(wú)線電的出現(xiàn),與傳統(tǒng)無(wú)線電相比,其具有學(xué)習(xí)能力是其本質(zhì)特征,給解決跳頻干擾的問(wèn)題帶來(lái)新的解決思路。其可以快速感知電磁環(huán)境和無(wú)線信道狀況,對(duì)干擾信號(hào)特征進(jìn)行分析和學(xué)習(xí),根據(jù)累積的學(xué)習(xí)經(jīng)驗(yàn),推斷出干擾信號(hào)下一步的行為以及提前采取合適的避讓方式。通過(guò)“感知-學(xué)習(xí)-決策”的模式來(lái)規(guī)避干擾,使“先知先覺”的智能抗干擾方式取代傳統(tǒng)“后知后覺”的抗干擾方式[5-6]?,F(xiàn)階段機(jī)器學(xué)習(xí)策略在認(rèn)知通信中的主要應(yīng)用有基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法的通信頻率和相關(guān)參數(shù)預(yù)測(cè)、基于統(tǒng)計(jì)學(xué)習(xí)的信道模型訓(xùn)練以及基于強(qiáng)化學(xué)習(xí)的頻譜利用率提高,如文獻(xiàn)[7]。
Q學(xué)習(xí)(Q-learning),又稱增強(qiáng)學(xué)習(xí),是一種強(qiáng)化學(xué)習(xí),是一類求解序貫優(yōu)化決策問(wèn)題的機(jī)器學(xué)習(xí)方法,強(qiáng)調(diào)在與環(huán)境的交互中學(xué)習(xí)。Q學(xué)習(xí)系統(tǒng)通過(guò)利用行為作用于環(huán)境的評(píng)價(jià)性來(lái)修正行為選擇策略,以極大化期望的回報(bào)值為學(xué)習(xí)目標(biāo)。在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,Q學(xué)習(xí)在理論和算法上已取得了大量的研究成果[8]。本文將Q學(xué)習(xí)算法應(yīng)用到基于認(rèn)知無(wú)線電跳頻系統(tǒng)的信道調(diào)度中,通過(guò)仿真證實(shí)了該算法在針對(duì)應(yīng)答式干擾有著良好的預(yù)測(cè)效果,經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)可以適應(yīng)干擾,降低跳頻系統(tǒng)的誤比特率。
應(yīng)答式干擾又稱振蕩式回答干擾、跟蹤式干擾,是對(duì)付跳頻通信最有效的干擾方式。它可以通過(guò)接收對(duì)方的通信信號(hào),長(zhǎng)時(shí)間儲(chǔ)存測(cè)得的頻率參數(shù),實(shí)現(xiàn)多種干擾樣式的調(diào)制,干擾對(duì)方的通信網(wǎng)絡(luò),在電子對(duì)抗中有著廣泛的應(yīng)用。
應(yīng)答式干擾有許多樣式,典型的干擾方式有引導(dǎo)應(yīng)答式干擾、轉(zhuǎn)發(fā)應(yīng)答式干擾。本文中一種應(yīng)答式干擾機(jī)原理是通過(guò)感知發(fā)射機(jī)活動(dòng)的頻段,隨機(jī)發(fā)射大功率寬帶噪聲對(duì)該頻段進(jìn)行壓制干擾,在對(duì)方通信信道空閑的時(shí)候保持干擾機(jī)空閑狀態(tài),這樣既可以節(jié)省干擾機(jī)的能量又可以避免干擾機(jī)被偵察到。
干擾機(jī)有效的干擾區(qū)域與干擾機(jī)、發(fā)射機(jī)、接收機(jī)三者的相對(duì)位置有關(guān),其位置示意圖如圖1所示。
圖1 應(yīng)答式干擾模型Fig.1 The mode of reactive jamming
若Td代表跳頻持續(xù)時(shí)間,Tj代表干擾機(jī)處理信號(hào)時(shí)間,η代表保證接收機(jī)不被干擾成功傳輸每跳滯留時(shí)間的最小占比,c代表光速,d1、d2、d3為圖1所示的距離,則應(yīng)答式干擾機(jī)成功干擾需滿足下式[9]:
d1+d3≤(ηTd-Tj)c+d2。
(1)
當(dāng)式(1)取等號(hào)時(shí),圖1就是一個(gè)以接收機(jī)、干擾機(jī)為焦點(diǎn)的橢圓,即干擾機(jī)、發(fā)射機(jī)和接收機(jī)相對(duì)位置關(guān)系要滿足干擾橢圓才能實(shí)施有效的干擾。若要取得理想的干擾效果,干擾信號(hào)強(qiáng)度要足夠大,即信干比(Signal-to-Interference Ratio,SIR)足夠小,并且要保證干擾機(jī)足夠接近發(fā)射機(jī)與接收機(jī)。本文假設(shè)均滿足這些要求。
對(duì)上述應(yīng)答式干擾機(jī)模型作出如下定義:干擾機(jī)監(jiān)測(cè)到信號(hào)傳輸時(shí)間超過(guò)Nr單位時(shí)間步長(zhǎng),發(fā)射干擾信號(hào),并且接收機(jī)被成功干擾;一旦監(jiān)測(cè)到的信號(hào)空閑時(shí)間達(dá)到Ni單位時(shí)間步長(zhǎng),停止干擾。
傳統(tǒng)跳頻通信中,收發(fā)雙發(fā)受事先設(shè)定的偽隨機(jī)碼控制進(jìn)行同步跳變,而不考慮每次跳達(dá)的信道質(zhì)量好壞,以及每次跳變給系統(tǒng)帶來(lái)的能量消耗和開銷等問(wèn)題。
基于上述情況,本文的跳頻策略是:根據(jù)系統(tǒng)被干擾的過(guò)程中每個(gè)時(shí)刻系統(tǒng)回報(bào)度的一個(gè)評(píng)估反饋值,發(fā)射機(jī)可以隨機(jī)選擇保持信道不變、信道空閑、信道改變等行為,經(jīng)過(guò)一段時(shí)間對(duì)這些評(píng)估值與發(fā)射機(jī)行為的統(tǒng)計(jì)學(xué)習(xí),最終達(dá)到在每個(gè)時(shí)刻采取合適的行為以“避讓”干擾的目的。需要指出的是,系統(tǒng)選擇改變信道行為時(shí),高質(zhì)量的信道通過(guò)認(rèn)知無(wú)線電對(duì)電磁環(huán)境的實(shí)時(shí)監(jiān)測(cè)進(jìn)行提供。系統(tǒng)回報(bào)值與收發(fā)雙方的信道質(zhì)量、能量消耗以及系統(tǒng)開銷等實(shí)時(shí)反饋因素有關(guān)。
設(shè)空閑時(shí)間Ni為單位時(shí)間長(zhǎng)度,設(shè)跳頻系統(tǒng)為每一跳駐留時(shí)間為不大于Ni的超快速跳頻系統(tǒng),下文將以Nr=3、Ni=1的應(yīng)答式干擾為重點(diǎn),對(duì)Q學(xué)習(xí)算法在認(rèn)知無(wú)線電跳頻系統(tǒng)信道調(diào)度中的應(yīng)用作深入研究。
在Q學(xué)習(xí)中,把學(xué)習(xí)的過(guò)程當(dāng)作馬爾科夫決策過(guò)程(Markov Decision Process,MDP)模型來(lái)處理[10]。跳頻系統(tǒng)信道調(diào)度Agent在這個(gè)過(guò)程中所處的每個(gè)狀態(tài)下,所選擇的行為是隨機(jī)的。在t時(shí)刻從狀態(tài)s采取行為a后,達(dá)到狀態(tài)s′的概率表達(dá)式如下:
(2)
該概率值取決于Agent所處的狀態(tài)與采取的行為,它是一個(gè)無(wú)記憶的系統(tǒng),因而具有馬爾科夫特性。
(3)
學(xué)習(xí)的目的就是通過(guò)在一個(gè)特定的環(huán)境中,利用統(tǒng)計(jì)的方法估算出采取不同行為帶來(lái)的預(yù)計(jì)回報(bào)度大小。
為了獲得Agent的最優(yōu)策略,必須考慮到系統(tǒng)處在每個(gè)狀態(tài)采取任何行為帶來(lái)的長(zhǎng)期回報(bào)度。公式(4)就是基于觀察評(píng)估的行為-回報(bào)度函數(shù),對(duì)于在策略π下,從狀態(tài)s采取行為a的統(tǒng)計(jì)回報(bào)度Qπ(s,a)為[11]
(4)
式中:γ為折扣率,范圍在0~1之間,代表著未來(lái)回報(bào)率的影響強(qiáng)度,也就是折扣率γ越接近于0,Agent考慮即時(shí)回報(bào)度,忽略長(zhǎng)遠(yuǎn)的效果;相反,γ越接近于1,Agent考量越長(zhǎng)遠(yuǎn),削減即時(shí)回報(bào)度對(duì)學(xué)習(xí)策略的影響。
在特定狀態(tài)st下,采取行為at方式時(shí),算法更新評(píng)估函數(shù)Q(st,at)如下[11]:
(5)
式中:α代表學(xué)習(xí)率,范圍在0~1之間,可為常數(shù),表示評(píng)估函數(shù)更新的速度大小。
Q學(xué)習(xí)算法的步驟如下[12]:
Step1 任意初始化狀態(tài)Q(st,at)。
Step2 觀察得到當(dāng)前狀態(tài)st。
Step3 根據(jù)特定的搜索策略(本文采用ε貪婪算法),選擇當(dāng)前狀態(tài)st對(duì)應(yīng)的隨機(jī)行為at。
Step4 執(zhí)行行為at,得到回報(bào)值rt+1,同時(shí)觀察得到下一個(gè)狀態(tài)st+1。
Step5 根據(jù)強(qiáng)化學(xué)習(xí)公式(5),更新狀態(tài)與動(dòng)作。
Step6 更新狀態(tài)st+1=st。
Step7 回到Step 2,重復(fù)執(zhí)行Step 2~7,直到Agent獲得最大的穩(wěn)定回報(bào)值,重復(fù)的步數(shù)為學(xué)習(xí)的時(shí)間步長(zhǎng)。
將Q學(xué)習(xí)算法應(yīng)用于認(rèn)知無(wú)線電跳頻系統(tǒng)的信道調(diào)度,建立了如圖2所示的信道調(diào)度Agent和電磁環(huán)境的交互圖。Q學(xué)習(xí)應(yīng)用在認(rèn)知無(wú)線電信道調(diào)度Agent內(nèi),決策器按照內(nèi)部特定的搜索策略(ε貪婪算法)和當(dāng)前信道狀態(tài)st以及Q學(xué)習(xí)算法狀態(tài)-行為回報(bào)值rt+1,在行為庫(kù)中選擇合適行為使得迭代的Q值最大化。行為庫(kù)由以下3種方式構(gòu)成:
(1)改變信道,根據(jù)認(rèn)知無(wú)線電提供的信道庫(kù),隨機(jī)選擇新信道進(jìn)行通信;
(2)保持信道,保持相同信道進(jìn)行信息傳輸;
(3)空閑信道,將信道空閑,不進(jìn)行任何通信。
圖2 基于Q學(xué)習(xí)的認(rèn)知無(wú)線電信道調(diào)度Agent與電磁環(huán)境交互示意圖Fig.2 The interaction process based on Q-learning algorithm between the agent of cognitive radio channel scheduling and electromagnetic environment
認(rèn)知無(wú)線電信道調(diào)度Agent處于當(dāng)前狀態(tài)st,選擇特定行為at后,環(huán)境反饋回報(bào)值rt+1,同時(shí)信道調(diào)度Agent感知到系統(tǒng)的下一個(gè)狀態(tài)st+1,Q(st,at)值進(jìn)行下一次迭代,得到更新。確定Q學(xué)習(xí)算法因素(包括狀態(tài)、獎(jiǎng)懲、搜索策略、Q(st,at)函數(shù)、學(xué)習(xí)率α和折扣系數(shù)γ等)后,Agent最終目的就是確定3種信道調(diào)度行為的動(dòng)態(tài)選擇,得到系統(tǒng)最大回報(bào)值,從而最優(yōu)化系統(tǒng)性能指標(biāo)。
如圖3 ,用MDP模型來(lái)示意信道調(diào)度的所有可能狀態(tài)和選擇行為。模型的水平方向表示信號(hào)傳輸?shù)目倳r(shí)間,垂直方向表示在同一信道傳輸(空閑)的時(shí)間,每個(gè)圈代表整個(gè)信道調(diào)度過(guò)程中所處的狀態(tài),方向線代表在各個(gè)傳輸狀態(tài)信道可采取的行為。
圖3 基于Nr=3應(yīng)答式干擾信道調(diào)度馬爾科夫決策過(guò)程圖Fig.3 The MDP process of channel scheduling on the reactive jamming while Nr=3
下面就Q學(xué)習(xí)應(yīng)用到動(dòng)態(tài)認(rèn)知無(wú)線電信道調(diào)度應(yīng)對(duì)應(yīng)答式干擾問(wèn)題的關(guān)鍵因素進(jìn)行闡明。
(1)信道所處狀態(tài):空閑態(tài)(s0)、改變態(tài)(s1)、保持態(tài)(s2,s3)、干擾態(tài)(s4)。
(2)行為選擇:改變信道(以符號(hào)1表示)、保持信道(以符號(hào)0表示)、空閑信道(以符號(hào)-1表示)。
(3)搜索策略:運(yùn)用ε貪婪算法進(jìn)行平衡“探索”和“利用”。信道在狀態(tài)st,以1-ε的概率選擇最優(yōu)Q(st,at)值對(duì)應(yīng)的行為(即 “利用”),以ε的概率任意選擇對(duì)應(yīng)當(dāng)前狀態(tài)st的行為(即“探索”)。進(jìn)行仿真時(shí),隨機(jī)產(chǎn)生0~1之間的一個(gè)數(shù),根據(jù)其與ε的大小比較結(jié)果選擇對(duì)應(yīng)的行為。
(4)回報(bào)度相關(guān)因素:在實(shí)際應(yīng)用中,回報(bào)度是由鏈路的傳輸質(zhì)量和吞吐量決定的。由于改變信道需要花費(fèi)時(shí)間和能量,因此在鏈路的傳輸質(zhì)量和吞吐量不受影響的情況下,保持信道將獲得更大的回報(bào)值,且維持得越久,回報(bào)值越大?;谶@些考量因素,在圖3信道調(diào)度馬爾科夫過(guò)程基礎(chǔ)上,建立如圖4所示的回報(bào)度圖[13],圖中每個(gè)圈中的數(shù)字即采取上述行為時(shí)的返回回報(bào)度。
圖4 Nr=3應(yīng)答式干擾信道調(diào)度行為回報(bào)度Fig.4 The rewards of channel scheduling on the reactive jamming while Nr=3
跳頻系統(tǒng)信道調(diào)度解決應(yīng)答式干擾問(wèn)題的關(guān)鍵就是要確定各個(gè)狀態(tài)采取恰當(dāng)?shù)男袨?,使整個(gè)Agent得到的回報(bào)度最大。
基于Simulink平臺(tái),在上述Nr=3、Ni=1應(yīng)答式干擾下,設(shè)置超快跳頻系統(tǒng)跳速為1×105hop/s,每一跳信號(hào)的調(diào)制方式為2FSK,信號(hào)傳輸速率1 Mbit/s,取信噪比為17 dB,跳頻頻點(diǎn)為68個(gè),信道間隔1 MHz,跳頻帶寬68 MHz;干擾機(jī)信干比-18 dB,干擾跟蹤概率為100%;系統(tǒng)每次仿真時(shí)間1 ms,學(xué)習(xí)率α= 0.9,折扣率γ= 0.8,探索率ε=0.95[14]。以下對(duì)基于Q-學(xué)習(xí)算法的認(rèn)知無(wú)線電跳頻系統(tǒng)信道調(diào)度策略進(jìn)行仿真。
系統(tǒng)行為回報(bào)度隨學(xué)習(xí)迭代時(shí)間的變化如圖5(a)所示,可以看出在學(xué)習(xí)110次左右時(shí)間步長(zhǎng)后系統(tǒng)回報(bào)度近乎平穩(wěn),說(shuō)明該算法已得出各狀態(tài)最大回報(bào)度的行為選擇策略。此時(shí),仿真得到的最優(yōu)策略為1 0 0 -1,即采取在狀態(tài)s0下改變信道、狀態(tài)s1下保持信道、狀態(tài)s2下保持信道、狀態(tài)s3下空閑信道循環(huán)策略,將得到最大回報(bào),如圖5(b)所示。
(a)行為回報(bào)度
(b)最優(yōu)策略圖5 Nr=3應(yīng)答式干擾模型信道調(diào)度行為回報(bào)度及最優(yōu)策略Fig.5 The rewards of channel scheduling and optimal policyon the reactive jamming while Nr=3
采取了Q學(xué)習(xí)算法跳頻系統(tǒng)與普通跳頻系統(tǒng)性能在應(yīng)答式干擾下隨干擾時(shí)間的變化如圖6所示,可以看出普通跳頻在應(yīng)答式干擾下,誤比特率極高,通信性能變差且不能恢復(fù)。Q學(xué)習(xí)算法跳頻系統(tǒng)在應(yīng)答式干擾下,初始誤比特率極高,但隨著學(xué)習(xí)時(shí)間的積累,學(xué)習(xí)能力的增強(qiáng),系統(tǒng)行為方式的采取得當(dāng),較好地對(duì)應(yīng)答式干擾進(jìn)行了合理的“避讓”,系統(tǒng)誤比特率隨著學(xué)習(xí)時(shí)間步長(zhǎng)不斷下降,并在學(xué)習(xí)110次左右時(shí)間步長(zhǎng)后基本達(dá)到較低的水準(zhǔn),即可滿足系統(tǒng)通信需求。假設(shè)上述干擾機(jī)單位時(shí)間步長(zhǎng)為10 μs,即干擾機(jī)監(jiān)測(cè)到信號(hào)傳輸時(shí)間超過(guò)30 μs,發(fā)射干擾信號(hào)并且干擾成功,監(jiān)測(cè)到的信號(hào)空閑時(shí)間達(dá)到10 μs,停止干擾,則系統(tǒng)只需要學(xué)習(xí)1.1 ms左右的學(xué)習(xí)時(shí)間即可適應(yīng)這種干擾。
圖6 Nr=3應(yīng)答式干擾條件下Q學(xué)習(xí)跳頻通信性能Fig.6 The performance of frequency hopping communication based on Q-learning algorithm on the reactive jamming while Nr=3
最后,對(duì)信干比在-20~0 dB之間進(jìn)行了一段時(shí)間的仿真,結(jié)果如圖7所示。
圖7 Nr=3應(yīng)答式干擾不同信干比下Q學(xué)習(xí)跳頻通信性能Fig.7 The performance of frequency hopping communication based on Q-learning algorithm on the reactive jamming with different SIR while Nr=3
由圖7可以看出,隨著干擾信號(hào)的增強(qiáng),系統(tǒng)誤比特率增大。運(yùn)用Q學(xué)習(xí)算法的跳頻系統(tǒng)在這段時(shí)間內(nèi)的誤比特率基本接近但是略高于受到干擾下的系統(tǒng)性能,這是由于運(yùn)用Q學(xué)習(xí)算法的跳頻系統(tǒng)在受到干擾后學(xué)習(xí)時(shí)間內(nèi)混入的誤碼造成的。
未來(lái)的電子戰(zhàn)將面臨著更加復(fù)雜的電磁環(huán)境威脅,將機(jī)器學(xué)習(xí)與人工智能的新技術(shù)手段應(yīng)用到信息系統(tǒng)的防護(hù)中去,能適應(yīng)未來(lái)多變的戰(zhàn)場(chǎng)情況,取得信息優(yōu)勢(shì),獲得戰(zhàn)場(chǎng)主動(dòng)權(quán)具有重大的意義。本文就機(jī)器學(xué)習(xí)中的Q學(xué)習(xí)算法在認(rèn)知無(wú)線電跳頻系統(tǒng)中的信道調(diào)度應(yīng)用進(jìn)行了研究,并給出了應(yīng)對(duì)應(yīng)答式干擾下基于Q學(xué)習(xí)算法的系統(tǒng)性能仿真。Q學(xué)習(xí)算法在應(yīng)對(duì)應(yīng)答式干擾下的信道調(diào)度、提升信息系統(tǒng)的防護(hù)能力方面具有較高的應(yīng)用價(jià)值,但該方法在依據(jù)信道質(zhì)量、系統(tǒng)能量消耗和開銷的評(píng)估回報(bào)值方面還需要進(jìn)一步研究。
[1] 吳利民,王滿喜,陳功.認(rèn)知無(wú)線電與通信電子戰(zhàn)概論[M].北京:電子工業(yè)出版社,2015.
[2] 姚富強(qiáng),張少元.一種跳碼直擴(kuò)通信技術(shù)體制探討[J].國(guó)防科技大學(xué)學(xué)報(bào),2005,27(5):52-55
YAO Fuqiang,ZHANG Shaoyuan.Research on a kind of communication technical architecture of code-hopping DSSS[J].Journal of National University of Defense Technology,2005,27(5) :52-55. (in Chinese)
[3] 沈連豐,鄒樂,宋揚(yáng),等.一種適用于WPAN應(yīng)用環(huán)境的高速自適應(yīng)跳頻[J].電子學(xué)報(bào),2002,30(10):1541-1543.
SHEN Lianfeng,ZOU Le,SONG Yang,et al.A high-speed AFH scheme and its performance analysis in WPAN systems[J].Acta Electronic Sinica,2002,30(10):1541-1543. (in Chinese)
[4] 張毅,姚富強(qiáng).基于可靠性的抗干擾通信網(wǎng)性能仿真系統(tǒng)及其性能分析[J].系統(tǒng)仿真學(xué)報(bào),2004,16(5):967-970.
ZHANG Yi,YAO Fuqiang.Performance simulation of the anti-jamming communication network[J].Journal of System Simulation,2004,16(5):967-970. (in Chinese)
[5] 李永成,王滿喜,姚少林.基于后綴數(shù)組算法的認(rèn)知引擎技術(shù)研究[J].電子對(duì)抗,2016(6) :27-30.
LI Yongcheng,WANG Manxi,YAO Shaolin. Research on cognitive engine technique based on suffix array[J].Electronic Warfare,2016(6):27-30. (in Chinese)
[6] 石峰,王文彬.認(rèn)知無(wú)線電網(wǎng)絡(luò)的干擾信道學(xué)習(xí)算法[J].科技通報(bào),2015,31 (6):130-132.
SHI Feng,WANG Wenbin.Interference channel learning algorithm in cognitive radio networks[J].Bulletin of Science and Technology,2015,31 (6):130-132. (in Chinese)
[7] 王董禮,魏瓊,曹鵬,等.短波認(rèn)知通信中的機(jī)器學(xué)習(xí)策略[J].信息通信,2016,168(12):40-42.
WANG Dongli,WEI Qiong,CAO Peng,et al.The machine learning strategies in HF cognitive communication[J].Information and Commuications,2016,168(12):40-42. (in Chinese)
[8] 徐昕,賀漢根.神經(jīng)網(wǎng)絡(luò)增強(qiáng)學(xué)習(xí)的梯度算法研究[J].計(jì)算機(jī)學(xué)報(bào),2003,26(2):227-233.
XU Xin,HE Hangen.A gradient algorithm for neural-network-based reinforcement learning[J].Chinese Journal of Computers,2003,26(2):227-233. (in Chinese)
[9] 楊明,陳靜. 超短波跳頻通信抗跟蹤式干擾性能分析[J].無(wú)線電工程,2014,44 (3):32-34.
YANG Ming,CHEN Jing. Analysis on anti-tracking jamming performance of VHF / UHF frequency-hopping communication[J].Radio Engineering,2014,44 (3):32-34.(in Chinese)
[10] 于俊,劉全,傅啟明,等.基于優(yōu)先級(jí)掃描Dyna結(jié)構(gòu)的貝葉斯Q學(xué)習(xí)方法[J].通信學(xué)報(bào),2013,34 (11):129-139.
YU Jun,LIU Quan,FU Qiming,et al.Bayesian Q learning method with Dyna architecture and prioritized sweeping[J].Journal on Communications,2013,34 (11):129-139. (in Chinese)
[11] SUTTON R,BARTO A. Reinforcement learning:an introduction[M].Cambridge:Cambridge University Press,1998.[12] 王世進(jìn),孫晟,周炳海,等.基于Q-學(xué)習(xí)的動(dòng)態(tài)單機(jī)調(diào)度[J].上海交通大學(xué)學(xué)報(bào),2007,41(8):1227-1232.
WANG Shijin,SUN Sheng,ZHOU Binghai,et al.Q-learning based dynamic single machine scheduling[J].Journal of Shanghai Jiaotong University,2007,41(8):1227-1232. (in Chinese)
[13] LICHTMAN M L.Antifragile communications[D].Virginia:Virginia Polytechnic Institute and State University,2016:129-144.
[14] WANG Y C,USHER J M. Application of reinforcement learning for agent-based production scheduling[J].Engineering Applications of Artificial Intelligence,2005,18(1):73-82.
AChannelSchedulingMethodforFrequencyHoppingSystemBasedonQ-learningAlgorithmunderReactiveJamming
XU Changyue,HUANG Gaoming,HOU Xiaoyang
(College of Electronic Engineering,Naval University of Engineering,Wuhan 430033,China)
In response to effect of reactive jamming on frequency hopping(FH) communication,a mode of cognitive radio frequency hopping system′s the channel scheduling based on the Q-learning algorithm is proposed.The model uses the method of machine learning to find out the most reasonable strategy of avoiding jamming according to the real-time evaluation rewards on hopping behaviors of the cognitive system,and realizes adapting to the jamming eventually.The performance of the application in response to the reactive jamming is simulated on Simulink and the results show that it can significantly reduce the bit error rate(BER) of FH system less than one percent which is nearly close to the one in unjammed condition.
cognitive radio;frequency hopping system;reactive jamming;Q-learning;channel scheduling
10.3969/j.issn.1001-893x.2017.12.018
徐長(zhǎng)月,黃高明,侯小陽(yáng).應(yīng)答式干擾下基于Q學(xué)習(xí)算法的跳頻系統(tǒng)信道調(diào)度方法[J].電訊技術(shù),2017,57(12):1451-1456.[XU Changyue,HUANG Gaoming,HOU Xiaoyang.A channel scheduling method for frequency hopping system based on Q-learning algorithm under reactive jamming[J].Telecommunication Engineering,2017,57(12):1451-1456.]
2017-03-24;
2017-07-14
date:2017-03-24;Revised date:2017-07-14
國(guó)家自然科學(xué)基金資助項(xiàng)目(61601491)
444716022@qq.comCorrespondingauthor444716022@qq.com
TN973.3
A
1001-893X(2017)12-1451-06
徐長(zhǎng)月(1993—),男,江蘇宿遷人,2015年于河海大學(xué)獲工學(xué)學(xué)士學(xué)位,現(xiàn)為海軍工程大學(xué)碩士研究生,主要研究方向?yàn)樾畔?duì)抗技術(shù);
Email:444716022@qq.com
黃高明(1972—),男,湖南永州人,2006年于東南大學(xué)獲博士學(xué)位,現(xiàn)為海軍工程大學(xué)教授,主要研究方向?yàn)槔走_(dá)/電子對(duì)抗信號(hào)處理、盲信號(hào)處理、無(wú)源探測(cè);
侯小陽(yáng)(1989—),男,陜西寶雞人,2012年于海軍工程大學(xué)獲工學(xué)學(xué)士學(xué)位,現(xiàn)為碩士研究生,主要研究方向?yàn)樾畔?duì)抗技術(shù)。