蘇小楓,陳清華
1(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310014)2(溫州職業(yè)技術(shù)學(xué)院 信息技術(shù)系,浙江 溫州 325035)
無線供能通信(Wireless Powered Communication,WPC)是指低功耗設(shè)備從專門的射頻源中捕獲能量并存儲在自身電池或者電容中,用于支持設(shè)備傳感、計(jì)算和數(shù)據(jù)傳輸?shù)热蝿?wù),被廣泛應(yīng)用于環(huán)境檢測、智能家居等領(lǐng)域[1-3].得益于電路技術(shù)在硬件靈敏度、射頻-直流轉(zhuǎn)換效率、電路功耗等方面的最新發(fā)展[4,5],設(shè)備可直接捕獲環(huán)境射頻源(如廣播基站、WIFI等)的廣播信號實(shí)現(xiàn)長期工作,進(jìn)一步降低總成本.
然而,當(dāng)周圍環(huán)境射頻信號較弱或者射頻源周期性工作時(shí),設(shè)備需要很長時(shí)間來積累足夠能量用于主動傳輸,從而降低數(shù)據(jù)傳輸效率.作為射頻供能通信的另一方式,反向散射通信可以很好地彌補(bǔ)這一局限.反向散射通信是指發(fā)送端將一系列數(shù)字信號映射到天線處的射頻反向散射波形上,通過調(diào)整天線的負(fù)載阻抗來產(chǎn)生與原始信號不同的波形,根據(jù)射頻源與接收端的不同,可分成單站反向散射、雙站反向散射和環(huán)境反向散射3類.單站反向散射通信系統(tǒng)應(yīng)用最廣泛的是射頻識別系統(tǒng)[6],然而,射頻識別系統(tǒng)的射頻源和接收端在同一儀器上,存在往返路徑損耗和雙遠(yuǎn)近效應(yīng)問題.針對該問題,Lu等人部署專門射頻源提高性能,但增加了部署成本[4].Lyu則研究了環(huán)境反向散射射頻通信網(wǎng)絡(luò),利用環(huán)境中存在的射頻源(如調(diào)幅廣播基站、電視信號塔、蜂窩基站等)作為自身射頻源[7],該方法不僅降低了功耗和總體成本,而且不需要分配新的頻譜.然而,環(huán)境反向散射通信存在射頻源工作頻率和周期不可控的缺點(diǎn),性能會因信道和環(huán)境因素(如環(huán)境能源的分布、空間密度和傳輸負(fù)載)發(fā)生改變[8],數(shù)據(jù)傳輸速率與距離都小于主動通信,僅在穩(wěn)定的射頻源情況下才可正常工作.為此,學(xué)者提出了混合反向散射和無線供能通信的設(shè)備硬件設(shè)計(jì),在無法捕獲到足夠能量進(jìn)行主動通信[9],在有足夠能量但缺乏主動通信機(jī)會時(shí),反向散射通信是一種有效的補(bǔ)充方式.
在研究混合通信時(shí),通常以吞吐量作為評價(jià)指標(biāo),由于吞吐量的計(jì)算過程大多采用香農(nóng)公式[10,11],意味著即使發(fā)送端存在少部分能量也可以進(jìn)行數(shù)據(jù)傳輸,這與通信協(xié)議中以數(shù)據(jù)包為單位傳輸不符.為此,部分研究以收包率作為評價(jià)通信性能的另一指標(biāo)[12,13].Wu認(rèn)為收包率與接收端的功率閾值有關(guān),以數(shù)學(xué)公式的形式,計(jì)算了在不同網(wǎng)絡(luò)參數(shù)(如功率接收閾值、收發(fā)機(jī)距離、發(fā)射功率)下系統(tǒng)的丟包率[14].Zhang在認(rèn)知異構(gòu)網(wǎng)絡(luò)中,考慮了智能切換調(diào)制編碼技術(shù),并給出了不同調(diào)制技術(shù)的誤碼率與信噪比關(guān)系[15],但均未考慮包長度與收包率的關(guān)系,且所考慮的數(shù)據(jù)量無限.
在混合通信求解最佳策略中,通過建立馬爾可夫決策過程,并使用值迭代算法求解是常見的步驟,但值迭代方法以遍歷的形式求得全局最優(yōu)解[16],需要已知所有狀態(tài)信息和轉(zhuǎn)移概率,不能解決實(shí)際環(huán)境量部分未知且狀態(tài)空間連續(xù).深度強(qiáng)化學(xué)習(xí)方法在解決高維連續(xù)問題上獨(dú)具優(yōu)勢,已在場景同樣復(fù)雜的邊緣計(jì)算[17-19]、智能無人機(jī)領(lǐng)域[20,21]和點(diǎn)到點(diǎn)通信[22]廣泛運(yùn)用,解決部分可觀測的馬爾可夫決策過程最優(yōu)策略問題,例如Zhang將長期集群吞吐量最大化問題歸結(jié)為部分可觀測的馬爾可夫決策過程,提出了一種基于深度強(qiáng)化學(xué)習(xí)的無授權(quán)算法[19],以較少的沖突了解網(wǎng)絡(luò)競爭狀態(tài)、輸出子信道和接收功率電平選擇.
因此,考慮使用深度強(qiáng)化學(xué)習(xí)解決混合通信狀態(tài)連續(xù)問題.本文從鏈路層方面研究混合通信的性能,考慮有限的電池電量和數(shù)據(jù)量,給出反向散射和無線供能通信的收包率計(jì)算過程,并采用無先驗(yàn)信息的算法解決環(huán)境的動態(tài)變化問題,運(yùn)用深度Q學(xué)習(xí)算法解決狀態(tài)空間連續(xù)問題.具體來說,發(fā)送端以數(shù)據(jù)包為單位傳輸,其收包率受比特級誤碼率和包長度影響,誤碼率需根據(jù)信噪比和調(diào)制解調(diào)方式計(jì)算.隨后,由于信號受周圍環(huán)境的影響,且環(huán)境是動態(tài)變化,無法事先了解周圍信息,通過基于無模型的方法可以得到相對較優(yōu)解,更適用于實(shí)際環(huán)境.同時(shí)考慮數(shù)據(jù)信息量大、狀態(tài)空間連續(xù)情況,運(yùn)用深度Q學(xué)習(xí)算法,通過神經(jīng)網(wǎng)絡(luò)對狀態(tài)空間擬合化處理求解最優(yōu)策略.
本文考慮單用戶通信網(wǎng)絡(luò)框架:一種低功耗物聯(lián)網(wǎng)設(shè)備,其發(fā)射機(jī)支持無線供能和后向散射通信作為發(fā)送端.在射頻源通信時(shí)可捕獲能量或被動反向散射傳輸,在射頻源不通信時(shí)可主動傳輸數(shù)據(jù)給接收端.在這種情況下,本文旨在探索一種完全在線的策略,確定選擇的工作模式并分配無線供能通信的發(fā)射功率,從而最大限度地提高長期平均收包率.同時(shí),還考慮了電池容量有限和時(shí)變數(shù)據(jù)傳輸信道等實(shí)際約束條件.具體而言,本工作主要貢獻(xiàn)如下:
1)提出基于信干噪比的反向散射和無線供能通信的誤碼率計(jì)算過程,并通過誤碼率和數(shù)據(jù)包長度計(jì)算收包率;
2)通過工作模式選擇和功率分配實(shí)現(xiàn)收包率最大化,在環(huán)境動態(tài)變化、有限能量和數(shù)據(jù)量約束下構(gòu)建馬爾可夫決策過程,提出數(shù)據(jù)丟包開銷問題,根據(jù)所歸納的問題,提出基于無先驗(yàn)信息的SARSA在線最優(yōu)策略求解方法和基于連續(xù)狀態(tài)的深度Q學(xué)習(xí)算法;
3)在不同參數(shù)下探尋收包率的有效性和穩(wěn)定性,通過廣泛模擬,比較不同強(qiáng)化學(xué)習(xí)方法的性能,發(fā)現(xiàn)基于SARSA和深度Q學(xué)習(xí)的在線解決方案性能優(yōu)于基線方案Q學(xué)習(xí).
考慮如圖1所示的系統(tǒng)模型,該模型由基站、移動用戶和物聯(lián)網(wǎng)設(shè)備構(gòu)成.物聯(lián)網(wǎng)設(shè)備消耗自身存儲的能量用于工作,而后將所采集得到的數(shù)據(jù)封裝成包發(fā)送給移動設(shè)備,物聯(lián)網(wǎng)設(shè)備自身不與基站通信.因此,在用戶通信,即信道忙碌時(shí),物聯(lián)網(wǎng)設(shè)備可以捕獲基站發(fā)射的射頻能或者是通過基站的射頻信號反向散射傳輸數(shù)據(jù)給移動用戶.而當(dāng)信道空閑時(shí),物聯(lián)網(wǎng)設(shè)備可以消耗自身存儲的能量產(chǎn)生射頻信號實(shí)現(xiàn)無線供能通信.考慮一種情況,當(dāng)用戶與基站通信時(shí),物聯(lián)網(wǎng)設(shè)備也可以消耗能量傳輸數(shù)據(jù),但此時(shí)在用戶處其接收信號會接收到來自基站的干擾,使本次傳輸?shù)臄?shù)據(jù)包更容易丟失,即便如此,在數(shù)據(jù)包與能量均充足,且用戶一直在通信的情況下,物聯(lián)網(wǎng)設(shè)備可以通過該方式提升傳輸效率.
圖1 系統(tǒng)模型
在本文考慮的系統(tǒng)模型中,射頻源為無線接入點(diǎn)或者WIFI等,這類射頻源的特點(diǎn)是傳輸距離短,發(fā)射功率小.因此物聯(lián)網(wǎng)設(shè)備在能量捕獲的過程中,需要考慮信道增益,捕獲功率為:
(1)
其中,ζ是與能量轉(zhuǎn)化效率,λ表示路徑損耗指數(shù),dH是射頻源到物聯(lián)網(wǎng)設(shè)備的距離,h1是從射頻源到物聯(lián)網(wǎng)設(shè)備間的信道增益輻值的平方,PT是射頻源的發(fā)射功率.
對于無線供能通信部分,不僅需要考慮大規(guī)模的路徑損耗過程,也需要考慮小規(guī)模的塊間瑞利信道衰落.對于反向散射通信,由于其傳輸電路的設(shè)置,其物聯(lián)網(wǎng)設(shè)備至移動用戶間的通信過程在考慮路徑損耗和信道衰落之外,還要考慮反向散射通信系數(shù).特別的是,當(dāng)物聯(lián)網(wǎng)設(shè)備與移動用戶間的距離確定時(shí),其大規(guī)模的路徑損耗為常數(shù),而小規(guī)模信道衰落被認(rèn)為在塊間保持不變,在不同的塊之間相互獨(dú)立且服從瑞利分布,令h表示信道增益輻值的平方,信道增益在每個(gè)塊內(nèi)保持不變,在不同的塊間獨(dú)立同分布.h(n)是塊n的信道狀態(tài),f(h(n))是變量h(n)的概率密度函數(shù),有:
f(h(n))=exp(-h(n)),h(n)≥0
(2)
本節(jié)將研究問題納入馬爾可夫決策過程框架,詳細(xì)介紹系統(tǒng)狀態(tài)空間、動作空間、獎(jiǎng)勵(lì)空間、轉(zhuǎn)移概率,最后歸納問題的數(shù)學(xué)形式.
在移動用戶概率性通信的情況下,基于包級別的數(shù)據(jù)傳輸,根據(jù)物聯(lián)網(wǎng)設(shè)備的電池能量和數(shù)據(jù)包隊(duì)列狀態(tài),得到使得長期平均收包率最大化的物聯(lián)網(wǎng)設(shè)備工作模式和主動傳輸功率.將該問題建模為部分可觀測的馬爾可夫決策過程,由四元組{S,A,R,P}組成,其中S是系統(tǒng)的狀態(tài)空間,A是動作空間,R是獎(jiǎng)勵(lì)空間,P是轉(zhuǎn)移概率.以下是這4個(gè)要素的詳細(xì)說明.
1)系統(tǒng)狀態(tài)空間S:在塊n的開始,物聯(lián)網(wǎng)設(shè)備已知當(dāng)前的系統(tǒng)狀態(tài)Sn∈S,包括環(huán)境信道狀態(tài)h(n)、能量隊(duì)列b(n)和數(shù)據(jù)包隊(duì)列q(n),即Sn={h(n),b(n),q(n)},其中h(n)∈{0,1},h(n)∈{0,1,…,qmax}.h(n)=1表示射頻源處于通信狀態(tài),物聯(lián)網(wǎng)設(shè)備周圍有射頻信號,為0則代表不存在射頻信號.q(n)表示數(shù)據(jù)隊(duì)列中數(shù)據(jù)包的個(gè)數(shù),以離散化狀態(tài)表示,qmax為最大數(shù)據(jù)包容量.b(n)表示電池能量狀態(tài),bmax為最大電池容量,超出的能量將被舍棄.
(3)
3)轉(zhuǎn)移概率P:在采用動作An下,狀態(tài)Sn變成Sn+1的轉(zhuǎn)移概率為P(Sn+1|Sn,An).當(dāng)狀態(tài)空間連續(xù)時(shí),P(Sn+1|Sn,An)為Sn+1的條件概率密度函數(shù).由于信道狀態(tài)h(n+1)、能量隊(duì)列b(n+1)和數(shù)據(jù)隊(duì)列q(n+1)相互獨(dú)立:
P(S(n+1)│Sn,An)=P(h(n+1)│Sn,An)×
P(b(n+1)│Sn,An)×P(q(n+1)│Sn,An),?S(n+1)∈S
(4)
式中η表示當(dāng)前環(huán)境信道忙碌概率,則空閑概率用1-η表示.由于信道狀態(tài)在塊間相互獨(dú)立,無論當(dāng)前信道為忙碌或空閑,下一狀態(tài)的信道忙碌概率不變,因此P(h(n+1)│Sn,An)為:
(5)
對于P(b(n+1)│Sn,An),根據(jù)所選擇動作不同,轉(zhuǎn)移概率有3種情況:
①當(dāng)e(n)=0或2,即物聯(lián)網(wǎng)設(shè)備休眠或反向散射傳輸時(shí),由于節(jié)點(diǎn)休眠時(shí)不消耗任何能量,反向散射過程中消耗的能量忽略不計(jì),因此有
P(b(n+1)│Sn,An)=1(b(n+1)=b(n)),
?b(n+1)∈[0,bmax]
(6)
1(X)為指示函數(shù),當(dāng)X滿足時(shí)該函數(shù)為1,反之則為0.
②當(dāng)e(n)=1,即物聯(lián)網(wǎng)設(shè)備進(jìn)行能量捕獲時(shí),天線從環(huán)境中接收射頻信號,通過電路將其轉(zhuǎn)化為電能并存儲在能量模塊中,同時(shí)存儲的能量不能超過最大電池容量限制:
?b(n+1)∈[0,bmax]
(7)
③當(dāng)e(n)=3,即物聯(lián)網(wǎng)設(shè)備進(jìn)行主動傳輸數(shù)據(jù)時(shí),物聯(lián)網(wǎng)設(shè)備消耗存儲能量生成射頻信號,通過調(diào)制編碼傳輸數(shù)據(jù).消耗的能量與主動傳輸發(fā)射功率和傳輸時(shí)間有關(guān).值得注意的是,消耗的能量不得超過已存儲的能量,這需要在發(fā)射功率的選擇上加以調(diào)整.
P(b(n+1)│Sn,An)=1(b(n+1)=max{b(n)-pt(n)T,0}),
?b(n+1)∈[0,bmax]
(8)
對于P(qn+1│Sn,An),根據(jù)所選擇動作不同,其轉(zhuǎn)移概率也有3種情況:
①當(dāng)e(n)=0或1,即物聯(lián)網(wǎng)設(shè)備休眠或捕獲能量時(shí),本文假設(shè)發(fā)送端以概率ω(ω∈[0,1])到達(dá)qr個(gè)數(shù)據(jù)包,因此P(q(n+1)│Sn,An)為:
(9)
②當(dāng)e(n)=2,即物聯(lián)網(wǎng)設(shè)備反向散射傳輸數(shù)據(jù)時(shí),考慮數(shù)據(jù)包的到達(dá),其轉(zhuǎn)移概率為:
(10)
qb為反向散射通信傳輸?shù)臄?shù)據(jù)包數(shù):
人的活動尺度是指人在一個(gè)空間內(nèi)的進(jìn)行基本活動的尺度。在專業(yè)教室中,一般使用者為教師與學(xué)生,在教室內(nèi)的活動主要有授課、聽課、繪圖、站立、行走、討論、制作模型等。但這些活動的基礎(chǔ)實(shí)際上就是站、坐、行三種。
qb=vbT×Pb
(11)
vb為反向散射傳輸數(shù)據(jù)包的速率,表示為比特傳輸速率與包長度的商,Pb為反向散射通信過程中的收包率,表示為:
Pb=(1-Wb)L
(12)
Wb為反向散射通信的誤碼率,將在后文做詳細(xì)說明,L為數(shù)據(jù)包的長度.
③當(dāng)e(n)=3,即物聯(lián)網(wǎng)設(shè)備主動傳輸數(shù)據(jù)時(shí),同樣考慮數(shù)據(jù)包的到達(dá),其轉(zhuǎn)移概率為:
(13)
qa為反向散射通信傳輸?shù)臄?shù)據(jù)包數(shù):
qa=vaT×Pa
(14)
Pa為主動通信過程中的收包率.本文假設(shè)無論射頻源是否處于工作狀態(tài),物聯(lián)網(wǎng)設(shè)備都可以消耗自身的能量用于主動傳輸.由于設(shè)備要求,至少需要消耗bth的能量才滿足最低要求,其收包率可表示為:
Pa=(1-Wa)L·1(b(n)≥bth)
(15)
Wa為主動通信中的誤碼率.
(16)
物聯(lián)網(wǎng)設(shè)備工作過程中,在塊n且數(shù)據(jù)包隊(duì)列已滿時(shí),根據(jù)數(shù)據(jù)包到達(dá)概率,此時(shí)仍會有數(shù)據(jù)包概率性進(jìn)入,產(chǎn)生數(shù)據(jù)包丟棄.因此,設(shè)定權(quán)重α表示丟棄數(shù)據(jù)包對策略的影響程度,存儲容量限制代價(jià)函數(shù)Cn表示為:
Cn=αmin(0,qmax-q(n+1))
(17)
(18)
馬爾可夫決策過程的目標(biāo)就是找到使得長期平均收包率最大化的最優(yōu)策略,問題表述為:
(P1):maxJ(π)
s.t.(3),(4),(12),(15),(16),
(17)
在上節(jié)所提出的馬爾可夫決策過程的獎(jiǎng)勵(lì)空間中,根據(jù)不同狀態(tài)所得的收包率與誤碼率有關(guān),其計(jì)算過程如下:
1)反向散射通信誤碼率計(jì)算過程:誤碼率與節(jié)點(diǎn)所采用的調(diào)制技術(shù)有關(guān),在反向散射過程中大多采用ASK編碼技術(shù),其誤碼率為:
(19)
(20)
δ1和δ2分別為物聯(lián)網(wǎng)設(shè)備與移動用戶處的噪聲功率,Nt表示反向散射傳輸一比特?cái)?shù)據(jù)所需的符號數(shù).由于反向散射的調(diào)制是將Nt個(gè)射頻信號轉(zhuǎn)變成一個(gè)反向散射信號,主動通信的頻率是反向散射的Nt倍.
2)主動傳輸誤碼率計(jì)算過程:主動通信所采用編碼方式為QPSK,其誤碼率與信噪比關(guān)系為:
(21)
在主動通信信噪比計(jì)算中,僅需考慮物聯(lián)網(wǎng)設(shè)備至移動用戶間通信過程,當(dāng)信道空閑時(shí),移動用戶處僅考慮環(huán)境噪聲;當(dāng)信道忙碌時(shí),移動用戶需考慮射頻源信號對信噪比的干擾,d1和h1分別為射頻源與移動用戶之間距離和信道增益.因此,當(dāng)信道空閑時(shí),信噪比表示為:
(22)
當(dāng)信道忙碌時(shí),信干噪比表示為:
(23)
由于信道概率性忙碌和數(shù)據(jù)概率性到達(dá),無法使用值迭代這種離線方法對本問題進(jìn)行求解,因?yàn)橹档鷷ふ易顑?yōu)的下一狀態(tài)進(jìn)行狀態(tài)轉(zhuǎn)移過程,在數(shù)據(jù)包低到達(dá)概率的收包率會與高到達(dá)概率一致,這與模型設(shè)定不符.采用SARSA在線學(xué)習(xí)法對本文所歸納問題求解.SARSA學(xué)習(xí)法定義了策略π下動作值函數(shù)qπ(s,a).表示從狀態(tài)s起執(zhí)行動作a,此后遵循策略π得到帶折扣的期望累積獎(jiǎng)勵(lì),即
qπ(s,a)=
(24)
其中γ∈[0,1]是折扣因子,γ越大表示代理越重視未來獎(jiǎng)勵(lì).強(qiáng)化學(xué)習(xí)定理證明如果采用表格法使得對于每個(gè)狀態(tài)動作對qπ(s,a)的估計(jì)都是準(zhǔn)確的,則使得J(π)取得最大值的最優(yōu)策略π*有著最優(yōu)動作值函數(shù),即:
(25)
SARSA法采用ε-貪婪策略,其思想是給定初始策略π和任意的動作值函數(shù)qπ(s,a),不斷交替進(jìn)行策略提高和值函數(shù)更新.在塊n給定狀態(tài)Sn,遵循策略π選擇動作An,收到立即獎(jiǎng)勵(lì)Rn并進(jìn)入下一個(gè)狀態(tài)Sn+1,再遵循策略π選擇動作An+1然后更新qπ使其接近當(dāng)前策略π的動作值函數(shù):
Q(Sn,An)←Q(Sn,An)+
μ(Rn-Cn+γQ(Sn+1,An+1)-Q(Sn,An))
(26)
u為學(xué)習(xí)率,使用五元組{Sn,An,Rn,Sn+1,An+1}更新公式.相較于基線的Q學(xué)習(xí)方法,SARSA使用在線控制策略求最優(yōu)動作,在當(dāng)前狀態(tài)選擇動作和依據(jù)下一狀態(tài)選擇下一動作更新Q表都是使用貪婪策略,而Q學(xué)習(xí)中在選擇下一動作時(shí)所采用Q值最大的動作.相比而言,Q學(xué)習(xí)更具冒險(xiǎn)性,而SARSA比較保守.
雖然SARSA可以求解無先驗(yàn)信息問題,然而卻需要建立表格存儲每個(gè)狀態(tài)和動作對應(yīng)值,這樣的方法僅限于狀態(tài)和動作空間是離散且空間維度不高情況.當(dāng)狀態(tài)空間是高維或連續(xù)時(shí),使用表格法計(jì)算復(fù)雜度過高.深度神經(jīng)網(wǎng)絡(luò)在特征提取方面有非常好效果,本小節(jié)采用深度Q學(xué)習(xí)(DQL)方法來求解連續(xù)狀態(tài)空間的馬爾可夫決策過程.將連續(xù)狀態(tài)轉(zhuǎn)化為函數(shù)擬合問題,僅將動作空間離散化,通過函數(shù)近似方式去估計(jì)值函數(shù),使得相近的狀態(tài)得到相同動作.
為了解決使用非線性網(wǎng)絡(luò)表示值函數(shù)時(shí)出現(xiàn)不穩(wěn)定等問題,DQL創(chuàng)建原始神經(jīng)網(wǎng)絡(luò),其中用Q(Sn,An,ω1)表示當(dāng)前網(wǎng)絡(luò)的輸出,來評估當(dāng)前狀態(tài)動作對的值函數(shù),稱為Q現(xiàn)實(shí),還創(chuàng)建了目標(biāo)神經(jīng)網(wǎng)絡(luò),計(jì)算得到Q(Sn,An,ω2)稱為Q估計(jì).目標(biāo)網(wǎng)絡(luò)是一種打亂相關(guān)性的機(jī)制,DQL中會出現(xiàn)兩個(gè)結(jié)構(gòu)完全相同但是參數(shù)不同的網(wǎng)絡(luò),用最新的參數(shù)預(yù)測原始網(wǎng)絡(luò)的Q估計(jì),而用舊參數(shù)預(yù)測目標(biāo)網(wǎng)絡(luò)的Q現(xiàn)實(shí).在一段時(shí)間里Q現(xiàn)實(shí)的參數(shù)保持不變,在一定程度上降低了Q現(xiàn)實(shí)和Q估計(jì)的相關(guān)性,提高了算法穩(wěn)定性.而后經(jīng)過一定次數(shù)迭代,再將原始網(wǎng)絡(luò)參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),保證其值函數(shù)的時(shí)效.
本文中兩個(gè)網(wǎng)絡(luò)都采用卷積神經(jīng)網(wǎng)絡(luò),包括輸入層、卷積層、激活函數(shù)、全連接層和輸出層.其中通過卷積層將輸入的Sn轉(zhuǎn)變?yōu)楦呔S,擴(kuò)充輸入層信息;激活函數(shù)采用非飽和線性單元ReLU代替?zhèn)鹘y(tǒng)sigmoid函數(shù),加速了網(wǎng)絡(luò)訓(xùn)練的速度,降低了計(jì)算的復(fù)雜度,對各種干擾更加具有魯棒性,并且在一定程度上避免了梯度消失問題;全連接層通過矩陣乘法,實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)從高維轉(zhuǎn)變?yōu)榈途S,并保留有用信息,最后通過分類輸出每一個(gè)動作An的Q值.目標(biāo)網(wǎng)絡(luò)輸入層僅為狀態(tài)Sn,原始網(wǎng)絡(luò)輸入層除了狀態(tài)Sn外,還需要目標(biāo)值target.對于MDP四元組(Sn,An,Rn-Cn,Sn+1),DQL目標(biāo)值滿足:
(27)
原始網(wǎng)絡(luò)在經(jīng)驗(yàn)池中選取樣本,通過目標(biāo)網(wǎng)絡(luò)得到選取每一樣本對應(yīng)的目標(biāo)值,通過損失函數(shù)和梯度下降方法更新原始網(wǎng)絡(luò)參數(shù),其損失函數(shù)為:
-Q(Sn,An,ω1)]2
(28)
該損失函數(shù)是一個(gè)殘差模型,表示為Q(Sn,An,ω1)和預(yù)測值之間差的平方.過程如圖2所示.
圖2 DQL算法結(jié)構(gòu)
此外,DQL采用經(jīng)驗(yàn)回放機(jī)制克服了學(xué)習(xí)算法的不穩(wěn)定性,并在一定程度上解決相關(guān)性及非靜態(tài)分布問題.經(jīng)驗(yàn)池的數(shù)據(jù)結(jié)構(gòu)為隊(duì)列,以先進(jìn)先出的原則存儲數(shù)據(jù).當(dāng)達(dá)到最大容量時(shí)覆蓋最先存儲的數(shù)據(jù),保證數(shù)據(jù)的時(shí)效性.當(dāng)需要使用樣本時(shí),通過指針實(shí)現(xiàn)隨機(jī)取一部分樣本作為神經(jīng)網(wǎng)絡(luò)的輸入,更新神經(jīng)網(wǎng)絡(luò)參數(shù),打亂神經(jīng)網(wǎng)絡(luò)多次輸入數(shù)據(jù)間的相關(guān)性,極大程度上地滿足神經(jīng)網(wǎng)絡(luò)作為有監(jiān)督學(xué)習(xí)對輸入數(shù)據(jù)的獨(dú)立同分布要求.因此,神經(jīng)網(wǎng)絡(luò)不僅可以學(xué)習(xí)當(dāng)前的經(jīng)歷,還可以學(xué)習(xí)曾經(jīng)的經(jīng)驗(yàn),提高神經(jīng)網(wǎng)絡(luò)的效率.
DQL算法在算法1中描述.算法的輸入包括學(xué)習(xí)率u、折扣因子γ、訓(xùn)練間隔Nb、參數(shù)更新間隔Nw、訓(xùn)練所取樣本數(shù)Ns、貪婪因子ε、經(jīng)驗(yàn)池容量LM和神經(jīng)網(wǎng)絡(luò)參數(shù)ω1、ω2.輸出為狀態(tài)動作對的Q值.算法的訓(xùn)練過程分成內(nèi)外兩個(gè)循環(huán),其中外循環(huán)為迭代過程,通過不同的初始狀態(tài)輸入,盡可能遍歷所有情況,通過內(nèi)循環(huán)不斷更新神經(jīng)網(wǎng)絡(luò)參數(shù),使所得策略不斷逼近最優(yōu)策略.內(nèi)循環(huán)為神經(jīng)網(wǎng)絡(luò)參數(shù)更新過程.具體地說,在塊n時(shí),狀態(tài)為狀態(tài)Sn(初始值為S0),首先通過ε貪婪策略選擇動作,貪婪策略是指以ε的概率從動作空間中隨機(jī)選擇一個(gè)動作,以1-ε的概率選擇Q(Sn,An,ω1)值最大的動作.然后將所得的狀態(tài)與動作通過前文所提出的狀態(tài)轉(zhuǎn)移、獎(jiǎng)勵(lì)值和開銷計(jì)算公式,得到下一狀態(tài)Sn+1、當(dāng)前報(bào)酬Rn-Cn,并整合成樣本(Sn,An,Rn-Cn,Sn+1)存儲在經(jīng)驗(yàn)池中,便于后續(xù)采用,重復(fù)這一過程直至循環(huán)結(jié)束.這一過程模擬環(huán)境的按時(shí)序變化,但貪婪策略在選擇動作時(shí)需通過神經(jīng)網(wǎng)絡(luò)計(jì)算Q值,需要更新神經(jīng)網(wǎng)絡(luò)以便找到每個(gè)狀態(tài)所對應(yīng)的最優(yōu)策略.為此在內(nèi)循環(huán)中加入訓(xùn)練過程,即每隔Nb個(gè)時(shí)間塊,從經(jīng)驗(yàn)池中隨機(jī)抽取一小批Ns個(gè)樣本作為神經(jīng)網(wǎng)絡(luò)的輸入,通過公式(27)、公式(28)和梯度下降法更新參數(shù)ω1,同時(shí)為打亂樣本間的相關(guān)性,此過程不更新參數(shù)ω2.為保證目標(biāo)神經(jīng)網(wǎng)絡(luò)參數(shù)的時(shí)效性,每隔Nw個(gè)時(shí)間塊使兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)相等.
算法1.最大化混合通信收包率算法
輸入:u,γ,Nb,Ns,Nw,ε,LM,ω1,ω2
輸出:Q(Sn,An,ω1)
1.forepisode=0,1,2,…do
2. 初始化狀態(tài)S0
3.forn=0,1,2,…,nmaxdo
4. 隨機(jī)產(chǎn)生0到1之間的一個(gè)數(shù)p
5.ifp≤εthen
6. 隨機(jī)選擇一個(gè)行為An
7.else
8. 將狀態(tài)Sn(初始值為S0)作為參數(shù)輸入原始神經(jīng)網(wǎng)絡(luò),得到所有行為的Q(Sn,An,ω1)集合,選擇Q值最大的行為An
9.endif
10. 得到環(huán)境中的信道增益,并根據(jù)狀態(tài)Sn和行為An,從環(huán)境中得到報(bào)酬Rn-Cn,環(huán)境狀態(tài)變?yōu)镾n+1
11. 將樣本(Sn,An,Rn-Cn,Sn+1)存儲至經(jīng)驗(yàn)池中
12. 每隔Nb次抽取Ns個(gè)樣本,并利用目標(biāo)神經(jīng)網(wǎng)絡(luò)和計(jì)算每個(gè)樣本的目標(biāo)值
13. 利用損失函數(shù)和梯度下降方法更新原始神經(jīng)網(wǎng)絡(luò)的參數(shù)ω1
14. 每隔Nw次更新目標(biāo)神經(jīng)網(wǎng)絡(luò)參數(shù)ω2=ω1
15.endfor
16.endfor
采用Python3.8實(shí)現(xiàn)文中算法,實(shí)驗(yàn)環(huán)境Win10系統(tǒng),Intel Core i5 2.40GHz CPU,8GB內(nèi)存.使用Tensor Flow搭建卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)隱藏層間均為全連接,且每層隱藏層有100個(gè)神經(jīng)元.SARSA、Q學(xué)習(xí)和深度Q網(wǎng)絡(luò)的學(xué)習(xí)率和折扣因子一致,分別為0.001和0.9,ε初始值設(shè)置為1,并在每次迭代過程中以0.995的相關(guān)系數(shù)降低直至0.1.隨機(jī)抽取的樣本數(shù)目Ns為32,總樣本容量LM為500.內(nèi)循環(huán)次數(shù)nmax為1000,Nb=5,Nw=200.反向散射和主動通信的傳輸速率分別為10kbps和30kbps,數(shù)據(jù)到達(dá)速率為5kbps,計(jì)算包個(gè)數(shù)向上取整.數(shù)據(jù)包的長度受反向散射通信協(xié)議限制,取值范圍為48-528比特,且為8的倍數(shù),本文實(shí)驗(yàn)為128比特.其他實(shí)驗(yàn)參數(shù)設(shè)置見表1.
表1 實(shí)驗(yàn)參數(shù)設(shè)置
本小節(jié)通過改變不同的參數(shù),使用SARSA算法對本章節(jié)所歸納的數(shù)學(xué)模型進(jìn)行求解,比較長期平均收包率.考慮強(qiáng)化學(xué)習(xí)算法僅能得到最優(yōu)策略,因此從任一狀態(tài)開始,依照最優(yōu)策略選擇動作,進(jìn)而狀態(tài)轉(zhuǎn)移并計(jì)算報(bào)酬,重復(fù)1000次取報(bào)酬平均值即為最終的長期平均收包率.
首先,在不同的數(shù)據(jù)包長度下,比較信道忙碌概率與收包率之間的關(guān)系.由圖3可以看出,無論數(shù)據(jù)包長度為何值,收包率總是隨著信道忙碌概率的增加而增加.這是因?yàn)殡S著信道概率增加,物聯(lián)網(wǎng)設(shè)備具有更高的可能性進(jìn)行捕獲后傳輸或者是反向散射通信,從而提升整體收包率.對于不同數(shù)據(jù)包長度而言,數(shù)據(jù)包長度越小,收包率越高,這是因?yàn)槭瞻适钦`碼率的冪函數(shù),呈正相關(guān)變化.在高信道概率情況下,收包率差距較為明顯.當(dāng)信道概率為0.9時(shí),L=256時(shí)的收包率相對于L=512提升了5%,當(dāng)信道概率為1時(shí),L=128時(shí)的收包率相對于L=256提升了7.5%,這是因?yàn)樵谛诺烂β禃r(shí),物聯(lián)網(wǎng)設(shè)備更有可能進(jìn)行反向散射和有干擾的主動傳輸,這兩種通信所產(chǎn)生的收包率都低于無干擾的主動傳輸,因此數(shù)據(jù)包長度對收包率影響明顯.
圖3 不同包長度下信道忙碌概率對收包率的影響
而當(dāng)信道忙碌概率較低時(shí),出現(xiàn)數(shù)據(jù)包長度越大,收包率越高的情況,此時(shí)3種數(shù)據(jù)包情況所得的收包率接近,但由于數(shù)據(jù)容量限制代價(jià)函數(shù)的影響,數(shù)據(jù)包長度越小,所接收數(shù)據(jù)包越多,接收數(shù)據(jù)包越容易達(dá)到數(shù)據(jù)存儲最大容量,丟包代價(jià)越高,收包率越低.
其次,在不同數(shù)據(jù)包長度下,比較數(shù)據(jù)包到達(dá)概率對收包率的影響,如圖4所示.隨著數(shù)據(jù)包到達(dá)概率增加,收包率呈現(xiàn)先增加后平緩的趨勢.這是因?yàn)榈偷竭_(dá)概率情況下,數(shù)據(jù)包較少,未能到達(dá)通信所需的最少數(shù)據(jù)包數(shù),物聯(lián)網(wǎng)設(shè)備只能采取休眠或能量捕獲,而在本文中認(rèn)為該類動作收包率為0,因此收包率較低.在高到達(dá)概率時(shí),數(shù)據(jù)隊(duì)列中的數(shù)據(jù)包數(shù)已達(dá)到傳輸要求,因此到達(dá)概率增加并不會對收包率造成影響.同樣,由于不同包長度原因,傳輸所要求的最小數(shù)據(jù)包不一致,數(shù)據(jù)包長度越大,所要求的數(shù)據(jù)包值越小,到達(dá)概率較低便可滿足傳輸條件,也就是長度越大,越早趨于平緩的原因.對于不同數(shù)據(jù)長度對收包率的影響.在高數(shù)據(jù)到達(dá)概率時(shí),數(shù)據(jù)包長度越小,收包率越高,是因?yàn)閿?shù)據(jù)量充足的情況下收包率與包長正相關(guān).在數(shù)據(jù)低到達(dá)概率下,包長度越長就越容易有足夠的數(shù)據(jù)包進(jìn)行傳輸,從而收包率也就越高.
圖4 不同包長度下數(shù)據(jù)到達(dá)概率對收包率的影響
然后,由于本文假定在信道忙碌時(shí)物聯(lián)網(wǎng)設(shè)備可進(jìn)行主動傳輸,希望能研究該方案對長期平均收包率的影響,如圖5所示,其中HTI表示物聯(lián)網(wǎng)設(shè)備可以在信道忙碌時(shí)主動傳輸,HT則表示無法主動傳輸.從圖中可以看出,當(dāng)信道忙碌概率較低,即η≤0.6時(shí),該方案對最終結(jié)果的影響不大,HT的收包率平均為HTI的98.56%,最低為97.8%.而當(dāng)信道忙碌概率增加,兩條曲線有了較為明顯的差值,原因有二,一是信道空閑可能性低,HT主動傳輸時(shí)間少,只能采用收包率較低的反向散射來進(jìn)行數(shù)據(jù)傳輸,尤其是在信道一直處于忙碌(η=1)時(shí),HTI相較于HT提升13%.二是電池能量充足甚至溢出,反向散射速率超過數(shù)據(jù)到達(dá)的速率,因此物聯(lián)網(wǎng)設(shè)備在信道忙碌時(shí)不僅可以反向散射傳輸所接收的數(shù)據(jù),還能進(jìn)行能量捕獲,在擁有充足能量情況下,即使存在干擾,主動傳輸收包率也超過反向散射通信的收包率,因此在0.7≤η≤0.9時(shí),HTI相較于HT平均提升了6.6%,最低也提升了4.27%.由此可見,本文所假設(shè)信道忙碌可主動傳輸方案在高信道概率時(shí)能小幅度提升混合通信收包率.
圖5 不同傳輸方案在不同信道忙碌概率下的收包率對比情況
然后,在圖6中,研究了本文所提出的SARSA與Q學(xué)習(xí)、深度Q學(xué)習(xí)在不同信道忙碌概率的收包率.雖然Q學(xué)習(xí)在η=0.7時(shí)其收包率優(yōu)于SARSA算法,但在其余情況下均略遜于SARSA算法.在低信道忙碌概率時(shí)SARSA相對提升了近15%,正如前文所述,作為同一策略的在線學(xué)習(xí)算法,SARSA更容易尋找最優(yōu)策略,從當(dāng)前狀態(tài)開始找到一條更優(yōu)的路線,而不是像Q學(xué)習(xí)那樣只著眼于下一狀態(tài)最大值,而忽略Q值更新與下一動作之間的關(guān)聯(lián)性,這兩類方法的計(jì)算復(fù)雜度一致.因此,在考慮長期平均目標(biāo)最優(yōu)策略求解過程中,SARSA算法比Q學(xué)習(xí)更適合,能求得更佳的狀態(tài)-最優(yōu)動作對,有效提升最終結(jié)果.而深度Q學(xué)習(xí)由于采用神經(jīng)網(wǎng)絡(luò),可以采用連續(xù)狀態(tài)空間,因此所得的最優(yōu)策略均高于SARSA和Q學(xué)習(xí)這類表格法,但是神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度略高于表格法,而且計(jì)算運(yùn)行時(shí)間相對較長,因此應(yīng)適當(dāng)根據(jù)設(shè)備條件和計(jì)算能力選擇相應(yīng)強(qiáng)化學(xué)習(xí)方法.
圖6 不同強(qiáng)化學(xué)習(xí)方法在不同信道忙碌概率下的收包率對比情況
最后,在圖7中對比了不同信道忙碌概率下長期平均收包率與瞬時(shí)平均收包率.瞬時(shí)收包率是指物聯(lián)網(wǎng)設(shè)備僅考慮當(dāng)前時(shí)間塊的最佳動作,不考慮采取該動作對后續(xù)選擇動作的影響,同樣計(jì)算1000次取平均值,即為瞬時(shí)平均收包率.由圖7可以看出,長期平均收包率一直高于瞬時(shí)平均收包率.在高信道忙碌概率下(η≥0.7),長期平均收包率相較于瞬時(shí)收包率平均提升了8.35%,最高提升10.18%;而在低信道忙碌概率下平均提升52.57%,最高提升了120%(η=0.1時(shí),此時(shí)長期平均收包率為0.017,而瞬時(shí)平均收包率僅為0.0078).這是因?yàn)樗矔r(shí)收包率僅關(guān)注當(dāng)前情況,無法考慮自身行為對下一狀態(tài)的影響,在周圍信號不足時(shí)急于消耗自身資源造成后續(xù)傳輸能力下降,降低系統(tǒng)的收包率.因此,長期平均收包率這一目標(biāo)可適應(yīng)較為惡劣的環(huán)境,及時(shí)調(diào)整自身工作模式,顯著提升整體網(wǎng)絡(luò)性能.
圖7 長期平均和順時(shí)平均收包率在不同信道忙碌概率下的對比情況
針對混合通信系統(tǒng)收包率優(yōu)化問題,提出了一個(gè)最優(yōu)策略求解過程,通過工作模式選擇和主動傳輸發(fā)射功率分配來最大化長期平均收包率.考慮了信道忙碌狀態(tài)下物聯(lián)網(wǎng)設(shè)備主動傳輸方案,提出了數(shù)據(jù)包容量限制的開銷問題并歸納了不同通信方式的誤碼率和收包率計(jì)算過程,而后提出基于在線控制策略的SARSA算法和連續(xù)狀態(tài)的深度Q學(xué)習(xí)算法來獲得在線最優(yōu)解.通過仿真實(shí)驗(yàn),研究了不同包長度與信道忙碌概率和數(shù)據(jù)到達(dá)概率的關(guān)系.此外,對所采用的傳輸方案和在線算法與Q學(xué)習(xí)方法進(jìn)行了對比與分析.在未來希望能考慮多傳感器節(jié)點(diǎn)的混合通信場景,將強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)際,驗(yàn)證其效能.