卞佩倫,包學(xué)才,譚文群,康忠祥
(南昌工程學(xué)院 1.信息工程學(xué)院;2.江西省水信息協(xié)同感知與智能處理重點實驗室,江西 南昌 330099)
生態(tài)環(huán)境監(jiān)測是生態(tài)文明建設(shè)的基礎(chǔ),當(dāng)前圖像監(jiān)測已成為促進治理生態(tài)環(huán)境的重要技術(shù)手段。但由于圖像監(jiān)測的能量消耗大,傳統(tǒng)基于有限容量電池供電的監(jiān)測傳感網(wǎng)絡(luò)時常造成圖像監(jiān)測中斷,而對于偏遠地區(qū),頻繁更換電池人工成本高且不切實際,如何解決偏遠地區(qū)持續(xù)性圖像監(jiān)測是目前需要解決的重要問題之一。近年來,基于外部獲取能量(如太陽能、風(fēng)能等)的能量獲取傳感網(wǎng)絡(luò)技術(shù)為偏遠地區(qū)圖像監(jiān)測提供了解決方案。然而,太陽能獲取隨氣候環(huán)境變化,能量到達具有一定的隨機動態(tài)特性,導(dǎo)致傳統(tǒng)基于固定電池供電的傳感網(wǎng)絡(luò)優(yōu)化方法不適用于能量獲取傳感網(wǎng)絡(luò)。因此,提出有效的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)能量管理技術(shù)對解決偏遠地區(qū)持續(xù)性圖像監(jiān)測具有重要作用和意義。
目前,國內(nèi)外許多學(xué)者針對上述能效優(yōu)化問題提出了許多創(chuàng)新的解決方案。文獻[1]以最小化非目標(biāo)接收基站的平均旁瓣幅值為優(yōu)化目標(biāo),提出了基于改進蟻群算法的圖像壓縮傳輸波束成形節(jié)點選擇算法,提出算法中的啟發(fā)函數(shù)不僅考慮到獲取能量和圖像壓縮中的傳輸能量,而且在信息素更新公式中也結(jié)合剩余能量和非目標(biāo)接收基站的平均旁瓣性能,從而進一步改善傳感網(wǎng)絡(luò)中圖像監(jiān)測與壓縮傳輸中的能效性能。文獻[2]在各類經(jīng)典路由協(xié)議的基礎(chǔ)上,綜合考慮到節(jié)點的密集程度以及能量平衡等因素,提出了一種基于能量供給的分簇單跳路由協(xié)議,旨在平衡傳感網(wǎng)絡(luò)中的能量消耗,從而延長網(wǎng)絡(luò)的壽命。文獻[3]提出的REC算法通過采用動態(tài)分區(qū)的方法來降低重新成簇所造成的能量損耗,從而提升數(shù)據(jù)傳輸效率和網(wǎng)絡(luò)生存周期。文獻[4]基于網(wǎng)絡(luò)節(jié)點的角色劃分,采用了一種多跳分層路由方案來平衡每個節(jié)點的能耗以傳輸圖像。而文獻[5]從網(wǎng)絡(luò)擁塞的角度出發(fā),考慮到簇頭節(jié)點的最大利用率,提出了一種基于簇結(jié)構(gòu)的路由協(xié)議,通過平衡每個簇的節(jié)點數(shù)量,從而減少網(wǎng)絡(luò)中可能出現(xiàn)的擁塞并降低能耗。除卻路由協(xié)議自身的創(chuàng)新,越來越多的研究人員在開始采用強化學(xué)習(xí)來優(yōu)化傳感節(jié)點的能量管理,并基于仿真實現(xiàn)了一定的結(jié)果。文獻[6]采用由電池供電的傳感器來指導(dǎo)強化學(xué)習(xí)系統(tǒng)采取相關(guān)操作,其方案運用基于固定策略的SARSA算法研究天氣、電池退化和硬件對系統(tǒng)的影響。文獻[7]和文獻[8]則是將強化學(xué)習(xí)用于維持永久運行并滿足能量收集型傳感器的吞吐量需求。文獻[9]采用強化學(xué)習(xí)來優(yōu)化能量收集節(jié)點的采樣工作,但是,這一算法是針對室內(nèi)環(huán)境下構(gòu)建和測試的,該環(huán)境在一天中的光照強度基本保持一致且富有規(guī)律性。文獻[10]則是基于5個傳感器節(jié)點在5 d內(nèi)收集的數(shù)據(jù)來優(yōu)化能效,但是,其設(shè)計的獎勵函數(shù)不取決于電池電量或消耗的能量,因此無法捕獲實際情況。文獻[11]提出了RLMAN系統(tǒng),該系統(tǒng)采用了具有線性函數(shù)逼近作用的actor-critic算法,并使用現(xiàn)有的室內(nèi)和室外光照數(shù)據(jù)進行模擬,但并未說明其內(nèi)存和計算要求。
由上述研究分析可知,當(dāng)前研究主要針對無線傳感網(wǎng)絡(luò)中節(jié)點的能量管理問題,提出了各類能效優(yōu)化方案和路由改進協(xié)議,但在環(huán)境模擬方面,還存在一定的局限性,主要體現(xiàn)在兩個方面:一是對太陽能獲取量白天晝夜交替考慮不足,忽略夜間的太陽能獲取量幾乎為零情況。二是對于連續(xù)長時間陰雨天氣情況的優(yōu)化性能也沒有進行系統(tǒng)研究和分析,對保證持續(xù)有效的監(jiān)測還需進一步分析。
為此,針對偏遠地區(qū)的水生態(tài)環(huán)境圖像監(jiān)測需求,即晝夜以及連續(xù)長時間陰雨天氣期間的持續(xù)有效監(jiān)測,利用強化學(xué)習(xí)中的Q-Learning算法,設(shè)計有效獎勵函數(shù),力圖提出針對不同季節(jié)不同氣候環(huán)境下的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)監(jiān)測能效優(yōu)化方法,方法基于時間差分預(yù)測,不僅實現(xiàn)學(xué)習(xí)速度更快,而且能快速尋找最優(yōu)策略和最優(yōu)動作值函數(shù),從而實現(xiàn)監(jiān)測的持續(xù)有效性和穩(wěn)定性。
目前傳感網(wǎng)絡(luò)主要以網(wǎng)狀結(jié)構(gòu)和簇結(jié)構(gòu)模型為主,對于偏遠區(qū)域水環(huán)境圖像監(jiān)測,監(jiān)測區(qū)域需要內(nèi)各節(jié)點之間的協(xié)同完成監(jiān)測任務(wù)的特點,相比之下,基于簇的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)更適合區(qū)域多節(jié)點的管理和協(xié)作。因此,本文采用基于簇結(jié)構(gòu)模型進行監(jiān)測和傳輸建模。如圖1所示,監(jiān)測節(jié)點對周圍水環(huán)境進行圖像監(jiān)測并將圖片傳輸給周圍的普通節(jié)點。之后,普通節(jié)點將監(jiān)測圖像進行壓縮處理并傳輸給簇頭節(jié)點。最后,簇頭節(jié)點將收集到的壓縮圖像發(fā)送給基站,由基站進行評估與處理,性能評估主要基于3項指標(biāo),分別是平均效用、中斷率以及能量溢出率,其中平均效用以長期的平均獎勵值來近似表示。
圖1 網(wǎng)絡(luò)模型
結(jié)合文獻[12]提出的傳感網(wǎng)絡(luò)能量模型描述可知,傳感節(jié)點監(jiān)測與傳輸能量消耗主要由監(jiān)測一次能耗、監(jiān)測頻率以及傳輸能耗等組成,具體如下所示:
EC=EM+ET,
(1)
EM=Em*Ms*Tm,
(2)
ET=ED*l.
(3)
式(1)中EC表示監(jiān)測與傳輸?shù)目偰芎模珽M表示監(jiān)測能耗,ET表示傳輸能耗。式(2)基于文獻[13]提出的能耗模型做出更改,其中Em代表節(jié)點每次監(jiān)測所消耗的能量,為固定值,Ms表示每個時隙的監(jiān)測次數(shù),Tm代表監(jiān)測所需的總時隙。所以,環(huán)境監(jiān)測的總能耗基本與監(jiān)測頻率成正比,隨著監(jiān)測頻率的提高,傳感節(jié)點的能耗也會隨之增大。而式(3)的傳輸能耗參考文獻[14]和文獻[15]提出的一階無線通信模型,ED表示傳輸每比特數(shù)據(jù)所消耗的能量,l為比特數(shù)。而本文著重研究傳感節(jié)點的監(jiān)測優(yōu)化,故總能耗近似為監(jiān)測能耗。
在本研究中,監(jiān)測節(jié)點供電模塊由蓄電池和太陽能電池板組成,節(jié)點可以根據(jù)這些太陽能板來獲取能量為蓄電池充電,蓄電池通過能量管理芯片為監(jiān)測節(jié)點提供能量。太陽能能量獲取模型采用基于文獻[15]提出的能量到達模型,如下式(4)所示:
EH=PS*SI*TS,
(4)
式中EH、PS分別表示獲取的總能量和太陽能發(fā)電量,SI表示光照強度,TS表示持續(xù)時間。根據(jù)SANIO公司生產(chǎn)的太陽能電池板數(shù)據(jù)顯示,發(fā)電量PS為0.23 μW/lux,則100 lux的光照持續(xù)600 s所產(chǎn)生的能量為13.8 MJ。所以,獲取能量的多少主要取決于當(dāng)前時間段的光照強度。
除此之外,能量獲取與季節(jié)變換也存在一定聯(lián)系。圖2展示了南昌市太陽輻射強度的監(jiān)測數(shù)據(jù),假設(shè)3-5月代表春季,6-8月代表夏季,依此類推。則如圖2所示,夏季的太陽輻射強度最高,即相對獲取的能量最多,春秋兩季近似,而冬季的太陽輻射強度最低,相對獲取的能量也最少。
圖2 太陽輻射強度監(jiān)測數(shù)據(jù)
本文在建立網(wǎng)絡(luò)模型和能量模型的工作上,綜合考慮了節(jié)點協(xié)作和能量均衡等因素,目的是為了改進不同季節(jié)不同氣候環(huán)境下無線傳感網(wǎng)絡(luò)持續(xù)性長期監(jiān)測的能量管理問題。但是,現(xiàn)階段部分優(yōu)化方案往往著重于改善當(dāng)前時刻或時隙的能量優(yōu)化管理,忽略傳感網(wǎng)絡(luò)的長期能效。因此,針對上述問題,本文提出了如式(5)~(9)所示的優(yōu)化模型。
(5)
s.t.EH+ER-EC≤Ebc,
(6)
EH≥0,
(7)
0≤ER≤Ebc,
(8)
0≤EC≤ER.
(9)
式(5)表示優(yōu)化目標(biāo)為最大化一段時間內(nèi)的累積獎勵值,其中ri表示節(jié)點在時隙i時間段內(nèi)監(jiān)測所獲得的即時獎勵值;約束條件式(6)為節(jié)點獲取能量與剩余能量的總和再減去監(jiān)測能耗不超過當(dāng)前節(jié)點的總電池容量,其中,EH表示節(jié)點的獲取能量,ER表示節(jié)點當(dāng)前剩余能量,EC表示節(jié)點圖像監(jiān)測一次的能耗,Ebc表示節(jié)點的總電池容量。
由上述優(yōu)化問題可知,每個時隙的能量獲取是隨機動態(tài)到達,且優(yōu)化目標(biāo)是要T個時隙的長期效用,傳統(tǒng)最優(yōu)化方法難以解決此優(yōu)化問題。但從現(xiàn)有文獻[9]和[16]可知,目前強化學(xué)習(xí)中Q-Learning算法在解決長期效用方面取得很好效果。為此,在本研究中,將采用Q-Learning算法對能量獲取條件下傳感節(jié)點持續(xù)性監(jiān)測的長期效用進行建模優(yōu)化,進而實現(xiàn)晝夜以及長時間陰雨環(huán)境下的網(wǎng)絡(luò)節(jié)點長期能效性能的同時,延長了整個網(wǎng)絡(luò)的壽命。
在一個典型的強化學(xué)習(xí)問題中,一個智能體開始處于一種狀態(tài)s,通過選擇一個動作a,它會收到即時獎勵r并轉(zhuǎn)移到一個新的狀態(tài)s’,這一過程稱為一個經(jīng)驗軌跡。不斷循環(huán)此過程,直到在有限時間內(nèi)達到最終狀態(tài)。智能體在每種狀態(tài)下選擇動作的方式稱為其策略π,如式(10)所示。智能體的目標(biāo)就是基于經(jīng)驗軌跡學(xué)到的數(shù)據(jù)找到最優(yōu)策略,以最大化長期獎勵R。
(10)
對于每個給定的狀態(tài)s和動作a,定義一個函數(shù)Qπ(s,a)稱為動作值函數(shù),該函數(shù)返回從狀態(tài)s開始,采取動作a然后遵循給定的策略π直到最終狀態(tài)所獲得的累積獎勵的估計值,如式(11)所示:
Qπ(s,a)=r0+γr1+γ2r2+γ3r3…,
(11)
其中γ≤1被稱為折扣因子,它定義了未來獎勵的重要性。值為0意味著只考慮短期獎勵,值為1則更重視長期獎勵。
由于Q-Learning算法是基于時間差分預(yù)測的強化學(xué)習(xí)算法,通過貝爾曼方程的遞推重寫以及時間差分預(yù)測的更新公式,就可以得到Q-Learning算法的更新公式,即整個算法的核心,如式(12)所示:
newQ(s,a)←Q(s,a)+α[r+γmaxQ′(s′,a′)-Q(s,a)].
(12)
從式(12)可以看出,除折扣因子γ外,Q-Learning算法還有一個重要的參數(shù),即學(xué)習(xí)率α,它定義了一個舊的Q值將從新的Q值那里學(xué)到的新知識占自身的比重關(guān)系。值為0意味著代理不會學(xué)到任何東西,值為1意味著新發(fā)現(xiàn)的信息是更為重要的信息。
除此之外,本方案采用的Q-Learning算法遵循ε-貪婪策略,如式(13)所示:
(13)
該策略的具體含義就是以ε的概率選擇隨機動作,否則以1-ε的概率在一定范圍內(nèi)選擇使Q值最大的動作。
為解決監(jiān)測能效優(yōu)化問題,建立了基于Q-Learning算法的優(yōu)化框架圖(如圖3所示)。圖3中傳感器節(jié)點通過太陽能電池板收集能量,然后對周圍水環(huán)境進行圖像監(jiān)測并將相應(yīng)數(shù)據(jù)發(fā)送到基站?;净谠O(shè)計Q-Learning算法優(yōu)化策略,并根據(jù)節(jié)點所反饋的狀態(tài)、環(huán)境等數(shù)據(jù)確定之后的監(jiān)測頻率,具體優(yōu)化過程闡述如下:
圖3 基于Q-Learning算法的通信框圖
智能體:本方案中,智能體是負(fù)責(zé)與傳感器節(jié)點通信的基站程序,它通過收集傳感器節(jié)點監(jiān)測到的圖像數(shù)據(jù),并向其輸出相應(yīng)的監(jiān)測頻率以此不斷獲取獎勵并更新Q值表。
環(huán)境:本方案中的環(huán)境相當(dāng)于與外部真實環(huán)境進行交互的傳感器本身。其發(fā)送的數(shù)據(jù)主要包括光照強度(即獲取到的能量)、天氣、季節(jié)等。
狀態(tài):本方案中,狀態(tài)設(shè)定為節(jié)點當(dāng)前的剩余能量。這里對傳感節(jié)點的最大儲能進行離散化處理并由高到低依次縮放為N個能量單元,節(jié)點在每個時隙內(nèi)進行一次監(jiān)測就會消耗1個能量單元,當(dāng)狀態(tài)降至0時,傳感節(jié)點的能量耗盡。離散化的作用在于減少了狀態(tài)、動作空間,因此可以減少Q(mào)-Learning算法的收斂時間。
動作:傳感器節(jié)點在每個時隙的時間段內(nèi)都會進行一定次數(shù)的環(huán)境監(jiān)測。因此,本文將每個時隙中的監(jiān)測次數(shù)設(shè)置成相應(yīng)的動作。假定共有A個動作,即{0,1,2,…,n,…,A-1},其中0表示節(jié)點進入休眠,n表示節(jié)點每個時隙監(jiān)測n次。對于每個反饋到的動作指令,傳感器會分配時隙供節(jié)點進行對應(yīng)次數(shù)的環(huán)境監(jiān)測,并且每次監(jiān)測均會消耗1個能量單元。例如,動作2對應(yīng)每個時隙的時間段內(nèi)監(jiān)測2次,即當(dāng)前時隙內(nèi)共消耗2個能量單元。
獎勵:本方案中獎勵函數(shù)的設(shè)定需要從兩方面進行考慮:一是最大化傳感器節(jié)點的動作選擇,即通過盡可能提升每個時隙內(nèi)的監(jiān)測次數(shù)從而提高長期效用;二是最小化節(jié)點狀態(tài)為0的情況,即盡量避免出現(xiàn)節(jié)點能量耗盡的情況來保證傳感網(wǎng)絡(luò)的正常工作。獎勵函數(shù)的設(shè)置能夠更好地優(yōu)化節(jié)點的動作決策,而由2.3節(jié)可知,不同環(huán)境下的能量獲取有所不同,節(jié)點的動作選擇也會有一定區(qū)別,所以需要獎勵函數(shù)對不同環(huán)境下的動作決策進行調(diào)節(jié)。本方案基于文獻[16]提出的三段式能量管理策略對節(jié)點狀態(tài)進行劃分,用sigmoid曲線函數(shù)和墨西哥帽子曲線來定性地表示白天和夜晚兩種環(huán)境下的獎勵函數(shù),并針對不同范圍的能量狀態(tài)設(shè)置了對應(yīng)的獎勵函數(shù),以便節(jié)點做出最優(yōu)選擇。具體如式(14)~(16)所示:
(14)
(15)
(16)
式中a表示動作;s表示節(jié)點狀態(tài),即當(dāng)前剩余能量;c和b分別代表對函數(shù)幅度和斜率的控制,參考文獻[16],這里分別取2和1;EH表示節(jié)點的獲取能量;Ebc表示節(jié)點的總電池容量;rc和rs都表示智能體在白天所獲得的即時獎勵值,其中,rc表示陰雨環(huán)境下所獲得的即時獎勵值,智能體會根據(jù)獲取能量、剩余能量的占比等信息來獲得不同大小的獎勵值;rs表示晴天環(huán)境下所獲得的即時獎勵值,智能體所收到的獎勵值大小主要依賴于獲取能量以及動作等因素。而rn則表示夜晚環(huán)境下所獲得的即時獎勵值,評判標(biāo)準(zhǔn)僅依靠所選擇的動作大小,動作越大,智能體最后得到的獎勵值會相應(yīng)降低,節(jié)點會收到負(fù)向反饋以節(jié)約能量。而當(dāng)節(jié)點的狀態(tài)s為0時,為了后期減少節(jié)點出現(xiàn)能量耗盡的狀況,故還需要設(shè)置懲罰函數(shù)以協(xié)助節(jié)點對3種不同環(huán)境下的動作決策進行約束。式中rmax表示當(dāng)前環(huán)境下最大的即時獎勵值,因為懲罰函數(shù)的設(shè)定應(yīng)該使得當(dāng)前環(huán)境下,每個時隙內(nèi)最大化監(jiān)測次數(shù)所獲得的即時獎勵不超過監(jiān)測中斷所帶來的損害。
根據(jù)上述優(yōu)化過程以及設(shè)計獎勵函數(shù),設(shè)計了基于Q-Learning的自適應(yīng)持續(xù)監(jiān)測優(yōu)化方法,步驟如下:
Step1:初始化Q值表為0,同時設(shè)置初始化狀態(tài)s、動作a、即時獎勵r、獲取能量EH、總電池容量Ebc、季節(jié)W、氣候C、時間T、折扣因子γ、學(xué)習(xí)率α、經(jīng)驗軌跡等相關(guān)參數(shù)。
Step2:設(shè)置貪婪系數(shù)ε∈(0.1,1),引用式(14),傳感節(jié)點會遵循貪婪策略選擇動作a。由于ε是處于0.1~1之間的參數(shù),若初始化為1,該算法會在學(xué)習(xí)階段選擇隨機動作;若初始化為0.1,其會更傾向于選擇使得Q值最大的動作序列。
Step3:節(jié)點依據(jù)學(xué)習(xí)到的策略和自身的狀態(tài)s在時間T內(nèi)與環(huán)境進行交互。其中,白天和夜晚均會分配一定數(shù)量的時隙供節(jié)點進行監(jiān)測。且每當(dāng)晝夜交替時,氣候C會依據(jù)當(dāng)前季節(jié)W下的氣候分布規(guī)律按照一定概率在晴天和陰雨天之間進行切換。具體操作如下:
若檢測到當(dāng)前環(huán)境為白天且自身狀態(tài)s>0,首先判斷所處氣候,若C=1,即陰雨天,節(jié)點會選擇某一動作a消耗對應(yīng)能量得到下一狀態(tài)s′,并根據(jù)式(14)收到即時獎勵rc。若C=2,即晴天,節(jié)點則需要根據(jù)式(15)以獲取即時獎勵rs。
若檢測到當(dāng)前環(huán)境為夜晚且自身狀態(tài)s>0,引用式(16),在選擇完某一動作a消耗能量后得到下一狀態(tài)s′和即時獎勵rn。
若判斷當(dāng)前狀態(tài)s=0,節(jié)點會強制進入休眠并受到懲罰,即時獎勵r=-rmax。
Step4:引用式(12),利用交互得到的即時獎勵r和新的節(jié)點狀態(tài)s′對Q值表進行更新。其中,r+γmaxQ′(s′,a′)是采取動作a后得到的即時獎勵r加上通過選擇具有最高Q值的動作獲得的獎勵,而Q(s,a)是當(dāng)前Q值表中狀態(tài)動作對的值,它們之間的差值由學(xué)習(xí)因子α縮放。
Step5:能量獲取。節(jié)點依據(jù)能量獲取模型從環(huán)境獲得能量EH,結(jié)合當(dāng)前狀態(tài)s′相加得到新的狀態(tài)s″。
Step6:當(dāng)前經(jīng)驗軌跡在時間到達最大值T后結(jié)束。新的經(jīng)驗軌跡中,節(jié)點初始狀態(tài)s被賦予上一軌跡的最終狀態(tài)s″。若經(jīng)驗軌跡未到達閾值,跳轉(zhuǎn)至step2;反之算法結(jié)束。
為了驗證基于Q-Learning的自適應(yīng)監(jiān)測能效優(yōu)化算法的性能,本文從陰雨以及晝夜等環(huán)境下進行分析。由于目前針對陰雨以及晝夜交替環(huán)境下的長期持續(xù)性自適應(yīng)算法較少,為驗證提出算法能有效改善目前監(jiān)測能效和提升監(jiān)測持續(xù)性,下面將提出方法與傳統(tǒng)監(jiān)測節(jié)點隨機選取監(jiān)測次數(shù)方法(Random方法)以及基于文獻[17]提到的貪婪算法的最大化監(jiān)測次數(shù)方法(Greedy方法)進行比較。對比均基于相同能量收集的情況下進行,且分別從3個方面評判提出方法與其余兩種方法的性能:平均效用、中斷率和溢出率。
同時,本次實驗基于python3.0仿真環(huán)境來評估整套方案??紤]到算法的收斂速度以及仿真結(jié)果的展示,在仿真之前需要對狀態(tài)、動作以及能量獲取進行離散化設(shè)置。首先將節(jié)點狀態(tài)s設(shè)定為0~72共73個能量單元,即電池總?cè)萘縀bc;動作a設(shè)定為0~3共4個動作,即節(jié)點每個時隙監(jiān)測0~3次;每個時隙設(shè)定為1 h,且系統(tǒng)會在白天和夜晚平均分配共16個時隙供節(jié)點進行監(jiān)測。而在能量獲取方面,由于晴天的實際室外光照強度較大,故所獲取的能量區(qū)間EH為3~6個能量單元;陰雨天的實際室外光照強度較小,故所獲取的能量區(qū)間EH為0~2個能量單元;而夜晚幾乎沒有光照,故所獲取的能量單元EH設(shè)置為0。最后,表1列出了本次仿真所需要的其他相關(guān)參數(shù)。
表1 仿真參數(shù)設(shè)置
下面將結(jié)合陰雨環(huán)境和晝夜交替環(huán)境對3種算法的性能進行對比分析,具體如下。
按照上述仿真環(huán)境,模擬陰雨天氣以及晝夜交替的環(huán)境特點,研究基于Q-Learning的能效優(yōu)化算法配置下的傳感節(jié)點在陰雨天氣占比不同的情況下其狀態(tài)和動作變化過程,并結(jié)合其他算法分析其性能優(yōu)勢。其中,為了著重研究惡劣天氣下的算法性能,故不會出現(xiàn)陰雨天氣占比較低的情況。
3.2.1 陰雨天氣占比70%情況下基于Q-Learning的能效優(yōu)化算法性能及對比分析
在陰雨天氣占比約70%的情況下,圖4是基于Q-Learning的能效優(yōu)化算法經(jīng)過15 d的節(jié)點狀態(tài)-動作仿真圖,季節(jié)設(shè)置為雨季分布更為密集的春季。如圖4所示,圖中的3類曲線分別代表離散化后的獲取能量EH、節(jié)點狀態(tài)s和動作a這3項要素。在這15 d時間里,由于大概率陰雨環(huán)境下能量獲取相對匱乏,傳感節(jié)點在動作的選擇方面需要考慮到最大化節(jié)點長期效用與最小化能量耗盡情況的總體目標(biāo)。所以在初期,節(jié)點剩余能量充足,傾向于選擇高能耗動作以獲取更高的獎勵值。隨著天數(shù)遞增,剩余能量逐漸減少,節(jié)點會根據(jù)獎勵函數(shù)的反饋來優(yōu)化自身的動作選擇,在保證白天能夠穩(wěn)定工作的情況下盡可能減小監(jiān)測次數(shù)以避免能量耗盡,從而使得夜晚環(huán)境下節(jié)點依然擁有充足的能量來維持環(huán)境監(jiān)測,剩余能量匱乏的情況也會得到相應(yīng)改善,說明了基于Q-Learning的算法在提升節(jié)點的長期效用的同時也有利于維持節(jié)點的長期生存。
圖4 混合環(huán)境下的節(jié)點狀態(tài)-動作圖(15 d)
為了進一步驗證基于Q-Learning的能效優(yōu)化算法在平均效用、中斷率以及溢出率三方面的性能表現(xiàn),故基于相同環(huán)境并結(jié)合上一節(jié)提到的兩種方法進行對比,結(jié)果如圖4所示。總時間設(shè)置為150 d,每15 d計算并統(tǒng)計10次數(shù)值取平均。
圖5 三種算法的性能指標(biāo)對比(混合環(huán)境)
首先,在平均效用方面,由于Q-Learning擅長考慮序列問題和長期回報,從而提升節(jié)點長期效用。所以,如圖5(a)所示,基于Q-Learning的能效優(yōu)化算法配置下的節(jié)點效用能夠大幅度領(lǐng)先其余兩種方法,并一直穩(wěn)定在0.8左右。其次,在中斷率方面,由于Q-Learning對環(huán)境具有強大的適應(yīng)能力,能夠及時調(diào)整節(jié)點的工作模式。所以,在保證可用能量足夠的情況下,如圖5(b)所示,優(yōu)化后的節(jié)點中斷率對比其余兩種方法有明顯的降低,并一直穩(wěn)定于5%以下,這說明基于Q-Learning的能效優(yōu)化算法能夠有效延長傳感網(wǎng)絡(luò)的生命周期。最后,在溢出率方面,從圖5(c)可以看出,由于Greedy方法擅長最大化監(jiān)測次數(shù)來提升短期效用,所以節(jié)點幾乎不會出現(xiàn)剩余能量溢出的情況。而本文提出的方案在保證節(jié)點能量耗盡的前提下,同樣能夠自適應(yīng)調(diào)整動作能級來消耗多余的可用能量。
圖6 混合環(huán)境下的節(jié)點狀態(tài)-動作圖(15 d)
3.2.2 陰雨天氣占比50%情況下基于Q-Learning的能效優(yōu)化算法性能及對比分析
在陰雨天氣占比約50%的情況下,圖6是基于Q-Learning的能效優(yōu)化算法經(jīng)過15 d的節(jié)點狀態(tài)-動作仿真圖,季節(jié)設(shè)置為雨季分布相對平均的夏季。如圖6所示,當(dāng)晴天與陰雨天氣下逐漸持平時,節(jié)點的能量獲取會相應(yīng)得到改善,傳感節(jié)點在動作的選擇對比上一節(jié)會更加靈活,在總體保持低能耗監(jiān)測的基礎(chǔ)上,會更傾向于選擇較高能耗的動作以獲得更多獎勵值。除此之外,節(jié)點進入休眠狀態(tài)的次數(shù)對比上一節(jié)也明顯降低,其剩余能量水平也一直較為充足,同樣驗證了基于Q-Learning的能效優(yōu)化算法能夠有效維持傳感網(wǎng)絡(luò)的持續(xù)監(jiān)測和長期生存。
為了進一步驗證在陰雨天氣占比約50%的環(huán)境下,基于Q-Learning的能效優(yōu)化算法在平均效用、中斷率以及溢出率三方面的性能表現(xiàn)。同樣地,結(jié)合之前提到的兩種方法進行對比,結(jié)果如圖7所示。
圖7 三種算法的性能指標(biāo)對比(混合環(huán)境)
首先,在平均效用方面,如圖7(a)所示,本方案優(yōu)化后的節(jié)點效用依然能夠在一定程度上領(lǐng)先其余兩種方法,并于1.2上下浮動。其次,在中斷率方面,由于仿真環(huán)境發(fā)生變化,可用能量相對充足,如圖7(b)所示,優(yōu)化后的節(jié)點中斷率幾乎為0,只會偶爾出現(xiàn)監(jiān)測中斷的情況。最后,在溢出率方面,與之前相似,基于Q-Learning的能效優(yōu)化算法能夠通過自適應(yīng)調(diào)節(jié)動作能級以規(guī)避長時間能量溢出的情況。
綜合來看,仿真實驗分別從平均效用、中斷率與能量溢出這三個方面對提出的方案和另外兩種方法進行對比,從仿真結(jié)果可以看出,本方案基于Q-Learning算法能夠有效適應(yīng)復(fù)雜多變的環(huán)境,從而調(diào)整節(jié)點的動作決策,平衡節(jié)點能效,在滿足能量最大化利用的同時顯著延長了網(wǎng)絡(luò)的生命周期,保證了太陽能獲取傳感網(wǎng)絡(luò)的可持續(xù)運行。
實現(xiàn)水環(huán)境圖像持續(xù)性監(jiān)測是偏遠地區(qū)迫切需求解決的關(guān)鍵問題,也是實現(xiàn)生態(tài)環(huán)境保護的基礎(chǔ)。本文提出了一種基于Q-Learning算法的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)監(jiān)測能效優(yōu)化方案,該方案在簇結(jié)構(gòu)網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合Q-Learning算法,利用獲取到的能量特性來自適應(yīng)調(diào)整節(jié)點的圖像監(jiān)測頻率。通過設(shè)置大概率陰雨環(huán)境和晝夜交替結(jié)合下的混合監(jiān)測環(huán)境,對提出方法進行驗證對比分析,仿真結(jié)果表明基于Q-Learning算法配置的節(jié)點學(xué)會了如何適應(yīng)變化的天氣和日夜交替環(huán)境下的自適應(yīng)監(jiān)測,對通過與隨機選取監(jiān)測頻率和基于貪婪算法的最大化監(jiān)測頻率兩種策略的對比分析,在平均效用、中斷率以及能量溢出率等方面,提出方法性能均優(yōu)于后兩種策略。特別在晝夜交替的環(huán)境下,考慮到陰雨天氣和夜晚環(huán)境下光照匱乏,對比另外兩種策略,能夠大幅減少監(jiān)測中斷率,且保證傳感節(jié)點長期生存。