摘 要 在大規(guī)模無線可充電傳感器網(wǎng)絡(luò)(WRSN)中,為了解決可分離充電模式下移動充電車(MCV)充電效率低下的問題,提出一種多充電器部分充電策略(PCSMC),以避免由于等待傳感器節(jié)點進(jìn)行完全充電而導(dǎo)致剩余能量低的節(jié)點失效。首先將充電時長這種連續(xù)動作空間轉(zhuǎn)換為離散的動作空間,然后使用指針網(wǎng)絡(luò)規(guī)劃MCV的路徑并動態(tài)調(diào)整傳感器節(jié)點的充電時長,最后使用深度強化學(xué)習(xí)算法(DDQN)訓(xùn)練指針網(wǎng)絡(luò),從而生成近似最優(yōu)解。仿真結(jié)果表明,與其他充電策略相比,PCSMC在失效節(jié)點數(shù)和平均充電延遲方面分別降低了23.56%和27.71%。
關(guān)鍵詞 無線可充電傳感器網(wǎng)絡(luò) 可分離充電模式 部分充電 指針網(wǎng)絡(luò) 深度強化學(xué)習(xí)
中圖分類號 TP29" "文獻(xiàn)標(biāo)志碼 A" "文章編號 1000-3932(2024)06-1053-08
作為信息獲取的重要手段之一,無線傳感器網(wǎng)絡(luò)(Wireless Sensor Networks,WSN)在物聯(lián)網(wǎng)領(lǐng)域有著廣泛的應(yīng)用[1,2]。然而能量約束問題一直是制約WSN發(fā)展的重要因素。隨著無線能量傳輸技術(shù)[3]的突破,在WSN中布署一個移動充電車(Mobile Charging Vehicles,MCV)可以有效緩解傳感器節(jié)點的能量饑餓現(xiàn)象,無線可充電傳感器網(wǎng)絡(luò)(Wireless Rechargeable Sensor Networks,WRSN)[4]也因此應(yīng)運而生。MCV能夠為傳感器節(jié)點提供高效、及時的充電服務(wù),且充電過程可控、可預(yù)測。從理論上講,為MCV設(shè)計一個良好的充電規(guī)劃能夠?qū)崿F(xiàn)WRSN的永久運行。因此充電規(guī)劃的設(shè)計便成了WRSN中最核心的問題之一,引起了世界范圍內(nèi)大量研究人員的關(guān)注。
為了實現(xiàn)WRSN中傳感器能量的有效補充,到目前為止,研究人員已經(jīng)提出了許多移動充電模式[5,6],這些模式分為單MCV充電模式[7,8]、多MCV充電模式[9~11]和可分離充電模式[12~14]。
針對小規(guī)模的WRSN,由于充電請求的數(shù)量少,因此使用一個MCV即可滿足網(wǎng)絡(luò)中的充電請求。文獻(xiàn)[7]利用強化學(xué)習(xí)優(yōu)秀的決策能力來解決充電規(guī)劃問題,提出了一種基于actor-critic強化學(xué)習(xí)算法的動態(tài)充電方案,根據(jù)當(dāng)前環(huán)境狀態(tài)從全局規(guī)劃充電序列。在此基礎(chǔ)上,文獻(xiàn)[8]在規(guī)劃充電序列之后,根據(jù)傳感器節(jié)點的剩余能量和等待時間動態(tài)調(diào)整節(jié)點的充電時長,通過對節(jié)點進(jìn)行部分充電解決了充電請求響應(yīng)不及時的問題。
而對于大規(guī)模的WRSN,由于單個MCV很難及時響應(yīng)急劇增加的充電請求,因此通常使用多個MCV來共同維持WRSN的正常運行。文獻(xiàn)[9]同時優(yōu)化多個MCV的調(diào)度、移動時間和充電時間,將多MCV問題轉(zhuǎn)化為混合整數(shù)線性規(guī)劃問題進(jìn)行求解。文獻(xiàn)[11]聯(lián)合考慮了多個MCV和多節(jié)點能量傳輸技術(shù),提出了一種基于模糊邏輯的按需充電方案。該方案通過考慮各種網(wǎng)絡(luò)屬性,將網(wǎng)絡(luò)分區(qū)后利用模糊邏輯對多個MCV的充電路徑進(jìn)行規(guī)劃,實現(xiàn)了較低的平均充電延遲和較高的能量利用率。然而在WRSN中布署多個MCV會導(dǎo)致網(wǎng)絡(luò)建設(shè)和運營成本過高。
在可分離充電模式中,一個MCV可以攜帶多個低成本、可分離的無線充電器為網(wǎng)絡(luò)中的傳感器節(jié)點充電,這提供了一種更高效、更具成本效益的解決方案。當(dāng)網(wǎng)絡(luò)中的傳感器節(jié)點發(fā)送充電請求時,MCV依次移動到每個傳感器節(jié)點處并在其附近布署一個分離式無線充電器(Separable Wireless Charger,SWC)為其充電,等待所有SWC完成充電任務(wù)后再回收這些SWC。文獻(xiàn)[12]提出了一種改進(jìn)的最早截至日期優(yōu)先算法來布署SWC,然而由于回收算法的不合理導(dǎo)致需要使用大量的SWC,不適用于實際情況。在文獻(xiàn)[13,14]中,MCV在回收階段沿著充電階段的路徑回收SWC,有效減少了所需SWC的數(shù)量。
然而采用這3種方案中布署的SWC對傳感器節(jié)點進(jìn)行完全充電時,一些剩余能量較低的節(jié)點因為等待時間過長而不能得到及時的能量補充,因此造成大量節(jié)點缺電失效。針對上述問題,筆者融合深度強化學(xué)習(xí)算法(Double Deep Q-Network,DDQN)和指針網(wǎng)絡(luò)對多SWC部分充電問題進(jìn)行求解,通過對節(jié)點進(jìn)行部分充電以便能夠響應(yīng)更多的傳感器節(jié)點,減少失效節(jié)點數(shù)量。
1 系統(tǒng)模型和問題定義
1.1 系統(tǒng)模型
如圖1所示,一個WRSN包括N個同質(zhì)化傳感器節(jié)點V={v■,v■,…,v■},一個配備有M個SWC(C={c■,c■,…,c■})的MCV和一個基站(Base Station,BS)。傳感器節(jié)點配備定位裝置,可以精確定位自己的位置,主要負(fù)責(zé)采集監(jiān)控區(qū)域內(nèi)的數(shù)據(jù),并通過多跳的方式將采集到的數(shù)據(jù)發(fā)送給BS。BS布署在監(jiān)測區(qū)域的中心,負(fù)責(zé)對接收到的數(shù)據(jù)進(jìn)行處理并為MCV和SWC補充能量。MCV可以與BS進(jìn)行遠(yuǎn)距離通信,完成BS下達(dá)的布署和回收任務(wù),并可通過BS快速更換電池和SWC[15]。
WRSN有兩個重要組成部分:傳感器節(jié)點和MCV。
傳感器節(jié)點。傳感器節(jié)點的能耗主要由接收數(shù)據(jù)和發(fā)送數(shù)據(jù)兩部分組成,根據(jù)文獻(xiàn)[7],使用如下能耗模型:
p■(t)=ρ■ f■(t)+■c■f■(t)+c■f■(t)" "(1)
其中,p■(t)是時刻t節(jié)點v■的能耗;ρ是1個節(jié)點接收1 Kbit/s數(shù)據(jù)的能耗;f■(t)(f■(t))是時刻t從節(jié)點v■到v■(BS)傳輸?shù)臄?shù)據(jù)流;c■(c■)是從節(jié)點v■到v■(BS)傳輸數(shù)據(jù)時的功耗,其與兩個節(jié)點之間的距離有關(guān),即:
c■=ηd■■" " " " "(2)
其中,η是一個距離相關(guān)項的系數(shù),d■為節(jié)點v■到v■的距離,γ是信號衰減系數(shù)。因此在時刻t,節(jié)點v■的剩余能量為:
re■■(t)=re■■(t-1)-p■(t)" " " (3)
則節(jié)點v■的能量需求為:
p■■(t)=E■-re■■(t)" " " "(4)
其中,E■為傳感器節(jié)點的電池容量。充電閾值TH■是影響充電效率的因素之一,當(dāng)傳感器節(jié)點的剩余能量低于TH■時,其會向BS發(fā)送一個充電請求,請求MCV布署一個SWC給其充電。若TH■設(shè)置過大,SWC在充電時只能為傳感器節(jié)點補充較少的能量,導(dǎo)致充電效率較低;若TH■設(shè)置過小,則傳感器節(jié)點很容易因為充電請求發(fā)送太晚導(dǎo)致來不及充電而失效。針對網(wǎng)絡(luò)中的動態(tài)能耗問題,筆者提出了一個動態(tài)充電閾值公式:
TH■=λE■■+1" " " "(5)
其中,λ是充電系數(shù),N■為網(wǎng)絡(luò)中請求充電的傳感器數(shù)量。因為0≤N■≤N,因此0≤N■/N≤1,可以得出λE■≤TH■≤2λE■。這種動態(tài)充電閾值既保證了請求充電的傳感器數(shù)量較少時較高的能量利用率,又防止了請求充電的傳感器數(shù)量較多時充電請求發(fā)送時間太晚而導(dǎo)致節(jié)點失效。
MCV。假設(shè)MCV以速度V■在網(wǎng)絡(luò)中移動,其所攜帶的SWC的電池容量為E■,充電速率為q■。MCV可通過遠(yuǎn)距離通信接受BS的調(diào)度,布署SWC為傳感器充電或回收完成充電任務(wù)的SWC。
1.2 問題定義
在WRSN的生命周期內(nèi),MCV在多個時間步做出的決策組成了長度為K的布署-回收序列。
定義1 WRSN的生命周期:在WRSN中,實驗?zāi)M開始到結(jié)束之間的時間稱為WRSN的生命周期。
定義2 時間步:MCV布署一個SWC給傳感器節(jié)點充電或選擇一個SWC進(jìn)行回收的時刻。
文中的目標(biāo)是最小化WRSN中的失效傳感器節(jié)點數(shù)。定義l■(t)為傳感器v■在時刻t的狀態(tài),l■(t)=0代表節(jié)點v■能夠正常工作,l■(t)=1代表該節(jié)點因為耗盡能量而失效。l■(t)可以表示為:
l■(t)=0,re■■(t)gt;01,re■■(t)=0,1≤i≤N" " "(6)
因此文中的目標(biāo)可以形式化為:
min N■=■l■(T■)" " " (7)
其中,T■為WRSN的生命周期,N■為失效傳感器節(jié)點數(shù)。
2 基于深度強化學(xué)習(xí)和指針網(wǎng)絡(luò)的求解框架
2.1 學(xué)習(xí)模型
筆者將多SWC部分充電問題建模為馬爾可夫決策過程,并使用四元組(S,A,R,S′)對其進(jìn)行定義,其中S={s■,s■,…,s■}是狀態(tài)空間,s■表示第k個時間步的狀態(tài);A={a■,a■,…,a■}是動作空間,a■表示智能體在第k個時間步執(zhí)行的動作;R為獎勵函數(shù),智能體在狀態(tài)s■下執(zhí)行動作a■后獲得的獎勵為r■,r■=R(s■,a■);S′為智能體在狀態(tài)s■下執(zhí)行動作a■后的狀態(tài)空間。
狀態(tài)空間。狀態(tài)空間由傳感器節(jié)點和SWC節(jié)點的狀態(tài)組成,表示為:
S■={node■|1≤i≤N+M,i∈Z}" "(8)
其中,node■是一個包含了位置信息和能量信息的元組,如下式所示:
node■=(x■,y■,d■)" " " (9)
其中,x■和y■分別為節(jié)點的橫縱坐標(biāo);當(dāng)1≤i≤N時,d■為傳感器節(jié)點可以補充的最大能量,當(dāng)N+1≤i≤N+M時,d■為SWC節(jié)點的剩余能量。
動作空間。動作空間包含兩個部分:MCV布署SWC給傳感器充電和回收SWC。針對部分充電問題,將連續(xù)的充電時間離散化,因此動作空間定義為:
A■={a∈Z|1≤a≤N·D+M}" " "(10)
其中,a為MCV執(zhí)行的動作,D是充電時間的離散化程度,當(dāng)1≤a≤N·D時,表示MCV布署一個SWC為傳感器節(jié)點v■補充能量,充電時間如下:
T■=■" " " (11)
其中,p■■(t)為傳感器節(jié)點v■在時刻t的能量需求,q■為SWC的充電速率,%為取余符號。為了平衡SWC的工作負(fù)載,MCV總是選擇剩余能量最多的SWC給傳感器節(jié)點充電。
當(dāng)N·D+1≤a≤N·D+M時,表示MCV回收SWCc■。
獎勵。獎勵是指智能體MCV在執(zhí)行一個動作后獲得的反饋信號,它可以對MCV所執(zhí)行的動作進(jìn)行評價。筆者將失效傳感器節(jié)點數(shù)和MCV的移動距離作為獎勵信號[16]。因此把MCV在狀態(tài)s■執(zhí)行動作a■后獲得的獎勵定義為:
rk=e■-αN■" " " "(12)
其中,l■為MCV在第k個時間步的移動距離,L■為WRSN的邊長,α為懲罰系數(shù),N■為第k個時間步傳感器節(jié)點的失效數(shù)量。
筆者使用矩陣B來表示W(wǎng)RSN中傳感器節(jié)點的充電狀態(tài):
B=b11 b12 … b1Mb21 b22 … b2M■" "■" "?塤" " ■bN1 bN2 … bNM" " " (13)
約束為:
■b■=1,?坌i≤N" " " "(14)
B是一個N行M列的矩陣。若b■=1,表示SWCcj給傳感器節(jié)點v■充電;若b■=0,表示SWCc■不給傳感器節(jié)點v■充電。約束(14)保證了一個傳感器節(jié)點只能被一個SWC充電。
為了加快訓(xùn)練和避免選擇無效節(jié)點,筆者給出了如下原則和要求:
a. MCV只給發(fā)送充電請求的傳感器節(jié)點布署SWC;
b. MCV不會給剩余能量為0的傳感器節(jié)點布署SWC;
c. MCV在BS更換SWC和補充自身能量消耗的時間為0。
2.2 指針網(wǎng)絡(luò)
如圖2所示,文中的神經(jīng)網(wǎng)絡(luò)被實現(xiàn)為一個指針網(wǎng)絡(luò)[17],其主要由兩部分組成,第1個部分是一個編碼器,其被實現(xiàn)為一個一維卷積神經(jīng)網(wǎng)絡(luò),用于對每個節(jié)點(傳感器節(jié)點和SWC節(jié)點)的特征進(jìn)行編碼,節(jié)點特征即狀態(tài)空間S■;第2個部分是解碼器,包括一個門控循環(huán)單元(Gate Recurrent Unit,GRU)網(wǎng)絡(luò)和一個注意力網(wǎng)絡(luò)。使用編碼器提取的隱藏特征作為GRU的輸入,然后將GRU的輸出以及編碼器提取的隱藏特征作為注意力網(wǎng)絡(luò)的輸入,使用注意力機制得到每個節(jié)點的關(guān)注度,最后將節(jié)點的關(guān)注度與動作空間進(jìn)行拼接輸入一個全連接層后得到每個動作的Q值。
2.3 DDQN算法
圖3為DDQN算法框架,算法使用兩個結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí):權(quán)重向量為θ的Q網(wǎng)絡(luò)和權(quán)重向量為θ′的目標(biāo)Q網(wǎng)絡(luò)。其中Q網(wǎng)絡(luò)用來預(yù)測所有動作的Q值,目標(biāo)Q網(wǎng)絡(luò)用來產(chǎn)生目標(biāo)Q值以查找貝爾曼誤差。Q值的計算公式為:
hi——節(jié)點的特征編碼;P()——輸出的概率分布;
contextt——上下文向量;" alignt——對齊向量
Q■=Q(s,a;θ)" " " (15)
其中,s為當(dāng)前狀態(tài)。
目標(biāo)Q值的計算公式為:
Q■=r+κQ(s′,■Q(s′,A;θ);θ′)" "(16)
其中,r為獎勵,κ為獎勵折扣因子,s′為下一個狀態(tài)。
使用梯度下降算法更新均方誤差損失函數(shù)中Q網(wǎng)絡(luò)的參數(shù)θ,均方誤差損失函數(shù)公式如下:
L(θ)=■■(Q■-Q■)2" " (17)
算法具體流程如下:
a. 初始化Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)的參數(shù)、經(jīng)驗池以及初始狀態(tài);
b. 根據(jù)概率ε隨機選擇一個動作,或根據(jù)1-ε的概率選擇Q值最大的動作a;
c. 執(zhí)行動作a達(dá)到新狀態(tài)s′并得到獎勵r,存儲樣本數(shù)據(jù)(s,a,r,s′)到經(jīng)驗池中;
d. 根據(jù)式(17),從經(jīng)驗池中抽取小批量數(shù)據(jù)并采用梯度下降算法更新Q網(wǎng)絡(luò)的參數(shù)θ;
e. 每經(jīng)過100次迭代后更新參數(shù)θ′為θ;
f. 更新狀態(tài)s;
g. 重復(fù)步驟b~f直到獎勵收斂。
3 仿真與性能分析
將所提方案PCSMC與現(xiàn)有方案MLSDD[13]進(jìn)行比較,并通過大量仿真實驗評估所提方案的優(yōu)勢。此外還將提供更多的實驗細(xì)節(jié)以便于更好地理解所提方案。
3.1 實驗細(xì)節(jié)
筆者構(gòu)建了一個邊長L■=600 m的正方形WRSN仿真場景,并在其中隨機布署400~1 000個傳感器節(jié)點,BS位于WRSN的中心位置,MCV從BS出發(fā)執(zhí)行布署-回收調(diào)度任務(wù)。仿真實驗使用Python語言搭配PyTorch框架實現(xiàn)。仿真參數(shù)設(shè)置如下:
傳感器數(shù)量N 400~1 000
傳感器的電池容量E■ 6 kJ
傳感器的能耗率 0.02~1.00 J/s
SWC數(shù)量M 2~4
SWC的電池容量E■ 200 kJ
SWC的充電速率q■ 20 J/s
MCV的移動速度V■ 5 m/s
充電時間的離散化程度D 5
獎勵折扣因子κ 0.95
初始貪婪系數(shù)ε■ 0.9
最小貪婪系數(shù) 0.05
貪婪系數(shù)衰減因子 0.995
學(xué)習(xí)率 0.001
目標(biāo)Q網(wǎng)絡(luò)參數(shù)的更新頻率 100
經(jīng)驗池大小 100 000
Hidden-dim 128
Input channels 3
Output channels 128
Kernel-size 1
Batch-size 64
優(yōu)化器 Adam
損失函數(shù) 均方誤差損失函數(shù)
激活函數(shù) ReLU
仿真時間 30 000 s
3.2 懲罰系數(shù)對性能的影響
本節(jié)研究獎勵函數(shù)中懲罰系數(shù)α對PCSMC性能的影響。在實驗中,設(shè)置α的值為2、4、6、8、10,其余參數(shù)與3.1節(jié)相同。仿真實驗在500個傳感器節(jié)點的網(wǎng)絡(luò)下進(jìn)行,且MCV攜帶的SWC的數(shù)量為4。從表1可以看出,當(dāng)α=8時,PCSMC的失效節(jié)點數(shù)最少。圖4為DDQN算法的累積獎勵收斂圖,從圖中可以看到算法在400輪左右開始收斂,這證明了所提方案的有效性和收斂性。
3.3 充電系數(shù)對性能的影響
本節(jié)研究充電系數(shù)λ對PCSMC性能的影響。在實驗中,設(shè)置λ的值為0.1~0.5,其余參數(shù)與3.1節(jié)相同。仿真實驗在500個傳感器節(jié)點的網(wǎng)絡(luò)下進(jìn)行,且MCV攜帶的SWC的數(shù)量為4。從表2可以看出,當(dāng)λ=0.4時,PCSMC的失效節(jié)點數(shù)最少,此時充電閾值TH■的范圍在0.4E■~0.8E■之間。將充電閾
值TH■設(shè)為0.4E■~0.8E■的固定值,得到表3所示實驗結(jié)果,可以發(fā)現(xiàn)失效節(jié)點數(shù)全部大于當(dāng)λ為0.4時的動態(tài)充電閾值下的失效節(jié)點數(shù),證明了動態(tài)充電閾值的有效性。
3.4 失效節(jié)點數(shù)
本節(jié)分析不同傳感器節(jié)點數(shù)量和不同充電速率下的兩種方案的失效節(jié)點數(shù)。方案后面的數(shù)字代表MCV所攜帶的SWC的數(shù)量(例如,PCSMC-3代表MCV攜帶3個SWC)。在圖5a中,失效節(jié)點數(shù)隨著網(wǎng)絡(luò)規(guī)模的增大而增加。這是由于隨著網(wǎng)絡(luò)規(guī)模的增大,網(wǎng)絡(luò)中單位時間內(nèi)請求充電的傳感器節(jié)點數(shù)也隨之增加,有限的充電能力導(dǎo)致來不及得到能量補充的傳感器節(jié)點能量耗盡而失效。但在SWC數(shù)量相同的情況下,PCSMC的節(jié)點失效率始終低于MLSDD。這是因為部分充電策略可以讓PCSMC中的MCV通過搶占SWC來響應(yīng)更多的傳感器節(jié)點,減少了失效節(jié)點數(shù)。在相同的網(wǎng)絡(luò)規(guī)模下,隨著SWC的增加,失效節(jié)點數(shù)呈現(xiàn)減小趨勢。這是因為隨著SWC的增加,網(wǎng)絡(luò)中同一時刻可以有更多的傳感器節(jié)點被充電,有效緩解了能量饑餓現(xiàn)象。從總體上看,PCSMC的失效節(jié)點數(shù)比MLSDD低了23.56%。
圖5b分析了500個傳感器節(jié)點的網(wǎng)絡(luò)中不同充電速率下兩種方案的性能,可以看出失效節(jié)點數(shù)隨著SWC充電速率的增加而減少。這是因為充電速率越大,完成充電任務(wù)所需要的時間越短,能夠響應(yīng)的傳感器節(jié)點的數(shù)量就越多。且在SWC數(shù)量相同的情況下,PCSMC的節(jié)點失效率明顯低于MLSDD。
3.5 平均充電延遲
充電延遲定義為從傳感器節(jié)點發(fā)出充電請求到其被充電之間的時間,如果一個傳感器節(jié)點失效,其被充電時間為仿真時間。如圖6a所示,平均充電延遲隨著網(wǎng)絡(luò)規(guī)模的增加而增加。這是因為網(wǎng)絡(luò)規(guī)模越大,同一時間內(nèi)請求充電的節(jié)點越多,節(jié)點等待的時間就越長。在相同SWC數(shù)量下,PCSMC的平均充電延遲明顯小于MLSDD,這是因為部分充電策略可以使能量足夠的傳感器節(jié)點及時釋放對SWC的占有,從而能夠響應(yīng)其余傳感器節(jié)點。從總體上看,PCSMC的平均充電延遲比MLSDD低了27.71%。從圖6b中可以看出,隨著充電速率的增加,平均充電延遲減小。這是因為充電速率越高,SWC完成充電任務(wù)需要的時間就越短,因此平均充電延遲越低,且在相同SWC數(shù)量下,PCSMC的平均充電延遲始終小于MLSDD。
4 結(jié)束語
針對完全充電導(dǎo)致的充電請求響應(yīng)不及時問題,采用了部分充電策略,MCV可以通過搶占正在充電的SWC來為另一個關(guān)鍵傳感器節(jié)點充電。部分充電策略可以在相同的時間內(nèi)響應(yīng)更多的傳感器節(jié)點,因此減少了失效節(jié)點數(shù)。由于WRSN中傳感器節(jié)點能耗的動態(tài)性和不確定性,使用指針網(wǎng)絡(luò)和DDQN算法來優(yōu)化MCV的調(diào)度和SWC的充電時長。大量的仿真實驗驗證了所提方案的有效性。與現(xiàn)有方案相比,所提方案在最小化失效節(jié)點數(shù)和降低平均充電延遲方面具有更優(yōu)越的性能。
參 考 文 獻(xiàn)
[1] HAN G,YANG X,LIU L,et al.A disaster management-oriented path planning for mobile anchor node-based localization in wireless sensor networks[J].IEEE Transactions on Emerging Topics in Computing,2017,8(1):115-125.
[2] 俞姝穎,吳小兵,陳貴海,等.無線傳感器網(wǎng)絡(luò)在橋梁健康監(jiān)測中的應(yīng)用[J].軟件學(xué)報,2015,26(6):1486-1498.
[3] KURS A,KARALIS A,MOFFATT R,et al.Wireless po- wer transfer via strongly coupled magnetic resonances[J].Science,2007,317(5834):83-86.
[4] PENG Y,LI Z,ZHANG W,et al.Prolonging sensor network lifetime through wireless charging[C]//2010 31st IEEE Real-Time Systems Symposium.Piscataway,NJ:IEEE,2010:129-139.
[5] GAO Z,LIU C,CHEN Y.Scheduling of ERD-Assisted Charging of a WRSN Using a Directional Mobile Charger[J].IEEE Transactions on Mobile Computing,2023,23(6):6681-6696.
[6] SHAN T,WANG Y,ZHAO C,et al.Multi-UAV WRSN charging path planning based on improved heed and IA-DRL[J].Computer Communications,2023,203:77-88.
[7] YANG M,LIU N,ZUO L,et al.Dynamic charging sche- me problem with actor-critic reinforcement learning[J].IEEE Internet of Things Journal,2020,8(1):370-380.
[8] 王藝均,馮勇,劉明,等.基于深度強化學(xué)習(xí)的WRSN動態(tài)時空充電調(diào)度[J].軟件學(xué)報,2024,35(3):1485-1501.
[9] MO L,KRITIKAKOU A,HE S.Energy-aware multiple mobile chargers coordination for wireless rechargeable sensor networks[J].IEEE Internet of Things Journal,2019,6(5):8202-8214.
[10] LIN C,YANG Z,DAI H,et al.Minimizing charging de- lay for directional charging[J].IEEE/ACM Transactions on Networking,2021,29(6):2478-2493.
[11] TOMAR A,MUDULI L,JANA P K.A fuzzy logic-bas- ed on-demand charging algorithm for wireless rechar- geable sensor networks with multiple chargers[J].IEEE Transactions on Mobile Computing,2020,20(9):2715-2727.
[12] XU C,CHENG R H,WU T K.Wireless rechargeable sensor networks with separable charger array[J].International Journal of Distributed Sensor Networks,2018,14(4):1550147718768990.
[13] ZOU T,XU W,LIANG W,et al.Improving charging capacity for wireless sensor networks by deploying one mobile vehicle with multiple removable chargers[J].Ad Hoc Networks,2017,63:79-90.
[14] PENG K,HU M,CAI C,et al.On simultaneous power replenishment for wireless sensor networks with multiple portable chargers[J].IEEE Access,2018,6:63120 -63130.
[15] HU C,WANG Y.Schedulability decision of charging missions in wireless rechargeable sensor networks[C]//2014 Eleventh Annual IEEE International Conference on Sensing,Communication,and Networking(SECON).Piscataway,NJ:IEEE,2014:450-458.
[16] CAO X,XU W,LIU X,et al.A deep reinforcement lea- rning-based on-demand charging algorithm for wireless rechargeable sensor networks[J].Ad Hoc Networks,2021,110:102278.
[17] NAZARI M,OROOJLOOY A,SNYDER L,et al.Reinforcement learning for solving the vehicle routing problem[J].Advances in Neural Information Processing Systems,2018,31.
(收稿日期:2024-02-01,修回日期:2024-09-19)
Deep Reinforcement Learning-based Multi-charger Partial Charging Strategy
LI Li-zhi, FENG Yong
(Faculty of Information Engineering and Automation,Kunming University of Science and Technology)
Abstract" "In large-scale wireless rechargeable sensor network (WRSN), considering low charging efficiency of the mobile charging vehicle(MCV) in separable charging mode, a multi-charger’s partial charging strategy(PCSMC) was proposed to avoid any failure of the nodes with low residual energy due to waiting for nodes to be fully recharged. In which," having the continuous action space in charging time converted into a discrete action space; then, having the pointer network used to plan the path of MCV and dynamically adjust the charging time of sensor nodes and finally, having a deep reinforcement learning algorithm DDQN (Double Deep Q-Network) adopted to train pointer network to generate a near-optimal solution. Simulation results show that, as compared to other charging strategies, the PCSMC can reduce the number of dead nodes and average charging delay by 23.56% and 27.71% respectively.
Key words" "WRSN, separable charging mode, partial charging, pointer network,deep reinforcement learning