摘要::鑒于無線傳感器網(wǎng)絡(luò)中拓?fù)漕l繁變動挑戰(zhàn)分簇穩(wěn)定性,引發(fā)數(shù)據(jù)傳輸冗余與能耗激增,文章提出基于深度強化學(xué)習(xí)的分簇算法。該算法融合能量、位置與密度因素,利用深度強化學(xué)習(xí)結(jié)合傳感器能量模型,精準(zhǔn)聚類節(jié)點并優(yōu)化簇間路徑,實現(xiàn)高效分簇策略。仿真驗證顯示,相較于對比方法,該算法顯著提升網(wǎng)絡(luò)生存時間約40%,能夠有效遏制能耗,顯著延長無線傳感器網(wǎng)絡(luò)的生命周期,展現(xiàn)了其在復(fù)雜環(huán)境中的優(yōu)越性能與實用價值。
關(guān)鍵詞:深度強化學(xué)習(xí);無線傳感器;網(wǎng)絡(luò)分簇;節(jié)點信任度;數(shù)據(jù)聚類
中圖分類號:TN711" 文獻(xiàn)標(biāo)志碼:A
0 引言
無線傳感器網(wǎng)絡(luò)作為由眾多靜態(tài)或移動傳感器節(jié)點構(gòu)成的自組織多跳網(wǎng)絡(luò),核心在于協(xié)作感知、收集、管理及傳輸覆蓋區(qū)域內(nèi)數(shù)據(jù)至指定接收者[1]。然而,該體系面臨功率受限、網(wǎng)絡(luò)干擾、數(shù)據(jù)冗余及系統(tǒng)動態(tài)性不足等顯著挑戰(zhàn)[2]。為此,王珊等[3]提出基于競爭神經(jīng)網(wǎng)絡(luò)的無線傳感器網(wǎng)絡(luò)分簇算法,模擬生物競爭過程選取簇頭,有效延長了網(wǎng)絡(luò)壽命,但其對網(wǎng)絡(luò)狀態(tài)變化的適應(yīng)性及穩(wěn)定性有待提升。張慧娟[4]提出無線傳感網(wǎng)絡(luò)中基于Dijkstra算法的分簇路由方法,依據(jù)剩余能量、距離與擁塞狀態(tài)決策簇頭與路徑,雖力求能耗均衡,卻受限于負(fù)權(quán)邊問題,影響路徑優(yōu)化精度。朱麗華等[5]提出基于聚合層次聚類的無線傳感器網(wǎng)絡(luò)分簇算法,實現(xiàn)了根據(jù)數(shù)據(jù)集特性自適應(yīng)分簇,雖靈活性增強,但層次聚類結(jié)果的非直觀性增加了網(wǎng)絡(luò)管理的復(fù)雜度。鑒于上述研究的局限,本文提出了基于深度強化學(xué)習(xí)的無線傳感器網(wǎng)絡(luò)分簇算法,通過智能體自主學(xué)習(xí)的方式,實現(xiàn)網(wǎng)絡(luò)節(jié)點的自組織、自優(yōu)化和自適應(yīng),減少能量消耗,延長網(wǎng)絡(luò)生命周期。
1 基于深度強化學(xué)習(xí)的無線傳感器網(wǎng)絡(luò)分簇算法設(shè)計
1.1 構(gòu)建無線傳感器能量消耗模型
無線傳感器網(wǎng)絡(luò)作為一種層次結(jié)構(gòu)網(wǎng)絡(luò),由一個高級節(jié)點和多個普通節(jié)點組成,所有具備唯一ID編號的節(jié)點均隨機部署在靜態(tài)監(jiān)測區(qū)域[6],具體結(jié)構(gòu)如圖1所示。
通過分析圖1可以發(fā)現(xiàn),整個無線傳感器的能量消耗主要由各個節(jié)點接收發(fā)送數(shù)據(jù)能耗和高級節(jié)點數(shù)據(jù)融合能耗組成。本文分別對上述能耗進(jìn)行計算,公式如下:
A=bEelex+bc2blt;b0
bEelex+bc4b≥b0
D=bEelex
F=cEelex(1)
其中,A為數(shù)據(jù)發(fā)送時的能耗;D為數(shù)據(jù)接收的能耗;F為數(shù)據(jù)融合能耗;b和b0分別為節(jié)點間距和用于轉(zhuǎn)換數(shù)據(jù)在傳輸時所采用的空間損耗模型的距離閾值;Eelex為節(jié)點發(fā)送或接收單位比特數(shù)據(jù)的能量消耗;c為發(fā)送的數(shù)據(jù)量。將上述計算結(jié)果相加,得到無線傳感器的全部能耗g,當(dāng)blt;b0時,為自由空間能量消耗模型,b≥b0時,則為多路徑衰落能量消耗模型。
1.2 確定無線傳感器網(wǎng)絡(luò)簇頭
計算傳感器節(jié)點適應(yīng)度函數(shù)的過程中須要優(yōu)先對其進(jìn)行計算,傳感器節(jié)點的能量等級計算公式如下:
λ=Q-QminQmax-Qmin
Q=-(A+D+F)(2)
其中,λ為傳感器節(jié)點的能量等級;Qmax和Qmin分別為當(dāng)前輪數(shù)型無線傳感器網(wǎng)絡(luò)節(jié)點匯總剩余能量的最大值和最小值;Q為節(jié)點當(dāng)前剩余能量;為節(jié)點初始能量。
完成能量等級計算后,對節(jié)點分布位置和節(jié)點密度進(jìn)行分析,兩者的計算公式為:
β=i(x,y)∑i=1i(x,y)/i(x,y)max+i(j,y)
δ=mxn(3)
其中,β為節(jié)點分布位置因子;i(x,y)為節(jié)點x與基站y之間的距離;i(j,y)為簇頭節(jié)點j與基站y之間的距離;δ為節(jié)點附近網(wǎng)絡(luò)范圍內(nèi)的密度因子;m為節(jié)點x附近節(jié)點數(shù)目;n為整個無線傳感器網(wǎng)絡(luò)中的節(jié)點數(shù)。
由于能量等級越高、節(jié)點分布位置因子和節(jié)點密度因子越大,所對應(yīng)的節(jié)點剩余能量越多、通信距離越短、附近節(jié)點越多。因此,本文結(jié)合相對應(yīng)權(quán)值,得出傳感器節(jié)點適應(yīng)度函數(shù),計算公式如下:
=ηλ+εβ+μδ(4)
其中,為傳感器節(jié)點適應(yīng)度函數(shù);η為能量等級的權(quán)重系數(shù);ε為節(jié)點分布位置因子的權(quán)重系數(shù);μ為節(jié)點密度因子的權(quán)重系數(shù),3個權(quán)重須同時為正數(shù)且相加和為1。計算不同編碼的傳感器節(jié)點的適應(yīng)度函數(shù),選擇其中最大的一個節(jié)點作為無線傳感器網(wǎng)絡(luò)簇頭。
1.3 基于深度強化學(xué)習(xí)的無線傳感器網(wǎng)絡(luò)節(jié)點聚類
選定簇頭利用載波監(jiān)聽多路訪問(Carrier Sense Multiple Access,CSMA)協(xié)議廣播簇頭身份,節(jié)點依據(jù)信號強度加入簇群。初步分簇后,通過能量消耗模型篩選,排除多路徑衰落高能耗節(jié)點,僅保留自由空間能耗節(jié)點作為輸入,進(jìn)一步應(yīng)用深度強化學(xué)習(xí)算法模型進(jìn)行精細(xì)聚類,以優(yōu)化能量利用率,確保分簇結(jié)果高效節(jié)能。算法模型會根據(jù)能量消耗模型的計算結(jié)果,計算不同節(jié)點對應(yīng)的相關(guān)通信次數(shù),公式為:
H=0.2gαx(5)
其中,H為節(jié)點對應(yīng)的相關(guān)通信次數(shù);α為x節(jié)點的大小。此時深度強化學(xué)習(xí)模型會根據(jù)通信次數(shù),對距離簇頭節(jié)點的位置、能量狀態(tài)、數(shù)據(jù)傳輸量等環(huán)境進(jìn)行感知,將環(huán)境信息更改為高維度的特征向量,輸入模型的策略學(xué)習(xí)模塊。強化學(xué)習(xí)模型基于狀態(tài)信息輸出行動函數(shù),該函數(shù)綜合能量消耗與傳輸效 率,最大化長期回報。策略學(xué)習(xí)模塊據(jù)此選擇節(jié)點存留或排出,游離節(jié)點與排出節(jié)點由智能體重新分配至相似函數(shù)值簇群。智能體持續(xù)監(jiān)測網(wǎng)絡(luò)狀態(tài)變化,收集能耗、傳輸延遲等反饋,用于更新狀態(tài)感知。通過迭代優(yōu)化,模型逐步學(xué)會根據(jù)網(wǎng)絡(luò)狀態(tài)動態(tài)調(diào)整最優(yōu)節(jié)點聚類策略。
1.4 規(guī)劃最優(yōu)簇間路徑
為優(yōu)化無線傳感器網(wǎng)絡(luò)分簇,規(guī)劃簇間最優(yōu)路徑,確保能量均衡消耗。簇頭節(jié)點選擇下一跳時,優(yōu)先連接未被其他簇頭選中的節(jié)點,以優(yōu)化路徑規(guī)劃。此路徑推演的目標(biāo)函數(shù)表達(dá)式為:
w=A+DH(6)
其中,w為路徑推演的目標(biāo)函數(shù),選取該函數(shù)對比結(jié)果最大的對應(yīng)節(jié)點作為下一跳節(jié)點。重復(fù)簇間節(jié)點跳躍過程至完成,考慮能量限制,增設(shè)高目標(biāo)函數(shù)路徑確保數(shù)據(jù)完全傳輸。監(jiān)控路徑狀態(tài),動態(tài)調(diào)整流量分配,平衡負(fù)載,優(yōu)化傳輸效率。
2 仿真測試
2.1 測試準(zhǔn)備
為驗證基于深度強化學(xué)習(xí)的無線傳感器網(wǎng)絡(luò)分簇算法,本文對該算法進(jìn)行仿真測試。使用Simulink仿真軟件對無線傳感器網(wǎng)絡(luò)進(jìn)行模擬,輸入合理的節(jié)點數(shù)量、通信半徑等參數(shù),以此模擬真實環(huán)境下的無線傳感器網(wǎng)絡(luò)節(jié)點行為,具體網(wǎng)絡(luò)仿真模擬參數(shù)為:設(shè)定300 m×300 m的仿真區(qū)域,部署100個節(jié)點,每節(jié)點初始能量50 J,數(shù)據(jù)包長度為4000 bit。采用深度強化學(xué)習(xí)算法進(jìn)行優(yōu)化,設(shè)置進(jìn)化次數(shù)為20次,變異概率為0.1,交叉概率為0.6,旨在通過算法迭代尋找最優(yōu)網(wǎng)絡(luò)配置,以提升數(shù)據(jù)傳輸效率與網(wǎng)絡(luò)性能。
在仿真環(huán)境中部署無線傳感器網(wǎng)絡(luò),采用深度強化學(xué)習(xí)、層次分析法及競爭神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分簇,記錄通信、傳輸與能耗過程,分析網(wǎng)絡(luò)結(jié)構(gòu)。多輪測試對比死亡節(jié)點數(shù)與生存時間,評估分簇算法優(yōu)劣。
2.2 測試結(jié)果
將基于3種不同算法分簇的無線傳感器網(wǎng)絡(luò)測試結(jié)果進(jìn)行歸納總結(jié),在數(shù)據(jù)完全傳輸?shù)那闆r下,多輪能量剩余情況以及網(wǎng)絡(luò)生存時間的實驗結(jié)果數(shù)據(jù)如圖2所示。
分析圖2可知,深度強化學(xué)習(xí)分簇算法較層次分析法與競爭神經(jīng)網(wǎng)絡(luò)算法顯著降低能耗,延長網(wǎng)絡(luò)生存時間約40%,至2500輪時仍保留15 J能量。研究算法在復(fù)雜環(huán)境中展現(xiàn)優(yōu)異性能,通過自學(xué)習(xí)優(yōu)化分簇策略,高效分配資源,減少數(shù)據(jù)冗余與沖突,降低能耗,增強網(wǎng)絡(luò)穩(wěn)定與可靠性,顯著延長生命周期。
3 結(jié)語
本文對基于深度強化學(xué)習(xí)的無線傳感器網(wǎng)絡(luò)分簇算法展開設(shè)計與分析,通過大量的數(shù)據(jù)訓(xùn)練模型來 實現(xiàn)智能決策,能夠適應(yīng)復(fù)雜多變的網(wǎng)絡(luò)環(huán)境,減小拓?fù)涔芾黼y度,提高可擴展性。同時通過自動調(diào)整選擇適合的簇頭節(jié)點,減少了節(jié)點之間的通信距離。未來,隨著異構(gòu)無線傳感器網(wǎng)絡(luò)融合技術(shù)的發(fā)展,研究算法將逐步應(yīng)用于多類型、多模態(tài)的傳感器網(wǎng)絡(luò)中,實現(xiàn)更高效的數(shù)據(jù)融合和協(xié)同處理。
參考文獻(xiàn)
[1]許知博,段新.考慮網(wǎng)絡(luò)吞吐量的異構(gòu)無線傳感器網(wǎng)絡(luò)分簇路由算法[J].沈陽工業(yè)大學(xué)學(xué)報,2022(3):326-330.
[2]吳子敬.基于競爭神經(jīng)網(wǎng)絡(luò)的無線傳感器網(wǎng)絡(luò)非均勻分簇算法[J].齊齊哈爾大學(xué)學(xué)報(自然科學(xué)版),2023(5):1-6.
[3]王珊,梁敏,路芳瑞,等.一種基于AHP的無線傳感器網(wǎng)絡(luò)分簇路由算法[J].火力與指揮控制,2023(9):77-81,91.
[4]張慧娟.無線傳感網(wǎng)絡(luò)中基于Dijkstra算法的分簇路由[J].火力與指揮控制,2022(2):134-139,145.
[5]朱麗華,陳心怡.一種改進(jìn)的無線傳感器網(wǎng)絡(luò)分簇路由協(xié)議算法分析[J].集成電路應(yīng)用,2023(3):11-13.
[6]李婧,侯詩琪.環(huán)境感知的自適應(yīng)深度強化學(xué)習(xí)路由算法[J].計算機工程與設(shè)計,2023(11):3230-3237.
(編輯 王雪芬編輯)
Wireless sensor network clustering algorithm based on deep reinforcement learning
XIAO" Xiang
(Fujian College of Water Conservancy and Electric Power, Yongan 366000, China)
Abstract:" In view of the frequent topology changes in wireless sensor networks challenge the stability of clustering, which leads to data transmission redundancy and energy consumption surge, a clustering algorithm based on deep reinforcement learning is proposed. By integrating energy, position and density factors, deep reinforcement learning combined with sensor energy model is used to accurately cluster nodes and optimize inter-cluster paths to achieve efficient clustering strategies. Simulation results show that compared with the comparison method, the research algorithm can significantly improve the network lifetime by about 40%, effectively curb energy consumption, and significantly extend the life cycle of wireless sensor networks, demonstrating its superior performance and practical value in complex environments.
Key words: deep reinforcement learning; wireless sensor; network clustering; node trust degree; data clustering