王哲,王啟名,李陶深,葛麗娜
基于深度強化學(xué)習(xí)的SWIPT邊緣網(wǎng)絡(luò)聯(lián)合優(yōu)化方法
王哲1,2,3,王啟名2,李陶深4,葛麗娜1,3,5
(1.廣西民族大學(xué) 人工智能學(xué)院,南寧 530006; 2.廣西民族大學(xué) 電子信息學(xué)院,南寧 530006; 3.廣西混雜計算與集成電路設(shè)計分析重點實驗室(廣西民族大學(xué)),南寧 530006; 4.廣西大學(xué) 計算機與電子信息學(xué)院,南寧 530004; 5.廣西民族大學(xué) 網(wǎng)絡(luò)通信工程重點實驗室,南寧 530006)( ? 通信作者電子郵箱wqm082199@163.com)
邊緣計算(EC)與無線攜能通信(SWIPT)技術(shù)能夠提升傳統(tǒng)網(wǎng)絡(luò)性能,但同時也增加了系統(tǒng)決策制定的難度和復(fù)雜度。而基于最優(yōu)化方法所設(shè)計的系統(tǒng)決策往往具有較高的計算復(fù)雜度,無法滿足系統(tǒng)的實時性需求。為此,針對EC與SWIPT輔助的無線傳感網(wǎng)絡(luò)(WSN),聯(lián)合考慮網(wǎng)絡(luò)中波束成形、計算卸載與功率控制問題,建立了系統(tǒng)能效最優(yōu)化數(shù)學(xué)模型;其次,針對該模型的非凸與參數(shù)耦合特征,通過設(shè)計系統(tǒng)的信息交換過程,提出基于深度強化學(xué)習(xí)的聯(lián)合優(yōu)化方法,該方法無須建立環(huán)境模型,采用獎勵函數(shù)代替Critic網(wǎng)絡(luò)對動作進行評估,能降低決策制定難度并提升實時性;最后,基于該方法設(shè)計了改進的深度確定性策略梯度(IDDPG)算法,并與多種最優(yōu)化算法和機器學(xué)習(xí)算法進行仿真對比,驗證了聯(lián)合優(yōu)化方法在降低計算復(fù)雜度、提升決策實時性方面的優(yōu)勢。
無線傳感網(wǎng)絡(luò);深度強化學(xué)習(xí);無線攜能通信;邊緣計算;聯(lián)合優(yōu)化
邊緣計算(Edge Computing, EC)是在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè),融合網(wǎng)絡(luò)、計算、存儲、應(yīng)用核心能力的開發(fā)平臺,就近提供邊緣智能服務(wù),以滿足行業(yè)數(shù)字化在敏捷聯(lián)接、實時業(yè)務(wù)、數(shù)據(jù)優(yōu)化、應(yīng)用智能、安全與隱私保護等方面的關(guān)鍵需求[1]。其中,計算卸載是EC的核心技術(shù)之一,通過將終端節(jié)點的計算任務(wù)卸載至邊緣設(shè)備完成EC過程,在可容忍的傳輸時延下大幅降低終端的計算壓力與計算時延。如今,EC已融入移動通信、萬物互聯(lián)、未來工廠等應(yīng)用場景[2],為網(wǎng)絡(luò)的資源分配帶來了更好的決策自由度和性能優(yōu)化空間。
文獻[3]中基于潛在博弈論研究移動邊緣計算(Mobile Edge Computing, MEC)網(wǎng)絡(luò)中計算資源的分配問題。其中設(shè)計的分配方案包括兩部分:首先利用潛在博弈論控制MEC網(wǎng)絡(luò)的基站發(fā)射功率,以最大化MEC網(wǎng)絡(luò)勢函數(shù);其次,利用線性規(guī)劃求解MEC低延遲高可靠模型。不同于文獻[3]中的方案,文獻[4]中考慮了區(qū)域MEC協(xié)作策略,根據(jù)計算任務(wù)的延遲容限度對任務(wù)分類,利用深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)算法實現(xiàn)不同類型任務(wù)與差異化卸載策略的匹配,能聯(lián)合降低服務(wù)時延與系統(tǒng)負載。文獻[5]中提出有限資源約束下的計算卸載與資源分配聯(lián)合優(yōu)化問題,使用Stackelberg博弈均衡MEC與用戶間的資源調(diào)度。文獻[6]中針對多用戶場景,提出了一種設(shè)備到設(shè)備(Device-to-Device, D2D)通信的計算卸載策略,直接均衡設(shè)備間的資源分配以降低系統(tǒng)的時延和能耗。文獻[7]中引入了軟件定義網(wǎng)絡(luò)和功能虛擬化技術(shù)重構(gòu)網(wǎng)絡(luò),提出了最大化實時任務(wù)處理成功率的在線資源分配問題,基于馬爾可夫過程建立重構(gòu)場景下的決策分配過程,以獲取最優(yōu)解。文獻[8]中聚焦在車聯(lián)網(wǎng)場景下的邊緣資源分配問題,以最小化計算時延為目標(biāo),提出了邊緣服務(wù)器能耗與負載均衡問題,并基于多目標(biāo)免疫優(yōu)化算法設(shè)計了相應(yīng)的卸載方案。上述研究表明,邊緣計算的應(yīng)用提升了網(wǎng)絡(luò)中計算資源分配的自由度,合理的計算卸載策略能夠幫助網(wǎng)絡(luò)實現(xiàn)更好的系統(tǒng)性能和服務(wù)質(zhì)量。
然而,由于邊緣網(wǎng)絡(luò)承擔(dān)著部分原中央網(wǎng)絡(luò)的計算與存儲服務(wù),同時資源分配與調(diào)度決策也將在邊緣側(cè)制定,增加了邊緣節(jié)點能量耗盡與節(jié)點間能量分布失衡的概率。無線攜能通信(Simultaneous Wireless Information and Power Transfer, SWIPT)技術(shù)的加入在一定程度上降低了這一概率。SWIPT是一項新型的無線通信技術(shù),利用射頻(Radio Frequency, RF)信號同時攜帶能量和信息的特性,實現(xiàn)了節(jié)點間同步的無線信息與無線能量傳輸,以提升網(wǎng)絡(luò)節(jié)點能量的自由程度。文獻[9]中將SWIPT應(yīng)用于多級邊緣卸載網(wǎng)絡(luò)以輔助解決變電站場景的巡檢設(shè)備的接入與供能問題,設(shè)計了地面機器人和無人機協(xié)作的巡檢算法,并提出了一種基于Q-Learning的最佳任務(wù)卸載算法。文獻[10]的研究將SWIPT與MEC應(yīng)用于物聯(lián)網(wǎng)中,聯(lián)合考慮功率分配、CPU頻率、卸載權(quán)重和能量收獲權(quán)重,提出了數(shù)據(jù)傳輸速率和傳輸功率的約束下系統(tǒng)能耗最優(yōu)化問題,基于交替群迭代和群內(nèi)點迭代優(yōu)化算法進行求解,并設(shè)計了SWIPT輔助的MEC系統(tǒng)以延長節(jié)點設(shè)備的生命周期。文獻[11]中則利用SWIPT與MEC技術(shù)應(yīng)對物聯(lián)網(wǎng)系統(tǒng)中設(shè)備計算能力和電池容量的有限性,建立了聯(lián)合優(yōu)化CPU頻率、計算任務(wù)、終端傳輸功率和MEC任務(wù)比例的上行鏈路可實現(xiàn)速率最優(yōu)化模型。與此同時,文獻[12]中的研究針對傳統(tǒng)的數(shù)值優(yōu)化方法無法解決無線信道相干時間限制內(nèi)的組合問題,提出采用深度強化學(xué)習(xí)算法求解SWIPT輔助的MEC網(wǎng)絡(luò)任務(wù)卸載問題。文獻[13]基于增強優(yōu)先級深度確定性策略梯度算法,通過聯(lián)合優(yōu)化卸載決策最小化所有用戶的能耗、動態(tài)SWIPT-MEC網(wǎng)絡(luò)中的中央處理器頻率和功率分配,能解決多用戶場景下需求多樣性和信道時變性導(dǎo)致的系統(tǒng)決策實時性較差問題。可見,SWIPT的應(yīng)用增加了系統(tǒng)能量規(guī)劃的可行性,能夠延長系統(tǒng)的生命周期。然而,SWIPT的引入也伴隨著網(wǎng)絡(luò)中信號干擾的增加。文獻[10-13]的研究忽略了信號干擾增加所導(dǎo)致的能量損耗,而及時且精確的信道狀態(tài)信息(Channel State Information, CSI)在大規(guī)模網(wǎng)絡(luò)中難以獲知,導(dǎo)致系統(tǒng)決策的時延也隨之增加。
最近,針對SWIPT應(yīng)用伴隨而來的系統(tǒng)決策實時性差和復(fù)雜度高的現(xiàn)象,有研究工作指出利用機器學(xué)習(xí)方法能夠彌補這一缺陷。針對變電站場景,文獻[9]中建立了關(guān)于系統(tǒng)能耗和時延的數(shù)學(xué)模型,并通過馬爾可夫決策過程描述系統(tǒng)最優(yōu)化巡檢問題,設(shè)計了基于強化學(xué)習(xí)的卸載決策算法。文獻[14]中提出了一種無線供電MEC系統(tǒng),使用強化學(xué)習(xí)解決低復(fù)雜度系統(tǒng)的計算負載均衡問題,以此提高系統(tǒng)計算能力和對有限電池容量的高效使用。針對SWIPT輔助的MEC網(wǎng)絡(luò)中無線信道的實時性要求,文獻[15]中通過選擇本地計算或計算卸載,建立了最佳計算速率下的計算卸載策略,提出了一種基于強化學(xué)習(xí)的智能在線卸載框架選取最佳的卸載動作。上述文獻的研究驗證了強化學(xué)習(xí)應(yīng)用在SWIPT-MEC網(wǎng)絡(luò)中的可行性,同時強化學(xué)習(xí)方法的應(yīng)用尚處于初級階段,聯(lián)合考慮系統(tǒng)多項決策的高復(fù)雜度模型下的強化學(xué)習(xí)模型設(shè)計仍是當(dāng)前亟待解決的問題。上述研究較多考慮強化學(xué)習(xí)方法在設(shè)計傳統(tǒng)MEC決策中的應(yīng)用,而在聯(lián)合SWIPT后所需同步考慮的波束成形、系統(tǒng)周期規(guī)劃、功率控制等均大幅增加了強化學(xué)習(xí)算法的設(shè)計難度。
基于上述分析,本文針對邊緣計算與SWIPT輔助的傳感器網(wǎng)絡(luò),在更好地處理網(wǎng)絡(luò)中傳感器設(shè)備相互干擾的同時降低網(wǎng)絡(luò)中的能耗,并且保證在單位能耗下能夠處理更多的卸載數(shù)據(jù)量。本文主要工作包括:
首先,聯(lián)合考慮網(wǎng)絡(luò)中波束成形、計算卸載與功率控制問題,設(shè)計系統(tǒng)上下行運行周期,建立系統(tǒng)能效最優(yōu)化數(shù)學(xué)模型。
其次,針對該模型的非凸與參數(shù)耦合特征,通過設(shè)計系統(tǒng)的信息交換過程消除環(huán)境狀態(tài)中的冗余信息,之后提出基于深度強化學(xué)習(xí)的模型求解方法。同時,針對傳統(tǒng)深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)無法處理連續(xù)性動作的問題,提出使用深度確定性的策略梯度(Deep Deterministic Policy Gradient, DDPG)算法進行求解;然而DDPG可能會出現(xiàn)過估計問題,所以改進DDPG框架,刪除DDPG框架中的Critic網(wǎng)絡(luò),使用設(shè)計的獎勵函數(shù)對動作進行評估,稱作改進的深度確定性策略梯度(Improved Deep Deterministic Policy Gradient, IDDPG)算法。該算法能夠解決傳統(tǒng)最優(yōu)化算法計算復(fù)雜度較高、實時性差的問題,同時無模型和無Critic網(wǎng)絡(luò)算法設(shè)計可降低系統(tǒng)的求解難度。
最后,將IDDPG算法與多種最優(yōu)化算法和機器學(xué)習(xí)算法進行仿真對比,驗證了本文算法在降低計算復(fù)雜度、提升決策實時性方面的優(yōu)勢。
基于SWIPT的無線傳感網(wǎng)絡(luò)(Wireless Sensor Network, WSN)系統(tǒng)如圖1所示。其中全部傳感器節(jié)點以等邊六邊形的區(qū)域劃分為簇,分別接入個Sink節(jié)點,第(=1,2,…,)個Sink節(jié)點為它覆蓋范圍內(nèi)的K個傳感器節(jié)點提供SWIPT服務(wù),并周期性地收集傳感器節(jié)點所采集到的數(shù)據(jù);與此同時,全部Sink節(jié)點組成邊緣計算網(wǎng)絡(luò)為傳感器節(jié)點提供計算卸載服務(wù)。Sink節(jié)點由穩(wěn)定電源供能,傳感器節(jié)點的能量則全部收集自Sink節(jié)點的SWIPT過程。Sink節(jié)點配備天線數(shù)量為,傳感器節(jié)點均配備單一天線。
圖1 基于SWIPT的無線傳感網(wǎng)絡(luò)邊緣計算系統(tǒng)
圖2 系統(tǒng)周期示意圖
與此同時,考慮到信道的大尺度衰減分量[20],第個Sink節(jié)點與其服務(wù)的第k個傳感器節(jié)點間的信道向量可表示為
于是在下行階段Sink節(jié)點損失的能耗為
由于傳感器節(jié)點的采樣為常態(tài)化過程,它們的運行狀態(tài)不受系統(tǒng)決策影響,所消耗的能量為固定值,因此在系統(tǒng)資源分配決策制定過程中不考慮該常量能耗,并假定感知數(shù)據(jù)充裕且系統(tǒng)期望在單一周期內(nèi)處理的數(shù)據(jù)量最大。
在上行過程中,傳感器節(jié)點利用下行階段收集到的能量進行數(shù)據(jù)清洗、融合、壓縮等處理,并將處理結(jié)果上傳至Sink節(jié)點。然而,由于傳感器節(jié)點能量有限且收集能量的過程具有不穩(wěn)定性,因此傳感器節(jié)點需要依據(jù)自身能量將部分采樣數(shù)據(jù)卸載至具有穩(wěn)定供能的Sink節(jié)點進行數(shù)據(jù)處理。于是,上行階段系統(tǒng)中的傳感器節(jié)點存在兩種運行狀態(tài):
1)傳感器節(jié)點不卸載數(shù)據(jù),自身完成數(shù)據(jù)處理并將處理結(jié)果上傳至Sink節(jié)點,此過程產(chǎn)生本地計算能耗;
2)傳感器節(jié)點卸載部分?jǐn)?shù)據(jù)給Sink節(jié)點處理,在本地處理一部分?jǐn)?shù)據(jù)并將結(jié)果上傳至Sink節(jié)點,此過程產(chǎn)生本地計算能耗、卸載通信能耗和Sink計算能耗。
以上運行狀態(tài)并未考慮傳感器節(jié)點將采樣數(shù)據(jù)全部上傳至Sink節(jié)點進行處理,這是由于雖然此方式能夠減少本地計算能耗,但未經(jīng)處理的采樣數(shù)據(jù)將產(chǎn)生大量的通信能耗,且通信過程中簇內(nèi)和簇間都存在信道干擾,也將造成系統(tǒng)能耗的增加。因此,在傳感器節(jié)點卸載采樣數(shù)據(jù)至Sink節(jié)點的通信過程中,傳感器節(jié)點同步進行本地計算,此過程等同于運行狀態(tài)2。
假定上行過程中信道狀態(tài)不發(fā)生變化[21],此時傳感器節(jié)點k與其簇內(nèi)Sink節(jié)點所形成的信道向量可表示為式(2)。
與此同時,上行通信過程中傳感器節(jié)點的信干噪比可表示為
因此,系統(tǒng)在一個周期能處理的總數(shù)據(jù)量為
在基于SWIPT協(xié)同邊緣計算的無線傳感器網(wǎng)絡(luò)環(huán)境中,由于網(wǎng)絡(luò)系統(tǒng)的計算資源有限,期望能夠在有限的計算資源下處理更多的卸載數(shù)據(jù)量,以實現(xiàn)更準(zhǔn)確和更及時的網(wǎng)絡(luò)服務(wù)與應(yīng)用。因此,系統(tǒng)能效可定義為在一個周期內(nèi)單位能耗所獲得的已處理數(shù)據(jù)量。由于傳感器節(jié)點的全部能量均來自Sink節(jié)點的SWIPT過程,基于能量守恒定理,系統(tǒng)周期內(nèi)的總能耗為Sink節(jié)點SWIPT能耗與Sink節(jié)點處理卸載數(shù)據(jù)的計算能耗之和,可表示為
C2:(9)
其中,表示傳感器節(jié)點的有效電容開關(guān)[23]。
對于深度強化學(xué)習(xí)算法來說,完整的環(huán)境信息通常是冗余的,所以本文將設(shè)計如下的信息交換過程,篩選出關(guān)鍵的環(huán)境信息后設(shè)計獎勵函數(shù),這樣不僅能得到系統(tǒng)的最優(yōu)能效,還能夠代替Critic網(wǎng)絡(luò)評價動作的優(yōu)劣,克服了神經(jīng)網(wǎng)絡(luò)會出現(xiàn)過估計的缺點。最后,根據(jù)算法設(shè)計得到算法的偽代碼。
深度強化學(xué)習(xí)模型在訓(xùn)練過程中需建立目標(biāo)網(wǎng)絡(luò)的動作空間,即對網(wǎng)絡(luò)中的信息交換過程進行設(shè)計,以實現(xiàn)狀態(tài)空間中特征組與特征值的更新。與此同時,考慮到承擔(dān)模型訓(xùn)練的云端設(shè)備資源有限,引入干擾者與被干擾者分集,以實現(xiàn)對狀態(tài)空間中輸入端口數(shù)量的限制,繼而使網(wǎng)絡(luò)規(guī)模有限,降低云端訓(xùn)練負荷。
圖3 信息交換示意圖
在完成以上信息交換設(shè)定后,接下來對本文的深度強化學(xué)習(xí)方法進行設(shè)計。針對式(11)中的最優(yōu)化問題,傳統(tǒng)的基于模型求解的最優(yōu)化算法往往需要對模型中的非線性和非凸特征進行松弛或轉(zhuǎn)換,導(dǎo)致原模型精度有所損失,同時所制定的最優(yōu)化算法往往具有較高的計算復(fù)雜度,不適用于低功率和低算力的傳感器網(wǎng)絡(luò)。于是,本文提出基于系統(tǒng)數(shù)據(jù),利用深度強化學(xué)習(xí)方法設(shè)計低復(fù)雜度的求解算法實現(xiàn)功率控制與計算卸載的聯(lián)合優(yōu)化。首先,DQN算法能夠解決傳統(tǒng)的Q學(xué)習(xí)算法訪問狀態(tài)信息有限且無法存儲查找表的問題;其次,采用DDPG解決DQN無法處理連續(xù)性動作的不足,DDPG以Actor-Critic框架為基礎(chǔ),通過Actor網(wǎng)絡(luò)將離散的動作空間連續(xù)化[24];最后,由于DDPG網(wǎng)絡(luò)可能存在過估計的問題,設(shè)計了IDDPG算法,移除了傳統(tǒng)DDPG中的Critic網(wǎng)絡(luò),改用設(shè)計的獎勵函數(shù)對Actor網(wǎng)絡(luò)動作進行評價,這樣可以避免Critic網(wǎng)絡(luò)評價結(jié)果出現(xiàn)過估計的問題,能提高系統(tǒng)深度強化學(xué)習(xí)的求解精度(具體原因?qū)⒃讵剟詈瘮?shù)設(shè)計處說明)。
下面對本文IDDPG設(shè)計中的三個關(guān)鍵要素,即空間狀態(tài)、動作空間和獎勵函數(shù)進行說明。
第三個特征組為受干擾鄰居的信息
本文獎勵函數(shù)的目的是反映系統(tǒng)在單位能耗下能夠處理更多的任務(wù)量,即所實現(xiàn)的優(yōu)化問題(11)中目標(biāo)函數(shù)值越大,則受到獎勵;同時,如果不能滿足式(11)下的約束條件C1和C2,則應(yīng)受到懲罰。于是,系統(tǒng)的獎勵函數(shù)設(shè)計如下:
利用式(16)代替Critic網(wǎng)絡(luò)對Sink節(jié)點動作進行評價,主要原因在于本文系統(tǒng)能夠處理的任務(wù)量由傳感器和Sink節(jié)點的動作自身決定,與算法取得動作的中間決策累積過程無關(guān),而一般馬爾可夫決策獎勵函數(shù)與所有步的累積效果相關(guān),因此設(shè)計式(16)對動作進行評價,無須通過神經(jīng)網(wǎng)絡(luò)對獎勵函數(shù)(16)進行擬合,避免了傳統(tǒng)的DDPG評價網(wǎng)絡(luò)在函數(shù)擬合過程中產(chǎn)生的過估計問題[26]。
其中:為IDDPG算法中的狀態(tài)量;為動作網(wǎng)絡(luò);為動作網(wǎng)絡(luò)參數(shù)。
在完成動作網(wǎng)絡(luò)參數(shù)更新工作后,邊緣服務(wù)器對更新的參數(shù)進行廣播,發(fā)送給每個智能體,繼而Sink節(jié)點根據(jù)策略控制本小區(qū)內(nèi)傳感器設(shè)備的發(fā)射功率、波束成形和卸載策略使目標(biāo)函數(shù)(11)最大化。需要注意的是:雖然每個Sink節(jié)點都共享相同的IDDPG參數(shù),但每個Sink節(jié)點依然有著不同的動作,因為每個Sink節(jié)點根據(jù)自己的本地狀態(tài)來執(zhí)行相同的IDDPG算法。而且在訓(xùn)練過程中,為了驗證本文算法的魯棒性,在下一次訓(xùn)練之前,將傳感器設(shè)備在小區(qū)內(nèi)進行隨機移動,這樣使CSI有更多的變化,保證CSI的時變性,并且在該過程中CSI也具有一定的延時性,從而使本文策略在訓(xùn)練過程中觀察到更多的狀態(tài)變化。
圖5 網(wǎng)絡(luò)結(jié)構(gòu)
IDDPG算法如算法1所示。
算法1 基于深度強化學(xué)習(xí)的SWIPT邊緣網(wǎng)絡(luò)聯(lián)合優(yōu)化算法。
① 初始化一個噪聲項,完成動作探索;
④ end for
5) end for
本文采用深度強化學(xué)習(xí)對模型進行訓(xùn)練,該過程中需要大量數(shù)據(jù)樣本。首先,本文參考文獻[30]的信道數(shù)據(jù)根據(jù)標(biāo)準(zhǔn)正態(tài)分布生成,即利用瑞利(Rayleigh)分布函數(shù)隨機生成參數(shù)狀態(tài)下的信道狀態(tài)信息,Rayleigh衰落是一種合理的信道模型,被廣泛應(yīng)用生成信道數(shù)據(jù);其次,將生成的信道狀態(tài)信息輸入傳統(tǒng)的最優(yōu)化算法WMMSE并輸出優(yōu)化后的動作參數(shù),將信道狀態(tài)信息和這些參數(shù)信息組成元組形成一個樣本數(shù)據(jù);最后,依據(jù)上述流程不斷迭代生成本文大量的數(shù)據(jù)樣本。接下來,本文算法將采用試錯法進行訓(xùn)練,在無指導(dǎo)的情況下,通過每個智能體不斷和環(huán)境交互,積累經(jīng)驗,對好的動作賦予更高的獎勵,最終得到策略。
表1 仿真參數(shù)
表2 IDDPG的超參數(shù)
為驗證本文深度強化學(xué)習(xí)算法在無線攜能MEC網(wǎng)絡(luò)中聯(lián)合優(yōu)化功率和計算資源的有效性和性能,與以下9種策略(分別簡稱為方案1~9)進行對比:1)IDDPG,表示基于多智能體IDDPG算法策略;2)FP,表示基于傳統(tǒng)算法分式規(guī)劃算法的策略,分式規(guī)劃算法的框架參考文獻[34],該方案中使FP算法擁有完美的CSI;3)MaxPower,表示基于分配最大發(fā)射功率策略,即傳感器節(jié)點以最大發(fā)射功率來計算系統(tǒng)的目標(biāo)函數(shù);4)WMMSE,表示基于WMMSE的策略,是本文的理想算法,具有完美CSI,相較于FP算法,它需要更多的迭代以達到收斂;5)IDDPG-perfectCSI,表示具有完美CSI的IDDPG算法策略;6)DQN,表示基于DQN算法策略;7)IDDPG-SWIPT,表示只考慮波束成形下的IDDPG算法策略;8)IDDPG-功率控制,表示只考慮功率控制下的IDDPG算法策略;9)DDPG,表示基于DDPG 算法策略。本文在傳感器節(jié)點不移動的情況下便能夠獲得完美的CSI。
圖6展示了本文算法策略在不同學(xué)習(xí)率下的收斂性,從中可以看出,在學(xué)習(xí)率為0.1和0.01時,本文算法并不收斂,當(dāng)學(xué)習(xí)率大于0.01時,算法才收斂,但學(xué)習(xí)率為0.000 1時獲得了算法的局部最優(yōu),未獲得全局最優(yōu)獎勵。因此本文算法將采用的學(xué)習(xí)率為0.001。
本文深度強化學(xué)習(xí)算法分為訓(xùn)練和測試兩部分,在訓(xùn)練階段將50 000個樣本分為10個訓(xùn)練集,每個訓(xùn)練集5 000個樣本,智能體經(jīng)驗池的大小設(shè)置為1 000,將訓(xùn)練集代入方案1、6、7、8和9算法策略進行訓(xùn)練,結(jié)果如圖7所示。對于IDDPG策略,隨著IDDPG的每一次訓(xùn)練網(wǎng)絡(luò)參數(shù)更新,一個訓(xùn)練集將參數(shù)在各個智能體直接共享。從圖7中可以看出,在大概2 000次訓(xùn)練迭代時,本文的深度強化學(xué)習(xí)算法便開始快速收斂,在大概完成第一個訓(xùn)練集時便已經(jīng)逼近了傳統(tǒng)的理想算法;并且與基于DQN的訓(xùn)練策略方案相比,在迭代10 000次以后,本文算法更優(yōu)。與此同時,從圖7中還可以看出,本文算法相較于方案9具有更好的性能,這是因為DDPG算法中使用Critic網(wǎng)絡(luò)對動作進行評價,該方式導(dǎo)致了過估計問題,使系統(tǒng)精度下降,目標(biāo)函數(shù)值陷入了局部最優(yōu)的陷阱。此外,本文算法在考慮CSI的不完美性和延時性的情況下,在訓(xùn)練中經(jīng)歷各種其他設(shè)備干擾和位置改變,目標(biāo)函數(shù)不斷提高體現(xiàn)了本文算法的高性能。從圖7中還能看出目標(biāo)函數(shù)的數(shù)據(jù)較震蕩,原因是本文的實驗場景是在無線攜能MEC邊緣網(wǎng)絡(luò)中,所以傳感器節(jié)點是移動的,這樣在每一周期的信道狀態(tài)信息都是改變的,造成的干擾也會改變,系統(tǒng)的目標(biāo)函數(shù)訓(xùn)練結(jié)果也隨之變化。
圖6 不同學(xué)習(xí)率下的算法收斂性
然而,方案7相較于方案1和6存在更低的能效結(jié)果,這是因為在僅僅考慮波束成形的情況下,方案7策略無法處理每個周期都在改變的信道狀態(tài)信息,無法排除系統(tǒng)中的信號干擾問題,這也是導(dǎo)致線條較平滑、收斂不明顯的原因。與此同時,方案8相較于其他三種方案存在更低的能效結(jié)果,這是因為在僅考慮功率控制的情況下,系統(tǒng)由于缺少了SWIPT的能量收集利用,導(dǎo)致系統(tǒng)能耗增加;并且傳感器設(shè)備需要根據(jù)收集的能量來處理數(shù)據(jù),能量的缺失將導(dǎo)致系統(tǒng)能夠處理的數(shù)據(jù)任務(wù)量減少。因此方案8存在最低的能效結(jié)果。綜上所述,本文提出的聯(lián)合優(yōu)化策略優(yōu)于只考慮一種因素的單步策略。
圖7 訓(xùn)練結(jié)果
本文基于多智能體IDDPG算法的損失值如圖8所示,驗證了本文算法的收斂性。
圖8 損失值變化曲線
測試階段根據(jù)訓(xùn)練得到的策略,測試新的數(shù)據(jù)集結(jié)果如圖9所示,在圖9中取每一個數(shù)據(jù)集的平均目標(biāo)函數(shù)值。
圖9 測試集結(jié)果圖
從圖9中可以看出,在經(jīng)過第一次數(shù)據(jù)集迭代后,測試數(shù)據(jù)快速收斂,達到傳統(tǒng)FP算法的目標(biāo)函數(shù)值,并且隨著數(shù)據(jù)集測試次數(shù)的增加,訓(xùn)練目標(biāo)函數(shù)值不斷提高,向理想WMMSE算法逼近。通過圖9還可以看出方案3的目標(biāo)函數(shù)值最小,這是因為以最大發(fā)射功率進行任務(wù)卸載所造成的干擾最大;其次方案2中的FP算法通過迭代對干擾信息進行了處理,目標(biāo)函數(shù)值明顯高于方案3;方案4作為理想算法比FP算法性能更優(yōu),這是犧牲了系統(tǒng)復(fù)雜度的情況下所造成的結(jié)果;方案1與方案5相比,本文設(shè)計的策略比具有完美CSI的IDDPG算法結(jié)果更優(yōu),這是因為本文的深度強化學(xué)習(xí)算法方案通過對不同信道狀態(tài)信息的訓(xùn)練形成策略,使Sink節(jié)點能夠根據(jù)該最優(yōu)的波束成形策略及時調(diào)整傳感器的發(fā)射功率;而且Sink節(jié)點會將訓(xùn)練參數(shù)進行共享,以此降低系統(tǒng)的復(fù)雜度。與傳統(tǒng)的WMMSE和FP算法相比,深度強化學(xué)習(xí)算法將系統(tǒng)信息作為神經(jīng)網(wǎng)絡(luò)的輸入得到策略的輸出,并沒有對數(shù)據(jù)進行迭代計算,這也沒有提升系統(tǒng)復(fù)雜度,驗證了本文算法的有效性。在實際場景中信道狀態(tài)信息往往是不完美的,為了進一步證明本文算法的有效性,將方案1和6進行對比,從圖9中可以看出在第一個測試集時,兩種算法迅速收斂,但本文的算法始終優(yōu)于DQN算法。這是由于IDDPG算法的動作空間是連續(xù)的,相比DQN算法輸出為量化的離散值,使信息的精度受到影響,所以本文算法策略更優(yōu)。
表3展示了每個測試集執(zhí)行時不同算法所消耗的時間、算法的迭代次數(shù)和算法相較于最優(yōu)化算法WMMSE的準(zhǔn)確度。每個測試集包含5 000個樣本數(shù)據(jù),所以每個數(shù)據(jù)集的周期長度為100 ms。從表3可以看出,本文的深度強化學(xué)習(xí)算法消耗的時間最少,其次是DQN算法,之后是FP算法,WMMSE算法耗時最多。這是因為WMMSE算法相較于FP算法迭代次數(shù)更多,而本文IDDPG算法和DQN算法無須進行迭代計算,只是將信息作為神經(jīng)網(wǎng)絡(luò)的輸入來得到策略的輸出。本文算法比DQN算法有更短的耗時,這是由于本文算法采取集中式訓(xùn)練和分布式執(zhí)行,所以本文算法的訓(xùn)練信息能夠共享,復(fù)雜度更低。綜上所述,本文的基于多智能體IDDPG算法策略實時性更好。從表3中還可以看出,雖然隨著Sink節(jié)點和傳感器節(jié)點的增加,網(wǎng)絡(luò)空間更加復(fù)雜,導(dǎo)致算法的準(zhǔn)確性會有所下降,但本文算法基本和傳統(tǒng)FP算法持平,并優(yōu)于DQN算法,驗證了算法有效性。
根據(jù)測試數(shù)據(jù)集的目標(biāo)函數(shù)的累計分布函數(shù)(Cumulative Distribution Function, CDF)驗證本文深度強化學(xué)習(xí)算法的性能,結(jié)果如圖10所示。從圖10(a)中可以看出,在考慮傳感器節(jié)點非移動性的情況下,即信道具有完美CSI,本文的深度強化學(xué)習(xí)算法策略相較于最大發(fā)射功率策略,DQN策略有更高的目標(biāo)函數(shù)值,這是由于本文算法策略能夠處理更復(fù)雜的動作空間,但低于傳統(tǒng)FP算法策略和WMMSE算法策略。然而,從圖10(b)可以看出針對傳感器節(jié)點移動性的情況下,本文IDDPG算法卻擁有最廣泛的分布空間,這是由于本文算法策略可以根據(jù)信道狀態(tài)信息和干擾信息調(diào)整自己的策略,Sink節(jié)點控制傳感器節(jié)點調(diào)整自己的發(fā)射功率,減少相互的干擾,提高目標(biāo)函數(shù)值。圖10(b)并未考慮WMMSE算法的移動情況,這是因為WMMSE算法作為本文最優(yōu)算法的策略,它應(yīng)擁有最廣泛的分布空間。綜上所示,本文算法在考慮移動性的情況下比基于分配最大發(fā)射功率策略、基于FP算法策略和DQN策略有更廣泛的分布空間,更加適合處理移動性的情況。
表3 測試集上的性能檢測結(jié)果對比
圖10 系統(tǒng)傳感器不同運動情況的目標(biāo)函數(shù)CDF
為了驗證本文傳感器移動性對系統(tǒng)性能的影響,設(shè)置了在不同數(shù)量Sink節(jié)點和傳感器節(jié)點移動和不移動情況下的測試集,根據(jù)所得策略測試不同測試集的CDF結(jié)果如圖11所示。從圖11可以看出,無論節(jié)點數(shù)量如何變化,傳感器節(jié)點移動的測試結(jié)果比不移動具有更廣闊的分布空間。這是因為本文策略是針對傳感器移動情況下訓(xùn)練所得,所以該策略能夠很好地處理傳感器的移動性。與此同時,隨著節(jié)點數(shù)量的增加,測試結(jié)果分布結(jié)果略有降低,這是因為隨著節(jié)點的增加,系統(tǒng)處理的任務(wù)量增加,導(dǎo)致精度下降,但結(jié)果仍接近(10,20)節(jié)點數(shù)量結(jié)果,驗證了本文算法的有效性。
圖11 不同數(shù)量節(jié)點移動和非移動(perfectCSI)情況下的CDF
機器學(xué)習(xí)方法在無線網(wǎng)絡(luò)中的應(yīng)用能夠降低系統(tǒng)決策的計算復(fù)雜度并提升系統(tǒng)實時性。本文針對SWIPT使能的邊緣無線網(wǎng)絡(luò),設(shè)計系統(tǒng)運行周期,提出基于深度強化學(xué)習(xí)的聯(lián)合優(yōu)化方法。通過設(shè)計系統(tǒng)信息交換過程建立IDDPG算法,實現(xiàn)網(wǎng)絡(luò)中波束成形決策、功率控制決策、計算卸載決策的聯(lián)合求解。仿真結(jié)果驗證了本文方法的有效性,同時通過與多種最優(yōu)化方法和機器學(xué)習(xí)方法對比,表明本文所述方法在降低計算復(fù)雜度,提升決策實時性方面的優(yōu)勢。
[1] 劉通,方璐,高洪皓. 邊緣計算中任務(wù)卸載研究綜述[J]. 計算機科學(xué), 2021, 48(1):11-15.(LIU T, FANG L, GAO H H. Survey of task offloading in edge computing[J]. Computer Science, 2021, 48(1): 11-15.)
[2] 陳霄,劉巍,陳靜,等. 邊緣計算環(huán)境下的計算卸載策略研究[J]. 火力與指揮控制, 2022, 47(1):7-14, 19.(CHEN X, LIU W, CHEN J, et al. Research on computing offload strategy in edge computing environment[J]. Fire Control & Command Control, 2022, 47(1):7-14, 19.)
[3] LIU H, JIA H, CHEN J, et al. Computing resource allocation of mobile edge computing networks based on potential game theory[EB/OL]. [2022-11-16].https://arxiv.org/pdf/1901.00233.pdf.
[4] WANG G, XU F. Regional intelligent resource allocation in mobile edge computing based vehicular network[J]. IEEE Access, 2020, 8: 7173-7182.
[5] 鮮永菊,宋青蕓,郭陳榕,等. 計算資源受限MEC中任務(wù)卸載與資源分配方法[J]. 小型微型計算機系統(tǒng), 2022, 43(8):1782-1787.(XIAN Y J, SONG Q Y, GUO C R, et al. Method of task offloading and resource allocation in MEC with limited computing resources[J]. Journal of Chinese Computer Systems, 2022, 43(8):1782-1787.)
[6] 李余,何希平,唐亮貴. 基于終端直通通信的多用戶計算卸載資源優(yōu)化決策[J]. 計算機應(yīng)用, 2022, 42(5):1538-1546.(LI Y, HE X P, TANG L G. Multi-user computation offloading and resource optimization policy based on device-to-device communication[J]. Journal of Computer Applications, 2022, 42(5):1538-1546.)
[7] 李燕君,蔣華同,高美惠. 基于強化學(xué)習(xí)的邊緣計算網(wǎng)絡(luò)資源在線分配方法[J]. 控制與決策, 2022, 37(11): 2880-2886.(LI Y J, JIANG H T, GAO M H. Reinforcement learning-based online resource allocation for edge computing network[J]. Control and Decision, 2022, 37(11): 2880-2886.)
[8] 朱思峰,蔡江昊,柴爭義,等. 車聯(lián)網(wǎng)邊緣場景下基于免疫算法的計算卸載優(yōu)化[J/OL]. 吉林大學(xué)學(xué)報(工學(xué)版) (2022-07-26) [2022-11-16].https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.13229/j.cnki.jdxbgxb20220193.(ZHU S F, CAI J H, CHAI Z Y, et al. A novel computing offloading optimization scheme based on immune algorithm in edge computing scenes of internet of vehicles[J/OL]. Journal of Jilin University (Engineering and Technology Edition) (2022-07-26) [2022-11-16].https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.13229/j.cnki.jdxbgxb20220193.)
[9] 李斌,劉文帥,謝萬城,等. 智能超表面賦能移動邊緣計算部分任務(wù)卸載策略[J]. 電子與信息學(xué)報, 2022, 44(7):2309-2316.(LI B, LIU W S, XIE W C, et al. Partial computation offloading for double-RIS assisted multi-user mobile edge computing networks[J]. Journal of Electronics and Information Technology, 2022, 44(7): 2309-2316.)
[10] CHEN F, WANG A, ZHANG Y, et al. Energy efficient SWIPT based mobile edge computing framework for WSN-assisted IoT[J]. Sensors, 2021, 21(14): No.4798.
[11] FU J, HUA J, WEN J, et al. Optimization of achievable rate in the multiuser satellite IoT system with SWIPT and MEC[J]. IEEE Transactions on Industrial Informatics, 2021, 17(3): 2072-2080.
[12] TIONG T, SAAD I, KIN TEO K T, et al. Deep reinforcement learning online offloading for SWIPT multiple access edge computing network[C]// Proceedings of the IEEE 11th International Conference on System Engineering and Technology. Piscataway: IEEE, 2021: 240-245.
[13] LI N, HAO W, ZHOU F, et al. Smart grid enabled computation offloading and resource allocation for SWIPT-based MEC system[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2022, 69(8): 3610-3614.
[14] WANG X, LI J, NING Z, et al. Wireless powered mobile edge computing networks: a survey[J]. ACM Computing Surveys, 2023, 55(13s): No.263.
[15] MUSTAFA E, SHUJA J, BILAL K, et al. Reinforcement learning for intelligent online computation offloading in wireless powered edge networks[J]. Cluster Computing, 2023, 26(2): 1053-1062.
[16] 施安妮,李陶深,王哲,等.基于緩存輔助的全雙工無線攜能通信系統(tǒng)的中繼選擇策略[J]. 計算機應(yīng)用, 2021, 41(6):1539-1545.(SHI A N, LI T S, WANG Z, et al. Relay selection strategy for cache-aided full-duplex simultaneous wireless information and power transfer system[J]. Journal of Computer Applications, 2021, 41(6):1539-1545.)
[17] 陳艷,王子健,趙澤,等. 傳感器網(wǎng)絡(luò)環(huán)境監(jiān)測時間序列數(shù)據(jù)的高斯過程建模與多步預(yù)測[J]. 通信學(xué)報, 2015, 36(10): 252-262.(CHEN Y, WANG Z J, ZHAO Z, et al. Gaussian process modeling and multi-step prediction for time series data in wireless sensor network environmental monitoring[J]. Journal on Communications, 2015, 36(10): 252-262.)
[18] 侯艷麗,蘇佳,胡佳偉. 基于有限反饋機會波束的無線傳感器網(wǎng)絡(luò)[J]. 傳感器與微系統(tǒng), 2014, 33(2): 57-60.(HOU Y L, SU J, HU J W. Wireless sensor networks based on finite feedback opportunistic beamforming[J]. Transducer and Microsystem Technologies, 2014, 33(2): 57-60.)
[19] DENT P, BOTTOMLEY G E, CROFT T. Jakes fading model revisited[J]. Electronics Letters, 1993, 29(13):1162-1163.
[20] 王強,王鴻. 智能反射面輔助的下行NOMA系統(tǒng)和速率最大化研究[J]. 南京郵電大學(xué)學(xué)報(自然科學(xué)版), 2022, 42(1): 23-29.(WANG Q, WANG H. On sum rate maximization for IRS-aided downlink NOMA systems[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2022, 42(1): 23-29.)
[21] 吳毅凌,李紅濱,趙玉萍. 一種適用于時不變信道的信道估計方法[J]. 高技術(shù)通訊, 2010, 20(1): 1-7.(WU Y L, LI H B, ZHAO Y P. A novel channel estimation method for time-invariant channels[J]. Chinese High Technology Letters, 2010, 20(1): 1-7.)
[22] SEID A M, BOATENG G O, ANOKYE S, et al. Collaborative computation offloading and resource allocation in multi-UAV assisted IoT networks: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021, 8(15): 12203-12218.
[23] 羅斌,于波. 移動邊緣計算中基于粒子群優(yōu)化的計算卸載策略[J]. 計算機應(yīng)用, 2020, 40(8):2293-2298.(LUO B, YU B. Computation offloading strategy based on particle swarm optimization in mobile edge computing[J]. Journal of Computer Applications, 2020, 40(8): 2293-2298.)
[24] LUO Z Q, ZHANG S. Dynamic spectrum management: complexity and duality[J]. IEEE Journal of Selected Topics in Signal Processing, 2008, 2(1): 57-73.
[25] 張淑興,馬馳,楊志學(xué),等. 基于深度確定性策略梯度算法的風(fēng)光儲系統(tǒng)聯(lián)合調(diào)度策略[J]. 中國電力, 2023, 56(2): 68-76.(ZHANG S X, MA C, YANG Z X, et al. Deep deterministic policy gradient algorithm based wind-photovoltaic-storage hybrid system joint dispatch[J]. Electric Power, 2023, 56(2): 68-76.)
[26] 韓佶,苗世洪, JON M R, 等. 基于機群劃分與深度強化學(xué)習(xí)的風(fēng)電場低電壓穿越有功/無功功率聯(lián)合控制策略[J]. 中國電機工程學(xué)報, 2023, 43(11): 4228-4244.(HAN J, MIAO S H, JON M R, et al. Combined re/active power control for wind farm under low voltage ride through based on wind turbines grouping and deep reinforcement learning[J]. Proceedings of the CSEE, 2023, 43(11): 4228-4244.)
[27] 鄧暉奕,李勇振,尹奇躍. 引入通信與探索的多智能體強化學(xué)習(xí)QMIX算法[J]. 計算機應(yīng)用, 2023, 43(1): 202-208.(DENG H Y, LI Y Z, YIN Q Y. Improved QMIX algorithm from communication and exploration for multi-agent reinforcement learning[J]. Journal of Computer Applications, 2023, 43(1): 202-208.)
[28] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2022-11-16].https://arxiv.org/pdf/1509.02971.pdf.
[29] 蔣寶慶,陳宏濱. 基于Q學(xué)習(xí)的無人機輔助WSN數(shù)據(jù)采集軌跡規(guī)劃[J]. 計算機工程, 2021, 47(4): 127-134, 165.(JIANG B Q, CHEN H B. Trajectory planning for unmanned aerial vehicle assisted WSN data collection based on Q-learning[J]. Computer Engineering, 2021, 47(4): 127-134, 165.)
[30] SUN H, CHEN X, SHI Q, et al. Learning to optimize: training deep neural networks for interference management[J]. IEEE Transactions on Signal Processing, 2018, 66(20): 5438-5453.
[31] 李燁,肖夢巧. 大規(guī)模MIMO系統(tǒng)中功率分配的深度強化學(xué)習(xí)方法[J/OL]. 小型微型計算機系統(tǒng) (2022-08-01) [2022-11-16].http://kns.cnki.net/kcms/detail/21.1106.TP.20220729.1115.010.html.(LI Y, XIAO M Q. Deep reinforcement learning approach for power allocation in massive MIMO systems[J/OL]. Journal of Chinese Computer Systems [2022-11-16].http://kns.cnki.net/kcms/detail/21.1106.TP.20220729.1115.010.html.)
[32] 張先超,趙耀,葉海軍,等. 無線網(wǎng)絡(luò)多用戶干擾下智能發(fā)射功率控制算法[J]. 通信學(xué)報, 2022, 43(2): 15-21.(ZHANG X C, ZHAO Y, YE H J, et al. Intelligent transmit power control algorithm for the multi-user interference of wireless network[J]. Journal on Communications, 2022, 43(2): 15-21.)
[33] 陶麗佳,趙宜升,徐新雅. 無人機協(xié)助邊緣計算的能量收集MEC系統(tǒng)資源分配策略[J]. 南京郵電大學(xué)學(xué)報(自然科學(xué)版), 2022, 42(1): 37-44.(TAO L J, ZHAO Y S, XU X Y. Resource allocation strategy for UAV-assisted edge computing in energy harvesting MEC system[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2022, 42(1): 37-44.)
[34] SHEN K, YU W. Fractional programming for communication systems — Part I: power control and beamforming[J]. IEEE Transactions on Signal Processing, 2018, 66(10): 2616-2630.
Joint optimization method for SWIPT edge network based on deep reinforcement learning
WANG Zhe1,2,3, WANG Qiming2, LI Taoshen4, GE Lina1,3,5
(1,,530006,;2,,530006,;3(),530006,;4,,,530004,;5,,530006,;)
Edge Computing (EC) and Simultaneous Wireless Information and Power Transfer (SWIPT) technologies can improve the performance of traditional networks, but they also increase the difficulty and complexity of system decision-making. The system decisions designed by optimization methods often have high computational complexity and are difficult to meet the real-time requirements of the system. Therefore, aiming at Wireless Sensor Network (WSN) assisted by EC and SWIPT, a mathematical model of system energy efficiency optimization was proposed by jointly considering beamforming, computing offloading and power control problems in the network. Then, concerning the non-convex and parameter coupling characteristics of this model, a joint optimization method based on deep reinforcement learning was proposed by designing information interchange process of the system. This method did not need to build an environmental model and adopted a reward function instead of the Critic network for action evaluation, which could reduce the difficulty of decision-making and improve the system real-time performance. Finally, based on the joint optimization method, an Improved Deep Deterministic Policy Gradient (IDDPG) algorithm was designed. Simulation comparisons were made with a variety of optimization algorithms and machine learning algorithms to verify the advantages of the joint optimization method in reducing the computational complexity and improving real-time performance of decision-making.
Wireless Sensor Network (WSN); deep reinforcement learning; SWIPT (Simultaneous Wireless Information and Power Transfer); Edge Computing (EC); joint optimization
1001-9081(2023)11-3540-11
10.11772/j.issn.1001-9081.2022111732
2022?11?22;
2023?04?30;
國家自然科學(xué)基金資助項目(61862007); 廣西自然科學(xué)基金資助項目(2020GXNSFBA297103); 廣西民族大學(xué)引進人才科研啟動項目(2019KJQD17)。
王哲(1991—),男,河南南陽人,副教授,博士,CCF會員,主要研究方向:計算機網(wǎng)絡(luò)、攜能通信、聯(lián)邦機器學(xué)習(xí); 王啟名(1997—),男,江蘇宿遷人,碩士研究生,主要研究方向:計算機網(wǎng)絡(luò)、攜能通信、機器學(xué)習(xí); 李陶深(1957—),男,廣西南寧人,教授,博士,CCF杰出會員,主要研究方向:移動無線網(wǎng)絡(luò)、無線能量傳輸、物聯(lián)網(wǎng)、智慧城市; 葛麗娜(1969—),女,廣西環(huán)江人,教授,博士,CCF高級會員,主要研究方向:網(wǎng)絡(luò)與信息安全、移動計算、人工智能。
2023?05?12。
This work is partially supported by National Natural Science Foundation of China (61862007), Natural Science Foundation of Guangxi Province (2020GXNSFBA297103), Scientific Research Start Project of Talents Introduced by Guangxi Minzu University (2019KJQD17).
WANG Zhe, born in 1991, Ph. D., associate professor. His research interests include computer network, simultaneous information and power transfer, federated machine learning.
WANG Qiming, born in 1997, M. S. candidate. His research interests include computer network, simultaneous information and power transfer, machine learning.
LI Taoshen, born in 1957, Ph. D., professor. His research interests include mobile wireless network, wireless energy transmission, internet of things, smart city.
GE Lina, born in 1969, Ph. D., professor. Her research interests include network and information security, mobile computing, artificial intelligence.