徐思雅,邢逸斐,郭少勇,楊超,邱雪松,孟洛明
(1.北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)與交換重點(diǎn)實(shí)驗(yàn)室,北京 100876;2.國網(wǎng)遼寧省電力有限公司信息通信分公司,遼寧 沈陽 110004)
能源互聯(lián)網(wǎng)是綜合運(yùn)用先進(jìn)的電力電子技術(shù)、通信技術(shù)、信息技術(shù)和智能管理技術(shù)支撐能源節(jié)點(diǎn)互聯(lián),實(shí)現(xiàn)能量雙向流動的能量對等交換與共享網(wǎng)絡(luò)。我國倡導(dǎo)構(gòu)建全球能源互聯(lián)網(wǎng),推動以清潔和綠色的方式滿足全球電力需求。但是,隨著能源互聯(lián)網(wǎng)規(guī)模的逐漸擴(kuò)大,海量的物聯(lián)設(shè)備對電能輸送容量與傳輸距離的要求越來越高,這使我國架空輸電線路工程的規(guī)模也隨之提升。因此,輸電線路日常巡檢成為電力公司各級運(yùn)檢部門的重要工作之一[1]。但是,部分輸電線路需要穿過地形復(fù)雜和自然環(huán)境惡劣的地區(qū)[2],這給運(yùn)維人員的日常巡檢工作帶來了極大的挑戰(zhàn)。近年來,電力運(yùn)檢部門借助無人機(jī)(UAV,unmanned aerial vehicle)技術(shù)來解決傳統(tǒng)人力巡檢效率低下的問題。UAV 技術(shù)是指以無線電遙控技術(shù)為基礎(chǔ)、以適配性極強(qiáng)的程序?yàn)榭刂剖侄蔚囊环N無人駕駛航空設(shè)備,可提供實(shí)時數(shù)據(jù)采集和無線數(shù)據(jù)傳輸?shù)裙δ?。這種新型巡檢方式安全高效,可以靈活地在人力難以到達(dá)的地理區(qū)域進(jìn)行巡檢作業(yè),降低操作成本并保障運(yùn)維人員的人身安全[3]。
然而,隨著無人機(jī)巡檢方式的推廣,新的問題也隨之產(chǎn)生。由于無人機(jī)的計算能力有限,不能獨(dú)自處理巡檢過程中產(chǎn)生的海量圖像數(shù)據(jù),需要將任務(wù)卸載到其他服務(wù)器上處理。在無人機(jī)數(shù)據(jù)卸載方面,移動邊緣計算(MEC,mobile edge computing)技術(shù)發(fā)揮著重要作用。MEC 按照我國輸電線路的實(shí)際地理位置部署邊緣服務(wù)器,可充分發(fā)揮邊緣計算在網(wǎng)絡(luò)中靈活分布的優(yōu)勢,并可按照一定的卸載機(jī)制進(jìn)行無人機(jī)數(shù)據(jù)卸載,以降低任務(wù)時延和系統(tǒng)能耗[4],延長整個巡檢系統(tǒng)續(xù)航時間并提高網(wǎng)絡(luò)資源利用率。因此,研究無人機(jī)巡檢任務(wù)的卸載機(jī)制具有重要的理論和應(yīng)用價值。
近年來,針對無人機(jī)任務(wù)卸載的研究已有較多成果,主要解決無人機(jī)任務(wù)處理中的節(jié)能問題。例如,文獻(xiàn)[5]針對MEC 場景提出了一種面向能耗的任務(wù)調(diào)度算法,聯(lián)合優(yōu)化無人機(jī)的路徑規(guī)劃和移動設(shè)備的信道資源,可降低所有移動設(shè)備的能耗,但未考慮任務(wù)生成的動態(tài)特性和任務(wù)傳輸?shù)呐抨?duì)時延。文獻(xiàn)[6]提出一種基于塊坐標(biāo)下降和連續(xù)凸逼近(SCA,successive convex approximation)相結(jié)合的迭代算法,結(jié)合無人機(jī)軌跡、發(fā)射功率和時延要求對通信資源進(jìn)行調(diào)度,提高用戶通信帶寬,但忽略了無人機(jī)正常飛行的能耗。文獻(xiàn)[7]在三級霧計算網(wǎng)絡(luò)中以任務(wù)所經(jīng)歷的能量消耗和時延加權(quán)和為目標(biāo)函數(shù),并提出3 種決策算法求解該聯(lián)合優(yōu)化問題,分析并論證了無人機(jī)位置、移動設(shè)備和霧節(jié)點(diǎn)的處理頻率、傳輸功率的分配方案,但其應(yīng)用場景中霧節(jié)點(diǎn)數(shù)量較少,實(shí)用價值較低。文獻(xiàn)[8]在任務(wù)約束、信息因果關(guān)系約束、帶寬分配約束和無人機(jī)軌跡約束下,聯(lián)合優(yōu)化無人機(jī)和用戶設(shè)備的能量消耗,但其應(yīng)用場景中無人機(jī)數(shù)量較少,存在算法普適性較低的問題。文獻(xiàn)[9]在滿足傳感器節(jié)點(diǎn)傳輸速率需求的條件下,提出了一種基于塊坐標(biāo)下降和SCA 相結(jié)合的迭代算法,解決了無人機(jī)調(diào)度方案、功率分配策略和飛行軌跡等的聯(lián)合優(yōu)化問題,降低了無人機(jī)的功耗,但缺乏對傳感器節(jié)點(diǎn)能耗的分析。文獻(xiàn)[10]通過3 次計算優(yōu)化了無人機(jī)輔助網(wǎng)絡(luò)資源分配方案,減少包括通信相關(guān)能量在內(nèi)的總能耗,但忽略了終端設(shè)備和邊緣服務(wù)器的能耗問題。綜上分析可知,現(xiàn)有方法可以有效實(shí)現(xiàn)無人機(jī)能耗和時延的聯(lián)合優(yōu)化,但大多數(shù)僅考慮了無人機(jī)的能耗,忽略了邊緣服務(wù)器的長期能量約束以及不同電力巡檢任務(wù)多樣化的服務(wù)要求,實(shí)用性較差,不能直接應(yīng)用于電力巡檢場景。
為解決以上問題,本文對實(shí)際巡檢任務(wù)需求進(jìn)行分析,提出了一種基于深度強(qiáng)化學(xué)習(xí)的能源互聯(lián)網(wǎng)智能巡檢任務(wù)分配機(jī)制,建立了基于雙層邊緣網(wǎng)絡(luò)的云邊端網(wǎng)絡(luò)架構(gòu),并結(jié)合Lyapunov 優(yōu)化理論和強(qiáng)化學(xué)習(xí)技術(shù)設(shè)計巡檢任務(wù)智能分配算法,在滿足不同巡檢場景業(yè)務(wù)需求的條件下,減少了系統(tǒng)能耗和業(yè)務(wù)時延。
本文主要的貢獻(xiàn)如下。
1) 為了延長電力巡檢移動設(shè)備的生命周期,針對輸電線路巡檢任務(wù)的實(shí)際場景,建立了基于雙層邊緣網(wǎng)絡(luò)的云邊端網(wǎng)絡(luò)架構(gòu)。雙層邊緣網(wǎng)絡(luò)由移動邊緣接入層和固定邊緣匯聚層組成。其中,固定邊緣匯聚層分別通過光纖和無線網(wǎng)絡(luò)與云中心和無人機(jī)相連;無人機(jī)通過無線網(wǎng)絡(luò)與移動邊緣接入層或固定邊緣匯聚層相連;移動邊緣接入層具有移動性,可以更加靈活地處理終端層的任務(wù),更契合復(fù)雜多樣的地理環(huán)境,滿足電力巡檢實(shí)際場景要求。
2) 提出了一種雙時間尺度機(jī)制來解決雙層邊緣網(wǎng)絡(luò)模型之間的關(guān)聯(lián)問題,該機(jī)制在較長時間尺度內(nèi)解決雙層邊緣網(wǎng)絡(luò)之間的關(guān)聯(lián)問題,在較短時間尺度內(nèi)執(zhí)行動態(tài)任務(wù)卸載策略,可以降低算法復(fù)雜度并減少系統(tǒng)處理時延。
3) 根據(jù)巡檢業(yè)務(wù)對通信和計算資源的需求,建立了任務(wù)卸載的能耗和時延模型?;贚yapunov優(yōu)化理論,將長期能量限制下的聯(lián)合卸載優(yōu)化問題轉(zhuǎn)化為每個時隙的Lyapunov 漂移加懲罰項(xiàng)在線優(yōu)化問題。本文設(shè)計了固定邊緣匯聚層和移動邊緣接入層的能量虧損隊(duì)列來監(jiān)測巡檢系統(tǒng)移動設(shè)備的能量消耗狀態(tài),并提出了一種基于近端策略優(yōu)化(PPO,proximal policy optimization)算法的巡檢任務(wù)分配機(jī)制來求解卸載策略。
針對無人機(jī)輸電線路巡檢任務(wù)的實(shí)際應(yīng)用場景,本文建立了基于雙層邊緣網(wǎng)絡(luò)的云邊端網(wǎng)絡(luò)架構(gòu),它由終端層、移動邊緣接入層、固定邊緣匯聚層和云平臺層組成,如圖1 所示。
圖1 基于雙層邊緣網(wǎng)絡(luò)的云邊端網(wǎng)絡(luò)架構(gòu)
1) 終端層。終端層由無人機(jī)構(gòu)成。無人機(jī)按照既定航線接近電力終端設(shè)備后懸停飛行或在一定范圍內(nèi)巡航[11]。本文假設(shè)無人機(jī)不在本地進(jìn)行數(shù)據(jù)處理工作,只負(fù)責(zé)采集不同類型的數(shù)據(jù)(圖像、視頻數(shù)據(jù)等),并通過無線通信的方式將任務(wù)數(shù)據(jù)卸載到移動邊緣接入層、固定邊緣匯聚層或云平臺層進(jìn)行處理。
2) 移動邊緣接入層。移動邊緣接入層由計算能力有限的移動通信車組成。移動通信車承載著底層MEC 服務(wù)器(Sub-MECS,subordinate MEC server),擔(dān)任無人機(jī)控制站的角色[12]。Sub-MECS 可以接收并處理終端層發(fā)送的任務(wù),以實(shí)現(xiàn)負(fù)載均衡和資源共享。
3) 固定邊緣匯聚層。固定邊緣匯聚層由計算能力較強(qiáng)的 MEC 服務(wù)器(M-MECS,main MEC server)及其所屬的基站組成,可以接收并處理終端層UAV 的任務(wù),也可以將部分對時延敏感度不高的任務(wù)卸載到云平臺層進(jìn)行計算處理。所有的M-MECS 都通過光纖鏈路連接到云平臺層。
4) 云平臺層。云平臺層由具有強(qiáng)大計算能力的云服務(wù)器組成,通過固定邊緣匯聚層接收終端層的任務(wù)包頭數(shù)據(jù),收集任務(wù)所需的計算資源和時延要求,并對任務(wù)卸載策略進(jìn)行學(xué)習(xí)和決策,存儲不同個體的決策模型,也可以統(tǒng)一計算處理固定邊緣匯聚層發(fā)送的任務(wù)。
1) 巡檢任務(wù)性能指標(biāo)
輸電線路巡檢是指對電力線路及附屬設(shè)備的運(yùn)行狀態(tài)以及電力線路走廊周邊環(huán)境進(jìn)行及時準(zhǔn)確的巡視檢查,排查發(fā)現(xiàn)隱患點(diǎn)并進(jìn)行有效的消除,確保電網(wǎng)安全平穩(wěn)運(yùn)行[13]。無人機(jī)電力巡檢的任務(wù)指標(biāo)定義如下。
時延。任務(wù)生成到獲得處理結(jié)果花費(fèi)的時間,包括傳輸時延、傳播時延、排隊(duì)時延和處理時延。
能耗。設(shè)備執(zhí)行任務(wù)所需的能量消耗,包括無人機(jī)、Sub-MECS、M-MECS 和云平臺。
2) 巡檢任務(wù)服務(wù)需求
在輸電線路巡檢過程中,有不同的電力巡檢場景,具體介紹如下。
電塔巡檢。電塔巡檢過程中需要無人機(jī)對桿塔、周邊環(huán)境和絕緣子等金屬部件進(jìn)行圖像采集,進(jìn)而分析電塔的運(yùn)行情況。由于電塔位置分散,尤其是惡劣自然環(huán)境下,電塔間的距離進(jìn)一步擴(kuò)大。這種情況下,為了減少單次巡檢任務(wù)中無人機(jī)對同一區(qū)域的通勤頻率,應(yīng)延長無人機(jī)的生命周期。因此,需著重考慮電塔巡檢任務(wù)的能耗問題。
導(dǎo)線巡檢。導(dǎo)線巡檢過程中需要無人機(jī)對導(dǎo)線磨損、導(dǎo)線劃傷、導(dǎo)線斷股以及沿途樹木和建筑物等情況進(jìn)行圖像采集并分析。導(dǎo)線故障可能會造成大面積區(qū)域斷電,但實(shí)際處理導(dǎo)線故障需要人工實(shí)地進(jìn)行更換導(dǎo)線,無人機(jī)傳輸導(dǎo)線異常的時延與之相比可以忽略不計。因此,相比于時延,導(dǎo)線巡檢任務(wù)對能耗的要求更高。
變電站巡檢。實(shí)際巡檢過程中,巡檢人員會采用目測法、耳聽法、鼻嗅法和手觸法等方法對變電站設(shè)備是否處于異常進(jìn)行判斷。在這種情況下,巡檢人員會實(shí)地完成變電站巡檢任務(wù),并盡快處理變電站故障,防止發(fā)生斷電和爆炸事故。無人機(jī)則主要完成輔助巡檢任務(wù),對部分變電站設(shè)備和周圍低空范圍的植被和違章建筑等進(jìn)行隱患巡檢。因此,變電站巡檢任務(wù)具有較高的時延要求。
假設(shè)UAV 和Sub-MECS 在網(wǎng)絡(luò)中是隨機(jī)分布且具有移動性的,而固定邊緣匯聚層的M-MECS位置不變。由于UAV 和Sub-MECS 的地理位置不斷變化,本文采用就近原則解決UAV 和Sub-MECS與上級邊緣節(jié)點(diǎn)的連接問題。
根據(jù)UAV 和Sub-MECS 在電力場景中的位置變化頻率,本文提出了一種雙時間尺度機(jī)制來解決UAV 和Sub-MECS 的位置變換和任務(wù)卸載轉(zhuǎn)移問題,如圖2 所示。
圖2 雙時間尺度模型
系統(tǒng)在時域上分為若干時隙,短時隙的集合可表示為t={t1,t2,…,tn},每個短時隙的長度為l。為了解決UAV 和Sub-MECS 的位置變換問題,將連續(xù)的ξ個時隙認(rèn)定為一個大時隙,用T={T1,T2,…,Tm}表示,其中大時隙與小時隙的轉(zhuǎn)換關(guān)系為為了簡化模型,假設(shè)第t個短時隙的數(shù)據(jù)在第t? 1個時隙的末尾生成。因此,本文認(rèn)為第t個時隙的數(shù)據(jù)可以在當(dāng)前時隙一開始就進(jìn)行數(shù)據(jù)處理。需要注意的是,各種任務(wù)的執(zhí)行速度是不同的,即有些任務(wù)可能在當(dāng)前時隙內(nèi)沒有完成,將在下一個時隙繼續(xù)處理。參數(shù)符號定義如表1 所示。
表1 系統(tǒng)參數(shù)符號
在每個短時間尺度時隙的開始,每個UAV 可以移動,并選擇與一個新的Sub-MECS 相關(guān)聯(lián)。每個長時間尺度時隙的開始,每個Sub-MECS 可以移動,并可以與一個新的M-MECS 關(guān)聯(lián)。然后,UAV的任務(wù)根據(jù)卸載策略卸載到Sub-MECS、M-MECS或云平臺層上進(jìn)行任務(wù)處理。
1) 無人機(jī)能耗模型
在網(wǎng)絡(luò)中,無人機(jī)只承擔(dān)數(shù)據(jù)的采集和打包轉(zhuǎn)發(fā)功能,不進(jìn)行數(shù)據(jù)的計算和處理。因此,無人機(jī)的能耗包含運(yùn)行能耗和無線傳輸能耗2 個部分。為了簡化模型,在運(yùn)行能耗方面,將每個時隙中無人機(jī)的運(yùn)行功耗設(shè)置為定值;在無線傳輸能耗方面,本文主要關(guān)注無人機(jī)任務(wù)數(shù)據(jù)的上行鏈路流量,忽略下行鏈路流量和任務(wù)描述數(shù)據(jù)。
本文假設(shè)ui在正交信道上進(jìn)行數(shù)據(jù)傳輸。
則ui在時隙t的無線傳輸?shù)哪芰肯臑?/p>
此外,根據(jù)Friis 傳輸方程組,自由空間功率損耗與發(fā)射端和接收端之間距離的平方成正比[15-16],即
其中,K為不同環(huán)境下的影響因子,Pr和Ps分別為接收功率和發(fā)射功率,S為接收端和發(fā)射端之間的距離。因此,當(dāng)傳輸距離變大時,UAV 的無線發(fā)射功率也隨之增大。
2) 無人機(jī)控制站(Sub-MECS)能耗模型
Sub-MECS 的能量消耗主要由任務(wù)計算處理能耗組成,計算處理能耗可由計算任務(wù)所需的CPU周期衡量。設(shè)fj(t)表示sj調(diào)度的CPU 周期頻率,允許的最大 CPU 周期頻率定義為fmax,即0<fj(t)<fmax。所以在時隙t中,sj的任務(wù)處理能耗為[17]
其中,κ為與芯片結(jié)構(gòu)相關(guān)的有效開關(guān)電容[18]。
因此,如果sj的當(dāng)前能量預(yù)算不足以滿足sj的任務(wù)處理需求,則需要將當(dāng)前任務(wù)順延到下一個時隙進(jìn)行計算,由此產(chǎn)生的排隊(duì)時延將在后續(xù)時延模型中詳細(xì)闡述。
3) M-MECS 能耗模型
M-MECS 的處理能耗是邊緣計算網(wǎng)絡(luò)的主要消耗。為了簡化模型,在M-MECS 穩(wěn)定工作的條件下,本文僅考慮了M-MECS 的計算能耗,其中,M-MECS的功耗包括兩部分:服務(wù)器空閑功耗和與CPU 工作負(fù)載相關(guān)的動態(tài)功耗[19]。功率模型可以表示為
其中,Pmax表示M-MECS 被充分利用時的峰值功率消耗;α表示M-MECS 空閑時的功耗比例,平均值在50%~70%;θ(t)表示CPU 利用率,定義為處理的總計算任務(wù)與CPU 最大服務(wù)速率的比值,即
1) UAV 時延模型
2) Sub-MECS 時延模型
由于sj的能量預(yù)算可能不滿足當(dāng)前時隙的能量消耗,因此將占用下一時隙的能量,并產(chǎn)生排隊(duì)時延。
3) M-MECS 時延模型
網(wǎng)絡(luò)中的無人機(jī)可能產(chǎn)生不同類型的數(shù)據(jù),因此計算任務(wù)所需的CPU 周期數(shù)也有所不同。假設(shè)單個任務(wù)所需CPU 周期數(shù)服從指數(shù)分布,在處理速率不變的情況下,任務(wù)的服務(wù)時間服也從指數(shù)分布。進(jìn)一步假設(shè)計算任務(wù)的生成速率服從泊松分布,則每個M-MECS 的計算時延可以建立為M/M/1排隊(duì)模型[20-22],mk的預(yù)期計算時延為
本文假設(shè)云服務(wù)器的計算時延和能量消耗可以忽略不計。將任務(wù)卸載到云的主要時延成本是回程時延,這同樣是一個M/M/1 系統(tǒng)[14]。那么,任務(wù)從mk向云平臺的傳輸時延為
本文針對所提出的基于雙層邊緣網(wǎng)絡(luò)的云邊端網(wǎng)絡(luò)架構(gòu),設(shè)計了一種基于深度強(qiáng)化學(xué)習(xí)的能源互聯(lián)網(wǎng)智能巡檢任務(wù)分配機(jī)制,以實(shí)現(xiàn)無人機(jī)在電力場景巡檢過程中通信和計算資源的聯(lián)合優(yōu)化分配。該機(jī)制通過將計算任務(wù)卸載到不同的移動邊緣接入層和固定邊緣匯聚層的邊緣服務(wù)器來提高網(wǎng)絡(luò)資源的利用率,滿足用戶不同的QoS 要求。Sub-MECS 可以處理計算簡單且時延敏感型的任務(wù),而在M-MECS 上可以處理計算密集型和時延敏感型的任務(wù)。此外,當(dāng)時延要求不嚴(yán)格時,可以將任務(wù)卸載到云平臺。對于巡檢任務(wù)的工作強(qiáng)度和時間跨度來說,智能設(shè)備的能量儲備和生命周期有限。因此,為了延長設(shè)備的生命周期,本文假設(shè)每一個設(shè)備都有極限功率,設(shè)備有預(yù)先確定的長期能耗限制,以滿足巡檢任務(wù)的實(shí)際應(yīng)用情況。
為了簡化模型,ui任務(wù)的處理結(jié)果在上層服務(wù)器處理完自身所有任務(wù)后統(tǒng)一回傳,不考慮單一任務(wù)完成后立即回傳。根據(jù)第2 節(jié)討論的系統(tǒng)模型,ui的任務(wù)時延為
無人機(jī)ui的能耗為
移動邊緣接入節(jié)點(diǎn)sj的能耗為
固定邊緣匯聚節(jié)點(diǎn)mk的能耗為
其中,wmax為mk最大服務(wù)率。
因此,所有任務(wù)的總時延為
該優(yōu)化問題的目標(biāo)為在給定單個 UAV、Sub-MECS 和M-MECS 的能量限制的情況下,最小化系統(tǒng)總時延成本。無人機(jī)的能耗分為固定運(yùn)行能耗和無線傳輸能耗,其中,固定運(yùn)行能耗不受卸載策略影響,而無線傳輸能耗受卸載策略影響較小。為了簡化模型,本文假設(shè)無人機(jī)的能耗滿足能耗約束。綜上分析,通信和計算資源的聯(lián)合優(yōu)化問題可表述為
其中,約束(a)表示每個時隙中每個任務(wù)的時延要求;約束(b)表示無人機(jī)任務(wù)的生成速率服從泊松分布;約束(c)、約束(d)和約束(e)表示每個時隙的UAV、Sub-MECS 和M-MECS 的能量消耗不能超過上限;約束(f)和約束(g)表示長期能源消耗必須小于能源供應(yīng),用于限制Sub-MECS 和M-MECS長時間的總能耗;約束(h)表示任務(wù)卸載策略的可用性。
問題P1是一個長期優(yōu)化問題,需要在所有時間段內(nèi)擁有完整的離線信息,才能得到最優(yōu)解。然而,準(zhǔn)確預(yù)測未來的工作量是難以實(shí)現(xiàn)的。此外,不同時間段的計算卸載決策將與長期能耗交互。因此,本文提出了一種基于當(dāng)前信息就能做出卸載決策的在線學(xué)習(xí)方法。
為了解決P1所述問題,本文利用Lyapunov 優(yōu)化理論為每個Sub-MECS 和M-MECS 構(gòu)建一個虛擬的能量虧損隊(duì)列,指導(dǎo)每個 Sub-MECS 和M-MECS 的任務(wù)卸載決策遵循長期能源約束[23]。
1) Sub-MECS 能量虧損隊(duì)列
2) M-MECS 能量虧損隊(duì)列
假設(shè) M-MECS 的能量虧損隊(duì)列集合為Z(t)={Zk(t)},k∈M。每個mk的能量虧損隊(duì)列為
1) Lyapunov 優(yōu)化
基于Lyapunov 優(yōu)化理論,本文可以將隨機(jī)優(yōu)化問題轉(zhuǎn)化為每個時隙內(nèi)的已知問題,而不需要任何未來信息 。對Q(t)和Z(t)引 入Θ(t)=[Q(t),Z(t)],則其Lyapunov 函數(shù)為
Lyapunov 漂移函數(shù)為
根據(jù)Lyapunov 優(yōu)化理論,使用漂移加懲罰函數(shù)來平衡能耗和時延對優(yōu)化結(jié)果的影響,如式(26)所示。
其中,B1和B2為常數(shù)。因此,可以將原來長期最小化問題P1轉(zhuǎn)化為問題P2,使每個時隙中的漂移加懲罰函數(shù)的上界最小,即
本文重點(diǎn)關(guān)注卸載問題,因此,將P2 的目標(biāo)函數(shù)分為2 個部分:與卸載策略相關(guān)的AP1和與卸載策略無關(guān)的AP2。則P2 可以進(jìn)一步表示為
其中,AP1部分直接決定任務(wù)計算卸載策略。AP1計算式為
而AP2部分間接給卸載決策帶來長期影響。AP2計算式為
本文主要關(guān)注與卸載相關(guān)的AP1部分,因此,P2 的卸載問題可轉(zhuǎn)化為
由分析可知,P4 是一個時延和能耗聯(lián)合優(yōu)化問題,與背包問題類似,其可行集和目標(biāo)函數(shù)是非凸的,因此P4 是一個NP 問題,且當(dāng)Sub-MECS 和M-MECS個數(shù)增加時,P4 問題規(guī)模會迅速增大。由于使用傳統(tǒng)算法求解背包問題存在時間復(fù)雜度分析困難的問題,因此本文針對上述系統(tǒng)模型,采用人工智能算法進(jìn)行求解,提出了一種近端任務(wù)卸載策略優(yōu)化(PTOPO,proximal task offload policy optimization)機(jī)制,可以規(guī)范高效地求解卸載策略。
2) PTOPO 機(jī)制
本文基于經(jīng)典的PPO 強(qiáng)化學(xué)習(xí)算法[25-26],設(shè)計了PTOPO 機(jī)制,求解最優(yōu)的卸載策略。如圖3 所示,整個電力巡檢應(yīng)用場景包括3 個部分:環(huán)境、個體和動作。個體與環(huán)境進(jìn)行交互,從一個狀態(tài)出發(fā),根據(jù)自己的策略分布選擇動作,并獲得獎勵。環(huán)境由被巡檢的電力場景物理設(shè)備組成,為個體提供環(huán)境狀態(tài)信息。個體可以根據(jù)狀態(tài)做出不同的動作,施加在環(huán)境上,并計算出相應(yīng)的獎賞,反饋給個體,然后進(jìn)行卸載操作。
S表示有限的狀態(tài)空間,在本文中用來表示每個時隙無人機(jī)的任務(wù)數(shù)量大小和時延要求。
A表示有限的工作空間,在本文中被定義為無人機(jī)任務(wù)的卸載向量。假設(shè)之前的動作策略為{0,0,1},表示任務(wù)卸載到云端,但隨著個體與環(huán)境的交互,狀態(tài)發(fā)生了改變,則任務(wù)有可能卸載到Sub-MECS 或M-MECS 上,即動作策略變?yōu)閧1,0,0}或{0,1,0}。
隨著迭代的累積,系統(tǒng)可以收斂到最佳狀態(tài),在該狀態(tài)下,所有值都不會改變并保持在最小值。在通過應(yīng)用不同的狀態(tài)?動作對來最大化累積獎勵的過程中,使PTOPO 的卸載策略接近最優(yōu)。
PPO 算法是基于Actor-Critic 結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)算法,其基本思想是設(shè)定策略函數(shù)和行為價值函數(shù)近似化策略梯度,策略函數(shù)可以基于價值函數(shù)進(jìn)行策略評估和優(yōu)化,優(yōu)化的策略函數(shù)也能使價值函數(shù)更加準(zhǔn)確地反映狀態(tài)的價值,相互影響求得最優(yōu)解[27]。
PPO 算法的目標(biāo)函數(shù)為
PTOPO 機(jī)制流程如算法1 所示。
算法1近端任務(wù)卸載策略優(yōu)化機(jī)制
輸入O(0)=0,Z(0)=0,權(quán)重系數(shù)V和M-MECS 功耗比例系數(shù)α
輸出卸載策略Xi
3) PTOPO 復(fù)雜度分析
在每個決策周期中,學(xué)習(xí)階段在每個步驟通過執(zhí)行PTOPO 得到最優(yōu)卸載策略。這個過程重復(fù)進(jìn)行,并更新狀態(tài)和動作。在學(xué)習(xí)階段結(jié)束時,個體從環(huán)境中獲得最大回報,并由此確定了全局最優(yōu)策略。由分析可知,算法的復(fù)雜性取決于PTOPO 的迭代次數(shù),因此,PTOPO 的算法復(fù)雜度為O(n2)。
本文在Pytho3.7.6 和TensorFlow1.14.0 環(huán)境下對PTOPO 機(jī)制進(jìn)行了仿真實(shí)驗(yàn)。假設(shè)巡檢場景為100 km×100 km 的正方形區(qū)域,隨機(jī)分布具有數(shù)據(jù)采集和發(fā)送功能的UAV,數(shù)量為50 個。根據(jù)實(shí)際應(yīng)用場景,每個Sub-MECS 可對應(yīng)3~4 個UAV,且同一時間同一區(qū)域只有一個UAV 執(zhí)行任務(wù)。UAV任務(wù)的生成速率服從泊松分布,到達(dá)率為每秒0~10 個單位任務(wù)不等,其中單位任務(wù)的數(shù)據(jù)大小為0.2 MB。任務(wù)的數(shù)據(jù)大小是單位任務(wù)的倍數(shù)。因此,對于典型的100 MB 以太局域網(wǎng),單位任務(wù)的傳輸時延期望為τ=200 ms。信道帶寬為20 MHz。信道增益分布為平均值g0(1/100)4,其中g(shù)0=? 30 dB 是1 m 的路徑損耗常數(shù)。假設(shè)噪聲功率為σ2=10?10W/Hz 。
為了驗(yàn)證本文提出的PTOPO卸載機(jī)制的性能,將其與基于隨機(jī)算法(RA,random algorithm)、模擬退火算法(SAA,simulated annealing algorithm)、Q-learning 算法和A3C 算法的卸載機(jī)制進(jìn)行對比,下面簡要介紹各對比算法的運(yùn)行機(jī)制。
1) RA:在滿足約束條件的情況下,隨機(jī)進(jìn)行任務(wù)卸載。
2) SAA[29]:基于Monte-Carlo 迭代求解策略的一種隨機(jī)尋優(yōu)算法。該算法基于固體退火原理,將內(nèi)能模擬成優(yōu)化目標(biāo)函數(shù)值,設(shè)置初始溫度和初始解,經(jīng)過多次迭代和降溫,直到滿足終止條件,算法結(jié)束。
3) Q-learning[30]:強(qiáng)化學(xué)習(xí)中一種基于價值的算法。通過將State 與Action 構(gòu)建成一張Q-table 來存儲Q值,然后根據(jù)Q值來選取能夠獲得最大收益的動作。
4) A3C[31]:利用Actor 網(wǎng)絡(luò)計算動作策略,并利用Critic 網(wǎng)絡(luò)計算策略優(yōu)劣,采用多線程計算方法,將Actor-Critic 網(wǎng)絡(luò)放置在多個線程里分別和環(huán)境進(jìn)行交互;線程間數(shù)據(jù)共享,并在經(jīng)過一段時間學(xué)習(xí)后,根據(jù)先前的學(xué)習(xí)經(jīng)驗(yàn)指導(dǎo)后續(xù)的學(xué)習(xí)和交互。
本文將提出的PTOPO 卸載機(jī)制與對比算法進(jìn)行比較,考察的參數(shù)包括時延和能耗等性能指標(biāo)。本文的仿真性能為50 次仿真實(shí)驗(yàn)的平均結(jié)果。
圖4 和圖5 展示了實(shí)際應(yīng)用中主要關(guān)注的2 個指標(biāo):系統(tǒng)時延和系統(tǒng)能耗。其中,RA 和SAA因其平均時延和平均能耗不滿足任務(wù)要求,不適用于無人機(jī)巡檢系統(tǒng)的實(shí)際應(yīng)用場景。同時,與Q-learning 算法和A3C 算法相比,本文提出的PTOPO 機(jī)制具有較低的系統(tǒng)能耗和系統(tǒng)時延,這是由于它不僅優(yōu)化了云邊端多個層級之間及同層節(jié)點(diǎn)間的計算卸載,而且遵循了每個節(jié)點(diǎn)的長期能量約束。
圖4 系統(tǒng)時延
圖5 系統(tǒng)能耗
對于不同的巡檢任務(wù)需求,Sub-MECS 和UAV的鏈接比例也會不同。圖6 展示了Sub-MECS 和UAV鏈接比例對任務(wù)平均時延的影響。從圖6 可以看出,隨著Sub-MECS 連接的UAV 數(shù)量增多,整個巡檢系統(tǒng)的業(yè)務(wù)平均時延將逐漸增加。這是由于當(dāng)Sub-MECS、M-MECS 和云服務(wù)器的計算能力保持不變時,不斷增加的任務(wù)工作量會造成任務(wù)溢出,進(jìn)而導(dǎo)致時延增加。本文提出的PTOPO 機(jī)制可在一定鏈接比例內(nèi)保證任務(wù)在時延要求內(nèi)處理完成。其中,變電站巡檢對任務(wù)時延要求較高,當(dāng)Sub-MECS 和UAV的鏈接比例越接近1:1 時,系統(tǒng)時延越低,符合變電站巡檢要求。電塔和導(dǎo)線巡檢任務(wù)對時延要求較低,鏈接比例可適當(dāng)調(diào)整至遠(yuǎn)離1:1,不但可以滿足其時延要求,還可以擴(kuò)大巡檢范圍,節(jié)約經(jīng)濟(jì)成本。
圖6 Sub-MECS 和UAV 鏈接比例對任務(wù)平均時延的影響
如圖7 和圖8 所示,對于場景中不同數(shù)量的UAV,其能耗收斂率和時延收斂率會隨著UAV 數(shù)量的增多而提高并趨于穩(wěn)定。這是因?yàn)閁AV 數(shù)量的增多意味著場景中UAV 分布越加均勻,上級Sub-MECS 和M-MECS 所連接的UAV 個數(shù)趨于穩(wěn)定,任務(wù)過載現(xiàn)象明顯減少。因此,合適的UAV數(shù)量和鏈接比例對提高巡檢任務(wù)的運(yùn)行效率具有重要作用。
圖7 能耗收斂率與UAV 數(shù)量的影響關(guān)系
圖8 時延收斂率與UAV 數(shù)量的影響關(guān)系
圖9 展示了巡檢場景的能量和時延成本隨參數(shù)V變化的性能。算法通過調(diào)整引入的參數(shù)V實(shí)現(xiàn)了系統(tǒng)時延成本和長期能耗之間的平衡,結(jié)果與文獻(xiàn)[32]的理論分析一致。隨著V的增大,算法對時延的限制要求逐漸提高,對能耗的限制要求逐漸降低,更適用于對時延要求較高的變電站巡檢業(yè)務(wù)等巡檢場景。當(dāng)V趨近1 時,算法實(shí)現(xiàn)了最小的時延成本,但是能耗較大。當(dāng)減小V的取值時,算法對能耗的限制要求逐漸提高,對時延的限制要求逐漸降低,更適用于對能耗要求較高的電塔巡檢和導(dǎo)線巡檢等巡檢場景。所以,針對不同的電力巡檢場景,可通過找到合適的V值以獲得相對較低的綜合成本。
圖9 不同V 對時延和能耗的影響
在能源互聯(lián)網(wǎng)中,利用無人機(jī)能夠高效完成大范圍電路巡檢,并減少運(yùn)維風(fēng)險。需基于終端變化的行動軌跡和有限的邊緣資源,研究合理的任務(wù)卸載方法,在滿足多種巡檢任務(wù)需求的條件下,優(yōu)化系統(tǒng)消耗和服務(wù)時延。因此,本文利用邊緣計算和人工智能技術(shù)建立了基于雙層邊緣網(wǎng)絡(luò)的云邊端網(wǎng)絡(luò)架構(gòu),并結(jié)合PPO 強(qiáng)化學(xué)習(xí)算法和Lyapunov 優(yōu)化理論建立了可聯(lián)合優(yōu)化通信和計算資源的任務(wù)卸載機(jī)制。仿真結(jié)果表明,與傳統(tǒng)的RA 和SAA 相比,本文提出的PTOPO 機(jī)制在保持相對較低時延的同時,更適用于對能耗要求高的輸電線路巡檢場景;與基于 Q-learning 算法的混合控制機(jī)制和基于A3C 算法的異步優(yōu)勢卸載機(jī)制相比,本文提出的PTOPO 機(jī)制在節(jié)省能量消耗、減少處理時間和保證服務(wù)質(zhì)量方面均具有優(yōu)勢,其長期平均能耗分別提升了10%和6%。在未來的工作中,將引入流量預(yù)測模型和任務(wù)遷移機(jī)制,設(shè)計離線和在線相結(jié)合的計算任務(wù)卸載方法,進(jìn)一步提高服務(wù)效率。