曾耀平,劉月強,關(guān)賽莘,江偉偉,夏玉婷
(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
在5G 和人工智能快速發(fā)展下,計算密集型和潛在關(guān)鍵型應(yīng)用急劇增加(如虛擬現(xiàn)實、自動駕駛和大規(guī)模實時視頻監(jiān)控)[1-2].由于設(shè)備資源和計算能力有限,難以滿足這些應(yīng)用程序的計算需求.D2DMEC(device-to-device mobile edge computing)技術(shù)應(yīng)運而生,它整合了移動邊緣計算與D2D 通信技術(shù)[3],旨在改善通信性能、降低延遲,并減輕核心網(wǎng)絡(luò)負擔(dān)[4-6].
現(xiàn)有的D2D-MEC 研究大多忽略了D2D 通信中的社會關(guān)系屬性,這在很大程度上影響了D2DMEC 系統(tǒng)[7-9]的性能.Gao 等[8]提出通過用戶的社會關(guān)系決定D2D 傳輸過程的功率分配和D2D 連接的補償機制.Li 等[9]設(shè)計存在社會關(guān)系的中繼設(shè)備選擇機制,使更多的設(shè)備參與了D2D 的合作計算.關(guān)于社會意識的D2D-MEC 網(wǎng)絡(luò)中的長期隨機優(yōu)化問題及資源分配問題仍存在許多不足.
李雅普諾夫優(yōu)化方法可以根據(jù)實時輸入的數(shù)據(jù)在線計算系統(tǒng)控制參數(shù),解決了長期時變的問題.Sun 等[10]研究在D2D 輔助的MEC 系統(tǒng)中,使用李雅普諾夫優(yōu)化理論進行UEE 和網(wǎng)絡(luò)穩(wěn)定性之間的權(quán)衡,但沒有考慮D2D 之間的匹配問題.Jiang 等[11]研發(fā)了新的支持MEC 的多請求者協(xié)作者模型,但是沒有考慮協(xié)作者卸載到MEC 的計算過程.Long 等[12]研究具有社會感知的長期D2D 協(xié)作MEC 網(wǎng)絡(luò)節(jié)能計算卸載框架,但僅考慮了D2D 之間的一對一卸載,所使用的匹配理論算法復(fù)雜度較高.此外,傳統(tǒng)電池供電設(shè)備的總能量有限[13],可能會因為能量耗盡而導(dǎo)致計算性能受損.
針對上述問題,本文提出考慮不同設(shè)備下能量收集(energy harvesting,EH)技術(shù)和用戶間社會信任關(guān)系的D2D-MEC 網(wǎng)絡(luò)架構(gòu),此架構(gòu)可以有效地降低系統(tǒng)的能量損耗,提高D2D 鏈路的安全性.設(shè)計基于李雅普諾夫的在線決策和資源分配(online decision matching and resource allocation,ODMRA)算法,最小化所有用戶的長期平均服務(wù)成本,將原始隨機優(yōu)化問題轉(zhuǎn)化為單時隙獨立的確定性問題,然后分別求解.仿真結(jié)果驗證了ODMRA 算法在系統(tǒng)服務(wù)成本和隊列穩(wěn)定性方面具有性能優(yōu)勢.
如圖1 所示為能量收集下的D 2 D 輔助MEC 網(wǎng)絡(luò)系統(tǒng),由物理域和社會域2 個部分組成.其中物理域由一個配備MEC 服務(wù)器的基站(base station,BS)和多個移動設(shè)備組成.移動設(shè)備分為遠程發(fā)送設(shè)備(distant transmitters,DTs)和近端發(fā)送設(shè)備(nearby receivers,NRs)2 種類型,其中DTs 的集合為 N,NRs 的集合為 K.考慮細粒度的卸載方式,DTs 生成的任務(wù)可以在本地、NRs 和MEC 服務(wù)器上3 處并行執(zhí)行.定義(t)為DTi在時隙t 內(nèi)執(zhí)行的任務(wù)量.由于DTs 與BS 距離較遠,信道連接很差,DTs 不能直接將任務(wù)卸載到MEC 服務(wù)器.NRs 距離BS 較近,且有空閑的計算能力來協(xié)助DTs 計算任務(wù).Dij(t)為從 DTi 傳輸?shù)絅Rj 的任務(wù)量,其中NRj 為在時隙t 內(nèi)執(zhí)行(t)的數(shù)據(jù)量,由于NR 處的計算和傳輸能力有限,剩余的數(shù)據(jù)量在NR 處的任務(wù)緩沖區(qū)中等待進一步執(zhí)行.
圖1 能量收集下的D2D 輔助MEC 網(wǎng)絡(luò)系統(tǒng)模型圖Fig.1 System model of D2D-assisted MEC network with energy harvesting
將時間離散為時隙的形式,用 t∈T表示,其中每個時隙長度為 τ0.引入二進制指示器 xij(t)表示用戶的關(guān)聯(lián)決策[14],在每個時隙開始的時刻,DTi 通過D2D 卸載決策 xij(t)決定卸載到哪個NRj,若DTi 決定將任務(wù)卸載到NRj,則 xij(t)=1,否則 xij(t)=0.一個DT 在一個時隙內(nèi)只能將任務(wù)卸載到一個NR 上,一個NR 最多輔助 Nmax個DTs,因此D2D 設(shè)備間關(guān)聯(lián)的約束條件如下.
假設(shè)DTi 在每個時隙產(chǎn)生的計算任務(wù)量為Ai(t).在不失一般性的情況下,Ai(t)在每個時隙內(nèi)服從 Ai(t)∈[Amin,Amax]的均勻分布,即任務(wù)量服從E[Ai(t)]=λi的獨立同分布函數(shù).由于下行傳輸中任務(wù)的數(shù)據(jù)量較小,忽略數(shù)據(jù)返回能耗和傳輸時間.
本節(jié)闡述了物理域中移動設(shè)備的基本關(guān)系.物理域包含隊列模型、傳輸模型、任務(wù)計算模型和EH 模型,其中每個DT 和NR 對應(yīng)社會域中的單個用戶.在社會域中,將用戶之間的社會關(guān)系量化為社會信任矩陣后,作為D2D 匹配過程中決策選擇的重要依據(jù).下面詳細介紹各個模型.
由于D2D 的傳輸速率大于本地任務(wù)的生成速率,DT 生成的任務(wù)在本地計算一部分后,剩余部分可以通過D2D 快速上傳到匹配的NR 上.一個NR 最多可以接收 Nmax個DT 的部分計算任務(wù),考慮本身計算能力的限制,在每個NR 處都設(shè)置任務(wù)緩沖區(qū) QNjR(t),用于儲存從DT 卸載到NR 上的任務(wù).NR 處過多的任務(wù)量將存儲在任務(wù)緩沖區(qū)中,在后續(xù)的時隙中進行計算或卸載.QNjR(t)可以用下式表示:
為了避免不同卸載用戶間的嚴重干擾,系統(tǒng)采用正交頻分多址(OFDMA)技術(shù).D2D 傳輸過程中分為N 個相同大小的子信道,從NRj 卸載到MEC 的可用帶寬被劃分為K 個相同大小的子信道,N+K 個子信道的帶寬均為W Hz.從DTi 到NRj 的信道功率增益為 Hij(t)=hij(t)g0(d0/dij)θ.從NRj 到MEC 的蜂窩鏈路信道功率增益設(shè)置為Hjs(t)=hjs(t)g0(d0/djs)θ.其中 hij(t)和 hjs(t)為小尺度的瑞利衰落系數(shù),符合單位均值的指數(shù)分布,g0為路徑損失函數(shù),θ為路徑損失指數(shù),d0為參考距離,dij為從DTi 到NRj 的距離,djs為從NRj 到邊緣服務(wù)器MEC 的距離.通過香農(nóng)公式可知,從DTi 到NRj 的D2D 傳輸速率為 rij(t)=Wlog2(1+從NRj 到邊緣服務(wù)器MEC 的傳輸速率為其中為DTi 的發(fā)射功率,為NRj 的發(fā)射功率,σ2為背景噪聲方差.
為了確保MEC 的可持續(xù)使用,搭載MEC 的基站通常由電網(wǎng)供電,所以忽略MEC 計算過程的能量消耗.令 fiDT(t)為DTi 在t 時刻的本地CPU 循環(huán)頻率,γi為DTi 的計算負載,單位為cycles/bit.DTi 在單個時隙內(nèi)的計算任務(wù)大小為執(zhí)行DTi 本地計算任務(wù)的能耗為.其中 κ1為DT 芯片架構(gòu)的功率系數(shù).
每個移動設(shè)備都配備EH 裝置,可以捕獲可再生能源供能.在時隙開始的時刻,DTi 的能量為,NRj 的能量為,它們服從在不同時隙的最大值為和的獨立同分布模型.ei(t)、ej(t)為被收集并存儲在電池中的能量,用于本時隙的任務(wù)計算和下一個時隙的任務(wù)卸載.在每個時隙中,ei(t)、ej(t)滿足以下約束:
采用虛擬電池能量隊列來量化DTi 和NRj 的電池能量水平,在每個時隙開始時,將DTi 和NRj 的虛擬電池隊列記為 Bi(t)和 Bj(t).在本文中Bi(0)=0,Bj(0)=0,Bi(t)<∞,Bj(t)<∞,DTi 和NRj在t 時刻消耗的能量記為
兩者受到以下能量關(guān)系的約束:
DT 和NR 的虛擬電池能量隊列動態(tài)模型為
在社會域中,社會關(guān)系為用戶通過社交網(wǎng)絡(luò)中的連接、交流和互動構(gòu)建的關(guān)系網(wǎng)絡(luò),反映了用戶間的信任度和親密程度.利用貝葉斯技術(shù),將不同社交網(wǎng)絡(luò)平臺下收集到的歷史記錄進行整合,獲得用戶之間的社會關(guān)系,用社會信任矩陣表示一個時隙內(nèi)DTi 和NRj 的社會關(guān)系強度.社會關(guān)系的強度越大,移動設(shè)備之間越有可能建立D2D 通信鏈接.社會關(guān)系屬性在D2D 匹配決策中發(fā)揮了關(guān)鍵作用.
1.5.1 社會信任矩陣的獲取方案 在互聯(lián)網(wǎng)的社交領(lǐng)域,系統(tǒng)在微博、抖音、Twitter 等社交平臺上獲取用戶間的社會關(guān)系,如發(fā)布的帖子、評論、點贊、分享等.這些記錄不僅可以揭示用戶的興趣、觀點和偏好,還反映用戶之間的社交關(guān)系.利用貝葉斯技術(shù),可以對不同社交網(wǎng)絡(luò)平臺收集到的歷史記錄進行整合,得到社會信任矩陣[9,15].
具體過程如下.使用貝葉斯技術(shù)對不同的社交網(wǎng)絡(luò)平臺上收集的數(shù)據(jù)進行整合,通過用戶選擇相似內(nèi)容的概率密度分布函數(shù)來表示用戶行為的相似性,決定社會關(guān)系的強度.量化社會關(guān)系的強度,在得到社會信任值后,可得社會信任矩陣.該模型在獲取用戶之間的社會信任關(guān)系模型中得到了廣泛應(yīng)用[8,12].
1.5.2 社會信任矩陣在本文的應(yīng)用 在利用上述方案得到多個社交網(wǎng)絡(luò)的數(shù)據(jù)整合模型后,社會信任矩陣 Ω(t)=[ω1(t),ω2(t),···,ωN(t)]表示用戶之間的社會關(guān)系.其中社會信任矩陣 Ω(t)的列向量為 ωi(t)=[ωi1(t),ωi2(t),···,ωiK(t)]T,其中 ωij(t)為DTi 和NRj 之間的社會信任值,用來表示一個時隙內(nèi)DTi 和NRj 的社會關(guān)系強度.時變的社會信任值 ωij(t)為
ωij(t)=0表示DTi 和NRj 之間不存在社會關(guān)系,因此他們之間不會建立D2D 鏈接.從D2D 傳輸?shù)男畔踩院蛡鬏斂煽啃缘姆矫婵紤],用戶之間更喜歡與其社會關(guān)系較高的用戶建立D2D 鏈接,傳輸DT 產(chǎn)生的計算任務(wù).
本文的優(yōu)化目標為在計算資源和隊列穩(wěn)定性約束下盡量減少系統(tǒng)服務(wù)成本,其中系統(tǒng)服務(wù)成本主要包括系統(tǒng)能耗成本、任務(wù)丟失成本和安全成本3 部分.當(dāng)DT 或NR 沒有足夠的能量或者無線信道條件較差時,放棄到達的任務(wù).考慮這方面的因素,對每一個放棄的任務(wù)都加一個單位成本懲罰因子[16-17].此時,將系統(tǒng)的服務(wù)成本定義為所有設(shè)備的計算能耗和傳輸能耗、任務(wù)丟失成本和社會信任值的加權(quán)和.
式中:xij(t)∈{0,1}為在t 時刻的D2D 鏈接指示器,若DTi 與NRj 在t 時刻建立鏈接,則 xij(t)=1,否則 xij(t)=0 ;Di(t)、Dj(t)∈{0,1}為DTi 和NRj 的任務(wù)丟棄指示器,等于1 表示不丟棄任務(wù),否則為丟棄;φi(t)、φj(t)為DTi 和NRj 的丟棄任務(wù)懲罰成本;?為社會信任值的懲罰成本,社會信任值與系統(tǒng)安全成本間存在近似反比關(guān)系,應(yīng)選擇盡可能大的社會信任值來降低系統(tǒng)服務(wù)成本.
由于 Bi(t)和 Bj(t)為理想化狀態(tài)下的電池能量隊列,將擾動參數(shù) θi和 θj加入其中表示消耗的實際電池能量水平,則2 種設(shè)備的虛擬能量隊列和表示為
擾動參數(shù) θi和 θj滿足下列不等式[16,18]:
不等式(19a)~(19d)表示每個設(shè)備的計算頻率和發(fā)射功率不超過它們的最大值.式(19e)表示社會信任值的約束.不等式(19f)、(19g)表示DTs 和NRs 的電池輸出量不超過它們的電池放電約束.式(19h)保證了任務(wù)緩沖隊列是有界的,即平均速率穩(wěn)定.P1是隨機的混合整數(shù)規(guī)劃問題,其中包括的連續(xù)變量和二元變量是耦合且時變的,到達的計算任務(wù)和隊列積壓是隨機且不可預(yù)測的,很難推導(dǎo)出長期的最優(yōu)策略.李雅普諾夫優(yōu)化技術(shù)是解耦長期問題的有效方法,可以根據(jù)系統(tǒng)實時輸入的數(shù)據(jù),在線計算系統(tǒng)的控制參數(shù),實現(xiàn)對系統(tǒng)的在線控制和調(diào)整,在解決資源分配問題上得到了廣泛應(yīng)用[19-20].
為了解決隨機優(yōu)化問題 P1,在隊列穩(wěn)定條件下最小化系統(tǒng)服務(wù)成本問題轉(zhuǎn)化為漂移加懲罰函數(shù),通過漂移函數(shù)滿足隊列穩(wěn)定,利用懲罰函數(shù)滿足系統(tǒng)成本最小化.當(dāng)前時刻的隊列積壓為,引入二次的李雅普諾夫函數(shù):
式中:L(Θ(t))表示隊列積壓的標量度量,L(Θ(t))>0 .L(Θ(t))越小,所有任務(wù)的隊列積壓數(shù)量越少.
引入李雅普諾夫漂移函數(shù):
通過將隊列穩(wěn)定性納入執(zhí)行成本性能中,定義李雅普諾夫漂移加懲罰函數(shù)來解決上述問題:
式中:V 為目標函數(shù)對漂移懲罰的權(quán)值,可以作為調(diào)整系統(tǒng)成本和隊列穩(wěn)定性的控制參數(shù)[21].
在每個時隙中,通過最小化 ΔV(Θ(t)),將系統(tǒng)成本最小化的同時,穩(wěn)定了隊列水平.由于 ΔV(Θ(t))是非線性的,沒有直接最小化 ΔV(Θ(t)),而是推導(dǎo)出李雅普諾夫漂移加罰函數(shù)的上界,并設(shè)計在線卸載算法,最小化 ΔV(Θ(t))在可行區(qū)域 O(t)的上界,使得隊列穩(wěn)定.
在每個時隙中,對于任意隊列積壓 Θ(t)和系統(tǒng)服務(wù)成本 W(t),在可行決策 O(t)下的漂移加懲罰函數(shù) ΔV(Θ(t))滿足
證明:將隊列積壓公式(4)的兩邊平方,得到
將式(25)的所有移動設(shè)備相加,得到以下不等式:
對2 種設(shè)備的虛擬能量隊列(15)、(16)開展與式(4)相同的操作,如下所示:
將式(26)~(28)相加,可得
將C 和式(29)代入式(22),可得漂移加罰函數(shù)的上界(23).
根據(jù)漂移加罰函數(shù)的上界,設(shè)計基于李雅普諾夫的在線優(yōu)化方法.通過最小化式(23)的右側(cè),將長期優(yōu)化問題轉(zhuǎn)化為基于單個時隙的優(yōu)化問題P2,將其拆分后逐個進行處理,使得優(yōu)化問題更加容易、高效地求解.
該部分的目標是將長期平均優(yōu)化問題轉(zhuǎn)化為如下4 個單時隙優(yōu)化問題:1)能量收集;2)計算資源分配;3)發(fā)射功率分配;4)D2D 匹配決策.結(jié)合凸分解和子模塊優(yōu)化理論,提出基于李雅普諾夫優(yōu)化的D2D 在線決策匹配和資源分配(ODMRA)算法,分別解決這些子問題.
通過如下問題求解DTs 和NRs 收獲的能量.
將P3從問題 P2中解耦后,則轉(zhuǎn)化為問題 P4.通過解決以下問題,獲得DTs 和NRs 的最優(yōu)CPU 頻率、最優(yōu)的D2D 傳輸功率、最優(yōu)的上傳功率和最佳的D2D 匹配決策.
P4是混合整數(shù)規(guī)劃問題,若使用蠻力方法求解,則計算復(fù)雜度非常高.觀察到可行區(qū)域是f(t)、p(t)、x(t)的笛卡爾乘積,使用高斯-賽德爾迭代法交替[22-23]最小化求解,可以有效地保證 P4的收斂性.設(shè)計ODMRA 算法,提出利用迭代的方法交 替求解問題 P4.
3.2.1 最優(yōu)的CPU 頻率 假設(shè)發(fā)射功率和D2D 匹配決策固定,最優(yōu)的CPU 周期頻率調(diào)度問題為
將P4.1分解為DTs 的CPU 頻率問題和NRs 的CPU 頻率問題.由于DTs 的CPU 頻率問題是非凸的,將放縮后,得到原問題的上界為
3.2.2 功率分配問題 通過固定DTs 和NRs 的CPU 循環(huán)頻率和D2D 連接決策,功率分配問題可以寫成如下形式:
接下來解決NR 到MEC 的傳輸功率問題:
3.2.3 D2D 決策選擇問題 給定最優(yōu)的發(fā)射功率和設(shè)備的CPU 頻率,關(guān)于社會信任關(guān)系的D2D 匹配決策問題表述如下:
子模塊優(yōu)化是解決組合問題的強大工具[23-24],適用于求解策略選擇問題.與其他的策略選擇算法相比,它具有高效性、復(fù)雜度更低、資源分配更加公平等優(yōu)點,因此子模塊優(yōu)化在網(wǎng)絡(luò)問題中被廣泛應(yīng)用.
利用子模塊優(yōu)化來尋找D2D 之間的決策.具體來說,將約束下的2 種移動設(shè)備DT 和NR 之間的決策約束(1)和(2)寫為擬陣的形式,嚴格證明了D2D 決策選擇的效用函數(shù) xij(t)Uij(t)存在單調(diào)性和子模性.將問題 P4.3轉(zhuǎn)化為擬陣約束下的子模函數(shù)最大化問題,用“邊際效用遞減”性質(zhì)結(jié)合低復(fù)雜度的貪婪算法,可得保證系統(tǒng)性能最優(yōu)的D2D 匹配決策.
G(t)包含所有可能的關(guān)聯(lián)策略,這些策略可以劃分為N 個不相交的集合,如G(t)=∪i∈NAi(t),Ai(t)∩Ai′(t)=?,i ≠i′.其中Ai(t)={x?i1(t),···,x?iK(t)},?i∈N,表示DTi 與NR 配對的集合.這些策略可以劃分為K 個不相交的集合,如G(t)=∪j∈KBj(t),Bj(t)∩Bj′(t)=?,j ≠j′.其中Bj(t)={x?1j(t),···,x?Nj(t)},?j∈K表示NR 與DTs 配對的集合.
擬陣 I表示每個DT 可以關(guān)聯(lián)的NRs 的約束(1)和每個NR 可以關(guān)聯(lián)的DTs 的約束(2),|·|表示基數(shù).
定理1:給定地面集合 G(t)和它的一個子集X(t)∈G(t),則是基于X(t)∈G(t)的單調(diào)子模函數(shù).
證明:因為
令ε(t)?X(t),v∈X(t)ε(t),則
接下來證明目標函數(shù) F(X(t))的子模性.若F(X(t))滿足“邊際效應(yīng)遞減”性質(zhì),則它具有子模性.向集合 ε(t)中添加一個元素的邊際增益至少與它的超集中添加一個元素的邊際增益相等,即滿足
式中:ε(t)?ε(t)′∈X(t),a(t)∈G(t)ε′(t).根據(jù)式(46),可以推導(dǎo)出如下的邊際效應(yīng)關(guān)系.
可以看出,ΔF(t)(a(t)|ε(t))=ΔF(t)(a(t)|ε′(t)),滿足“邊際效應(yīng)遞減”性質(zhì),證明了函數(shù) F(X(t))的子模性,從而證明了定理1 存在的合理性.此時,可以將最小化問題 P4.3轉(zhuǎn)化為最大化問題,求解最優(yōu)策略.
將問題 P4.3重新表示為擬陣約束的單調(diào)子模問題的最大問題:
在擬陣約束的情況下,根據(jù)“邊際效應(yīng)遞減”性質(zhì),結(jié)合貪婪算法的思想,設(shè)計策略選擇算法,解決問題 P4.4.設(shè)置定義函數(shù)F(X(t))的邊際增益為
初始化集合 X(t)、Xi(t)、Xj(t)(?i∈N,?j∈K)為空集?,其中 X(t)為D2D 的策略選擇集合.Xi(t)包含了DTi 將任務(wù)卸載到哪個NR 的決策集合.Xj(t)表示NRj 輔助哪些DTs 的決策集合.在初始化完成后,用 戶匹配策略選擇算法設(shè)計如下.
3.2.4 ODMRA 算法和最優(yōu)值分析 通過考慮D2D 用戶卸載決策、CPU-周期頻率、傳輸功率分配和收集的電池能量,將ODMRA 算法總結(jié)在算法2 中.求解問題 P3的計算復(fù)雜度為 O(N+K),本方案通過交替迭代解決子問題 P4.1、P4.2和 P4.3來優(yōu)化目標問題 P4,假設(shè)迭代過程中的最大迭代次數(shù)為 κ,在每次迭代中復(fù)雜度為 O(2(N+K)+NK),因為在地面集合 G(t)中有NK 個元素,求解 P4.3的時間復(fù)雜度為 O(NK).本文所提ODMRA 算法的計算復(fù)雜度為 O(N+K+κ(2(N+K)+NK)).通過對算法復(fù)雜度進行理論分析可知,與匹配博弈算法相比,本文算法的復(fù)雜度更低,可以更好地應(yīng)用于 實際系統(tǒng).
考慮半徑為200 m 的圓形區(qū)域,配備了MEC服務(wù)器的BS 位于該區(qū)域的中心.NRs 和DTs 分別隨機分布在半徑分別為50~150 m 和150~200 m 的環(huán)狀區(qū)域內(nèi).仿真參數(shù)基于文獻[12]和[16]設(shè)置.DT 生成的任務(wù)在 1.0×104~2.0×104bits/s 內(nèi)呈均勻分布.信道功率增益呈平均值為 g0(d/d0)-4的指數(shù)分布.時隙數(shù)T=200,DTs 的數(shù)量Nmax=10,NRs的數(shù)量K=4,W=1 MHz,τ0=0.1 s,σ2=10-12W,γi=γj=[1,1.1,1.2,1.3] cycles/bit,κ1=10-12,κ2=10-16,d0=1,g0=-40 dB.為了評估本文算法的性能,最大程度地消除單次運行的隨機性對仿真結(jié)果造成的誤差,因此進行100 次蒙特卡羅模擬,對最終的仿真結(jié)果取平均值.
本文的對比算法如下.1)基線1:只考慮MEC 服務(wù)器的執(zhí)行和本地執(zhí)行,而附近的設(shè)備只作為中繼設(shè)備,無法執(zhí)行計算任務(wù).2)基線2:NRs 僅用于通過D2D 通信卸載任務(wù),不作為中繼設(shè)備.3)隨機算法:DTs 和NRs 在D2D 中隨機匹配的算法.4)SADLS 算法:Long 等[12]提出的使用匹配博弈的方法進行D2D 的策略選擇算法.5)Qlearning 算法.
近端發(fā)送設(shè)備NR 的隊列長度隨時隙數(shù)t 變化的圖像如圖2 所示.隨著時間的增加,近端發(fā)送設(shè)備的隊列長度逐漸增加并趨于穩(wěn)定.這是由于ODMRA 算法可以通過最小化目標函數(shù),調(diào)整懲罰函數(shù)的大小來調(diào)整任務(wù)到達率和任務(wù)處理率之間的動態(tài)關(guān)系,使得李雅普諾夫漂移項逐漸減小,系統(tǒng)逐漸趨于穩(wěn)定狀態(tài).仿真圖像顯示了李雅普諾夫漂移懲罰函數(shù)的上界,證明了本文算法的有效性.
圖2 輔助設(shè)備隊列長度隨時隙數(shù)的變化Fig.2 NR’s queue length with number of time slot
2 種設(shè)備的虛擬電池隊列隨著時間變化的圖像如圖3 所示.NRs 的計算能力大于DTs,故NRs 的電池容量大于DTs.隨著時間的增加,2 種設(shè)備的虛擬電池隊列長度在本文算法的優(yōu)化下逐漸減小并逐漸穩(wěn)定在擾動參數(shù) θi和 θj附近,驗證了電池水平的下界.
圖3 電池隊列長度隨時隙數(shù)的變化Fig.3 Battery queue length with number of time slot
如圖4、5 所示,比較了2 種移動設(shè)備數(shù)量改變時輔助設(shè)備隊列長度的變化,圖4 顯示了輔助設(shè)備數(shù)量為4 時,隊列長度隨著DT 數(shù)量NDTs的增加而增加.隨著任務(wù)數(shù)量的增加,D2D 傳輸和輔助設(shè)備計算的任務(wù)量增加.在系統(tǒng)任務(wù)處理能力不變的情況下,移動設(shè)備產(chǎn)生的計算任務(wù)將會在NR 中不斷積累,導(dǎo)致隊列長度增加,近端設(shè)備的隊列需要更長的時間達到穩(wěn)定狀態(tài).圖5 中,當(dāng)DT 的數(shù)量固定為10 時,隊列長度隨著NR 數(shù)量NNRs的增加而減小.這是因為隨著輔助設(shè)備數(shù)量的增加,在任務(wù)到達率不變的情況下,系統(tǒng)的任務(wù)處理能力提升,隊列積壓減小.
圖4 不同數(shù)量DTs 下隊列長度隨時隙數(shù)的變化Fig.4 Change of queue length with number of time slot under different quantities of DTs
圖5 不同數(shù)量NRs 下隊列長度隨時隙數(shù)的變化Fig.5 Change of queue length with number of time slot under different quantities of NRs
如圖6 所示為不同算法下時隙長度對系統(tǒng)性能的影響.可知,執(zhí)行延遲越長,系統(tǒng)的服務(wù)成本越小.所有算法的系統(tǒng)服務(wù)成本都隨著 τ0的增加而減小,其中本文算法的平均服務(wù)成本性能最好,驗證了該算法的有效性.隨著 τ0的增加,本文算法、隨機匹配算法和SADLS 算法均可達到相似的平均服務(wù)成本.由于信道條件的不確定性,基線1 和基線2 的算法性能明顯最差.
圖6 平均服務(wù)成本隨時隙長度的變化Fig.6 Change of average service cost with length of time slot
如圖7 所示為不同算法下平均任務(wù)到達率 λi的變化對系統(tǒng)性能的影響.圖中,Eˉ為平均能量消耗.由于未能充分利用系統(tǒng)資源,基線1、基線2 和隨機算法的平均能耗隨著 λi的增加而出現(xiàn)大幅度上升.Q-learning 算法、SADLS 算法和本文算法都設(shè)計了卸載決策和資源分配方案,顯著降低了系統(tǒng)平均能耗.其中Q-learning 算法通過訓(xùn)練過程生成的Q 表是靜態(tài)的,這意味著Q 表一旦被創(chuàng)建,它就不能根據(jù)系統(tǒng)狀態(tài)的實時變化(如隊列積壓或長期成本的變化)進行動態(tài)調(diào)整,故會導(dǎo)致平均能耗較高.SADLS 算法采用匹配博弈,每個用戶追求自身利益最大化,各方之間的利益沖突可能會導(dǎo)致參與者失去利益,得到較差的納什均衡解,故算法性能較差且不穩(wěn)定.本文算法在決策選擇時,從系統(tǒng)的整體性能出發(fā),將問題拆分成單個子模塊后逐個進行優(yōu)化,每個參與者可以分配相對公平和合理的資源.在該模型中,本文算法相較于其他算法能耗更低且更加穩(wěn)定.
圖7 平均能量消耗隨平均任務(wù)到達率的變化Fig.7 Change of average energy consumption with average task arrival rate
本文研究具有社會關(guān)系屬性的D2D-MEC 網(wǎng)絡(luò)的任務(wù)卸載和資源分配框架,即具有空閑計算能力的附近設(shè)備發(fā)揮中繼作用,幫助遠程發(fā)送設(shè)備執(zhí)行或進一步將其任務(wù)轉(zhuǎn)移到MEC 服務(wù)器.將具有QoS 和能量隊列穩(wěn)定性約束的平均服務(wù)成本最小化的隨機優(yōu)化問題表述為一系列的短期確定性優(yōu)化問題.設(shè)計基于李雅普諾夫優(yōu)化的ODMRA 算法解決該問題.該算法對設(shè)備收集的能量、CPU 計算頻率、發(fā)射功率及D2D 鏈路匹配決策進行優(yōu)化.仿真結(jié)果和理論分析表明,在任務(wù)隨機到達、系統(tǒng)狀態(tài)時變的情況下,該算法提高了隊列穩(wěn)定性,減少了能量消耗,且算法復(fù)雜度較低,優(yōu)于其他算法.