趙海濤,張?zhí)苽?,陳躍,趙厚麟 ,朱洪波
(1.南京郵電大學(xué)教育部泛在網(wǎng)絡(luò)健康服務(wù)系統(tǒng)工程研究中心,江蘇 南京 210003;2.南京郵電大學(xué)江蘇省無線通信重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210003;3.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003)
作為5G 移動通信代表性應(yīng)用場景之一,車聯(lián)網(wǎng)及自動駕駛已經(jīng)成為熱點(diǎn)研究領(lǐng)域,在未來將會經(jīng)歷前所未有的發(fā)展[1]。隨著車聯(lián)網(wǎng)等技術(shù)的快速發(fā)展及數(shù)據(jù)量的日益龐大,大量對計算資源高需求的車載應(yīng)用任務(wù)隨之出現(xiàn),如自動駕駛、智能識別、實(shí)時路況等[2]。這些車載應(yīng)用任務(wù)不僅需要大量的存儲與計算資源,同時對于任務(wù)執(zhí)行時延的要求非常嚴(yán)格,給現(xiàn)有車載設(shè)備的通信能力、計算能力帶來了很大的挑戰(zhàn)[3]。為了解決車輛終端與車載應(yīng)用任務(wù)之間的矛盾,融合移動邊緣計算(MEC,mobile edge computing)的協(xié)同通信技術(shù)被引入車聯(lián)網(wǎng)中[4]。車輛終端攜帶的計算任務(wù)可以卸載到路邊單元(RSU,road side unit)配置的MEC 服務(wù)器上,在車輛終端旁邊就能夠完成任務(wù)的計算及分析,有效緩解了車輛終端計算、存儲資源不足的困境,減小了計算任務(wù)的處理時延與車輛終端能耗[5]。針對任務(wù)遷移和資源調(diào)度問題,國內(nèi)外進(jìn)行了大量相關(guān)研究。文獻(xiàn)[6]對通信與計算融合技術(shù)的機(jī)遇與挑戰(zhàn)做了大量的介紹,并針對“邊緣智能”提出了具體的實(shí)施方案。然而,動態(tài)的車聯(lián)網(wǎng)場景給MEC 技術(shù)的大規(guī)模應(yīng)用帶來了許多問題,車輛終端的高速移動及通信參數(shù)的變化導(dǎo)致計算任務(wù)卸載決策復(fù)雜化[7]。
目前車聯(lián)網(wǎng)場景下計算任務(wù)卸載決策主要解決車載應(yīng)用任務(wù)是否需要卸載及卸載多少的問題。卸載決策的主要優(yōu)化目標(biāo)有任務(wù)執(zhí)行時延、能耗及時延與能耗的權(quán)衡等[8]。文獻(xiàn)[9]提出了一種面向5G的邊緣計算多用戶卸載方案,將問題轉(zhuǎn)換為多重背包問題,有效降低了任務(wù)執(zhí)行時延。文獻(xiàn)[10-12]基于各種數(shù)值優(yōu)化算法,提出了一系列計算卸載決策及資源配置方案?;隈R爾可夫決策過程理論(MDP,Markov decision process)的強(qiáng)化學(xué)習(xí)方法,如Q 學(xué)習(xí)算法、深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning)方法如深度Q 網(wǎng)絡(luò)(DQN,deep Q nework)也被研究人員用來解決卸載問題。文獻(xiàn)[13]構(gòu)建了馬爾可夫決策過程函數(shù),解決了車輛終端由于MEC 服務(wù)器服務(wù)范圍不足而導(dǎo)致的服務(wù)中斷問題,解決了單純基于距離進(jìn)行卸載服務(wù)的不足,但是該方法在卸載過程中沒有對服務(wù)方的時延、能耗等成本進(jìn)行合理的評估。文獻(xiàn)[14]提出了一種基于DQN 的多用戶單小區(qū)計算卸載與資源分配算法,聯(lián)合優(yōu)化任務(wù)執(zhí)行時延與能耗的加權(quán)和,實(shí)現(xiàn)了任務(wù)總成本的下降。與其他方法明顯不同的是,DQN 可以在沒有任何先驗(yàn)信息的前提下與環(huán)境進(jìn)行交互,從中學(xué)習(xí)并調(diào)整卸載策略以達(dá)到最佳的長期回報[15-16],這對于動態(tài)時變的車聯(lián)網(wǎng)環(huán)境來說尤其重要。
上述方法都沒有針對不同車輛終端進(jìn)行任務(wù)優(yōu)先級劃分,從而不能實(shí)現(xiàn)處理程序的優(yōu)化。同時這些方法需要實(shí)時準(zhǔn)確的信道狀態(tài)消息,算法復(fù)雜度高、迭代步驟長,難以滿足時延敏感型的車聯(lián)網(wǎng)通信系統(tǒng)。針對以上研究中存在的問題,本文通過引入移動邊緣計算,根據(jù)車輛終端任務(wù)屬性的不同進(jìn)行優(yōu)先級劃分,使車輛終端攜帶的計算任務(wù)能夠直接在邊緣節(jié)點(diǎn)進(jìn)行處理;在車輛終端,基于DQN研究了計算速率最優(yōu)的任務(wù)卸載策略,在信道條件時變的環(huán)境中能夠根據(jù)過去的經(jīng)驗(yàn)實(shí)現(xiàn)卸載策略的自我更新,從而有效降低任務(wù)執(zhí)行時延、提高車聯(lián)網(wǎng)車輛終端用戶的使用體驗(yàn)。
本文選取車輛終端、RSU 與其連接的MEC 服務(wù)器所構(gòu)成的網(wǎng)絡(luò)通信模型。由于車輛終端的快速移動,車聯(lián)網(wǎng)絡(luò)拓?fù)浼軜?gòu)會產(chǎn)生動態(tài)變化。為了滿足時延要求,車輛終端將其攜帶的計算任務(wù)遷移至RSU 連接的MEC 服務(wù)器中。這產(chǎn)生了2 個問題,具體如下。
1) 卸載決策的制定問題。由于計算任務(wù)的類型、信道增益均不相同,如果將計算任務(wù)統(tǒng)一卸載到MEC 服務(wù)器,在信道增益很差的情況下會造成非常嚴(yán)重的傳輸時延問題,同時車輛終端計算資源也得不到充分利用,導(dǎo)致計算資源浪費(fèi)。因此本文根據(jù)車輛終端信道實(shí)時狀態(tài)制定卸載決策,將部分車輛終端的計算任務(wù)卸載至邊緣側(cè)服務(wù)器,從而降低計算任務(wù)處理時延、提高計算資源利用率。
2) 計算資源分配問題。系統(tǒng)會根據(jù)業(yè)務(wù)類型分配優(yōu)先級,但是相同類型業(yè)務(wù)由于其屬性的不同,也可能具有不同的優(yōu)先級需求,因此,必須在計算資源分配之前根據(jù)計算任務(wù)屬性的不同進(jìn)行預(yù)處理,否則相同的卸載決策會導(dǎo)致MEC 服務(wù)器不能合理分配計算資源,影響用戶使用體驗(yàn)。
車聯(lián)網(wǎng)環(huán)境下的計算任務(wù)卸載模型架構(gòu)如圖1所示。在該模型架構(gòu)中,受限于較弱的計算能力,部分車輛終端會將自身攜帶的計算任務(wù)通過無線網(wǎng)絡(luò)卸載到RSU 連接的MEC 服務(wù)器進(jìn)行處理。首先,車輛終端會將自身攜帶的計算任務(wù)信息如最大可容忍時延、數(shù)據(jù)量大小、計算復(fù)雜度等上傳至RSU。RSU 通過計算得到計算任務(wù)優(yōu)先級,然后根據(jù)MEC 服務(wù)器的計算任務(wù)調(diào)度算法決定將哪些車輛終端的計算任務(wù)卸載至服務(wù)器。車輛終端隨后接受RSU 的調(diào)度信息,開始卸載或執(zhí)行計算任務(wù)。假設(shè)在計算任務(wù)執(zhí)行過程中,一旦執(zhí)行時間超過其最大容忍時延,就判定當(dāng)前計算任務(wù)執(zhí)行失敗,并將當(dāng)前計算任務(wù)執(zhí)行時間設(shè)置為最大值。
圖1 計算任務(wù)卸載模型架構(gòu)
本文假設(shè)RSU 覆蓋范圍內(nèi)有K個車輛終端,車輛終端攜帶的計算任務(wù)表示為Ck=(Vk,Dk,Γk,Pk),其中,Dk表示計算任務(wù)的數(shù)據(jù)大小,單位為bit;Vk表示計算任務(wù)計算復(fù)雜度,單位為round/bit;Γk表示計算任務(wù)最大可容忍時延,單位為ms;Pk表示計算任務(wù)的優(yōu)先級,由RSU計算后得出。假設(shè)計算任務(wù)無論是在車輛終端執(zhí)行還是卸載到MEC 服務(wù)器執(zhí)行,以上參數(shù)均保持不變。RSU 覆蓋范圍內(nèi)的所有車輛終端的計算任務(wù)表示為M={M1,M2,…,Mk},其中k∈K。
車輛終端將攜帶的計算任務(wù)卸載到MEC 服務(wù)器時,由于計算任務(wù)類型的不同導(dǎo)致所需要的計算資源也不同。層次分析法(AHP,analytic hierarrchy process)指將與決策總是有關(guān)的元素分解成目標(biāo)層、準(zhǔn)則層、方案層等層次,并在此基礎(chǔ)之上進(jìn)行定性和定量分析的決策方法,是一個多標(biāo)準(zhǔn)決策/多屬性決策模型,非常適用于權(quán)重分配的計算任務(wù)調(diào)度應(yīng)用場景[17]。本文通過AHP 算法可以給容忍時延小、計算復(fù)雜度高的計算任務(wù)分配相對高一些的權(quán)重系數(shù),為MEC 服務(wù)器的計算資源調(diào)度過程提供更合理的依據(jù),提高車輛終端計算任務(wù)的卸載執(zhí)行成功率。
當(dāng)確定計算任務(wù)的權(quán)重系數(shù)時,本文主要考慮計算任務(wù)的計算復(fù)雜度、數(shù)據(jù)總量和最大容忍時延這3 個評價因素,其中,計算復(fù)雜度的重要程度最高,數(shù)據(jù)總量次之,最大容忍時延最低。本文將計算任務(wù)目標(biāo)層的因素進(jìn)行兩兩比較,構(gòu)造出評價因素判斷矩陣A=(aij)3×3,以及目標(biāo)層相對于準(zhǔn)則層的判斷矩陣B1,B2,…,B3=(aij)K×K。其中,
根據(jù)方根法求得判斷矩陣Bk對應(yīng)的權(quán)重向量元素,如式(2)所示。
其中,k表示第k個終端車輛,i表示第k個終端車輛所攜帶任務(wù)的第i個評價因素,可以得到所有車輛終端計算任務(wù)的權(quán)重矢量矩陣為
根據(jù)同樣的方法求得評價因素判斷矩陣A的權(quán)重向量Δ=[Δ1,Δ2,Δ3],其權(quán)重元素為
權(quán)重元素通過一致性檢驗(yàn)后,得到所有計算任務(wù)的權(quán)重向量W,其中每一個元素分別代表對應(yīng)車輛終端計算任務(wù)的權(quán)重,如式(5)所示。
車輛終端攜帶的計算任務(wù)分為車輛終端計算模式和卸載計算模式。車輛終端用于執(zhí)行計算任務(wù)的總能耗Econstraint為額定值,當(dāng)前計算任務(wù)執(zhí)行能耗Ecurrent表示為
其中,pk為車輛終端發(fā)射功率,kk為能量效率系數(shù),fk為車輛終端處理器頻率,tk為計算任務(wù)傳輸時間或車輛終端執(zhí)行時間。
其中,Bk為當(dāng)前車輛終端傳輸帶寬,其中最大傳輸帶寬為BHz,N0為信道傳輸噪聲?;贚TE-V2X(long term evolution-vehicle to X)技術(shù),本文假設(shè)無線信道增益gk、車輛終端發(fā)射功率pk及傳輸帶寬Bk在對應(yīng)的時間段內(nèi)均是時變的,并且基于分布式方式下的SPS(semi persistent scheduling)資源分配算法[19]對RSU 覆蓋范圍下的車輛終端進(jìn)行統(tǒng)一控制。本文以最大化計算任務(wù)處理速率為優(yōu)化目標(biāo),以車輛終端能耗與傳輸帶寬為約束,在求得計算任務(wù)處理速率最大加權(quán)和之后,可求得對應(yīng)的計算任務(wù)最小執(zhí)行時延。同時,基于式(5)得出的計算任務(wù)權(quán)重wk,對于優(yōu)先級別更高的計算任務(wù)可以分配更多的計算資源,使其執(zhí)行時間小于計算任務(wù)最大容忍時延,保證計算任務(wù)卸載過程成功進(jìn)行。本文的優(yōu)化目標(biāo)為
其中,xk表示為卸載決策向量元素,xk=0 表示車輛終端計算模式,xk=1 表示卸載計算模式;約束條件C2 和C3 分別表示計算任務(wù)執(zhí)行能耗和車輛終端傳輸帶寬不能超過額定值。
通過求出卸載決策向量的最優(yōu)值可以求解式(8)所示優(yōu)化問題。然而該問題是一個非凸問題,隨著車輛終端數(shù)量及計算任務(wù)大小的增加,該問題的計算復(fù)雜度也會迅速增加。
面對上述挑戰(zhàn),傳統(tǒng)的數(shù)值優(yōu)化方法效率較低。本文提出了一種AHP-DQN 任務(wù)分發(fā)卸載算法,其核心思想是將Q 網(wǎng)絡(luò)作為策略評判標(biāo)準(zhǔn),通過Q網(wǎng)絡(luò)遍歷當(dāng)前狀態(tài)下的各種動作與環(huán)境進(jìn)行實(shí)時交互,其動作、狀態(tài)值、獎勵值存放于回訪記憶單元通過Q 學(xué)習(xí)算法經(jīng)歷多個迭代過程來反復(fù)訓(xùn)練Q網(wǎng)絡(luò),最后得到最佳卸載策略。與文獻(xiàn)[14]算法不同的是,本文算法通過引入層次分析法對車輛終端計算任務(wù)進(jìn)行預(yù)處理,提高M(jìn)EC 服務(wù)器對計算資源的合理分配能力。同時重新定義了Q 網(wǎng)絡(luò)中的獎勵函數(shù),以加權(quán)后的計算任務(wù)處理速率和為優(yōu)化目標(biāo),減小算法迭代過程中的計算復(fù)雜度,加快算法收斂速度。本文的卸載決策算法致力于設(shè)計一個卸載策略函數(shù),當(dāng)MEC 服務(wù)器收到車輛終端的計算任務(wù)信息并得出計算任務(wù)對應(yīng)的權(quán)重時,能夠根據(jù)當(dāng)前車輛終端的無線信道增益情況,快速調(diào)整深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)θt,并生成計算任務(wù)卸載策略,策略函數(shù)可以表示為π:g→x。該策略函數(shù)的產(chǎn)生可以分為兩步,具體如下。
1) 卸載決策動作的產(chǎn)生。當(dāng)MEC 服務(wù)器收到車輛終端當(dāng)前的信道增益信息后,深度學(xué)習(xí)網(wǎng)絡(luò)根據(jù)當(dāng)前觀測到的狀態(tài)st得到卸載動作向量Xt=[x1,x2,…,xK],并根據(jù)式(7)生成獎勵值rt。同時本文的動作狀態(tài)函數(shù)Q(st,xt,θt)由深度學(xué)習(xí)網(wǎng)絡(luò)確定,深度學(xué)習(xí)網(wǎng)絡(luò)激活函數(shù)為ReLu 函數(shù),網(wǎng)絡(luò)輸出函數(shù)為Sigmoid 函數(shù),其對應(yīng)卸載動作的概率值。
2)卸載決策動作的更新。根據(jù)式(9)實(shí)現(xiàn)動作狀態(tài)函數(shù)的更新。
其中,αk與γ分別為學(xué)習(xí)速率與折扣因子,s'為第k次迭代過程中執(zhí)行動作xt后的狀態(tài)觀測值,x'為狀態(tài)s′下獎勵值最大的動作,Ek為迭代過程中的累積獎勵值。對于第k次迭代過程而言,通過最小化式(10)目標(biāo)函數(shù),可以更新網(wǎng)絡(luò)參數(shù)θ,從而實(shí)現(xiàn)卸載決策動作的更新。
重復(fù)上述2 個步驟得到t時刻最佳狀態(tài)對后,將該狀態(tài)?動作對(gt,)放入經(jīng)驗(yàn)池,作為新的訓(xùn)練樣本。當(dāng)經(jīng)驗(yàn)池容量足夠后,新生成的狀態(tài)?動作對會代替舊的數(shù)據(jù)樣本。深度學(xué)習(xí)網(wǎng)絡(luò)反復(fù)學(xué)習(xí)最佳狀態(tài)對(gt,),并隨著時間的推移生成更好的卸載決策輸出。在存儲空間有限的約束下,DNN 僅從最新生成的數(shù)據(jù)樣本中進(jìn)行學(xué)習(xí),這種閉環(huán)強(qiáng)化學(xué)習(xí)機(jī)制會不斷改善其卸載策略,直到收斂。本文算法偽代碼如算法1 所示。
算法1AHP-DQN 計算任務(wù)分發(fā)卸載算法
輸入計算任務(wù)的計算復(fù)雜度Vk、數(shù)據(jù)總量Dk及最大容忍時延Γk。根據(jù)式(1)~式(5)得到每個計算任務(wù)的優(yōu)先級Pk,即計算任務(wù)的計算資源分配權(quán)重
輸出車輛終端攜帶任務(wù)的最終卸載決策X=[x1,x2,…,xK]
本節(jié)通過Python 編程語言對本文算法進(jìn)行仿真以評估算法性能。本文仿真場景為IEEE 802.11p 標(biāo)準(zhǔn)規(guī)定下的車聯(lián)網(wǎng)場景,仿真實(shí)驗(yàn)參數(shù)根據(jù)文獻(xiàn)[20]及移動邊緣計算白皮書相關(guān)約束進(jìn)行假設(shè)。在車聯(lián)網(wǎng)場景下,每個RSU 的覆蓋范圍為1 000 m,車輛終端速度假設(shè)為40 km/h,每個車輛終端計算能力為108round/s,車載車輛終端計算功率為3 W,發(fā)射功率為0.3 W。攜帶的計算任務(wù)數(shù)據(jù)(以kbit 為單位)服從[300,500]的均勻分布,計算任務(wù)復(fù)雜度(以兆輪為單位)服從[9 000,11 000]的均勻分布。下面將本文算法分別與全部車輛終端計算、Q 學(xué)習(xí)算法、DQN[14]進(jìn)行比較。
本文算法收斂過程如圖2 所示??v軸分別表示訓(xùn)練過程中所有車輛終端的歸一化計算速率及損失函數(shù)值。根據(jù)經(jīng)驗(yàn)風(fēng)險最小化的知識,收斂概率與網(wǎng)絡(luò)復(fù)雜度負(fù)相關(guān),結(jié)合應(yīng)用場景的實(shí)際維度情況,本文選擇了兩層DNN 結(jié)構(gòu),同時在時延要求較高的車載邊緣網(wǎng)絡(luò)中并不注重未來的潛在回報,因此本文設(shè)置了一個較小的折扣因子γ。在樣本不多的初期采用較高的學(xué)習(xí)速率αk,隨著經(jīng)驗(yàn)池樣本增加,逐漸減小αk,避免損失函數(shù)過于震蕩。在設(shè)計Q函數(shù)與獎勵值時,一方面盡量使收斂過程中Q的均值為0,另一方面使獎勵值的正反饋稍大些,保證初期獎勵值的負(fù)反饋過程中能夠采取人工干預(yù)提升正回報,加速收斂過程。從圖2 可以看出,在車輛終端數(shù)目為10 的情況下,本文算法經(jīng)過50 次迭代后,DQN 已經(jīng)逐漸收斂到最優(yōu)解。與Q 學(xué)習(xí)算法的收斂結(jié)果相比較,本文算法得到的優(yōu)化目標(biāo)具有更好的效果。從圖2 還可以看出,盡管設(shè)置了較大的經(jīng)驗(yàn)回放池尺度,由于貪婪概率ε的存在,收斂曲線存在些許波動,但不影響算法總體的收斂性。
圖2 3 種算法的收斂過程
圖3 中,在車輛終端數(shù)目為10 的情況下,將本文算法與全部車輛終端計算、Q 學(xué)習(xí)算法[14]進(jìn)行比較。從圖3 可以看到,隨著計算任務(wù)復(fù)雜度的增加,3 種算法的計算任務(wù)執(zhí)行成功率都在下降。當(dāng)計算任務(wù)復(fù)雜度最高時,全部車輛終端計算的計算任務(wù)執(zhí)行成功率只有24%,Q 學(xué)習(xí)算法的執(zhí)行成功率由81%下降到了64%。與之相對應(yīng)的是,本文算法的執(zhí)行成功率保持了一個相對穩(wěn)定的狀態(tài)。與Q 學(xué)習(xí)算法一樣,本文算法只對能耗及傳輸帶寬做了相應(yīng)的約束,但是隨著計算任務(wù)復(fù)雜度的上升,計算任務(wù)的差異度變大,基于AHP 算法對計算任務(wù)做的預(yù)處理能夠使MEC 服務(wù)器更加合理地調(diào)度計算資源,從而提高計算任務(wù)卸載執(zhí)行成功率。
圖3 計算任務(wù)執(zhí)行成功率與計算復(fù)雜度的關(guān)系
在計算任務(wù)復(fù)雜度不變的情況下,將本文算法與全部車輛終端計算、Q 學(xué)習(xí)算法、DQN 進(jìn)行比較,如圖4 所示。從圖4 可以看到,隨著車輛終端數(shù)的增加,計算任務(wù)量變大,計算任務(wù)執(zhí)行時延都隨之上升。當(dāng)車輛終端數(shù)目小于10 時,本文算法與Q學(xué)習(xí)算法、DQN 的執(zhí)行時延幾乎沒有不同。當(dāng)車輛終端數(shù)目超過10 時,本文算法的計算任務(wù)平均執(zhí)行時延相比全部車輛終端計算的時延減少了95 ms,相比Q 學(xué)習(xí)算法減少了24 ms,相比于DQN 有些許提升。隨著計算任務(wù)數(shù)目的增加,相比全部車輛終端計算與Q 學(xué)習(xí)算法,本文算法的卸載方案能夠根據(jù)信道實(shí)際情況進(jìn)行學(xué)習(xí),從而做出更合適的卸載決策,使計算任務(wù)執(zhí)行時延更小。但是在仿真實(shí)驗(yàn)中,僅改變車輛終端數(shù)目,車輛終端計算任務(wù)的計算復(fù)雜度、數(shù)據(jù)量大小等屬性保持不變,基于AHP算法對計算任務(wù)做出的預(yù)處理產(chǎn)生的效果有限,因此本文算法與Q 學(xué)習(xí)算法的效果提升有限。
圖4 任務(wù)平均時延與車輛終端數(shù)目的關(guān)系
在車輛終端數(shù)目為10 的情況下,隨著一半的車輛終端計算任務(wù)計算復(fù)雜度的增加,4 種算法的計算任務(wù)平均執(zhí)行時延都在增加,如圖5 所示。從圖5 中可以看出,在計算任務(wù)復(fù)雜度最高時,本文算法的計算任務(wù)執(zhí)行時延與全部車輛終端計算相比減少了219 ms,與Q 學(xué)習(xí)算法相比減少了64 ms,與DQN 相比減少了24 ms。比較圖4 與圖5 可以看出,在計算任務(wù)差異度越大的應(yīng)用場景中,本文算法優(yōu)勢越明顯。隨著計算復(fù)雜度的上升,不同車輛終端的計算任務(wù)差異度越大,MEC 服務(wù)器計算資源的分配權(quán)重也隨之變化。與Q 學(xué)習(xí)算法和DQN 不同的是,本文算法對所有車輛終端的計算任務(wù)做了自適應(yīng)優(yōu)先級預(yù)處理,給優(yōu)先級更高的計算任務(wù)分配了更多的計算資源,使計算任務(wù)執(zhí)行成功概率更高,從而提高卸載決策正確率,有效減小了計算任務(wù)執(zhí)行時延。
圖5 任務(wù)平均時延與計算任務(wù)復(fù)雜度的關(guān)系
面向車聯(lián)網(wǎng)環(huán)境中車輛終端受最大容忍時延及最大能耗約束的情況,本文提出了一種基于深度Q 網(wǎng)絡(luò)的計算任務(wù)分發(fā)卸載算法。車輛終端首先根據(jù)自身計算任務(wù)大小、計算復(fù)雜度及最大容忍時延等因素對計算任務(wù)優(yōu)先級進(jìn)行合理劃分,并根據(jù)車輛終端實(shí)時信道增益進(jìn)行自主卸載決策部署,以找到最優(yōu)策略。通過對該算法的大量仿真分析及數(shù)值驗(yàn)證,本文提出的AHP-DQN 任務(wù)分發(fā)卸載算法在不同的系統(tǒng)參數(shù)下都具有較好的性能。今后的研究將會考慮對DQN 的訓(xùn)練算法及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行持續(xù)優(yōu)化改進(jìn),同時對無線電干擾等復(fù)雜環(huán)境因素也會加以考慮。