中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-029-2141-06
doi: 10.19734/j. issn.1001-3695.2024.12.0491
Abstract:Existing researchonmulti-QoSscheduling problems,due toitsreliancesolelyonimmediatereward feedback mechanisms,faces isues ofpoor scalabilityand resource wastagewhen handlingdelay-sensitivedataand mediadata withcontinuous transmision requirements inresource-constrained scenarios.To addressthis problem,this paper proposed aRB-DQN algorithm.Thisalgorithmadjustedthecurrntstate’spolicyevaluationbybacktrackingfutureinteractions,effectivelyidentifyingandresolving packetlosscausedbysuboptimalschedulingstrategies.Additionaly,itdesignedaLTTmetric,whichcomprehensivelyconsideredtheservicerequirements ofbothdelay-sensitivedataandmedia-typedata,alowing forweightadjustmentstoemphasizediferentpriorities.Extensivesimulationresultsdemonstratethattheproposedalgorithmsignificantlyreducesthe delayand jiterofdelay-sensitivedata while ensuringthe smothnessandstabilityof media-type data,outperforming other scheduling strategies.
Keywords:time slot scheduling;deep reinforcement learning;multi-QoS;reward backtracking
0 引言
隨著工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,制造業(yè)正經(jīng)歷深刻的變革。這一變革不僅推動(dòng)了設(shè)備、系統(tǒng)與網(wǎng)絡(luò)之間的高效連接,也為智能設(shè)備的廣泛應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)[1,2]。在這一背景下,時(shí)隙調(diào)度作為一種有效的資源管理策略,越來越受到關(guān)注。它能夠根據(jù)不同的QoS需求,靈活地進(jìn)行調(diào)度,以滿足多樣化的業(yè)務(wù)需求,尤其是時(shí)延敏感數(shù)據(jù)和媒體類型數(shù)據(jù)的傳輸[3]。其中時(shí)延敏感數(shù)據(jù)對(duì)時(shí)延和抖動(dòng)的控制要求極為嚴(yán)格,未能在截止時(shí)間內(nèi)發(fā)送這些數(shù)據(jù)可能導(dǎo)致系統(tǒng)故障并危及安全。例如,在機(jī)械臂的運(yùn)動(dòng)控制、AGV(automatedguidedvehicle)的導(dǎo)航調(diào)度和電機(jī)驅(qū)動(dòng)控制等關(guān)鍵功能中,數(shù)據(jù)傳輸?shù)膶?shí)時(shí)性直接影響到生產(chǎn)效率和設(shè)備安全[4,5]。因此,如何有效管理和調(diào)度這些時(shí)延敏感數(shù)據(jù)成為了當(dāng)前研究的重點(diǎn)。與此同時(shí),媒體類型數(shù)據(jù)(如語音和視頻)的傳輸也日益受到關(guān)注。這類數(shù)據(jù)通常具有軟時(shí)延要求,且數(shù)據(jù)包較大,廣泛應(yīng)用于視頻監(jiān)控、圖像采集等場(chǎng)景[6。媒體類型數(shù)據(jù)在時(shí)延方面容忍性較高,其主要目標(biāo)是確保傳輸?shù)牧鲿承院头€(wěn)定性,以提供良好的用戶體驗(yàn)。因此,不同業(yè)務(wù)類型所帶來的需求差異使得全面考慮各種需求變得復(fù)雜和困難。在多QoS場(chǎng)景下,如何實(shí)現(xiàn)合理有效的時(shí)隙調(diào)度是當(dāng)前亟待解決的關(guān)鍵問題。
針對(duì)多QoS場(chǎng)景下的資源分配研究已有很多。例如,文獻(xiàn)[7]在固定時(shí)延敏感調(diào)度的基礎(chǔ)上,利用深度優(yōu)先搜索方法對(duì)媒體類型數(shù)據(jù)的路由進(jìn)行優(yōu)化,有效降低其時(shí)延。文獻(xiàn)[8]提出了一種基于服務(wù)區(qū)分的實(shí)時(shí)數(shù)據(jù)傳輸調(diào)度模型,解決工業(yè)物聯(lián)網(wǎng)中數(shù)據(jù)傳輸?shù)膶?shí)時(shí)性問題。該模型將報(bào)警、狀態(tài)、圖像和視頻數(shù)據(jù)劃分為四種優(yōu)先級(jí),采用多優(yōu)先級(jí)時(shí)隙傳輸方法,合理分配時(shí)隙資源以提升傳輸效率。通過動(dòng)態(tài)調(diào)整隊(duì)列和緩沖空間,該模型確保高優(yōu)先級(jí)數(shù)據(jù)的及時(shí)傳輸。文獻(xiàn)[9]提出了一種基于預(yù)留時(shí)隙間隔的綜合調(diào)度方法,其利用OMT求解器以最大化預(yù)留時(shí)隙間隔為目標(biāo)來調(diào)度時(shí)延敏感數(shù)據(jù),并采用(earliestdeadlinefirst,EDF)調(diào)度策略,根據(jù)AVB流的截止時(shí)間進(jìn)行優(yōu)先傳輸,從而有效解決了時(shí)延敏感數(shù)據(jù)和媒體數(shù)據(jù)在調(diào)度時(shí)的延遲和實(shí)時(shí)性問題。文獻(xiàn)[10]提出了一種基于EDF的調(diào)度方法,其利用多個(gè)優(yōu)先級(jí)級(jí)別支持時(shí)延敏感和媒體類型數(shù)據(jù)包的調(diào)度。然而,上述現(xiàn)有的研究大多側(cè)重于傳輸周期性的數(shù)據(jù),而當(dāng)系統(tǒng)中出現(xiàn)非周期性傳輸?shù)臄?shù)據(jù)時(shí),則需要進(jìn)行重新建模和求解,這不僅增加了模型計(jì)算的復(fù)雜度,也降低了其適應(yīng)能力。
目前,強(qiáng)化學(xué)習(xí)方法通過自適應(yīng)學(xué)習(xí)環(huán)境變化,優(yōu)化資源分配策略,從而實(shí)現(xiàn)更靈活、高效的調(diào)度,并已廣泛應(yīng)用于無線網(wǎng)絡(luò)的資源分配問題[11\~13]。文獻(xiàn)[14]提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的資源分配框架,以滿足異構(gòu)車輛網(wǎng)絡(luò)中的QoS需求。該框架考慮了兩類QoS:a)延遲敏感應(yīng)用(如安全通信),要求高可靠性和低延遲;b)延遲不敏感應(yīng)用(如娛樂服務(wù)),關(guān)注高數(shù)據(jù)傳輸速率。通過聯(lián)合優(yōu)化信道分配和功率控制,該方法有效提升了系統(tǒng)性能,證明了其在多QoS場(chǎng)景下的有效性。文獻(xiàn)[15]提出了一種基于DQN的計(jì)算卸載策略,旨在優(yōu)化衛(wèi)星物聯(lián)網(wǎng)中的多類型任務(wù)處理。其采用排隊(duì)模型處理有限的計(jì)算資源,能夠同時(shí)處理時(shí)延敏感型和計(jì)算密集型任務(wù),最大限度地減少計(jì)算任務(wù)的處理延遲,提高資源利用率。文獻(xiàn)[16]提出了一種基于深度強(qiáng)化學(xué)習(xí)的調(diào)度框架,旨在優(yōu)化可重構(gòu)無線網(wǎng)絡(luò)中的資源分配,以滿足各種QoS需求。該方法通過使用演員-評(píng)論家學(xué)習(xí)算法,動(dòng)態(tài)調(diào)整資源分配策略,從而高效管理包括延遲敏感和延遲不敏感在內(nèi)的多種業(yè)務(wù)需求。文獻(xiàn)[17]提出了一種基于深度強(qiáng)化學(xué)習(xí)的流調(diào)度方法,旨在解決軟件定義網(wǎng)絡(luò)架構(gòu)下的多目標(biāo)類型QoS流調(diào)度問題。其構(gòu)建了一個(gè)綜合考慮吞吐效能與服務(wù)效能的獎(jiǎng)勵(lì)信號(hào),從而顯著提升了網(wǎng)絡(luò)調(diào)度的決策水平和服務(wù)質(zhì)量。然而,上述研究在模型反饋時(shí)僅獨(dú)立考慮各自的QoS,并且只關(guān)注了當(dāng)前時(shí)隙的即時(shí)反饋,而忽視了未來時(shí)隙反饋的延遲效應(yīng)。這種做法無法有效應(yīng)對(duì)具有連續(xù)傳輸需求的媒體數(shù)據(jù)所加劇的時(shí)隙競(jìng)爭(zhēng)問題。具體來說,媒體數(shù)據(jù)的連續(xù)傳輸特性需要長(zhǎng)時(shí)間占用多個(gè)時(shí)隙資源,這會(huì)顯著增加時(shí)隙的競(jìng)爭(zhēng)壓力,導(dǎo)致時(shí)延敏感數(shù)據(jù)無法及時(shí)獲得所需的時(shí)隙資源,從而引發(fā)大量的超時(shí)丟包現(xiàn)象。
因此,為解決多類型QoS共存的時(shí)隙調(diào)度問題,本文提出了一種基于獎(jiǎng)勵(lì)回溯機(jī)制的DQN算法。其主要貢獻(xiàn)如下:
a)本文研究了具有混合異構(gòu)QoS數(shù)據(jù)流的工業(yè)無線網(wǎng)絡(luò)中的時(shí)隙調(diào)度問題,綜合考慮截止時(shí)間、包生成時(shí)間和媒體包連續(xù)傳輸對(duì)資源分配的影響。同時(shí),設(shè)計(jì)了一種時(shí)延-吞吐均衡度量指標(biāo),該指標(biāo)考慮了時(shí)延敏感數(shù)據(jù)的延遲與抖動(dòng),并確保視頻數(shù)據(jù)傳輸?shù)膫鬏斄鲿承耘c幀穩(wěn)定性。
b)RB-DQN算法基于延遲反饋的思想,引入連續(xù)時(shí)隙資源分配決策的累積影響,回溯當(dāng)前狀態(tài)進(jìn)行決策評(píng)估,實(shí)現(xiàn)資源的高效利用。
c)本文方法與現(xiàn)有典型方法在仿真實(shí)驗(yàn)中進(jìn)行大量對(duì)比,實(shí)驗(yàn)結(jié)果表明RB-DQN明顯優(yōu)于其他調(diào)度算法,有效驗(yàn)證了其優(yōu)越性和可行性。
1問題建模
1.1系統(tǒng)建模
本文考慮的工業(yè)互聯(lián)網(wǎng)的系統(tǒng)模型如圖1所示。該系統(tǒng)由一個(gè)接入設(shè)備(accessdevice,AD)和 N 個(gè)單天線的現(xiàn)場(chǎng)設(shè)備(fielddevice,F(xiàn)D)組成。AD負(fù)責(zé)匯總來自各個(gè)FD設(shè)備的數(shù)據(jù)包,而FD設(shè)備則負(fù)責(zé)采集不同類型的業(yè)務(wù)數(shù)據(jù),其中 Na 個(gè)設(shè)備采集時(shí)延敏感業(yè)務(wù)和 Nb 個(gè)設(shè)備采集媒體業(yè)務(wù)。定義FD設(shè)備的集合為 D={Di|1?i?N} ,設(shè)備 Di 在周期性時(shí)間窗口 pi 內(nèi),以概率 g 驅(qū)動(dòng)為條件產(chǎn)生數(shù)據(jù)包。令時(shí)隙 t 為數(shù)據(jù)包傳輸?shù)淖钚卧?,其?pi=kt,k∈Z 。令 μi(t)={0,1} 表示數(shù)據(jù)包產(chǎn)生的狀態(tài)指示變量。如果設(shè)備 Di 在 χt 時(shí)隙產(chǎn)生了數(shù)據(jù),則 μi(t)=0 ;否則為1。所產(chǎn)生的數(shù)據(jù)包類型包括時(shí)延敏感數(shù)據(jù)和媒體類型數(shù)據(jù)。定義 x 為數(shù)據(jù)類型,當(dāng) xi=0 時(shí),表示 Di 產(chǎn)生時(shí)延敏感的數(shù)據(jù);而當(dāng) xi=1 時(shí),則表示 Di 產(chǎn)生媒體類型的數(shù)據(jù)。在每個(gè)時(shí)隙中,僅允許調(diào)度一個(gè)設(shè)備向AD發(fā)送數(shù)據(jù)包。然而,環(huán)境干擾和傳輸沖突會(huì)導(dǎo)致數(shù)據(jù)包調(diào)度失敗。為此,定義 ρ 為數(shù)據(jù)包調(diào)度過程中發(fā)生丟失的概率。數(shù)據(jù)包丟包將觸發(fā)重傳機(jī)制以提高調(diào)度的可靠性。數(shù)據(jù)包達(dá)到最大重傳次數(shù)或超出規(guī)定截止時(shí)間后仍未成功調(diào)度,則判定該數(shù)據(jù)包發(fā)生丟失。因而,定義 yi(t) 為調(diào)度狀態(tài)指示變量,其中 yi(t)= {0,1} 。當(dāng) Di 在時(shí)隙 χt 有待傳數(shù)據(jù)包且傳輸未丟包記為 yi(t)= 1,否則為0。
1.2 時(shí)延敏感數(shù)據(jù)
1.2.1時(shí)延敏感數(shù)據(jù)描述
時(shí)延敏感數(shù)據(jù)通常指對(duì)傳輸時(shí)延要求極高的數(shù)據(jù)類型。這類數(shù)據(jù)的規(guī)模一般較小,通常能夠在一個(gè)時(shí)隙內(nèi)完成傳輸,且產(chǎn)生頻率較高,必須在極短時(shí)間內(nèi)發(fā)送和處理,以確保系統(tǒng)的實(shí)時(shí)響應(yīng)。定義 Pa(i) 表示由設(shè)備 Di 采樣獲得的敏感數(shù)據(jù),其具體表示為
Pa(i)=?ati,dti?
其中: ati 表示數(shù)據(jù)包的到達(dá)時(shí)隙; dti 表示數(shù)據(jù)包的截止時(shí)隙,滿足 dti?pi 。
1.2.2時(shí)延敏感數(shù)據(jù)評(píng)價(jià)指標(biāo)
時(shí)延是網(wǎng)絡(luò)性能的關(guān)鍵指標(biāo)之一,在本文,時(shí)延表示從數(shù)據(jù)采樣到數(shù)據(jù)成功交付所經(jīng)歷的時(shí)隙數(shù)。對(duì)于任意時(shí)延敏感數(shù)據(jù),其時(shí)延由 di(t) 表示:
其中:otherwise意味著三種情況:當(dāng) μi(t)=0 ,即設(shè)備產(chǎn)生新數(shù)據(jù)包時(shí),則其時(shí)延為0;當(dāng)未有新數(shù)據(jù)包產(chǎn)生,且設(shè)備 Di 中有待傳數(shù)據(jù)包,其被調(diào)度且發(fā)生調(diào)度失敗,則意味著時(shí)延增加1;當(dāng)同樣無新數(shù)據(jù)包產(chǎn)生場(chǎng)景,待傳輸?shù)臄?shù)據(jù)包超過截止時(shí)間仍未成功發(fā)送,則時(shí)延記為最大周期 pi 。
抖動(dòng)是網(wǎng)絡(luò)性能中的另一個(gè)關(guān)鍵指標(biāo),用于描述數(shù)據(jù)包傳輸過程中到達(dá)時(shí)間的不一致性。抖動(dòng)通常定義為連續(xù)接收的數(shù)據(jù)包之間到達(dá)時(shí)間的變化。在理想情況下,數(shù)據(jù)包以恒定的間隔到達(dá)接收端。然而,由于網(wǎng)絡(luò)擁塞、路由延遲和硬件差異,數(shù)據(jù)包之間的到達(dá)時(shí)間可能會(huì)有所不同。定義 ji(Ωt) 表示 Di 在 Ψt 時(shí)隙之前的抖動(dòng),用以下公式計(jì)算:
1.3媒體類型數(shù)據(jù)
1.3.1媒體類型數(shù)據(jù)描述
媒體數(shù)據(jù)的特點(diǎn)是規(guī)模較大,通常覆蓋多個(gè)時(shí)隙,產(chǎn)生頻率較慢。因此通常容忍相對(duì)寬松的時(shí)延,但需要高吞吐量來確保連續(xù)流暢的數(shù)據(jù)傳輸。定義 Pb(i) 表示由設(shè)備 Di 獲得的媒體數(shù)據(jù),其具體表示為
Pb(i)=?ati,eti,ni,m?
其中: ati 表示數(shù)據(jù)包的到達(dá)時(shí)隙; eti 表示數(shù)據(jù)包的穩(wěn)定流暢時(shí)隙;滿足 eti?pi ·ni 表示連續(xù)傳輸所需的時(shí)隙數(shù); m 表示當(dāng)前Di 緩存區(qū)剩余數(shù)據(jù)包數(shù)量。
現(xiàn)有研究使用幀率來刻畫視頻的流暢性,因?yàn)閹手苯雨P(guān)系到視頻的視覺體驗(yàn),尤其在動(dòng)態(tài)場(chǎng)景中,較高的幀率能夠有效減少運(yùn)動(dòng)模糊,從而提升畫面的流暢性和清晰度。由于本文考慮的是細(xì)粒度的時(shí)隙調(diào)度問題,所以將媒體傳輸建模為:設(shè)備 Di 產(chǎn)生的媒體數(shù)據(jù)在 eti 內(nèi),至少需要傳輸 ni 個(gè)包。
根據(jù)業(yè)界標(biāo)準(zhǔn)[18],目前視頻錄制的幀數(shù)通常設(shè)定為至少30fps ,以確保良好的觀看體驗(yàn)。以超高清(ultrahighdefini-tion,UHD)視頻為例,其碼率為 15Mbits ,根據(jù)式(4),可計(jì)算得每幀所需字節(jié)數(shù) B≈75000 。
根據(jù) 802.11協(xié)議[19],數(shù)據(jù)包的最大長(zhǎng)度1514Byte,故傳輸30fps所需時(shí)隙數(shù) 30×75000/1514≈1487 此外,基于TDMA的WIA-FA協(xié)議[1],時(shí)隙長(zhǎng)度為 256μs ,這意味著每秒可分配的時(shí)隙數(shù)量為 根據(jù)上述分析,為了保證用戶端的視頻體驗(yàn),在這3906個(gè)時(shí)隙中,至少需要傳輸1487個(gè)時(shí)隙的數(shù)據(jù)包,從而滿足30fps視頻質(zhì)量的要求。綜上所述,本文在媒體包傳輸?shù)慕I希c利用幀率來刻畫視頻流暢性的方法是一致的。進(jìn)一步,為了減少因連續(xù)傳輸帶來幀頭部的重復(fù)開銷,本文采用聚合的方式,使獲得的媒體數(shù)據(jù)包能夠在連續(xù)的時(shí)隙中傳輸,從而提高資源的利用率。
1.3.2媒體類型數(shù)據(jù)評(píng)價(jià)指標(biāo)
針對(duì)媒體類型數(shù)據(jù)包,定義 αi(t) 為 Di 成功交付的媒體數(shù)據(jù)包的數(shù)量,具體公式如下:
定義 βi(t) 為 Di 成功得到媒體數(shù)據(jù)包的總次數(shù),公式為
為了衡量媒體類型數(shù)據(jù)包的傳輸流暢性和穩(wěn)定性,定義包交付率(deliveryratio,DR)作為關(guān)鍵指標(biāo),具體公式如下:
1.4 問題建模
本文考慮了不同業(yè)務(wù)類型的綜合調(diào)度。在處理敏感數(shù)據(jù)時(shí),目標(biāo)是在盡可能滿足時(shí)延要求的前提下,降低數(shù)據(jù)包的抖動(dòng)。對(duì)于媒體類型數(shù)據(jù),重點(diǎn)是最大化包的交付率,以確保媒體流的流暢性和穩(wěn)定性。因此,在每個(gè)設(shè)備 Di 的時(shí)隙 χt 中,為了聯(lián)合度量時(shí)延、抖動(dòng)和包交付率,定義時(shí)延-吞吐均衡度量指標(biāo):
其中: 是權(quán)重系數(shù),其反映了時(shí)延敏感數(shù)據(jù)的重要性??梢酝ㄟ^調(diào)整
的值靈活地增強(qiáng)對(duì)各指標(biāo)的關(guān)注。因此,本文針對(duì)綜合業(yè)務(wù)的時(shí)隙調(diào)度優(yōu)化問題的目標(biāo)函數(shù)為
其中:C1是時(shí)隙調(diào)度約束,表示每個(gè)時(shí)隙只能調(diào)度一個(gè)設(shè)備;C2是媒體類型數(shù)據(jù)的連續(xù)傳輸約束,表示在 χt 到 t+Pb(i),ni 時(shí)隙內(nèi)連續(xù)傳輸。
本文將上述多業(yè)務(wù)時(shí)隙調(diào)度問題定義為馬爾可夫決策過程,并設(shè)計(jì)了一種基于獎(jiǎng)勵(lì)回溯的DQN綜合調(diào)度方法來解決該問題。該方法利用無模型的深度強(qiáng)化學(xué)習(xí),通過與環(huán)境的不斷交互,潛在地學(xué)習(xí)系統(tǒng)狀態(tài),從而獲得調(diào)度策略。
2獎(jiǎng)勵(lì)回溯機(jī)制驅(qū)動(dòng)DQN時(shí)隙調(diào)度方法
2.1 馬爾可夫決策過程
在考慮多業(yè)務(wù)調(diào)度任務(wù)時(shí),為了實(shí)現(xiàn)系統(tǒng)動(dòng)態(tài)地進(jìn)行時(shí)隙調(diào)度,本研究將上述問題描述為一個(gè)馬爾可夫決策過程(Markovdecisionprocess,MDP)。該系統(tǒng)與環(huán)境進(jìn)行交互,執(zhí)行不同的動(dòng)作以改變自身狀態(tài),并獲得相應(yīng)的回報(bào)。通過最大化長(zhǎng)期累加回報(bào),能夠獲得一個(gè)有效的調(diào)度策略。該MDP過程被建模為五元組 ?S,A,R,P(s′|s,a) gt;,其中 s 是狀態(tài)空間,A是動(dòng)作空間 ,R 是獎(jiǎng)勵(lì), P(s′|s,a) 是系統(tǒng)狀態(tài)轉(zhuǎn)移概率(策略)。更具體地說,在每個(gè)時(shí)隙 χt ,將整個(gè)系統(tǒng)視為一個(gè)代理,觀察環(huán)境的當(dāng)前狀態(tài) st ,然后根據(jù)策略 P(s′|s,a) 采取行動(dòng) at 。作為反饋,代理將獲得獎(jiǎng)勵(lì) rt 并轉(zhuǎn)移到新的狀態(tài) st+1 。本文詳細(xì)定義了MDP模型的三個(gè)關(guān)鍵要素:狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)。
a)狀態(tài)(state,S):在時(shí)隙 χt ,定義系統(tǒng)的狀態(tài)表示為 s(t) ,所有可能的狀態(tài)構(gòu)成狀態(tài)空間 s ,其中 狀態(tài) s(t) 包含了系統(tǒng)設(shè)備類型 xi 、設(shè)備緩沖區(qū)數(shù)據(jù)包狀態(tài)、數(shù)據(jù)包的到達(dá)時(shí)間 at 、數(shù)據(jù)包截止時(shí)間 dt 或體驗(yàn)保證時(shí)隙 et 、緩沖區(qū)空閑狀況 η ,當(dāng)前時(shí)隙 χt 組成了一個(gè) 4N+1 的一維集合。
s(t)=(x,at,dt/et,η,t)
具體來說 ,x={x1,x2,…,xN},at={at1,at2,…,atN},dt/et= {dt1/et1,dt2/et2,…,dtN/etN} 。此外, η={η1,η2,…,ηN} ,若是設(shè)備 Di 緩沖區(qū)為空,則 ηi=0 ;否則為1。
b)動(dòng)作 (action,A) :在優(yōu)化問題中,動(dòng)作是選擇一個(gè)被調(diào)度的無線設(shè)備FD,以將其數(shù)據(jù)傳輸給 AD 。在時(shí)隙 χt ,系統(tǒng)的動(dòng)作可表示為 a(t)={a1(t),a1(t),…,aN(t)} ,所有可能的狀態(tài)構(gòu)成狀態(tài)空間 A,a(t)∈A 。具體來說,設(shè)備 Di 的可調(diào)度行為被定義為 ai(t)∈{0,1} 。在時(shí)隙 χt ,如果設(shè)備 Di 被調(diào)度,那么 ai(t)=1 ;否則為 0 。
為了保證媒體類型數(shù)據(jù)的連續(xù)傳輸約束,引入了動(dòng)作約束,以縮小動(dòng)作空間。如果在時(shí)隙 χt ,媒體類型數(shù)據(jù)被調(diào)度傳輸,那么在 χt 到 t+Pb(i).ni 時(shí)隙內(nèi),必須重復(fù)調(diào)度該媒體類型的數(shù)據(jù)。
由上述分析可知,動(dòng)作空間的維度為 2N 。隨著FD數(shù)量的增加,動(dòng)作空間呈指數(shù)級(jí)增長(zhǎng),這導(dǎo)致傳統(tǒng)優(yōu)化方法在求解此類問題時(shí)面臨顯著挑戰(zhàn)。這些方法往往依賴于窮舉或啟發(fā)式搜索策略,難以在合理的時(shí)間內(nèi)找到有效的解。
c)獎(jiǎng)勵(lì)(reward,R):系統(tǒng)的學(xué)習(xí)過程受到模型獎(jiǎng)勵(lì) R 的引導(dǎo),旨在通過與環(huán)境交互最大化自身的長(zhǎng)期累積獎(jiǎng)勵(lì)。針對(duì)時(shí)延敏感型數(shù)據(jù),其主要目標(biāo)是最小化時(shí)延和抖動(dòng)。相對(duì)而言,對(duì)于媒體類型數(shù)據(jù),系統(tǒng)的目標(biāo)則是最大化數(shù)據(jù)包的交付率。這兩種類型的數(shù)據(jù)在傳輸策略上要求不同,因此需要采取相應(yīng)的優(yōu)化策略,以確保在動(dòng)態(tài)環(huán)境中滿足各自的性能指標(biāo)。
在時(shí)隙 χt ,系統(tǒng)的獎(jiǎng)勵(lì)記為 r(t) ,其通過狀態(tài) s(t) 執(zhí)行動(dòng)作 αa(Πt) 獲得。本文的獎(jiǎng)勵(lì)函數(shù)由系統(tǒng)獎(jiǎng)勵(lì) rs(t) 與設(shè)備獎(jiǎng)勵(lì)rd(t) 組成。系統(tǒng)獎(jiǎng)勵(lì)的設(shè)計(jì)基于原問題的目標(biāo),其具體形式為
不同于系統(tǒng)獎(jiǎng)勵(lì)關(guān)注整體性能,設(shè)備獎(jiǎng)勵(lì)主要針對(duì)單個(gè)設(shè)備的動(dòng)作合理性提供反饋。設(shè)備獎(jiǎng)勵(lì)的設(shè)計(jì)主要基于設(shè)備緩存區(qū)的空閑狀態(tài)以及數(shù)據(jù)的截止時(shí)間和體驗(yàn)保證時(shí)間,具體形式為
其中: ωa 和 ωb 表示獎(jiǎng)勵(lì)的權(quán)重,默認(rèn)值為1。這些權(quán)重可根據(jù)模型的訓(xùn)練進(jìn)行調(diào)整。
2.2基于獎(jiǎng)勵(lì)回溯機(jī)制的DQN
本文提出了一種基于獎(jiǎng)勵(lì)回溯機(jī)制的DQN算法用于多業(yè)務(wù)時(shí)隙調(diào)度,其主要包括DQN和獎(jiǎng)勵(lì)回,具體框架如圖2所示。
1)DQNDQN是基于Q-learning的擴(kuò)展,它通過神經(jīng)網(wǎng)絡(luò)來逼近 Q 值函數(shù),從而避免了傳統(tǒng)Q-learning在高維空間中需要大量存儲(chǔ)空間的問題。Q-learning的目標(biāo)是學(xué)習(xí)一個(gè) Q 值函數(shù) Q(s,a) ,表示在狀態(tài) s 采取動(dòng)作 a 所獲得的期望回報(bào)。DQN用帶有參數(shù) θ 的深度神經(jīng)網(wǎng)絡(luò) Q(s,a;θ) 來逼近這個(gè)函數(shù)[20]。DQN中包括了主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。其中主網(wǎng)絡(luò)是DQN的核心,用于策略學(xué)習(xí)和決策。其參數(shù) θ 會(huì)在每次迭代時(shí)根據(jù)損失函數(shù)更新,輸出每個(gè)可能動(dòng)作的 Q 值來指導(dǎo)行動(dòng)選擇。相對(duì)地,目標(biāo)網(wǎng)絡(luò)的參數(shù) θ′ 在一定的時(shí)間間隔內(nèi)保持不變,其作用是為主網(wǎng)絡(luò)提供一個(gè)穩(wěn)定的學(xué)習(xí)目標(biāo)。具體來說,目標(biāo)網(wǎng)絡(luò)參與指導(dǎo)主網(wǎng)絡(luò)的學(xué)習(xí)過程。計(jì)算目標(biāo) Q 值時(shí),固定使用目標(biāo)網(wǎng)絡(luò)的參數(shù)
y=r+γmaxa′Q(st+1,a′;θ′)
其中: γ 是折扣因子,用來平衡當(dāng)前和未來獎(jiǎng)勵(lì)的相對(duì)重要性。當(dāng)折扣因子取值較大,意味著未來獎(jiǎng)勵(lì)被賦予更高的權(quán)重,反之則更關(guān)注于當(dāng)前即時(shí)獎(jiǎng)勵(lì)。
2)獎(jiǎng)勵(lì)回溯在系統(tǒng)定義的動(dòng)作中,媒體數(shù)據(jù)的連續(xù)傳輸特性要求長(zhǎng)時(shí)間占用時(shí)隙資源,這可能導(dǎo)致時(shí)延敏感數(shù)據(jù)無法及時(shí)獲得所需的時(shí)隙,進(jìn)而引發(fā)大量超時(shí)丟包現(xiàn)象,導(dǎo)致服務(wù)質(zhì)量下降。為解決這一問題,本文提出了一種基于獎(jiǎng)勵(lì)回溯機(jī)制的優(yōu)化策略。該策略利用延遲反饋的思想,引人連續(xù)時(shí)隙資源分配決策的累積影響,回溯當(dāng)前狀態(tài)進(jìn)行決策評(píng)估,從而實(shí)現(xiàn)資源的高效利用。不合理的調(diào)度策略引發(fā)的丟包現(xiàn)象如圖3所示,在時(shí)隙t,系統(tǒng)依據(jù)策略選擇調(diào)度媒體類型數(shù)據(jù)包,但因連續(xù)傳輸?shù)南拗疲?t+1 時(shí)隙之前未能及時(shí)調(diào)度時(shí)延敏感型數(shù)據(jù)包,最終導(dǎo)致敏感數(shù)據(jù)包的丟失。根據(jù)獎(jiǎng)勵(lì)的定義,敏感數(shù)據(jù)丟包會(huì)降低系統(tǒng)的獎(jiǎng)勵(lì)值 rs(t+1) ,其只將丟包的影響歸因于 t+1 時(shí)隙的交互結(jié)果,而真正問題的根源在于 χt 時(shí)隙的不合理調(diào)度策略。
本文的獎(jiǎng)勵(lì)回溯機(jī)制是基于優(yōu)先級(jí)經(jīng)驗(yàn)池實(shí)現(xiàn)的,具體過程如算法1所示。該機(jī)制通過利用未來系統(tǒng)與環(huán)境的交互結(jié)果,將獎(jiǎng)勵(lì)反饋?zhàn)饔们皞髦料嚓P(guān)的歷史時(shí)隙,從而使模型能夠更加精準(zhǔn)地學(xué)習(xí),避免在狀態(tài) s(t) 時(shí)作出不合理的調(diào)度行為。為了實(shí)現(xiàn)這一機(jī)制,定義歷史經(jīng)驗(yàn)數(shù)據(jù)結(jié)構(gòu)為 h(t)=(s(t)) ,a(t),r(t),s(t+1) at(t) ,priority,t)。其中priority表示歷史經(jīng)驗(yàn)數(shù)據(jù)的優(yōu)先級(jí),用于指導(dǎo)經(jīng)驗(yàn)回放中的采樣過程,初始值設(shè)為0,并在后續(xù)調(diào)度過程中動(dòng)態(tài)更新; at(t) 表示在 χt 時(shí)隙被調(diào)度的數(shù)據(jù)包的到達(dá)時(shí)隙。在連續(xù)傳輸媒體類型數(shù)據(jù)包的場(chǎng)景中,若因不合理的調(diào)度策略導(dǎo)致敏感類型數(shù)據(jù)包的丟失,系統(tǒng)需要對(duì)相關(guān)經(jīng)驗(yàn)進(jìn)行調(diào)整。例如,當(dāng)在時(shí)隙 χt 調(diào)度媒體類型數(shù)據(jù)包時(shí),由于連續(xù)傳輸?shù)南拗?,模型未能及時(shí)調(diào)度時(shí)延敏感型數(shù)據(jù)包,結(jié)果在時(shí)隙 [t,t+Pb(i),ni] 內(nèi)出現(xiàn)敏感數(shù)據(jù)包的丟包事件,丟包數(shù)量為 nd 。此時(shí),可根據(jù)媒體數(shù)據(jù)包的到達(dá)時(shí)隙,定位對(duì)應(yīng)的歷史經(jīng)驗(yàn) h(t) 并更新:
h(t)=(s(t),a(t),r(t)-ωdnd,s(t+1),at(t),priority+1,t)
在更新后的經(jīng)驗(yàn)中,獎(jiǎng)勵(lì) r(t) 減去因丟包帶來的懲罰ωdnd,ωd 是權(quán)重系數(shù),默認(rèn)值為0.5;同時(shí),將優(yōu)先級(jí)priority加1,確保該經(jīng)驗(yàn)在回放緩沖區(qū)中被優(yōu)先采樣,使模型通過獎(jiǎng)勵(lì)回溯機(jī)制有效學(xué)習(xí),避免在狀態(tài) s(t) 下再次產(chǎn)生類似的非優(yōu)策略。之后,刪除歷史經(jīng)驗(yàn)集合 {h(t+1),…,h(t+Pb(i).ni)} 。最后, ?h(t) 被采樣訓(xùn)練后,將重置 h(t) 的優(yōu)先級(jí)為默認(rèn)值。
算法1基于優(yōu)先級(jí)經(jīng)驗(yàn)池的獎(jiǎng)勵(lì)回溯機(jī)制輸入:優(yōu)先級(jí)經(jīng)驗(yàn);系統(tǒng)信息(現(xiàn)有緩沖區(qū)數(shù)據(jù),當(dāng)前被調(diào)度的數(shù)據(jù));批量處理大小batchsize大小為 B
輸出: B 大小的訓(xùn)練樣本。
if yi(t)==1 and xi==0 then向優(yōu)先級(jí)經(jīng)驗(yàn)池存儲(chǔ)歷史數(shù)據(jù) h(t) :
h(t)=(s(t),a(t),r(t),s(t+1) at(ξt) ,priority,t) else
if時(shí)延敏感類型出現(xiàn)丟包,數(shù)量為 nd then向優(yōu)先級(jí)經(jīng)驗(yàn)池存儲(chǔ)歷史數(shù)據(jù) h(t) :
根據(jù)被調(diào)度數(shù)據(jù)包的 at(t) ,從經(jīng)驗(yàn)池中刪除對(duì)應(yīng)的歷史經(jīng)驗(yàn)else
向優(yōu)先級(jí)經(jīng)驗(yàn)池存儲(chǔ)歷史數(shù)據(jù) h(t) :
endif
從經(jīng)驗(yàn)池獲得 B 大小的訓(xùn)練樣本,優(yōu)先采樣優(yōu)先級(jí)高的經(jīng)驗(yàn)數(shù)據(jù)將采樣中訓(xùn)練樣本的優(yōu)先級(jí)恢復(fù)至默認(rèn)值
end if
3)模型訓(xùn)練在訓(xùn)練過程中,DQN通過最小化損失函數(shù)L(θ) 來更新參數(shù) θL(θ) 是期望平均誤差,用于衡量當(dāng)前網(wǎng)絡(luò)預(yù)測(cè)值與期望目標(biāo)值之間的差距:
L(θθ)=E(s,a,r,s′)[θ(θy-Q(s,a;θ)θ)2]
本文設(shè)計(jì)的DQN算法如算法2所示。首先,初始化經(jīng)驗(yàn)池、主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的模型參數(shù)。在每次迭代中,隨機(jī)確定工業(yè)互聯(lián)網(wǎng)設(shè)備的參數(shù)。接下來,生成一個(gè)隨機(jī)數(shù),依據(jù) ε 貪婪( ε -greedy)策略選擇動(dòng)作。具體而言,模型可能選擇一個(gè)隨機(jī)動(dòng)作,或者根據(jù)以下公式選擇最佳動(dòng)作 a* :
再根據(jù)獎(jiǎng)勵(lì)回溯機(jī)制更新優(yōu)先級(jí)經(jīng)驗(yàn)池,并從中獲取訓(xùn)練樣本。計(jì)算損失值并通過梯度下降法[21]更新主網(wǎng)絡(luò)參數(shù) θ 周期性地,目標(biāo)網(wǎng)絡(luò)的權(quán)重將被更新為較新的主網(wǎng)絡(luò)參數(shù)。
算法2 基于獎(jiǎng)勵(lì)回溯機(jī)制的DQN算法輸入:優(yōu)先級(jí)經(jīng)驗(yàn)池大小為 D ;工業(yè)網(wǎng)絡(luò)系統(tǒng)參數(shù)(設(shè)備數(shù)量 N? 設(shè)備采樣周期、類型、時(shí)隙的數(shù)量 T 等);迭代次數(shù)episode為 E ;探索因子 ε ;批量處理大小batchsize大小為 B ;參數(shù)更新步長(zhǎng) C
輸出:最優(yōu)策略。
初始化:主網(wǎng)絡(luò)權(quán)重參數(shù) θ ;目標(biāo)網(wǎng)絡(luò)權(quán)重參數(shù) θ′ forepisode =1 to E do初始化系統(tǒng)狀態(tài)、獎(jiǎng)勵(lì)、設(shè)備緩存區(qū)等系統(tǒng)參數(shù)
if yi(t-1)==1 and xi==0 and Pb(i) m≠0 thena(t)=a(t-1) else隨機(jī)生成一個(gè)隨機(jī)數(shù) z 屬于[0,1]if then隨機(jī)選擇動(dòng)作 a(t) else依據(jù)argmax Q(s(t),a;θ) 獲得動(dòng)作 a 執(zhí)行 a 與環(huán)境交互獲得 r(t) 和下一時(shí)刻狀態(tài) s(t+1) end ifendif算法1存儲(chǔ)歷史經(jīng)驗(yàn)并采樣 B 大小的訓(xùn)練樣本根據(jù)式(18)計(jì)算損失函數(shù)根據(jù)梯度下降方法更新參數(shù) θ if t% C==0 then更新目標(biāo)網(wǎng)絡(luò)的參數(shù) θ′=θ (20號(hào)end ifend forend for
3 仿真結(jié)果與分析
本文設(shè)定了一個(gè)多業(yè)務(wù)需求的工業(yè)互聯(lián)網(wǎng)場(chǎng)景進(jìn)行仿真分析。首先對(duì)所提方法的收斂性進(jìn)行分析,以評(píng)估不同權(quán)重下模型性能的影響;其次,將RB-DQN與其他方法的性能進(jìn)行比較。
3.1實(shí)驗(yàn)設(shè)置
3.1.1 實(shí)驗(yàn)數(shù)據(jù)
本文的實(shí)驗(yàn)數(shù)據(jù)包含時(shí)延敏感類型和媒體類型的混合數(shù)據(jù)包,每個(gè)包依據(jù)表1中的參數(shù)隨機(jī)生成。
本文方法通過Python3.8.16以及PyTorch1.12.1開源機(jī)器學(xué)習(xí)庫(kù)實(shí)現(xiàn),模型訓(xùn)練使用NVIDIAGeForceRTX4060顯卡。模型訓(xùn)練參數(shù)如表2所示。
3.1.2 對(duì)比方案
本文將其與三種時(shí)隙調(diào)度方法進(jìn)行了比較:
a)D3QN方法[22]:基于文獻(xiàn)[22],D3QN模型的獎(jiǎng)勵(lì)考慮時(shí)延與可靠性,且其采用了隨機(jī)采樣的經(jīng)驗(yàn)池,而未考慮獎(jiǎng)勵(lì)回溯的機(jī)制。
b)DQN方法[15]:其與本文方法的模型參數(shù)設(shè)置一致,獎(jiǎng)勵(lì)考慮時(shí)延與吞吐,區(qū)別在于其采用了隨機(jī)采樣的經(jīng)驗(yàn)池,而未考慮獎(jiǎng)勵(lì)回溯的機(jī)制。
c)基于EDF調(diào)度方法°:EDF常用于處理大規(guī)模數(shù)據(jù)的實(shí)時(shí)調(diào)度。其根據(jù)數(shù)據(jù)包的截止時(shí)間進(jìn)行優(yōu)先級(jí)排序,優(yōu)先處理截止時(shí)間較早的任務(wù)。在本文,媒體類型的體驗(yàn)保證時(shí)隙作為該數(shù)據(jù)的截止時(shí)間。
d)隨機(jī)調(diào)度方法(Random):隨機(jī)方法是一種隨機(jī)采取行動(dòng)選擇的算法,通過在每個(gè)決策階段隨機(jī)地選擇動(dòng)作來解決問題。
3.2 RB-DQN仿真結(jié)果與分析
1)收斂性能本文算法的收斂性能如圖4所示。可以觀察到,在學(xué)習(xí)過程的初始階段,損失函數(shù)的值相對(duì)較高。隨著訓(xùn)練的進(jìn)行,損失值逐漸降低。這種現(xiàn)象表明模型在逐步調(diào)整其參數(shù),以更好地適應(yīng)數(shù)據(jù)。當(dāng)學(xué)習(xí)達(dá)到大約2000個(gè)時(shí)隙時(shí),損失值顯著下降至一個(gè)非常小的水平,這反映出所提方法在優(yōu)化過程中表現(xiàn)出了良好的效果。
2)不同權(quán)重系數(shù) 對(duì)算法性能的影響圖5展示了所提算法在不同權(quán)重系數(shù)下對(duì)時(shí)延、抖動(dòng)和包接收率的影響。從圖中可以看出,隨著權(quán)重系數(shù)
的增大,時(shí)延和抖動(dòng)都逐漸降低。這是因?yàn)樗惴ㄔ趦?yōu)化目標(biāo)中更加關(guān)注時(shí)延和抖動(dòng),改善了這兩者的表現(xiàn)。然而,過大的權(quán)重系數(shù)
會(huì)導(dǎo)致包接收率下降,從而影響媒體的流暢性和穩(wěn)定性。因此,該圖揭示了權(quán)重系數(shù)如何影響時(shí)延、抖動(dòng)和包接收率之間的關(guān)系。通過調(diào)整權(quán)重系數(shù),可以在一定程度上平衡這三者,但過大或過小的系數(shù)都可能導(dǎo)致系統(tǒng)性能下降。
3.3RB-DQN與其他算法性能對(duì)比與分析
1)不同算法LTT指標(biāo)比較圖6展示了在不同F(xiàn)D數(shù)量,所提方法與對(duì)比方法評(píng)估LTT指標(biāo)上的性能。
值得注意的是,LTT值越小,代表算法的性能越好。圖中顯示,隨著設(shè)備數(shù)量的增加,五種算法的性能均有所下降。這是因?yàn)樵O(shè)備數(shù)量增加導(dǎo)致調(diào)度機(jī)會(huì)相對(duì)推遲,從而影響性能表現(xiàn)。此外,本文方法在所有情況下均表現(xiàn)最優(yōu)。這表明,本文方法在調(diào)度效率上具有明顯優(yōu)勢(shì)。此外,本文方法在所有情況下均表現(xiàn)最佳,顯示出顯著的調(diào)度效率優(yōu)勢(shì)。具體而言,D3QN和DQN方法未能有效利用獎(jiǎng)勵(lì)回溯機(jī)制,難以學(xué)習(xí)調(diào)度問題的根本原因,從而影響其性能?;贓DF的調(diào)度方法僅關(guān)注截止時(shí)間,未能綜合考慮時(shí)延敏感包和媒體類型數(shù)據(jù)的特性,因此難以保證系統(tǒng)整體性能。隨機(jī)選擇的調(diào)度方法由于其隨機(jī)性,缺乏有效的調(diào)度策略,最終導(dǎo)致性能不佳。
2)時(shí)延、抖動(dòng)和包接收率為了深入分析本文算法在時(shí)延、抖動(dòng)和包接收率上的性能表現(xiàn),圖7展示了不同算法在FD數(shù)量為5時(shí)的性能對(duì)比。
結(jié)果顯示,所提算法在時(shí)延和抖動(dòng)方面相較于D3QN、DQN、EDF和隨機(jī)選擇方法均有顯著的提升。具體而言,所提算法在時(shí)延指標(biāo)上有效降低至1.93,明顯優(yōu)于其他算法,尤其是隨機(jī)選擇方法,其時(shí)延值高達(dá)4.87。這表明,本文算法在資源調(diào)度與決策方面具有更高的效率,能夠更有效地減少數(shù)據(jù)傳輸?shù)难舆t。此外,在抖動(dòng)方面,該算法的表現(xiàn)也較為突出,其值為1.18,低于D3QN、DQN和EDF方法中的抖動(dòng)值,顯示出其在穩(wěn)定性方面的優(yōu)勢(shì)。在媒體包接收率方面,本文方法的接收率高達(dá) 98% ,幾乎接近 100% 。綜上所述,本文方法能夠顯著降低時(shí)延敏感數(shù)據(jù)的時(shí)延和抖動(dòng),同時(shí)確保媒體類型數(shù)據(jù)包的傳輸流暢性和穩(wěn)定性。
4結(jié)束語
本文深入研究了在多業(yè)務(wù)需求背景下的工業(yè)網(wǎng)絡(luò)中的時(shí)隙調(diào)度問題,并提出了一種基于獎(jiǎng)勵(lì)回溯機(jī)制的深度Q網(wǎng)絡(luò)(DQN)算法。該算法利用優(yōu)先級(jí)經(jīng)驗(yàn)池實(shí)現(xiàn)獎(jiǎng)勵(lì)回溯機(jī)制,分析了多業(yè)務(wù)之間相互影響的根源。此外,設(shè)計(jì)了一種時(shí)延-吞吐均衡度量指標(biāo),以降低時(shí)延敏感數(shù)據(jù)的延遲和抖動(dòng),并確保媒體類型數(shù)據(jù)的流暢性和穩(wěn)定性。實(shí)驗(yàn)結(jié)果顯示,本文算法在性能上明顯優(yōu)于其他調(diào)度算法,有效驗(yàn)證了其優(yōu)越性與有效性。展望未來,隨著工業(yè)設(shè)備數(shù)量的增加及通信資源的不足,研究將重點(diǎn)考慮引入資源復(fù)用機(jī)制以解決多業(yè)務(wù)調(diào)度問題。然而,資源復(fù)用的引入可能會(huì)導(dǎo)致設(shè)備間的相互干擾,因此,如何有效解決干擾問題并實(shí)現(xiàn)多需求的時(shí)隙調(diào)度將成為下一階段工作的關(guān)鍵。
參考文獻(xiàn):
[1]LiangWei,ZhengMeng,ZhangJialin,etal.WIA-FAand itsapplicationstodigital factory:awirelessnetworksolution forfactoryautomation[J].ProceedingsoftheIEEE,2019,107(6):1053-1073.
[2]ChiHaoran,Wu CK,HuangNenfu,et al.A survey of networkautomationforindustrial Internet-of-thingstoward industry5.O[J]. IEEETrans on Industrial Informatics,2023,19(2):2065-2077.
[3] HussainMI,AhmedN,AhmedMZI,etal.QoSprovisioningin wireless mesh networks:asurvey[J].Wireless Personal Communications,2022,122(1):157-195.
[4]賀雪梅,匡胤,楊志鵬,等.基于深度強(qiáng)化學(xué)習(xí)的AGV智能導(dǎo)航 系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2022,39(5):1501-1504, 第42卷 1509.(He Xuemei,Kuang Yin,Yang Zhipeng,et al.Design of AGV inteligent navigation system based on deep reinforcement learning[J].Application Research of Computers,2022,39(5): 1501-1504,1509.)
[5]Khan WZ,Rehman MH, Zangoti HM,et al. Industrial Internet of Things:recent advances,enabling technologies and open challenges [J].Computers amp; Electrical Engineering,2020,81:106522.
[6]Nauman A, Ahmad Qadri Y,Amjad M,et al._Multimedia Internet of Things:acomprehensive survey[J]. IEEE Access,2020,8: 8202-8250.
[7]Wang Xiaodong,RenJie,Gong Kai,et al.Adelay-optimizedrouting algorithm for AVB streams in time-sensitive networking[C]// Proc of the 7th International Conference on Computerand Communication Systems.Piscataway,NJ: IEEE Press,,2022: 503-507.
[8]柴安穎,馬躍,尹震宇,等.一種基于服務(wù)區(qū)分的實(shí)時(shí)數(shù)據(jù)傳輸 調(diào)度模型研究與實(shí)現(xiàn)[J].小型微型計(jì)算機(jī)系統(tǒng),2020,41 (12):2607-2612.(Chai Anying,Ma Yue,Yin Zhenyu,et al. Research and implementationof real-timedata transmisionscheduling model based onservice diferentiation[J].Journal of Chinese Computer Systems,2020,41(12): 2607-2612.)
[9]Deng Libing,Zeng Gang,Kurachi R,et al.Enhanced real-time scheduling of AVB flowsin time-sensitivenetworking[J].ACM Trans on Design Automation of Electronic Systems, 2024,29 (2): 1-26.
[10]Pati G,Bell L L,Leonardi L.Deadline-aware online scheduling of TSN flows for automotive applications_[J]. IEEE Trans on Industrial Informatics,2023,19(4):5774-5784.
[11] Zhang Chaoyun,Patras P,Haddadi H._Deep learning in mobile and wireless networking: a survey [J]. IEEE Communications Surveysamp; Tutorials,2019,21(3): 2224-2287.
[12] Luong N C, Hoang D T, Gong Shimin,et al. Applications of deep reinforcement learning in communications and networking:asurvey [J]. IEEE Communications Surveys amp; Tutorials,2019,21(4): 3133-3174.
[13]柴浩軒,金曦,許馳,等.面向工業(yè)物聯(lián)網(wǎng)的5G機(jī)器學(xué)習(xí)研究 綜述[J].信息與控制,2023,52(3):257-276.(Chai Haoxuan, JinXi,Xu Chi,etal.Reviewofmachinelearning-based5G forindustrial Internet of Things[J].Information and Control,2023,52 (3) : 257-276.)
[14]Tian Jie,Liu Qianqian, Zhang Haixia,et al.Multiagent deepreinforcement-learning-based resource allcation for heterogeneous QoS guarantees for vehicular networks [J]. IEEE Internet of Things Joumal,2022,9(3):1683-1695.
[15]楊桂松,李相霏,何杏宇.衛(wèi)星物聯(lián)網(wǎng)中面向多類型任務(wù)的計(jì)算 卸載策略[J].計(jì)算機(jī)應(yīng)用研究,2024,41(11):3441-3446. (Yang Guisong,Li Xiangfei, He Xingyu. Computing offloading strategy for multi-type tasks in satelite Internet of Things[J]. Application Research of Computers,2024,41(11):3441-3446.)
[16]Mollahasani S,Erol-Kantarci M,Hirab M,etal.Actor-critic learning based QoS-aware scheduler for reconfigurable wireless networks [J].IEEE Trans on Network Science and Engineering,2022, 9(1) : 45-54.
[17]劉星彤,鄭紅,黃建華,一種改進(jìn)近端優(yōu)化的多目標(biāo)流QoS調(diào)度 策略[J].應(yīng)用科學(xué)學(xué)報(bào),2024,42(3):499-512.(Liu Xingtong,Zheng Hong,Huang Jianhua. A multi-objective flow QoS scheduling strategywith improved proximal optimization[J].Journal of Applied Sciences,2024,42(3): 499-512.)
[18] Shahjalal M, Hasan M K, Chowdhury M Z, et al. Smartphone camera based optical wirelesscommunication system:requirements and implementationchallenges[J].Electronics,2019,8(8):913.
[19] IEEE 802.11—2012,IEEE standard for local and metropolitan area networks-part 11:wirelessLAN medium access control(MAC)and physical layer (PHY)[S]. 2012.
[20]Li Hongjia,Wei Tianshu,Ren Ao,et al.Deep reinforcement learning:framework,applications,and embedded implementations:invited paper[C]//Proc of IEEE/ACM International Conference on Computer-Aided Design. Piscataway,NJ: IEEE Press,2017: 847-854.
[21] Kingma D P, Ba J,Hammad M M.Adam: a method for stochastic optimization [EB/OL]. (2014-12- 22).https://arxiv.org/abs/ 1412. 6980.
[22]Xie Xin,Gao Shizhao,Wang Heng.Scheduling approaches for joint optimization of age and delay in industrial wireless networks[J]. IEEE Trans on Industrial Informatics,2024,20(5): 7183-7193.