• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向智能通信的深度強化學(xué)習(xí)方法

    2020-04-06 08:47:42譚俊杰梁應(yīng)敞
    電子科技大學(xué)學(xué)報 2020年2期
    關(guān)鍵詞:信道基站狀態(tài)

    譚俊杰,梁應(yīng)敞

    (電子科技大學(xué)通信抗干擾技術(shù)國家級重點實驗室 成都 611731)

    隨著智能手機等智能終端的普及以及各類應(yīng)用的出現(xiàn),人們對無線通信的速率、時延等方面都提出了更高的要求。為了滿足更高的通信需求,越來越多的新技術(shù)被應(yīng)用于無線通信網(wǎng)絡(luò)中,如更高階的編碼調(diào)制方案(modulation and coding scheme)、部署緩存(cache)甚至基于無人機(unmanned aerial vehicle, UAV)的空中基站等。并進(jìn)一步提出了將各類異構(gòu)的無線網(wǎng)絡(luò)進(jìn)行有機整合,再按需分配提升網(wǎng)絡(luò)整體彈性[1]。這些技術(shù)提升了無線網(wǎng)絡(luò)的承載極限,但也增加了管理維度。與此同時,步入萬物互聯(lián)的時代,終端數(shù)量呈現(xiàn)出爆炸式的增長,導(dǎo)致無線網(wǎng)絡(luò)規(guī)模日益龐大。網(wǎng)絡(luò)規(guī)模及管理維度的雙重擴(kuò)增導(dǎo)致復(fù)雜度激增,使得傳統(tǒng)的基于凸優(yōu)化或啟發(fā)式的無線網(wǎng)絡(luò)管理方法失效。

    另一方面,近年來人工智能快速發(fā)展,其摒棄了傳統(tǒng)的人工數(shù)學(xué)建模后求解的方法,轉(zhuǎn)而利用數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法直接對數(shù)據(jù)進(jìn)行分析和處理。其中,深度學(xué)習(xí)(deep learning, DL)[2]和深度強化學(xué)習(xí)(deep reinforcement learning, DRL)[3]是最重要的兩類機器學(xué)習(xí)方法。DL 利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)挖掘數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,最終實現(xiàn)對未知數(shù)據(jù)的預(yù)測。因此,DL 被廣泛應(yīng)用于計算機視覺及自然語言處理等領(lǐng)域。與DL 不同,DRL 屬于機器學(xué)習(xí)的另一分支,其目的是在復(fù)雜的動態(tài)環(huán)境中進(jìn)行最優(yōu)決策。為了實現(xiàn)這一目標(biāo),DRL 首先記錄下環(huán)境與控制信息,然后利用DNN 對歷史經(jīng)驗進(jìn)行分析并學(xué)習(xí)環(huán)境變化規(guī)律,最終根據(jù)學(xué)習(xí)到的規(guī)律得到最優(yōu)策略。因此,DRL 在自動化控制領(lǐng)域得到廣泛應(yīng)用。2016 年,Google 打造出基于DRL 的AlphaGo[4]擊敗了韓國九段棋手李世乭,向世人證明了DRL 的強大實力。

    由于信道時變等原因,無線通信網(wǎng)絡(luò)的管理是在動態(tài)變化的無線環(huán)境中對網(wǎng)絡(luò)的眾多參數(shù)進(jìn)行優(yōu)化,實際上就是一個在動態(tài)環(huán)境中的最優(yōu)決策問題,與DRL 的設(shè)計目標(biāo)相契合。因此,DRL 是智能無線通信的重要賦能者。DRL 強大的學(xué)習(xí)與決策能力可以對無線通信網(wǎng)絡(luò)進(jìn)行智能管理,使其在復(fù)雜的通信環(huán)境中都能夠精準(zhǔn)地匹配用戶需求,最終提升網(wǎng)絡(luò)的實際承載能力和用戶通信體驗。

    本文對DRL 及其涉及的基礎(chǔ)知識進(jìn)行介紹,并從無線通信網(wǎng)絡(luò)的資源管理、接入控制以及維護(hù)3 方面剖析DRL 如何實現(xiàn)智能通信,最后對目前尚未解決的開放問題進(jìn)行討論,為進(jìn)一步研究提供思路。

    1 基礎(chǔ)知識回顧

    在正式介紹DRL 之前,首先對它所涉及的基礎(chǔ)知識進(jìn)行回顧。DRL 是一種求解馬爾科夫決策過程(Markov decision process, MDP)問題的智能方法,而其技術(shù)來源于強化學(xué)習(xí)(reinforcement learning,RL)和DL。因此,本章分別介紹MDP、RL 和DL。

    1.1 馬爾科夫決策過程

    MDP 是一種對智能體與動態(tài)環(huán)境交互過程進(jìn)行數(shù)學(xué)建模的方法[5]。其中,智能體是決策者,又稱為代理。環(huán)境則是除智能體外與之關(guān)聯(lián)和互動的其他事物。一般地,智能體需要通過做出各種決策并采取行動以實現(xiàn)自身目標(biāo),但是在采取行動的過程中會對環(huán)境產(chǎn)生影響,且不同環(huán)境狀態(tài)下智能體得到的結(jié)果可能不同。MDP 的提出正是為了分析智能體和環(huán)境的復(fù)雜交互過程。

    MDP 由一系列關(guān)鍵要素構(gòu)成,包括狀態(tài)、動作、轉(zhuǎn)移概率、獎賞和策略。

    狀態(tài):狀態(tài)是對智能體對所處環(huán)境的描述。環(huán)境的變化可以由狀態(tài)的變化來表示。狀態(tài)一般表示為s 。所有可能的狀態(tài)則構(gòu)成了狀態(tài)空間S。

    動作:智能體所做出的決策或所采取的行動稱之為動作。動作一般表示為a。智能體可以采取的所有動作構(gòu)成了動作空間A。

    轉(zhuǎn)移概率:智能體采取的動作可能導(dǎo)致環(huán)境發(fā)生變化,進(jìn)而使智能體所觀察到的環(huán)境狀態(tài)發(fā)生改變。狀態(tài)間的轉(zhuǎn)移所服從的概率即為轉(zhuǎn)移概率。若智能體在狀態(tài)為 s 時采取動作 a使 得狀態(tài)變?yōu)?s′,轉(zhuǎn)移概率可以表示為 Pa(s,s′)。

    獎賞:智能體采取的每一個動作都會使它接近或遠(yuǎn)離所設(shè)定的目標(biāo)。為了衡量所采取動作的效果,智能體可從環(huán)境中觀察得到獎賞值。特別的,智能體在狀態(tài)為 s 時采取動作 a使 得狀態(tài)變?yōu)?s′獲得的獎賞值記為 ra( s,s′)。

    策略:智能體的決策規(guī)則稱為策略,記為π。其中, π(a |s)表 示當(dāng)狀態(tài)為 s 時選取動作a 的概率。

    MDP 的目標(biāo)為通過優(yōu)化智能體的策略π 來最大化時間跨度 T內(nèi)的期望累積獎賞

    式中,γ是折扣因子,其取值范圍是 [0,1]。 γ控制未來獎賞對智能體在做當(dāng)前決策時的重要性。極端情況下, γ= 0表示智能體僅最大化當(dāng)前時刻的獎賞,而 γ=1則表示智能體的目標(biāo)是最大化未來所有時刻得到的獎賞。此外,若 T為有限值,則表示該MDP為有限時間跨度MDP,即該MDP 會因達(dá)到終止態(tài)停止運行或運行到某一時刻后停止運行。相應(yīng)的,T=∞表示該MDP 為無限時間跨度MDP。MDP 的運行過程如圖1 所示。

    當(dāng)MDP 中除策略外的其他要素均已知時,可以通過動態(tài)規(guī)劃(dynamic programming, DP)來求解MDP 以獲得最大化R 的 最優(yōu)策略 π?。典型的方法有策略迭代和值迭代。

    1.1.1 策略迭代

    對于給定策略 π,由貝爾曼方程(Bellman’s Equation)[5]可得:

    利用式(1)對所有狀態(tài) s ∈S不斷迭代,收斂得到的 Vπ( s)表 示智能體在策略 π下 ,從狀態(tài) s出發(fā)可得到的期望累積獎賞。對 Vπ(s),s ∈S迭代的過程稱為策略評估。

    在對策略 π進(jìn)行策略評估后,可以根據(jù)得到的Vπ(s)對策略進(jìn)行改進(jìn)?;谪澙返姆椒?,可以得到改進(jìn)后的策略 π′:

    文獻(xiàn)[5]證明通過不斷重復(fù)地進(jìn)行策略評估和策略迭代,最終得到的策略會收斂到最大化 R的最優(yōu)策略 π?,該方法稱為策略迭代。

    1.1.2 值迭代

    在策略迭代中,策略評估需要利用式(1)重復(fù)迭代直至收斂,而每一次策略改進(jìn)都需要先進(jìn)行策略評估。因此,策略迭代的計算復(fù)雜度較高。為了解決這一問題,值迭代將策略改進(jìn)融合進(jìn)策略評估中,將式(1)改寫為:

    利用式(3)對所有狀態(tài) s ∈S迭代直至收斂后,最優(yōu)策略 π?可以通過下式得到

    以上介紹的兩種基于DP 的方法都能有效地求解MDP 并獲得最優(yōu)策略。然而,它們都需要知道轉(zhuǎn)移概率。對于無線通信系統(tǒng),其系統(tǒng)狀態(tài)變化受信道變化、用戶行為等眾多隨機因素共同影響。這些隨機變量的概率分布難以準(zhǔn)確獲得。因此,將無線通信網(wǎng)絡(luò)中的問題建模成MDP,其轉(zhuǎn)移概率通常難以獲得。為了解決轉(zhuǎn)移概率缺失的問題,強化學(xué)習(xí)應(yīng)運而生。

    1.2 強化學(xué)習(xí)

    與需要提前知道轉(zhuǎn)移概率的DP 不同,RL 是通過試錯(trial-and-error)來學(xué)習(xí)環(huán)境中存在的規(guī)律,進(jìn)而求解MDP[5]。因此,RL 可在不需要知道轉(zhuǎn)移概率的情況下求解MDP。目前廣泛采用的RL方法可以分為基于值的方法和基于策略的方法。

    1.2.1 基于值的方法

    式(1)可分解為:

    其中,

    Qπ(s,a)表 示智能體在策略 π下 ,在狀態(tài) s采取動作 a可得到的期望累積獎賞,稱為狀態(tài)-動作對?s,a?的 Q 值。當(dāng)策略 π為最優(yōu)策略時,對于任意的狀態(tài) s ∈S 和 a ∈ A, 相應(yīng)的Q 值 Q?(s,a)是在所有策略下獲得的最大Q 值。相反,若已知最大Q 值Q?(s,a), 那么可以根據(jù)下式得到最優(yōu)策略π?

    根據(jù)這一性質(zhì),Q 學(xué)習(xí)利用智能體實際得到的Q 值樣本與預(yù)測Q 值之間的差值(又稱時間差分temporal difference)來迭代地更新Q 值,最終逼近 Q?(s,a)并 得到最優(yōu)策略 π?。具體的迭代公式為

    式中,α是控制Q 值更新速度的學(xué)習(xí)速率。Q 學(xué)習(xí)的算法偽代碼如下。

    算法1 Q 學(xué)習(xí)算法

    輸入:S,A,α,γ

    建立表格儲 存 Q( s,a),?s ∈S,a ∈A,并將 所有Q 值初始化為0

    for t=1 : T

    觀察環(huán)境得到狀態(tài)s ,根據(jù) ε貪婪規(guī)則選擇動作a

    采取動作a,并觀察得到新狀態(tài) s′和 獎賞ra(s,s′)

    根據(jù)式(8)更新Q(s,a),?s ∈S,a ∈A

    令s=s′

    end for

    算法1 中的 ε貪婪規(guī)則是指,智能體以ε 的概率選取隨機動作,并以1 ?ε的概率選取Q 值最大的動作,即 arg maxaQ(s,a)。前者令智能體探索未知的動作,從而學(xué)習(xí)到潛在的更好的策略,而后者則令智能體充分利用已知的知識來做出最優(yōu)決策。通過改變 ε的大小可以調(diào)整兩方面的作用,使得智能體在學(xué)習(xí)速度和決策的最優(yōu)性中取得平衡。

    以上介紹的Q 學(xué)習(xí)是一種典型的基于值的RL方法。實際上,基于值的RL 方法還有SARSA、雙Q 學(xué)習(xí)等,這些方法都是通過對Q 值進(jìn)行估計并利用Q 值得到最優(yōu)策略。然而,因為基于值的方法需要為所有狀態(tài)-動作對建立表格儲存其Q 值,所以當(dāng)MDP 的動作或狀態(tài)空間很大(或為連續(xù)空間)會產(chǎn)生維度爆炸的問題。為了解決這一問題,人們提出了基于策略的RL 方法。

    1.2.2 基于策略的方法

    在基于策略的RL 方法中,動作的選取不再需要對Q 值進(jìn)行評估。取而代之的是直接對策略進(jìn)行優(yōu)化。為了實現(xiàn)這一目標(biāo),首先需要將策略參數(shù)化,即用一個由參數(shù) θ確定的函數(shù)來表示策略π。那么,在狀態(tài) s 采取動作a 的 概率可以寫為 π(a |s,θ)。如果策略的性能可以由一個標(biāo)量 J(θ)來量度,那么為了性能最大化,θ應(yīng)該以關(guān)于 J(θ)梯度上升的方向更新,即

    下面介紹策略梯度法中的一種典型算法——蒙特卡洛策略梯度法,又稱為REINFORCE 算法。若定義 J(θ)為 由 θ確 定策略 π下 從某一狀態(tài) s0出發(fā)所得到的期望累積獎賞,即 Vπθ(s0),文獻(xiàn)[5]可以證明關(guān)于θ 的 梯度 ?J (θ)為

    算法2 REINFORCE 算法

    初始化θ

    for episode=1 : imax

    for t=1 : T

    觀察狀態(tài) st,根據(jù)選 取動作at,并觀察得到新狀態(tài) st+1和 獎賞rat(st,st+1)

    end for

    for t=1 : T

    end for

    end for

    在算法2 中,策略是以回合(episode)為單位進(jìn)行更新的。在一個回合中,智能體需要用同一策略產(chǎn)生共 T個時刻的一組動作、狀態(tài)和獎勵。然后利用這些信息對 θ和策略進(jìn)行更新。這導(dǎo)致策略梯度法有兩個缺點:1)策略梯度法只適用于有限時間跨度的回合制MDP,然而在實際無線通信網(wǎng)絡(luò)中,系統(tǒng)的運行可能是無限時間跨度的;2)策略的更新以回合制為單位,使得策略更新速度慢、不同回合下得到的決策方差較大,即穩(wěn)定性較差。以上兩點使策略梯度法不便于在線部署。

    綜上,雖然基于策略的方法解決了基于值的方法的維度爆炸問題,但同時也帶來了新的問題。因此,人們嘗試通過將DL 與RL 結(jié)合來解決這些問題。

    1.3 深度學(xué)習(xí)

    DL 是一種利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)來表征數(shù)據(jù)的關(guān)系,并最終實現(xiàn)擬合或分類功能的算法。因此,DNN 是DL 的關(guān)鍵。

    圖2 為DNN 的一個典型結(jié)構(gòu)。如圖所示,DNN的基本組成單元是相互連接的神經(jīng)元。DNN 中的神經(jīng)元排列具有層次結(jié)構(gòu),通常包含一個輸入層、一個輸出層和數(shù)個隱層。神經(jīng)元間的連接強弱關(guān)系由權(quán)值決定,權(quán)值由圖2 中神經(jīng)元間連線表示。圖3 示出了神經(jīng)元間的信息傳遞過程。其中,每個神經(jīng)元將與之連接的上一層神經(jīng)元的輸出值乘以相應(yīng)的權(quán)值并求和,再通過一個激活函數(shù)將信息傳遞到下一層連接的神經(jīng)元。激活函數(shù)一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根據(jù)DNN的信息傳遞規(guī)則,輸入數(shù)據(jù)被各層神經(jīng)元逐層加工最終得到輸出結(jié)果,這個過程稱為正向傳播。通過對比神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測值和真實訓(xùn)練數(shù)據(jù),DNN 可以調(diào)整神經(jīng)網(wǎng)絡(luò)間的權(quán)值以提高預(yù)測的準(zhǔn)確度,這個過程稱為誤差反向傳播。訓(xùn)練后的DNN 可以表征數(shù)據(jù)間的關(guān)系,進(jìn)而能對未知輸入數(shù)據(jù)做出準(zhǔn)確的預(yù)測。

    然而,并不是所有的DNN 都能有效地挖掘數(shù)據(jù)間中存在的關(guān)聯(lián)關(guān)系并對未知輸入做出準(zhǔn)確預(yù)測。實際上,神經(jīng)元的連接方式,即DNN 的結(jié)構(gòu),是影響DNN 性能的關(guān)鍵因素。神經(jīng)元的連接方式通常有全連接、卷積連接、池化連接和循環(huán)連接等。相應(yīng)的,以上幾種連接方式構(gòu)成了DNN 中的全連接層(fully-connected layer)、卷積層(convolutional layer)[8]、池化層(pooling layer)[8]和循環(huán)層(recurrent layer)[9]。在實際應(yīng)用中,DNN 的結(jié)構(gòu)是由數(shù)據(jù)自身的特征來決定的。下面將對這幾種構(gòu)成DNN 的常見層結(jié)構(gòu)進(jìn)行介紹。

    全連接層:全連接是DNN 中神經(jīng)元最簡單的連接方式。如圖4 所示,全連接層中的神經(jīng)元與相鄰層的所有神經(jīng)元均相連。因為全連接層的本質(zhì)是特征空間的線性變換,所以它對數(shù)據(jù)的特征沒有特別的要求。

    卷積層:全連接層因所有神經(jīng)元的相連而導(dǎo)致權(quán)值過于冗余。因此,全連接層在處理某些局部特征相似的數(shù)據(jù)(如圖5)時訓(xùn)練速度和準(zhǔn)確率較差。卷積層的提出就是為了處理局部特征相似的數(shù)據(jù)。卷積層由神經(jīng)元排列構(gòu)成多個卷積核。其中,卷積核中每個神經(jīng)元與上一層神經(jīng)元相連時共享權(quán)值。通過權(quán)值共享,卷積層可以從輸入信息中匹配與卷積核特征相同的部分,實現(xiàn)局部特征提取。

    池化層:池化層一般與卷積層一起出現(xiàn)于處理圖像數(shù)據(jù)的DNN。在進(jìn)行某些任務(wù)時,如圖5 分類等,圖5 中特征出現(xiàn)的具體位置不影響結(jié)果。因此,池化層被用于對卷積層輸出結(jié)果的合并,標(biāo)記出數(shù)據(jù)中存在的哪類特征更明顯。

    循環(huán)層:當(dāng)數(shù)據(jù)在時域有序列相關(guān)性時,循環(huán)層可以捕捉和利用這種相關(guān)性。如圖6 所示,輸入到循環(huán)層的信息當(dāng)處理完后會重新輸入到網(wǎng)絡(luò)中,以使得歷史信息和當(dāng)前信息一起被處理。在實際應(yīng)用中,循環(huán)層的其他變體也得到廣泛應(yīng)用,如長短時記憶(long short-term memory, LSTM)層[10]等。

    2 深度強化學(xué)習(xí)概述

    DRL 的基本思想就是將DL 中的DNN 與RL相結(jié)合,以解決RL 中存在的維度爆炸、學(xué)習(xí)速度慢等問題。同樣的,DRL 也可以通過基于值的方法和基于策略的方法來實現(xiàn)。

    2.1 基于值的DRL 方法

    基于值的RL 方法存在的主要問題是需要建立表格來儲存Q 值,而當(dāng)動作或狀態(tài)空間很大時會產(chǎn)生維度爆炸的問題。這導(dǎo)致它們無法應(yīng)用或收斂速度極慢。

    為了解決這一問題,人們提出用DNN 來擬合存儲Q 值的表格。因此,這類DNN 被稱為深度Q 網(wǎng) 絡(luò)(deep Q-network, DQN)。若 θ表 示DNN 的參 數(shù),則 Q( s,a;θ)表 示 狀 態(tài)-動 作 對 ?s, a?的Q 值。當(dāng)DQN 的參數(shù) θ為最優(yōu)參數(shù) θ?時,相應(yīng)的是Q 值是最大的Q 值,并且最優(yōu)策略 π?可以由下式確定

    式中,

    參數(shù)θ 的更新應(yīng)最小化損失函數(shù),即:

    梯度下降法可用于式(14)中對參數(shù) θ的更新。

    然而,利用式(12)~式(14)訓(xùn)練DQN 存在兩個問題。首先,智能體得到的每個經(jīng)驗僅能用于更新一次參數(shù)θ,這導(dǎo)致數(shù)據(jù)的利用率低下。其次,利用正在訓(xùn)練的DQN 來計算目標(biāo)值,即式(13),會導(dǎo)致目標(biāo)值隨著每一次 θ的更新而改變。而事實上,目標(biāo)值是對真實Q 值的估計值,不應(yīng)該與 θ高度相關(guān)?;谝陨纤枷?,文獻(xiàn)[11]提出經(jīng)驗回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)(quasi-static target network)來提高DQN 的訓(xùn)練速度、準(zhǔn)確度和穩(wěn)定性。

    在經(jīng)驗回放中,智能體將所有經(jīng)驗放入一個大小為 M 的經(jīng)驗池 M 中,然后在每次更新參數(shù) θ時從M抽 取 B 個經(jīng)驗組成經(jīng)驗集合 B來做批量梯度下降。經(jīng)驗池 M是一個先入先出(first input first output,FIFO)的隊列,若放入的經(jīng)驗大于 M,則將最先放入的經(jīng)驗丟棄。在擬靜態(tài)目標(biāo)網(wǎng)絡(luò)中,智能體建立兩個DQN,一個用于訓(xùn)練(稱為訓(xùn)練DQN),另一個用于計算目標(biāo)值(稱為目標(biāo)DQN)。目標(biāo)DQN 和訓(xùn)練DQN 每隔時間間隔 K同步一次。結(jié)合這兩個技術(shù),θ的更新公式可以寫為:

    式中,

    結(jié)合集合經(jīng)驗回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)的完整算法流程如算法3 所示,稱為深度Q 學(xué)習(xí)(deep Qlearning)算法。該算法是目前公認(rèn)基于DQN 的標(biāo)準(zhǔn)DRL 算法,其最初由DeepMind 團(tuán)隊在2015 年提出并證明了其在Atari 游戲上可以達(dá)到或超過人類操作的水平[11]。由于Atari 游戲提供的信息游戲屏幕顯示的圖像數(shù)據(jù),為了處理圖像數(shù)據(jù),DeepMind團(tuán)隊在應(yīng)用深度Q 學(xué)習(xí)算法時特別設(shè)計了一個包含卷積層、池化層和全連接層的DNN 作為DQN。因此,DQN 的結(jié)構(gòu)應(yīng)當(dāng)與需要處理的數(shù)據(jù)相匹配。算法3 深度Q 學(xué)習(xí)算法

    輸入: γ,B,M,K

    初始化訓(xùn)練DQN 參數(shù) θ和目標(biāo)DQN 參數(shù) θ′,令 θ′=θ ;建立一個大小為 M的先入先出隊列作為經(jīng)驗池M

    for t=1 : T

    觀察環(huán)境得到狀態(tài)s ,根據(jù)ε 貪 婪規(guī)則選擇動作a

    采取動作a,并觀察得到新狀態(tài) s′和 獎賞ra(s,s′)

    將得到的經(jīng)驗s ,a, ra( s,s′)和 s′組 合成經(jīng)驗et,并將 et放入經(jīng)驗池M

    從經(jīng)驗池中選取 B個經(jīng)驗形成經(jīng)驗集合 Bt,根據(jù)式(15)和式(16)更新θ

    若 t m od K==0, 則令θ′=θ

    end for

    除算法3 所示的深度Q 學(xué)習(xí)算法外,目前也有一些針對該算法的改進(jìn),以獲得性能提升。下面簡要介紹兩種得到廣泛應(yīng)用的改進(jìn)算法,包括雙深度Q 學(xué)習(xí)(double deep Q-learning)算法[12]和競爭深度Q 學(xué)習(xí)(dueling deep Q-learning)算法[13]。

    雙深度Q 學(xué)習(xí):在深度Q 學(xué)習(xí)中,目標(biāo)值的估計是取估計的Q 值的最大值,而動作的選取也是取令Q 值最大的動作。因此,這會導(dǎo)致Q 值的估計過于樂觀,并且該誤差會隨著時間推移往后傳遞。為了解決這一問題,文獻(xiàn)[12]提出采用兩個DQN 輪流且獨立地負(fù)責(zé)動作選取和Q 值估計。相應(yīng)的DRL 算法稱為雙深度Q 學(xué)習(xí)算法。

    競爭深度Q 學(xué)習(xí):上面所述兩種深度Q 學(xué)習(xí)方法都是對Q 值進(jìn)行估計,也就是對動作-狀態(tài)對進(jìn)行評估。因此,當(dāng)動作數(shù)比較多時,用于估計Q 值的所需的樣本數(shù)較多,導(dǎo)致訓(xùn)練時間長、決策準(zhǔn)確度低等問題。事實上,在某些狀態(tài)下,無論動作如何選取,導(dǎo)致的結(jié)果可能是相近的,無需對各個動作都進(jìn)行準(zhǔn)確的估計。如當(dāng)無線信道較差時,無論發(fā)送端選取多大功率,接收端的信干噪比(signal to interference plus noise ratio, SINR)都達(dá)不到最低閾值。針對這種情況,文獻(xiàn)[13]提出競爭深度Q 學(xué)習(xí)。其基本思想是采用兩個DQN 分別對狀態(tài)的價值和在給定狀態(tài)下各個動作的價值優(yōu)勢進(jìn)行評估。該文獻(xiàn)結(jié)果顯示,在動作空間較大的復(fù)雜問題中,競爭深度Q 學(xué)習(xí)顯示出明顯的性能優(yōu)勢。

    以上基于值的DRL 方法通過將DNN 用于擬合Q 值來解決維度爆炸問題,且允許狀態(tài)空間為無限大。然而,這些方法在動作選取時需要在整個動作空間下遍歷對應(yīng)的Q 值,導(dǎo)致它們只適用于有限大小的動作空間,即離散動作空間。針對連續(xù)動作空間的MDP,需要基于行動評論家的DRL 方法來求解。

    2.2 基于行動評論家的DRL 方法

    雖然基于策略的RL 方法通過將策略參數(shù)化來實現(xiàn)連續(xù)動作的選取,但是也帶來了數(shù)據(jù)利用率低、決策穩(wěn)定性差等問題。與此同時,基于值的方法可以利用每一步得到的經(jīng)驗對策略進(jìn)行逐步更新,且其依據(jù)Q 值進(jìn)行高穩(wěn)定性的決策。于是,人們提出了深度確定性策略梯度(deep deterministic policy gradient, DDPG)來將二者結(jié)合[14]。其基本思想是采用兩個DNN 分別作為動作家(actor)和評論家(critic)。評論家相當(dāng)于基于值的方法中的Q 值評估,即擬合和估計Q 值,而動作家相當(dāng)于基于策略方法中的策略參數(shù)化,用于找出Q 值與最優(yōu)動作之間的映射關(guān)系。換言之,在DDPG 中,動作選取不再是選擇當(dāng)前狀態(tài)下Q 值最大的動作,而是讓動作家參考評論家評估的Q 值來直接選取。

    這一類包含動作家和評論家的DRL 方法統(tǒng)稱為基于動作評論家(actor-critic, AC)的DRL 方法。這類方法的其他代表算法有異步優(yōu)勢動作評價(asynchronous advantage actor-critic, A3C)[15]、信賴域策略優(yōu)化(trust region policy optimization, TRPO)[16]、近端策略優(yōu)化(proximal policy optimization, PPO)[17]等。

    3 智能資源管理

    可靠高速的無線通信網(wǎng)絡(luò)依賴于各類資源的動態(tài)協(xié)調(diào)與配置。當(dāng)前,為了滿足不同的通信需求,人們大量部署了蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)絡(luò)、個人短距離通信網(wǎng)絡(luò)等。這些網(wǎng)絡(luò)采用了不同的無線電接入技術(shù)(radio access technology, RAT),其結(jié)構(gòu)各異且擁有互不共享的獨占資源,導(dǎo)致資源整體利用率低。此外,這些異構(gòu)網(wǎng)絡(luò)提供的服務(wù)單一,難以響應(yīng)用戶多樣化的通信需求。為了高效地滿足未來多元化的通信需求,異構(gòu)網(wǎng)絡(luò)間的資源需要高度整合并根據(jù)用戶需求精準(zhǔn)匹配。

    然而,無線環(huán)境動態(tài)變化,信道或用戶需求隨時間隨機變化。此外,相關(guān)的資源分配問題一般都是復(fù)雜的非凸問題。這些問題都為無線網(wǎng)絡(luò)中的資源管理增加了難度。鑒于DRL 是解決動態(tài)環(huán)境中決策問題的有效方法,人們嘗試將其用于管理無線通信中的各類資源,包括頻譜資源、功率資源以及網(wǎng)絡(luò)資源等。

    3.1 頻譜資源管理

    頻譜資源是無線通信中最寶貴的稀缺資源。為了在有限的頻譜上滿足人們對高速率通信的需求,無線網(wǎng)絡(luò)需要更彈性的頻譜資源管理。根據(jù)頻譜采用時分復(fù)用或頻分復(fù)用的方式,頻譜資源的管理也可分為時域或頻域上的管理。

    對于異構(gòu)網(wǎng)絡(luò)采用時分的方式共享同一頻譜,如何為不同網(wǎng)絡(luò)進(jìn)行合理的時間分配是頻譜資源管理的關(guān)鍵問題。理想情況下,各網(wǎng)絡(luò)應(yīng)當(dāng)依據(jù)其網(wǎng)絡(luò)的用戶流量需求對頻譜進(jìn)行彈性接入,也就是說,用戶需求較大的網(wǎng)絡(luò)可以占用更長時間的頻譜進(jìn)行傳輸。然而,異構(gòu)網(wǎng)絡(luò)間有一定的獨立性,難以迅速交互信令信息來相互協(xié)調(diào)。針對這一問題,文獻(xiàn)[18]研究了長期演進(jìn)(long term evolution, LTE)蜂窩系統(tǒng)與無線局域網(wǎng)(WiFi)在缺少信令交互情況下的頻譜共享問題。其中,LTE 系統(tǒng)通過調(diào)整虛擬幀中LTE 的傳輸時間和WiFi 的傳輸時間來調(diào)節(jié)兩個網(wǎng)絡(luò)的頻譜資源。LTE 系統(tǒng)的目標(biāo)是在滿足WiFi 網(wǎng)絡(luò)流量需求的情況下最大化LTE 傳輸時間,以最大頻譜的利用率。傳統(tǒng)的方法需要LTE系統(tǒng)從WiFi 網(wǎng)絡(luò)中獲取其具體的流量信息后做出相應(yīng)的優(yōu)化。為了避免異構(gòu)網(wǎng)絡(luò)間難以實現(xiàn)的直接信息交互,文獻(xiàn)[18]發(fā)現(xiàn)頻譜信息中實際上蘊含了關(guān)于WiFi 網(wǎng)絡(luò)的流量需求等信息,因而提出利用DRL 來根據(jù)頻譜信息直接對傳輸時間進(jìn)行優(yōu)化。該文獻(xiàn)創(chuàng)造性的利用頻譜信息中一個幀的最長空閑時間來作為WiFi 網(wǎng)絡(luò)是否得到充分保護(hù)的指標(biāo)。當(dāng)該指標(biāo)低于閾值時,說明WiFi 網(wǎng)絡(luò)的流量需求沒有獲得充分滿足,相應(yīng)的DRL 獎賞值設(shè)為0,否則獎賞值為LTE 系統(tǒng)的吞吐量。DRL 的動作就是LTE 的傳輸時間,其動作空間是將虛擬幀長離散化后的向量。DRL 的狀態(tài)則設(shè)計為LTE 系統(tǒng)能觀察頻譜獲得的頻譜信息,包括一個幀中的最長空閑時間、總空閑時間、總繁忙時間、歷史動作和歷史獎賞。最后該文獻(xiàn)提出了一個基于DQN 的DRL 算法來求解該問題。由于狀態(tài)中的信息不包含圖像或序列信息,其設(shè)計的DQN 采用了一個包含三層全連接層作為隱層的DNN。除文獻(xiàn)[18]外,文獻(xiàn)[19-21]也提出了基于DRL 的頻譜時分接入方案。

    除時分復(fù)用外,頻分復(fù)用是另一種復(fù)用方式。在這種方式下,頻譜被劃分成多個正交信道,進(jìn)而通過為網(wǎng)絡(luò)或用戶分配信道來實現(xiàn)頻譜資源管理。文獻(xiàn)[22]研究了多用戶的信道分配問題。在多信道多用戶場景下,多個用戶同時使用一個信道進(jìn)行傳輸會導(dǎo)致數(shù)據(jù)包的碰撞,進(jìn)而發(fā)送失敗。因此,需要合理地為各個用戶匹配所使用的信道,以提高成功傳輸?shù)母怕?。該文獻(xiàn)提出利用DRL 使用戶分布式地協(xié)調(diào)信道接入策略。每個用戶將其在過去多個時刻的包發(fā)送歷史(即包成功發(fā)送與否)作為DRL 的狀態(tài)。動作空間即選擇發(fā)送的信道或不發(fā)送。若當(dāng)前時刻的包成功發(fā)送,則獎賞設(shè)置為1,否則為0。由于狀態(tài)中包含多個時刻的信息,作者在設(shè)計DQN 時采用了LSTM 層來捕捉數(shù)據(jù)中的時間相關(guān)性。此外,為了提高學(xué)習(xí)性能,文獻(xiàn)[22]將競爭深度Q 學(xué)習(xí)和雙深度Q 學(xué)習(xí)結(jié)合,采用了競爭-雙深度Q 學(xué)習(xí)。仿真結(jié)果表明,在沒有信令交互情況下,用戶總能獨立地學(xué)習(xí)到一組互相避讓的信道選擇方式,提高了信道利用率和用戶成功發(fā)送概率。

    此外,用戶也可以通過智能的信道選擇來規(guī)避比規(guī)避干擾。再復(fù)雜的通信環(huán)境中,用戶可能會受到惡意(如干擾器)或非惡意(如電磁泄漏)的干擾,降低了用戶的通信速率和使用體驗。文獻(xiàn)[23]提出了一種基于DRL 的智能干擾規(guī)避方案。其利用頻譜瀑布圖中包含的干擾圖案來預(yù)測干擾情況,進(jìn)而預(yù)測并選擇未受干擾的信道進(jìn)行傳輸。作者將用戶觀測頻譜得到的瀑布圖作為狀態(tài),并設(shè)計動作空間為所有可用的信道。若用戶當(dāng)前時刻接收到的SINR 大于閾值,則認(rèn)為用戶在該時刻成功發(fā)送,則設(shè)回報值為常數(shù) C1,否則為0。同時,由于切換信道會帶來額外的開銷。因此,若用戶相鄰時刻更換了信道,則設(shè)開銷值為常數(shù) C2,否則為0。最終,DRL 的獎賞設(shè)計為用戶得到的回報值與開銷值相減。由于DRL 的狀態(tài)是圖像信息,文獻(xiàn)[23]采用了遞歸卷積層(recursive convolutional layer)來設(shè)計DQN。其中,遞歸卷積層是作者針對頻譜瀑布圖中的遞歸特性對卷積層進(jìn)行的改進(jìn),目的是降低計算復(fù)雜度和提高算法的運算速度。

    3.2 功率資源管理

    上一小節(jié)所介紹的頻譜資源管理考慮對頻譜正交使用,即用戶或網(wǎng)絡(luò)在同一時頻點上不重疊。雖然正交使用頻譜可以避免相互干擾,但頻譜效率難以進(jìn)一步提升。為最大化網(wǎng)絡(luò)容量,應(yīng)當(dāng)考慮頻譜的非正交接入,這就帶來了干擾問題。通過功率資源分配可以進(jìn)行精確的干擾管理,以獲得空間復(fù)用增益。例如,當(dāng)某些用戶對其他用戶的干擾信道較弱時,它們可以以較大功率進(jìn)行傳輸,從而在相互干擾較小時獲得較高的傳輸速率。

    文獻(xiàn)[24]考慮了一個認(rèn)知無線電(cognitive radio,CR)中的功率控制問題。其中,次用戶(secondary user)通過占用主用戶(primary user)的頻譜來進(jìn)行通信,提高頻譜利用率。然而,主用戶是該頻譜的合法使用者,其通信質(zhì)量不應(yīng)受次用戶的損害。為了使主次用戶的服務(wù)質(zhì)量(quality-of-service,QoS)都得到滿足,作者提出了一個基于DRL 的功率控制方案。在此方案中,次用戶部署多個傳感器在主用戶周圍,以感知主用戶附近的接收功率。由于傳感器得到的接收功率包含了信道、主次用戶的發(fā)送功率等信息,通過讓DRL 分析傳感器的數(shù)據(jù)可以學(xué)習(xí)到信道的變化與主用戶的發(fā)送策略,進(jìn)而調(diào)整次用戶的發(fā)送功率來讓主次用戶的QoS 都得到滿足。DRL 的狀態(tài)設(shè)計為所有傳感器獲得的接收功率。此外,DRL 的動作空間由將最大發(fā)送功率離散化后的所有可選功率構(gòu)成。當(dāng)次用戶選擇功率進(jìn)行發(fā)送后,若主次用戶的QoS 都得到滿足,則DRL 的獎賞設(shè)置為1,否則為0。最后,深度Q 學(xué)習(xí)算法被用于實現(xiàn)DRL,其中,一個包含三層全連接層的DNN 被用作DQN。

    文獻(xiàn)[24]針對的是單用戶的功率控制問題,無法應(yīng)用于多用戶的場景。為此,文獻(xiàn)[25]考慮蜂窩網(wǎng)絡(luò)的多用戶功率資源分配問題,其目標(biāo)是最大化整個網(wǎng)絡(luò)的加權(quán)總速率(weighted sum-rate,WSR)。由于用戶互相干擾,WSR 最大化的問題是NP-hard 問題,難以用優(yōu)化方法求得全局最優(yōu)解。除此之外,用戶間的信道狀態(tài)時變且信道信息數(shù)據(jù)龐大,無法實時上傳到一個中央處理單元進(jìn)行運算。該文獻(xiàn)利用DRL 解決了這兩個問題。首先,每個用戶的獎賞值被設(shè)計為該用戶自身速率與對其他用戶造成的速率損失的差值,這樣就將WSR 最大化問題分解成了可以讓各個用戶分布式求解的子問題。然后,各用戶的DRL 狀態(tài)包含了自身的信道狀態(tài)、接收功率和對其他用戶造成的干擾等信息。通過對這些數(shù)據(jù)分析,DRL 讓各用戶預(yù)測其未來的信道狀態(tài)以及其他用戶的發(fā)送功率,從而選擇一個合適的功率來最大化自身的獎賞值。作者提出的DRL 算法是一個離線學(xué)習(xí)和在線部署的雙層架構(gòu)。在離線訓(xùn)練時,一個中央訓(xùn)練器與各個用戶建立高速的回傳鏈路。通過該鏈路,各個用戶及時將自己的狀態(tài)以及獎賞值向訓(xùn)練器傳輸并獲得一個動作值。當(dāng)訓(xùn)練完成后,每個用戶可以獨自利用訓(xùn)練好的DQN 根據(jù)輸入的狀態(tài)得到最優(yōu)的動作,不再需要回傳鏈路交互信息。仿真結(jié)果顯示,該基于DRL 的方案的性能甚至可以超越傳統(tǒng)基于優(yōu)化的近似最優(yōu)算法。

    文獻(xiàn)[26]將文獻(xiàn)[25]拓展到了多用戶設(shè)備到設(shè)備(device-to-device,D2D)通信場景。文獻(xiàn)[26]在設(shè)計DRL 的狀態(tài)、動作以及獎賞時考慮了多信道的情況,解決了信道與功率資源的聯(lián)合分配問題。此外,文獻(xiàn)[26]也將文獻(xiàn)[25]所提的離線學(xué)習(xí)與在線部署的雙層架構(gòu)改進(jìn)為在線學(xué)習(xí)及訓(xùn)練架構(gòu),避免了離線學(xué)習(xí)中回傳信息產(chǎn)生的額外開銷。

    3.3 網(wǎng)絡(luò)資源管理

    虛擬現(xiàn)實(virtual reality, VR)、3D 全息通信等業(yè)務(wù)的出現(xiàn)使得無線通信網(wǎng)絡(luò)不再只是服務(wù)于點與點之間的信息交互,而是各類多樣化業(yè)務(wù)的承載方。因此,除了頻譜、功率等物理層的資源外,無線網(wǎng)絡(luò)還包含為網(wǎng)絡(luò)層或應(yīng)用層服務(wù)的資源,如緩存資源和邊緣計算資源等。因此,未來的無線通信網(wǎng)絡(luò)必然包含多維度的網(wǎng)絡(luò)資源,導(dǎo)致資源管理更為復(fù)雜并使傳統(tǒng)方法失效。下面以緩存資源和邊緣計算資源為例,介紹如何利用DRL 對網(wǎng)絡(luò)資源進(jìn)行高效管理。

    為了降低用戶獲取數(shù)據(jù)的時延,無線網(wǎng)絡(luò)可以在靠近用戶終端的接入側(cè)部署緩存單元來預(yù)加載熱門資源。由于緩存的大小是有限的,對哪些數(shù)據(jù)進(jìn)行預(yù)加載是管理緩存資源的關(guān)鍵問題。文獻(xiàn)[27]提出利用DRL 對用戶的數(shù)據(jù)請求進(jìn)行分析,并根據(jù)用戶請求規(guī)律更換緩存中的文件。在該文獻(xiàn)中,作者將DRL 的狀態(tài)設(shè)計為各文件被用戶請求的次數(shù),動作則是下一時刻應(yīng)當(dāng)被緩存的文件。若緩存的文件沒有命中用戶請求,網(wǎng)絡(luò)需要為用戶從云端獲取文件并產(chǎn)生開銷,此時懲罰值為獲取該文件的開銷,否則懲罰值為0。值得注意的是,這里并沒有用到獎賞值,而是懲罰值。因此,DRL 的目標(biāo)是最小化期望累積懲罰。為了實現(xiàn)這一目標(biāo),作者將深度Q 算法進(jìn)行了修改,將算法3 中所有對Q 值的最大化和反最大化運算都更換為對Q 值的最小化及反最小化運算。其采用的DQN 是包含三個隱層為全連接層的DNN。仿真表明,該文獻(xiàn)所提的DRL 緩存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO 策略,以及最近最少使用(least recently used, LRU)策略均能獲得更低的開銷。

    當(dāng)用戶需求更為多樣化時,終端設(shè)備卻在往小體積、低功耗的方向發(fā)展,如可穿戴設(shè)備等。顯然,具有高計算復(fù)雜度的業(yè)務(wù),如需要實時計算大量3D 畫面的VR 等,難以由終端設(shè)備獨立完成。因此,移動邊緣計算(mobile edge computing, MEC)被提出用于解決這一矛盾。在MEC 中,具有強大運算能力的節(jié)點被部署于網(wǎng)絡(luò)接入側(cè),便于對來自于移動設(shè)備的計算請求快速應(yīng)答。對于一個給定的計算任務(wù),若讓終端設(shè)備請求MEC 單元遠(yuǎn)程執(zhí)行,它將需要向MEC 上傳任務(wù)數(shù)據(jù),帶來通信時延,且需要向MEC 提供者交納服務(wù)費用。相反,終端設(shè)備本地執(zhí)行計算任務(wù)則會損耗本地電能,以及較高的本地計算時延(本地運算能力通常較MEC弱)。因此,為了以最低的時延和最小的開銷完成計算任務(wù),需要合理地分配網(wǎng)絡(luò)中的計算資源。

    文獻(xiàn)[28]考慮了物聯(lián)網(wǎng)(Internet of things, IoT)中的計算資源分配問題。其中,IoT 設(shè)備每個時刻采集到的電能和產(chǎn)生的計算任務(wù)都是服從一定規(guī)律的隨機變量。為了滿足IoT 設(shè)備的計算需求,MEC單元被部署在網(wǎng)絡(luò)邊緣。IoT 設(shè)備需要決定任務(wù)在本地或在MEC 單元執(zhí)行。若決定在本地執(zhí)行,IoT設(shè)備還需要決定分配用于計算的功率。若設(shè)備分配的計算功率越大,則任務(wù)執(zhí)行速度越快,完成計算任務(wù)的時延越低,但同時電能損耗也更大。若決定將任務(wù)放在MEC 執(zhí)行,則IoT 設(shè)備需要承受通信時延(由信道決定)和MEC 設(shè)備運算的計算時延。計算任務(wù)只有在規(guī)定時間內(nèi)完成時才算成功完成。為了最大化計算任務(wù)的成功完成率,該文獻(xiàn)提出了基于DRL 的計算資源分配方案。在該方案中,IoT 設(shè)備利用DRL 決定各個計算任務(wù)在本地執(zhí)行的功率,而功率為0 則表示在MEC 執(zhí)行。DRL 的狀態(tài)為當(dāng)前時刻能量到達(dá)的數(shù)量,計算任務(wù)隊列的長度,以及信道狀態(tài)。最后,DRL 的獎賞值由一個效用函數(shù)決定,其考慮了計算時延、成功/失敗任務(wù)數(shù)以及MEC 服務(wù)費用等因素?;谶@3 個DRL 中的基本元素,作者利用聯(lián)邦-深度Q 學(xué)習(xí)算法對這個問題進(jìn)行了求解。該算法是在深度Q 學(xué)習(xí)的基礎(chǔ)上加入了聯(lián)邦學(xué)習(xí)(federated learning)[29],通過讓多個DRL 智能體同時學(xué)習(xí)來加快學(xué)習(xí)速度。

    此外,文獻(xiàn)[30-33]也成功地將DRL 用于緩存資源和計算資源的聯(lián)合優(yōu)化問題中,說明DRL在管理網(wǎng)絡(luò)資源上擁有強大的應(yīng)用前景。

    4 智能接入控制

    步入萬物互聯(lián)時代,無線通信設(shè)備的數(shù)量呈現(xiàn)出指數(shù)增長的趨勢。與此同時,采用不同RAT 的異構(gòu)網(wǎng)絡(luò)大量存在,它們均由數(shù)目眾多的基站組成。特別是對于采用毫米波的網(wǎng)絡(luò),由于毫米波基站覆蓋范圍比較小,運營商需要部署大量小蜂窩基站(small-cell base station, SBS)來保證無線信號的覆蓋率。這使得用戶接入控制變得復(fù)雜,難以獲得最優(yōu)的用戶與網(wǎng)絡(luò)或基站的匹配方式。事實上,因信道變化等原因,用戶需要不斷切換接入的網(wǎng)絡(luò)或基站來保持最佳的匹配。因此,接入控制又稱為切換控制(handover control)。根據(jù)用戶是在采用不同RAT的異構(gòu)網(wǎng)絡(luò)間切換或同一網(wǎng)絡(luò)下的不同基站間切換,切換控制可以分為垂直切換(vertical handover)和水平切換(horizontal handover)[34]。

    當(dāng)采用不同RAT 的異構(gòu)網(wǎng)絡(luò)相對獨立時,它們的資源無法共享。此時,若各網(wǎng)絡(luò)中的用戶需求差異比較大時,它們也無法協(xié)調(diào)資源來主動地滿足各用戶的需求。為此,垂直切換將用戶重新分配在不同的網(wǎng)絡(luò)上,從而更合理地利用各網(wǎng)絡(luò)的資源。文獻(xiàn)[35]將DRL 用于移動通信終端在LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的智能垂直切換上。其中,LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的服務(wù)費用不同,且終端在不同網(wǎng)絡(luò)下傳輸消耗的能量也不同。因此,該文獻(xiàn)考慮垂直切換的目標(biāo)是讓終端在滿足傳輸時延要求的情況下最小化傳輸費用和能量開銷。為了實現(xiàn)這一目標(biāo),DRL 的狀態(tài)被設(shè)計為當(dāng)前時刻終端的位置和剩余發(fā)送的文件大小,而DRL 的動作則是選擇下一時刻傳輸數(shù)據(jù)使用的網(wǎng)絡(luò)。值得注意的是,與文獻(xiàn)[27]類似,這里沒有設(shè)計獎賞值,取而代之的是懲罰值。懲罰值包含了傳輸費用,能量開銷,以及未能在規(guī)定時間內(nèi)完成傳輸產(chǎn)生的懲罰項。為了讓DRL 最小化懲罰值,該文獻(xiàn)同樣對深度Q 學(xué)習(xí)算法進(jìn)行了與文獻(xiàn)[27]類似的修改。仿真結(jié)果表明,和基于DP 的算法相比,基于DRL 的接入方案可以有效地降低傳輸費用和能量開銷。

    除垂直切換外,目前也有文獻(xiàn)利用DRL 實現(xiàn)基站間的智能水平切換。文獻(xiàn)[36]考慮一個由眾多SBS 組成的超密集網(wǎng)絡(luò)(ultra dense network, UDN)。傳統(tǒng)的基站切換算法是讓終端設(shè)備比較連接基站的參考信號接收功率(reference signal received power,RSRP)與其他基站的RSRP,若其他基站最強的RSRP 比當(dāng)前基站的RSRP 大于某一閾值,則進(jìn)行切換。這種切換方法雖然保證了用戶接收信號的強度,但是不可避免地造成各基站負(fù)載不均,降低了擁塞基站的用戶體驗。某個基站的負(fù)載定義為該基站連接用戶的所有請求資源塊和該基站可用資源塊之比。該文獻(xiàn)提出在原有切換規(guī)則的閾值上再加入一個偏置值,然后通過調(diào)整各基站切換到其他基站的偏置值來實現(xiàn)負(fù)載均衡。為了實現(xiàn)這一目標(biāo),作者利用DRL 來對偏置值進(jìn)行優(yōu)化。DRL 的狀態(tài)包含了所有基站的負(fù)載信息以及它們的邊緣用戶占所有用戶的比值,而DRL 的動作則是從各基站切換到其他基站的偏置值。DRL 的獎賞設(shè)置為所有基站的最大負(fù)載的倒數(shù)??梢姡摢勝p值在所有基站達(dá)到相同負(fù)載時取得最大值,因此DRL 的目標(biāo)是令所有基站的負(fù)載相同。由于DRL 的動作包含連續(xù)值,該文獻(xiàn)采用了A3C 算法來實現(xiàn)DRL。此外,因為DRL 的動作是一個向量,所以作者還將A3C 中的動作家設(shè)計為一個含有多個輸出層的DNN來輸出向量值。

    文獻(xiàn)[37]進(jìn)一步嘗試將接入控制與資源分配相結(jié)合,考慮了多層基站蜂窩網(wǎng)絡(luò)中的用戶接入與信道分配聯(lián)合優(yōu)化問題。當(dāng)前蜂窩網(wǎng)絡(luò)中的基站有宏蜂窩基站(macro base station, MBS)、SBS 和微蜂窩基站(pico base station, PBS)3 種。它們具有不同的發(fā)射功率,導(dǎo)致其覆蓋范圍也不同。因此,終端設(shè)備在同一個時刻可能同時接收到多個基站的信號。此時,合理地分配用戶及信道可以獲得最大的空間復(fù)用增益,進(jìn)而最大化網(wǎng)絡(luò)整體速率。然而,該問題是一個高度非凸的整數(shù)優(yōu)化問題,難以優(yōu)化求解。為此,該文獻(xiàn)首先將該問題建模成多個智能體(即多智體)的博弈問題。其中,多智體的目標(biāo)函數(shù)為自身速率和發(fā)送功率開銷、切換基站開銷的差值。即,各終端設(shè)備的目標(biāo)是在最大化自身速率的同時,最小化發(fā)送功率和切換基站次數(shù)?;诖四繕?biāo)函數(shù),作者證明了該多智體博弈存在納什均衡點(Nash equilibrium, NE),并提出利用DRL 對基站和信道進(jìn)行智能選擇來求解該NE。和文獻(xiàn)[22]類似,該文獻(xiàn)也采用競爭-雙深度Q 學(xué)習(xí)算法來實現(xiàn)DRL,并通過仿真結(jié)果證明該算法可以獲得比深度Q 學(xué)習(xí)算法、雙深度Q 學(xué)習(xí)算法更高的網(wǎng)絡(luò)總速率。

    5 智能網(wǎng)絡(luò)維護(hù)

    前兩章分別對無線通信網(wǎng)絡(luò)中的智能資源管理和智能接入控制相關(guān)文獻(xiàn)進(jìn)行了介紹。它們利用DRL 替代原本基于優(yōu)化或啟發(fā)式的傳統(tǒng)算法,以保證無線網(wǎng)絡(luò)在大規(guī)模及復(fù)雜環(huán)境下依然能高效地運行。然而,更為復(fù)雜的網(wǎng)絡(luò)不僅為網(wǎng)絡(luò)高效運行帶來困難,同時也極大地增加了網(wǎng)絡(luò)維護(hù)的難度。特別是當(dāng)前網(wǎng)絡(luò)維護(hù)仍大量依賴人工參與,其高成本和不及時的響應(yīng)速度難以滿足未來無線通信的需求。因此,實現(xiàn)智能通信同樣需要為網(wǎng)絡(luò)維護(hù)賦予智能。下面將以網(wǎng)絡(luò)故障修復(fù)、基站管理以及基站部署規(guī)劃等三方面為例,說明DRL 如何應(yīng)用于無線通信網(wǎng)絡(luò)的智能維護(hù)。

    隨著網(wǎng)絡(luò)規(guī)模增加,網(wǎng)絡(luò)發(fā)生故障的概率也隨之增加。傳統(tǒng)的網(wǎng)絡(luò)排錯和修復(fù)方法需要專家的參與,修復(fù)效率比較低。文獻(xiàn)[38]嘗試將DRL 應(yīng)用于網(wǎng)絡(luò)故障自我修復(fù)。在一個隨機出現(xiàn)故障的網(wǎng)絡(luò)中,DRL 的目標(biāo)是在給定的時間內(nèi)通過選擇正確的排錯操作來清除故障。DRL 的狀態(tài)設(shè)計為網(wǎng)絡(luò)中故障數(shù)的指示值,分別表示其增加、減少或不變。DRL 的動作空間包含所有可以排除故障的操作。在選擇動作后,DRL 會得到一個由排除故障耗費時間決定的獎賞值。該文獻(xiàn)采用了深度Q 學(xué)習(xí)算法來實現(xiàn)DRL,并通過仿真說明基于DRL 的網(wǎng)絡(luò)故障自修復(fù)方法可以有效提升網(wǎng)絡(luò)可用性。

    對于擁有大量基站的網(wǎng)絡(luò)來說,用戶流量的空時分布不均使得其中部分基站可能在某些時候處于空閑的狀態(tài)。然而,維持空閑基站的運作同樣需要耗費電能并產(chǎn)生成本。因此,為了提高網(wǎng)絡(luò)能量效率和降低成本,無線網(wǎng)絡(luò)需要依據(jù)用戶流量需求動態(tài)地開啟和關(guān)閉基站。鑒于流量需求是動態(tài)隨機的,文獻(xiàn)[39]提出利用DL 對各基站的流量進(jìn)行分析和預(yù)測,然后利用DRL 根據(jù)預(yù)測的流量對基站的開關(guān)進(jìn)行控制。其中,DRL 的狀態(tài)除了包含流量的預(yù)測值外,還包含上一時刻對于基站開關(guān)的歷史決策信息。DRL 的動作則是控制所有基站的開關(guān)組合??梢?,動作空間將隨基站數(shù)量指數(shù)增長。當(dāng)基站數(shù)量比較大時,動作空間將會非常龐大。因此,該文獻(xiàn)采用可以輸出連續(xù)動作的DDPG 算法來實現(xiàn)DRL。其中,DDPG 輸出的連續(xù)動作被離散化后映射為特定的基站開關(guān)組合。此外,該文獻(xiàn)提出了一個懲罰函數(shù),包含了用戶體驗損失、能量開銷以及開關(guān)切換開銷。最后,通過使用DDPG算法最小化該懲罰函數(shù),可以在保證用戶體驗時最小化能量損耗及開關(guān)切換次數(shù)。除文獻(xiàn)[39]外,文獻(xiàn)[40]也提出了一個基于DRL 的基站智能休眠策略,以降低網(wǎng)絡(luò)能耗。

    對于某些人口稀疏的地區(qū),部署大量基站來保證無線網(wǎng)絡(luò)的覆蓋率是難以實現(xiàn)的。同時,在固定的基站部署方式下,用戶流量的空時分布不均也會導(dǎo)致熱點區(qū)域網(wǎng)絡(luò)堵塞的問題。因此,人們提出利用UAV 作為空中基站來服務(wù)地面通信終端。然而,UAV 的覆蓋范圍有限,且用戶與空中基站的信道會隨著UAV 的移動而改變。這都為UAV 空中基站的部署帶來了難度。文獻(xiàn)[41]提出利用DRL進(jìn)行空中基站的部署規(guī)劃。其中,DRL 的狀態(tài)包含了UAV 和所有用戶的當(dāng)前坐標(biāo),而DRL 的動作空間則是UAV 可以移動的方向,包括x、y、z 軸上的正方向及負(fù)方向,以及保持原有位置。當(dāng)UAV 移動到一個新的位置時,DRL 的獎賞值為空中基站與地面終端設(shè)備傳輸數(shù)據(jù)的總速率。最后,深度Q 學(xué)習(xí)算法被用于規(guī)劃UAV 的飛行軌跡,從而得到最優(yōu)的空中基站部署規(guī)劃。

    6 討論:開放問題

    雖然目前初步的研究表明DRL 具有賦能智能通信及滿足未來無線通信需求的潛能,但是其在理論和應(yīng)用上尚有一些開放問題需要解決,如分布式DRL 的非平穩(wěn)性、非完美數(shù)據(jù)的影響以及安全與隱私問題。

    6.1 分布式DRL 的非平穩(wěn)性

    DRL 本質(zhì)上一種求解MDP 的方法,而MDP描述的是單個智能體與環(huán)境的交互過程。其中,環(huán)境狀態(tài)的改變是由智能體采取的動作以及環(huán)境固有的轉(zhuǎn)移概率決定的。也就是說,若給定環(huán)境狀態(tài)和智能體采取的動作,新的環(huán)境狀態(tài)出現(xiàn)的概率隨之固定。基于這一特性,DRL 通過分析歷史數(shù)據(jù)來尋找并利用環(huán)境的變化規(guī)律,從而得到最優(yōu)決策。

    然而,對于未來大規(guī)模的無線網(wǎng)絡(luò),使用單個智能體收集網(wǎng)絡(luò)中的所有信息并對所有參數(shù)同時做出決策將會導(dǎo)致信息收集困難、響應(yīng)時延高等問題。因此,分布式的方案,即采用多個智能體對網(wǎng)絡(luò)參數(shù)同時優(yōu)化,是解決以上問題的有效途徑。顯然,當(dāng)存在多個智能體時,環(huán)境狀態(tài)的改變將同時被多智體各自采取的動作所影響。在此時,對于某個智能體而言,其自身所在環(huán)境的狀態(tài)轉(zhuǎn)移概率將不再是確定的。這就是分布式DRL 中的非平穩(wěn)性。由于目前的DRL 算法在設(shè)計時并沒有考慮多智體產(chǎn)生的非平穩(wěn)性,因此直接將它們應(yīng)用于分布式DRL 可能會導(dǎo)致算法不收斂或結(jié)果不穩(wěn)定等問題。目前采用分布式DRL 方案的研究,如文獻(xiàn)[37]嘗試通過共享多智體的狀態(tài)或基于博弈論的思想設(shè)計獎賞值等方法解決非平穩(wěn)性的問題。雖然這些方法在求解特定問題上可以得到較好的結(jié)果,目前仍缺乏解決分布式DRL 非平穩(wěn)性的普適性理論。

    6.2 非完美數(shù)據(jù)的影響

    DRL 的學(xué)習(xí)需要智能體從外界獲得足夠的信息,包括觀察環(huán)境得到狀態(tài)以及獎賞值。在無線通信中,由于噪聲的存在,智能體對環(huán)境的觀察會受噪聲污染。除此之外,若智能體所需的信息需要由其他設(shè)備通過回傳鏈路反饋,其獲取的信息也有可能受信道變化等隨機因素影響而缺失。這類受污染或缺失的數(shù)據(jù)被稱為非完美數(shù)據(jù)。目前的研究通常認(rèn)為智能體所需信息都可完美獲得。然而,鑒于無線通信環(huán)境的特殊性,研究非完美數(shù)據(jù)對DRL 學(xué)習(xí)過程和學(xué)習(xí)結(jié)果的影響具有重要意義。

    6.3 安全與隱私問題

    作為一種數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法,DRL 在對無線網(wǎng)絡(luò)進(jìn)行優(yōu)化的過程中需要對大量的數(shù)據(jù)進(jìn)行分析。例如,在智能資源管理的過程中,DRL 智能體需要在獲取各個網(wǎng)絡(luò)、基站甚至終端設(shè)備的信息后進(jìn)行決策。此外,分布式的DRL 方案也需要通過多智體之間的信息共享來緩解非平穩(wěn)性。然而,在實際應(yīng)用中,信息共享會帶來安全與隱私的問題。例如,網(wǎng)絡(luò)或基站的擁有者之間可能存在競爭關(guān)系,出于商業(yè)安全和保護(hù)用戶隱私的考慮,它們難以進(jìn)行直接的數(shù)據(jù)共享。同樣的,屬于不同的用戶設(shè)備也存在數(shù)據(jù)共享的壁壘。

    值得注意的是,在當(dāng)前人工智能快速發(fā)展的時代,數(shù)據(jù)的安全和隱私問題正在受到越來越多關(guān)注。例如,歐盟和中國分別在2018 年和2019 年分別出臺了《通用數(shù)據(jù)保護(hù)條例》[42]和《人工智能北京共識》來規(guī)范人工智能在發(fā)展過程中產(chǎn)生的安全與隱私問題。為此,人們提出了多方安全計算(multi-party computation)[43]、差分 隱私(differential privacy)[44]和聯(lián)邦學(xué)習(xí)等方法,來解決機器學(xué)習(xí)中的數(shù)據(jù)安全與隱私問題。對于無線通信而言,如何依據(jù)無線通信的特征將它們與DRL 有機結(jié)合是構(gòu)建未來安全的智能無線通信網(wǎng)絡(luò)的關(guān)鍵。

    7 結(jié) 束 語

    本文對深度強化學(xué)習(xí)進(jìn)行了介紹,并從資源管理、接入控制以及網(wǎng)絡(luò)維護(hù)三個方面對目前利用深度強化學(xué)習(xí)實現(xiàn)智能通信的研究進(jìn)展進(jìn)行了總結(jié)和剖析。目前的研究結(jié)果表明深度強化學(xué)習(xí)是實現(xiàn)智能通信的有效方法。最后,本文對目前尚未解決的開放問題進(jìn)行了討論,為未來的研究提供有益的思路。

    本文研究工作還得到高等學(xué)校學(xué)科創(chuàng)新引智計劃(B20064)的資助,在此表示感謝。

    猜你喜歡
    信道基站狀態(tài)
    狀態(tài)聯(lián)想
    生命的另一種狀態(tài)
    可惡的“偽基站”
    基于GSM基站ID的高速公路路徑識別系統(tǒng)
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    堅持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    基于導(dǎo)頻的OFDM信道估計技術(shù)
    一種改進(jìn)的基于DFT-MMSE的信道估計方法
    小基站助力“提速降費”
    移動通信(2015年17期)2015-08-24 08:13:10
    基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
    国产精品国产av在线观看| 成人国产麻豆网| av天堂久久9| av电影中文网址| 蜜桃国产av成人99| 日本黄色日本黄色录像| freevideosex欧美| 91久久精品国产一区二区三区| 亚洲四区av| 国产乱人偷精品视频| 国产在线视频一区二区| 日韩伦理黄色片| 青春草亚洲视频在线观看| 热99国产精品久久久久久7| 亚洲精品一区蜜桃| 中文字幕另类日韩欧美亚洲嫩草| av片东京热男人的天堂| 成人无遮挡网站| 久热久热在线精品观看| 大香蕉久久网| 亚洲欧美成人综合另类久久久| 日本爱情动作片www.在线观看| 人妻系列 视频| 日韩电影二区| 亚洲av日韩在线播放| 99热网站在线观看| 一级毛片我不卡| 精品亚洲乱码少妇综合久久| 免费女性裸体啪啪无遮挡网站| 国产麻豆69| 久久综合国产亚洲精品| 欧美亚洲日本最大视频资源| 亚洲精品美女久久av网站| av在线观看视频网站免费| 久久久精品94久久精品| 亚洲欧美一区二区三区国产| 考比视频在线观看| 中文欧美无线码| 亚洲精品国产色婷婷电影| 亚洲精品乱久久久久久| 国产精品嫩草影院av在线观看| 亚洲av在线观看美女高潮| 性高湖久久久久久久久免费观看| 美女国产视频在线观看| 亚洲成人手机| 老女人水多毛片| 九九在线视频观看精品| av又黄又爽大尺度在线免费看| 日韩免费高清中文字幕av| 高清在线视频一区二区三区| 久久人妻熟女aⅴ| 精品一区二区免费观看| 老司机亚洲免费影院| 久久久国产欧美日韩av| 免费女性裸体啪啪无遮挡网站| 我的女老师完整版在线观看| 成年人午夜在线观看视频| 国产乱人偷精品视频| 久久国产精品大桥未久av| 欧美日韩精品成人综合77777| 精品少妇久久久久久888优播| 另类精品久久| 久久精品人人爽人人爽视色| 一本—道久久a久久精品蜜桃钙片| 午夜老司机福利剧场| 亚洲少妇的诱惑av| 欧美日韩一区二区视频在线观看视频在线| 久久人人爽人人爽人人片va| 黄网站色视频无遮挡免费观看| 国产成人午夜福利电影在线观看| 国产精品国产三级专区第一集| 男女高潮啪啪啪动态图| 少妇 在线观看| 成人午夜精彩视频在线观看| av播播在线观看一区| 成人18禁高潮啪啪吃奶动态图| 一边摸一边做爽爽视频免费| 国产一区二区三区综合在线观看 | 久久午夜福利片| 九九爱精品视频在线观看| 国产一区二区激情短视频 | 国产综合精华液| 天堂俺去俺来也www色官网| 国产又色又爽无遮挡免| 一区在线观看完整版| 黄色怎么调成土黄色| 丝袜在线中文字幕| 精品国产一区二区三区久久久樱花| 久久久久久伊人网av| 婷婷色综合www| 午夜影院在线不卡| av在线观看视频网站免费| 欧美日韩视频高清一区二区三区二| 老司机亚洲免费影院| 成年女人在线观看亚洲视频| 中文欧美无线码| av国产精品久久久久影院| 久久久久久久大尺度免费视频| 免费看光身美女| 精品国产乱码久久久久久小说| 国产精品久久久久久av不卡| 精品99又大又爽又粗少妇毛片| 久久久久久久久久久免费av| 亚洲综合色网址| 免费日韩欧美在线观看| 国产淫语在线视频| 国产精品无大码| 久久97久久精品| 内地一区二区视频在线| 成年美女黄网站色视频大全免费| 国产精品三级大全| 婷婷成人精品国产| 大香蕉久久网| 免费久久久久久久精品成人欧美视频 | 人妻少妇偷人精品九色| 99国产精品免费福利视频| 中文字幕人妻熟女乱码| 亚洲四区av| 日韩欧美一区视频在线观看| 国产黄色免费在线视频| 大片免费播放器 马上看| 一个人免费看片子| 亚洲精品,欧美精品| 久久青草综合色| 久久精品国产亚洲av天美| 欧美日韩综合久久久久久| 日韩大片免费观看网站| 国产日韩欧美视频二区| 免费在线观看完整版高清| 波多野结衣一区麻豆| 91精品国产国语对白视频| 三上悠亚av全集在线观看| 久久精品人人爽人人爽视色| 有码 亚洲区| 最近2019中文字幕mv第一页| 女人久久www免费人成看片| 色婷婷av一区二区三区视频| 精品一区二区三区视频在线| 亚洲久久久国产精品| 免费播放大片免费观看视频在线观看| 水蜜桃什么品种好| 国产一区二区激情短视频 | 大片免费播放器 马上看| 国产精品久久久av美女十八| 91aial.com中文字幕在线观看| 啦啦啦视频在线资源免费观看| 极品少妇高潮喷水抽搐| 成人毛片60女人毛片免费| 欧美精品av麻豆av| 久久精品国产亚洲av天美| 亚洲第一区二区三区不卡| 男女高潮啪啪啪动态图| 亚洲国产精品国产精品| 视频在线观看一区二区三区| 王馨瑶露胸无遮挡在线观看| 久久精品aⅴ一区二区三区四区 | 大码成人一级视频| 亚洲精品成人av观看孕妇| 亚洲精品美女久久久久99蜜臀 | 少妇精品久久久久久久| 寂寞人妻少妇视频99o| 国产高清国产精品国产三级| 国产爽快片一区二区三区| 你懂的网址亚洲精品在线观看| 国产男女内射视频| 午夜精品国产一区二区电影| 久久久亚洲精品成人影院| 观看美女的网站| 日韩一区二区三区影片| 成人亚洲欧美一区二区av| 国产男人的电影天堂91| 香蕉精品网在线| 亚洲在久久综合| 极品人妻少妇av视频| 男人爽女人下面视频在线观看| 久久久欧美国产精品| 99香蕉大伊视频| 我要看黄色一级片免费的| 亚洲人成网站在线观看播放| 女人精品久久久久毛片| 婷婷色综合www| 久久狼人影院| 夫妻性生交免费视频一级片| 国产精品无大码| 日日摸夜夜添夜夜爱| 18禁观看日本| 岛国毛片在线播放| 欧美人与性动交α欧美精品济南到 | 久久精品久久精品一区二区三区| av不卡在线播放| 精品99又大又爽又粗少妇毛片| 伦精品一区二区三区| 中文字幕另类日韩欧美亚洲嫩草| 亚洲综合色惰| 91精品国产国语对白视频| 三上悠亚av全集在线观看| 国产成人午夜福利电影在线观看| 人人妻人人澡人人爽人人夜夜| 午夜福利在线观看免费完整高清在| 看非洲黑人一级黄片| 亚洲国产欧美在线一区| 在线观看国产h片| 日本欧美国产在线视频| videos熟女内射| 夫妻性生交免费视频一级片| 青春草亚洲视频在线观看| 亚洲图色成人| 一区二区三区精品91| 欧美日韩国产mv在线观看视频| 久久久精品免费免费高清| 日本av免费视频播放| 国产精品久久久久成人av| 97超碰精品成人国产| 亚洲av成人精品一二三区| 下体分泌物呈黄色| 国产av精品麻豆| av天堂久久9| 乱码一卡2卡4卡精品| 国产极品天堂在线| 99久国产av精品国产电影| 精品少妇黑人巨大在线播放| 亚洲色图 男人天堂 中文字幕 | 亚洲在久久综合| 爱豆传媒免费全集在线观看| 三上悠亚av全集在线观看| 男的添女的下面高潮视频| 免费观看无遮挡的男女| 亚洲精品一二三| 久久久久久伊人网av| 久久99热6这里只有精品| 国产av精品麻豆| 国产精品女同一区二区软件| 男人添女人高潮全过程视频| 国产成人91sexporn| 久久久久国产精品人妻一区二区| 国产成人精品久久久久久| 精品少妇久久久久久888优播| 日韩视频在线欧美| www.色视频.com| 韩国高清视频一区二区三区| 高清黄色对白视频在线免费看| 啦啦啦中文免费视频观看日本| 国产成人精品一,二区| 91国产中文字幕| 免费日韩欧美在线观看| 99精国产麻豆久久婷婷| 久久国产亚洲av麻豆专区| 在线观看一区二区三区激情| 日韩中字成人| 激情视频va一区二区三区| 免费观看在线日韩| 99久久综合免费| 日韩成人伦理影院| 久久人人爽人人爽人人片va| 久久久国产欧美日韩av| 看非洲黑人一级黄片| 一二三四在线观看免费中文在 | 久久99热这里只频精品6学生| 亚洲三级黄色毛片| 成人国产av品久久久| 国产精品女同一区二区软件| 亚洲第一av免费看| 精品一区二区免费观看| 18禁观看日本| 日产精品乱码卡一卡2卡三| 2021少妇久久久久久久久久久| 亚洲久久久国产精品| 国产激情久久老熟女| 内地一区二区视频在线| 69精品国产乱码久久久| 激情视频va一区二区三区| 国产福利在线免费观看视频| 日韩免费高清中文字幕av| 在线天堂中文资源库| 国产片内射在线| 91成人精品电影| 午夜av观看不卡| 人妻少妇偷人精品九色| 国产成人精品无人区| 亚洲成人手机| 看十八女毛片水多多多| 日日爽夜夜爽网站| 亚洲精品美女久久av网站| 国产片内射在线| 天天影视国产精品| 久久久久久伊人网av| 99热6这里只有精品| 久久精品人人爽人人爽视色| 免费观看a级毛片全部| 亚洲av欧美aⅴ国产| 国产精品女同一区二区软件| 国产一区有黄有色的免费视频| 国产精品偷伦视频观看了| 又黄又粗又硬又大视频| 97超碰精品成人国产| 久久久久久伊人网av| 99热这里只有是精品在线观看| av有码第一页| 中国三级夫妇交换| 最近2019中文字幕mv第一页| 色5月婷婷丁香| 搡女人真爽免费视频火全软件| 亚洲欧美清纯卡通| 青春草视频在线免费观看| 午夜日本视频在线| 亚洲 欧美一区二区三区| 久久精品国产a三级三级三级| 国产精品不卡视频一区二区| 中文欧美无线码| av国产久精品久网站免费入址| 国产又爽黄色视频| 午夜日本视频在线| 啦啦啦视频在线资源免费观看| 午夜福利视频在线观看免费| 精品人妻偷拍中文字幕| 中文字幕最新亚洲高清| 欧美日韩亚洲高清精品| 免费女性裸体啪啪无遮挡网站| 免费av中文字幕在线| 最近的中文字幕免费完整| 五月开心婷婷网| 亚洲欧洲精品一区二区精品久久久 | 在线观看www视频免费| 欧美最新免费一区二区三区| 国产精品久久久久久av不卡| 伦理电影大哥的女人| 午夜免费鲁丝| 成年人免费黄色播放视频| 国产男女内射视频| 久久这里有精品视频免费| 自拍欧美九色日韩亚洲蝌蚪91| 老熟女久久久| www.色视频.com| 纯流量卡能插随身wifi吗| 如日韩欧美国产精品一区二区三区| 男人爽女人下面视频在线观看| 亚洲第一区二区三区不卡| 午夜91福利影院| 性高湖久久久久久久久免费观看| 国产精品久久久久久av不卡| 免费高清在线观看日韩| 国产免费一区二区三区四区乱码| 最近中文字幕2019免费版| 在线观看免费高清a一片| 精品人妻熟女毛片av久久网站| 黑人猛操日本美女一级片| 久久婷婷青草| 国产精品欧美亚洲77777| 男女无遮挡免费网站观看| 国产精品人妻久久久影院| 国产亚洲精品第一综合不卡 | 青春草视频在线免费观看| 少妇的丰满在线观看| 97在线人人人人妻| 亚洲一级一片aⅴ在线观看| 亚洲少妇的诱惑av| 18禁裸乳无遮挡动漫免费视频| av在线app专区| 亚洲国产av影院在线观看| 男人舔女人的私密视频| 日韩精品有码人妻一区| 十八禁高潮呻吟视频| 搡女人真爽免费视频火全软件| 狠狠精品人妻久久久久久综合| 国产福利在线免费观看视频| 国产精品99久久99久久久不卡 | 高清视频免费观看一区二区| 人人妻人人添人人爽欧美一区卜| 国产一区二区三区综合在线观看 | 国产有黄有色有爽视频| 一区二区三区乱码不卡18| 大陆偷拍与自拍| 在线观看免费高清a一片| 日韩熟女老妇一区二区性免费视频| 亚洲精品av麻豆狂野| 看免费成人av毛片| 少妇猛男粗大的猛烈进出视频| 国产在线免费精品| 精品国产国语对白av| 国产高清不卡午夜福利| 国产亚洲精品久久久com| 久久久久久久久久久免费av| 精品久久久精品久久久| 男女免费视频国产| 2021少妇久久久久久久久久久| 亚洲欧美精品自产自拍| 国产 精品1| 大话2 男鬼变身卡| 最近2019中文字幕mv第一页| 在线观看免费日韩欧美大片| 欧美成人精品欧美一级黄| 观看av在线不卡| 久久久久久人人人人人| 一区在线观看完整版| 香蕉精品网在线| 免费在线观看黄色视频的| 九九爱精品视频在线观看| 日韩制服骚丝袜av| av在线老鸭窝| 国产精品三级大全| 亚洲国产精品999| 午夜免费鲁丝| 亚洲经典国产精华液单| 我要看黄色一级片免费的| 高清黄色对白视频在线免费看| a 毛片基地| 男女边摸边吃奶| 亚洲国产色片| 日产精品乱码卡一卡2卡三| 久久精品久久久久久久性| 日本av免费视频播放| 中文字幕亚洲精品专区| 日日撸夜夜添| 亚洲第一av免费看| 激情五月婷婷亚洲| 99国产精品免费福利视频| 亚洲欧美日韩卡通动漫| 90打野战视频偷拍视频| av国产久精品久网站免费入址| 中文字幕另类日韩欧美亚洲嫩草| 9热在线视频观看99| freevideosex欧美| 晚上一个人看的免费电影| 草草在线视频免费看| 久久精品国产鲁丝片午夜精品| 我的女老师完整版在线观看| 日韩一区二区视频免费看| av天堂久久9| 亚洲精品美女久久久久99蜜臀 | 欧美xxⅹ黑人| 亚洲人与动物交配视频| 一区在线观看完整版| 日韩制服丝袜自拍偷拍| 国产欧美另类精品又又久久亚洲欧美| 日韩欧美一区视频在线观看| 综合色丁香网| 国产男女超爽视频在线观看| 国产精品久久久久成人av| 伊人亚洲综合成人网| 国产日韩欧美视频二区| 99热6这里只有精品| 国产精品国产三级专区第一集| 亚洲av综合色区一区| 久久久久精品久久久久真实原创| 国产精品麻豆人妻色哟哟久久| 欧美精品国产亚洲| 国产伦理片在线播放av一区| 男男h啪啪无遮挡| 国产在线视频一区二区| 中国国产av一级| 成人午夜精彩视频在线观看| 亚洲av福利一区| 在线观看一区二区三区激情| www.色视频.com| 久热久热在线精品观看| 日产精品乱码卡一卡2卡三| 亚洲欧美中文字幕日韩二区| 天堂中文最新版在线下载| 久久午夜福利片| 国产免费现黄频在线看| 91在线精品国自产拍蜜月| 熟女av电影| 国国产精品蜜臀av免费| 丝袜喷水一区| 亚洲美女视频黄频| 国产精品久久久久久久久免| 免费高清在线观看视频在线观看| 人妻少妇偷人精品九色| 在线看a的网站| 丰满少妇做爰视频| 久久久国产精品麻豆| 一区二区三区四区激情视频| 99国产精品免费福利视频| 天堂8中文在线网| 伦精品一区二区三区| 久久久久人妻精品一区果冻| 日韩精品免费视频一区二区三区 | 国产在线一区二区三区精| 又粗又硬又长又爽又黄的视频| 久久毛片免费看一区二区三区| 青青草视频在线视频观看| 国产av一区二区精品久久| 国产精品人妻久久久影院| 少妇精品久久久久久久| 中文精品一卡2卡3卡4更新| 国产日韩欧美在线精品| 亚洲一级一片aⅴ在线观看| 乱码一卡2卡4卡精品| 国产一区亚洲一区在线观看| 国产又爽黄色视频| 国产成人精品婷婷| 国产色婷婷99| 国产男人的电影天堂91| 国产xxxxx性猛交| 啦啦啦在线观看免费高清www| 少妇精品久久久久久久| 美女国产视频在线观看| 自线自在国产av| 美女国产视频在线观看| 少妇被粗大的猛进出69影院 | 80岁老熟妇乱子伦牲交| 黄色毛片三级朝国网站| 人成视频在线观看免费观看| 妹子高潮喷水视频| 十分钟在线观看高清视频www| 少妇被粗大的猛进出69影院 | 久久亚洲国产成人精品v| 少妇猛男粗大的猛烈进出视频| 久久99一区二区三区| 国产亚洲一区二区精品| 久久久久久伊人网av| 亚洲人成网站在线观看播放| 热re99久久国产66热| 亚洲av电影在线进入| 在现免费观看毛片| 在线看a的网站| 成人二区视频| 五月玫瑰六月丁香| 久久精品国产亚洲av涩爱| 中文字幕精品免费在线观看视频 | 99久久人妻综合| 国产精品免费大片| 亚洲精品美女久久av网站| 国内精品宾馆在线| 国产精品无大码| 国产色爽女视频免费观看| 久久久久人妻精品一区果冻| 国产av精品麻豆| 久久人人爽人人片av| 日韩制服骚丝袜av| 蜜桃在线观看..| 黄色毛片三级朝国网站| 男的添女的下面高潮视频| 亚洲国产成人一精品久久久| 亚洲内射少妇av| 国产在线视频一区二区| 国产片特级美女逼逼视频| 欧美精品一区二区免费开放| 在线观看一区二区三区激情| 日本av手机在线免费观看| 亚洲欧美一区二区三区黑人 | 日本黄色日本黄色录像| 国产片特级美女逼逼视频| 观看av在线不卡| 日韩电影二区| 在线观看免费高清a一片| 天天躁夜夜躁狠狠久久av| 在线亚洲精品国产二区图片欧美| 高清av免费在线| 少妇高潮的动态图| 最近2019中文字幕mv第一页| 日韩制服骚丝袜av| 宅男免费午夜| 亚洲欧美清纯卡通| 亚洲熟女精品中文字幕| 在线观看一区二区三区激情| av在线播放精品| 人成视频在线观看免费观看| 久久久久久人妻| √禁漫天堂资源中文www| 色94色欧美一区二区| 水蜜桃什么品种好| 精品久久久久久电影网| 国产不卡av网站在线观看| 美女福利国产在线| 亚洲激情五月婷婷啪啪| av在线app专区| 青青草视频在线视频观看| 日本-黄色视频高清免费观看| 黄色 视频免费看| 日本猛色少妇xxxxx猛交久久| 国产白丝娇喘喷水9色精品| 亚洲精品第二区| 极品人妻少妇av视频| 亚洲,欧美精品.| 又黄又粗又硬又大视频| 哪个播放器可以免费观看大片| 国产精品久久久av美女十八| 亚洲色图综合在线观看| 久久免费观看电影| 精品人妻一区二区三区麻豆| 天堂8中文在线网| 纵有疾风起免费观看全集完整版| 九九爱精品视频在线观看| 国产高清国产精品国产三级| 免费观看在线日韩| 久久久久久人人人人人| 男女高潮啪啪啪动态图| 熟女电影av网| 欧美成人精品欧美一级黄| 欧美国产精品一级二级三级| 最近中文字幕2019免费版| 婷婷色av中文字幕| 2018国产大陆天天弄谢| 性高湖久久久久久久久免费观看| 一边摸一边做爽爽视频免费| 日韩中文字幕视频在线看片| 伦理电影大哥的女人| 欧美成人午夜精品| xxx大片免费视频| av有码第一页| 三级国产精品片| 黑人高潮一二区| 五月开心婷婷网| 黄网站色视频无遮挡免费观看| 18禁裸乳无遮挡动漫免费视频| 在线天堂中文资源库| 在线免费观看不下载黄p国产| 国产精品国产三级国产av玫瑰| 国产欧美亚洲国产| 一级黄片播放器| 五月玫瑰六月丁香| 久久久久久久久久久免费av| 建设人人有责人人尽责人人享有的| 国产成人精品婷婷|