• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強(qiáng)化學(xué)習(xí)的新型電力系統(tǒng)調(diào)度優(yōu)化方法綜述

    2023-09-18 07:38:20胡軼婕徐華廷郭創(chuàng)新
    電力系統(tǒng)自動(dòng)化 2023年17期
    關(guān)鍵詞:潮流調(diào)度電網(wǎng)

    馮 斌,胡軼婕,黃 剛,姜 威,徐華廷,郭創(chuàng)新

    (1.浙江大學(xué)電氣工程學(xué)院,浙江省 杭州市 310027;2.之江實(shí)驗(yàn)室,浙江省 杭州市 311121)

    0 引言

    新型電力系統(tǒng)是以確保能源電力安全為基本前提,以綠電消費(fèi)為主要目標(biāo),以堅(jiān)強(qiáng)智能電網(wǎng)為樞紐平臺(tái),以源網(wǎng)荷儲(chǔ)互動(dòng)及多能互補(bǔ)為支撐,具有綠色低碳、安全可控、智慧靈活、開放互動(dòng)、數(shù)字賦能、經(jīng)濟(jì)高效基本特征的電力系統(tǒng)[1]。隨著“碳達(dá)峰·碳中和”目標(biāo)的提出,新能源在電力能源供給中的占比逐漸增加,將形成新能源占比逐漸提高的新型電力系統(tǒng)[2]。未來,電力占終端能源形式的比例需提高至80%[3],非化石能源在生產(chǎn)側(cè)的占比要達(dá)到80%,光伏、風(fēng)電等清潔能源裝機(jī)容量勢必逐年增長。新能源的廣泛接入與迅速發(fā)展使得新型電力系統(tǒng)的隨機(jī)性、不確定性顯著增加,這給傳統(tǒng)的調(diào)度優(yōu)化方法帶來了極大的挑戰(zhàn)。

    強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)擁有強(qiáng)大的自主搜索和學(xué)習(xí)能力,與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并稱現(xiàn)今3 種機(jī)器學(xué)習(xí)范式[4],其側(cè)重于學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。而深度學(xué)習(xí)(deep learning,DL)[5]通過多層的網(wǎng)絡(luò)結(jié)構(gòu),可以對高維數(shù)據(jù)特征進(jìn)行抽取,更側(cè)重于對事物的特征提取與感知理解。結(jié)合RL 與DL 的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)在適應(yīng)復(fù)雜狀態(tài)環(huán)境的同時(shí),能夠無需依賴于預(yù)測數(shù)據(jù)即可實(shí)現(xiàn)在線實(shí)時(shí)的調(diào)度控制,目前已經(jīng)在游戲[6]、圍棋[7]、機(jī)器人控制[8]、城市智慧交通[9]、ChatGPT 智能對話等領(lǐng)域得到了廣泛應(yīng)用,在很多場景下甚至能夠超越人類表現(xiàn)。

    DRL 起源于動(dòng)態(tài)規(guī)劃,其實(shí)質(zhì)是解決一個(gè)動(dòng)態(tài)優(yōu)化問題,理論源于動(dòng)態(tài)規(guī)劃與馬爾可夫決策過程(Markov decision process,MDP),相較于啟發(fā)式搜索算法更具備理論基礎(chǔ)。DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)方法,能夠從歷史經(jīng)驗(yàn)中學(xué)習(xí)決策調(diào)度方法,針對非線性、非凸問題具有很好的自適應(yīng)學(xué)習(xí)決策能力。目前,大多通過無模型的算法處理,避免了對不確定實(shí)時(shí)變化的物理模型進(jìn)行建模,適用于復(fù)雜多變的場景。相較于其他傳統(tǒng)優(yōu)化方法,DRL 對同一問題模型的不同數(shù)據(jù)具有更好的泛化能力,以及在相似問題之間具有更好的遷移性,并已在電網(wǎng)頻率控制[10]、電壓控制[11]等領(lǐng)域得到應(yīng)用。

    本文從DRL 原理出發(fā),對DRL 算法在新型電力系統(tǒng)調(diào)度中的應(yīng)用現(xiàn)狀進(jìn)行了總結(jié)。

    1 新型電力系統(tǒng)調(diào)度問題

    隨著新能源接入比例的提高、電網(wǎng)規(guī)模的不斷擴(kuò)大,為提高系統(tǒng)整體運(yùn)行的經(jīng)濟(jì)性與可靠性,應(yīng)協(xié)調(diào)調(diào)度電網(wǎng)的發(fā)電資源與用電資源。新型電力系統(tǒng)中的調(diào)度問題是為了解決電力系統(tǒng)供需平衡的高維、不確定性強(qiáng)的優(yōu)化問題。其中,電力系統(tǒng)經(jīng)濟(jì)調(diào)度(economic dispatch,ED)、最優(yōu)潮流(optimal power flow,OPF)和機(jī)組組合(unit commitment,UC)問題是電力系統(tǒng)運(yùn)行中的3 個(gè)關(guān)鍵問題。

    1)經(jīng)濟(jì)調(diào)度問題是以最小化電力系統(tǒng)的總運(yùn)營成本為目標(biāo)、滿足電力需求和各種運(yùn)行約束的優(yōu)化問題。傳統(tǒng)的經(jīng)濟(jì)調(diào)度問題是在滿足功率平衡和機(jī)組功率邊界的前提下,確定各火電發(fā)電機(jī)組的有功出力,使得總?cè)剂虾牧浚òl(fā)電成本)最小。隨著新能源出力不確定性的增加,系統(tǒng)的約束條件更加復(fù)雜、不確定性更強(qiáng)。

    2)最優(yōu)潮流問題[12]是指在滿足電力系統(tǒng)潮流等式約束,以及節(jié)點(diǎn)電壓、線路潮流、發(fā)電機(jī)爬坡等不等式約束的情況下,在主網(wǎng)中實(shí)現(xiàn)發(fā)電成本最小或在配電網(wǎng)中實(shí)現(xiàn)網(wǎng)損最小的優(yōu)化問題。最優(yōu)潮流與經(jīng)濟(jì)調(diào)度問題的區(qū)別主要在于是否考慮電力系統(tǒng)潮流等式約束。新型電力系統(tǒng)所含風(fēng)電、光伏等間歇性新能源使得電力系統(tǒng)最優(yōu)潮流問題,尤其是交流最優(yōu)潮流問題[13]的求解更加復(fù)雜。

    3)機(jī)組組合問題是在滿足系統(tǒng)負(fù)荷需求和其他約束條件時(shí)實(shí)現(xiàn)系統(tǒng)運(yùn)行成本最小的機(jī)組啟停計(jì)劃優(yōu)化問題。隨著大量新能源接入,機(jī)組組合方案繁多,不確定性增加,求解更加困難。

    傳統(tǒng)的優(yōu)化調(diào)度方法往往需要對系統(tǒng)做出一系列假設(shè),同時(shí)也難以應(yīng)對系統(tǒng)動(dòng)態(tài)變化的挑戰(zhàn)。隨機(jī)優(yōu)化、魯棒優(yōu)化、分布式魯棒優(yōu)化、啟發(fā)式優(yōu)化算法等傳統(tǒng)優(yōu)化算法被用于解決新型電力系統(tǒng)的不確定性問題,但它們都依賴于精準(zhǔn)的預(yù)測,難以應(yīng)對新能源出力與負(fù)荷需求多變的場景。隨機(jī)優(yōu)化常通過采樣、機(jī)會(huì)約束生成等方式將不確定性問題轉(zhuǎn)化為確定性問題,但是算法復(fù)雜度隨著場景的增加而增加;魯棒優(yōu)化通過給出不確定集的方式解決不確定性問題,但是通常其給出的優(yōu)化結(jié)果僅面向最惡劣的場景,過于保守;啟發(fā)式優(yōu)化算法,如遺傳算法、粒子群算法等,容易陷入局部最優(yōu),而且動(dòng)作復(fù)雜度的增加給啟發(fā)式的優(yōu)化算法帶來嚴(yán)重的維數(shù)災(zāi)問題,難以穩(wěn)定收斂。

    DRL 因其實(shí)時(shí)決策、不斷反饋修正的特性,能夠更好地應(yīng)對新型電力系統(tǒng)新能源的不確定性,可為新型電力系統(tǒng)調(diào)度問題提供新的解決途徑。

    2 DRL 原理

    2.1 從RL 到DRL

    RL 借鑒了行為主義心理學(xué),是一類特殊的機(jī)器學(xué)習(xí)算法。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的回歸分類目標(biāo)不同的是,RL 是一種最大化未來獎(jiǎng)勵(lì)的決策學(xué)習(xí)模型,通過與環(huán)境交互建立的MDP[14]解決復(fù)雜的序列決策問題。RL 中常見的概念包括智能體、環(huán)境、狀態(tài)(state,S)、動(dòng)作(action,A)、獎(jiǎng)勵(lì)(reward,R)。如圖1 所示,智能體處在環(huán)境中,執(zhí)行動(dòng)作后獲得一定的獎(jiǎng)勵(lì),而環(huán)境由于智能體執(zhí)行的動(dòng)作發(fā)生狀態(tài)的變化。依據(jù)每一步獲得的獎(jiǎng)勵(lì),通過特定的算法最大化未來的累計(jì)獎(jiǎng)勵(lì)是RL 算法的核心。詳細(xì)RL 原理見附錄A。

    圖1 智能體與環(huán)境的交互過程Fig.1 Interaction process between agent and environment

    在傳統(tǒng)的RL[15]中,一般可以通過迭代求解貝爾曼最優(yōu)方程獲得最優(yōu)動(dòng)作價(jià)值函數(shù)與狀態(tài)價(jià)值函數(shù),進(jìn)而指導(dǎo)智能體做出選擇。但是在實(shí)際場景下,存在著迭代效率低、計(jì)算代價(jià)大等問題。為此,通常采用參數(shù)化的神經(jīng)網(wǎng)絡(luò)來近似估計(jì)最優(yōu)動(dòng)作價(jià)值函數(shù)和狀態(tài)價(jià)值函數(shù),這也就形成了DRL。

    2.2 DRL 算法

    依據(jù)是否有模型,將DRL 算法分為基于模型的DRL 和無模型的DRL。其中,基于模型的DRL 是指智能體可以學(xué)習(xí)到環(huán)境動(dòng)態(tài)變化的參數(shù)。在無模型的DRL 中,依據(jù)智能體的動(dòng)作選擇方式,又可分為基于價(jià)值、基于策略、執(zhí)行者-評論者的算法,其中,執(zhí)行者-評論者算法也可以看做是結(jié)合了基于價(jià)值與基于策略的算法。

    2.2.1 基于模型的DRL 算法

    基于模型的DRL 算法需要對環(huán)境進(jìn)行建模,然后,基于模型給出策略選擇或者動(dòng)作規(guī)劃,因而其采樣效率較高。該環(huán)境通常指狀態(tài)轉(zhuǎn)移模型,即真實(shí)環(huán)境的動(dòng)態(tài)變化模型。

    結(jié)合無模型微調(diào)的基于模型的RL[16](modelbased RL with model-free fine-tuning,MBMF)是一種基于學(xué)習(xí)到的環(huán)境進(jìn)行模型預(yù)測控制的算法。MBMF 首先基于數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型去學(xué)習(xí)環(huán)境;然后,針對該動(dòng)態(tài)模型執(zhí)行模型預(yù)測控制,并將控制器產(chǎn)生的運(yùn)行結(jié)果進(jìn)一步添加到神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型中進(jìn)行訓(xùn)練。重復(fù)整個(gè)迭代訓(xùn)練過程,直至MBMF 達(dá)到所需的性能表現(xiàn)。

    AlphaZero[17]是一種利用已有環(huán)境的基于模型的DRL 算法。它是AlphaGo[7]的改進(jìn),可實(shí)現(xiàn)從圍棋到各類棋類游戲的智能博弈,通過自主學(xué)習(xí)環(huán)境規(guī)劃搜索策略。AlphaZero 與MuZero[18]通過蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)[19]對所學(xué)習(xí)得到的策略函數(shù)進(jìn)行搜索,實(shí)現(xiàn)了動(dòng)作的多樣性探索。

    2.2.2 基于價(jià)值的DRL 算法

    基于價(jià)值的DRL 算法是通過迭代或者訓(xùn)練得到最優(yōu)動(dòng)作價(jià)值函數(shù),智能體依據(jù)最優(yōu)動(dòng)作價(jià)值函數(shù)選擇獲得最大的最優(yōu)動(dòng)作價(jià)值函數(shù)所對應(yīng)的動(dòng)作,從而實(shí)現(xiàn)了策略選擇。常見的基于價(jià)值的DRL算法包括深度Q 學(xué)習(xí)(deep Q-learning,DQN)[6,20]及其改進(jìn)算法、優(yōu)先經(jīng)驗(yàn)回放[21]、Double Qlearning[22]、Dueling DQN[23]和值分布RL 算法中的C51[24]以及Rainbow DQN[25]等。

    最早提出的RL 算法是基于價(jià)值的Q 學(xué)習(xí)[15]與狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)-狀態(tài)-動(dòng)作(state-action-rewardstate-action,SARSA)[26]算法,它們是通過采用最優(yōu)貝爾曼方程更新Q 值表的方式,迭代得到最優(yōu)動(dòng)作價(jià)值。

    隨后,文獻(xiàn)[6,20]將卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)與傳統(tǒng)RL 算法中的Q 學(xué)習(xí)算法結(jié)合,提出了DQN 模型。為避免蒙特卡洛更新帶來的巨大方差問題,DQN 采用時(shí)間差分算法更新最優(yōu)動(dòng)作價(jià)值函數(shù),更新目標(biāo)如式(1)所示。

    式中:yt為t時(shí)刻由時(shí)間差分算法得到的目標(biāo)動(dòng)作價(jià)值;rt為動(dòng)作得到的獎(jiǎng)勵(lì);γ∈[0,1]為獎(jiǎng)勵(lì)衰減因子;Q(st+1,at;wt)為動(dòng)作價(jià)值的神經(jīng)網(wǎng)絡(luò)函數(shù);st+1為t+1 時(shí)刻的狀態(tài);at為t時(shí)刻的動(dòng)作;wt為t+1 時(shí)刻神經(jīng)網(wǎng)絡(luò)參數(shù)。

    隨后,為解決DQN 過高估計(jì)最優(yōu)動(dòng)作價(jià)值函數(shù)的問題,在Double DQN[22]中引入目標(biāo)網(wǎng)絡(luò),在Dueling DQN[23]中采用競爭架構(gòu)分別估計(jì)優(yōu)勢函數(shù)和狀態(tài)價(jià)值函數(shù)。采用差異化的優(yōu)先經(jīng)驗(yàn)回放[21]提高訓(xùn)練效率,添加高斯噪聲以提高動(dòng)作的探索能力[27]。為充分利用動(dòng)作價(jià)值函數(shù)的分布信息,進(jìn)一步提出了分布式價(jià)值的C51 算法[24]以及學(xué)習(xí)分布分位數(shù)值的分位數(shù)回歸深度Q 學(xué)習(xí)(quantile regression DQN,QR-DQN)算法[28],以及結(jié)合上述所有改進(jìn)的Rainbow DQN[25]算法。

    雖然Rainbow DQN 算法在離散動(dòng)作空間的游戲策略問題上取得了不錯(cuò)的效果,但是只能針對離散動(dòng)作空間進(jìn)行建模。對于實(shí)際問題中常見的連續(xù)動(dòng)作空間則需要進(jìn)行離散化處理,可能會(huì)造成一定動(dòng)作空間的損失和維數(shù)增多的問題。

    2.2.3 基于策略的DRL 算法

    基于策略的DRL 算法也可稱作是基于策略梯度的DRL,相較于基于價(jià)值的DRL,其策略函數(shù)可以直接映射到連續(xù)動(dòng)作空間,對于連續(xù)控制問題具有更好的效果。

    基于策略的DRL 是通過最大化獎(jiǎng)勵(lì)較高動(dòng)作的出現(xiàn)概率,實(shí)現(xiàn)未來期望獎(jiǎng)勵(lì)的最大化。這是一種端到端的學(xué)習(xí)方式,直接優(yōu)化策略的期望獎(jiǎng)勵(lì)。常見的基于策略的RL 算法有:經(jīng)典的策略梯度RL算法[29]、置信域策略優(yōu)化(trust region policy optimization,TRPO)[30]算法、近端策略優(yōu)化(proximal policy optimization,PPO)[31]算法等。

    在基于策略的DRL 中,采用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)來代替策略函數(shù)。策略梯度表示形式如式(2)所示。

    式中:g為策略梯度值;R為獎(jiǎng)勵(lì);b為不依賴于動(dòng)作的基線;st為t時(shí)刻的狀態(tài);T為該情節(jié)所經(jīng)歷的時(shí)間步;π(at∣st;θ) 為策略函數(shù)。 梯度項(xiàng)logπ(at∣st;θ)為希望將情節(jié)獲得的獎(jiǎng)勵(lì)向上提高的梯度。

    參數(shù)更新時(shí)將在現(xiàn)有參數(shù)θ上加上αg,實(shí)現(xiàn)梯度上升,其中,α為學(xué)習(xí)率。上述訓(xùn)練過程將最大化較高獎(jiǎng)勵(lì)動(dòng)作的出現(xiàn)概率。

    RL 算法[29]使用蒙特卡洛方法更新策略梯度,具有較好的穩(wěn)定性,但是采樣效率較低,會(huì)帶來較大的估計(jì)方差。為此在策略學(xué)習(xí)中減去基線,可有效減少方差。由于基于策略的RL 對步長十分敏感,上述方法難以直接選擇合適的步長,如果新舊策略差異過大則不利于學(xué)習(xí)。TRPO[30]通過約束限制新舊策略動(dòng)作的KL(Kullback-Leibler)散度,避免了策略發(fā)生過大參數(shù)更新步的情況,解決了策略梯度更新步長的問題。而PPO[31]則通過模型自適應(yīng)地調(diào)整新舊策略動(dòng)作的KL 散度,以保證策略梯度的穩(wěn)定更新。但是TRPO 和PPO 都是采用同步更新策略的算法,其每次更新都需要采樣大量樣本,算法復(fù)雜度高、訓(xùn)練效率低,并且其應(yīng)用也需要大量算力支撐。

    2.2.4 執(zhí)行者-評論者DRL 算法

    執(zhí)行者-評論者DRL 算法中的執(zhí)行者算法類似于基于策略的DRL 算法,評論者算法類似于基于價(jià)值的DRL 算法。因此,執(zhí)行者-評論者DRL 算法同時(shí)學(xué)習(xí)策略和價(jià)值函數(shù),其框架圖如圖2 所示。執(zhí)行者-評論者也可以被認(rèn)為是一種基于策略的DRL 算法,特殊之處在于它使用了狀態(tài)價(jià)值函數(shù)作為式(2)的基線b,減小了方差,即Aπ(st,at)=Qπ(st,at)-Vπ(st),其中,Qπ(st,at)為動(dòng)作價(jià)值,Vπ(st)為狀態(tài)價(jià)值。Aπ(st,at)也被稱為優(yōu)勢函數(shù),若優(yōu)勢函數(shù)大于0,則表示該動(dòng)作優(yōu)于平均值,是合理的選擇。

    圖2 執(zhí)行者-評論者DRL 算法框架Fig.2 Framework of actor-critic DRL algorithm

    它既結(jié)合了基于價(jià)值和基于策略DRL 算法的優(yōu)點(diǎn),也在一定程度上繼承了二者的缺點(diǎn)。常見的執(zhí)行者-評論者DRL 算法包括確定性策略梯度(deterministic policy gradient,DPG)算法[32]、深度確定性策略梯度(deep deterministic policy gradient,DDPG)[33]算法、柔性執(zhí)行者-評論者(soft actorcritic,SAC)[34]算法、異步優(yōu)勢執(zhí)行者-評論者(asynchronous advantage actor-critic,A3C)[35]算法、雙延遲確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法[36]等。

    DPG 每次確定性地探索一個(gè)動(dòng)作,降低了采樣需求,能夠處理動(dòng)作空間較大的問題,但為保證未知?jiǎng)幼鞯奶剿髂芰?,必須采用異步策略更新方法。DDPG 在DPG 的基礎(chǔ)上借鑒了DQN 在Q 學(xué)習(xí)基礎(chǔ)上改進(jìn)的思想,利用深度神經(jīng)網(wǎng)絡(luò)擬合DDPG 中的Q 函數(shù),采用異步的Critic 估計(jì)策略梯度,使訓(xùn)練更加穩(wěn)定簡單。TD3 在DDPG 的基礎(chǔ)上引入了性能更優(yōu)的Double DQN,并通過取2 個(gè)Critic 之間的最小值避免過擬合,解決了過高估計(jì)以及方差過大的問題。過高的估計(jì)會(huì)使得更新方向與理想情況有偏差,而方差過大會(huì)使得訓(xùn)練不穩(wěn)定。SAC 建立在非策略最大熵RL 框架[37]上,在實(shí)現(xiàn)策略預(yù)期回報(bào)最大化的同時(shí)也具有最大熵,可提升算法的探索能力。

    上述異步策略更新算法可以在策略更新時(shí)重復(fù)利用過去的樣本,對樣本利用效率高。目前,常見的異步策略更新的DRL 算法,均是以DPG 為基礎(chǔ)的確定性策略算法,如DDPG、TD3 等。但是,基于確定性策略的算法對超參數(shù)敏感,收斂難度較大。A3C 中有多個(gè)智能體在中央處理器(central processing unit,CPU)多線程上異步執(zhí)行,使得樣本間的相關(guān)性很低。因此,A3C 中也沒有采用經(jīng)驗(yàn)回放的機(jī)制,而是直接采用同步策略更新機(jī)制。

    2.2.5 多智能體與分層DRL 算法

    在DRL 的基礎(chǔ)上,結(jié)合多智能體、分層級(jí)等理論,提出了一些適用于更加復(fù)雜場景的DRL 算法。

    1)多智能體DRL 算法

    考慮到現(xiàn)實(shí)復(fù)雜的實(shí)際環(huán)境中,往往不止一個(gè)動(dòng)作發(fā)出者,即有許多智能體通過共同交互信息實(shí)現(xiàn)合作或競爭,其主要目標(biāo)是實(shí)現(xiàn)共同獎(jiǎng)勵(lì)的最大化與多智能體之間的均衡。早期的多智能體RL,考慮多智能體之間的互相博弈提出了Nash-Q 學(xué)習(xí)算法[38],這類算法需要大量的存儲(chǔ)空間存儲(chǔ)Q 值,適用于規(guī)模較小的問題。

    近年來,隨著DDPG、A3C 等算法擁有更優(yōu)的性能表現(xiàn),目前,多智能體DRL 大多基于執(zhí)行者-評論者算法框架,其中,最具有代表性的是多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)[39]和反事實(shí)基線的多智能體執(zhí)行者-評論者[40]。它們均采用集中式訓(xùn)練、分布式執(zhí)行的算法模式,利用所有狀態(tài)信息集中訓(xùn)練出評論者,每個(gè)智能體僅采用自身觀測到的信息,執(zhí)行各自的動(dòng)作。在智能體動(dòng)作執(zhí)行期間,解決了多智能體間信息及時(shí)共享的問題。在新型電力系統(tǒng)調(diào)度問題中,常見的多區(qū)域電網(wǎng)、微電網(wǎng)(microgrid,MG)、綜合能源系統(tǒng)都可以采用多智能體DRL 算法進(jìn)行求解。

    此外,在基于價(jià)值分解的多智能體DRL 算法中,多個(gè)智能體通過簡單加和局部價(jià)值函數(shù)[41]或采用非線性混合網(wǎng)絡(luò)[42]聯(lián)合價(jià)值函數(shù),將各主體觀測到的局部價(jià)值函數(shù)合并為聯(lián)合價(jià)值函數(shù)。因此,此類算法大多用于共同合作問題。

    2)分層DRL 算法

    一個(gè)復(fù)雜問題往往會(huì)有龐大的狀態(tài)空間與動(dòng)作空間,導(dǎo)致實(shí)際獎(jiǎng)勵(lì)是非常稀疏的,而分層DRL 算法的提出將改善獎(jiǎng)勵(lì)反饋稀疏的問題。分層DRL[43]可以在一些復(fù)雜的DRL 任務(wù)環(huán)境下,將最終任務(wù)轉(zhuǎn)變?yōu)槎鄠€(gè)子任務(wù)的形式,實(shí)現(xiàn)DRL 任務(wù)的分解。通過各子主體策略來形成有效的全局策略。

    經(jīng)典分層強(qiáng)化學(xué)習(xí)方法是將復(fù)雜問題建模為半馬爾可夫過程,底層策略建模為MDP 問題。經(jīng)典的分層強(qiáng)化學(xué)習(xí)算法包括Option[44]、分層抽象機(jī)(hierarchies of abstract machines,HAMs)[45]、

    MAXQ[46]算法等。當(dāng)今,結(jié)合深度學(xué)習(xí)的分層DRL算法采用2 層結(jié)構(gòu):上層結(jié)構(gòu)每隔一段時(shí)間進(jìn)行調(diào)用,根據(jù)調(diào)用時(shí)觀測到的狀態(tài),給出下層子任務(wù);下層結(jié)構(gòu)作為底層結(jié)構(gòu),根據(jù)當(dāng)前目標(biāo)狀態(tài)和子任務(wù)產(chǎn)生動(dòng)作。例如,分層DQN[47]的雙層均采用DQN網(wǎng)絡(luò),上層制定一個(gè)下層能夠?qū)崿F(xiàn)的小目標(biāo)并由下層網(wǎng)絡(luò)實(shí)現(xiàn),待小目標(biāo)實(shí)現(xiàn)后或達(dá)到指定時(shí)間后,重復(fù)指定新的小目標(biāo);子策略共享分層DRL 算法[48]將子策略參數(shù)共享,以提升子任務(wù)的訓(xùn)練效率。文獻(xiàn)[49]將分層DRL 算法應(yīng)用于多微電網(wǎng)經(jīng)濟(jì)調(diào)度模型,實(shí)現(xiàn)了長短期利益結(jié)合的分布式經(jīng)濟(jì)調(diào)度。

    3 DRL 在新型電力系統(tǒng)調(diào)度中的應(yīng)用分析

    將DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度問題時(shí),需要定義DRL 中的智能體、環(huán)境、狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)。智能體指動(dòng)作的發(fā)出者,也可認(rèn)為是系統(tǒng)運(yùn)行人員;環(huán)境指電力系統(tǒng);狀態(tài)指環(huán)境中各個(gè)設(shè)備當(dāng)前的運(yùn)行狀態(tài),如發(fā)電機(jī)上一時(shí)刻出力、電熱功率需求、風(fēng)光實(shí)時(shí)功率、目前所處的時(shí)段等;動(dòng)作指系統(tǒng)中可以人為控制調(diào)節(jié)的變量,如發(fā)電機(jī)出力、儲(chǔ)能等;獎(jiǎng)勵(lì)通常是需要實(shí)現(xiàn)的目標(biāo),如最小化系統(tǒng)運(yùn)行成本、最大化新能源消納、最小化電壓頻率偏差等。關(guān)于DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度的文獻(xiàn)詳見附錄B。

    3.1 經(jīng)濟(jì)調(diào)度問題

    在經(jīng)濟(jì)調(diào)度問題中需要決策的變量均為連續(xù)變量。因此,常采用DDPG、A3C、PPO 等具有連續(xù)動(dòng)作空間的DRL 算法。

    1)大電網(wǎng)

    針對含有風(fēng)光儲(chǔ)的大電網(wǎng)經(jīng)濟(jì)調(diào)度問題,文獻(xiàn)[50]在考慮備用的情況下,采用DDPG 應(yīng)對風(fēng)光荷不確定性以實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)經(jīng)濟(jì)調(diào)度,但DDPG 不能夠?qū)崿F(xiàn)異步采樣。文獻(xiàn)[51]依據(jù)電網(wǎng)調(diào)度運(yùn)行指令下發(fā)的實(shí)際特點(diǎn),考慮聯(lián)絡(luò)線功率、風(fēng)電場出力,采用A3C 算法實(shí)現(xiàn)多場景并行學(xué)習(xí)的智能經(jīng)濟(jì)調(diào)度。

    當(dāng)涉及多區(qū)域電網(wǎng)經(jīng)濟(jì)調(diào)度問題時(shí),由于模型復(fù)雜,涉及動(dòng)作空間大,常采用多智能體的算法降低動(dòng)作空間復(fù)雜度。文獻(xiàn)[52]提出的基于通信網(wǎng)絡(luò)架構(gòu)(CommNet)的分布式多智能體DRL 算法,在訓(xùn)練過程中可使各區(qū)域智能體間無須共享光伏、負(fù)荷預(yù)測數(shù)據(jù)和設(shè)備參數(shù)等信息。為避免有效決策信息的損失,文獻(xiàn)[53-54]沒有利用預(yù)測信息,直接采用端到端決策來進(jìn)一步提升調(diào)度的經(jīng)濟(jì)性。

    2)微電網(wǎng)

    針對含有風(fēng)光儲(chǔ)的微電網(wǎng)經(jīng)濟(jì)調(diào)度問題,文獻(xiàn)[55-59]的動(dòng)作對象均為儲(chǔ)能充放電,實(shí)現(xiàn)的目標(biāo)分別為光儲(chǔ)充電站收益最大化、微電網(wǎng)經(jīng)濟(jì)穩(wěn)定運(yùn)行、負(fù)荷需求與發(fā)電功率的精準(zhǔn)匹配、最小化運(yùn)行成本(并網(wǎng))和盡量滿足負(fù)荷需求(孤島)。文獻(xiàn)[59-60]都考慮能源出力的隨機(jī)性,構(gòu)建了運(yùn)行期望最小化獎(jiǎng)勵(lì)函數(shù)??紤]到多微電網(wǎng)的動(dòng)作空間維度以及學(xué)習(xí)復(fù)雜度,需要采用分層分布式的方式實(shí)現(xiàn)在線經(jīng)濟(jì)調(diào)度[49]。

    3)虛擬電廠

    針對含有風(fēng)光儲(chǔ)的虛擬電廠(virtual power plant,VPP)經(jīng)濟(jì)調(diào)度問題,文獻(xiàn)[61]將工業(yè)用戶中的可控負(fù)荷作為一種調(diào)度資源,考慮了光伏、風(fēng)電、微型燃?xì)廨啓C(jī)的環(huán)保與經(jīng)濟(jì)成本,基于A3C 算法的三層邊緣計(jì)算框架實(shí)現(xiàn)經(jīng)濟(jì)運(yùn)行策略的高效求解。文獻(xiàn)[62]考慮了儲(chǔ)能系統(tǒng),基于對抗生成網(wǎng)絡(luò)生成的場景數(shù)據(jù)集以及DDPG 算法實(shí)現(xiàn)虛擬電廠的魯棒經(jīng)濟(jì)調(diào)度。但上述文獻(xiàn)并未考慮響應(yīng)信號(hào)在虛擬電廠內(nèi)部的分解,文獻(xiàn)[63]則考慮了上級(jí)總的響應(yīng)信號(hào)分解問題,并采用銳度感知最小化算法[64],提升了算法對環(huán)境和獎(jiǎng)勵(lì)的魯棒性。

    4)綜合能源系統(tǒng)

    在含有熱、電、天然氣等綜合能源系統(tǒng)(integrated energy system,IES)經(jīng)濟(jì)調(diào)度問題中,文獻(xiàn)[65]采用DDPG 算法使綜合能源系統(tǒng)中的熱電聯(lián)供機(jī)組的電功率、燃?xì)忮仩t輸出的熱功率、儲(chǔ)能的充放電功率的經(jīng)濟(jì)調(diào)度動(dòng)作空間處于連續(xù)狀態(tài)。由于DDPG 對超參數(shù)敏感且動(dòng)作空間探索不足,采樣效率較低,文獻(xiàn)[66]采用SAC 算法,解決了電-氣綜合能源系統(tǒng)中天然氣系統(tǒng)利用傳統(tǒng)優(yōu)化方法難以凸化和收斂的問題,可有效應(yīng)對源荷不確定性,并實(shí)現(xiàn)RL 智能體模型秒級(jí)優(yōu)化調(diào)度決策。

    考慮到DRL 算法對復(fù)雜動(dòng)作空間探索難度大,文獻(xiàn)[67]采用雙層RL 模型,上層采用RL 算法實(shí)現(xiàn)電池出力調(diào)度,下層采用混合整數(shù)線性規(guī)劃求解綜合能源系統(tǒng)經(jīng)濟(jì)調(diào)度問題,避免了約束作為懲罰項(xiàng)帶來的DRL 算法復(fù)雜度增加問題,提升了模型計(jì)算效率。

    然而上述方法在保證約束的安全性上仍有一些欠缺,需要采用一些保障安全的算法。文獻(xiàn)[68]采用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建新能源預(yù)測模型[69],并引入了安全引導(dǎo)函數(shù)來保障策略的安全性,實(shí)現(xiàn)了綜合能源系統(tǒng)的安全低碳經(jīng)濟(jì)運(yùn)行。

    相較于大電網(wǎng)、微電網(wǎng)、虛擬電廠,綜合能源系統(tǒng)可以實(shí)現(xiàn)多能源利用互補(bǔ)。例如,通過熱電聯(lián)供機(jī)組實(shí)現(xiàn)電力和熱量的同時(shí)生產(chǎn);通過燃?xì)忮仩t輸出熱功率;通過電轉(zhuǎn)氣單元將電力轉(zhuǎn)換為氣體。隨著需要控制的設(shè)備種類及參數(shù)增多,動(dòng)作空間也將增加,會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂速度下降,甚至造成維數(shù)災(zāi)難。多智能體DRL 作為一種有效處理多智能體參與的決策方法,也逐漸在大規(guī)模綜合能源系統(tǒng)的經(jīng)濟(jì)調(diào)度問題中得到應(yīng)用。文獻(xiàn)[70]將綜合能源系統(tǒng)中的多個(gè)利益主體建模為多智能體,文獻(xiàn)[71-72]將多綜合能源區(qū)域(園區(qū))建模為多個(gè)主體,而文獻(xiàn)[73]將電力系統(tǒng)和熱力系統(tǒng)分別建模為2 個(gè)主體。它們均取得了比單一智能體DRL 算法更優(yōu)的收斂速度和經(jīng)濟(jì)效益。同時(shí),通過集中訓(xùn)練分散執(zhí)行的算法流程,可以解決各利益主體之間數(shù)據(jù)共享的問題。

    3.2 最優(yōu)潮流問題

    文獻(xiàn)[74]將傳統(tǒng)Q 學(xué)習(xí)算法應(yīng)用于電力系統(tǒng)最優(yōu)潮流計(jì)算領(lǐng)域,實(shí)現(xiàn)電力系統(tǒng)有功、無功、多目標(biāo)的最優(yōu)潮流計(jì)算。

    但是,傳統(tǒng)的Q 學(xué)習(xí)采用離散動(dòng)作,會(huì)損失一部分動(dòng)作空間,為此需要采用基于策略或者執(zhí)行者-評論者的DRL 算法。文獻(xiàn)[75]基于CloudPSS 仿真云平臺(tái),驗(yàn)證了基于DDPG 的最優(yōu)潮流計(jì)算的可行性;由于DDPG 中的評論者網(wǎng)絡(luò)難訓(xùn)練、不穩(wěn)定,文獻(xiàn)[76]雖然基于DDPG 算法構(gòu)建了執(zhí)行者網(wǎng)絡(luò),但沒有使用評論者網(wǎng)絡(luò),而是基于拉格朗日數(shù)學(xué)解析推導(dǎo)得到了確定性梯度。由于PPO 相比于DDPG具有更高的采樣效率、更穩(wěn)定的學(xué)習(xí)策略,以及更容易調(diào)節(jié)的超參數(shù),文獻(xiàn)[77-78]采用基于模仿學(xué)習(xí)的PPO 算法求解交流最優(yōu)潮流問題。

    前述的最優(yōu)潮流問題是針對主網(wǎng)的,而配電網(wǎng)由于沒有大型發(fā)電機(jī)組,其研究對象是在滿足潮流約束的同時(shí),通過潮流合理分配使得網(wǎng)損最小。文獻(xiàn)[79]基于PPO 算法控制儲(chǔ)能有功功率、無功功率以及風(fēng)電的無功功率,實(shí)現(xiàn)了在不違反電壓和電池儲(chǔ)能容量約束的情況下配電網(wǎng)網(wǎng)損的最小化。文獻(xiàn)[80]采用完全分布式的PPO 算法,實(shí)現(xiàn)了不平衡配電網(wǎng)的光伏有功功率最大化輸出與電壓穩(wěn)定。

    針對互聯(lián)的微電網(wǎng),由于其動(dòng)作空間大,傳統(tǒng)單一智能體算法難以滿足計(jì)算需求,需要建模為多智能體DRL 問題求解。文獻(xiàn)[81]依據(jù)智能體的連續(xù)離散動(dòng)作空間,設(shè)置了雙層DRL,并將潮流等式約束設(shè)置在環(huán)境中;文獻(xiàn)[82]將潮流等安全約束構(gòu)建成梯度信息,保證最優(yōu)控制策略產(chǎn)生安全可行的決策方案。

    由于并不是所有場景下的調(diào)度問題都是非凸的,可以將凸的子問題抽離出來,構(gòu)建優(yōu)化問題與DRL 結(jié)合的雙層求解結(jié)構(gòu)。文獻(xiàn)[83]將居民微電網(wǎng)的最優(yōu)運(yùn)行成本問題建模成混合整數(shù)二階錐的優(yōu)化問題,并將其轉(zhuǎn)化為MDP 主問題與最優(yōu)潮流二階錐優(yōu)化子問題,主問題采用MuZero[18]算法得到較優(yōu)的在線優(yōu)化結(jié)果。文獻(xiàn)[84]針對互聯(lián)微電網(wǎng)在信息不全情況下的潮流能量管理問題,考慮在配電網(wǎng)層面只能獲取公共連接點(diǎn)(point of common coupling,PCC)處的功率信息,設(shè)計(jì)了雙層算法。在上層基于改進(jìn)的Q 學(xué)習(xí)實(shí)現(xiàn)互聯(lián)微電網(wǎng)購售電成本最優(yōu),在下層針對單個(gè)微電網(wǎng)實(shí)現(xiàn)最優(yōu)潮流。文獻(xiàn)[81]雖然也采用了雙層DRL,但實(shí)際上是將離散動(dòng)作空間和連續(xù)動(dòng)作空間作為前后2 層DRL 的決策空間。

    安全約束最優(yōu)潮流[85]增加了可靠性約束來確保電力系統(tǒng)能夠承受一定預(yù)想故障的沖擊。由于安全約束最優(yōu)潮流需要搜索預(yù)想故障集,如果采用基于優(yōu)化的交流最優(yōu)潮流,其計(jì)算量也非常大;而DRL 方法的提出,將有助于在交流最優(yōu)潮流的基礎(chǔ)上實(shí)現(xiàn)安全約束最優(yōu)潮流。文獻(xiàn)[86]以最小化約束越限為獎(jiǎng)勵(lì),以提升系統(tǒng)在各種隨機(jī)場景下的N-1安全性為核心,采用A3C 算法結(jié)合電力領(lǐng)域知識(shí)在減小負(fù)荷削減量的同時(shí)降低了系統(tǒng)運(yùn)行成本。

    DRL 算法能夠在一定程度上解決電力系統(tǒng)交流最優(yōu)潮流的精確求解問題,尤其是在非凸約束增多時(shí),優(yōu)化求解復(fù)雜度會(huì)急劇提升。而DRL 在處理類似問題時(shí)可以進(jìn)行精確建模,而不必為實(shí)現(xiàn)凸優(yōu)化而損失模型精度,甚至可以得到比凸松弛后的交流最優(yōu)潮流優(yōu)化問題更經(jīng)濟(jì)的解。此外,DRL 算法在需要大規(guī)模搜索時(shí)也有一定優(yōu)勢。

    由于最優(yōu)潮流問題需要考慮潮流等式約束,因而相較于經(jīng)濟(jì)調(diào)度問題,其動(dòng)作空間受到一定的限制,這也是當(dāng)前基于DRL 算法求解最優(yōu)潮流的難點(diǎn)。這需要保證在潮流等式約束被滿足的同時(shí),處理新能源出力的不確定性并尋求最優(yōu)發(fā)電調(diào)度計(jì)劃?,F(xiàn)階段文獻(xiàn)主要將潮流等式約束放在環(huán)境中處理,較少文獻(xiàn)將潮流等式約束融合至策略產(chǎn)生的約束中,形成安全的策略[82]。

    3.3 機(jī)組組合問題

    文獻(xiàn)[87]采用RL 算法求解機(jī)組組合問題,而文獻(xiàn)[88]采用分布式Q 學(xué)習(xí)算法,因僅涉及局部通信,提高了求解的魯棒性。但是,Q 學(xué)習(xí)算法的動(dòng)作空間受Q 表格的限制,難以處理高維動(dòng)作狀態(tài)。為此,文獻(xiàn)[89]采用深度神經(jīng)網(wǎng)絡(luò)逼近Q 函數(shù)的DQN算法實(shí)現(xiàn)高維機(jī)組組合動(dòng)作空間的探索。為應(yīng)對新能源出力的不確定性,文獻(xiàn)[90]針對隨機(jī)波動(dòng)的光伏出力,采用全連接神經(jīng)網(wǎng)絡(luò)擬合Q 值求解考慮光伏出力的機(jī)組組合問題。

    由于機(jī)組組合的動(dòng)作空間隨著機(jī)組數(shù)量而急劇增長,在現(xiàn)有文獻(xiàn)中,Q 學(xué)習(xí)算法最多僅能應(yīng)用于含12 臺(tái)機(jī)組的算例。為進(jìn)一步克服機(jī)組動(dòng)作空間隨機(jī)組數(shù)量呈幾何增長的問題,文獻(xiàn)[91]采用引導(dǎo)樹搜索方法實(shí)現(xiàn)了對動(dòng)作空間的快速高效搜索,可求解30 臺(tái)機(jī)組組合問題,相比于混合整數(shù)線性規(guī)劃算法,可減少機(jī)組的頻繁動(dòng)作,并在降低系統(tǒng)運(yùn)行成本的同時(shí)減少了負(fù)荷損失概率。

    通常在機(jī)組組合問題中,除決策機(jī)組啟停的離散量外,還需要同時(shí)給出機(jī)組出力的連續(xù)決策變量。文獻(xiàn)[89,91]采用Lambda 迭代法進(jìn)行求解;文獻(xiàn)[88]將機(jī)組組合和經(jīng)濟(jì)調(diào)度問題建模為一個(gè)問題,將連續(xù)機(jī)組出力作為動(dòng)作對象,動(dòng)作空間則滿足機(jī)組啟停等約束。文獻(xiàn)[92]采用SAC 確定機(jī)組啟停計(jì)劃,然后通過Cplex 求解器求解單時(shí)段優(yōu)化問題得到機(jī)組出力。而文獻(xiàn)[87,90]并未提及機(jī)組出力的決策過程。

    在機(jī)組組合問題中,機(jī)組啟停動(dòng)作空間是一個(gè)離散的動(dòng)作空間。采用諸如DQN、PPO 等一般的DRL 算法難以有效應(yīng)對機(jī)組數(shù)增加而帶來動(dòng)作空間維度呈指數(shù)增長的問題。因而,基于一般的DRL算法僅能夠解決機(jī)組數(shù)較少的機(jī)組組合問題,并且較少涉及新能源接入。但一般的DRL 算法對環(huán)境的探索能力有限,需要結(jié)合樹搜索算法或者智能體提前預(yù)知一定的環(huán)境模型信息,進(jìn)而提升或引導(dǎo)智能體對高維動(dòng)作空間的探索效率。

    機(jī)組組合問題作為一個(gè)長時(shí)間序列決策問題,即使采用先進(jìn)的DRL 技術(shù)也難以實(shí)現(xiàn)較好的決策,目前在仿真算例中仍存在較多的問題亟待解決。其中,一個(gè)較為關(guān)鍵的問題是用電計(jì)劃無法完全被滿足。在理論研究中,常將用電計(jì)劃滿足程度表述為失負(fù)荷風(fēng)險(xiǎn)。由于機(jī)組組合的動(dòng)作空間極大,在機(jī)組數(shù)量較多、測試時(shí)間較長的情況下,失負(fù)荷通常是不可避免的。因此,后續(xù)的研究重點(diǎn)是改進(jìn)動(dòng)作空間的建模形式或采用學(xué)習(xí)能力更強(qiáng)的算法等以確保用電計(jì)劃完全滿足。

    3.4 應(yīng)用前景分析

    由于電網(wǎng)對于安全性和供電可靠性要求較高,實(shí)際落地應(yīng)用不可能一蹴而就??紤]到?jīng)Q策的穩(wěn)定性、安全性以及誤決策的危害,可以先在配電網(wǎng)或用戶側(cè)進(jìn)行一些嘗試,然后,再從小區(qū)域低電壓等級(jí)慢慢推廣到大區(qū)域高電壓等級(jí)。在配電網(wǎng)側(cè),由于涉及的設(shè)備種類多樣、波動(dòng)性較大,對于算法的實(shí)時(shí)性要求高,可以采用DRL 算法進(jìn)行實(shí)時(shí)經(jīng)濟(jì)調(diào)度、設(shè)備出力控制、電壓控制等,以實(shí)現(xiàn)配電網(wǎng)眾多設(shè)備的安全實(shí)時(shí)經(jīng)濟(jì)運(yùn)行。在用戶側(cè),可以實(shí)時(shí)獲取價(jià)格信號(hào)和屋頂光伏等新能源出力信息,采用DRL 算法實(shí)時(shí)控制需求響應(yīng)、家用電器、溫控負(fù)荷等。文獻(xiàn)[93]將RL 算法應(yīng)用于美國科羅拉多州一個(gè)包含27個(gè)家庭的微電網(wǎng)中, 應(yīng)用結(jié)果表明,采用RL 算法可大幅度降低用戶用電成本,實(shí)現(xiàn)秒級(jí)別的優(yōu)化控制。文獻(xiàn)[94]采用擬合Q 迭代算法實(shí)現(xiàn)電熱水器的控制。該項(xiàng)目是住宅需求響應(yīng)試點(diǎn)項(xiàng)目的一部分,其中,10 臺(tái)電熱水器用于直接負(fù)荷控制,每臺(tái)電熱水器配備了8 個(gè)溫度傳感器和1 個(gè)可控功率加熱裝置。在試點(diǎn)項(xiàng)目中,相比于恒溫控制器,采用RL算法可使電熱水器的總能耗成本降低15%。2021年5—6 月,上海某寫字樓中央冷水機(jī)組采用RL 算法控制冷卻機(jī)組和冷卻水泵來重設(shè)定點(diǎn)溫度[95],實(shí)現(xiàn)了近似專家系統(tǒng)的控制效果,并驗(yàn)證了RL 決策系統(tǒng)的魯棒性、穩(wěn)定性和學(xué)習(xí)速度。

    在大電網(wǎng)側(cè),隨著新能源廣泛接入,源荷波動(dòng)愈加劇烈,系統(tǒng)對于日內(nèi)實(shí)時(shí)優(yōu)化的需求上升??梢韵炔扇?shù)據(jù)接入、輔助決策方式進(jìn)行試點(diǎn)運(yùn)行。如果在試點(diǎn)過程中出現(xiàn)錯(cuò)誤,則需要對算法進(jìn)一步校驗(yàn),必要時(shí)可以增加一些人工調(diào)度經(jīng)驗(yàn)規(guī)則,采用數(shù)據(jù)知識(shí)混合驅(qū)動(dòng)的方法保證決策的正確性。常見的實(shí)時(shí)調(diào)度場景包括日前和日內(nèi)的實(shí)時(shí)計(jì)劃動(dòng)態(tài)快速調(diào)整、電力市場實(shí)時(shí)的報(bào)價(jià)出清策略等。文獻(xiàn)[96]所研發(fā)的電網(wǎng)腦于2019 年11 月部署在中國江蘇電網(wǎng)調(diào)控中心安全Ⅰ區(qū)。電網(wǎng)腦能在滿足調(diào)控需求的前提下,在20 ms 內(nèi)對電壓、潮流越界等問題提供解決方案,快速消除風(fēng)險(xiǎn),同時(shí)降低約3.5%的網(wǎng)損。該成果可用于輔助調(diào)度員對電壓與聯(lián)絡(luò)線潮流進(jìn)行控制,進(jìn)一步可作為全自動(dòng)化調(diào)度的基礎(chǔ)技術(shù)手段。

    在海量數(shù)據(jù)場景下,DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)的決策方案,能夠在保證目標(biāo)最優(yōu)性的同時(shí)更快速地求解目標(biāo)函數(shù),獲得比傳統(tǒng)方法更高效經(jīng)濟(jì)的策略[86,91]。例如,在風(fēng)險(xiǎn)評估中,DRL 可以快速搜索高風(fēng)險(xiǎn)級(jí)聯(lián)故障[97-98],也可以將DRL 與電力系統(tǒng)運(yùn)籌優(yōu)化方法深度結(jié)合,通過DRL 加速優(yōu)化計(jì)算或者實(shí)現(xiàn)精確建模與求解。

    4 研究方向展望

    DRL 算法能夠?qū)χ悄荏w進(jìn)行針對性訓(xùn)練,并能夠根據(jù)場景的變化快速求得最優(yōu)管理策略,滿足電網(wǎng)運(yùn)行的實(shí)時(shí)性要求。但DRL 作為一種基于深度神經(jīng)網(wǎng)絡(luò)的算法,需要大量學(xué)習(xí)仿真數(shù)據(jù),并且所得到的結(jié)果較難解釋。電力系統(tǒng)調(diào)度是電力系統(tǒng)的核心環(huán)節(jié),一般不允許出現(xiàn)差錯(cuò)。若DRL 在電力系統(tǒng)調(diào)度中獲得應(yīng)用,還需要在以下方面做進(jìn)一步深入的研究。

    1)建立真實(shí)的電網(wǎng)仿真環(huán)境

    DRL 需要大量學(xué)習(xí)仿真數(shù)據(jù)。在電力系統(tǒng)中,通常需要單獨(dú)搭建適配于電力系統(tǒng)的環(huán)境,智能體在與環(huán)境交互的過程中,產(chǎn)生大量情節(jié),這也就是DRL 需要學(xué)習(xí)的仿真數(shù)據(jù)。DRL 的目標(biāo)是最大化獎(jiǎng)勵(lì),因此,可以通過獎(jiǎng)勵(lì)的設(shè)置對違反的約束給予懲罰,將需要實(shí)現(xiàn)的經(jīng)濟(jì)性、安全性目標(biāo)設(shè)置在獎(jiǎng)勵(lì)中??紤]到DRL 的訓(xùn)練需要搭建類似于Gym[99]的電網(wǎng)環(huán)境,當(dāng)前已有不少開源工作者構(gòu)建了類似的開源環(huán)境庫,例如,Gym-ANM[100]、PowerGym[101]、Grid2op[102]等。未來,需要基于數(shù)字孿生,搭建電網(wǎng)仿真系統(tǒng),加強(qiáng)數(shù)字資源的積累,為應(yīng)用提供基礎(chǔ)。

    2)算法性能的提升

    隨著建模對象和環(huán)境逐漸復(fù)雜,在大規(guī)模復(fù)雜環(huán)境下DRL 收斂求解時(shí)間也會(huì)隨之增加。如果在實(shí)際中求解一個(gè)大規(guī)模復(fù)雜新型電力系統(tǒng)調(diào)度問題時(shí),必然會(huì)遇到維度災(zāi)難問題。當(dāng)動(dòng)作空間維數(shù)過大時(shí),可搜索的動(dòng)作空間將很大,進(jìn)而影響DRL 收斂速度和動(dòng)作的準(zhǔn)確性。此外,如果是類似機(jī)組組合問題的0-1 離散變量過多,也會(huì)加劇DRL 訓(xùn)練的難度。隨著DRL 理論的不斷發(fā)展,未來可以考慮引入模仿學(xué)習(xí)、元學(xué)習(xí)的思想[103],以便縮短復(fù)雜環(huán)境下智能體的培訓(xùn)時(shí)間,提高性能。

    在與環(huán)境交互計(jì)算方面,當(dāng)前智能體與環(huán)境的模擬交互過程以及數(shù)據(jù)的傳輸通信仍然是通過CPU 完成的。如果能夠開發(fā)類似于Isaac Gym 的圖形處理器(graphics processing unit,GPU)環(huán)境,環(huán)境的模擬和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都將置于GPU 內(nèi),使得數(shù)據(jù)直接從內(nèi)存?zhèn)鬟f到GPU 的訓(xùn)練框架中(如PyTorch),不受CPU 數(shù)據(jù)傳輸限制,則將大大加快目前的訓(xùn)練速度,進(jìn)一步提高DRL 求解大規(guī)模復(fù)雜問題的性能。

    3)安全性研究

    由于DRL 方法輸出的決策存在不確定性,其安全性不如傳統(tǒng)優(yōu)化算法,可能會(huì)給出不符合電網(wǎng)安全運(yùn)行的結(jié)果,這時(shí)便需要算法有能力給出規(guī)避機(jī)制,實(shí)現(xiàn)電力系統(tǒng)的安全穩(wěn)定運(yùn)行。對于新能源全部消納的要求,可以允許存在一定的棄風(fēng)棄光,但在有嚴(yán)格物理安全約束要求時(shí),如果DRL 不能夠完全確保得出的決策滿足安全約束,將會(huì)導(dǎo)致系統(tǒng)安全問題。當(dāng)前許多研究基于DRL 的調(diào)度文獻(xiàn)未涉及系統(tǒng)安全約束的問題,即使是涉及系統(tǒng)安全性的文獻(xiàn),也基本是將約束建模成獎(jiǎng)勵(lì)函數(shù)懲罰項(xiàng)的形式,極少從數(shù)學(xué)理論上證明DRL 算法可滿足安全約束條件。也有將約束在建模過程中直接融合在MDP過程中,形成安全可靠的DRL 算法。進(jìn)一步,也可嘗試采用安全RL 算法[104]保證策略操作的安全性。

    4)可解釋性研究

    傳統(tǒng)基于價(jià)值或基于策略的DRL 算法,具備強(qiáng)邏輯性和可解釋性。但神經(jīng)網(wǎng)絡(luò)模型也被稱為黑盒子模型,缺乏一定的解釋性。而DRL 是在RL 的基礎(chǔ)上,引入了神經(jīng)網(wǎng)絡(luò)來擬合價(jià)值函數(shù)或(和)策略函數(shù),對復(fù)雜問題的建模具有更好的實(shí)驗(yàn)效果。但是,神經(jīng)網(wǎng)絡(luò)的引入不利于其可解釋性,難以在實(shí)際應(yīng)用中從原理上說服調(diào)度人員依據(jù)DRL 算法給出的決策進(jìn)行操作。未來,可結(jié)合可解釋性機(jī)器學(xué)習(xí)給出可解釋性的策略動(dòng)作,提升DRL 的可解釋性,讓調(diào)度人員更易于接受人工智能算法的決策結(jié)果。

    5)遷移性和魯棒性研究

    目前,研究性論文中智能體所處的環(huán)境都是電力系統(tǒng)仿真模擬環(huán)境,數(shù)據(jù)均為理想化的數(shù)據(jù),不存在數(shù)據(jù)干擾的情況。而在實(shí)際運(yùn)行的電力系統(tǒng)環(huán)境下,如何保證DRL 算法的正確性、保證模型的魯棒性是值得考慮的問題。文獻(xiàn)[63]通過使用銳度感知最小化[64]實(shí)現(xiàn)了噪聲的魯棒性,此外,在DRL 算法領(lǐng)域也出現(xiàn)了魯棒DRL 算法[105],這也是未來可以嘗試的解決方法。

    5 結(jié)語

    本文介紹了新型電力系統(tǒng)調(diào)度問題,闡述了基于模型、基于價(jià)值、基于策略和執(zhí)行者-評論者的DRL 算法原理,以及在調(diào)度中可嘗試應(yīng)用的DRL算法。在經(jīng)濟(jì)調(diào)度問題中,分別從大電網(wǎng)、微電網(wǎng)、虛擬電廠、綜合能源系統(tǒng)角度總結(jié)了DRL 應(yīng)用的結(jié)果;在最優(yōu)潮流問題中,以交流最優(yōu)潮流模型為基礎(chǔ),總結(jié)了主網(wǎng)、配電網(wǎng)、微電網(wǎng)以及安全約束最優(yōu)潮流問題的DRL 解決方案;在機(jī)組組合問題中,總結(jié)了火電發(fā)電機(jī)組的機(jī)組組合和考慮新能源的機(jī)組組合問題。最后,分析了當(dāng)前應(yīng)用前景,并論述了未來研究方向。

    本文受國家自然科學(xué)基金項(xiàng)目(52007173,U19B2042)資助,謹(jǐn)此致謝!

    附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

    猜你喜歡
    潮流調(diào)度電網(wǎng)
    穿越電網(wǎng)
    《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊》正式出版
    一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
    虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
    潮流
    足球周刊(2016年14期)2016-11-02 11:47:59
    潮流
    足球周刊(2016年15期)2016-11-02 11:44:02
    潮流
    足球周刊(2016年10期)2016-10-08 18:50:29
    電網(wǎng)也有春天
    河南電力(2016年5期)2016-02-06 02:11:32
    從2014到2015潮流就是“貪新厭舊”
    Coco薇(2015年1期)2015-08-13 21:35:10
    一個(gè)電網(wǎng)人的環(huán)保路
    河南電力(2015年5期)2015-06-08 06:01:46
    99久久成人亚洲精品观看| 成人二区视频| 国产视频内射| 欧美性猛交黑人性爽| 国产黄色小视频在线观看| 精品乱码久久久久久99久播| 亚洲18禁久久av| 午夜a级毛片| 婷婷六月久久综合丁香| 此物有八面人人有两片| 日本色播在线视频| 午夜a级毛片| 男女边吃奶边做爰视频| 听说在线观看完整版免费高清| 久久久久久大精品| 久久精品影院6| 在线免费观看的www视频| 亚洲av免费在线观看| 黄色一级大片看看| 黄色丝袜av网址大全| 乱码一卡2卡4卡精品| 国产精品久久电影中文字幕| 亚洲精品456在线播放app | 国产精品永久免费网站| 乱码一卡2卡4卡精品| 中出人妻视频一区二区| 亚洲欧美清纯卡通| 免费人成视频x8x8入口观看| 亚洲最大成人av| 亚洲欧美日韩卡通动漫| 精品久久久久久久末码| 久久亚洲真实| 午夜爱爱视频在线播放| 欧美一区二区亚洲| 狠狠狠狠99中文字幕| 成人特级av手机在线观看| 国产黄色小视频在线观看| 国产亚洲91精品色在线| 精品午夜福利在线看| 亚洲欧美日韩无卡精品| 91麻豆精品激情在线观看国产| 婷婷六月久久综合丁香| 少妇高潮的动态图| 又紧又爽又黄一区二区| 国产亚洲精品久久久久久毛片| 日韩欧美国产一区二区入口| 欧美日本亚洲视频在线播放| 精品人妻偷拍中文字幕| 少妇的逼水好多| 黄色日韩在线| 欧美高清成人免费视频www| 亚洲欧美日韩东京热| 成人国产综合亚洲| 麻豆久久精品国产亚洲av| 亚洲精品日韩av片在线观看| 欧美日韩精品成人综合77777| АⅤ资源中文在线天堂| 波多野结衣高清作品| 天美传媒精品一区二区| 久久国内精品自在自线图片| 久久久久久久午夜电影| 我要看日韩黄色一级片| 色吧在线观看| 免费观看人在逋| 欧美黑人巨大hd| 久久久久九九精品影院| 国产一区二区三区在线臀色熟女| 午夜福利在线观看吧| 日韩欧美精品免费久久| 最近最新免费中文字幕在线| 中文字幕熟女人妻在线| 亚洲五月天丁香| 99riav亚洲国产免费| 1024手机看黄色片| 蜜桃久久精品国产亚洲av| 直男gayav资源| 日韩大尺度精品在线看网址| 久久草成人影院| 欧美潮喷喷水| 欧美潮喷喷水| 老女人水多毛片| 看片在线看免费视频| 少妇熟女aⅴ在线视频| 一个人看视频在线观看www免费| 国产亚洲精品久久久久久毛片| 久久欧美精品欧美久久欧美| 国产一区二区三区av在线 | 久久人妻av系列| 欧洲精品卡2卡3卡4卡5卡区| 亚洲国产精品合色在线| 亚洲第一电影网av| 99热这里只有精品一区| 69人妻影院| 国产精品一区www在线观看 | 日韩在线高清观看一区二区三区 | 亚洲精品色激情综合| av国产免费在线观看| 日本 av在线| 国产精品98久久久久久宅男小说| 日日啪夜夜撸| 美女免费视频网站| 免费看a级黄色片| 五月玫瑰六月丁香| 搡女人真爽免费视频火全软件 | 国产精品综合久久久久久久免费| 男女做爰动态图高潮gif福利片| 久久中文看片网| 69人妻影院| 中文字幕精品亚洲无线码一区| 桃色一区二区三区在线观看| 久久久久性生活片| 天堂网av新在线| 大又大粗又爽又黄少妇毛片口| av福利片在线观看| 久久人人精品亚洲av| 在线免费观看的www视频| 搡女人真爽免费视频火全软件 | 夜夜看夜夜爽夜夜摸| 国产 一区精品| 成人特级av手机在线观看| 免费观看人在逋| 久久久色成人| 能在线免费观看的黄片| 亚洲人成网站在线播| 99热精品在线国产| 男女那种视频在线观看| 成年版毛片免费区| 精品一区二区三区人妻视频| 久久久午夜欧美精品| 黄片wwwwww| 亚洲美女黄片视频| 国产精品三级大全| а√天堂www在线а√下载| 三级毛片av免费| 国产精品久久电影中文字幕| 最近在线观看免费完整版| 午夜福利成人在线免费观看| 免费人成在线观看视频色| 人人妻人人看人人澡| 国产免费一级a男人的天堂| 国产蜜桃级精品一区二区三区| 亚洲内射少妇av| 一边摸一边抽搐一进一小说| 亚洲人与动物交配视频| 九色国产91popny在线| 亚洲图色成人| 国产乱人伦免费视频| 韩国av一区二区三区四区| 国内少妇人妻偷人精品xxx网站| 久久久成人免费电影| 亚洲av日韩精品久久久久久密| 久久久久久久精品吃奶| 亚洲五月天丁香| 欧美成人免费av一区二区三区| 黄色丝袜av网址大全| 日本成人三级电影网站| av中文乱码字幕在线| 国产熟女欧美一区二区| av天堂在线播放| 日韩中文字幕欧美一区二区| 真人做人爱边吃奶动态| 国产亚洲精品久久久久久毛片| 18禁黄网站禁片午夜丰满| 国产高清三级在线| 波野结衣二区三区在线| 国产高潮美女av| 久久99热这里只有精品18| 欧美精品国产亚洲| 18禁裸乳无遮挡免费网站照片| 欧美在线一区亚洲| 毛片一级片免费看久久久久 | 久久久久精品国产欧美久久久| 国产亚洲精品av在线| 精品人妻偷拍中文字幕| 身体一侧抽搐| av在线观看视频网站免费| 美女黄网站色视频| or卡值多少钱| 国产精品嫩草影院av在线观看 | 赤兔流量卡办理| 亚洲人成网站在线播| 免费观看精品视频网站| 国产乱人伦免费视频| 91av网一区二区| 日韩欧美三级三区| 高清毛片免费观看视频网站| 桃色一区二区三区在线观看| or卡值多少钱| 99在线视频只有这里精品首页| 国内精品宾馆在线| 亚洲人成网站高清观看| 婷婷精品国产亚洲av| 1000部很黄的大片| 午夜日韩欧美国产| 亚洲av二区三区四区| 亚洲中文字幕日韩| 午夜福利高清视频| 国产一区二区亚洲精品在线观看| 亚洲黑人精品在线| 国产视频内射| 欧美中文日本在线观看视频| 日韩一区二区视频免费看| 伊人久久精品亚洲午夜| 日韩国内少妇激情av| 午夜影院日韩av| 神马国产精品三级电影在线观看| 国产精品国产三级国产av玫瑰| 亚洲内射少妇av| 欧美xxxx性猛交bbbb| 国产精品日韩av在线免费观看| 国产精品美女特级片免费视频播放器| 成人鲁丝片一二三区免费| 美女被艹到高潮喷水动态| 国产熟女欧美一区二区| 国产主播在线观看一区二区| 一个人免费在线观看电影| 在线免费十八禁| 色av中文字幕| 18+在线观看网站| 亚洲第一区二区三区不卡| 亚洲综合色惰| 一边摸一边抽搐一进一小说| 十八禁国产超污无遮挡网站| 国产熟女欧美一区二区| 国产蜜桃级精品一区二区三区| 精品久久久久久久末码| 亚洲人成网站高清观看| h日本视频在线播放| 波多野结衣高清无吗| 色综合站精品国产| 一进一出抽搐动态| 日本一本二区三区精品| 12—13女人毛片做爰片一| 我的女老师完整版在线观看| 日韩高清综合在线| 国产在线精品亚洲第一网站| 女同久久另类99精品国产91| 国产成人福利小说| 国产精品美女特级片免费视频播放器| 色综合婷婷激情| 无遮挡黄片免费观看| 日韩欧美免费精品| 亚洲欧美精品综合久久99| 欧美激情国产日韩精品一区| 亚洲自拍偷在线| 欧美zozozo另类| 国产久久久一区二区三区| 成年女人看的毛片在线观看| 久久婷婷人人爽人人干人人爱| 超碰av人人做人人爽久久| 很黄的视频免费| 色5月婷婷丁香| 国产一区二区在线观看日韩| 国产黄色小视频在线观看| 极品教师在线视频| 老熟妇乱子伦视频在线观看| 久久精品国产清高在天天线| 1024手机看黄色片| 少妇的逼水好多| 精品久久久久久久久亚洲 | 黄色配什么色好看| 国产一区二区在线观看日韩| 久久6这里有精品| 国产精品永久免费网站| 成人特级黄色片久久久久久久| 88av欧美| 国产中年淑女户外野战色| 亚洲av中文字字幕乱码综合| 午夜免费成人在线视频| 男女之事视频高清在线观看| 老司机福利观看| 亚洲国产精品合色在线| 日韩精品有码人妻一区| 最近在线观看免费完整版| 啦啦啦韩国在线观看视频| 中文字幕av在线有码专区| 亚洲欧美日韩无卡精品| 国产一区二区在线av高清观看| 国产欧美日韩精品一区二区| 性色avwww在线观看| 亚洲四区av| 日韩欧美免费精品| 麻豆成人av在线观看| 精品一区二区三区视频在线观看免费| 黄色丝袜av网址大全| 日日摸夜夜添夜夜添小说| 老司机深夜福利视频在线观看| 国产三级在线视频| 国产国拍精品亚洲av在线观看| 国产伦人伦偷精品视频| 在线免费十八禁| 天堂av国产一区二区熟女人妻| 熟女电影av网| 久久亚洲精品不卡| 嫩草影院入口| 校园春色视频在线观看| 日本成人三级电影网站| 91av网一区二区| 制服丝袜大香蕉在线| 亚洲人成伊人成综合网2020| 午夜视频国产福利| 国产极品精品免费视频能看的| 免费av毛片视频| 99久久精品国产国产毛片| 国产精品久久电影中文字幕| 两性午夜刺激爽爽歪歪视频在线观看| 草草在线视频免费看| 欧美xxxx黑人xx丫x性爽| 色尼玛亚洲综合影院| 国产精品98久久久久久宅男小说| 久久亚洲精品不卡| 岛国在线免费视频观看| 精品午夜福利视频在线观看一区| 成人欧美大片| 国产熟女欧美一区二区| 久久国产乱子免费精品| 91在线精品国自产拍蜜月| 亚洲成a人片在线一区二区| 久久久久免费精品人妻一区二区| 国产一区二区三区av在线 | 又粗又爽又猛毛片免费看| 精品午夜福利在线看| 成年人黄色毛片网站| 黄色欧美视频在线观看| 亚洲国产高清在线一区二区三| 波多野结衣高清作品| 好男人在线观看高清免费视频| 国产高清三级在线| 麻豆成人av在线观看| 黄色女人牲交| 女人十人毛片免费观看3o分钟| 好男人在线观看高清免费视频| 欧美人与善性xxx| 久久精品国产清高在天天线| 国产成人av教育| 亚洲,欧美,日韩| 久久精品久久久久久噜噜老黄 | 成年人黄色毛片网站| 内射极品少妇av片p| 精品乱码久久久久久99久播| 在线免费观看不下载黄p国产 | 18禁在线播放成人免费| 欧美国产日韩亚洲一区| 国内精品美女久久久久久| 俄罗斯特黄特色一大片| av黄色大香蕉| 91久久精品电影网| 69av精品久久久久久| 亚洲三级黄色毛片| 五月伊人婷婷丁香| 给我免费播放毛片高清在线观看| 亚洲性久久影院| 国产精品,欧美在线| 国产日本99.免费观看| 在线天堂最新版资源| 18禁在线播放成人免费| 亚洲人成网站高清观看| 久久国产乱子免费精品| 成人av在线播放网站| 国产精品国产高清国产av| 少妇的逼好多水| 欧美日韩亚洲国产一区二区在线观看| .国产精品久久| 国产精品综合久久久久久久免费| 丰满乱子伦码专区| 99在线视频只有这里精品首页| 窝窝影院91人妻| 永久网站在线| 亚洲精品粉嫩美女一区| 国产成人aa在线观看| 亚洲中文日韩欧美视频| 久久久午夜欧美精品| 久久人人爽人人爽人人片va| 国内精品久久久久久久电影| 赤兔流量卡办理| 日韩一本色道免费dvd| 88av欧美| 国产麻豆成人av免费视频| 国产白丝娇喘喷水9色精品| 久久精品影院6| 国产成人av教育| 欧美日韩综合久久久久久 | 成年人黄色毛片网站| 久久久久久久久中文| 搡女人真爽免费视频火全软件 | 亚洲一级一片aⅴ在线观看| 好男人在线观看高清免费视频| 国产精品永久免费网站| 国产精品亚洲一级av第二区| 黄色女人牲交| 久久精品综合一区二区三区| 成人亚洲精品av一区二区| 日韩人妻高清精品专区| a在线观看视频网站| 国产免费男女视频| 国产欧美日韩精品亚洲av| 九九爱精品视频在线观看| 国产三级中文精品| 久久午夜亚洲精品久久| 欧美人与善性xxx| 国产高清视频在线观看网站| 久久久国产成人精品二区| 亚洲第一区二区三区不卡| 亚洲欧美日韩卡通动漫| 中文字幕高清在线视频| 日韩精品有码人妻一区| 亚洲av熟女| 校园春色视频在线观看| 国产精品1区2区在线观看.| 免费电影在线观看免费观看| 欧美色欧美亚洲另类二区| 在线天堂最新版资源| 亚洲av第一区精品v没综合| 亚洲在线自拍视频| 国产高清激情床上av| 久久99热6这里只有精品| 国产精品综合久久久久久久免费| 99riav亚洲国产免费| 人妻制服诱惑在线中文字幕| 国产精品日韩av在线免费观看| 中文字幕人妻熟人妻熟丝袜美| 国产一区二区在线观看日韩| 夜夜夜夜夜久久久久| 亚洲成人久久性| 一边摸一边抽搐一进一小说| 伊人久久精品亚洲午夜| 黄色视频,在线免费观看| 窝窝影院91人妻| 高清日韩中文字幕在线| 亚洲av不卡在线观看| 神马国产精品三级电影在线观看| 一本一本综合久久| 熟女电影av网| 国产精品久久视频播放| 亚洲av五月六月丁香网| 久久精品综合一区二区三区| 亚洲欧美日韩高清专用| 欧美潮喷喷水| 我的女老师完整版在线观看| 麻豆精品久久久久久蜜桃| 久久精品国产亚洲av涩爱 | 一进一出抽搐动态| 熟女电影av网| 日本爱情动作片www.在线观看 | 国产精品伦人一区二区| 动漫黄色视频在线观看| 97热精品久久久久久| 欧美高清成人免费视频www| 亚洲精品粉嫩美女一区| 国产大屁股一区二区在线视频| 婷婷精品国产亚洲av在线| 色综合站精品国产| 国产又黄又爽又无遮挡在线| 国产精品福利在线免费观看| 在线免费十八禁| 网址你懂的国产日韩在线| 亚洲最大成人av| 别揉我奶头 嗯啊视频| 国产精品福利在线免费观看| 久久久国产成人免费| 在线观看66精品国产| 国产精品爽爽va在线观看网站| 成人美女网站在线观看视频| 最新中文字幕久久久久| 欧美丝袜亚洲另类 | 精品乱码久久久久久99久播| 美女高潮的动态| 色5月婷婷丁香| 日韩精品有码人妻一区| 日本撒尿小便嘘嘘汇集6| 尾随美女入室| 美女黄网站色视频| 亚洲avbb在线观看| 自拍偷自拍亚洲精品老妇| xxxwww97欧美| 精品人妻偷拍中文字幕| 在线免费十八禁| 亚洲一区二区三区色噜噜| 最近最新免费中文字幕在线| 国产精品国产高清国产av| 偷拍熟女少妇极品色| 日日夜夜操网爽| 午夜福利欧美成人| 欧美丝袜亚洲另类 | 禁无遮挡网站| 精品不卡国产一区二区三区| 狠狠狠狠99中文字幕| 天堂av国产一区二区熟女人妻| 亚洲精品粉嫩美女一区| 精品一区二区三区av网在线观看| 18禁黄网站禁片免费观看直播| 在现免费观看毛片| 一个人看的www免费观看视频| 听说在线观看完整版免费高清| 国产在线男女| 少妇的逼好多水| 日韩大尺度精品在线看网址| 久久中文看片网| 一本精品99久久精品77| 免费av毛片视频| 欧美日韩亚洲国产一区二区在线观看| 91av网一区二区| 欧美另类亚洲清纯唯美| 一区福利在线观看| aaaaa片日本免费| 成人毛片a级毛片在线播放| 日韩亚洲欧美综合| 麻豆久久精品国产亚洲av| videossex国产| 搞女人的毛片| 国产一区二区亚洲精品在线观看| 午夜久久久久精精品| 国产 一区精品| x7x7x7水蜜桃| 99视频精品全部免费 在线| 91久久精品国产一区二区成人| 搞女人的毛片| 黄色视频,在线免费观看| 99热精品在线国产| 哪里可以看免费的av片| 观看免费一级毛片| 欧美日韩精品成人综合77777| 国产欧美日韩一区二区精品| 久久香蕉精品热| 亚洲精品久久国产高清桃花| 不卡视频在线观看欧美| 亚洲狠狠婷婷综合久久图片| 久久久久久久亚洲中文字幕| 久久99热这里只有精品18| 亚洲精品乱码久久久v下载方式| 久久国产乱子免费精品| 国产视频内射| 久久热精品热| 国产淫片久久久久久久久| 欧美日韩综合久久久久久 | 精品人妻熟女av久视频| av.在线天堂| videossex国产| 99视频精品全部免费 在线| 男人和女人高潮做爰伦理| 1000部很黄的大片| 国产成人av教育| 国产一区二区三区av在线 | 大又大粗又爽又黄少妇毛片口| 五月玫瑰六月丁香| 国产精品一区二区免费欧美| 日韩欧美一区二区三区在线观看| 欧美极品一区二区三区四区| av国产免费在线观看| 老司机午夜福利在线观看视频| 亚洲欧美日韩无卡精品| 老司机福利观看| 国产免费av片在线观看野外av| 老女人水多毛片| 亚洲精品色激情综合| 联通29元200g的流量卡| 少妇的逼好多水| 免费av观看视频| 嫩草影院精品99| 亚洲va日本ⅴa欧美va伊人久久| 亚洲av熟女| 亚洲色图av天堂| 亚洲精品久久国产高清桃花| 在线观看66精品国产| 亚洲四区av| 国产av在哪里看| 欧美成人免费av一区二区三区| 久久99热这里只有精品18| 午夜精品一区二区三区免费看| 亚洲无线在线观看| 亚洲不卡免费看| 亚洲真实伦在线观看| 国产日本99.免费观看| 少妇丰满av| 久久久久性生活片| 亚洲精品亚洲一区二区| 99在线视频只有这里精品首页| 嫩草影视91久久| 成年免费大片在线观看| 自拍偷自拍亚洲精品老妇| 亚洲av电影不卡..在线观看| 国产精品,欧美在线| 窝窝影院91人妻| 观看美女的网站| 在线观看免费视频日本深夜| 男插女下体视频免费在线播放| 国内精品美女久久久久久| xxxwww97欧美| 国产伦精品一区二区三区视频9| 亚洲在线观看片| 欧美一区二区国产精品久久精品| 国产精品亚洲美女久久久| 在线观看午夜福利视频| 午夜福利高清视频| 如何舔出高潮| 久久精品国产亚洲av香蕉五月| 国产aⅴ精品一区二区三区波| 变态另类丝袜制服| 久久精品国产亚洲av涩爱 | 国产免费一级a男人的天堂| 熟女人妻精品中文字幕| 精华霜和精华液先用哪个| 别揉我奶头 嗯啊视频| 欧美黑人欧美精品刺激| 欧美潮喷喷水| 搡老妇女老女人老熟妇| 欧美区成人在线视频| 亚洲四区av| 亚洲精品在线观看二区| 国产69精品久久久久777片| 国产男靠女视频免费网站| 欧美成人免费av一区二区三区| 99久久中文字幕三级久久日本| 精品国内亚洲2022精品成人| 国产一区二区激情短视频|