• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智能電網(wǎng)中基于Q學習的能量雙邊拍賣算法

      2021-08-30 05:36:14劉迪迪張泉景鄒艷麗秦運柏孫浩天胡聰
      南方電網(wǎng)技術 2021年7期
      關鍵詞:交易中心賣家買家

      劉迪迪,張泉景,鄒艷麗,秦運柏,孫浩天,胡聰

      (1.廣西師范大學電子工程學院,廣西 桂林 541004; 2. 廣西自動檢測技術與儀器重點實驗室(桂林電子科技大學), 廣西 桂林 541004)

      0 引言

      智能電網(wǎng)作為新一代的電力系統(tǒng),其建設的過程需要合并大量的信息和通信基礎設施,并借助先進的通信、信息和控制技術,結(jié)合可再生能源發(fā)電、能源存儲、材料、傳感器和電力電子等方面的先進技術,這就使得智能電網(wǎng)終端用戶之間相互交易成為可能[1 - 3]。在智能電網(wǎng)中,隨著越來越多的終端用戶積極參與到電力交易市場中,無論是用戶與用戶之間,還是用戶與電網(wǎng)之間都存在競爭關系[4 - 6]。

      文獻[7]中采用了博弈論的方法來控制單個能量來源或負載,提高了不使用中央控制的電力系統(tǒng)的可靠性和魯棒性。在文獻[8]中作者基于合作博弈技術,使風力發(fā)電機組更有效地集中發(fā)電從而使利潤得到了提升。文獻[9]研究綠色蜂窩網(wǎng)絡的能量團購問題,利用購買能量上的合作以及相互協(xié)作分擔無線負載以節(jié)省能量成本,針對不同實體的移動網(wǎng)絡運營商,提出了一種反復納什交涉方案以獲得帕累托最優(yōu),公平地減低雙方的能量成本。文獻[10]采用博弈論方法,研究小型蜂窩網(wǎng)絡中具有能量收集功能的基站間的能量協(xié)作問題,激勵非合作基站通過智能電網(wǎng)分享多余的能量。文獻[11]中建立了一個戰(zhàn)略博弈模型來分析具有不同電網(wǎng)約束的能源市場中的寡頭壟斷現(xiàn)象。

      以上大部分工作的目的是通過博弈最大化賣家的收益或降低終端消費者的成本,在反復博弈過程中,能獲知對手的策略及相應的效益。然而,由于參與電力市場交易者之間的利潤競爭,每個賣家策略性地選擇策略(對于其對手而言是私密的),從而希望獲取盡可能多的利潤;另一方面為保護競爭者的利益,交易中心必須考慮保護每個參與者的私自策略[12 - 14]。因此,不完全信息競爭下的能量交易更具有挑戰(zhàn)性和實際意義。強化學習(RL)理論通常不需要完全的信息,通過應用該理論能有效地解決這一類競爭問題。

      考慮智能電網(wǎng)中微小區(qū)或微微小區(qū)中安裝了可再生能源設備的多個智能用戶,本文主要研究多個智能用戶之間的能量交易問題。智能用戶能夠根據(jù)當前的狀態(tài)(當前能量收集和需求的狀況,及電池中的電量、外部電價等),在滿足自己即時能量需求的情況下,由能量管理單元決策出售/購買多少能量。為了能夠最大程度的為各個用戶降低成本或提高收益,本文基于雙邊拍賣機制,構(gòu)造了多個智能用戶在不完全信息情況下非合作博弈的能量交易市場模型,基于Q學習創(chuàng)新地提出了一種自適應學習算法為參與博弈的用戶找到最優(yōu)混合策略,使整體博弈達到混合策略納什均衡,并通過仿真驗證了提出的算法的有效性。

      2 建模和問題描述

      本文考慮智能電網(wǎng)中包含多個智能用戶(如家庭、辦公樓)的片區(qū),允許智能用戶參與電力交易。每個智能用戶配備各種類型的可再生能源裝置(如太陽能、風能裝置)、電池組、能量管理單元、智能電表等,其模型如圖1所示。其中智能電表是智能用戶與外部建立聯(lián)系的通信設備,即參與電力市場交易的必備設施。

      圖1 智能用戶(買家/賣家)示意圖Fig.1 Diagram of smart users (buyer/seller)

      智能用戶通過可再生能源裝置收集能量,由能量管理單元對收集的能量進行管理,例如,將自身使用后所剩余的能量存入電池組供以后使用,或控制電池組充/放電以滿足電器的即時需求,以及決策是否與外部進行能量交易,即通過本地能量交易中心與其他智能用戶進行交易或與外部電網(wǎng)進行交易。單個智能用戶與外部電網(wǎng)進行能量交易的管理可參考文獻[15]。

      由于不同的智能用戶存在能量收集、能量需求、電池容量等方面的差異,積極參與能量市場交易的多個智能終端用戶中,一部分智能用戶收集的能量和存儲的能量多于自身的能量需求,則可選擇合適的價格通過本地交易中心進行能量拍賣,或以外部電網(wǎng)的電價出售給外部電網(wǎng),從而增加自身的收益,將這部分智能用戶稱為賣家;相反,另一部分智能用戶不具有能量收集裝置或者所收集的能量和電池組中能量不滿足自身的能量需求,則可選擇自身可接受的價格通過本地交易中心購買能量,或以外部電網(wǎng)的電價購買不足的部分,將這部分智能用戶稱為買家;此外還需要一個獨立的本地能量交易中心服務買賣雙方(可能會收取適量的服務費),以上三者結(jié)合就構(gòu)成了一個完整的能量交易市場模型,如圖2所示。

      圖2 能量交易市場模型Fig.2 Model of energy trading market

      在能量交易市場中,能量交易每時每刻都在發(fā)生,不失一般性,假設每次能量交易的間隔為1 h,即交易的時刻為h∈H?{1,2,3,…,24}, 賣家和買家在不同的交易時刻角色可互換。為保護參與能量交易的智能用戶的信息隱私,參與者只能與交易中心進行與自身相關的信息互動,而無法從交易中心獲取其他參與者的信息,下面將詳細介紹在此過程中買賣雙方及交易中心服務器的行為。

      1)賣家

      2)買家

      3)交易中心

      在一個公平的能量交易過程中,交易過程應是雙盲的,每個參與者只知道自己的行為,即自己的交易量和相應的收益。因此本地能量交易中心服務器將起到以下作用:

      (1)收集所有買家和賣家提交的信息,基于這些信息決定此次交易是否能夠發(fā)生;

      (2)基于收集的買家和賣家的信息,決定此次交易價格,并根據(jù)下一節(jié)介紹的雙邊拍賣機制分配買賣雙方的交易量;

      (3)使用特定的效益函數(shù)計算每個參與者的收益,并將該收益反饋給每個參與者。

      2 雙邊拍賣機制

      本節(jié)構(gòu)建一個雙邊拍賣方案來表示交易價格和交易量。首先,將賣家的報價pi按遞增順序排列,而買家的報價dj按遞減順序排列,得到p1d2>…>dJ。 排序后的供給曲線和需求曲線,如圖3所示。如果d1≥p1, 那么兩條線必定會在特定買家n(n∈I)和特定賣家m(j∈J)處相交,故出價高于dn的買家和報價低于pm的賣家能夠參加此次能量交易。為了保證交易的真實性,必須將買家n和賣家m排除在外。

      圖3 排序后的供給曲線和需求曲線Fig.3 Curves of sorted supply and demand

      在圖3中,兩條線在買家n∈J0和賣家m∈I0處相交,其中買家n的出價為dn, 賣家m的報價pm, 那么交易中心服務器就可以在[dn,pm]之間選擇任意一個合適的值作為此次交易的價格,因為在這個區(qū)間內(nèi)的任何值都滿足最終參加交易的用戶的要求。這里將最終交易價格p設置為:

      p=(dn+pm)/2

      (1)

      交易價格p一旦確定,此次能量交易最終以此單價進行交易。在確定了成功參與拍賣的智能用戶和價格后,經(jīng)交易中心服務器統(tǒng)籌,若買家總需求量和賣家總供應量相等,那么所有的買家都能夠獲得自己所需的能量,所有賣家也能如愿將自身能量進行出售。然而在實際的拍賣過程中,買家的總需求量和賣家總供應量很難完全一致,為了保證拍賣的真實性和公平性,采用一種加權平均分攤法,將賣家的總供應量進行分割,從而得到每個賣家的實際出售數(shù)量:

      (2)

      式中:bi為賣家i的預計出售量;qi(bi)為賣家i在預計出售能量bi前提下實際出售能量的函數(shù);cj為買家j的需求量;fi為賣家i減小的出售量,當賣家總供應大于買家總需求量時,每個賣家需要從預計出售數(shù)bi中減少的部分能量,即:

      (3)

      通過這種方法,既保證拍賣的公平性,還保證了每個實際參與拍賣的賣家都能售出一個非負的量,這比平均分配機制更為公平。同理,當總供應量小于總需求量時,交易中心服務器通過加權平均分享機制為參與的買家分配交易量。

      當此次交易的價格p和每個賣家i實際能出售的能量數(shù)qi確定之后,交易中心服務器可以根據(jù)效益函數(shù)計算賣家i此次交易中的實際收益(暫不考慮交易中心收取傭金)。

      ui(bi)=logτ(max{1,pi(bi)·qi(bi)})

      (4)

      式中:τ>1代表一種成本因素,可以表示由各種設備所造成的功率損耗;logτ(·)是一種凈利潤函數(shù)表示;max{1,X}可以有效地避免效益低于成本。其中pi(bi)和qi(bi)分別表示賣家i選擇出售bj數(shù)量的能量時實際交易的價格和賣家i的實際出售量,在計算完之后,交易中心將ui(bi)和qi(bi)反饋給賣家i, 而賣家i不必考慮自己需要向各個買家提供多少能量,只需向交易中心提供qi(bi)的能量即可。

      而根據(jù)式(1)和(2)可知,pi(bi)和qi(bi)并不是賣家i能單獨決定的,而是由所有實際參與此次交易的智能用戶共同決定的。因此,如何選擇合適的bi使賣家i所獲得收益最大是本文的研究目的。

      為了簡化分析,假設所有買家所需的能量數(shù)和所出價格固定不變。由以上分析可知,賣家i最終出售的能量數(shù)和成交的價格,甚至能否參加此次交易都會受到其他賣家的影響,顯而易見,不同的賣家之間則形成了競爭關系,并且賣家i在能量交易的過程中,只與交易中心服務器聯(lián)系,對于其他賣家的信息和行為均不知曉,這樣賣家之間則構(gòu)成了一個信息不完全的非合作博弈。

      3 不完全信息的重復博弈

      參與者每選擇一個策略,則通過交易中心獲知該策略下相應的實際交易量以及收益,多個智能用戶之間的能量交易模型轉(zhuǎn)換為一個信息不完全的非合作博弈,Ξ={,ui(bi),qi(bi),pi(bi)}, 其中的表示參與者的集合。

      定義1:假設在一個由n個參與者組成的博弈Ξ={S1,…,Sn;ui,…,un}, 參與者i的策略空間為Si={si1,si2,…,sik}, 則參與者i以概率分布PI=(pi1,pi2,…,pik)隨機在其k個可選策略中選擇的“策略”,稱為一個“混合策略”,其中0≤pij≤1對j=1,2,…,k都成立,且pi1+pi2+…+pik=1。

      在上述設計的基于非合作博弈模型的雙邊拍賣中,參與者是參與能量交易的智能用戶。智能用戶i在每次能量交易之前,都要從自身的策略空間Si={si1,si2,…,sik}按照策略的概率分布PI=(pi1,pi2,…,pik)選取合適的策略發(fā)送給交易中心,交易中心服務器在計算各參與者的收益或費用后反饋給相應的參與者,在該類博弈模型中存在混合策略的納什均衡。納什均衡指的是一個整體的策略集合,是由博弈中全部參與者的最優(yōu)策略共同決定的。也就是說,對于其中任意參與者,若其它參與者的策略不發(fā)生改變,那么該參與者永遠不會再改變自己當前的策略,由此形成的一種最優(yōu)且平衡的解的集合。

      (5)

      為使整體博弈達到最終納什均衡,用戶需經(jīng)過重復博弈,并在博弈過程中根據(jù)反饋信息不斷更新其策略,在每個階段t, 重復能量交易博弈的流程如下。

      1)每個賣家根據(jù)當前的概率分布獨立選擇行動(混合策略)。

      2)交易中心收集所有賣方的行為,計算并反饋所有賣方在約束條件下實現(xiàn)的效用和交易數(shù)量。

      3)每個賣家根據(jù)自己的效用和交易量生成一個新的概率分布。

      其中如何根據(jù)自身效用和交易量生成一個新的概率分布是接下來要研究的內(nèi)容。

      在設計的非合作博弈中,每個賣家在選擇策略的過程中,其收益會受到其他賣家的執(zhí)行策略的影響,且賣家之間沒有任何信息交換。在強化學習中,面對信息不完全的環(huán)境,無模型的強化學習方法能更好的發(fā)揮優(yōu)勢,因此提出一種基于Q學習的多用戶策略選擇算法,實際上是通過回報函數(shù)的設計來獲得賣家的策略選擇,使其朝著最優(yōu)策略和整體博弈穩(wěn)定的方向選擇策略。Q學習中的學習策略不會一直為賣家選擇一個回報值最大的策略,也會有一定概率選擇其他策略,在取得最終穩(wěn)定的前提下,每個賣家基于以下2點進行策略選擇:

      1)每個賣家都盡可能的使自身能夠參與到此次交易中;

      2)每個賣家都傾向于選擇回報值高的策略。

      基于這種機制,即使周圍環(huán)境發(fā)生了變化,也能保證賣家在不同的策略上進行嘗試,并通過在這2點要求下反復的迭代,最終取得最優(yōu)策略。

      4 問題求解

      4.1 建立馬爾可夫決策過程的系統(tǒng)模型

      賣家i如何選擇合適的bi使自身的收益最大的問題是一個隨機環(huán)境下的決策問題,因此本文將其建模為一個離散有限的馬爾可夫問題。在馬爾可夫模型中,獎勵只取決于買賣雙方當前可接受的電價和需要買賣的電量,而與歷史數(shù)據(jù)無關。在形式上,馬爾可夫模型可以表示為一個5元組(S,A,P,R,γ), 其中S為狀態(tài)、A為動作、P為狀態(tài)轉(zhuǎn)移概率、R為獎勵、γ為折扣因子。其獎勵函數(shù)ri(si,ai)滿足式(6):

      (6)

      式中ai為賣家i選擇賣出特定電量bi的動作。當賣家選擇的策略不能參與此次交易時,回報值為0;當可以參與此次交易時,回報值等于此次收益值。

      4.2 Q學習策略選擇步驟

      強化學習是一種在未知環(huán)境下進行連續(xù)決策的方法。它可以根據(jù)過去的經(jīng)驗在線學習,實時改變策略。面對信息不完全的環(huán)境,無模型的強化學習方法能更好地發(fā)揮優(yōu)勢。Q學習的基本原理是對每一個狀態(tài)-動作分配一個動作-值函數(shù)Q(s,a), 并且在每次迭代中更新這個值。π(s|a)表示在狀態(tài)s采取動作a的策略,目標就是求出累計獎勵最大的策略的期望,因此賣家i采取特定策略的動作-值函數(shù)定義如式(7)所示。

      (7)

      (8)

      (9)

      (10)

      5 仿真結(jié)果

      假設在某次能量雙向拍賣中,有6個買家,4個賣家。買家的初始化行為如表1所示,假設博弈過程中買家的行為不變,賣家的價格同樣不變,并且每個賣家分別配備了3個容量不同的儲能電池,為減少控制帶來的開銷,每次交易賣家選擇出售某一個儲能電池的全部能量,或幾個電池能量的總和,故賣家的策略選擇和報價如表2所示。

      表1 買家初始行為設置Tab.1 Buyer’s initial behavior setting

      表2 賣家初始行為設置Tab.2 Seller’s initial behavior setting

      雙邊拍賣過程中,賣家選擇不同的策略,產(chǎn)生的交易價格會隨之變化,圖4展示了交易價格隨迭代次數(shù)的變化,價格在0.380 3元/kWh、0.303 0元/kWh和0.432 0元/kWh 3個之間不斷跳躍。

      圖4 交易價格隨迭代次數(shù)的變化Fig.4 Change of the transaction price with the number of iterations

      圖5—7分別為賣家1、2、3基于Q學習算法迭代過程中選擇策略概率的演進。從這些圖可以看出,每個賣家都可以得到平穩(wěn)的概率分布。其中賣家1在策略選擇的迭代過程中,策略1被選擇的概率不斷變大,而策略2和策略3被選擇的概率無限趨向于0;賣家2最終趨向于以相同的概率選擇策略1和策略2,而不去選擇策略3;賣家3最終趨向于以較高的概率選擇策略3,以較低的概率選擇策略1,同時還會以0.33左右的概率選擇策略2。由于雙邊拍賣機制,賣家4的報價使其從未成功參加過交易,所以其策略選擇的概率演進如圖8所示,其概率始終未能更新。

      圖5 賣家1策略更新過程Fig.5 Strategy update process of seller 1

      圖6 賣家2策略更新過程Fig.6 Strategy update process of seller 2

      圖7 賣家3策略更新過程Fig.7 Strategy update process of seller 3

      圖8 賣家4策略更新過程Fig.8 Strategy update process of seller 4

      各賣家基于Q學習在雙邊拍賣機制中調(diào)整自己的策略,以獲得多個對手競爭下的最大穩(wěn)定收益。剩余未成功出售的部分能量,賣家可選擇保留至下次拍賣,也可選擇按此時外部電網(wǎng)的收購價出售給電網(wǎng),這屬于智能用戶個體能量管理行為,詳見之前的研究成果[15]?;诒疚奶岢龅碾p向拍賣下各賣家取得收益與直接跟外部電網(wǎng)交易的收益相對比,如圖9所示,可以看出成功參與雙向拍賣的賣家1、2、3(賣家4未能參與)的收益和直接交易相比均有不同程度的提高。

      圖9 雙邊拍賣和直接交易對比Fig.9 Comparison of double auction and direct transaction

      6 結(jié)語

      本文研究智能電網(wǎng)中的多個智能用戶之間的能量交易方案??紤]到不同用戶能量收集和能量需求存在差異的情況,通過引入雙邊拍賣機制,構(gòu)造了一個包含多用戶的能量交易市場模型,使用戶之間能夠更加靈活有效的進行能量交易,以最大程度地為各個用戶提高收益或降低成本。然后將設計的多用戶交易模型轉(zhuǎn)化成信息不完全的非合作博弈模型,為使多個用戶間能量交易趨于穩(wěn)定,基于Q學習提出了一種自適應學習算法為參與博弈用戶找到最優(yōu)混合策略,并且使整體博弈達到混合策略納什均衡,從而使多用戶能量交易能夠穩(wěn)定運行,最后通過數(shù)值仿真證明提出的多用戶能量交易算法的有效性。

      猜你喜歡
      交易中心賣家買家
      賣家秀與買家秀
      賣家秀與買家秀
      家庭百事通(2021年5期)2021-05-30 10:48:04
      買家秀和賣家秀
      童話世界(2020年17期)2020-07-25 02:18:46
      不會吃蟹腿的買手 不是好賣家
      國家糧食交易中心
      國家糧食交易中心
      英國天然氣交易中心啟示
      能源(2018年5期)2018-06-15 08:56:16
      江蘇省蘇中農(nóng)副產(chǎn)品交易中心有限公司
      熱圖
      家庭百事通(2016年1期)2016-01-12 18:44:43
      拉風買家秀
      Coco薇(2015年10期)2015-10-19 01:12:21
      循化| 德令哈市| 安丘市| 多伦县| 桃园市| 蒲城县| 肥西县| 蒙城县| 渝北区| 武乡县| 潜江市| 海口市| 汶川县| 永修县| 缙云县| 屏山县| 城口县| 海伦市| 宜川县| 迁安市| 云梦县| 报价| 壶关县| 信丰县| 祁门县| 黄山市| 永新县| 长泰县| 吉安市| 信宜市| 河津市| 西充县| 靖安县| 马尔康县| 杭锦后旗| 鹤庆县| 莱芜市| 崇州市| 涟源市| 米易县| 晋城|