• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于事件驅(qū)動(dòng)深度強(qiáng)化學(xué)習(xí)的建筑熱舒適控制

    2024-03-05 19:47:18李竹傅啟明丁正凱劉璐張穎陳建平
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)住宅建筑暖通空調(diào)

    李竹 傅啟明 丁正凱 劉璐 張穎 陳建平

    收稿日期:2023-06-14;修回日期:2023-08-21? 基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2020YFC2006602);國(guó)家自然科學(xué)基金資助項(xiàng)目(62102278,62172324,61876217,61876121);江蘇省高等學(xué)校自然科學(xué)研究項(xiàng)目(21KJA520005);江蘇省重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(BE2020026);江蘇省自然科學(xué)基金資助項(xiàng)目(BK20190942);江蘇省研究生教育教學(xué)改革項(xiàng)目

    作者簡(jiǎn)介:李竹(1997—),女,江蘇南京人,碩士研究生,主要研究方向?yàn)榻ㄖ悄芑?、?qiáng)化學(xué)習(xí);傅啟明(1985—),男(通信作者),江蘇淮安人,副教授,碩導(dǎo),博士,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、模式識(shí)別、建筑節(jié)能(fqm_1@126.com);丁正凱(1996—),男,江蘇鹽城人,碩士,主要研究方向?yàn)榻ㄖ悄芑?qiáng)化學(xué)習(xí);劉璐(1998—),女,江蘇泰州人,碩士研究生,主要研究方向?yàn)榻ㄖ悄芑?qiáng)化學(xué)習(xí);張穎(1998—),女,江蘇鎮(zhèn)江人,碩士研究生,主要研究方向?yàn)榻ㄖ悄芑?、?qiáng)化學(xué)習(xí);陳建平(1963—),男,江蘇南京人,教授,俄羅斯工程院外籍院士,碩導(dǎo),主要研究方向?yàn)榻ㄖ?jié)能、智能信息處理.

    摘? 要:住宅暖通空調(diào)系統(tǒng)通常耗用大量能源,同時(shí)也極大地影響居住者的熱舒適性。目前,強(qiáng)化學(xué)習(xí)廣泛應(yīng)用于優(yōu)化暖通空調(diào)系統(tǒng),然而這一方法需要投入大量時(shí)間和數(shù)據(jù)資源。為了解決該問(wèn)題,提出了一個(gè)新的基于事件驅(qū)動(dòng)的馬爾可夫決策過(guò)程(event-driven Markov decision process,ED-MDP)框架,并在此基礎(chǔ)上,提出了基于事件驅(qū)動(dòng)的深度確定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通過(guò)事件觸發(fā)優(yōu)化控制,結(jié)合強(qiáng)化學(xué)習(xí)算法求解最優(yōu)控制策略。實(shí)驗(yàn)結(jié)果顯示,與基準(zhǔn)方法相比,ED-DDPG在提升學(xué)習(xí)速度和減少?zèng)Q策頻率方面表現(xiàn)出色,并在節(jié)能和維持熱舒適方面取得了顯著成果。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,該方法在優(yōu)化住宅暖通空調(diào)控制方面展現(xiàn)出強(qiáng)大的魯棒性和適應(yīng)性。

    關(guān)鍵詞:強(qiáng)化學(xué)習(xí); 事件驅(qū)動(dòng); 暖通空調(diào); 住宅建筑; 熱舒適

    中圖分類號(hào):TP391??? 文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1001-3695(2024)02-031-0527-06

    doi:10.19734/j.issn.1001-3695.2023.06.0273

    Event-driven reinforcement learning thermal comfort controlfor residential buildings

    Li Zhu1a,1b, Fu Qiming1a,1b, Ding Zhengkai1a,1b, Liu Lu1a,1b, Zhang Ying1a,1b, Chen Jianping1b,1c,2

    (1. a.School of Electronic & Information Engineering, b.Jiangsu Provincial Key Laboratory of Intelligent Energy Saving in Buildings, c.College of Architecture & Urban Planning, Suzhou University of Science & Technology, Suzhou Jiangsu 215009, China; 2.Chongqing Industrial Big Data Innovation Center Co.,Ltd., Chongqing 400707, China)

    Abstract:Residential HVAC systems typically constitute a substantial portion of energy consumption and exert a significant influence on occupants thermal comfort. At present, reinforcement learning is widely employed to optimize HVAC systems; however, this approach necessitates a substantial investment of time and data resources. To address this issue, this paper proposed a novel framework based on an event-driven Markov decision process(ED-MDP) and further introduce an event-driven deep deterministic policy gradient(ED-DDPG) method. This approach amalgamated reinforcement learning algorithms to deduce optimal control policies through event-triggered optimization. The experimental results demonstrate that ED-DDPG excels in enhancing learning speed and reducing decision frequency compared to the benchmark method. Furthermore, it attains notable accomplishments in energy conservation and sustaining thermal comfort. Following comprehensive testing and validation, the method showcases robustness and adaptability in optimizing residential HVAC control.

    Key words:reinforcement learning; event-driven; HVAC; residential buildings; thermal comfort

    0? 引言

    隨著全球氣候變化日益加劇,降低建筑能耗和提高熱舒適顯得尤為重要。據(jù)國(guó)際能源署報(bào)告稱,住宅建筑占建筑能耗的最大份額,僅2020年消耗了全球能耗的35%[1]。而在建筑系統(tǒng)中,暖通空調(diào)系統(tǒng)的能耗最高,占比超過(guò)50%[2]。因此,降低暖通空調(diào)系統(tǒng)能耗已成為優(yōu)化建筑控制的研究重點(diǎn)之一。然而,在追求建筑節(jié)能的同時(shí),不能以犧牲熱舒適為代價(jià)。尤其是在疫情期間,人們?cè)谑覂?nèi)停留時(shí)間更長(zhǎng)[3],因此,研究人員和相關(guān)從業(yè)者越來(lái)越關(guān)注如何在保持住宅建筑熱舒適性的前提下最大限度地減少能耗。

    目前,大多數(shù)暖通空調(diào)系統(tǒng)采用RBC(rule-based control)、PID(proportional integral derivative)[4]、拉格拉朗日松弛法[5]和MPC(model predictive control)[6]等方法。然而,RBC在實(shí)際應(yīng)用中存在一些限制,其控制精度有限,難以適應(yīng)復(fù)雜的實(shí)際環(huán)境;PID控制器依賴于固定的參數(shù),當(dāng)環(huán)境變化時(shí)可能無(wú)法提供最佳的性能;盡管MPC控制效果可能更好,但是在實(shí)踐中構(gòu)建一個(gè)簡(jiǎn)化的且足夠準(zhǔn)確的建筑模型并不容易。室內(nèi)環(huán)境受到多種因素影響,如建筑結(jié)構(gòu)、建筑布局、建筑內(nèi)部熱量和室外環(huán)境等。當(dāng)模型無(wú)法準(zhǔn)確描述建筑熱動(dòng)力學(xué),并存在較大偏差時(shí),控制性能可能會(huì)偏離預(yù)期[7]。

    強(qiáng)化學(xué)習(xí)為暖通空調(diào)系統(tǒng)的控制帶來(lái)了新的機(jī)遇[8]。Mozer[9]最早將強(qiáng)化學(xué)習(xí)應(yīng)用于住宅建筑;隨后,Chen等人[10]提出了一種Q學(xué)習(xí)方法,旨在最大限度地減少能耗和熱不適。但是對(duì)于具有大的狀態(tài)和動(dòng)作空間的問(wèn)題,簡(jiǎn)單強(qiáng)化學(xué)習(xí)方法可能不實(shí)用。為了應(yīng)對(duì)這一挑戰(zhàn),深度Q網(wǎng)絡(luò)(deep Q-network,DQN)方法由于其簡(jiǎn)單性和高數(shù)據(jù)效率而成為暖通空調(diào)控制的常見(jiàn)選擇[11]。然而,DQN需要對(duì)動(dòng)作空間進(jìn)行離散化,而足夠精細(xì)的離散化會(huì)成倍地增加動(dòng)作的數(shù)量,使得控制額外參數(shù)變得越來(lái)越難。為了處理連續(xù)的動(dòng)作空間,F(xiàn)u等人[12]提出了基于深度確定性策略梯度(deep deterministic policy gradients,DDPG)方法,避免了動(dòng)作空間的離散化。盡管強(qiáng)化學(xué)習(xí)在暖通空調(diào)系統(tǒng)中展現(xiàn)了巨大的潛力,但是傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在固定的時(shí)間步上進(jìn)行學(xué)習(xí),而暖通空調(diào)系統(tǒng)的控制涉及連續(xù)的時(shí)間步,這導(dǎo)致了一些問(wèn)題。首先,由于連續(xù)時(shí)間步之間具有相似性,強(qiáng)化學(xué)習(xí)方法可能會(huì)導(dǎo)致數(shù)據(jù)冗余和低效利用。因?yàn)樵谶B續(xù)時(shí)間步之間,環(huán)境可能保持相似的狀態(tài),但傳統(tǒng)方法仍然需要進(jìn)行策略更新和數(shù)據(jù)收集,造成了資源的浪費(fèi)。其次,時(shí)間間隔的選擇對(duì)控制性能有重要影響。較長(zhǎng)的時(shí)間間隔會(huì)降低控制的精度,可能會(huì)錯(cuò)過(guò)重要的狀態(tài)變化和事件。而較短的時(shí)間間隔會(huì)導(dǎo)致過(guò)多的動(dòng)作調(diào)整,增加了計(jì)算負(fù)擔(dān),并且可能會(huì)引起過(guò)度頻繁的策略更新,降低了控制的穩(wěn)定性和效率。此外,暖通空調(diào)系統(tǒng)的控制問(wèn)題通常涉及高維狀態(tài)空間,這進(jìn)一步增加了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的復(fù)雜性。高維狀態(tài)空間意味著智能體需要處理大量的狀態(tài)信息,導(dǎo)致計(jì)算資源和時(shí)間的增加。這使得傳統(tǒng)方法在實(shí)際應(yīng)用中可能面臨著計(jì)算效率和學(xué)習(xí)性能的折中。因此,在有限資源情況下,如何提升學(xué)習(xí)速度和節(jié)省資源,以保證節(jié)能和熱舒適是必要的,這也是促使開(kāi)展本文研究的直接原因。

    事件驅(qū)動(dòng)的思想在暖通空調(diào)領(lǐng)域一直備受關(guān)注。與傳統(tǒng)的周期性控制方法不同,它僅在事件發(fā)生時(shí)觸發(fā)控制行為。Wang等人[13]提出了一種基于事件驅(qū)動(dòng)和機(jī)器學(xué)習(xí)的方法以提高運(yùn)行效率,該方法優(yōu)于傳統(tǒng)的固定時(shí)間序列方法。為了進(jìn)一步簡(jiǎn)化計(jì)算過(guò)程,Jia等人[14]為暖通空調(diào)控制問(wèn)題建立了局部和全局事件,并通過(guò)實(shí)驗(yàn)證明了其良好的性能。然而在實(shí)際問(wèn)題中,通常不存在任何封閉形式的函數(shù)來(lái)準(zhǔn)確量化所選擇的事件與事件驅(qū)動(dòng)類控制策略性能之間的關(guān)系。因此,事件的構(gòu)建具有較高的復(fù)雜性,并且對(duì)先驗(yàn)知識(shí)有較高的依賴性。此外,事件驅(qū)動(dòng)的方法可能只關(guān)注短期調(diào)整,而未充分考慮暖通空調(diào)系統(tǒng)的長(zhǎng)期性能。

    綜合以上分析,本文針對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)在復(fù)雜環(huán)境中學(xué)習(xí)效率低以及頻繁操作等問(wèn)題,提出了一種基于事件驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)(event-driven deep reinforcement learning,ED-DRL)方法。如圖1所示,該方法基于“間歇性”概念,在重要事件發(fā)生后才作出決策,提高了數(shù)據(jù)的利用率。此外,ED-DRL 通過(guò)學(xué)習(xí)動(dòng)態(tài)非線性特征(室內(nèi)溫度),可以捕捉和利用一些不經(jīng)常出現(xiàn)的狀態(tài)。最后,ED-DRL 還可以結(jié)合先驗(yàn)知識(shí),在事件定義期間分配變量權(quán)重,從而可以靈活地適應(yīng)看不見(jiàn)的環(huán)境[15]。本文通過(guò)實(shí)驗(yàn)證實(shí)了所提方法在優(yōu)化暖通空調(diào)控制上的有效性,有望成為改進(jìn)傳統(tǒng)強(qiáng)化學(xué)習(xí)控制方法的一種有力手段。

    1? 基礎(chǔ)知識(shí)

    強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)智能體與環(huán)境的交互學(xué)習(xí)如何作出決策以獲得最大的獎(jiǎng)賞。強(qiáng)化學(xué)習(xí)通常使用馬爾可夫決策過(guò)程(Markov decision process,MDP)建模智能體與環(huán)境的交互過(guò)程,其具體表述為一個(gè)五元組:Γ(S,A,P,R,γ),其中S是有限狀態(tài)集,表示系統(tǒng)可能處于的所有狀態(tài)的集合;A是有限動(dòng)作集,表示智能體可以采取的所有動(dòng)作的集合;P是狀態(tài)轉(zhuǎn)移概率函數(shù),表示狀態(tài)st下采取動(dòng)作at后進(jìn)入下一個(gè)狀態(tài)st+1的概率,即p(st+1|st,at),其中t表示時(shí)間步;R是獎(jiǎng)賞函數(shù),表示在狀態(tài)st下采取動(dòng)作得到的即時(shí)獎(jiǎng)賞,即R(st,at,st+1);γ是折扣因子。

    如圖2所示,智能體在每個(gè)時(shí)間步t觀察到環(huán)境的狀態(tài)st,根據(jù)當(dāng)前策略π選擇一個(gè)動(dòng)作at,同時(shí)獲取到一個(gè)即時(shí)獎(jiǎng)賞rt+1。環(huán)境會(huì)根據(jù)當(dāng)前狀態(tài)和動(dòng)作向智能體返回一個(gè)新?tīng)顟B(tài)st+1和下一時(shí)刻的即時(shí)獎(jiǎng)賞rt+2,這個(gè)過(guò)程一直持續(xù)到終止?fàn)顟B(tài)。在每個(gè)時(shí)間步t,智能體根據(jù)當(dāng)前狀態(tài)和歷史經(jīng)驗(yàn)來(lái)更新策略和價(jià)值函數(shù),使回報(bào)的期望最大化。其中,回報(bào)被定義為折扣獎(jiǎng)賞的總和[16],如式(1)所示。

    G(t)=∑TK=tγk-tr(t)(1)

    價(jià)值函數(shù)用于評(píng)估在給定策略下?tīng)顟B(tài)或動(dòng)作的價(jià)值,可以分為狀態(tài)價(jià)值函數(shù)和狀態(tài)動(dòng)作價(jià)值函數(shù)。前者表示給定狀態(tài)st下的期望累積獎(jiǎng)賞,如式(2)所示。

    Vπ(s)=Euclid Math TwoEApπ[G(t)|S(t)=st](2)

    為了進(jìn)一步考慮動(dòng)作空間對(duì)目標(biāo)獎(jiǎng)賞的影響,在策略π下,目標(biāo)獎(jiǎng)賞可以用狀態(tài)動(dòng)作價(jià)值Q函數(shù)表示:

    Qπ(s,a)=Eπ[G(t)|S(t)=s,A(t)=a](3)

    然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法是基于時(shí)間序列的,智能體需要與環(huán)境不斷交互以收集數(shù)據(jù)并更新策略。這種交互方式可能需要更多的計(jì)算資源和更復(fù)雜的模型,以處理大量的狀態(tài)和動(dòng)作,這在實(shí)際應(yīng)用中可能受到一定的限制。因此,為了應(yīng)對(duì)這些問(wèn)題,需要引入更加高效和靈活的方法,以提高算法的性能和效果,并降低對(duì)計(jì)算資源的需求。

    2? ED-DRL方法

    為了應(yīng)對(duì)強(qiáng)化學(xué)習(xí)方法在連續(xù)的學(xué)習(xí)過(guò)程中需要大量的交互數(shù)據(jù)和計(jì)算資源的問(wèn)題,本文提出一種ED-DRL方法,該方法由三部分組成。首先,針對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)的低效率問(wèn)題,設(shè)計(jì)了一種新型的ED-MDP模型。通過(guò)事件驅(qū)動(dòng)的思想,不再每個(gè)時(shí)間步都與環(huán)境交互,而是根據(jù)事件的發(fā)生來(lái)選擇合適的決策時(shí)機(jī),避免了不必要的交互和計(jì)算資源的浪費(fèi)。其次,為了進(jìn)一步優(yōu)化控制,根據(jù)先驗(yàn)知識(shí)選擇重要的狀態(tài)變化作為事件,并設(shè)置合理的觸發(fā)條件。這樣,智能體可以針對(duì)重要事件進(jìn)行更加精細(xì)的策略更新。通過(guò)先驗(yàn)知識(shí)的指導(dǎo),智能體能判斷關(guān)鍵事件,以更加高效地學(xué)習(xí)和適應(yīng)環(huán)境的變化。最后,基于DDPG算法提出了一種結(jié)合事件驅(qū)動(dòng)的ED-DDPG算法。ED-DDPG能夠更好地利用事件信息,在連續(xù)動(dòng)作加速學(xué)習(xí)過(guò)程并提高學(xué)習(xí)效果。智能體在學(xué)習(xí)策略時(shí),能夠根據(jù)事件的觸發(fā)條件有選擇地更新策略,從而進(jìn)一步提高學(xué)習(xí)效率和性能。

    2.1? ED-MDP框架設(shè)計(jì)

    本文以多區(qū)域住宅建筑為基礎(chǔ),討論了優(yōu)化暖通空調(diào)系統(tǒng)的能耗和熱舒適度控制問(wèn)題。為了建立框架,采用了離散的時(shí)間表示,每個(gè)時(shí)間步為半小時(shí),用t=0,1,2,…表示。然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在周期性和離散性學(xué)習(xí)過(guò)程中可能是低效的,尤其是在學(xué)習(xí)環(huán)境穩(wěn)定的情況下。為了解決這個(gè)問(wèn)題,本文采用了事件驅(qū)動(dòng)方法來(lái)確定是否更新智能體的策略。因此,傳統(tǒng)的MDP模型可以被重新定義為一個(gè)具有事件驅(qū)動(dòng)的六元組:Ι(S,A,P,R,γ,e)。其中,e代表事件。當(dāng)觸發(fā)函數(shù)大于閾值時(shí),智能體被觸發(fā)并執(zhí)行策略,同時(shí)發(fā)生狀態(tài)轉(zhuǎn)移,轉(zhuǎn)移函數(shù)為p(st+1|st,a,e)[17]。具體來(lái)說(shuō),將多區(qū)域住宅建筑視為環(huán)境,ED-DRL視為智能體。此外,系統(tǒng)的狀態(tài)、動(dòng)作、獎(jiǎng)賞的設(shè)計(jì)如下:

    a)狀態(tài)。狀態(tài)由環(huán)境所決定。對(duì)于智能體來(lái)說(shuō),擁有全面的狀態(tài)信息可以幫助其學(xué)習(xí)到更優(yōu)的策略。然而,狀態(tài)空間過(guò)大會(huì)導(dǎo)致探索變得困難,因此需要定義適量的變量以表示環(huán)境信息。在本文中,考慮了室內(nèi)環(huán)境狀態(tài)(每個(gè)房間人員占用率和室內(nèi)溫度)、室外環(huán)境狀態(tài)(室外溫度)、影響能耗狀態(tài)(電價(jià)和舒適溫度上限)。即

    S(t)=[Occz(t),Tz,in(t),Tout(t),λretail(t),Thigh(t)]

    其中:Occz(t)表示房間內(nèi)是否有人,z表示房間號(hào)。值得注意的是,舒適溫度上限Thigh(t)會(huì)根據(jù)人員占用率的變化而進(jìn)行調(diào)整。當(dāng)房間沒(méi)人時(shí),為了節(jié)省能耗,可以擴(kuò)大舒適溫度范圍;而當(dāng)有人時(shí),為了保證熱舒適,就恢復(fù)正常閾值。

    b)動(dòng)作。動(dòng)作可以定義為暖通空調(diào)中的控制變量。本文將暖通空調(diào)的溫度設(shè)定點(diǎn)定義為動(dòng)作,即A(t)=[Spz(t)]。

    c)對(duì)于平衡能耗和熱舒適的多目標(biāo)問(wèn)題,本文將權(quán)重因子α作為調(diào)節(jié)參數(shù),如式(4)所示。

    R(t)=α∑tRcomfort(t′)-∑tt′=t-1λretail(t′)EHVAC(t′)(4)

    其中:λretail(t′)表示零售價(jià)格,EHVAC(t′)表示能耗,Rcomfort(t′)表示溫度在舒適范圍內(nèi)的獎(jiǎng)賞。給定舒適范圍TH(t)∈[Tlow,Thigh(t)],當(dāng)執(zhí)行動(dòng)作偏離閾值時(shí),會(huì)增加負(fù)獎(jiǎng)賞。具體定義如式(5)所示。

    Rcomfort(t′)=0.5??????? if Tlow<Tin(t′)<Thigh(t′)

    Thigh(t′)-Tin(t′)if Tin(t′)>Thigh(t′)

    Tin(t′)-Tlowif Tin(t′)<Tlow(5)

    傳統(tǒng)強(qiáng)化學(xué)習(xí)學(xué)習(xí)過(guò)程中,智能體觀察環(huán)境狀態(tài)、執(zhí)行動(dòng)作,環(huán)境給予回報(bào),周期性地完成每一個(gè)學(xué)習(xí)步,而ED-DRL框架如圖3所示,狀態(tài)與獎(jiǎng)賞仍然是周期性的,但是動(dòng)作轉(zhuǎn)換成了非周期性的。值得注意的是,非周期性的動(dòng)作不是指不執(zhí)行動(dòng)作,而是不進(jìn)行策略更新及策略搜索,直接沿用上一動(dòng)作。

    2.2? 觸發(fā)規(guī)則設(shè)計(jì)

    傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常采用周期性的策略更新,這種方式在某些情況下是有效的強(qiáng)化學(xué)習(xí),但是從學(xué)習(xí)效率的角度看,周期性的方式并不總是合適的。如果暖通空調(diào)系統(tǒng)在沒(méi)有受到外部干擾或受到干擾較小時(shí),一般能夠按照預(yù)期的要求平穩(wěn)運(yùn)行。這種情況下,周期性的策略更新可以認(rèn)為是資源的浪費(fèi)。事件驅(qū)動(dòng)方法正是為了緩解周期性采樣的缺點(diǎn)而提出的[18]。預(yù)先設(shè)置了一些事件,并根據(jù)觸發(fā)條件來(lái)決定是否需要進(jìn)行策略搜索。如圖4所示,假設(shè)暖通空調(diào)系統(tǒng)環(huán)境較為穩(wěn)定,則觸發(fā)條件不滿足,智能體無(wú)須進(jìn)行策略搜索,繼續(xù)執(zhí)行當(dāng)前的動(dòng)作;否則,需要更新策略。

    在ED-MDP模型中,事件驅(qū)動(dòng)的關(guān)鍵在于觸發(fā)規(guī)則的設(shè)計(jì)。當(dāng)智能體觀測(cè)結(jié)束后,可以根據(jù)上一刻觀測(cè)和當(dāng)前觀測(cè)的變化率判斷是否需要觸發(fā)事件。例如,當(dāng)室內(nèi)溫度超過(guò)某個(gè)閾值時(shí),可以觸發(fā)事件,系統(tǒng)會(huì)自動(dòng)調(diào)整溫度以保持舒適。通過(guò)預(yù)先設(shè)計(jì)事件,系統(tǒng)可以更輕易地捕捉影響響應(yīng)環(huán)境變化的先驗(yàn)因素,從而提高學(xué)習(xí)效率。

    本文設(shè)計(jì)了狀態(tài)轉(zhuǎn)換事件與組合事件兩種事件類型。如果需要可以很容易地將其他類型的事件添加到ED-MDP框架中。

    a)狀態(tài)轉(zhuǎn)換事件。某些狀態(tài)的變化對(duì)系統(tǒng)的運(yùn)行有很大的影響??紤]到零售價(jià)格λretail(t)對(duì)能耗的直接影響,將λretail(t)的變化列為事件1[19]。假設(shè)當(dāng)前零售價(jià)格為λretail(t)與上一時(shí)刻λretail(t′)不同時(shí),則觸發(fā)事件1。事件1定義如式(6)所示。

    epz[[λretail(t′),λretail(t)]|λretail(t′),λretail(t)∈[λlow,λhigh]](6)

    其中:λretail(t)與λretail(t′)都在價(jià)格范圍[λlow,λhigh]內(nèi),λlow表示最低零售價(jià)格,λhigh表示最高零售價(jià)格。

    同樣地,事件2定義如式(7)所示。

    eoz[[Occ(t′),Occ(t)]|Occ(t′),Occ(t)∈[-1,1]](7)

    其中:Occ(t)與Occ(t′)在[-1,1]內(nèi),-1表示室內(nèi)沒(méi)人,1表示室內(nèi)有人。

    b)組合事件。當(dāng)不同狀態(tài)同時(shí)變化時(shí),可以定義為組合事件[20]??紤]熱舒適是優(yōu)化的目標(biāo)之一,且舒適度范圍根據(jù)人員的變化而變化,則將TH(t′)與Occz(t′)的組合列為事件3。事件3定義如式(8)所示。

    eTHz[[THoz(t′),THoz(t)]|Occz(t′)∈[-1,1],

    THoz(t′)∈[Tlow,Tχ(t′)]](8)

    其中:設(shè)置了一個(gè)舒適度范圍THoz(t)∈[Tlow,Tχ(t′)],不同于TH(t),Tχ(t′)≤Thigh(t′),當(dāng)即將要超出閾值時(shí)觸發(fā)事件3,能更好地控制溫度保持在舒適的范圍內(nèi)。

    2.3? ED-DDPG算法設(shè)計(jì)

    為了解決上述的ED-MDP問(wèn)題,基于通用的DDPG算法,本文提出了一種ED-DDPG算法。在溫度控制問(wèn)題中,溫度被視為一個(gè)連續(xù)的物理量,因此需要使用連續(xù)動(dòng)作來(lái)提供更精細(xì)的控制操作。DQN算法則主要用于處理離散動(dòng)作空間,可能無(wú)法提供足夠的靈活性和精確度。相比之下,DDPG作為一種代表性的DRL方法,能夠有效解決連續(xù)性控制問(wèn)題,通過(guò)深度神經(jīng)網(wǎng)絡(luò)生成Q值或動(dòng)作概率,并輸出連續(xù)的動(dòng)作。

    多區(qū)域暖通空調(diào)系統(tǒng)的完整控制框架如圖5所示。就網(wǎng)絡(luò)結(jié)構(gòu)來(lái)說(shuō),ED-DDPG運(yùn)用了Actor和Critic兩種類型的網(wǎng)絡(luò)。同時(shí)還延續(xù)DQN使用固定目標(biāo)網(wǎng)絡(luò)的思想,每種網(wǎng)絡(luò)都包含目標(biāo)網(wǎng)絡(luò)和估計(jì)網(wǎng)絡(luò)。傳統(tǒng)policy gradient方法采用隨機(jī)策略,每一次獲取動(dòng)作需要對(duì)當(dāng)前最優(yōu)策略的分布進(jìn)行采樣,而ED-DDPG采取確定性策略,Actor網(wǎng)絡(luò)的輸入是當(dāng)前狀態(tài),輸出的是一個(gè)確定性的動(dòng)作。Critic網(wǎng)絡(luò)用來(lái)擬合狀態(tài)動(dòng)作價(jià)值函數(shù),它的輸入由當(dāng)前狀態(tài)和Actor網(wǎng)絡(luò)生成的動(dòng)作組成,輸出是當(dāng)前狀態(tài)動(dòng)作對(duì)Q值。這個(gè)Q值將被進(jìn)一步用于更新Actor網(wǎng)絡(luò)的參數(shù)。

    ED-DDPG算法具體解釋如下:

    首先,隨機(jī)初始化Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)的參數(shù)分別用θμ和θQ表示,同時(shí)也初始化它們的目標(biāo)網(wǎng)絡(luò)[21],如式(9)和(10)所示。

    Actor:PolicyNetonline:μθ(s|θμ)target:μθ′(s|θμ′)(9)

    Critic:QNetonline:Qθ(s|θQ)target:Qθ′(s|θQ′)(10)

    對(duì)于每次迭代,需初始化狀態(tài),然后判斷是否觸發(fā)事件。如果不觸發(fā)事件,則繼續(xù)執(zhí)行這個(gè)動(dòng)作;如果觸發(fā)事件,則根據(jù)當(dāng)前Actor網(wǎng)絡(luò)選擇控制動(dòng)作,即溫度設(shè)定點(diǎn),同時(shí)將噪聲添加到所選擇的動(dòng)作以促進(jìn)對(duì)算法的探索。接下來(lái),以t為控制間隔,執(zhí)行所選動(dòng)作,并觀察得到的獎(jiǎng)賞和下一個(gè)狀態(tài),將狀態(tài)轉(zhuǎn)移序列{S(t),Spz(t),R(t),S(t+1)}存放在經(jīng)驗(yàn)緩存池中,用于進(jìn)一步訓(xùn)練。當(dāng)收集到足夠數(shù)量的狀態(tài)轉(zhuǎn)移序列時(shí),隨機(jī)選擇一小批狀態(tài)轉(zhuǎn)移序列來(lái)更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù),更新目標(biāo)y(i)(t)如式(11)所示。

    y(i)(t)=R(i)(t)+γQ′(S(i)(t+1),μ′(S(i)(t+1)|θμ′)|θQ′)(11)

    其中:i表示當(dāng)前序列號(hào)。Critic網(wǎng)絡(luò)的損失函數(shù)被定義為目標(biāo)Q值和當(dāng)前Q值之間的均方誤差,如式(12)所示。

    L(θQ)=1M∑t[y(i)(t)-Q(S(i)(t),μ(S(i)(t)|θμ|θQ)]2(12)

    設(shè)置學(xué)習(xí)率為ηQ,利用最小化損失函數(shù)更新參數(shù)θQ,如式(13)所示。

    θQ=θQ-ηQθμL(θQ)(13)

    Actor網(wǎng)絡(luò)根據(jù)確定性策略梯度進(jìn)行更新參數(shù)θμ,如式(14)和(15)所示。

    θμJ(θ)=1M∑t[aQ(S(i)(t),μ(S(i)(t)|θμ)|θQ) θμμ(S(i)(t)|θμ)](14)

    θμ=θμ-ημJ(15)

    同時(shí), 為避免計(jì)算網(wǎng)絡(luò)梯度時(shí)的振蕩和發(fā)散問(wèn)題,按照軟更新(soft update)方式更新兩個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù),可以保證參數(shù)波動(dòng)較小且易于收斂, 如式(16)所示。

    θQ′←τθQ+(1-τ)θQ′

    θμ′←τθμ+(1-τ)θμ′(16)

    3? 實(shí)驗(yàn)分析

    3.1? 仿真設(shè)置

    本文使用了一個(gè)有五個(gè)房間的三人住宅模型[22],其中臥室(房間1和2)和客廳(房間3)為訓(xùn)練和測(cè)試暖通空調(diào)的功能房間。而廁所和廚房只在特定情況下占用,因此不在考慮之列。住宅的占用率根據(jù)一周中的時(shí)間而變化。圖6展示了人員活動(dòng)規(guī)律,人員根據(jù)工作日和周末產(chǎn)生了不同的行動(dòng)軌跡。

    天氣數(shù)據(jù)來(lái)自氣象局[23],如圖7所示,橫軸表示訓(xùn)練或測(cè)試的時(shí)間步,縱軸表示相應(yīng)的室外溫度。因?yàn)檠芯康闹攸c(diǎn)是制冷,所以選擇較為炎熱的7月和8月的天氣數(shù)據(jù)。其中7月用于訓(xùn)練,8月用于測(cè)試。此外,還創(chuàng)建了一個(gè)模擬電價(jià)序列,其中λlow=0.5,λhigh=1.5, 電價(jià)每四小時(shí)在高低值之間交替。另外,本文定義有人時(shí)Tlow=24,Thigh(t)=26,沒(méi)人時(shí)Tlow=24,Thigh(t)=28。

    3.2? 網(wǎng)絡(luò)參數(shù)設(shè)置

    實(shí)驗(yàn)實(shí)現(xiàn)方法基于Python以及PyTorch框架,表1列出了ED-DDPG中使用的參數(shù)。在Actor網(wǎng)絡(luò)的輸出層,使用的激活函數(shù)是tanh,確保輸出值在[-1,1]。表2給出了DQN中使用的參數(shù),動(dòng)作空間從23~28 ℃,以0.5℃為步長(zhǎng)離散化,從而導(dǎo)致每個(gè)房間11個(gè)可能的動(dòng)作,3個(gè)房間暖通空調(diào)總共1 331個(gè)動(dòng)作組合。

    3.3? 參數(shù)影響分析

    為了深入研究ED-DDPG算法在不同情況下對(duì)模型參數(shù)的敏感性,進(jìn)行了詳細(xì)的實(shí)驗(yàn)分析,重點(diǎn)關(guān)注神經(jīng)網(wǎng)絡(luò)參數(shù)、獎(jiǎng)賞權(quán)重參數(shù)和事件觸發(fā)閾值。通過(guò)觀察這些參數(shù)對(duì)ED-DDPG算法學(xué)習(xí)性能的影響,選擇最合適的參數(shù)組合,以實(shí)現(xiàn)最優(yōu)的算法性能。

    在圖8中,橫軸表示回合數(shù),縱軸表示該方法獲得的平均獎(jiǎng)賞。圖8(a)展示了不同折扣因子下ED-DDPG的收斂速度。折扣因子決定了智能體對(duì)未來(lái)獎(jiǎng)勵(lì)的重視程度。觀察圖8(a)可以發(fā)現(xiàn),當(dāng)折扣因子為0.9時(shí),算法收斂得最快,同時(shí)在50回合后獲得了最高的獎(jiǎng)賞。但是,當(dāng)折扣因子為0.99時(shí),算法可能會(huì)過(guò)度探索,無(wú)法及時(shí)響應(yīng)當(dāng)前的獎(jiǎng)賞信號(hào),因此50回合后的獎(jiǎng)賞明顯下降。圖8(b)展示了不同批量下ED-DDPG的收斂速度,批量指每次輸入神經(jīng)網(wǎng)絡(luò)的樣本數(shù)量??梢钥吹?,當(dāng)批量為128時(shí),獎(jiǎng)賞明顯高于其他參數(shù),因?yàn)檩^大的批量可以減少數(shù)據(jù)讀取和內(nèi)存訪問(wèn)的次數(shù)。圖8(c)展示了不同學(xué)習(xí)率下ED-DDPG的收斂速度。當(dāng)學(xué)習(xí)率為0.001時(shí),該算法可以收斂到最佳性能。但是,當(dāng)學(xué)習(xí)率過(guò)大(0.01)或過(guò)?。?.000 1)時(shí),算法無(wú)法收斂到最佳性能。圖8(d)展示了不同衰減率下ED-DDPG的收斂速度,衰減率用于控制學(xué)習(xí)率的變化速度。當(dāng)衰減率為0.005時(shí),算法收斂得最快。然而,當(dāng)衰減率過(guò)大(0.05)或過(guò)?。?.000 5)時(shí),收斂速度和獎(jiǎng)賞大小都不如0.005。

    獎(jiǎng)賞權(quán)重參數(shù)在很大程度上影響能耗和熱舒適性之間的權(quán)衡。為了更好地平衡這兩個(gè)因素,在其他參數(shù)保持相同的情況下,本文對(duì)參數(shù)α進(jìn)行了研究,范圍為0.1~1。在圖9中,橫軸表示采用不同權(quán)重設(shè)置時(shí)的熱舒適違反情況,縱軸表示相應(yīng)的能耗。這里熱舒適違反指所有時(shí)間步中超出熱舒適區(qū)域的比率。當(dāng)α=0.9時(shí),產(chǎn)生的能耗最高,約為15.82;當(dāng)α=0.6時(shí),熱舒適違反最高,約為9.834%;而當(dāng)α=1時(shí),能耗約為15.04,熱舒適違反約為2.845%,獎(jiǎng)賞權(quán)重對(duì)于能耗和熱舒適性的平衡達(dá)到了最佳狀態(tài)。

    在觸發(fā)規(guī)則設(shè)計(jì)中,本文定義了三個(gè)事件。事件1和2是相對(duì)簡(jiǎn)單的觸發(fā)條件,分別根據(jù)價(jià)格和房間占用率的變化來(lái)觸發(fā)。而在事件3中,智能體根據(jù)三個(gè)房間的占用率與熱舒適閾值的變化來(lái)觸發(fā)。具體來(lái)說(shuō),當(dāng)有人出現(xiàn)在房間內(nèi)時(shí),智能體會(huì)根據(jù)相應(yīng)房間的熱舒適閾值來(lái)判斷是否觸發(fā)事件。不同的觸發(fā)閾值選擇會(huì)導(dǎo)致不同的熱舒適效果。為了選擇合適的觸發(fā)閾值,進(jìn)行了五組實(shí)驗(yàn),并在表3中列出了不同情況下的設(shè)置。

    在圖10(a)(b)中,橫軸對(duì)應(yīng)了五個(gè)例子,縱軸分別表示相應(yīng)的熱舒適違反和能耗。從圖10中可以觀察到,無(wú)論是在熱舒適性還是節(jié)能方面,c3都保持在較高水平。這可能是因?yàn)橛|發(fā)閾值恰好等于熱舒適閾值,智能體能夠更好地判斷環(huán)境的舒適程度。從c4和c5的結(jié)果可以看出,如果觸發(fā)閾值范圍較小,可能會(huì)導(dǎo)致頻繁的變動(dòng),使智能體無(wú)法學(xué)習(xí)到關(guān)鍵的信息,從而無(wú)法有效地平衡熱舒適性和能耗,尤其是在c5中,能耗最高。而c1和c2的結(jié)果顯示,即使room1或room3與c3的設(shè)置相同,也不能很好地權(quán)衡兩個(gè)目標(biāo)。尤其是在c1中,room1的熱舒適違反最高。總體而言,如果選擇了合理的參數(shù)配置,就可以保證ED-DDPG逐漸收斂至一個(gè)較好的性能。

    3.4? 實(shí)驗(yàn)結(jié)果分析

    3.4.1? 收斂性分析

    本文對(duì)比了實(shí)現(xiàn)暖通空調(diào)優(yōu)化控制的不同方法,包括ED-DDPG、DDPG、DQN和TD3(twin delayed deep deterministic policy gradient)。DQN、DDPG和TD3都是深度強(qiáng)化學(xué)習(xí)算法,針對(duì)不同類型的問(wèn)題和動(dòng)作空間進(jìn)行了設(shè)計(jì)和改進(jìn),在建筑領(lǐng)域受到廣泛關(guān)注,特別是DDPG在該領(lǐng)域更為流行。DQN適用于解決離散動(dòng)作空間問(wèn)題,通過(guò)Q值函數(shù)輸出每個(gè)動(dòng)作的Q值,并使用貪婪策略選擇動(dòng)作。而DDPG和TD3適用于連續(xù)動(dòng)作空間問(wèn)題,通過(guò)策略函數(shù)輸出連續(xù)動(dòng)作。TD3是在DDPG的基礎(chǔ)上引入了雙Q網(wǎng)絡(luò)和目標(biāo)策略延遲更新等改進(jìn),以提高訓(xùn)練穩(wěn)定性和性能。盡管TD3在某些場(chǎng)景下可能表現(xiàn)更優(yōu),但是相對(duì)于TD3,DDPG算法更容易實(shí)現(xiàn)和調(diào)整,并且在多個(gè)領(lǐng)域已經(jīng)證明了其有效性。因此,本文選擇采用DDPG作為主要的深度強(qiáng)化學(xué)習(xí)算法,并且大部分實(shí)驗(yàn)都以DDPG作為比較基準(zhǔn)。

    圖11展示了這些方法的收斂性,每種方法訓(xùn)練了三次,用相同顏色但不同線條表示。通過(guò)圖11可以觀察到,ED-DDPG在大約40回合時(shí)就趨于收斂,比其他方法收斂速度更快。這是因?yàn)镋D-DDPG利用了事件驅(qū)動(dòng)的優(yōu)化控制,智能體在重要事件發(fā)生時(shí)選擇更新策略,避免了在連續(xù)時(shí)間步上進(jìn)行不必要的策略更新和數(shù)據(jù)收集,從而加快了學(xué)習(xí)過(guò)程。 此外,雖然TD3與DDPG在后期趨近于ED-DDPG,ED-DDPG相對(duì)于其他方法獲得了相對(duì)更高的平均獎(jiǎng)賞。因?yàn)镋D-DDPG能夠靈活地適應(yīng)不同的環(huán)境和情況,并在重要事件發(fā)生時(shí)選擇最佳的策略更新時(shí)機(jī)。這使得ED-DDPG能夠更好地學(xué)習(xí)到環(huán)境的動(dòng)態(tài)變化,并根據(jù)事件判斷哪些因素能耗和熱舒適性的影響最為關(guān)鍵,證明了ED-DDPG在優(yōu)化暖通空調(diào)控制上達(dá)到了更好的性能。

    3.4.2? 熱舒適與能耗分析

    為了進(jìn)一步驗(yàn)證ED-DDPG方法的優(yōu)越性,本文不僅與強(qiáng)化學(xué)習(xí)方法進(jìn)行了對(duì)比,還選擇了RBC方法作為對(duì)照。在RBC方法中,制定了一組規(guī)則,即在有人時(shí)將溫度設(shè)定為24℃,在無(wú)人時(shí)將溫度設(shè)定為28℃。表4對(duì)比了ED-DDPG與其他基準(zhǔn)方法在能耗和熱舒適性方面的效果??梢杂^察到,在所有方法中,雖然TD3和RBC在熱舒適性方面表現(xiàn)較好,但是ED-DDPG方法在實(shí)現(xiàn)最低能耗的同時(shí),保持了較高的熱舒適性。具體來(lái)說(shuō),相比于TD3方法,ED-DDPG的能耗略低約0.3單位,而與RBC方法相比,其能耗較低約0.8單位。從熱舒適與能耗平衡的角度來(lái)看,ED-DDPG是最優(yōu)的選擇。此外,圖12展示了7月31日三個(gè)房間的室內(nèi)溫度在不同方法下的對(duì)比,橫軸表示一天中的時(shí)間,縱軸表示各房間的室內(nèi)溫度。相比于DDPG,可以看出ED-DDPG更為平緩,只有環(huán)境突然變化時(shí)才會(huì)波動(dòng)。這是因?yàn)镋D-DDPG方法無(wú)須固定時(shí)間步內(nèi)更新策略,而是根據(jù)事件自主調(diào)整時(shí)間間隔,所以不僅不會(huì)錯(cuò)過(guò)重要的環(huán)境變化,而且還提高了學(xué)習(xí)的穩(wěn)定性。盡管ED-DDPG、TD3和RBC方法都能夠在三個(gè)房間中良好地維持熱舒適性,然而從節(jié)能效果的角度來(lái)看,ED-DDPG方法更為優(yōu)越。

    傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在每個(gè)時(shí)間步都需要與環(huán)境進(jìn)行交互,以收集數(shù)據(jù)并進(jìn)行策略更新,這導(dǎo)致學(xué)習(xí)過(guò)程變得低效。而ED-DDPG方法在重要事件發(fā)生后才作出決策,通過(guò)減少?zèng)Q策頻率,避免了在連續(xù)時(shí)間步上頻繁進(jìn)行策略更新,從而節(jié)省了計(jì)算資源并延長(zhǎng)設(shè)備的使用壽命。表5列出了ED-DDPG與DDPG方法在決策數(shù)量上的對(duì)比??梢郧宄乜吹?,ED-DDPG在三個(gè)房間中的決策數(shù)量明顯少于DDPG。

    3.4.3? 測(cè)試

    為了驗(yàn)證ED-DDPG方法的魯棒性和擴(kuò)展性,基于之前訓(xùn)練數(shù)據(jù),又進(jìn)行了測(cè)試實(shí)驗(yàn)。根據(jù)表6可以看出,ED-DDPG方法在維持熱舒適與能耗之間達(dá)到了最佳平衡。盡管RBC方法在熱舒適方面違反最低,但卻導(dǎo)致了較高的能耗。另一方面,雖然其他強(qiáng)化學(xué)習(xí)方法的能耗略低于ED-DDPG,但卻存在很高的熱舒適違反率,這意味著它們?cè)趯?shí)際應(yīng)用中可能無(wú)法滿足用戶對(duì)熱舒適的需求。相比之下,ED-DDPG在能耗和熱舒適平衡方面表現(xiàn)更為出色,是未來(lái)更具實(shí)踐潛力的選擇。此外,從表7可以看出,ED-DDPG的決策率較DDPG明顯降低,意味著通過(guò)減少?zèng)Q策次數(shù)能夠節(jié)省計(jì)算資源的消耗。因此,可以得出結(jié)論,ED-DDPG在節(jié)省計(jì)算資源消耗、能耗與熱舒適方面都具有明顯的優(yōu)越性。

    4? 結(jié)束語(yǔ)

    本文將事件驅(qū)動(dòng)引入經(jīng)典的MDP框架,提出一種新的結(jié)合事件驅(qū)動(dòng)的ED-MDP框架,以應(yīng)對(duì)環(huán)境中規(guī)律性的變化。通過(guò)定義和識(shí)別不同的事件,智能體無(wú)須每個(gè)時(shí)間步都進(jìn)行策略更新,提高了資源利用率。在此基礎(chǔ)上,提出一種新的ED-DDPG方法,并用于優(yōu)化暖通空調(diào)的控制。實(shí)驗(yàn)結(jié)果表明,相比于DDPG、DQN和RBC方法,ED-DDPG能夠更好地平衡能耗和熱舒適之間的關(guān)系,在減少?zèng)Q策率的同時(shí)提升了學(xué)習(xí)速度,證明了ED-DDPG方法在暖通空調(diào)優(yōu)化控制方面的優(yōu)越性。在未來(lái)的研究中,值得探索一種更為有效的事件驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的交互模式,使這兩種優(yōu)化方式從相互獨(dú)立變?yōu)橄嗷ズ献?。通過(guò)這種方式可以持續(xù)優(yōu)化事件觸發(fā)的準(zhǔn)確性,并提高數(shù)據(jù)處理和分析的效率,為解決優(yōu)化問(wèn)題提供創(chuàng)新的解決方案。

    參考文獻(xiàn):

    [1]Hamilton I, Rapf O, Kockat D J, et al. Global status report for buil-dings and construction[R]. Nairobi, Kenya: United Nations Environmental Programme, 2020.

    [2]Li Wenqiang, Gong Guangcai, Fan Houhua, et al. A clustering-based approach for“cross-scale”load prediction on building level in HVAC systems[J]. Applied Energy, 2021,282: 116223.[3]Qi Hongchao, Xiao Shuang, Shi Runye, et al. COVID-19 transmission in Mainland China is associated with temperature and humidity: a time-series analysis[J]. Science of the Total Environment, 2020,728: 138778.

    [4]Wemhoff A P. Calibration of HVAC equipment PID coefficients for energy conservation[J]. Energy and Buildings, 2012,45: 60-66.

    [5]Xu Zhanbo, Liu Shuo, Hu Guoqiang, et al. Optimal coordination of air conditioning system and personal fans for building energy efficiency improvement[J]. Energy and Buildings, 2017,141: 308-320.

    [6]Eini R, Abdelwahed S. A neural network-based model predictive control approach for buildings comfort management[C]//Proc of IEEE International Smart Cities Conference. Piscataway, NJ: IEEE Press, 2020.

    [7]Fu Qiming, Chen Xiyao, Ma Shuai, et al. Optimal control method of HVAC based on multi-agent deep reinforcement learning[J]. Energy and Buildings, 2022, 270: 112284.

    [8]Fu Qiming, Han Zhicong, Chen Jianping, et al. Applications of reinforcement learning for building energy efficiency control: a review[J]. Journal of Building Engineering, 2022,50: 104165.

    [9]Mozer M C. The neural network house: an environment that adapts to its inhabitants[C]//Proc of AAAI Spring Symposium. Palo Alto,CA: AAAI Press, 1998.

    [10]Chen Yujiao, Norford L K, Samuelson H W, et al. Optimal control of HVAC and window systems for natural ventilation through reinforcement learning[J]. Energy and Buildings, 2018,169: 195-205.

    [11]李可, 傅啟明, 陳建平, 等. 基于分類 DQN 的建筑能耗預(yù)測(cè)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2022,31(10): 156-165. (Li Ke, Fu Qiming, Chen Jianping, et al. Building energy consumption prediction based on classification DQN[J]. Computer Systems Applications, 2022, 31(10): 156-165.)

    [12]Fu Qiming, Liu Lu, Zhao Lifan, et al. Predictive control of power demand peak regulation based on deep reinforcement learning[J]. Journal of Building Engineering, 2023,75: 106992.

    [13]Wang Junqi,Liu Rundong,Zhang Linfeng,et al. Triggering optimal control of air conditioning systems by event-driven mechanism: comparing direct and indirect approaches[J].Energies,2019,12(20):3863.

    [14]Jia Qingshan, Wu Junjie, Wu Zijian, et al. Event-based HVAC control-a complexity-based approach[J]. IEEE Trans on Automation Science and Engineering, 2018,15(4): 1909-1919.

    [15]Ran Yongyi, Zhou Xin, Hu Han, et al. Optimizing data center energy efficiency via event-driven deep reinforcement learning[J]. IEEE Trans on Services Computing, 2022,16(2): 1296-1309.

    [16]Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. Cambridge,MA: MIT Press, 2018.

    [17]張文旭, 馬磊, 王曉東. 基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2017,12(1): 82-87. (Zhang Wenxu, Ma Lei, Wang Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI Trans on Intelligent Systems, 2017,12(1): 82-87.)

    [18]徐鵬, 謝廣明, 文家燕, 等. 事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)多智能體編隊(duì)控制[J]. 智能系統(tǒng)學(xué)報(bào), 2019,14(1): 93-98. (Xu Peng, Xie Guangming, Wen Jiayan, et al. Event-driven reinforcement learning for multi-intelligent body formation control[J]. Journal of Intelligent Systems, 2019,14(1): 93-98.)

    [19]Xu Zhanbo, Hu Guoqiang, Spanos C J, et al. PMV-based event-triggered mechanism for building energy management under uncertainties[J]. Energy and Buildings, 2017,152: 73-85.

    [20]Wu Zijian, Jia Qingshan, Guan Xiaohong. Optimal control of multiroom HVAC system: an event-based approach[J]. IEEE Trans on Control Systems Technology, 2015,24(2):662-669.

    [21]李永福, 周發(fā)濤, 黃龍旺, 等. 基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)聯(lián)車輛隊(duì)列縱向控制[J/OL]. 控制與決策.(2023-03-20).https://doi.org/10.13195/j.kzyjc.2022.2094. (Li Yongfu, Zhou Fatao, Huang Longwang, et al. Deep reinforcement learning-based longitudinal control of networked vehicle queues[J/OL]. Control and Decision(2023-03-20).https://doi.org/10.13195/j.kzyjc.2022.2094.)

    [22]Deng Jie, Yao Runming, Yu Wei, et al. Effectiveness of the thermal mass of external walls on residential buildings for part-time part-space heating and cooling using the state-space method[J]. Energy and Buildings, 2019, 190: 155-171.

    [23]China Meteorological Bureau, Tsinghua University. China standard weather data for analyzing building thermal conditions[S]. Beijing: China Architecture and Building Press, 2005.

    猜你喜歡
    強(qiáng)化學(xué)習(xí)住宅建筑暖通空調(diào)
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫(xiě)”在初中英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用
    智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
    住宅建筑節(jié)能設(shè)計(jì)初探
    某高層住宅建筑設(shè)計(jì)構(gòu)思及相關(guān)要素分析
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    暖通空調(diào)節(jié)能設(shè)計(jì)在工程中應(yīng)用及效果分析
    住宅建筑交通核設(shè)計(jì)探析
    科技視界(2016年24期)2016-10-11 09:22:29
    暖通空調(diào)的恒溫恒濕設(shè)計(jì)
    科技視界(2016年20期)2016-09-29 11:43:16
    關(guān)于暖通空調(diào)安裝維護(hù)的幾點(diǎn)思考
    免费看光身美女| 日韩,欧美,国产一区二区三区 | 老司机福利观看| 一本一本综合久久| 亚洲欧美清纯卡通| 伦理电影大哥的女人| 色吧在线观看| 2021天堂中文幕一二区在线观| 麻豆乱淫一区二区| 简卡轻食公司| 亚洲av免费高清在线观看| 春色校园在线视频观看| 老司机影院成人| 免费大片18禁| 一夜夜www| 日韩强制内射视频| 国产成人精品婷婷| 日韩av不卡免费在线播放| 熟妇人妻久久中文字幕3abv| 一本一本综合久久| 男人的好看免费观看在线视频| 日韩三级伦理在线观看| 精品人妻偷拍中文字幕| 成人亚洲欧美一区二区av| 亚洲国产精品合色在线| 天堂av国产一区二区熟女人妻| 欧洲精品卡2卡3卡4卡5卡区| 午夜福利在线观看吧| 久久6这里有精品| 免费大片18禁| 国产片特级美女逼逼视频| 如何舔出高潮| 久久久欧美国产精品| 欧美人与善性xxx| 日韩一区二区视频免费看| 日韩国内少妇激情av| 国产女主播在线喷水免费视频网站 | 久久久久免费精品人妻一区二区| 三级国产精品欧美在线观看| 精品久久久久久久久亚洲| 五月玫瑰六月丁香| 欧美xxxx黑人xx丫x性爽| 日韩 亚洲 欧美在线| 色尼玛亚洲综合影院| 亚洲欧美成人精品一区二区| 国产午夜福利久久久久久| 免费看a级黄色片| 国产精品,欧美在线| 日本免费a在线| 99久国产av精品国产电影| 亚洲一区高清亚洲精品| 尾随美女入室| 亚洲精品久久久久久婷婷小说 | 99视频精品全部免费 在线| 波多野结衣高清无吗| www.色视频.com| 亚洲无线在线观看| 国产精品久久久久久精品电影小说 | 国产午夜福利久久久久久| 免费看a级黄色片| 国产精品,欧美在线| 国产黄色小视频在线观看| 亚洲欧洲日产国产| 一区二区三区免费毛片| 国产精品伦人一区二区| 99久国产av精品| 国产精品久久久久久久久免| 免费观看精品视频网站| av.在线天堂| 亚洲成人中文字幕在线播放| av卡一久久| 女人被狂操c到高潮| 又爽又黄无遮挡网站| 国产欧美日韩精品一区二区| 国产精品一区二区三区四区免费观看| 波多野结衣高清无吗| www.色视频.com| 美女xxoo啪啪120秒动态图| 久久久久九九精品影院| 日本在线视频免费播放| 人妻制服诱惑在线中文字幕| 国产午夜精品久久久久久一区二区三区| 深夜精品福利| 亚洲国产欧洲综合997久久,| 一区二区三区四区激情视频 | 国产白丝娇喘喷水9色精品| 日韩精品青青久久久久久| 99热网站在线观看| 午夜亚洲福利在线播放| 日韩 亚洲 欧美在线| 亚洲av电影不卡..在线观看| 久久久久国产网址| 哪个播放器可以免费观看大片| 久久精品综合一区二区三区| 国产淫片久久久久久久久| 老师上课跳d突然被开到最大视频| 亚洲在久久综合| 又粗又爽又猛毛片免费看| 国产一区二区三区av在线 | 成年av动漫网址| 99久久精品一区二区三区| 高清在线视频一区二区三区 | 99久久精品热视频| 亚洲成人久久性| 三级男女做爰猛烈吃奶摸视频| 久久国产乱子免费精品| 有码 亚洲区| 欧美成人一区二区免费高清观看| 中文精品一卡2卡3卡4更新| 欧美日韩乱码在线| 女人被狂操c到高潮| 又黄又爽又刺激的免费视频.| 国产在视频线在精品| 乱码一卡2卡4卡精品| 免费av观看视频| 国产极品精品免费视频能看的| 日本与韩国留学比较| 国产一区二区亚洲精品在线观看| 成人性生交大片免费视频hd| 日本黄色片子视频| 日韩在线高清观看一区二区三区| 黄色配什么色好看| 中文欧美无线码| 久久久久久久久大av| 久久久久久久久久黄片| or卡值多少钱| 午夜激情欧美在线| 99久久精品一区二区三区| 亚洲天堂国产精品一区在线| 不卡视频在线观看欧美| www.av在线官网国产| 久久久久久久久久久免费av| 久久久成人免费电影| 亚洲av熟女| 久久草成人影院| 尾随美女入室| 久久99蜜桃精品久久| 久久久久久久久久黄片| 国产一区亚洲一区在线观看| 久久午夜亚洲精品久久| 国内精品宾馆在线| 免费人成在线观看视频色| 亚洲中文字幕日韩| 97超视频在线观看视频| 有码 亚洲区| 毛片一级片免费看久久久久| 日日摸夜夜添夜夜爱| 99热这里只有是精品在线观看| 天堂av国产一区二区熟女人妻| 亚洲性久久影院| 美女被艹到高潮喷水动态| 国产成人精品久久久久久| 久久久成人免费电影| 亚洲五月天丁香| 青春草国产在线视频 | 国产精品电影一区二区三区| 边亲边吃奶的免费视频| 综合色av麻豆| 欧美丝袜亚洲另类| 黄色欧美视频在线观看| 人妻夜夜爽99麻豆av| 国产一区二区在线观看日韩| 最近中文字幕高清免费大全6| 简卡轻食公司| 午夜激情欧美在线| 久久久久久久久中文| 看十八女毛片水多多多| 久久精品久久久久久噜噜老黄 | 男人舔奶头视频| 国内精品美女久久久久久| 亚洲第一区二区三区不卡| 日本免费一区二区三区高清不卡| 亚洲自偷自拍三级| 亚洲欧美中文字幕日韩二区| 精品欧美国产一区二区三| 欧美另类亚洲清纯唯美| 人体艺术视频欧美日本| 久久久成人免费电影| 六月丁香七月| 欧美色视频一区免费| 亚洲最大成人av| 亚洲成人久久爱视频| 看片在线看免费视频| 国产午夜福利久久久久久| 欧美三级亚洲精品| 国产成人精品婷婷| 麻豆成人午夜福利视频| 99久国产av精品国产电影| 久久精品国产亚洲av天美| 国产精品一区二区在线观看99 | a级毛色黄片| 国产在线男女| 2022亚洲国产成人精品| 乱人视频在线观看| 黄色欧美视频在线观看| 搡女人真爽免费视频火全软件| 亚洲av中文字字幕乱码综合| 亚洲欧美精品专区久久| 免费人成视频x8x8入口观看| 国产精品永久免费网站| 亚洲欧美精品自产自拍| 波多野结衣高清作品| 乱系列少妇在线播放| 99精品在免费线老司机午夜| 99国产极品粉嫩在线观看| 国产精品女同一区二区软件| 亚洲欧美成人精品一区二区| 国产真实伦视频高清在线观看| 日本爱情动作片www.在线观看| 晚上一个人看的免费电影| 岛国毛片在线播放| 99久久精品热视频| 一边摸一边抽搐一进一小说| 两性午夜刺激爽爽歪歪视频在线观看| 精品久久久久久久久av| 国产大屁股一区二区在线视频| 日韩精品青青久久久久久| 一区二区三区免费毛片| 亚洲欧美日韩东京热| 国产精品一区二区三区四区久久| 九九爱精品视频在线观看| 99久久久亚洲精品蜜臀av| а√天堂www在线а√下载| 大又大粗又爽又黄少妇毛片口| 精品人妻视频免费看| 美女cb高潮喷水在线观看| 国产伦在线观看视频一区| 在线免费观看的www视频| 啦啦啦啦在线视频资源| 国产极品精品免费视频能看的| 日本爱情动作片www.在线观看| 国产色婷婷99| 色吧在线观看| 亚洲不卡免费看| 国产三级中文精品| 久久午夜亚洲精品久久| 伦理电影大哥的女人| 亚洲精品国产成人久久av| 99久久成人亚洲精品观看| 欧美日本亚洲视频在线播放| 日韩 亚洲 欧美在线| 在线a可以看的网站| 国产一区二区三区在线臀色熟女| 亚洲在线自拍视频| 97人妻精品一区二区三区麻豆| 精品一区二区三区视频在线| 国产精品.久久久| 亚洲美女视频黄频| 亚洲国产色片| 成人特级黄色片久久久久久久| 久久中文看片网| 成人性生交大片免费视频hd| 午夜福利在线观看免费完整高清在 | 精品久久久久久久久久久久久| 神马国产精品三级电影在线观看| 精品一区二区三区视频在线| 免费观看在线日韩| 午夜福利在线观看吧| 国产成人一区二区在线| 狂野欧美激情性xxxx在线观看| 十八禁国产超污无遮挡网站| 国产精品久久久久久精品电影| 99热这里只有是精品在线观看| 寂寞人妻少妇视频99o| 岛国在线免费视频观看| 亚洲av中文字字幕乱码综合| 哪里可以看免费的av片| 国产亚洲av片在线观看秒播厂 | 日韩国内少妇激情av| 色哟哟·www| 国产综合懂色| 国产高清激情床上av| 麻豆精品久久久久久蜜桃| 不卡一级毛片| 国产亚洲av嫩草精品影院| 国产精品国产高清国产av| 激情 狠狠 欧美| 啦啦啦观看免费观看视频高清| 久久99热这里只有精品18| 51国产日韩欧美| 高清午夜精品一区二区三区 | 三级国产精品欧美在线观看| 日本一二三区视频观看| 三级男女做爰猛烈吃奶摸视频| 99九九线精品视频在线观看视频| 午夜视频国产福利| 男女边吃奶边做爰视频| 可以在线观看毛片的网站| 久久久久久久久大av| 日本撒尿小便嘘嘘汇集6| 亚洲第一区二区三区不卡| 性插视频无遮挡在线免费观看| 熟妇人妻久久中文字幕3abv| 舔av片在线| 日韩大尺度精品在线看网址| 在线免费观看的www视频| 麻豆av噜噜一区二区三区| 边亲边吃奶的免费视频| 国产淫片久久久久久久久| 人体艺术视频欧美日本| 国模一区二区三区四区视频| 人妻制服诱惑在线中文字幕| 狠狠狠狠99中文字幕| 97超碰精品成人国产| 长腿黑丝高跟| 黄色欧美视频在线观看| 国产高清视频在线观看网站| 午夜精品一区二区三区免费看| 草草在线视频免费看| 久久精品久久久久久久性| 日本免费一区二区三区高清不卡| 国产人妻一区二区三区在| 亚洲国产高清在线一区二区三| 欧美一区二区亚洲| 中文字幕制服av| 色尼玛亚洲综合影院| 麻豆一二三区av精品| 少妇被粗大猛烈的视频| 男插女下体视频免费在线播放| 亚洲在线自拍视频| 日韩人妻高清精品专区| 欧美xxxx黑人xx丫x性爽| 国产高清三级在线| 只有这里有精品99| 一级毛片我不卡| 亚洲人成网站在线观看播放| 22中文网久久字幕| 免费大片18禁| 欧美高清性xxxxhd video| 中文亚洲av片在线观看爽| 99热只有精品国产| 最近的中文字幕免费完整| 亚洲欧美成人精品一区二区| 97人妻精品一区二区三区麻豆| 亚洲va在线va天堂va国产| 国产激情偷乱视频一区二区| 国产真实伦视频高清在线观看| 美女cb高潮喷水在线观看| 色5月婷婷丁香| 亚洲av男天堂| 久久精品国产亚洲网站| 国产亚洲精品久久久久久毛片| 国产成人福利小说| 欧美色欧美亚洲另类二区| 九九在线视频观看精品| 少妇裸体淫交视频免费看高清| 中文字幕免费在线视频6| 精品人妻偷拍中文字幕| 一个人观看的视频www高清免费观看| 老女人水多毛片| 亚洲欧美精品自产自拍| 嫩草影院精品99| 久久久久久久久久久丰满| 国内精品美女久久久久久| 少妇裸体淫交视频免费看高清| 真实男女啪啪啪动态图| 又粗又爽又猛毛片免费看| 亚洲国产精品成人综合色| 国产伦精品一区二区三区四那| 日韩中字成人| 亚洲欧美中文字幕日韩二区| 国产精品不卡视频一区二区| 亚洲精品日韩在线中文字幕 | 中文字幕久久专区| 国产一区二区在线观看日韩| 精品99又大又爽又粗少妇毛片| 亚洲精品日韩在线中文字幕 | 欧美精品一区二区大全| 日韩 亚洲 欧美在线| ponron亚洲| 精品欧美国产一区二区三| 九九在线视频观看精品| 夜夜爽天天搞| 99精品在免费线老司机午夜| 亚洲精品自拍成人| 国产爱豆传媒在线观看| 国产乱人视频| 成人无遮挡网站| 99热精品在线国产| 免费观看a级毛片全部| 国产美女午夜福利| 久久久久国产网址| 中国国产av一级| 国产日韩欧美在线精品| av免费观看日本| 日本欧美国产在线视频| 成人午夜精彩视频在线观看| 亚洲欧美成人综合另类久久久 | 观看美女的网站| 午夜久久久久精精品| 国产精品综合久久久久久久免费| 狠狠狠狠99中文字幕| 亚洲图色成人| 成人毛片60女人毛片免费| 一个人免费在线观看电影| 日本三级黄在线观看| 大香蕉久久网| 一个人免费在线观看电影| 人人妻人人看人人澡| 美女国产视频在线观看| 能在线免费看毛片的网站| 天堂网av新在线| 国内揄拍国产精品人妻在线| 精品人妻熟女av久视频| 伦理电影大哥的女人| 噜噜噜噜噜久久久久久91| 成人欧美大片| 99热网站在线观看| 久久精品国产99精品国产亚洲性色| 国产精品一区二区三区四区免费观看| 免费大片18禁| 亚洲欧美成人精品一区二区| av国产免费在线观看| 久久久成人免费电影| 国产91av在线免费观看| 插逼视频在线观看| 亚洲七黄色美女视频| 亚洲精华国产精华液的使用体验 | 国产真实乱freesex| 免费看光身美女| 99久久精品热视频| 亚洲av电影不卡..在线观看| 亚洲乱码一区二区免费版| 在线免费十八禁| av.在线天堂| 欧美激情在线99| 99久久精品一区二区三区| 国产精品一及| 国产久久久一区二区三区| 黄片无遮挡物在线观看| 久久久久网色| 99视频精品全部免费 在线| 国产精品久久久久久av不卡| 国产亚洲av片在线观看秒播厂 | 国产精品一区www在线观看| 亚洲成人av在线免费| 狂野欧美激情性xxxx在线观看| 国产欧美日韩精品一区二区| 欧美zozozo另类| 九九久久精品国产亚洲av麻豆| 亚洲av免费高清在线观看| 大香蕉久久网| 欧美性猛交╳xxx乱大交人| 国产成人午夜福利电影在线观看| 色哟哟·www| 大又大粗又爽又黄少妇毛片口| 国产私拍福利视频在线观看| 男人狂女人下面高潮的视频| 国内少妇人妻偷人精品xxx网站| 亚洲精品久久国产高清桃花| 久久久久久久久中文| 亚洲av.av天堂| 国产精品蜜桃在线观看 | 亚洲av成人av| 丝袜喷水一区| 精品一区二区免费观看| 男人狂女人下面高潮的视频| 久久欧美精品欧美久久欧美| 99在线视频只有这里精品首页| 亚洲中文字幕日韩| 免费人成视频x8x8入口观看| 久久久久免费精品人妻一区二区| 久久久久久国产a免费观看| 欧美一级a爱片免费观看看| 草草在线视频免费看| 色视频www国产| 午夜福利在线在线| 国产真实乱freesex| 成人特级黄色片久久久久久久| 国产亚洲av嫩草精品影院| 22中文网久久字幕| 如何舔出高潮| 国产精品人妻久久久影院| av专区在线播放| 天美传媒精品一区二区| 亚洲中文字幕日韩| 国产精品久久久久久精品电影小说 | 小蜜桃在线观看免费完整版高清| 国产高清有码在线观看视频| 精品熟女少妇av免费看| 亚洲成a人片在线一区二区| 日韩精品有码人妻一区| 日韩视频在线欧美| 亚洲人成网站高清观看| 亚洲最大成人av| 亚洲色图av天堂| 久久九九热精品免费| 国产三级中文精品| 国产精品一二三区在线看| 久久亚洲精品不卡| 成人欧美大片| 欧美zozozo另类| 伦理电影大哥的女人| 99久久无色码亚洲精品果冻| 麻豆一二三区av精品| 三级经典国产精品| 精品一区二区免费观看| 中出人妻视频一区二区| 日日啪夜夜撸| 性欧美人与动物交配| av天堂在线播放| 中文字幕熟女人妻在线| 97超碰精品成人国产| 国产成人精品婷婷| 欧美潮喷喷水| 床上黄色一级片| 天堂av国产一区二区熟女人妻| a级毛片a级免费在线| 天堂av国产一区二区熟女人妻| 舔av片在线| 日本熟妇午夜| 菩萨蛮人人尽说江南好唐韦庄 | 国产私拍福利视频在线观看| 色尼玛亚洲综合影院| 菩萨蛮人人尽说江南好唐韦庄 | 最近手机中文字幕大全| 国产毛片a区久久久久| 亚洲av第一区精品v没综合| 欧美日韩国产亚洲二区| 中国国产av一级| 亚洲性久久影院| 少妇裸体淫交视频免费看高清| 亚洲,欧美,日韩| 天美传媒精品一区二区| 免费看光身美女| 免费搜索国产男女视频| 国语自产精品视频在线第100页| 国产精品久久久久久av不卡| 国产高清不卡午夜福利| 国产精品久久视频播放| 小说图片视频综合网站| 能在线免费看毛片的网站| 日本黄色视频三级网站网址| 在现免费观看毛片| 免费观看在线日韩| 欧美色视频一区免费| 天天躁夜夜躁狠狠久久av| 午夜激情福利司机影院| 亚洲欧美精品专区久久| 欧美丝袜亚洲另类| av免费观看日本| 欧美成人精品欧美一级黄| 草草在线视频免费看| 波多野结衣巨乳人妻| 国产精品久久视频播放| 日本五十路高清| 观看免费一级毛片| 青青草视频在线视频观看| 国产极品精品免费视频能看的| 男人狂女人下面高潮的视频| 长腿黑丝高跟| 三级经典国产精品| 久久人人爽人人片av| 久久久久久伊人网av| 亚洲精华国产精华液的使用体验 | 大型黄色视频在线免费观看| 色尼玛亚洲综合影院| 嫩草影院精品99| 欧美日韩一区二区视频在线观看视频在线 | 日韩一区二区视频免费看| 少妇猛男粗大的猛烈进出视频 | 中文字幕免费在线视频6| 国产精品日韩av在线免费观看| 黄色日韩在线| 麻豆乱淫一区二区| 91麻豆精品激情在线观看国产| 国产午夜精品论理片| 一本一本综合久久| 男女下面进入的视频免费午夜| 波多野结衣巨乳人妻| 最后的刺客免费高清国语| 国产精品无大码| 大又大粗又爽又黄少妇毛片口| 91久久精品国产一区二区成人| 国产三级中文精品| 久久人妻av系列| 国产高清有码在线观看视频| 男女啪啪激烈高潮av片| 又爽又黄a免费视频| 欧美日韩乱码在线| 男的添女的下面高潮视频| 国内久久婷婷六月综合欲色啪| 深爱激情五月婷婷| 天堂中文最新版在线下载 | 久久欧美精品欧美久久欧美| 丝袜喷水一区| 欧美zozozo另类| 欧美又色又爽又黄视频| 国产成人a区在线观看| 最近中文字幕高清免费大全6| 国内少妇人妻偷人精品xxx网站| 亚洲国产精品国产精品| 综合色丁香网| 日韩人妻高清精品专区| 国产大屁股一区二区在线视频| 日本爱情动作片www.在线观看| 大型黄色视频在线免费观看| 老女人水多毛片| 两个人视频免费观看高清| 日韩精品青青久久久久久| 国产精品麻豆人妻色哟哟久久 | 黄色视频,在线免费观看| 欧美三级亚洲精品| 亚洲久久久久久中文字幕| 18禁在线播放成人免费| 12—13女人毛片做爰片一| 尤物成人国产欧美一区二区三区| 校园人妻丝袜中文字幕| 中文字幕av成人在线电影| 真实男女啪啪啪动态图| 日韩av在线大香蕉| 日本与韩国留学比较| 国产精品电影一区二区三区| 最后的刺客免费高清国语| 少妇被粗大猛烈的视频|