• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    組合動(dòng)作空間深度強(qiáng)化學(xué)習(xí)的人群疏散引導(dǎo)方法

    2021-08-11 01:03:32薛怡然劉家鋒
    關(guān)鍵詞:動(dòng)作智能方法

    薛怡然,吳 銳,劉家鋒

    (模式識(shí)別與智能系統(tǒng)研究中心(哈爾濱工業(yè)大學(xué)),哈爾濱 150001)

    大型商場(chǎng)、寫字樓等多功能建筑在滿足人們多種需求的同時(shí),建筑復(fù)雜程度逐漸提高。在發(fā)生地震、火災(zāi)等災(zāi)害時(shí),建筑內(nèi)復(fù)雜的結(jié)構(gòu)對(duì)人群疏散逃生形成阻礙,對(duì)生命安全形成新的威脅。災(zāi)害發(fā)生時(shí),人群由于對(duì)建筑物環(huán)境不了解、視野受限、心理恐慌等因素,難以準(zhǔn)確找到最優(yōu)逃生路線[1]。在從眾心理的影響下,逃生者容易形成擁堵甚至踩踏,造成更大損失[2]。如何引導(dǎo)人群以最有效的路徑疏散,對(duì)災(zāi)害中保護(hù)生命安全,減少人員財(cái)產(chǎn)損失具有重要意義。

    為了在災(zāi)害發(fā)生時(shí)引導(dǎo)人群有效疏散,研究者開發(fā)了多種基于動(dòng)態(tài)引導(dǎo)標(biāo)志的人群疏散引導(dǎo)系統(tǒng)[3-6]。此類系統(tǒng)可以對(duì)建筑場(chǎng)景建模,收集災(zāi)害位置和人群分布等實(shí)時(shí)信息,用路徑規(guī)劃算法找出最優(yōu)逃生路徑,通過動(dòng)態(tài)引導(dǎo)標(biāo)志誘導(dǎo)人群的運(yùn)動(dòng)狀態(tài),有效地提高了緊急情況下人群逃生效率。但是,現(xiàn)有的人群疏散引導(dǎo)系統(tǒng)都離不開人工設(shè)計(jì)基于拓?fù)鋱D或者網(wǎng)格形式的場(chǎng)景模型、根據(jù)場(chǎng)景特征手動(dòng)輸入模型參數(shù)等工作,人工工作量較大并且容易引入人為因素造成的誤差,對(duì)后續(xù)路徑規(guī)劃等計(jì)算步驟造成干擾。

    針對(duì)此問題,本文提出了基于深度強(qiáng)化學(xué)習(xí)算法的端對(duì)端的人群疏散引導(dǎo)方法。即訓(xùn)練一種僅以建筑平面圖為輸入,在與環(huán)境的交互和反饋中自動(dòng)探索學(xué)習(xí)場(chǎng)景模型和路徑規(guī)劃方法,發(fā)現(xiàn)最優(yōu)動(dòng)作策略,直接輸出動(dòng)態(tài)引導(dǎo)標(biāo)志信息的疏散引導(dǎo)智能體。為實(shí)現(xiàn)此方法,設(shè)計(jì)了基于社會(huì)力模型人群動(dòng)力學(xué)仿真的強(qiáng)化學(xué)習(xí)智能體仿真交互環(huán)境,并針對(duì)深度強(qiáng)化學(xué)習(xí)中典型深度Q網(wǎng)絡(luò)(DQN)[7]方法應(yīng)用于人群疏散引導(dǎo)時(shí)出現(xiàn)的“維度災(zāi)難”問題,提出了組合動(dòng)作空間的DQN方法,降低了網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度,提高了算法在復(fù)雜建筑場(chǎng)景中的實(shí)用性。

    1 相關(guān)工作

    1.1 人群仿真與疏散引導(dǎo)

    人群運(yùn)動(dòng)仿真是人群疏散研究中分析人群行為特征、自組織等現(xiàn)象的重要基礎(chǔ)。人群仿真研究可分為宏觀模型與微觀模型。宏觀模型主要考察人群整體的運(yùn)動(dòng)狀態(tài),一般采用元胞自動(dòng)機(jī)等柵格模型[8]。例如用流體力學(xué)方法計(jì)算速度場(chǎng),再作用于個(gè)體的高密度人群仿真方法[9],和基于格子玻爾茲曼模型的人群異常檢測(cè)方法等[10]。微觀模型用動(dòng)力學(xué)方法仿真每個(gè)個(gè)體的運(yùn)動(dòng)特征,典型方法有引入人的主觀因素的社會(huì)力模型[11-12]。

    在仿真研究中,研究者希望提高疏散效率,使人群運(yùn)動(dòng)更貼近現(xiàn)實(shí),因此人群疏散中的路徑規(guī)劃問題受到研究者的關(guān)注。有研究者分別利用群體智能的布谷鳥算法[13]和結(jié)合心理因素的A*算法[14]改進(jìn)路徑搜索方法。也有研究者結(jié)合多種傳感器信息,例如構(gòu)建威脅態(tài)勢(shì)信息場(chǎng)的路徑優(yōu)化方法[15]、感知災(zāi)害位置的路徑選擇方法[16]、根據(jù)路徑和出口容量優(yōu)化的路徑選擇模型[17]等。仿真環(huán)境的路徑規(guī)劃方法可以綜合環(huán)境信息,計(jì)算使全局疏散效率最高的逃生路徑。在實(shí)際場(chǎng)景中,逃生者由于視野和經(jīng)驗(yàn)受限,只能掌握自身周邊信息,建筑物監(jiān)測(cè)系統(tǒng)即使可以掌握優(yōu)化的逃生路徑,也需要專門途徑告知逃生者。

    為了指示逃生路線,大型建筑內(nèi)一般設(shè)置有應(yīng)急逃生標(biāo)志。應(yīng)急標(biāo)志可分為靜態(tài)引導(dǎo)標(biāo)志和動(dòng)態(tài)引導(dǎo)標(biāo)志兩類[18]。在真實(shí)場(chǎng)景實(shí)驗(yàn)[19]和基于社會(huì)力模型的仿真實(shí)驗(yàn)[20]中,靜態(tài)引導(dǎo)標(biāo)志都對(duì)疏散效率起到了重要的正面作用。不同于靜態(tài)引導(dǎo)標(biāo)志僅能指示一種預(yù)設(shè)的疏散路線,動(dòng)態(tài)引導(dǎo)標(biāo)志可根據(jù)災(zāi)害場(chǎng)景中人群分布等實(shí)時(shí)條件顯示不同的引導(dǎo)信息。研究表明在某個(gè)出口不可用時(shí),動(dòng)態(tài)引導(dǎo)標(biāo)志可以有效誘導(dǎo)人群從其他出口疏散[21],在路徑中發(fā)生危險(xiǎn)時(shí),動(dòng)態(tài)標(biāo)志也能引導(dǎo)人群避開不安全的路線[22]。

    將上述人群仿真環(huán)境、路徑規(guī)劃算法和動(dòng)態(tài)引導(dǎo)標(biāo)志相結(jié)合,研究者開發(fā)出了多種人群疏散引導(dǎo)系統(tǒng)。此類系統(tǒng)以建筑物環(huán)境模型為基礎(chǔ),實(shí)現(xiàn)了從場(chǎng)景信息感知、疏散路徑規(guī)劃到人群運(yùn)動(dòng)誘導(dǎo)的閉環(huán)反饋,具備一定的實(shí)用價(jià)值[3]。例如在拓?fù)鋱D模型上基于網(wǎng)絡(luò)流路徑規(guī)劃的動(dòng)態(tài)引導(dǎo)方法[4]、使用仿真攝像機(jī)采集人群密度信息,應(yīng)用實(shí)時(shí)最短路算法的動(dòng)態(tài)疏散系統(tǒng)[5]。還有研究與現(xiàn)實(shí)建筑系統(tǒng)相結(jié)合,建立平行應(yīng)急疏散系統(tǒng)框架,取得了更大現(xiàn)實(shí)意義[6]。

    此類系統(tǒng)基本流程包含輸入場(chǎng)景平面圖、人工構(gòu)建拓?fù)鋱D或網(wǎng)格模型、根據(jù)通道容量等因素輸入模型參數(shù)、應(yīng)用路徑規(guī)劃算法和設(shè)置動(dòng)態(tài)引導(dǎo)標(biāo)志信息等幾個(gè)步驟。其中構(gòu)建模型和填寫參數(shù)幾個(gè)步驟的人工參與度高,工作量大,容易由于人為失誤造成誤差并在后續(xù)步驟中放大,使系統(tǒng)疏散效率受到影響。針對(duì)此問題,本文利用深度強(qiáng)化學(xué)習(xí)方法,提出端到端的動(dòng)態(tài)人群疏散引導(dǎo)系統(tǒng)。

    近年來,強(qiáng)化學(xué)習(xí)方法在人群疏散研究中得到了一些應(yīng)用。研究者開發(fā)了數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)人群仿真方法,用智能體模擬和預(yù)測(cè)個(gè)體的運(yùn)動(dòng)[23]。在路徑選擇問題上,有研究利用逆向強(qiáng)化學(xué)習(xí)方法使機(jī)器人模仿人類行動(dòng)軌跡[24]。這些仿真研究目標(biāo)是接近真實(shí)場(chǎng)景,而非優(yōu)化疏散效率。對(duì)于疏散引導(dǎo)問題,一些研究者開發(fā)出多種使用強(qiáng)化學(xué)習(xí)智能體輸出機(jī)器人運(yùn)動(dòng)方向,控制機(jī)器人在人群中運(yùn)動(dòng),從而干涉人群運(yùn)動(dòng)狀態(tài),提高疏散效率的方法[25-27]。此類方法在單個(gè)路口的仿真實(shí)驗(yàn)中取得了一定效果,但在實(shí)際應(yīng)用中存在加劇人群擁擠、引發(fā)踩踏事故等隱患?,F(xiàn)有基于強(qiáng)化學(xué)習(xí)的研究將逃生者個(gè)體或機(jī)器人個(gè)體定義為智能體。與此不同的是,本文將疏散引導(dǎo)系統(tǒng)定義為強(qiáng)化學(xué)習(xí)智能體,其以場(chǎng)景圖像為觀測(cè)輸入,輸出遍布場(chǎng)景的多組動(dòng)態(tài)引導(dǎo)標(biāo)志信號(hào),從而誘導(dǎo)人群運(yùn)動(dòng),提高疏散效率。

    1.2 深度強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)[28]是人工智能領(lǐng)域的重要組成部分之一,是一種通過與環(huán)境的交互和試錯(cuò),學(xué)習(xí)從環(huán)境狀態(tài)到動(dòng)作的映射,發(fā)現(xiàn)最優(yōu)行為策略,以使從環(huán)境獲得的積累獎(jiǎng)賞最大的學(xué)習(xí)方法。結(jié)合深度神經(jīng)網(wǎng)絡(luò),深度強(qiáng)化學(xué)習(xí)智能體能直接以圖像作為輸入,將特征提取和值函數(shù)估計(jì)等過程內(nèi)化在網(wǎng)絡(luò)結(jié)構(gòu)中,顯著拓展了智能體的感知和決策能力。深度強(qiáng)化學(xué)習(xí)的標(biāo)志性成果包括在Atari視頻游戲中超越人類玩家水平的DQN方法[7]、在圍棋中戰(zhàn)勝人類頂級(jí)選手的AlphaGo[29]和在星際爭霸2游戲在線對(duì)戰(zhàn)中打入大師級(jí)排行的AlphaStar[30]等。

    強(qiáng)化學(xué)習(xí)模型[28]基于馬爾可夫決策過程(MDP),可描述為四元組(S,A,Pa,Ra),其中S為所有狀態(tài)的集合,即狀態(tài)空間,A為動(dòng)作空間,狀態(tài)轉(zhuǎn)移函數(shù)Pa(s,s′)=P(st+1=s′|st=s,at=a)表示在狀態(tài)s時(shí)智能體執(zhí)行動(dòng)作a,環(huán)境進(jìn)入狀態(tài)s′的概率,獎(jiǎng)勵(lì)函數(shù)Ra(s,s′)表示在狀態(tài)s執(zhí)行動(dòng)作a進(jìn)入狀態(tài)s′時(shí)所獲得的即時(shí)獎(jiǎng)勵(lì)。智能體在每個(gè)離散的時(shí)間步t,觀測(cè)環(huán)境狀態(tài)st,根據(jù)策略π∶S→A選擇動(dòng)作at=π(st)作用于環(huán)境,環(huán)境反饋給智能體獎(jiǎng)勵(lì)rt,并轉(zhuǎn)移到下一個(gè)狀態(tài)st+1。智能體與環(huán)境的交互過程見圖1。

    圖1 強(qiáng)化學(xué)習(xí)模型示意Fig.1 Schematic of reinforcement learning model

    在強(qiáng)化學(xué)習(xí)的MDP模型基礎(chǔ)上,定義狀態(tài)-動(dòng)作值函數(shù),也可稱作動(dòng)作值函數(shù)

    Qπ(st,at)=Eπ[rt+γrt+1+γ2rt+2+…]

    (1)

    表示按策略π,在狀態(tài)st時(shí)執(zhí)行動(dòng)作at之后獲得的期望累積獎(jiǎng)勵(lì),其中γ為獎(jiǎng)勵(lì)衰減系數(shù)。谷歌DeepMind團(tuán)隊(duì)開發(fā)的DQN方法[7]用深度神經(jīng)網(wǎng)絡(luò)表示動(dòng)作值函數(shù),且分為參數(shù)為θ的當(dāng)前Q網(wǎng)絡(luò)和參數(shù)為θ-的目標(biāo)Q網(wǎng)絡(luò),每隔一定時(shí)間將當(dāng)前Q網(wǎng)絡(luò)參數(shù)復(fù)制到目標(biāo)Q網(wǎng)絡(luò)中。DQN的策略π為貪婪策略,總是選擇當(dāng)前狀態(tài)下Q值最大的動(dòng)作,訓(xùn)練時(shí)加入一定概率選擇隨機(jī)動(dòng)作作為探索過程。DQN使用經(jīng)驗(yàn)池存儲(chǔ)和管理樣本,對(duì)于一個(gè)時(shí)間步的樣本et=(st,at,rt,st+1),計(jì)算時(shí)序差分(temporal difference,TD)誤差

    (2)

    DQN在以圖像為輸入的Atari視頻游戲等任務(wù)上取得突破。研究者在DQN的基礎(chǔ)上,提出了用當(dāng)前Q網(wǎng)絡(luò)進(jìn)行目標(biāo)動(dòng)作選取的Double DQN(DDQN)方法[31]、用TD誤差區(qū)分經(jīng)驗(yàn)池中樣本優(yōu)先級(jí)的優(yōu)先經(jīng)驗(yàn)回放[32]等改進(jìn)方法。

    然而,DQN輸出的動(dòng)作空間是離散的,并且對(duì)每一種可能的動(dòng)作組合使用一個(gè)輸出層節(jié)點(diǎn)進(jìn)行評(píng)價(jià),因此當(dāng)動(dòng)作維數(shù)增加時(shí),網(wǎng)絡(luò)復(fù)雜度將以指數(shù)方式增長。在人群疏散引導(dǎo)問題中,智能體以動(dòng)態(tài)引導(dǎo)標(biāo)志的顯示狀態(tài)作為輸出動(dòng)作,每個(gè)標(biāo)志的離散動(dòng)作形成獨(dú)立的動(dòng)作維度。在復(fù)雜建筑場(chǎng)景中動(dòng)態(tài)引導(dǎo)標(biāo)志數(shù)目較多時(shí),DQN的輸出層規(guī)模將變得過于龐大而使算法無法實(shí)現(xiàn)。

    2 基于組合動(dòng)作空間DQN的疏散引導(dǎo)

    2.1 人群疏散引導(dǎo)的強(qiáng)化學(xué)習(xí)模型

    人群疏散引導(dǎo)問題涉及3類對(duì)象,包括建筑場(chǎng)景、逃生者和智能疏散引導(dǎo)系統(tǒng)?,F(xiàn)有研究常將每個(gè)逃生者個(gè)體定義為一個(gè)智能體,研究個(gè)體的行動(dòng)策略和運(yùn)動(dòng)狀態(tài),或添加可動(dòng)機(jī)器人個(gè)體作為智能體。與此不同的是,本文將疏散引導(dǎo)系統(tǒng)看作一個(gè)智能體,如圖2所示,則智能體所處的環(huán)境包括實(shí)際建筑場(chǎng)景和其中運(yùn)動(dòng)的人群。建筑場(chǎng)景由平面圖表示,攝像機(jī)等多種傳感器收集人群運(yùn)動(dòng)狀態(tài),繪制進(jìn)場(chǎng)景平面圖,此圖像即包含了當(dāng)前環(huán)境中所需的信息,連續(xù)多幀圖像的灰度位圖組合成(width×height×depth)三維張量,定義為MDP的環(huán)境狀態(tài)st∈S。對(duì)于多層建筑,可以將不同樓層平面圖拼接成整體場(chǎng)景圖像輸入系統(tǒng),從而實(shí)現(xiàn)多層建筑中的疏散引導(dǎo)。疏散引導(dǎo)系統(tǒng)通過動(dòng)態(tài)引導(dǎo)標(biāo)志顯示信號(hào),誘導(dǎo)、干涉人群運(yùn)動(dòng),因此智能體動(dòng)作at∈A對(duì)應(yīng)引導(dǎo)標(biāo)志信號(hào),at是離散向量,每個(gè)維度對(duì)應(yīng)一個(gè)引導(dǎo)標(biāo)志,取值為此標(biāo)志顯示狀態(tài)(向左、向右等)之一。由于環(huán)境和人群運(yùn)動(dòng)較為復(fù)雜,狀態(tài)轉(zhuǎn)移函數(shù)Pa(s,s′)是未知的,需要智能體在交互過程中學(xué)習(xí)和適應(yīng)。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)決定了智能體的優(yōu)化方向和學(xué)習(xí)目的,在人群疏散問題中,應(yīng)根據(jù)成功撤離的人數(shù)或疏散所用時(shí)間等因素設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。本文定義Ra(s,s′)=-1,即每個(gè)時(shí)間步固定給予懲罰,智能體的學(xué)習(xí)目標(biāo)是使累積懲罰最小,即全體人群疏散時(shí)間最短。

    圖2 人群疏散引導(dǎo)的強(qiáng)化學(xué)習(xí)模型Fig.2 Reinforcement learning model for evacuation guidance

    強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練過程需要與環(huán)境不斷交互,在探索和試錯(cuò)中學(xué)習(xí)。其所需的交互規(guī)模十分龐大,一般在數(shù)萬個(gè)周期、百萬個(gè)時(shí)間步以上。并且訓(xùn)練初期智能體知識(shí)不足,可能造成更多潛在危險(xiǎn)。

    因此用于智能疏散引導(dǎo)系統(tǒng)的強(qiáng)化學(xué)習(xí)智能體必須在仿真環(huán)境中進(jìn)行訓(xùn)練,訓(xùn)練完成后再部署到實(shí)際建筑內(nèi)。

    疏散引導(dǎo)系統(tǒng)智能體通過與仿真環(huán)境的大量交互進(jìn)行探索與學(xué)習(xí),最終得到神經(jīng)網(wǎng)絡(luò)形式的優(yōu)化策略π(s)。學(xué)習(xí)過程中不需要人工設(shè)計(jì)建筑通道拓?fù)鋱D或網(wǎng)格模型,智能體能自主發(fā)現(xiàn)和優(yōu)化引導(dǎo)策略,不需要另外設(shè)計(jì)路徑規(guī)劃等中間算法。實(shí)際應(yīng)用中,每個(gè)時(shí)刻t傳感器收集人群運(yùn)動(dòng)信息,將人群位置分布、當(dāng)前引導(dǎo)標(biāo)志顯示狀態(tài)等信息繪制進(jìn)場(chǎng)景平面圖。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的感知能力,多幀場(chǎng)景灰度位圖組成三維張量傳入神經(jīng)網(wǎng)絡(luò),作為智能體輸入的觀測(cè)狀態(tài)st,智能體根據(jù)訓(xùn)練完成后包含優(yōu)化策略的神經(jīng)網(wǎng)絡(luò)計(jì)算動(dòng)作向量at=π(st),由動(dòng)態(tài)引導(dǎo)標(biāo)志顯示對(duì)應(yīng)信號(hào),實(shí)現(xiàn)對(duì)人群疏散的有效引導(dǎo)。

    2.2 組合動(dòng)作空間DQN

    在網(wǎng)絡(luò)結(jié)構(gòu)上,DQN采用多層卷積神經(jīng)網(wǎng)絡(luò)處理圖像輸入,然后連接多層全連接神經(jīng)網(wǎng)絡(luò),輸出層每一個(gè)神經(jīng)元對(duì)應(yīng)一種可能的離散動(dòng)作組合。對(duì)于動(dòng)作中相互獨(dú)立的成分,總的動(dòng)作空間是各個(gè)獨(dú)立動(dòng)作空間的笛卡爾積。當(dāng)動(dòng)作空間有n個(gè)相互獨(dú)立的維度,每個(gè)維度有m個(gè)離散動(dòng)作時(shí),DQN網(wǎng)絡(luò)需要mn個(gè)輸出層節(jié)點(diǎn),以對(duì)應(yīng)輸入狀態(tài)s時(shí)不同動(dòng)作Q(s,a)的值。因此,隨著獨(dú)立動(dòng)作數(shù)目的增長,DQN的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度以指數(shù)速度增長,從而使算法不可實(shí)現(xiàn)。同時(shí)輸出層過多也會(huì)導(dǎo)致樣本利用率降低和網(wǎng)絡(luò)參數(shù)更新困難。這個(gè)現(xiàn)象被稱為DQN的“維度災(zāi)難”問題。

    在人群疏散引導(dǎo)的應(yīng)用當(dāng)中,智能體動(dòng)作定義為引導(dǎo)標(biāo)志的顯示狀態(tài)。即使每個(gè)引導(dǎo)標(biāo)志只有向左和向右兩個(gè)狀態(tài),對(duì)于n個(gè)引導(dǎo)標(biāo)志,總的動(dòng)作空間容量也會(huì)達(dá)到2n之多,引發(fā)“維度災(zāi)難”。本文針對(duì)此問題,提出組合動(dòng)作空間的DQN方法(CA-DQN)。如圖3所示,對(duì)于相互獨(dú)立的動(dòng)作維度,每個(gè)維度對(duì)應(yīng)Q函數(shù)網(wǎng)絡(luò)輸出層一組節(jié)點(diǎn),每組包含這個(gè)維度上的所有離散動(dòng)作。這個(gè)改變可看作對(duì)每個(gè)動(dòng)作維度d設(shè)置了各自的值函數(shù)Qd(s,a(d);θ),并且共用一套網(wǎng)絡(luò)參數(shù)。此時(shí)網(wǎng)絡(luò)輸出層節(jié)點(diǎn)數(shù)目是各個(gè)維度上離散動(dòng)作數(shù)之和,隨獨(dú)立動(dòng)作數(shù)目的增長速度從指數(shù)增長降為線性增長,例如n個(gè)引導(dǎo)標(biāo)志所需輸出層節(jié)點(diǎn)為2n。

    圖3 CA-DQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of CA-DQN

    (3)

    對(duì)于一個(gè)樣本et=(st,at,rt,st+1)定義每個(gè)維度上的TD誤差

    (4)

    結(jié)合研究者提出用當(dāng)前Q網(wǎng)絡(luò)選擇t+1時(shí)間動(dòng)作,以避免過高估計(jì)的DDQN算法[31],TD誤差進(jìn)一步定義為

    (5)

    則從經(jīng)驗(yàn)池中采樣所得一組樣本B={e1,…,et},神經(jīng)網(wǎng)絡(luò)的損失函數(shù)定義為平方誤差損失的算術(shù)平均值

    (6)

    神經(jīng)網(wǎng)絡(luò)按式(6)定義的損失函數(shù)用誤差反向傳播算法進(jìn)行訓(xùn)練。此時(shí),對(duì)于每個(gè)樣本,動(dòng)作的每個(gè)維度都有一個(gè)輸出層節(jié)點(diǎn)被選擇并參與TD誤差的計(jì)算和網(wǎng)絡(luò)誤差的反向傳播,則共有D個(gè)輸出層節(jié)點(diǎn)可以得到更新。相比DQN中每個(gè)樣本只能更新一個(gè)輸出層節(jié)點(diǎn),CA-DQN方法提高了樣本的利用效率。

    2.3 組合動(dòng)作空間DQN的優(yōu)先經(jīng)驗(yàn)回放

    DQN以隨機(jī)方式從經(jīng)驗(yàn)池中采樣,不考慮樣本差異,樣本利用效率較低。采用優(yōu)先經(jīng)驗(yàn)回放方法[32],用式(2)定義的樣本TD誤差,將樣本采樣優(yōu)先級(jí)定義為pt=(|δt|+ε)α,其中ε和α為常數(shù)。TD誤差絕對(duì)值越大的樣本意味著所包含的有效信息越多,對(duì)其賦予更高采樣優(yōu)先級(jí),可提高樣本利用率和訓(xùn)練效率。

    (7)

    樣本優(yōu)先級(jí)定義為平均值可能使樣本重要性被其他動(dòng)作維度稀釋,但有助于保持訓(xùn)練過程的穩(wěn)定性。

    結(jié)合以上優(yōu)先經(jīng)驗(yàn)回放方法,CA-DQN的訓(xùn)練過程如下:

    算法1:智能體訓(xùn)練過程

    輸入:仿真環(huán)境 env

    輸出:神經(jīng)網(wǎng)絡(luò)參數(shù)θ*

    1隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)θ,θ-

    2初始化經(jīng)驗(yàn)池 pool

    3whilesteps

    4state,reward,terminate ← env.RandomInit()//隨機(jī)初始化仿真環(huán)境

    5whilenot terminatethen

    6action ← AgentPolicy(state,θ)//按式(3)選擇動(dòng)作

    7state_new,reward,terminate ← env.Step(action)

    8td_error ← CalcTDError(state,action,reward,state_new,θ,θ-)//按式(5)計(jì)算TD誤差

    9priority ← CalcPriority(td_error)//按式(7)計(jì)算樣本優(yōu)先級(jí)

    10pool.Append(state,action,reward,state_new,priority)

    11state ← state_new

    12steps ← steps + 1

    13s,a,r,s' ← pool.RandomSample(batch_size)//按優(yōu)先級(jí)隨機(jī)采樣

    14td_error ← CalcTDError(s,a,r,s',θ,θ-)//按式(5)計(jì)算TD誤差

    15loss ← CalcLoss(td_error)//按式(6)計(jì)算損失函數(shù)

    16θ← BackPropagation(θ,loss)//更新網(wǎng)絡(luò)參數(shù)

    17每隔一定步數(shù)θ-←θ

    18end

    19每隔一定周期數(shù)計(jì)算平均周期回報(bào),若性能提升θ*←θ

    20end

    3 實(shí)驗(yàn)與分析

    3.1 實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)

    本文采用基于社會(huì)力模型的人群動(dòng)力學(xué)仿真系統(tǒng)[5]作為智能體交互環(huán)境,構(gòu)造了典型的多房間、雙出口室內(nèi)場(chǎng)景,以下稱為“場(chǎng)景1”。多層建筑場(chǎng)景可通過拼接各層平面圖輸入疏散引導(dǎo)系統(tǒng),本文為直觀起見,采用單層仿真場(chǎng)景。仿真系統(tǒng)計(jì)算每個(gè)個(gè)體的運(yùn)動(dòng)狀態(tài),并加入個(gè)體心理因素對(duì)運(yùn)動(dòng)造成的影響。仿真系統(tǒng)基于C++語言和Qt庫編寫。

    如圖4所示,仿真場(chǎng)景大小為29.2 m×19.7 m,平面圖像素為499×337,場(chǎng)景內(nèi)包含左右2個(gè)出口和6個(gè)房間,上下2個(gè)通道連接房間和出口,每個(gè)通道設(shè)置5個(gè)動(dòng)態(tài)引導(dǎo)標(biāo)志,標(biāo)志可顯示相對(duì)兩個(gè)方向之一。人群數(shù)量為200人,初始位置以圓形范圍隨機(jī)分布,分布中心和半徑取值范圍為x∈(100,140),y∈(60,280),r∈(100,200)。場(chǎng)景圖像中,藍(lán)色直線表示墻壁,綠色矩形表示出口位置,綠色箭頭表示動(dòng)態(tài)引導(dǎo)標(biāo)志,每個(gè)標(biāo)志有相反兩個(gè)方向的顯示狀態(tài),藍(lán)色圓點(diǎn)表示逃生者個(gè)體,灰色部分為不可到達(dá)區(qū)域。個(gè)體最大運(yùn)動(dòng)速度為5 m/s。仿真?zhèn)€體在沒有看到疏散引導(dǎo)標(biāo)志時(shí),選擇距離最近的出口,按照靜態(tài)最短路線逃生,看到疏散引導(dǎo)標(biāo)志時(shí),按照引導(dǎo)標(biāo)志指示的方向逃生。仿真系統(tǒng)動(dòng)力學(xué)計(jì)算的每個(gè)時(shí)間步為40 ms,仿真時(shí)間上限為100 s。

    圖4 仿真場(chǎng)景1Fig.4 Simulation scene 1

    同時(shí),本文也采用原交互環(huán)境中基于實(shí)際建筑平面圖的仿真場(chǎng)景[5]進(jìn)行實(shí)驗(yàn),如圖5所示,以下稱為“場(chǎng)景2”。場(chǎng)景圖像中符號(hào)含義與場(chǎng)景1相同。場(chǎng)景大小為47.0 m×28.8 m,圖像像素為805×494,人群數(shù)量為200人,分布中心和半徑取值范圍為x∈(100,700),y∈(60,440),r∈(300,500),場(chǎng)景內(nèi)共有2個(gè)出口和6個(gè)動(dòng)態(tài)引導(dǎo)標(biāo)志。不同仿真場(chǎng)景的強(qiáng)化學(xué)習(xí)智能體由于輸入輸出定義不同,疏散策略不同,需要分別進(jìn)行訓(xùn)練。

    圖5 仿真場(chǎng)景2Fig.5 Simulation scene 2

    CA-DQN方法基于Python語言、TensorFlow平臺(tái)和OpenAI/baseline庫實(shí)現(xiàn)。實(shí)現(xiàn)過程與超參數(shù)的選擇參考了baseline庫中用于Atari視頻游戲的DQN方法,并針對(duì)本文方法進(jìn)行適當(dāng)調(diào)整。強(qiáng)化學(xué)習(xí)智能體的每個(gè)時(shí)間步中,首先由仿真系統(tǒng)進(jìn)行5步計(jì)算,即仿真200 ms內(nèi)人群的運(yùn)動(dòng)狀態(tài),將獲得的最后4幀圖像下采樣為1/2大小的灰度圖,以場(chǎng)景1為例,組合成像素為249×168的4通道圖像,作為智能體的狀態(tài)st輸入值函數(shù)Q網(wǎng)絡(luò)。Q網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由三層卷積神經(jīng)網(wǎng)絡(luò)和三層全連接神經(jīng)網(wǎng)絡(luò)組成。第一層由32組8×8卷積核組成,輸入為249×168×4的三維張量,第二層由64組4×4卷積核組成,第三層由64組3×3卷積核組成。卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為ReLU。三層全連接層神經(jīng)元數(shù)目分別為128、64、32,激活函數(shù)為ReLU。輸出層激活函數(shù)為恒等函數(shù),20個(gè)神經(jīng)元分為10組,每組2個(gè)中取輸出值較大的作為一個(gè)動(dòng)態(tài)引導(dǎo)標(biāo)志的顯示信號(hào),共同組成10維離散輸出向量作為智能體動(dòng)作at。at作用于仿真系統(tǒng),改變10個(gè)引導(dǎo)標(biāo)志顯示的方向,從而指引人群運(yùn)動(dòng)方向,此時(shí)智能體與仿真環(huán)境的交互完成一個(gè)循環(huán)。智能體每步的獎(jiǎng)勵(lì)固定為-1,即每秒獲得-5的獎(jiǎng)勵(lì),智能體訓(xùn)練目標(biāo)為減少總體疏散時(shí)間。

    訓(xùn)練超參數(shù)中,批量大小為64,學(xué)習(xí)率為10-5,總時(shí)間步為107,經(jīng)驗(yàn)池樣本容量為105,每2×104步將當(dāng)前Q網(wǎng)絡(luò)參數(shù)復(fù)制到目標(biāo)Q網(wǎng)絡(luò)。實(shí)驗(yàn)硬件平臺(tái)為AMD Threadripper 2990WX CPU、NVIDIA RTX 2080Ti GPU、128 GB內(nèi)存。

    3.2 實(shí)驗(yàn)結(jié)果與分析

    由于原DQN方法用于本文實(shí)驗(yàn)時(shí),以場(chǎng)景1為例,需設(shè)置210=1 024個(gè)輸出層節(jié)點(diǎn),相比CA-DQN的20個(gè)節(jié)點(diǎn),DQN網(wǎng)絡(luò)規(guī)模過大,在現(xiàn)有條件下難以實(shí)現(xiàn)。因此本文選擇基于靜態(tài)引導(dǎo)標(biāo)志的方法和基于拓?fù)鋱D建模和動(dòng)態(tài)Dijkstra最短路方法的疏散引導(dǎo)算法[5]作為對(duì)比。靜態(tài)引導(dǎo)標(biāo)志方法中,用自動(dòng)或人工的最短路方法計(jì)算,每個(gè)標(biāo)志指向距離最近的出口,每個(gè)場(chǎng)景僅計(jì)算一次,不考慮人群實(shí)時(shí)分布,模擬過程中標(biāo)志不發(fā)生變化。動(dòng)態(tài)Dijkstra最短路方法需要專家人員根據(jù)地圖內(nèi)通道結(jié)構(gòu)人工建立拓?fù)鋱D模型,并且設(shè)置多個(gè)虛擬攝像頭節(jié)點(diǎn),統(tǒng)計(jì)通道不同位置的人群密度,實(shí)時(shí)調(diào)整拓?fù)鋱D各邊權(quán)值,用Dijkstra算法進(jìn)行路徑規(guī)劃,實(shí)現(xiàn)人群的有效疏散。實(shí)驗(yàn)結(jié)果中,每1 s疏散時(shí)間對(duì)應(yīng)-5的周期獎(jiǎng)勵(lì)。

    由圖6的訓(xùn)練曲線看出,對(duì)于場(chǎng)景1,智能體在約3×104個(gè)訓(xùn)練周期后達(dá)到最優(yōu)策略,此時(shí)智能體與仿真環(huán)境交互次數(shù)約為6.4×106個(gè)時(shí)間步。圖7中,對(duì)于場(chǎng)景2,智能體在約4.5×104個(gè)訓(xùn)練周期后達(dá)到最優(yōu)策略。如表1所示,對(duì)不同疏散方法使用新的隨機(jī)人群分布參數(shù)進(jìn)行100個(gè)周期的疏散仿真,場(chǎng)景1中智能體訓(xùn)練所得最優(yōu)策略的平均周期獎(jiǎng)勵(lì)為-158.25,即平均疏散時(shí)間為31.65 s,優(yōu)于使用靜態(tài)引導(dǎo)標(biāo)志的41.35 s和動(dòng)態(tài)Dijkstra最短路方法的32.18 s。場(chǎng)景2中智能體訓(xùn)練所得最優(yōu)策略平均疏散時(shí)間為27.33 s,優(yōu)于靜態(tài)引導(dǎo)標(biāo)志和動(dòng)態(tài)最短路方法。說明本文基于CA-DQN的智能疏散引導(dǎo)智能體可以有效引導(dǎo)人群疏散。

    圖6 場(chǎng)景1智能體訓(xùn)練曲線Fig.6 Training curve of agent in scene 1

    圖7 場(chǎng)景2智能體訓(xùn)練曲線Fig.7 Training curve of agent in scene 2

    表1 不同方法疏散時(shí)間Tab.1 Evacuation time under different methods s

    圖8展示了場(chǎng)景1中一個(gè)典型的疏散過程(圖中符號(hào)含義請(qǐng)參考3.1節(jié)):圖8(a)是人群的初始分布,人群主要分布于左側(cè)4個(gè)房間,若沒有動(dòng)態(tài)指引,人群按到出口距離最短的靜態(tài)標(biāo)志疏散策略,將造成左側(cè)出口擁堵,右側(cè)出口得不到有效利用。在圖8(b)到圖8(d)時(shí)刻,智能體感知到人群分布,將左上方房間人群引向左側(cè)出口,其余人群引向右側(cè)出口。圖8(e)時(shí)刻,左側(cè)出口擁堵已得到緩解,右側(cè)出口預(yù)期撤離人數(shù)較多,因此智能體將左下區(qū)域剩余人群引向左側(cè)出口。最終在圖8(f)時(shí)刻,人群基本同時(shí)從兩側(cè)出口完成疏散,表明人群疏散引導(dǎo)智能體實(shí)現(xiàn)了人群疏散效率的最大化。

    圖8 場(chǎng)景1一個(gè)周期的疏散過程Fig.8 Typical evacuation process in scene 1

    類似地,圖9展示了場(chǎng)景2中典型的一個(gè)疏散過程。圖9(a)中,人群初始化分布主要集中在場(chǎng)景上方。圖9(b)時(shí)刻,智能體感知人群分布,將左上方房間以外的大部分區(qū)域人群向右下方出口誘導(dǎo)。圖9(c)到圖9(d)時(shí)刻,一部分人群有效地轉(zhuǎn)移至右側(cè)通道,避免了左上方出口進(jìn)一步擁堵。最終,在圖9(e)到圖9(f)時(shí)刻,人群基本同時(shí)從兩個(gè)出口完成疏散,說明智能體的引導(dǎo)實(shí)現(xiàn)了人群疏散效率最大化。

    圖9 場(chǎng)景2一個(gè)周期的疏散過程Fig.9 Typical evacuation process in scene 2

    改變仿真場(chǎng)景初始化人數(shù),分別進(jìn)行100個(gè)周期的疏散仿真,不同方法的疏散效果對(duì)比見圖10。場(chǎng)景1中,在人數(shù)較少時(shí),各個(gè)通道都能保持通暢,靜態(tài)引導(dǎo)方法效果較好。人群數(shù)量增加時(shí),靜態(tài)引導(dǎo)方法受影響較大,CA-DQN和動(dòng)態(tài)最短路方法可以避免人群擁堵。人群數(shù)量增加到80人以上時(shí),兩種動(dòng)態(tài)方法疏散效果優(yōu)于靜態(tài)方法,其中本文CA-DQN方法實(shí)現(xiàn)了最優(yōu)疏散引導(dǎo)效率。場(chǎng)景2的實(shí)驗(yàn)也顯示出類似結(jié)果,由圖11看出,本文方法在不同人群數(shù)量下均能取得較好效果。

    圖10 場(chǎng)景1中不同人數(shù)的周期獎(jiǎng)勵(lì)Fig.10 Period reward with varying number of persons in scene 1

    圖11 場(chǎng)景2中不同人數(shù)的周期獎(jiǎng)勵(lì)Fig.11 Period reward with varying number of persons in scene 2

    實(shí)驗(yàn)結(jié)果顯示,相比靜態(tài)標(biāo)志不能感知人群分布信息,本文基于CA-DQN的強(qiáng)化學(xué)習(xí)人群疏散引導(dǎo)方法能動(dòng)態(tài)地調(diào)整引導(dǎo)標(biāo)志的顯示信號(hào),有效提高人群疏散效率。與基于拓?fù)鋱D建模的動(dòng)態(tài)Dijkstra最短路方法相比,本文方法取得了更好的疏散引導(dǎo)效率,同時(shí)避免人工構(gòu)造拓?fù)鋱D的工作量和潛在的人工誤差。

    4 結(jié) 論

    本文分析了使用動(dòng)態(tài)引導(dǎo)標(biāo)志的人群疏散引導(dǎo)問題,針對(duì)現(xiàn)有方法需要人工設(shè)計(jì)拓?fù)鋱D模型或網(wǎng)格模型,配合獨(dú)立的路徑規(guī)劃算法,導(dǎo)致人工工作量大、容易引入人為誤差等不足之處,提出了基于組合動(dòng)作空間深度強(qiáng)化學(xué)習(xí)的人群疏散引導(dǎo)方法。通過端對(duì)端的深度學(xué)習(xí),由智能體在訓(xùn)練過程中自行探索學(xué)習(xí)建筑結(jié)構(gòu)和路徑規(guī)劃方法,通過環(huán)境反饋?zhàn)詣?dòng)修正認(rèn)知誤差,從而找到最優(yōu)的疏散引導(dǎo)策略。

    針對(duì)深度強(qiáng)化學(xué)習(xí)中典型的DQN方法應(yīng)用于人群疏散問題時(shí)因輸出的動(dòng)態(tài)引導(dǎo)標(biāo)志數(shù)量較多而出現(xiàn)的“維度災(zāi)難”問題,本文提出CA-DQN網(wǎng)絡(luò)結(jié)構(gòu),將關(guān)于輸出動(dòng)作維度的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度從指數(shù)級(jí)增長降低為線性增長,提高了強(qiáng)化學(xué)習(xí)方法在復(fù)雜場(chǎng)景和大規(guī)模人群疏散問題中的可用性。在基于社會(huì)力模型的人群動(dòng)力學(xué)仿真系統(tǒng)中的實(shí)驗(yàn)表明,本文方法相對(duì)靜態(tài)引導(dǎo)標(biāo)志有效提升了人群疏散效率,減少疏散時(shí)間,達(dá)到與基于人工建模的動(dòng)態(tài)最短路方法相同水平。

    未來工作將進(jìn)一步提升強(qiáng)化學(xué)習(xí)智能體在復(fù)雜場(chǎng)景中的訓(xùn)練效率,對(duì)輸出信號(hào)變更頻率等加以更多限制,使其在真實(shí)場(chǎng)景中更易理解。

    猜你喜歡
    動(dòng)作智能方法
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    動(dòng)作描寫要具體
    畫動(dòng)作
    動(dòng)作描寫不可少
    可能是方法不對(duì)
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    一本—道久久a久久精品蜜桃钙片| 日本-黄色视频高清免费观看| 久久久久久久久久成人| 极品少妇高潮喷水抽搐| 国产中年淑女户外野战色| 成人影院久久| 在线观看国产h片| 久久国产乱子免费精品| 久久免费观看电影| 欧美人与善性xxx| a级一级毛片免费在线观看| 国产乱人偷精品视频| 人妻系列 视频| 亚洲国产最新在线播放| 欧美日韩国产mv在线观看视频| 男人和女人高潮做爰伦理| 99热6这里只有精品| 麻豆乱淫一区二区| 97精品久久久久久久久久精品| a级毛色黄片| 亚洲美女搞黄在线观看| 午夜影院在线不卡| 亚洲国产精品999| 国产黄片美女视频| 夫妻性生交免费视频一级片| 久久久久国产网址| 日韩熟女老妇一区二区性免费视频| 高清视频免费观看一区二区| 亚洲精华国产精华液的使用体验| 国产在线视频一区二区| 色网站视频免费| 国产成人精品无人区| 91aial.com中文字幕在线观看| 搡女人真爽免费视频火全软件| 国产成人精品无人区| 黄片无遮挡物在线观看| 又大又黄又爽视频免费| www.色视频.com| 最新中文字幕久久久久| 亚洲av福利一区| 偷拍熟女少妇极品色| 亚洲精品成人av观看孕妇| 两个人免费观看高清视频 | 亚洲综合精品二区| 亚洲av在线观看美女高潮| 大香蕉久久网| 成人国产麻豆网| 久久国产亚洲av麻豆专区| 国产精品蜜桃在线观看| 国产男女超爽视频在线观看| 我的女老师完整版在线观看| 2021少妇久久久久久久久久久| 精品亚洲成国产av| 高清黄色对白视频在线免费看 | 在线播放无遮挡| 2022亚洲国产成人精品| 成人影院久久| 三上悠亚av全集在线观看 | 国产精品熟女久久久久浪| 久久精品国产a三级三级三级| 18+在线观看网站| av在线app专区| 在线观看免费视频网站a站| 亚洲性久久影院| 伦精品一区二区三区| 色5月婷婷丁香| 夜夜爽夜夜爽视频| 亚洲丝袜综合中文字幕| 另类亚洲欧美激情| 伊人久久精品亚洲午夜| 国产成人精品久久久久久| 日本av免费视频播放| 成人国产av品久久久| 自线自在国产av| 欧美日本中文国产一区发布| 日韩制服骚丝袜av| 成年人午夜在线观看视频| 精品一区二区三卡| 22中文网久久字幕| 色视频在线一区二区三区| 亚洲精品中文字幕在线视频 | 97在线视频观看| 秋霞在线观看毛片| 黄色一级大片看看| 亚洲一级一片aⅴ在线观看| 99久国产av精品国产电影| 夜夜爽夜夜爽视频| 国产一区二区三区av在线| 亚洲,一卡二卡三卡| 亚洲图色成人| 成人毛片60女人毛片免费| 各种免费的搞黄视频| 国产亚洲91精品色在线| 欧美xxⅹ黑人| 高清黄色对白视频在线免费看 | av国产精品久久久久影院| 99久久精品国产国产毛片| 国产无遮挡羞羞视频在线观看| 久久婷婷青草| 亚洲av二区三区四区| 91午夜精品亚洲一区二区三区| 亚洲欧美成人综合另类久久久| 午夜久久久在线观看| 黄色毛片三级朝国网站 | 最新的欧美精品一区二区| 我的女老师完整版在线观看| 日本av手机在线免费观看| 国产片特级美女逼逼视频| 如何舔出高潮| 久久婷婷青草| 国产av精品麻豆| 国产真实伦视频高清在线观看| 日本猛色少妇xxxxx猛交久久| 中文字幕av电影在线播放| 午夜激情福利司机影院| 精品亚洲成国产av| 国产成人精品福利久久| 久久免费观看电影| 久久久久久久久大av| 综合色丁香网| 麻豆成人午夜福利视频| 亚洲精品一区蜜桃| 亚洲久久久国产精品| 在线观看av片永久免费下载| 少妇人妻 视频| 成人18禁高潮啪啪吃奶动态图 | 亚洲精品久久午夜乱码| a 毛片基地| 久久久久久久亚洲中文字幕| 日韩熟女老妇一区二区性免费视频| 亚洲精品久久久久久婷婷小说| av免费在线看不卡| 国产av国产精品国产| 狂野欧美激情性bbbbbb| 免费黄频网站在线观看国产| 国产欧美亚洲国产| 亚洲av国产av综合av卡| 啦啦啦在线观看免费高清www| 黄色毛片三级朝国网站 | 深夜a级毛片| 国产成人精品婷婷| 嫩草影院入口| 啦啦啦啦在线视频资源| 久久婷婷青草| 午夜福利在线观看免费完整高清在| 日日摸夜夜添夜夜添av毛片| 免费看光身美女| 美女大奶头黄色视频| 女人精品久久久久毛片| 久久精品久久精品一区二区三区| 狂野欧美激情性bbbbbb| 精品久久久噜噜| 久久女婷五月综合色啪小说| 欧美日韩在线观看h| 国国产精品蜜臀av免费| 免费观看的影片在线观看| 精品99又大又爽又粗少妇毛片| 国产成人午夜福利电影在线观看| 肉色欧美久久久久久久蜜桃| 少妇丰满av| 午夜免费鲁丝| 国产精品熟女久久久久浪| 成年av动漫网址| 极品少妇高潮喷水抽搐| 黄色配什么色好看| 亚洲激情五月婷婷啪啪| 免费不卡的大黄色大毛片视频在线观看| 亚洲,一卡二卡三卡| 丰满饥渴人妻一区二区三| a级一级毛片免费在线观看| 久久99一区二区三区| 日本wwww免费看| 午夜福利视频精品| 91精品国产九色| 精品酒店卫生间| 日韩精品有码人妻一区| 亚洲婷婷狠狠爱综合网| av在线app专区| 天堂中文最新版在线下载| 各种免费的搞黄视频| 一本一本综合久久| 亚洲第一av免费看| 全区人妻精品视频| 九九久久精品国产亚洲av麻豆| 在线观看国产h片| 狂野欧美白嫩少妇大欣赏| 国产淫语在线视频| av.在线天堂| 亚洲国产av新网站| 黄色毛片三级朝国网站 | 国产一区二区三区av在线| 青春草亚洲视频在线观看| 黄色视频在线播放观看不卡| 亚洲第一av免费看| 成年美女黄网站色视频大全免费 | 国产精品欧美亚洲77777| 亚洲人与动物交配视频| 在线观看免费视频网站a站| 亚洲成人av在线免费| 亚洲精品日韩av片在线观看| 在线观看国产h片| 少妇熟女欧美另类| 人妻一区二区av| 亚洲第一区二区三区不卡| 国产精品秋霞免费鲁丝片| 啦啦啦中文免费视频观看日本| 国产日韩欧美视频二区| 亚洲人成网站在线观看播放| 男女边摸边吃奶| 欧美另类一区| 在线免费观看不下载黄p国产| 男女无遮挡免费网站观看| 亚洲第一区二区三区不卡| 各种免费的搞黄视频| 午夜福利影视在线免费观看| 在线观看www视频免费| 久久亚洲国产成人精品v| 日产精品乱码卡一卡2卡三| 日韩强制内射视频| 久久精品国产亚洲网站| 欧美激情国产日韩精品一区| 国产黄频视频在线观看| 99九九线精品视频在线观看视频| 少妇 在线观看| 国产午夜精品一二区理论片| 亚洲精品自拍成人| 国产视频首页在线观看| 在线免费观看不下载黄p国产| 另类亚洲欧美激情| 汤姆久久久久久久影院中文字幕| 久久ye,这里只有精品| 久久精品夜色国产| 18+在线观看网站| 欧美亚洲 丝袜 人妻 在线| 国产视频首页在线观看| a级毛色黄片| 一个人看视频在线观看www免费| 国产黄频视频在线观看| 国产亚洲最大av| 欧美精品亚洲一区二区| 久久精品熟女亚洲av麻豆精品| 免费观看av网站的网址| 国产精品人妻久久久影院| 亚洲四区av| 久久这里有精品视频免费| 日韩一本色道免费dvd| 多毛熟女@视频| 精品人妻熟女av久视频| 欧美变态另类bdsm刘玥| 亚洲av中文av极速乱| 成人漫画全彩无遮挡| 国产视频内射| 亚洲,欧美,日韩| 精华霜和精华液先用哪个| 国产av国产精品国产| 蜜桃久久精品国产亚洲av| 免费大片黄手机在线观看| 国产午夜精品久久久久久一区二区三区| 久久综合国产亚洲精品| 亚洲av综合色区一区| 各种免费的搞黄视频| 黑人猛操日本美女一级片| 最近的中文字幕免费完整| 免费看不卡的av| 国产精品偷伦视频观看了| 日韩成人av中文字幕在线观看| 丝袜在线中文字幕| www.av在线官网国产| 国内揄拍国产精品人妻在线| 精品国产国语对白av| 亚洲av成人精品一区久久| 免费av不卡在线播放| 各种免费的搞黄视频| 欧美xxxx性猛交bbbb| 在线观看免费视频网站a站| 欧美精品一区二区大全| 国产亚洲欧美精品永久| 免费黄色在线免费观看| 尾随美女入室| 欧美日韩精品成人综合77777| 六月丁香七月| 欧美一级a爱片免费观看看| 久久热精品热| 人人澡人人妻人| 国产深夜福利视频在线观看| 亚洲国产精品一区二区三区在线| 日本猛色少妇xxxxx猛交久久| 人妻系列 视频| 五月开心婷婷网| 一本色道久久久久久精品综合| 国产精品一区www在线观看| 国产精品不卡视频一区二区| 26uuu在线亚洲综合色| 午夜老司机福利剧场| 成人美女网站在线观看视频| 亚洲精品aⅴ在线观看| 欧美性感艳星| 亚洲av综合色区一区| 老司机影院毛片| 日韩三级伦理在线观看| 国产亚洲精品久久久com| 久久久精品免费免费高清| 美女主播在线视频| 王馨瑶露胸无遮挡在线观看| 国产成人精品一,二区| 亚洲精品视频女| 高清不卡的av网站| 日本欧美视频一区| 婷婷色麻豆天堂久久| 91精品伊人久久大香线蕉| 亚洲三级黄色毛片| 街头女战士在线观看网站| 久久青草综合色| 乱码一卡2卡4卡精品| 汤姆久久久久久久影院中文字幕| 在线观看免费高清a一片| 午夜影院在线不卡| 亚洲真实伦在线观看| 国产av国产精品国产| 亚洲国产毛片av蜜桃av| 男女啪啪激烈高潮av片| 搡老乐熟女国产| 熟妇人妻不卡中文字幕| 亚洲av不卡在线观看| av有码第一页| 啦啦啦中文免费视频观看日本| 久久这里有精品视频免费| 99久久中文字幕三级久久日本| 九九爱精品视频在线观看| 日本-黄色视频高清免费观看| 久久综合国产亚洲精品| 国内精品宾馆在线| 久久精品久久久久久久性| 国产一区二区三区综合在线观看 | 国产一区有黄有色的免费视频| 国产精品偷伦视频观看了| 午夜91福利影院| 尾随美女入室| 免费久久久久久久精品成人欧美视频 | 十八禁高潮呻吟视频 | 日韩av免费高清视频| 少妇猛男粗大的猛烈进出视频| 成年av动漫网址| 人人妻人人看人人澡| 少妇丰满av| 日本欧美国产在线视频| 男女无遮挡免费网站观看| 亚洲精品,欧美精品| 精品久久久精品久久久| 亚洲在久久综合| 国产一区亚洲一区在线观看| 在现免费观看毛片| 成人无遮挡网站| 精品99又大又爽又粗少妇毛片| 最近中文字幕2019免费版| 啦啦啦在线观看免费高清www| 免费黄色在线免费观看| 伦理电影大哥的女人| 丰满人妻一区二区三区视频av| 久久精品久久久久久久性| 美女大奶头黄色视频| 插阴视频在线观看视频| 久久这里有精品视频免费| 国产精品福利在线免费观看| 精品国产国语对白av| 精品一品国产午夜福利视频| 国产精品福利在线免费观看| 午夜91福利影院| 人妻 亚洲 视频| 日本wwww免费看| 99热全是精品| 九九在线视频观看精品| 中国国产av一级| videos熟女内射| 国产精品福利在线免费观看| 中文字幕精品免费在线观看视频 | 一级毛片久久久久久久久女| 日本欧美视频一区| 日韩中字成人| 精品人妻熟女av久视频| 日韩熟女老妇一区二区性免费视频| 男女边吃奶边做爰视频| 欧美精品高潮呻吟av久久| 色吧在线观看| 国产淫语在线视频| 亚洲av在线观看美女高潮| 国产极品粉嫩免费观看在线 | 国产亚洲一区二区精品| 日本-黄色视频高清免费观看| av国产久精品久网站免费入址| 人体艺术视频欧美日本| 日韩亚洲欧美综合| 天天躁夜夜躁狠狠久久av| 午夜激情福利司机影院| 亚洲精品久久久久久婷婷小说| 成年人午夜在线观看视频| 在线天堂最新版资源| 王馨瑶露胸无遮挡在线观看| 亚洲欧美精品自产自拍| 国产美女午夜福利| 欧美精品一区二区免费开放| 内地一区二区视频在线| 久久久久视频综合| av视频免费观看在线观看| 久久久久人妻精品一区果冻| 国产欧美亚洲国产| 一级毛片我不卡| 欧美三级亚洲精品| 狂野欧美激情性bbbbbb| 亚洲熟女精品中文字幕| 乱人伦中国视频| av免费在线看不卡| 亚洲丝袜综合中文字幕| 美女xxoo啪啪120秒动态图| 亚洲欧美日韩东京热| 美女福利国产在线| 人妻制服诱惑在线中文字幕| 能在线免费看毛片的网站| 亚洲欧美精品自产自拍| 免费黄色在线免费观看| 欧美日韩精品成人综合77777| 欧美成人午夜免费资源| 99久久中文字幕三级久久日本| 日本欧美视频一区| 中国国产av一级| 亚洲国产日韩一区二区| 精品国产国语对白av| 亚洲第一区二区三区不卡| 国产精品一区www在线观看| av在线观看视频网站免费| 如何舔出高潮| 色吧在线观看| 久久久精品免费免费高清| 美女xxoo啪啪120秒动态图| 国产欧美亚洲国产| 美女cb高潮喷水在线观看| 永久免费av网站大全| 一级黄片播放器| 免费观看a级毛片全部| 久久精品国产亚洲av天美| 亚州av有码| 午夜视频国产福利| 国产av国产精品国产| 成人亚洲欧美一区二区av| 日韩亚洲欧美综合| 亚洲精品,欧美精品| 纯流量卡能插随身wifi吗| 桃花免费在线播放| h视频一区二区三区| 搡老乐熟女国产| www.av在线官网国产| 一本久久精品| 亚洲精品视频女| 嘟嘟电影网在线观看| 国产精品秋霞免费鲁丝片| 极品少妇高潮喷水抽搐| 亚洲怡红院男人天堂| 久久久久久人妻| 久久精品久久久久久噜噜老黄| 曰老女人黄片| 老司机影院毛片| 视频中文字幕在线观看| 国产一区有黄有色的免费视频| 欧美bdsm另类| 麻豆精品久久久久久蜜桃| 中文字幕人妻丝袜制服| 日韩成人av中文字幕在线观看| 精品一区二区三卡| 爱豆传媒免费全集在线观看| 欧美成人午夜免费资源| 日本色播在线视频| 国产乱来视频区| 日韩人妻高清精品专区| 亚洲国产精品成人久久小说| 蜜桃在线观看..| 七月丁香在线播放| 精品亚洲乱码少妇综合久久| 亚洲精品日韩av片在线观看| 三上悠亚av全集在线观看 | 两个人免费观看高清视频 | 寂寞人妻少妇视频99o| 亚洲精品第二区| 精品国产乱码久久久久久小说| 亚洲国产毛片av蜜桃av| 99九九线精品视频在线观看视频| 看十八女毛片水多多多| 黄色毛片三级朝国网站 | 久久久久久久精品精品| 免费看不卡的av| 国产精品欧美亚洲77777| 男女无遮挡免费网站观看| 国产成人免费观看mmmm| 久热久热在线精品观看| 91午夜精品亚洲一区二区三区| 国产精品嫩草影院av在线观看| 亚洲成色77777| 偷拍熟女少妇极品色| 成人美女网站在线观看视频| 人人妻人人澡人人看| 熟女人妻精品中文字幕| 精品熟女少妇av免费看| 国产成人免费无遮挡视频| 午夜免费观看性视频| 七月丁香在线播放| 一级av片app| av在线观看视频网站免费| 最近2019中文字幕mv第一页| 美女脱内裤让男人舔精品视频| 99九九线精品视频在线观看视频| 青春草视频在线免费观看| 亚洲国产av新网站| 亚洲国产成人一精品久久久| 欧美精品一区二区免费开放| 国产色爽女视频免费观看| 久久影院123| 大陆偷拍与自拍| 秋霞在线观看毛片| 色婷婷av一区二区三区视频| 亚洲欧美成人精品一区二区| 人妻人人澡人人爽人人| 日本与韩国留学比较| av黄色大香蕉| 亚洲av电影在线观看一区二区三区| 成人亚洲精品一区在线观看| 最近的中文字幕免费完整| 亚洲欧洲国产日韩| 午夜免费观看性视频| 黄色毛片三级朝国网站 | 嘟嘟电影网在线观看| 国产精品人妻久久久影院| 亚洲久久久国产精品| 欧美 亚洲 国产 日韩一| 国产真实伦视频高清在线观看| 少妇精品久久久久久久| 久久综合国产亚洲精品| 午夜福利在线观看免费完整高清在| 免费看av在线观看网站| 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲精品国产av成人精品| 在线观看免费日韩欧美大片 | 一级毛片黄色毛片免费观看视频| 麻豆乱淫一区二区| 一本—道久久a久久精品蜜桃钙片| 国产毛片在线视频| 亚洲av免费高清在线观看| av免费观看日本| 日韩电影二区| 久久 成人 亚洲| 久久久久久久久久久久大奶| 亚洲人成网站在线播| 一级毛片电影观看| 欧美区成人在线视频| 欧美丝袜亚洲另类| 欧美精品国产亚洲| 亚洲中文av在线| 51国产日韩欧美| 菩萨蛮人人尽说江南好唐韦庄| 国产成人午夜福利电影在线观看| 人妻人人澡人人爽人人| 国产一区二区三区av在线| 亚洲三级黄色毛片| 久久韩国三级中文字幕| 亚洲精品乱码久久久久久按摩| 国产深夜福利视频在线观看| 在线观看国产h片| 免费观看在线日韩| 女的被弄到高潮叫床怎么办| 97在线视频观看| 欧美区成人在线视频| 国产无遮挡羞羞视频在线观看| 自拍欧美九色日韩亚洲蝌蚪91 | 男人爽女人下面视频在线观看| 欧美日韩精品成人综合77777| 国产欧美日韩精品一区二区| 王馨瑶露胸无遮挡在线观看| 街头女战士在线观看网站| 成人综合一区亚洲| 精品少妇内射三级| 亚洲精品,欧美精品| 亚洲第一av免费看| 久久韩国三级中文字幕| 日产精品乱码卡一卡2卡三| 久久久久久久亚洲中文字幕| 免费观看无遮挡的男女| 日韩av在线免费看完整版不卡| 久久精品国产鲁丝片午夜精品| 偷拍熟女少妇极品色| 观看免费一级毛片| 天堂8中文在线网| 三级国产精品欧美在线观看| 亚洲精品国产av蜜桃| 搡老乐熟女国产| 欧美xxⅹ黑人| 自线自在国产av| 欧美性感艳星| 亚洲精品aⅴ在线观看| 亚洲精品一区蜜桃| 日韩成人av中文字幕在线观看| 伊人亚洲综合成人网| 涩涩av久久男人的天堂| 免费观看性生交大片5| 亚洲精品自拍成人| 亚洲av成人精品一区久久| 卡戴珊不雅视频在线播放| 亚洲av国产av综合av卡| 免费少妇av软件| 亚洲高清免费不卡视频| 国产黄频视频在线观看| 亚洲丝袜综合中文字幕| 人妻人人澡人人爽人人| 看非洲黑人一级黄片| 中文字幕久久专区| 国产精品久久久久久av不卡| 亚洲美女黄色视频免费看| 久久这里有精品视频免费|