• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Actor-Critic強(qiáng)化學(xué)習(xí)方法及其在開(kāi)發(fā)基于計(jì)算機(jī)視覺(jué)的界面跟蹤中的應(yīng)用

    2021-03-17 02:54:06OguzhanDogruKirubakaranVelswamy黃彪
    工程 2021年9期
    關(guān)鍵詞:參考文獻(xiàn)界面函數(shù)

    Oguzhan Dogru , Kirubakaran Velswamy , 黃彪*

    Department of Chemical and Materials Engineering, University of Alberta, Edmonton,AB T6G 1H9, Canada

    1.引言

    油砂礦石含有瀝青、水和礦物質(zhì)。瀝青是一種高黏度的烴混合物,可以通過(guò)多種化學(xué)和物理過(guò)程進(jìn)行提取。該產(chǎn)品在后處理裝置或煉油廠[1]中進(jìn)行進(jìn)一步處理,以獲得更有價(jià)值的副產(chǎn)品(如汽油、航空燃料)。油砂是從露天礦坑中開(kāi)采出來(lái)的,再通過(guò)卡車(chē)被運(yùn)送入破碎機(jī)[2]。此后,用熱水處理混合物,并通過(guò)水力將混合物輸送到萃取廠。曝氣和幾種化學(xué)品被引入這一過(guò)程以加強(qiáng)效果。在萃取廠中,混合物在初級(jí)分離容器(PSV)中沉淀。圖1總結(jié)了水基油砂分離過(guò)程。

    在PSV 內(nèi)部的分離過(guò)程中,會(huì)形成三層:泡沫層、中礦層和尾礦層(圖2)。在泡沫層和中礦層之間形成一個(gè)界面[以下稱為泡沫-中礦層界面(FMI)]。其水平參照PSV單元影響萃取的質(zhì)量。

    為了控制FMI水平,關(guān)鍵是需要有可靠的傳感器。傳統(tǒng)上,差壓(DP)單元、電容探頭或核子密度剖面儀被用于監(jiān)測(cè)FMI。然而,這些檢測(cè)結(jié)果要么不準(zhǔn)確,要么不可靠[3]。視鏡被用于人工監(jiān)視界面是否存在任何過(guò)程異常。為了在閉環(huán)控制中使用這一觀察方法,參考文獻(xiàn)[3]建議將相機(jī)用作傳感器。該方案利用邊緣檢測(cè)模型和圖像粒子濾波來(lái)獲得FMI;然后使用該模型建立反饋控制。最近,參考文獻(xiàn)[4]結(jié)合邊緣檢測(cè)和動(dòng)態(tài)幀差分來(lái)檢測(cè)界面。該方法直接使用邊緣檢測(cè)技術(shù)來(lái)檢測(cè)界面,并且使用了估計(jì)測(cè)量質(zhì)量的幀比較機(jī)制;此外,該方法還可以檢測(cè)故障。參考文獻(xiàn)[5]使用混合高斯分布對(duì)泡沫、界面和中間體的外觀進(jìn)行建模,并使用時(shí)空馬爾可夫隨機(jī)場(chǎng)來(lái)預(yù)測(cè)界面。盡管利用基于界面外觀或行為的模型解決了一些難題,但這些技術(shù)未能解決在環(huán)境條件不確定情況下的敏感性問(wèn)題,如遮擋和過(guò)度/非高斯噪聲。

    圖1.水基油砂分離過(guò)程的簡(jiǎn)化圖解。PSV位于提取單元中。

    圖2.PSV示意圖。在分離過(guò)程中,形成三層分層。相機(jī)用于監(jiān)控中礦層和泡沫層之間的界面,以控制FMI處于最佳水平。

    監(jiān)督學(xué)習(xí)(SL)方法嘗試通過(guò)最小化代價(jià)(或損失)函數(shù)來(lái)構(gòu)建從輸入(即圖像,x)到輸出(即標(biāo)簽,y)數(shù)據(jù)的映射。通常,代價(jià)函數(shù)是凸函數(shù),最優(yōu)參數(shù)是通過(guò)對(duì)代價(jià)函數(shù)應(yīng)用隨機(jī)梯度下降算法[6?7]來(lái)計(jì)算得到的。另外,無(wú)監(jiān)督學(xué)習(xí)(UL)方法被用于查找未標(biāo)記數(shù)據(jù)中的隱藏特征(即僅使用x)[8]。目標(biāo)通常是壓縮數(shù)據(jù)或在數(shù)據(jù)中找到相似之處。盡管如此,即使輸入與輸出之間確實(shí)存在著因果關(guān)系,UL 技術(shù)并未考慮輸入對(duì)輸出的影響。在計(jì)算機(jī)視覺(jué)中,這些方法是使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)。CNN 是對(duì)輸入應(yīng)用卷積運(yùn)算的參數(shù)函數(shù)。它不僅可以對(duì)一個(gè)像素進(jìn)行處理,還可以對(duì)它的相鄰像素進(jìn)行處理來(lái)提取抽象特征,用于分類(lèi)、回歸、降維等[9?12]。盡管CNN已經(jīng)被使用了幾十年[13?16],但直到最近它才在不同領(lǐng)域得到廣泛普及[17?20],這是由于硬件技術(shù)[21]和數(shù)據(jù)可用性[22]的發(fā)展導(dǎo)致的。與計(jì)算機(jī)視覺(jué)的發(fā)展并行,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被用于預(yù)測(cè)時(shí)間序列,其中網(wǎng)絡(luò)先前的輸出以遞歸矩陣乘法的形式反饋到自身[23]。然而,vanilla RNN[24]會(huì)受到梯度減小或爆炸的影響,因?yàn)樗磸?fù)將先前的信息反饋給自身,導(dǎo)致隱藏層之間反向傳播數(shù)據(jù)的共享不均勻。因此,當(dāng)數(shù)據(jù)序列任意長(zhǎng)時(shí),它往往會(huì)失敗。為了克服這個(gè)問(wèn)題,研究人員已經(jīng)提出了更復(fù)雜的網(wǎng)絡(luò),如長(zhǎng)短期記憶(LSTM)[25]和門(mén)控循環(huán)單元[26]。這些網(wǎng)絡(luò)促進(jìn)了隱藏層之間的數(shù)據(jù)傳輸,從而提高了學(xué)習(xí)效率。最近,研究人員提出了卷積LSTM(Conv‐LSTM)[27],它是LSTM的一種變體,可以通過(guò)用卷積運(yùn)算替換矩陣乘法來(lái)提高LSTM 性能。與全連接LSTM 不同,ConvLSTM接收的是一個(gè)圖像而不是一維數(shù)據(jù);它利用輸入數(shù)據(jù)中存在的空間連接提高估計(jì)的性能。具有多層的網(wǎng)絡(luò)被認(rèn)為是深層結(jié)構(gòu)[28]。為了進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度,研究人員已經(jīng)提出了各種深度架構(gòu)[29?33]。然而,這些結(jié)構(gòu)存在過(guò)度參數(shù)化的問(wèn)題(即訓(xùn)練數(shù)據(jù)點(diǎn)的數(shù)量少于參數(shù)的數(shù)量)。研究人員試圖從幾種正則化技術(shù)(如dropout、L2)[17]和遷移學(xué)習(xí)[也稱為微調(diào)(FT)]方法[34?35]中找到解決方法,以提高網(wǎng)絡(luò)的性能。然而,傳輸?shù)男畔ⅲㄈ缇W(wǎng)絡(luò)參數(shù))對(duì)于目標(biāo)域可能不具有普適性。這一問(wèn)題非常關(guān)鍵,特別是當(dāng)訓(xùn)練數(shù)據(jù)不足,或它們的統(tǒng)計(jì)數(shù)據(jù)與目標(biāo)域中的數(shù)據(jù)明顯不同時(shí)。此外,目前循環(huán)網(wǎng)絡(luò)的有效遷移學(xué)習(xí)問(wèn)題仍然需要進(jìn)一步研究。

    強(qiáng)化學(xué)習(xí)(RL)[36]結(jié)合了SL和UL技術(shù)的優(yōu)點(diǎn),并將學(xué)習(xí)過(guò)程形式化為馬爾可夫決策過(guò)程(MDP)。受動(dòng)物心理學(xué)[37]和最優(yōu)控制[38?43]的啟發(fā),該學(xué)習(xí)方案涉及智能體(即控制器)。與SL或UL方法不同,RL不依賴于離線或批處理數(shù)據(jù)集,而是通過(guò)與環(huán)境交互生成自己的數(shù)據(jù)。它通過(guò)考慮直接后果來(lái)評(píng)估其操作的影響,并通過(guò)推導(dǎo)來(lái)預(yù)測(cè)其價(jià)值。因此,它更適用于涉及復(fù)雜系統(tǒng)決策的真實(shí)或連續(xù)過(guò)程。然而,在基于采樣數(shù)據(jù)的方案中,訓(xùn)練階段的數(shù)據(jù)分布可能會(huì)有顯著差異,這可能會(huì)導(dǎo)致估計(jì)的方差較高[36]。為了結(jié)合價(jià)值估計(jì)和策略梯度的優(yōu)點(diǎn),研究人員提出了actor-critic方法[44?46]。這種方法將智能體分為兩部分:actor 決定采取哪個(gè)動(dòng)作,而critic 使用動(dòng)作值[47]或狀態(tài)值[48]函數(shù)估計(jì)該動(dòng)作的好壞。這些方法不依賴任何標(biāo)簽或系統(tǒng)模型。因此,對(duì)狀態(tài)或動(dòng)作空間的探索是影響智能體性能的重要因素。在系統(tǒng)辨識(shí)[49?51]中,這被稱為辨識(shí)問(wèn)題。研究人員已開(kāi)發(fā)出來(lái)多種方法來(lái)解決勘探問(wèn)題[36,48,52?58]。作為機(jī)器學(xué)習(xí)[59?61]的一個(gè)子領(lǐng)域,RL被用于(但不限于)過(guò)程控制[2,42,61?68]、游戲行業(yè)[69?77]、機(jī)器人和自動(dòng)駕駛汽車(chē)等領(lǐng)域[78?81]。

    FMI跟蹤可以被表述為一個(gè)對(duì)象跟蹤問(wèn)題,它可以分別使用無(wú)檢測(cè)或基于檢測(cè)的跟蹤方法通過(guò)一個(gè)或兩個(gè)步驟來(lái)解決。先前的工作[82?84]已將RL 用于對(duì)象檢測(cè)或定位,因此它可以與跟蹤算法相結(jié)合。在這種組合的情況下,跟蹤算法也需要可靠和快速的實(shí)時(shí)實(shí)現(xiàn)。一些對(duì)象跟蹤算法已被提出,包括使用RL[85?90]的多個(gè)對(duì)象跟蹤算法。研究人員所提出的方案將預(yù)訓(xùn)練的對(duì)象檢測(cè)與基于RL 的跟蹤或監(jiān)督跟蹤解決方案相結(jié)合。這些模擬是在理想條件下進(jìn)行的[91?92]?;趯?duì)象檢測(cè)的方法的性能通常取決于檢測(cè)準(zhǔn)確度。即使智能體根據(jù)明確定義的獎(jiǎng)勵(lì)信號(hào)去學(xué)習(xí)跟蹤,研究人員也應(yīng)確保感官信息(或感官信息的特征)準(zhǔn)確?;谀P偷乃惴ㄍǔ<僭O(shè)感興趣的對(duì)象具有剛性或非剛性形狀[4],并且噪聲或運(yùn)動(dòng)方式具有特定模式[3]。當(dāng)意外事件發(fā)生時(shí),這些假設(shè)可能不成立。因此,無(wú)模型方法可能會(huì)提供更通用的解決方案。

    由于CNN 可能會(huì)提取抽象特征,因此在訓(xùn)練后對(duì)其進(jìn)行分析很重要。常見(jiàn)的分析技術(shù)利用激活函數(shù)、內(nèi)核、中間層、顯著性映射等信息[30,93?95]。在RL情境中,一種流行的方法是使用t-分布隨機(jī)鄰居嵌入(t-SNE)[96]來(lái)降低觀察到的特征的維度,以可視化處于不同狀態(tài)的智能體[72,97?98]。這有助于根據(jù)智能體遇到的不同情況,對(duì)行為進(jìn)行聚類(lèi)。另一種降維技術(shù),即一致流形逼近與投影(UMAP)[99],將高維輸入(在歐幾里德空間中可能沒(méi)有意義)投影到黎曼空間。這樣可以降低非線性特征的維度。

    圖3展示了過(guò)程工業(yè)中的一般控制層次結(jié)構(gòu)。在一個(gè)連續(xù)的過(guò)程中,層次結(jié)構(gòu)中的每一層都以不同的采樣頻率相互交互。交互從設(shè)備層開(kāi)始,這會(huì)對(duì)上層產(chǎn)生顯著影響。最近,參考文獻(xiàn)[2]提出了執(zhí)行層面的解決方案。然而,解決其他層面的問(wèn)題仍然具有挑戰(zhàn)性。

    本文提出了一種基于RL的新型界面跟蹤方案,該方案針對(duì)無(wú)模型順序決策智能體進(jìn)行了訓(xùn)練。這項(xiàng)工作包括:

    ?詳細(xì)回顧了actor-critic算法;

    ?聚焦設(shè)備層,以提高層次結(jié)構(gòu)的整體性能;

    ?將界面跟蹤表述為無(wú)模型的順序決策過(guò)程;

    圖3.過(guò)程工業(yè)中的一般控制層次結(jié)構(gòu)。RTO:實(shí)時(shí)優(yōu)化;MPC:模型預(yù)測(cè)控制;PID:比例積分微分控制器。

    ?結(jié)合CNN和LSTM以提取時(shí)空特征,無(wú)需任何顯式模型或不切實(shí)際的假設(shè);

    ?在獎(jiǎng)勵(lì)函數(shù)中利用DP 單元測(cè)量值,無(wú)需任何標(biāo)簽或人工干預(yù);

    ?使用時(shí)間差學(xué)習(xí)訓(xùn)練智能體,允許智能體在閉環(huán)控制設(shè)置中持續(xù)學(xué)習(xí);

    ?在開(kāi)環(huán)設(shè)置的不確定性中驗(yàn)證魯棒性;

    ?在簡(jiǎn)化的特征空間中分析智能體的可信度。

    本文的結(jié)構(gòu)如下:第2 節(jié)回顧了actor-critic 算法和基本信息;第3節(jié)闡述了界面檢測(cè);第4節(jié)詳細(xì)介紹了訓(xùn)練和測(cè)試結(jié)果;第5 和第6 節(jié)分別給出了結(jié)論及未來(lái)研究展望。

    2.Actor-critic強(qiáng)化學(xué)習(xí)研究綜述

    RL是一個(gè)嚴(yán)格的數(shù)學(xué)概念[36,39,42],其中的智能體學(xué)習(xí)是一種在動(dòng)態(tài)環(huán)境中使整體回報(bào)最大化的行為。與人類(lèi)類(lèi)似,智能體學(xué)習(xí)通過(guò)考慮未來(lái)的獎(jiǎng)勵(lì)學(xué)習(xí)如何做出明智的決策。這與簡(jiǎn)單分類(lèi)或回歸等方法不同,它意味著觀察的時(shí)間維度將被納入考量。此外,這種能力允許強(qiáng)化學(xué)習(xí)在具有不規(guī)則采樣率的條件[40]下得到應(yīng)用。其通用性使得強(qiáng)化學(xué)習(xí)能夠適應(yīng)不同的環(huán)境條件,并能從模擬環(huán)境轉(zhuǎn)移到實(shí)際的應(yīng)用過(guò)程中[80]。

    2.1.馬爾可夫決策過(guò)程(MDP)

    MDP 通過(guò)元組M形式化離散的順序決策過(guò)程,M由〈X,U,R,P,γ〉組成,其中x?X,u?U,r?R?R,分別表示狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)。P(x′,r|x,u)表示確定或隨機(jī)的系統(tǒng)動(dòng)力學(xué)或狀態(tài)轉(zhuǎn)移概率。MDP 滿足馬爾可夫性質(zhì)[100],即未來(lái)狀態(tài)僅依賴于當(dāng)前而非之前的狀態(tài)。在該過(guò)程中,系統(tǒng)動(dòng)力學(xué)對(duì)于智能體而言是未知的,這使得該方法更為通用。折扣因子γ?[0,1)是未來(lái)獎(jiǎng)勵(lì)的權(quán)重,以使其總和有界。隨機(jī)策略π(u|x)是從觀察到的系統(tǒng)狀態(tài)到動(dòng)作的映射。

    在MDP 中,智能體觀察狀態(tài)x0~σ0,其中σ0表示初始狀態(tài)的分布。隨后,它選擇一個(gè)動(dòng)作u~π(u|x),智能體被 帶 入 下 一 個(gè) 狀 態(tài)x'~P(x',r|x,u), 并 獲 得 獎(jiǎng) 勵(lì)r~P(x',r|x,u)。通過(guò)利用序列(即x,u,r,x?),智能體學(xué)習(xí)了策略π,它將會(huì)產(chǎn)生最大折現(xiàn)收益G,如式(1)中所定義[36]:

    式中,t和k表示離散時(shí)間步長(zhǎng)。狀態(tài)值vπ(x)和動(dòng)作值qπ(x,u)使用貝爾曼(Bellman)方程[式(2)和式(3)]計(jì)算:

    式中,E是隨機(jī)變量的期望。在為每個(gè)狀態(tài)估計(jì)值函數(shù)之后,可以使用式(4)和式(5)求解最優(yōu)值(和)函數(shù):

    隨后,最優(yōu)策略π*可由下式求得:

    對(duì)于大規(guī)模問(wèn)題,可以使用線性或非線性函數(shù)逼近法來(lái)分別或同時(shí)找到逼近值函數(shù)Q(x,u|ω),V(x|ω),其中,ω表示逼近函數(shù)的參數(shù)。該結(jié)構(gòu)也被稱為critics。此項(xiàng)工作側(cè)重于狀態(tài)值估計(jì)并將其符號(hào)簡(jiǎn)化為V(?)。

    2.2.Actor-critic算法綜述

    早期的方法使用基于值(僅critic)的RL[71,101]來(lái)解決控制問(wèn)題。在這些方法中,動(dòng)作直接來(lái)自值函數(shù),據(jù)研究報(bào)道,該值函數(shù)對(duì)于大規(guī)模問(wèn)題是發(fā)散的[45,102]?;诓呗裕▋Hactor)的方法[103?105]解決了這個(gè)問(wèn)題,它可以通過(guò)直接從參數(shù)化函數(shù)生成策略學(xué)習(xí)隨機(jī)行為,然后使用性能指標(biāo)直接優(yōu)化此函數(shù)。然而,估計(jì)的方差和延長(zhǎng)的學(xué)習(xí)時(shí)間使得策略梯度無(wú)法實(shí)現(xiàn)。類(lèi)似于利用生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的生成式對(duì)抗網(wǎng)絡(luò)(GAN)[106],actor-critic算法無(wú)需任何標(biāo)簽即可進(jìn)行自我監(jiān)督[44?45,107?108]。這些技術(shù)分別通過(guò)actor和critic將策略與基于值的方法結(jié)合起來(lái)。這有助于大幅降低估計(jì)的方差和學(xué)習(xí)最優(yōu)策略[36,55]。Actor 和critic 可以分別表示為兩個(gè)神經(jīng)網(wǎng)絡(luò);π(u|x,θ)(其中,θ表示actor 網(wǎng)絡(luò)的參數(shù))和V(x|ω)[或Q(x,u|ω)]。

    雖然已有研究提出了一些基于模型的actor-critic方案[109?110],但本文將重點(diǎn)介紹最常用的無(wú)模型算法,如表1所示。其中一些方法使用熵正則化,而另一些則利用啟發(fā)式算法。上述方法中,一個(gè)常見(jiàn)的示例為ε-貪婪策略,其中智能體以概率ε?[0,1)進(jìn)行隨機(jī)動(dòng)作。其他研究技術(shù)包括但不限于向動(dòng)作空間引入加性噪聲、向參數(shù)空間引入噪聲,以及利用置信上限等。感興趣的讀者可以參閱參考文獻(xiàn)[67]了解更多細(xì)節(jié)。

    表1 基于動(dòng)作空間類(lèi)型和探索方法的actor-critic算法的比較。對(duì)于所有算法而言,狀態(tài)空間可離散或連續(xù)

    將Actor-critic算法總結(jié)如下。

    2.2.1.深度確定性策略梯度

    已有研究提出,該算法可用于將離散的、基于低維值的方法[71]推廣至連續(xù)動(dòng)作空間。深度確定性策略梯度(DDPG)[47]采用actor和critic(Q)以及目標(biāo)critic(Q′)網(wǎng)絡(luò),后者是critic 網(wǎng)絡(luò)的副本。在觀察到一個(gè)狀態(tài)后,該方法將從actor 網(wǎng)絡(luò)中采樣實(shí)值動(dòng)作,并與隨機(jī)過(guò)程(如Ornstein-Uhlenbeck過(guò)程)[111]混合,以鼓勵(lì)探索。智能體將狀態(tài)、動(dòng)作與獎(jiǎng)勵(lì)的樣本存儲(chǔ)在經(jīng)驗(yàn)回放池中,以打破連續(xù)樣本之間的相關(guān)性,從而優(yōu)化學(xué)習(xí)。它使損失函數(shù)L的均方誤差最小化,以優(yōu)化critic,如式(7)所示。

    該方案利用策略梯度來(lái)改進(jìn)actor 網(wǎng)絡(luò)。由于值函數(shù)是經(jīng)基于不同行為策略的目標(biāo)策略所學(xué)習(xí)得到的,因此DDPG是一種新策略(off-policy)方法。

    2.2.2.異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)算法

    異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)算法(A2C/A3C)[48]沒(méi)有將經(jīng)驗(yàn)存儲(chǔ)在需要內(nèi)存的回放池中,而是讓本地線程與環(huán)境交互并異步更新至公共網(wǎng)絡(luò),這從本質(zhì)上增加了探索過(guò)程。

    與最小化基于Q函數(shù)的誤差不同,該方法會(huì)最小化critic 更新的優(yōu)勢(shì)函數(shù)(A或δ)的均方誤差,如等式(8)所示。

    在該方案中,公共網(wǎng)絡(luò)通過(guò)式(9)更新,此外,策略的熵則被用于actor 損失函數(shù)中的正則化以增加探索,如式(10)所示:

    式中,初始dθG=dωG=0。左箭頭(←)表示更新操作;αc和αa分別是critic 與actor 的學(xué)習(xí)率;?是關(guān)于其下標(biāo)的導(dǎo)數(shù);β是一個(gè)固定的熵項(xiàng),用于激勵(lì)探索。下標(biāo)L和G分別表示本地與公共網(wǎng)絡(luò)。多線程網(wǎng)絡(luò)(A3C)可以離線運(yùn)算,且該方案可被簡(jiǎn)化為單線程(A2C)在線運(yùn)行。盡管線程間相互獨(dú)立,但他們會(huì)根據(jù)公共網(wǎng)絡(luò)的行為策略來(lái)預(yù)測(cè)值函數(shù),這使得A3C成為一種既定策略(on-policy)的方法。該項(xiàng)目使用A3C算法來(lái)跟蹤界面。

    2.2.3.有經(jīng)驗(yàn)回放的actor-critic方法

    具有經(jīng)驗(yàn)回放的actor-critic(ACER)方法[112]利用Retrace 算法[113]解決了A3C 采樣低效問(wèn)題,該算法可估得式(11):

    式 中 , 截 斷 的 重 要 性 權(quán) 重ηˉt=min{c,ηt},ηt=[μ1(Ut|Xt)]/[μ2(Ut|Xt)],c是一個(gè)裁剪常數(shù),μ1和μ2分別是目標(biāo)和行為策略。此外,該方案利用隨機(jī)競(jìng)爭(zhēng)網(wǎng)絡(luò)架構(gòu)(stochastic dueling networks,以一致的方式估計(jì)V 和Q)和比先前方法更有效的信賴域策略優(yōu)化(TRPO)方法[114]。由于其Retrace算法,ACER是一種新策略(offpolicy)方法。

    2.2.4.近端策略優(yōu)化

    近端策略優(yōu)化(PPO)方法[115]通過(guò)裁剪替代目標(biāo)函數(shù)來(lái)改進(jìn)TRPO[114],如式(12)所示:

    式中,θ表示策略參數(shù)(即θold表示舊的策略參數(shù));r(θ) =[πθ(u|x)]/[πθold(u|x)]和ε表示裁剪常數(shù);A是表示智能體動(dòng)作好處的優(yōu)勢(shì)估計(jì),如式(8)所示。

    2.2.5.Kronecker因子化置信區(qū)間的actor-critic算法

    與使用梯度下降算法[6]來(lái)優(yōu)化不同,使用Kronecker因子化置信區(qū)間的actor-critic算法是通過(guò)利用二階優(yōu)化來(lái)提供更多信息。它通過(guò)使用Kronecker 因子近似值來(lái)逼近費(fèi)歇爾信息矩陣(FIM)的逆,以克服計(jì)算的復(fù)雜性,否則,該矩陣相對(duì)于近似的參數(shù)呈指數(shù)級(jí)縮放。此外,它還可以跟蹤費(fèi)歇爾統(tǒng)計(jì),從而得到更好的曲率估計(jì)。

    2.2.6.柔性actor-critic算法

    與使用策略熵?fù)p失正則化的方法不同[48,114?115,119],SAC(soft actor-critic,柔性actor-critic)算法[55,120]使用熵項(xiàng)[如式(13)所示]增加獎(jiǎng)勵(lì)函數(shù)以鼓勵(lì)探索。相關(guān)研究[120]報(bào)道可以將這種方法用于提高策略對(duì)模型錯(cuò)誤的魯棒性。

    式中,θ表示策略的參數(shù);α代表用戶自定義的(固定或時(shí)變)權(quán)重,用于調(diào)整熵的貢獻(xiàn);H=E[?lgπ(?)]。該方案同時(shí)依賴于Q和V函數(shù)來(lái)利用柔性策略迭代。與DDPG和ACER類(lèi)似,SAC將狀態(tài)轉(zhuǎn)移存儲(chǔ)在回放池中以解決采樣效率的問(wèn)題。除了增強(qiáng)探索外,熵最大化還可以補(bǔ)償由引入新策略方法而引起的穩(wěn)定性損失。

    2.2.7.雙延遲深度確定性策略梯度算法

    雙延遲深度確定性策略梯度算法(TD3)[121]解決了由于函數(shù)逼近(approximation)和自展(bootstrapping)(即在更新過(guò)程中使用估計(jì)值,而不是精確值)而導(dǎo)致的錯(cuò)誤傳播(propagation)(這在統(tǒng)計(jì)和控制中是一項(xiàng)非常重要的挑戰(zhàn))[122]。為了實(shí)現(xiàn)這一目標(biāo),該算法會(huì)預(yù)測(cè)兩個(gè)獨(dú)立的動(dòng)作值,并偏好悲觀值;因此,它避免了次優(yōu)策略。TD3利用目標(biāo)網(wǎng)絡(luò),延遲策略函數(shù)的更新,并從回放池中采樣N個(gè)狀態(tài)轉(zhuǎn)移來(lái)使用平均目標(biāo)值估計(jì),以減少學(xué)習(xí)過(guò)程中的方差。該算法向采樣動(dòng)作添加高斯噪聲,以此引入探索,并使用確定性策略梯度方法執(zhí)行策略更新[104]。

    盡管上述算法提供了控制問(wèn)題的一般解決方案,但它們可能仍然不能勝任某些更復(fù)雜或特定的任務(wù)。目前,研究者提出了許多其他的算法來(lái)彌補(bǔ)這些缺憾。例如,參考文獻(xiàn)[123]通過(guò)哈密頓-雅可比-貝爾曼(HJB)方程[39,124],將參考文獻(xiàn)[44]提出的離散的actor-critic 算法擴(kuò)展到連續(xù)時(shí)間和空間問(wèn)題中。隨后,該算法在一個(gè)約束動(dòng)作的鐘擺問(wèn)題和小車(chē)撐桿問(wèn)題(cart-pole swing up)中得到了測(cè)試。參考文獻(xiàn)[125]在有約束的MDP 上采用了actorcritic算法,并進(jìn)行了詳細(xì)的收斂性分析。參考文獻(xiàn)[46]展示了四種基于正則和自然梯度估計(jì)的增量actor-critic 算法。參考文獻(xiàn)[126]介紹了一種自然actor-critic算法(natu‐ral actor-critic,NAC),并展示了其在小車(chē)撐桿問(wèn)題(cartpole)以及棒球揮桿任務(wù)中的表現(xiàn)。參考文獻(xiàn)[127]通過(guò)反向HJB方程提出了一個(gè)連續(xù)時(shí)間actor-critic算法,并在兩個(gè)非線性仿真環(huán)境中測(cè)試了其收斂性。參考文獻(xiàn)[128]提出了一種適用于無(wú)限范圍(infinite horizon)、連續(xù)時(shí)間問(wèn)題和嚴(yán)格收斂性分析的在線actor-critic算法,并提供了線性與非線性模擬示例。參考文獻(xiàn)[129]提出了一種增量的在線新策略actor-critic 算法。該算法定性地分析了收斂性,并用實(shí)證結(jié)果予以支持。此外,該研究還將時(shí)間差分算法(TD)與梯度-TD方法進(jìn)行了比較,梯度-TD方法可以最大限度地減小預(yù)測(cè)的貝爾曼誤差[36]。參考文獻(xiàn)[130]提出了一種actor-critic標(biāo)識(shí)符,理論表明,它可以在系統(tǒng)動(dòng)力學(xué)未知的情況下逼近HJB方程。學(xué)習(xí)完成后,該方案會(huì)表現(xiàn)出過(guò)程穩(wěn)定性。然而,該方案需要輸入增益矩陣相關(guān)信息作為已知條件。參考文獻(xiàn)[131]使用名義控制器作為監(jiān)督者來(lái)指導(dǎo)actor,并在模擬巡航控制系統(tǒng)中實(shí)現(xiàn)更安全的控制。參考文獻(xiàn)[132]提出了在保持穩(wěn)定性的同時(shí),在沒(méi)有持續(xù)激勵(lì)條件的情況下,學(xué)習(xí)部分未知輸入約束系統(tǒng)的HJB方程的解。參考文獻(xiàn)[133]考慮李雅普諾夫(Ly‐apunov)理論,設(shè)計(jì)了一種容錯(cuò)的actor-critic 算法,并在范德波爾系統(tǒng)(Van der Pol system)中對(duì)其穩(wěn)定性進(jìn)行了測(cè)試。參考文獻(xiàn)[134]通過(guò)使用HJB 方程和二次成本函數(shù)來(lái)定義值函數(shù),提出了一個(gè)輸入有約束非線性跟蹤問(wèn)題。該方案可以通過(guò)actor-critic算法獲得近似值函數(shù)。參考文獻(xiàn)[135]結(jié)合分類(lèi)和時(shí)間序列預(yù)測(cè)技術(shù)來(lái)解決最優(yōu)控制問(wèn)題,并在模擬連續(xù)釜式反應(yīng)器(CSTR)和模擬非線性振蕩器中演示了該方法。參考文獻(xiàn)[136]提出了平均actorcritic(mean actor-critic)算法,該算法通過(guò)使用平滑Q函數(shù)來(lái)估計(jì)策略梯度,并用函數(shù)對(duì)動(dòng)作求平均以減少方差;其結(jié)果在雅達(dá)利(Atari)游戲中得到了驗(yàn)證。參考文獻(xiàn)[137]使用事件觸發(fā)的actor-critic方案來(lái)控制供暖、通風(fēng)和空調(diào)(HVAC)系統(tǒng)。除此之外,正如參考文獻(xiàn)[2,62,67,138,145]中所述,研究者最近還對(duì)不同的actor-critic 算法及其應(yīng)用進(jìn)行了研究。

    在強(qiáng)化學(xué)習(xí)(RL)中,已有研究提出了一些改進(jìn)值估計(jì)的方法[146,148],這些方法均可用于actor-critic 算法。此外,還有研究提出了不同的技術(shù)[112,149],以提高采樣效率(即減少學(xué)習(xí)最優(yōu)策略所需的數(shù)據(jù)量)。與利用經(jīng)驗(yàn)回放[70]或數(shù)據(jù)監(jiān)督學(xué)習(xí)[150]的技術(shù)不同,并行學(xué)習(xí)(parallel learning)利用多個(gè)隨機(jī)的初始化的線程(本地網(wǎng)絡(luò)),這些線程獨(dú)立地與環(huán)境的不同實(shí)例交互,以減少學(xué)習(xí)期間策略的差異。這些本地網(wǎng)絡(luò)擁有與公共網(wǎng)絡(luò)相同的基礎(chǔ)設(shè)施,其所采集的k個(gè)樣本將被用于公共網(wǎng)絡(luò)的參數(shù)更新。由于各線程間的軌跡彼此獨(dú)立,這將減少內(nèi)存的使用并提高探索能力。任務(wù)分配可以通過(guò)多臺(tái)機(jī)器[151]或一臺(tái)計(jì)算機(jī)的多個(gè)中央處理器(CPU)線程執(zhí)行[48]。

    最優(yōu)策略和最優(yōu)評(píng)論在每個(gè)過(guò)程中都不同,并且它們往往是先驗(yàn)未知的。若使用蒙特卡羅類(lèi)型的方法計(jì)算過(guò)程(或一個(gè)回合)結(jié)束時(shí)的經(jīng)驗(yàn)回報(bào)[見(jiàn)式(1)],其結(jié)果往往會(huì)冗余且嘈雜。與心理學(xué)中的巴甫洛夫條件反射[152]類(lèi)似,TD學(xué)習(xí)可以預(yù)測(cè)當(dāng)前狀態(tài)的值。與蒙特卡羅方法不同的是,它只在小范圍下進(jìn)行了低至一步的預(yù)測(cè)。這將無(wú)限范圍問(wèn)題轉(zhuǎn)換為有限范圍預(yù)測(cè)問(wèn)題。與計(jì)算預(yù)期回報(bào)[如式(2)]不同,我們可以使用TD 誤差δ的k步超前估計(jì)來(lái)更新critic 網(wǎng)絡(luò),如式(14)所示。這被稱為策略評(píng)估。

    式中,δ是離散采樣t瞬間狀態(tài)x的TD 誤差,給定本地網(wǎng)絡(luò)的critic 參數(shù)ωL,k表示范圍長(zhǎng)度。如果k接近無(wú)窮大,求和項(xiàng)收斂于式(1)中給出的經(jīng)驗(yàn)回報(bào)。與策略梯度算法[36]相比,基線V(xt|ωL)用于減少方差。

    在k個(gè)步驟結(jié)束時(shí),可以使用式(9)和式(10)更新公共網(wǎng)絡(luò)的參數(shù)(即θG和ωG)。

    3.將界面跟蹤制定為一個(gè)順序決策過(guò)程

    3.1.界面跟蹤

    模型是描述過(guò)程動(dòng)力學(xué)的數(shù)學(xué)方法,這些過(guò)程動(dòng)態(tài)可以發(fā)生在物理/化學(xué)/生物系統(tǒng)[153]或視頻[154]中。當(dāng)出現(xiàn)意外事件(如遮擋)時(shí),導(dǎo)出圖像的模型通常會(huì)出現(xiàn)不準(zhǔn)確的情況。為了克服這個(gè)問(wèn)題,通常將上次有效觀察的信息用于下一次觀察[4],或重建圖像[154]。盡管這些解決方案可能會(huì)在短時(shí)間內(nèi)替代實(shí)際測(cè)量,但長(zhǎng)時(shí)間暴露會(huì)降低閉環(huán)穩(wěn)定性。因此,如果FMI太低,泡沫層中的瀝青會(huì)流入尾礦。這會(huì)降低產(chǎn)品質(zhì)量并產(chǎn)生環(huán)境足跡。相反,如果其水平更接近提取點(diǎn),則被提取的泡沫中的固體顆粒會(huì)使下游操作復(fù)雜化[3]。由于FMI的偏差會(huì)影響下游過(guò)程,因此在最優(yōu)點(diǎn)調(diào)節(jié)FMI非常重要。

    RL 可以解決遮擋和過(guò)度噪聲期間的不準(zhǔn)確性。這可以通過(guò)將DP單元測(cè)量或來(lái)自任何其他可靠設(shè)備的測(cè)量與智能體的當(dāng)前FMI預(yù)測(cè)相結(jié)合來(lái)完成,以在訓(xùn)練階段提供獎(jiǎng)勵(lì)函數(shù)中所需的準(zhǔn)確成本,而無(wú)需外部標(biāo)簽,如邊界框。消除對(duì)此類(lèi)標(biāo)簽的依賴可以最大限度地減少人為誤差。為此,智能體可以在PSV 視鏡上方的垂直軸上移動(dòng)裁剪框,并將其中心與DP單元測(cè)量值進(jìn)行比較?;诖似?,智能體可以將框移動(dòng)到最優(yōu)位置,即框的中心與FMI的中心相匹配。這種偏差最小化反饋機(jī)制的靈感來(lái)自控制理論,它可以使用從實(shí)際過(guò)程中獲得的測(cè)量值來(lái)增強(qiáng)基于圖像的估計(jì)。

    考慮從視頻流中采樣的灰度圖像I?RH×W,具有任意寬度W、高度H,它可以捕獲整個(gè)PSV。考慮一個(gè)矩形裁剪框B?RN×M,具有任意寬度M、高度N,其中,{N:N=-1,>1 ?N},是矩形的中心。示例圖像和裁剪框如圖4(a)所示。這個(gè)矩形在將I裁剪成尺寸為N×M。為了完整起見(jiàn),H>N,W=M。此外,將在時(shí)間t從DP 單元獲得的界面測(cè)量值作為z。需要注意的是,DP單元僅用于RL 智能體的離線訓(xùn)練,并可以替換為其他界面測(cè)量傳感器,這在離線實(shí)驗(yàn)室環(huán)境中是準(zhǔn)確的。

    這一問(wèn)題的MDP組件可以定義如下:

    狀態(tài):矩形內(nèi)的像素,x?B?X?I。這些像素可以被看做N×M個(gè)獨(dú)立的傳感器。

    操作:將裁剪框的中心向上或向下移動(dòng)1個(gè)像素,或凍結(jié);u?U={-1,0,1}。

    獎(jiǎng)勵(lì):在每個(gè)時(shí)間步長(zhǎng)t,DP單元測(cè)量值與框中心位置(參考PSV底部)之間的差異見(jiàn)式(15)。

    ut和之間的關(guān)系見(jiàn)式(16)。

    圖4.使用相機(jī)獲得的幀(I)。(a)圖像尺寸(H×W)和裁剪框(N×W);(b)裁剪框的尺寸(N×M)和初始裁剪框位置;(c)一個(gè)比值為ρ的遮擋示例。

    式中,是一個(gè)任意的初始點(diǎn),求和項(xiàng)表示直到第t個(gè)時(shí)刻采取的動(dòng)作(ui=+1表示向上,ui=?1表示向下)。

    折扣因子:γ=0.99。

    該智能體的目標(biāo)是生成一系列操作,將裁剪框B覆蓋在PSV的垂直軸上,界面位于其中心。為了實(shí)現(xiàn)這一點(diǎn),智能體需要執(zhí)行長(zhǎng)期規(guī)劃并保留其動(dòng)作與從DP單元測(cè)量中獲得的信息之間的關(guān)聯(lián)。擬議方案的流程圖如圖5 所示。此外,圖6 和表2 詳細(xì)展示了網(wǎng)絡(luò)。關(guān)于ConvLSTM層的更多細(xì)節(jié),請(qǐng)參見(jiàn)參考文獻(xiàn)[27]。

    表2 全球網(wǎng)絡(luò)的結(jié)構(gòu)(與工作器的結(jié)構(gòu)相同)

    與之前在狀態(tài)空間中進(jìn)行預(yù)測(cè)的工作[4?5]不同,這種方法通過(guò)分別使用式(9)、式(10)和式(14)來(lái)優(yōu)化值和策略空間。此外,CNN 和ConvLSTM 層通過(guò)使用式(17)進(jìn)行更新。

    式中,Ψ=[ψCNN,ψConvLSTM]表示CNN 和ConvLSTM 層的參數(shù)。該方案僅使用TD 誤差對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練。在不同點(diǎn)[圖4(b)]初始化的多個(gè)工作器[48]可用于改進(jìn)探索,從而提高泛化能力。

    在找到次優(yōu)策略后,智能體保證在有限的時(shí)間步k內(nèi)找到界面,這與初始點(diǎn)無(wú)關(guān),如引理3.1所示。

    圖5.本文提出的學(xué)習(xí)過(guò)程的流程圖。更新機(jī)制如式(9)和式(10)所示,其k步策略評(píng)估如式(14)所示。

    圖6.CNN、ConvLSTM、actor和critic網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)。

    引理3.1:在任何時(shí)刻t,對(duì)于一個(gè)常數(shù)zt,同時(shí)P=如k→N,對(duì)于(k≤N<|X|?∞)^(?z0,zt?Z≡|X|)。

    證明.假設(shè)并且次優(yōu)參數(shù)θ*和ω*是使用連續(xù)策略函數(shù)π(?|θ*)上的迭代隨機(jī)梯度下降獲得的。V(?|ω*)是Lipschitz 連續(xù)critic 網(wǎng)絡(luò),由ω參數(shù)化,并估計(jì)給定狀態(tài)的策略π(?)的值。

    這可以被擴(kuò)展到變量zt?Z。

    3.2.通過(guò)訓(xùn)練對(duì)遮擋的魯棒性

    CNN 通過(guò)考慮像素的連通性來(lái)解釋空間信息,這在一定程度上提高了魯棒性。但是,它并不能保證對(duì)遮擋的魯棒性,即使在正常條件下獲得了好的策略,智能體也可能會(huì)失敗。為了克服這個(gè)問(wèn)題,可以在訓(xùn)練階段使用合成遮擋的圖像來(lái)訓(xùn)練智能體。另一種方法是使用遮擋圖像重新校準(zhǔn)策略(使用無(wú)遮擋圖像進(jìn)行訓(xùn)練)。

    具有任意像素強(qiáng)度κ?[0,255]的遮擋物體Ω可以定義為{Ω:Ω?RH×(N×ρ)},其中E[Ω]=κ。ρ?[0,100%]表示遮擋的比率,如圖4(c)所示。如果ρ=1,則智能體僅觀察該視頻幀中的遮擋(即,如果ρ=100%,則xt=Ω)。通過(guò)定義其尺寸后,可以從任意概率分布(即連續(xù)或離散,如高斯、均勻、泊松)中采樣遮擋率。在訓(xùn)練過(guò)程中,可以任意調(diào)整出現(xiàn)遮擋的實(shí)例的持續(xù)時(shí)間。這些可以是隨機(jī)或確定的。即,遮擋可以在隨機(jī)(或特定)時(shí)間出現(xiàn),并持續(xù)一段隨機(jī)(或特定)時(shí)間。如果使用多個(gè)工作器(如第2.2節(jié)所述),則可能會(huì)在不同時(shí)間實(shí)例中為每個(gè)工作器引入不同的遮擋率。因?yàn)橹悄荏w不需要等待很長(zhǎng)時(shí)間來(lái)觀察不同類(lèi)型的遮擋,所以這提高了訓(xùn)練數(shù)據(jù)的多樣性,并且使得處理時(shí)間更加高效。

    4.結(jié)果和討論

    4.1.實(shí)驗(yàn)裝置

    模擬工業(yè)PSV 的實(shí)驗(yàn)室規(guī)模設(shè)置用于提出的方案。這種設(shè)置允許使用泵將界面移動(dòng)到所需的水平,如圖7所示。兩個(gè)DP單元用于根據(jù)液體密度測(cè)量界面水平,如參考文獻(xiàn)[5]中所述。

    圖7.實(shí)驗(yàn)裝置。

    使用D-Link DCS-8525LH相機(jī)以每秒15幀(FPS)的速度獲取圖像。從15FPS的鏡頭中,可以獲得每秒的代表性圖像。因此,通過(guò)必要的下采樣獲得了來(lái)自連續(xù)80 s的80 張圖像。這些圖像經(jīng)過(guò)處理以展示PSV 部分,沒(méi)有不必要的背景。然后將它們轉(zhuǎn)換為灰度圖像。DP 單元相對(duì)于進(jìn)水處的FMI高度測(cè)量值(與圖像相同的連續(xù)時(shí)間段)可以轉(zhuǎn)換為像素位置,如參考文獻(xiàn)[4]所示。執(zhí)行每個(gè)動(dòng)作后,視頻幀會(huì)發(fā)生變化。智能體采取的每一個(gè)動(dòng)作都會(huì)產(chǎn)生一個(gè)標(biāo)量獎(jiǎng)勵(lì)[式(15)],之后用于計(jì)算訓(xùn)練智能體參數(shù)[式(9)和式(10)]時(shí)使用的TD誤差[式(14)]。

    4.2.實(shí)施細(xì)節(jié)

    4.2.1.軟件和網(wǎng)絡(luò)詳細(xì)信息

    訓(xùn)練和測(cè)試階段均使用Intel Core i7-7500U CPU,工作頻率為2.90 GHz(兩核四線程),8 GB 的RAM,工作頻 率為2133 MHz,配 有Tensorflow 1.15.0 的64 位Win‐dows系統(tǒng)。與更深層次的網(wǎng)絡(luò)(如參考文獻(xiàn)[32]中包含數(shù)千萬(wàn)個(gè)參數(shù)的網(wǎng)絡(luò))不同,該智能體包含的參數(shù)較少,如表2 所示。這可以防止過(guò)度參數(shù)化,并顯著減少計(jì)算時(shí)間,但其缺點(diǎn)是無(wú)法提取更高層次的特征[155]。

    執(zhí)行每個(gè)操作后,裁剪框的尺寸將調(diào)整為84像素×84像素。之后使用學(xué)習(xí)速率為0.0001的Adam優(yōu)化器,以基于樣本的方式對(duì)智能體的參數(shù)進(jìn)行優(yōu)化(包括CNN、CONVLSM、actor和critic)。相關(guān)研究顯示這種基于動(dòng)量的隨機(jī)優(yōu)化方法計(jì)算效率很高[156]。

    4.2.2.無(wú)遮擋訓(xùn)練

    實(shí)驗(yàn)中使用了A3C 算法以減少訓(xùn)練時(shí)間,提高探索度,并在學(xué)習(xí)過(guò)程中收斂到次優(yōu)策略[48]。所有初始網(wǎng)絡(luò)參數(shù)都是從均值和單位方差為零的高斯分布中隨機(jī)抽樣獲得的。如圖8所示,通過(guò)手動(dòng)排序80幅圖像創(chuàng)建界面級(jí)連續(xù)軌跡后,進(jìn)行離線訓(xùn)練。

    圖8.訓(xùn)練結(jié)束時(shí)的訓(xùn)練結(jié)果(2650回合)和FT(3380回合)。BFT:微調(diào)前;AFT:微調(diào)后。

    然后,在470 步,共2650 回合(episode,一回合包含470 步)中,向智能體重復(fù)顯示這一軌跡。無(wú)論何時(shí),智能體都只觀察裁剪框內(nèi)的像素。每個(gè)智能體的裁剪框在四個(gè)不同的位置初始化,如圖4(b)所示。智能體的目標(biāo)是在最大速度為每步1像素的情況下,使裁剪框中心相對(duì)于DP單元測(cè)量值的偏差最小化。該智能體在訓(xùn)練階段沒(méi)有被遮擋,能夠?yàn)? 個(gè)線程處理20 幀?s?1圖片(即計(jì)算執(zhí)行時(shí)間)。

    4.2.3.無(wú)遮擋微調(diào)

    在沒(méi)有遮擋的情況下,利用訓(xùn)練結(jié)束時(shí)獲得的參數(shù)初始化全局網(wǎng)絡(luò)參數(shù)。本地網(wǎng)絡(luò)最初與全球網(wǎng)絡(luò)共享相同的參數(shù)。所有訓(xùn)練超參數(shù)(如學(xué)習(xí)率、界面軌跡)保持不變。前一個(gè)訓(xùn)練階段使用的圖像被遮擋,其比率ρ從泊松分布中采樣獲得,如式(18)所示。分布情況Pois(x,λ)的計(jì)算如式(19)所示。

    每回合開(kāi)始時(shí),式(18)限定ρ的范圍處于0~80%(ρmax)之間。形狀因子可任意定義為λ=1。在每一回合中,遮擋發(fā)生在第200步到接下來(lái)的200步之間,概率為1。微調(diào)(FT)的目的是確保智能體對(duì)遮擋具有魯棒性。該智能體與四個(gè)線程接受了730回合任意的訓(xùn)練,直到情景累積獎(jiǎng)勵(lì)得到改善。

    4.2.4.界面跟蹤測(cè)試

    對(duì)于一個(gè)1000 步的回合,使用一個(gè)不連續(xù)的軌跡測(cè)試該智能體,該軌跡包含以前未看到過(guò)的圖像,這些圖像通常沒(méi)有噪聲或充滿高斯噪聲,ν?RH×W~N(0,1),如表3所示,測(cè)試以三種方式進(jìn)行。這些圖像也使用合成遮擋,其恒定強(qiáng)度被任意選擇為圖像的平均值(即κ=128),而遮擋率ρ在20%~80%之間線性變化。4.2.5.特征分析

    表3 基于圖像身份的噪聲圖像定義

    為了說(shuō)明該網(wǎng)絡(luò)的有效性,本實(shí)驗(yàn)從PSV 的頂部到底部手動(dòng)裁剪了以前未看到的PSV 圖像。這些手動(dòng)裁剪的圖像在訓(xùn)練前通過(guò)CNN逐一傳遞,CNN按照第4.2.2節(jié)所述的方式進(jìn)行訓(xùn)練,同時(shí)按照第4.2.3 節(jié)所討論的進(jìn)行微調(diào),以提取圖像特征。然后將這些空間特征?s收集到一個(gè)尺寸為9 × 9 × 32 × 440 的緩沖區(qū)中,并使用UMAP[99]從中獲得降維(2×440)特征。這些低維特征將在第4.6節(jié)中進(jìn)行概述。

    4.3.訓(xùn)練

    最佳策略是在訓(xùn)練和FT 結(jié)束后獲得的,此時(shí)連續(xù)500 回合的累積獎(jiǎng)勵(lì)沒(méi)有得到改善。圖8 顯示了使用這些策略留下的軌跡。裁剪框的位置被初始化,其中心位于PSV 最大高度的60%處。在該階段結(jié)束時(shí),智能體跟蹤界面的偏移量可以忽略不計(jì)。圖9(a)中顯示了從第80步獲得的示例。綠色星形表示智能體認(rèn)為界面在當(dāng)前幀所處的位置。

    圖9.(a)第80幀的訓(xùn)練結(jié)果;(b)在第950步,80%遮擋和過(guò)度噪聲的情況下進(jìn)行AFT后的測(cè)試結(jié)果。白色框表示智能體控制的裁剪框,星形代表裁剪框的中心,圓形表示精確的界面水平,五邊形是看似FMI的遮擋的底部。.

    4.4.重新校準(zhǔn)微調(diào)解決遮擋問(wèn)題

    如表4 所示,F(xiàn)T 將逐層的平均誤差(MAE)降低了0.51%,提高了智能體的整體性能,包括無(wú)遮擋圖像。這表明智能體不需要丟棄前置條件就能適應(yīng)新的環(huán)境條件。這是因?yàn)閺慕鼉?yōu)點(diǎn)出發(fā),改進(jìn)了智能體的估值能力和策略。需要注意的是,平均誤差的最小值受裁剪框初始位置的限制,如圖8所示。

    表4 訓(xùn)練和FT結(jié)束階段逐像素和逐層的平均誤差

    圖10 以實(shí)線和點(diǎn)線分別表示了訓(xùn)練過(guò)程中和微調(diào)后(AFT)的累積獎(jiǎng)勵(lì)。

    需要注意的是,F(xiàn)T期間的初始下降是由遮擋導(dǎo)致的,因?yàn)橹悄荏w在發(fā)生遮擋時(shí)無(wú)法跟蹤到界面層。這個(gè)新特征是通過(guò)400 回合內(nèi)閉環(huán)獎(jiǎng)勵(lì)機(jī)制學(xué)習(xí)得到。FT 結(jié)束時(shí)得到的最終累積獎(jiǎng)勵(lì)與訓(xùn)練結(jié)束時(shí)獲得的基本相同。這是因?yàn)槔鄯e獎(jiǎng)勵(lì)僅表示訓(xùn)練階段的跟蹤性能,它取決于裁剪框的初始位置,如圖8 所示。只有當(dāng)框的中心和DP 單元測(cè)量在初始回合完全重疊,并且在此期間智能體無(wú)偏差地跟蹤界面時(shí),該值為零。如第4.5節(jié)所述,當(dāng)智能體暴露在不可見(jiàn)的環(huán)境條件中時(shí),例如,過(guò)度噪聲和過(guò)度遮擋的情況,F(xiàn)T的必要性更為明顯。

    圖10.累積獎(jiǎng)勵(lì)。圖中顯示了智能體可以學(xué)習(xí)遮蓋理論并成功跟蹤界面。

    4.5.檢測(cè)

    4.5.1.微調(diào)前階段

    在初始訓(xùn)練結(jié)束階段(即第2650 個(gè)回合,如圖10 所示)進(jìn)行初始前微調(diào)(BFT)測(cè)試。需要注意的是,測(cè)試階段(在線應(yīng)用)沒(méi)用采用DP 單元信息,并且RL 智能體獨(dú)立運(yùn)行。事實(shí)上,即使DP單元可以使用,它在現(xiàn)場(chǎng)應(yīng)用環(huán)境下也無(wú)法準(zhǔn)確運(yùn)用。圖11 顯示,微調(diào)前,智能體對(duì)50%的遮擋和附加噪聲具有魯棒性。這極大改進(jìn)了現(xiàn)有方案未能解決的遮擋問(wèn)題。改進(jìn)方案的原理是,卷積消除了干擾并提高了智能體的整體性能,神經(jīng)網(wǎng)絡(luò)在空間域和時(shí)間域中提取了比邊緣和直方圖信息更多的抽象特征[157]。另外,任何增加遮擋率的操作行為都會(huì)導(dǎo)致跟蹤界面失敗。由于遮擋的強(qiáng)度較輕,策略會(huì)傾向于移向PSV的底部(此處存在大量較高強(qiáng)度的像素)以尋找界面。

    圖11.展示了檢測(cè)結(jié)果,ρ 代表遮擋率(例如,ρ=0.8 表示圖像被遮蓋了80%)。

    4.5.2.微調(diào)后階段

    在AFT 階段中,重新校準(zhǔn)作用于遮擋問(wèn)題的智能體后,其性能得到顯著提高,如圖11 所示,智能體跟蹤界面的準(zhǔn)確率有所提高。當(dāng)連續(xù)幀之間的界面偏移量約為5%時(shí),附加的噪聲會(huì)降低智能體的性能。然而,當(dāng)界面偏移量減少到2.5%時(shí),智能體可以成功運(yùn)行,如圖11所示。這是因?yàn)檫^(guò)多的噪聲會(huì)嚴(yán)重破壞圖像,導(dǎo)致智能體無(wú)法定位界面。在第950 幀處獲得的示例幀如圖9(b)所示。需要注意的是,80%的遮擋率附帶著噪聲,這給跟蹤帶來(lái)了挑戰(zhàn)。智能體從圖像中提取的有用信息量顯著減少,此時(shí)圖像中只剩下20%的像素可用于定位界面。這種性能歸功于CNN 和ConvLSTM 的組合。如圖12 所示,從隨機(jī)網(wǎng)絡(luò)(實(shí)線)、訓(xùn)練后(虛線)和AFT(點(diǎn))獲得的參數(shù)顯示了智能體對(duì)從不可見(jiàn)畫(huà)面中獲得的狀態(tài)的值(critic 預(yù)測(cè))。根據(jù)式(2),這個(gè)圖像定義了一個(gè)狀態(tài)的值,它假設(shè)策略會(huì)生成到達(dá)界面層的最佳軌跡。

    圖12.值函數(shù)的測(cè)試結(jié)果與界面偏差的關(guān)系圖。

    圖12 顯示,在訓(xùn)練開(kāi)始之前,任何狀態(tài)的預(yù)測(cè)值都是相似的。但是,在訓(xùn)練階段,智能體不安于處于劣勢(shì)狀態(tài)中,并且DP單元讀數(shù)強(qiáng)調(diào)將裁剪框向界面移近(即垂直實(shí)線)得到的值比遠(yuǎn)離界面得到的值更優(yōu)。在FT 結(jié)束階段,隨著數(shù)據(jù)的增加,智能體進(jìn)一步改進(jìn)自身的參數(shù)和行為,移動(dòng)裁剪框,因此提高了準(zhǔn)確度。結(jié)果表明,智能體嘗試通過(guò)不斷變化的值來(lái)改進(jìn)其行為。需要注意的是,在偏差值為200后,AFT階段的增加對(duì)應(yīng)于圖9中的黃色五邊形。黃色五邊形的外形與界面相似,并增大了值函數(shù),但是從這個(gè)部分獲取的值比界面的值低,這表明智能體靠近星星時(shí)比靠近五邊形時(shí)更可信。

    4.6.理解網(wǎng)絡(luò):特征分析

    訓(xùn)練和測(cè)試結(jié)果集中于智能體學(xué)習(xí)和控制能力的進(jìn)步。單憑這些可能不足以解釋在以圖像形式觀察到的情況下,智能體的決定是否有意義。

    圖13 顯示了二維圖的降維結(jié)果,顏色的漸變強(qiáng)度表示對(duì)應(yīng)裁剪圖像(在第4.2.5 節(jié)中獲得)的值。曲線(從左到右)對(duì)應(yīng)于PSV 箱側(cè)玻璃從上到下的裁剪圖像,如第4.2.5節(jié)所述。

    圖13(a)~(c)中的有色五邊形對(duì)應(yīng)圖13(d)中的三個(gè)點(diǎn)。結(jié)果表明,訓(xùn)練前從網(wǎng)絡(luò)中得到的特征在沒(méi)有特殊安排的情況下是相似的。然而,隨著訓(xùn)練的推進(jìn),具有相似值的特征越來(lái)越接近。結(jié)合圖12、圖13可以推斷,在RL 方法的幫助下,CNN 在未標(biāo)記數(shù)據(jù)的無(wú)模型環(huán)境中,也能以有意義的方式提取特征,因?yàn)樵诓捎肅NNConvLSTM組合模型時(shí),每個(gè)裁剪圖像的紋理和像素強(qiáng)度模式可以成功轉(zhuǎn)換為值和策略函數(shù)。此外,從DP單元獲得的獎(jiǎng)勵(lì)信號(hào)(用作反饋機(jī)制)訓(xùn)練了智能體的行為。

    圖13.降維方法被應(yīng)用于從不可見(jiàn)圖像中獲得的狀態(tài)特征中。這些特征的來(lái)源于隨機(jī)(a)、訓(xùn)練(b)和微調(diào)(c)網(wǎng)絡(luò)獲得的參數(shù)。根據(jù)相應(yīng)的值對(duì)數(shù)據(jù)點(diǎn)著色。(d)三個(gè)區(qū)域?qū)?yīng)于箱體頂部和底部,并在不可見(jiàn)的圖像上突出標(biāo)記FMI。智能體訓(xùn)練過(guò)程中,從相似區(qū)域提取的特征在黎曼空間中聚集得更為緊密。

    5.結(jié)論

    本文全面回顧了actor-critic算法,并提出了一種新穎的RL方案。該方案把控制層次的設(shè)備層作為目標(biāo),提高了整個(gè)結(jié)構(gòu)的性能。為此,本文把界面跟蹤制定為一個(gè)需要長(zhǎng)期規(guī)劃的順序決策過(guò)程。智能體由CNN和ConvLSTM共同組合而成,不需要任何形狀或運(yùn)動(dòng)模型,因此對(duì)過(guò)程中的不確定性更具魯棒性。受控制理論中使用的反饋機(jī)制的啟發(fā),智能體采用DP單元的讀數(shù)來(lái)改進(jìn)其行為。該方法不再依賴于SL 方案所需的顯式標(biāo)簽。在使用遮擋和噪聲下未經(jīng)訓(xùn)練的圖像進(jìn)行驗(yàn)證時(shí),智能體的性能表明,它可以在低于80%的遮擋和過(guò)度噪聲的情況下實(shí)現(xiàn)對(duì)界面的跟蹤。本文通過(guò)對(duì)高維特征的分析,驗(yàn)證了智能體對(duì)其觀測(cè)值的概括能力。

    6.未來(lái)研究

    本文成功采用一種最先進(jìn)的RL技術(shù)演示了跟蹤液體界面的過(guò)程。本文利用由深度CNN 結(jié)構(gòu)組成的智能體處理遮擋問(wèn)題,并采用FT 策略提高了容限,這展示了該技術(shù)的自適應(yīng)性。此外,本文認(rèn)為能夠重建遮擋圖像的智能體可能是未來(lái)可行的替代方法。

    Acknowledgements

    The authors thank Dr.Fadi Ibrahim for his help in the laboratory to initiate this research and Dr.Artin Afacan for the lab-scale PSV setup.The authors also acknowledge the Natural Sciences Engineering Research Council of Canada(NSERC), and its Industrial Research Chair (IRC) Program for financial support.

    Compliance with ethics guidelines

    Oguzhan Dogru, Kirubakaran Velswamy, and Biao Huang declare that they have no conflict of interest or fi‐nancial conflicts to disclose.

    Nomenclature

    Abbreviations

    A2C advantage actor-critic

    A3C asynchronous advantage actor-critic

    ACER actor-critic with experience replay

    ACKTR actor-critic using Kronecker-factored trust re gion

    AFT after fine-tuning

    BFT before fine-tuning

    CNN convolutional neural network

    ConvLSTM convolutional long short-term memory

    CSTR continuous stirred-tank reactor

    DDPG deep deterministic policy gradient

    DP differential pressure

    FIM Fisher information matrix

    FMI froth-middlings interface

    FPS frames per second

    FT fine-tuning

    GAN generative adversarial network

    HJB Hamiltonian-Jacobi-Bellman

    HVAC heating,ventilation,air conditioning

    LSTM long short-term memory

    MAE mean average error

    MDP Markov decision process

    NAC natural actor-critic

    PPO proximal policy optimization

    PSV primary separation vessel

    RL reinforcement learning

    RNN recurrent neural network

    SAC soft actor-critic

    SL supervised learning

    TD temporal difference

    TD3 twindelayeddeepdeterministicpolicygradient

    TRPO trust region policy optimization

    t-SNEt-distributed stochastic neighbor embedding

    UL unsupervised learning

    UMAP uniformmanifoldapproximationandprojection

    Symbols

    E[ ? ]expectation

    ?s(?) spatial features

    ?t(?) temporal features

    δtemporal difference error

    σ0distribution of initial states

    νgaussian noise with zero mean unit variance

    (?)*optimum value for the variable,e.g.,q*

    ln(?) natural logarithm

    R,Gempirical reward,return

    q,r,vexpected action-value,reward,state-value

    x,x'∈XStates ∈State space

    u∈UActions ∈Action space

    π(?) policy of the agent,also known as the actor

    δ(xt|ωL)temporal difference error

    V(?) estimate of state-value,also known as the critic

    Q(?) estimate of action-value,also known as the critic

    Ω occlusion

    Parameters

    αa,αclearning rates for the actor and critic:0.0001

    γdiscount factor:0.99

    κintensity of occlusion:128/256

    λshape parameter of a Poisson distribution:1

    ρocclusion ratio:%

    ζmagnitude of noise:0.2

    猜你喜歡
    參考文獻(xiàn)界面函數(shù)
    二次函數(shù)
    第3講 “函數(shù)”復(fù)習(xí)精講
    二次函數(shù)
    函數(shù)備考精講
    國(guó)企黨委前置研究的“四個(gè)界面”
    The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
    基于FANUC PICTURE的虛擬軸坐標(biāo)顯示界面開(kāi)發(fā)方法研究
    Study on the physiological function and application of γ—aminobutyric acid and its receptors
    東方教育(2016年4期)2016-12-14 13:52:48
    人機(jī)交互界面發(fā)展趨勢(shì)研究
    手機(jī)界面中圖形符號(hào)的發(fā)展趨向
    新聞傳播(2015年11期)2015-07-18 11:15:04
    香蕉av资源在线| 99热6这里只有精品| 99热6这里只有精品| 怎么达到女性高潮| 亚洲欧洲精品一区二区精品久久久| 一级毛片精品| 白带黄色成豆腐渣| 欧美av亚洲av综合av国产av| 国产一区二区三区在线臀色熟女| tocl精华| 麻豆成人午夜福利视频| 嫩草影院入口| 国产毛片a区久久久久| 成人国产综合亚洲| 一级毛片女人18水好多| 国产成人一区二区三区免费视频网站| 国产精品 国内视频| 国产精品久久久久久人妻精品电影| 久久中文字幕人妻熟女| 欧美性猛交╳xxx乱大交人| 黄频高清免费视频| 免费看十八禁软件| 三级毛片av免费| 99在线视频只有这里精品首页| 成人无遮挡网站| 成人无遮挡网站| 欧美成人性av电影在线观看| 国产一区二区在线av高清观看| 亚洲精品国产精品久久久不卡| 99热只有精品国产| 男人舔奶头视频| 日韩欧美国产一区二区入口| 免费av不卡在线播放| 亚洲av成人一区二区三| 国产aⅴ精品一区二区三区波| 99久国产av精品| 精品熟女少妇八av免费久了| 一卡2卡三卡四卡精品乱码亚洲| 99久国产av精品| svipshipincom国产片| 精品久久久久久久久久免费视频| 人人妻人人看人人澡| 日韩精品中文字幕看吧| 免费无遮挡裸体视频| 国产免费男女视频| 日日摸夜夜添夜夜添小说| 又爽又黄无遮挡网站| 亚洲人成电影免费在线| 性欧美人与动物交配| 99在线视频只有这里精品首页| 最近最新免费中文字幕在线| 久久久久久国产a免费观看| 国产精品av久久久久免费| 中亚洲国语对白在线视频| 男女视频在线观看网站免费| 综合色av麻豆| 床上黄色一级片| 免费看美女性在线毛片视频| 九九热线精品视视频播放| 人人妻人人澡欧美一区二区| 国产人伦9x9x在线观看| 99久久国产精品久久久| 在线永久观看黄色视频| 中出人妻视频一区二区| 狂野欧美白嫩少妇大欣赏| 日韩av在线大香蕉| 亚洲精华国产精华精| 久久久精品欧美日韩精品| 天堂动漫精品| 在线观看一区二区三区| 美女黄网站色视频| 午夜免费观看网址| 男女做爰动态图高潮gif福利片| 9191精品国产免费久久| 亚洲欧美激情综合另类| 18禁黄网站禁片午夜丰满| 欧美日韩福利视频一区二区| 在线观看日韩欧美| 欧美xxxx黑人xx丫x性爽| 18禁裸乳无遮挡免费网站照片| 午夜精品在线福利| 亚洲精品美女久久av网站| АⅤ资源中文在线天堂| a级毛片a级免费在线| 久久久久久国产a免费观看| 国产一区二区三区在线臀色熟女| 久久久国产精品麻豆| 99国产综合亚洲精品| 天堂√8在线中文| 中文字幕人成人乱码亚洲影| 精品国产三级普通话版| 国产免费av片在线观看野外av| 久久精品夜夜夜夜夜久久蜜豆| 久久中文看片网| 国产一区二区激情短视频| 国产精品av久久久久免费| 欧美乱妇无乱码| aaaaa片日本免费| 日韩欧美在线二视频| 亚洲 欧美一区二区三区| 亚洲电影在线观看av| 亚洲熟妇中文字幕五十中出| 99久久精品国产亚洲精品| 特级一级黄色大片| 久久久成人免费电影| 欧美成狂野欧美在线观看| 国产av麻豆久久久久久久| 好男人电影高清在线观看| 露出奶头的视频| 好男人在线观看高清免费视频| 亚洲av中文字字幕乱码综合| 亚洲精品在线观看二区| 亚洲九九香蕉| 欧美中文综合在线视频| 三级国产精品欧美在线观看 | 国产成人欧美在线观看| 岛国在线观看网站| 国产精品久久久久久精品电影| 在线观看午夜福利视频| 脱女人内裤的视频| 美女免费视频网站| 亚洲精品久久国产高清桃花| 欧美成人免费av一区二区三区| 欧洲精品卡2卡3卡4卡5卡区| 亚洲熟妇中文字幕五十中出| 国产高清有码在线观看视频| 桃红色精品国产亚洲av| 黄色片一级片一级黄色片| 精品国内亚洲2022精品成人| 精品福利观看| 国产精品久久久久久亚洲av鲁大| 国产精品久久久久久精品电影| 久久精品影院6| cao死你这个sao货| 好男人在线观看高清免费视频| 精品午夜福利视频在线观看一区| 两个人看的免费小视频| 变态另类成人亚洲欧美熟女| 国产精品香港三级国产av潘金莲| 久久久久九九精品影院| 脱女人内裤的视频| 最新中文字幕久久久久 | 日韩欧美在线二视频| 欧美精品啪啪一区二区三区| 宅男免费午夜| 97超级碰碰碰精品色视频在线观看| 免费在线观看成人毛片| 欧美日韩精品网址| 国产三级黄色录像| 两人在一起打扑克的视频| 久久久久国产精品人妻aⅴ院| 午夜a级毛片| 欧美xxxx黑人xx丫x性爽| 免费在线观看日本一区| 波多野结衣高清无吗| 国产精品,欧美在线| 岛国在线观看网站| 免费在线观看日本一区| 欧美日韩瑟瑟在线播放| 精品一区二区三区视频在线观看免费| 99久久精品热视频| 免费看美女性在线毛片视频| 在线免费观看不下载黄p国产 | 女人被狂操c到高潮| 国产亚洲欧美98| 午夜精品久久久久久毛片777| 最新在线观看一区二区三区| 操出白浆在线播放| 国产一级毛片七仙女欲春2| 国产男靠女视频免费网站| 村上凉子中文字幕在线| 999久久久国产精品视频| 日韩欧美国产一区二区入口| 久久久国产欧美日韩av| 亚洲精品美女久久久久99蜜臀| 成在线人永久免费视频| 禁无遮挡网站| 熟女少妇亚洲综合色aaa.| 黄色日韩在线| 欧美一区二区国产精品久久精品| 丰满人妻熟妇乱又伦精品不卡| 亚洲中文字幕日韩| 亚洲av日韩精品久久久久久密| 日本撒尿小便嘘嘘汇集6| 韩国av一区二区三区四区| 久久人人精品亚洲av| 听说在线观看完整版免费高清| 日本黄色片子视频| 欧美日韩综合久久久久久 | 色综合亚洲欧美另类图片| 麻豆国产av国片精品| 色综合婷婷激情| 一区二区三区激情视频| 亚洲av日韩精品久久久久久密| 国产成人一区二区三区免费视频网站| 亚洲自偷自拍图片 自拍| 国产精品香港三级国产av潘金莲| 这个男人来自地球电影免费观看| 淫妇啪啪啪对白视频| 欧美日韩综合久久久久久 | 88av欧美| 麻豆成人午夜福利视频| 久久久久国产精品人妻aⅴ院| 草草在线视频免费看| 午夜福利视频1000在线观看| 亚洲自偷自拍图片 自拍| 亚洲av免费在线观看| e午夜精品久久久久久久| 亚洲熟女毛片儿| 国产精品av久久久久免费| 欧美大码av| av天堂在线播放| a在线观看视频网站| 脱女人内裤的视频| 18禁国产床啪视频网站| 色综合欧美亚洲国产小说| 免费在线观看影片大全网站| 国产黄色小视频在线观看| 91老司机精品| 在线永久观看黄色视频| xxxwww97欧美| 国产视频一区二区在线看| 我要搜黄色片| 亚洲人成网站高清观看| 我的老师免费观看完整版| www日本黄色视频网| 久久久久久久午夜电影| 免费人成视频x8x8入口观看| 免费搜索国产男女视频| 中文字幕精品亚洲无线码一区| 怎么达到女性高潮| 一二三四在线观看免费中文在| 久久久成人免费电影| 十八禁人妻一区二区| 国产aⅴ精品一区二区三区波| 一个人看的www免费观看视频| 国产精品免费一区二区三区在线| 在线免费观看不下载黄p国产 | 精品一区二区三区视频在线 | 热99在线观看视频| xxxwww97欧美| 国内少妇人妻偷人精品xxx网站 | ponron亚洲| 香蕉丝袜av| 亚洲欧美日韩高清在线视频| 色在线成人网| 亚洲国产色片| 久久香蕉精品热| 亚洲18禁久久av| 男女视频在线观看网站免费| 欧美黄色片欧美黄色片| 日日干狠狠操夜夜爽| 琪琪午夜伦伦电影理论片6080| 别揉我奶头~嗯~啊~动态视频| 精品久久久久久久人妻蜜臀av| 亚洲真实伦在线观看| 久久中文字幕人妻熟女| 亚洲成av人片免费观看| 夜夜躁狠狠躁天天躁| 欧美乱色亚洲激情| 色哟哟哟哟哟哟| 91字幕亚洲| 我要搜黄色片| 国产aⅴ精品一区二区三区波| 身体一侧抽搐| 日日干狠狠操夜夜爽| 两个人看的免费小视频| 国产一区在线观看成人免费| x7x7x7水蜜桃| 日本成人三级电影网站| 亚洲欧美一区二区三区黑人| 韩国av一区二区三区四区| 精品国产三级普通话版| www国产在线视频色| 人妻夜夜爽99麻豆av| 久久亚洲真实| 成人精品一区二区免费| 宅男免费午夜| 亚洲欧美激情综合另类| 欧美日韩国产亚洲二区| 婷婷丁香在线五月| 色综合欧美亚洲国产小说| 久久久久国产精品人妻aⅴ院| 老熟妇仑乱视频hdxx| 深夜精品福利| 黄色片一级片一级黄色片| 无限看片的www在线观看| 国产三级在线视频| 久久久精品欧美日韩精品| 国产av一区在线观看免费| 日本与韩国留学比较| 成人性生交大片免费视频hd| 亚洲一区二区三区色噜噜| 91久久精品国产一区二区成人 | 国产精品一区二区免费欧美| 男人舔女人下体高潮全视频| 亚洲一区高清亚洲精品| 久久久久久久精品吃奶| 亚洲中文日韩欧美视频| 亚洲无线在线观看| 99热精品在线国产| 国产免费av片在线观看野外av| x7x7x7水蜜桃| 日韩欧美 国产精品| 最近最新免费中文字幕在线| 在线十欧美十亚洲十日本专区| 黄片小视频在线播放| 日本黄色片子视频| 色在线成人网| 中文字幕精品亚洲无线码一区| 黄色 视频免费看| 一边摸一边抽搐一进一小说| 国产精品99久久99久久久不卡| 日本a在线网址| 国产熟女xx| 哪里可以看免费的av片| 久久久久久久久免费视频了| 亚洲精品色激情综合| 伦理电影免费视频| 宅男免费午夜| 日本一本二区三区精品| 在线观看免费午夜福利视频| 日韩中文字幕欧美一区二区| 国产成人精品久久二区二区91| 欧美乱色亚洲激情| 99国产综合亚洲精品| 小蜜桃在线观看免费完整版高清| 久久久久久大精品| 亚洲 欧美一区二区三区| 99精品欧美一区二区三区四区| 熟女少妇亚洲综合色aaa.| 丁香欧美五月| 日本撒尿小便嘘嘘汇集6| 国产视频一区二区在线看| 最近视频中文字幕2019在线8| 欧洲精品卡2卡3卡4卡5卡区| 国产伦在线观看视频一区| 法律面前人人平等表现在哪些方面| 动漫黄色视频在线观看| 久久久国产精品麻豆| 成人三级做爰电影| 中文亚洲av片在线观看爽| 亚洲av日韩精品久久久久久密| 亚洲成人久久爱视频| 久久国产精品影院| 国产高清有码在线观看视频| 亚洲成av人片在线播放无| 变态另类丝袜制服| 真实男女啪啪啪动态图| 在线观看一区二区三区| 在线免费观看不下载黄p国产 | 一进一出抽搐gif免费好疼| 亚洲欧美日韩卡通动漫| 精品一区二区三区av网在线观看| 国产精品亚洲一级av第二区| 哪里可以看免费的av片| xxxwww97欧美| 久久国产精品影院| 综合色av麻豆| 丰满人妻熟妇乱又伦精品不卡| 999精品在线视频| 亚洲九九香蕉| 国产人伦9x9x在线观看| av中文乱码字幕在线| av在线天堂中文字幕| 国产高清三级在线| 国产极品精品免费视频能看的| 91在线观看av| 成人特级黄色片久久久久久久| 黄色女人牲交| 真人一进一出gif抽搐免费| 99久久99久久久精品蜜桃| 亚洲国产精品sss在线观看| 美女cb高潮喷水在线观看 | 久久精品aⅴ一区二区三区四区| 99精品久久久久人妻精品| 又黄又爽又免费观看的视频| 久久精品综合一区二区三区| 小蜜桃在线观看免费完整版高清| 叶爱在线成人免费视频播放| www日本在线高清视频| 欧美激情在线99| 成年版毛片免费区| a级毛片在线看网站| 黄色成人免费大全| 亚洲黑人精品在线| 婷婷精品国产亚洲av| 欧美成人一区二区免费高清观看 | 麻豆成人午夜福利视频| 久久久久亚洲av毛片大全| 18禁黄网站禁片午夜丰满| 男人舔奶头视频| 国产视频内射| 一a级毛片在线观看| 成人三级做爰电影| 国产免费av片在线观看野外av| 欧美日韩亚洲国产一区二区在线观看| 99re在线观看精品视频| 成人三级做爰电影| 亚洲激情在线av| 欧洲精品卡2卡3卡4卡5卡区| 国产精品久久久久久精品电影| 欧美大码av| 在线免费观看的www视频| 午夜久久久久精精品| 国产精品免费一区二区三区在线| 久久国产精品人妻蜜桃| 亚洲精品粉嫩美女一区| 窝窝影院91人妻| 国产午夜精品久久久久久| 脱女人内裤的视频| 极品教师在线免费播放| 无限看片的www在线观看| 欧美激情在线99| av福利片在线观看| 最近在线观看免费完整版| 18禁观看日本| 狂野欧美激情性xxxx| av欧美777| 日韩欧美国产在线观看| 老汉色av国产亚洲站长工具| 9191精品国产免费久久| 欧美在线一区亚洲| 亚洲熟女毛片儿| 麻豆成人午夜福利视频| 国产三级在线视频| 婷婷丁香在线五月| 久久中文看片网| 亚洲人成网站高清观看| 久久久久久大精品| 熟妇人妻久久中文字幕3abv| 久久亚洲真实| 麻豆成人av在线观看| 欧美成人一区二区免费高清观看 | 97超级碰碰碰精品色视频在线观看| 97碰自拍视频| 日本黄色片子视频| 男女下面进入的视频免费午夜| 亚洲男人的天堂狠狠| 一a级毛片在线观看| 日本三级黄在线观看| 黄色女人牲交| 国产精品久久电影中文字幕| 国产三级中文精品| 别揉我奶头~嗯~啊~动态视频| 精品免费久久久久久久清纯| 丰满人妻熟妇乱又伦精品不卡| 人人妻,人人澡人人爽秒播| 日本免费a在线| 淫妇啪啪啪对白视频| 少妇丰满av| 最新在线观看一区二区三区| 国产高潮美女av| 一本一本综合久久| 欧美日韩综合久久久久久 | 琪琪午夜伦伦电影理论片6080| 亚洲欧洲精品一区二区精品久久久| 国产三级在线视频| 色在线成人网| 亚洲国产精品sss在线观看| 欧美成人性av电影在线观看| 麻豆一二三区av精品| 五月玫瑰六月丁香| 制服人妻中文乱码| 国产精品香港三级国产av潘金莲| 美女高潮的动态| 无遮挡黄片免费观看| aaaaa片日本免费| 日韩欧美 国产精品| 美女cb高潮喷水在线观看 | 欧美黄色片欧美黄色片| 欧美极品一区二区三区四区| 精品久久久久久,| 操出白浆在线播放| 成人av一区二区三区在线看| 18美女黄网站色大片免费观看| 中文资源天堂在线| 88av欧美| 精品午夜福利视频在线观看一区| 日本黄色视频三级网站网址| 91久久精品国产一区二区成人 | 亚洲avbb在线观看| 精品电影一区二区在线| 久久久久国内视频| 成人高潮视频无遮挡免费网站| 国产午夜精品久久久久久| 97超级碰碰碰精品色视频在线观看| 亚洲电影在线观看av| 国产精品久久视频播放| 欧美精品啪啪一区二区三区| 久久久久久大精品| 精品日产1卡2卡| 午夜福利在线在线| 欧美日韩亚洲国产一区二区在线观看| avwww免费| 国产视频内射| 麻豆久久精品国产亚洲av| 久久久色成人| 精品国产亚洲在线| 91av网站免费观看| 看免费av毛片| 国产精品av视频在线免费观看| bbb黄色大片| 国内少妇人妻偷人精品xxx网站 | 久久国产精品影院| 亚洲黑人精品在线| 国产伦一二天堂av在线观看| 亚洲av免费在线观看| 一本精品99久久精品77| 国产免费av片在线观看野外av| 午夜福利成人在线免费观看| 美女午夜性视频免费| 成熟少妇高潮喷水视频| 日韩成人在线观看一区二区三区| 免费在线观看亚洲国产| 2021天堂中文幕一二区在线观| www.熟女人妻精品国产| or卡值多少钱| 精品不卡国产一区二区三区| 亚洲精品久久国产高清桃花| 日本黄色视频三级网站网址| 亚洲国产欧美一区二区综合| 搞女人的毛片| 国产av不卡久久| 看免费av毛片| 久久久久久久久久黄片| 国产高清videossex| 欧美日本亚洲视频在线播放| 亚洲国产色片| 国内精品美女久久久久久| 两性夫妻黄色片| 夜夜看夜夜爽夜夜摸| 男人的好看免费观看在线视频| 成年版毛片免费区| 91在线精品国自产拍蜜月 | 国产伦一二天堂av在线观看| 亚洲国产欧美人成| 国产1区2区3区精品| 久久久国产精品麻豆| 在线观看舔阴道视频| 国产av不卡久久| 夜夜躁狠狠躁天天躁| 丰满人妻一区二区三区视频av | 天天躁日日操中文字幕| 白带黄色成豆腐渣| 91在线精品国自产拍蜜月 | 亚洲av片天天在线观看| 听说在线观看完整版免费高清| 亚洲中文日韩欧美视频| 午夜福利免费观看在线| 精品久久久久久久人妻蜜臀av| 国产精品爽爽va在线观看网站| 亚洲国产日韩欧美精品在线观看 | 亚洲无线在线观看| 黑人操中国人逼视频| 丰满人妻一区二区三区视频av | 岛国在线免费视频观看| 国产精品一区二区三区四区免费观看 | 最近最新免费中文字幕在线| 搞女人的毛片| 听说在线观看完整版免费高清| 欧美乱色亚洲激情| 国产精品爽爽va在线观看网站| 好看av亚洲va欧美ⅴa在| 观看美女的网站| 国语自产精品视频在线第100页| 男插女下体视频免费在线播放| 一进一出抽搐gif免费好疼| 日本撒尿小便嘘嘘汇集6| 村上凉子中文字幕在线| 在线免费观看不下载黄p国产 | 大型黄色视频在线免费观看| 国产亚洲精品久久久com| 亚洲熟女毛片儿| 亚洲成av人片免费观看| 黄色 视频免费看| 欧美日韩福利视频一区二区| 男人舔女人的私密视频| 欧美日韩福利视频一区二区| 此物有八面人人有两片| aaaaa片日本免费| 99国产极品粉嫩在线观看| 美女高潮的动态| 国产精品一区二区三区四区久久| 国产精品一区二区三区四区免费观看 | 9191精品国产免费久久| 在线观看美女被高潮喷水网站 | 亚洲av日韩精品久久久久久密| 国产成人精品久久二区二区91| www日本在线高清视频| 这个男人来自地球电影免费观看| 一级黄色大片毛片| 久久性视频一级片| 国产极品精品免费视频能看的| 亚洲成人久久爱视频| 免费看a级黄色片| 久9热在线精品视频| 国产精品影院久久| 久久久久性生活片| 无遮挡黄片免费观看| 婷婷丁香在线五月| 精品国产美女av久久久久小说| 在线播放国产精品三级| 国产私拍福利视频在线观看| 在线国产一区二区在线| 免费看十八禁软件| 美女免费视频网站| 高潮久久久久久久久久久不卡| 欧美在线一区亚洲| 女人高潮潮喷娇喘18禁视频| 91老司机精品| 亚洲精华国产精华精| 999久久久精品免费观看国产| 欧美日韩一级在线毛片| 日韩成人在线观看一区二区三区|