• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)ELM的遞歸最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法及其應(yīng)用

    2017-10-14 07:01:57徐圓黃兵明賀彥林
    化工學(xué)報(bào) 2017年3期
    關(guān)鍵詞:廣義個(gè)數(shù)軌跡

    徐圓,黃兵明,賀彥林

    ?

    基于改進(jìn)ELM的遞歸最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法及其應(yīng)用

    徐圓,黃兵明,賀彥林

    (北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029)

    針對值函數(shù)逼近算法對精度及計(jì)算時(shí)間等要求,提出了一種基于改進(jìn)極限學(xué)習(xí)機(jī)的遞歸最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法。首先,將遞推方法引入到最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法中消去最小二乘中的矩陣求逆過程,形成遞推最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法,減少算法的復(fù)雜度及其計(jì)算量。其次,考慮到LSTD(0)算法收斂速度慢,加入資格跡增加樣本利用率提高收斂速度的算法,形成LSTD()算法,以保證在經(jīng)歷過相同數(shù)量的軌跡后能收斂于真實(shí)值。同時(shí),考慮到大部分強(qiáng)化學(xué)習(xí)問題的值函數(shù)是單調(diào)的,而傳統(tǒng)ELM方法通常運(yùn)用具有雙側(cè)抑制特性的Sigmoid激活函數(shù),增大了計(jì)算成本,提出采用具有單側(cè)抑制特性的Softplus激活函數(shù)代替?zhèn)鹘y(tǒng)Sigmoid函數(shù),以減少計(jì)算量提高運(yùn)算速度,使得該算法在提高精度的同時(shí)提高了計(jì)算速度。通過與傳統(tǒng)基于徑向基函數(shù)的最小二乘強(qiáng)化學(xué)習(xí)算法和基于極限學(xué)習(xí)機(jī)的最小二乘TD算法在廣義Hop-world問題的對比實(shí)驗(yàn),比較結(jié)果證明了所提出算法在滿足精度的條件下有效提高了計(jì)算速度,甚至某些條件下精度比其他兩種算法更高。

    強(qiáng)化學(xué)習(xí);激活函數(shù);遞歸最小二乘算法;函數(shù)逼近;廣義Hop-world問題

    引 言

    強(qiáng)化學(xué)習(xí)是由Watkins等[1-3]提出的基于心理學(xué)的一種全新的機(jī)器學(xué)習(xí)算法,其主要思想是通過智能體與環(huán)境的交互與試錯(cuò),以環(huán)境的反饋信號作為輸入實(shí)現(xiàn)策略的優(yōu)化。實(shí)現(xiàn)策略優(yōu)化需要正確的策略評價(jià)和策略迭代技術(shù),而如何正確地估計(jì)函數(shù)值是策略評價(jià)的一個(gè)中心問題。強(qiáng)化學(xué)習(xí)通常采用狀態(tài)空間和動(dòng)作空間離散的馬爾可夫決策過程(Markov decision process,MDPs)[4-7]描述,類似于動(dòng)態(tài)規(guī)劃中的策略評價(jià)方法,可采用表格的形式存儲各個(gè)狀態(tài)的值函數(shù)。由于實(shí)際工程中狀態(tài)空間是連續(xù)且規(guī)模較大的,采用表格形式會造成類似動(dòng)態(tài)規(guī)劃的維數(shù)災(zāi)難。因此為了解決這個(gè)問題,必須加強(qiáng)值函數(shù)逼近算法的研究[8-12]。

    值函數(shù)逼近方法可實(shí)現(xiàn)在正確估計(jì)值函數(shù)的同時(shí)避免狀態(tài)空間復(fù)雜所引起的維數(shù)災(zāi)難問題。Sutton[2]首次給出了時(shí)序差分強(qiáng)化學(xué)習(xí)算法(temporal difference,TD),并通過實(shí)驗(yàn)證明了收斂性,已成為其他強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。隨著人工智能技術(shù)的發(fā)展,近年來越來越傾向于將神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近能力應(yīng)用于強(qiáng)化學(xué)習(xí)值函數(shù)逼近中[13-17],Bradtke等提出了最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法(least-squares temporal difference learning,LSTD)[18-19],提高TD算法數(shù)據(jù)利用率的同時(shí)解決了TD算法過程中步長設(shè)計(jì)困難的問題[20],該算法已成為目前廣泛應(yīng)用的值函數(shù)逼近算法,其中LSTD中采用徑向基函數(shù)(radial basis functions,RBF)作為逼近模型或者其他狀態(tài)回歸方法。但是這類方法大部分都屬于局部逼近,而局部逼近最主要的潛在限制就是隨著輸入空間維度的增加所需要的特征單元是以指數(shù)形式增加的。

    基于以上問題,本文提出了一種基于改進(jìn)ELM的遞歸最小二乘差分算法(RLSTD()-IELM)用于函數(shù)值逼近。一方面,將遞推方法引入到最小二乘算法中,形成遞推最小二乘算法(recursive least-squares temporal difference learning,RLSTD),減少算法的復(fù)雜度及其計(jì)算量。同時(shí),考慮到LSTD(0)算法收斂速度慢,本文加入資格跡增加樣本利用率提高收斂速度的算法,形成LSTD()算法,以保證在經(jīng)歷過相同數(shù)量的軌跡后能收斂于真實(shí)值。另一方面,由于大部分強(qiáng)化學(xué)習(xí)問題的值函數(shù)是單調(diào)的,在ELM模型結(jié)構(gòu)中,本文采用具有單側(cè)抑制特性的Softplus激活函數(shù)代替?zhèn)鹘y(tǒng)Sigmoid函數(shù)以減少計(jì)算量提高運(yùn)算速度,實(shí)現(xiàn)計(jì)算時(shí)間的降低。最后,本文運(yùn)用廣義Hop-world實(shí)驗(yàn)證明了該算法保證精度的情況下降低了計(jì)算時(shí)間,即提高了資源有效率以及計(jì)算的有效率。

    1 基于改進(jìn)ELM的RLSTD(λ)算法

    1.1 基于Softplus激活函數(shù)的ELM

    極限學(xué)習(xí)機(jī)(ELM)是一種簡單易用、有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward neural networks,SLFNs)學(xué)習(xí)算法[21]。假設(shè)隱含層含有個(gè)單元,則第個(gè)輸出可表示為

    其中1≤≤,w為隱含層第個(gè)單元的參數(shù)(權(quán)值和閾值),h是第個(gè)單元和輸出層連接的權(quán)值,是隱含層激活函數(shù)。

    通常,極限學(xué)習(xí)機(jī)隱含層激活函數(shù)采用傳統(tǒng)的Sigmoid函數(shù),Sigmoid系統(tǒng)在做值判別時(shí)采用雙側(cè)抑制。而大多數(shù)強(qiáng)化學(xué)習(xí)問題中為了更容易得到狀態(tài)集合中每個(gè)狀態(tài)的值函數(shù)通常設(shè)定在未到達(dá)目標(biāo)點(diǎn)之前,根據(jù)策略每采取一個(gè)動(dòng)作,環(huán)境反饋的賞金為負(fù)(正),而到達(dá)目標(biāo)時(shí)為0,因此值函數(shù)的值通常都為負(fù)或都為正。例如,廣義Hop-world問題的值函數(shù)逼近值是單調(diào)的,若采用雙側(cè)抑制將會增加廢運(yùn)算,由此只需要單邊抑制就足夠了。因此,本文提出采用Softplus函數(shù)替換Sigmod函數(shù),該激活函數(shù)模型對比Sigmoid模型主要變化有3點(diǎn):單側(cè)抑制,相對寬闊的興奮邊界以及稀疏激活性。Softplus函數(shù)[22]是ReLu函數(shù)的改進(jìn),因此它一方面有ReLu函數(shù)運(yùn)算速度快,泛化性能好的特點(diǎn),另一方面它比傳統(tǒng)的Sigmoid函數(shù)更加接近生物學(xué)激活模型,從而使整個(gè)網(wǎng)絡(luò)模型的平均性能更好。這兩點(diǎn)對算法的兩個(gè)評估標(biāo)準(zhǔn)都有所增益,可增加計(jì)算效率,減少計(jì)算時(shí)間。

    Softplus函數(shù)定義為

    =ln(1+e) (2)

    1.2 遞歸LSTD()-IELM強(qiáng)化學(xué)習(xí)算法

    傳統(tǒng)值函數(shù)逼近算法中,例如LSTD-RBF強(qiáng)化學(xué)習(xí)算法,雖然提高了值函數(shù)逼近的精度但是同時(shí)也增加了計(jì)算復(fù)雜度降低了計(jì)算速率,本文結(jié)合1.1節(jié)提出的基于Softplus激活函數(shù)的ELM模型,提出一種帶有資格跡的遞推最小二乘強(qiáng)化學(xué)習(xí)算法(RLSTD())。

    強(qiáng)化學(xué)習(xí)問題通??梢员磉_(dá)成馬可爾夫決策過程(MDP)[23]。MDP模型可以定義為集合{,,,,},是狀態(tài)集合,為動(dòng)作集合,為賞金函數(shù)即在狀態(tài)s時(shí)執(zhí)行動(dòng)作轉(zhuǎn)移到狀態(tài)s+1得到的反饋信號,為狀態(tài)轉(zhuǎn)移概率函數(shù)即在狀態(tài)s時(shí)執(zhí)行動(dòng)作轉(zhuǎn)移到狀態(tài)s+1,為值函數(shù)。MDP的策略定義為從狀態(tài)空間到動(dòng)作空間的映射:,當(dāng)確定時(shí),且定義轉(zhuǎn)移函數(shù)為1時(shí),值函數(shù)()就是在狀態(tài)下執(zhí)行動(dòng)作且以后遵循策略的累積期望折扣回報(bào),可由式(3)表達(dá)

    設(shè)定′為狀態(tài)下執(zhí)行動(dòng)作轉(zhuǎn)移的下一個(gè)狀態(tài),那么式(4)同樣可以定義為

    V()=+V(′) (4)

    其中為折扣因子,當(dāng)狀態(tài)空間很小時(shí),采用表格的形式存儲各個(gè)狀態(tài)的值函數(shù)。但是當(dāng)狀態(tài)空間連續(xù)或者維度很大時(shí)想要得到每個(gè)狀態(tài)確切的值函數(shù)的值很困難,這種情況下就要采用函數(shù)值逼近算法來估計(jì)值函數(shù)的值[8,24]。

    假設(shè)有一個(gè)被維的向量參數(shù)化的值函數(shù)逼近模型,那么這個(gè)逼近模型與式(3)相結(jié)合,可以表達(dá)為

    =() (5)

    ()=[()]() (6)

    由于線性的參數(shù)逼近模型有一定的理論基礎(chǔ),所以文中采用線性參數(shù)逼近模型。模型采用個(gè)特征單元或者基本函數(shù)1,…,:和一個(gè)維參數(shù)向量,狀態(tài)的值可計(jì)算為

    其中,()=[1(),…,()],即為特征單元向量。

    根據(jù)傳統(tǒng)時(shí)序差分法(TD(0))迭代公式可表示為

    式中,表示執(zhí)行策略的第步,r+1是觀測到的賞金值,為折扣因子,為學(xué)習(xí)速率。

    TD(0)算法必然收斂但是存在收斂速度慢的問題,最主要原因是它只修改相鄰狀態(tài)的值函數(shù)估計(jì)值,這就減少了樣本利用率。本文引入資格跡以提高收斂速度和樣本利用率,即為TD()算法,迭代公式為

    其中,(s)被稱為資格跡,可由式(10)計(jì)算得到

    (10)

    因此算法的更新原則為

    在經(jīng)歷過軌跡(0,1,…,s),根據(jù)式(11)可以觀察到總的變化,可表達(dá)為

    =+(++) (12)

    式中,為平均噪聲。因此收斂于滿足式+TD=0的TD。

    最小二乘時(shí)序差分法(LSTD)同樣收斂于滿足上面條件的TD,LSTD中構(gòu)造的矩陣(×維)和向量(維)可表示為

    經(jīng)歷過個(gè)獨(dú)立軌跡之后,矩陣和向量為和-的無偏差估計(jì),因此TD可由-1計(jì)算得到。

    結(jié)合1.1節(jié)提出的基于Softplus激活函數(shù)的ELM,定義特征單元空間為

    ()=[(1,),(2,),…,(,)] (14)

    因此結(jié)合式(11)~式(13)得到LSTD()-ELM算法的迭代公式

    (s)+(15)

    ←+((s)-(s+1))T(16)

    =-1(17)

    一般情況下LSTD算法求解過程采用的是高斯消除法或者奇異值分解來求-1,但是這兩種方法的復(fù)雜度為0(3)。當(dāng)數(shù)據(jù)維度增大或者特征單元增多時(shí),計(jì)算量和計(jì)算時(shí)間也會以指數(shù)形式上升。所以本文引入了遞歸最小二乘的概念,來提高計(jì)算速度以及實(shí)時(shí)處理能力。

    根據(jù)矩陣求逆定理,當(dāng)∈×n,∈×1,∈1×n且可逆時(shí),有

    (+)-1=-1--1(+-1)-1(18)

    則根據(jù)文中狀態(tài)變化可以推導(dǎo)得到遞歸最小二乘更新原則

    (20)

    此方法消除了矩陣的求逆過程,因此復(fù)雜度相比LSTD-ELM算法,由0(3)降為0(2),有效提高了計(jì)算速度。

    2 實(shí)驗(yàn)與結(jié)果分析

    本文采用廣義Hop-world問題驗(yàn)證RLSTD()- IELM算法的有效性,并與LSTD-ELM算法、LSTD-RBF算法進(jìn)行比較。由于廣義Hop-world的狀態(tài)空間維度是可以隨意選擇的,所以該實(shí)驗(yàn)很適合評估當(dāng)狀態(tài)變量增加時(shí)各算法的表現(xiàn)。實(shí)驗(yàn)中采用平均絕對誤差和計(jì)算時(shí)間作為算法比較的指標(biāo)。

    2.1 廣義Hop-world問題

    Hop-world問題最初提出[25]是為了進(jìn)行說明性實(shí)驗(yàn),后來被應(yīng)用于其他強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)中。圖1為該問題的最初模型,狀態(tài)空間是一維且離散的。如圖1所示,此模型由個(gè)離散狀態(tài)和一個(gè)結(jié)束狀態(tài)構(gòu)成,狀態(tài)空間表示為={0,1,2,…,}。對于每個(gè)軌跡而言,初始狀態(tài)為狀態(tài)0,結(jié)束狀態(tài)為狀態(tài)。當(dāng)前狀態(tài)不為目標(biāo)狀態(tài)時(shí)可以采取兩個(gè)動(dòng)作={0,1},每一個(gè)動(dòng)作都朝著目標(biāo)狀態(tài)前進(jìn)。狀態(tài)-1到狀態(tài)產(chǎn)生的賞金值為-2/3,其他狀態(tài)轉(zhuǎn)移產(chǎn)生的賞金值為-1。實(shí)驗(yàn)中agent選擇兩個(gè)動(dòng)作的概率是相同的。

    而廣義Hop-world問題,其狀態(tài)空間維度是可變的,即為狀態(tài)數(shù)可變的Hop-world問題。參數(shù)表示狀態(tài)空間維度,圖2為狀態(tài)空間維度為2時(shí)的Hop-world問題模型。狀態(tài)個(gè)數(shù)由||=m得到,可選動(dòng)作個(gè)數(shù)由||=2得到。賞金函數(shù)與一維Hop-world問題模型相同。

    多維廣義Hop-world問題的狀態(tài)由最初的離散狀態(tài)轉(zhuǎn)移為位于范圍[0,1]的連續(xù)狀態(tài),但對于每一維它們依舊有2種動(dòng)作可以選擇,使得當(dāng)前狀態(tài)向目標(biāo)狀態(tài)轉(zhuǎn)移,只是此時(shí)動(dòng)作選擇為1倍步長和2倍步長。二維Hop-world問題將起始點(diǎn)和目標(biāo)點(diǎn)設(shè)置在狀態(tài)空間的兩端,即圖3中的0=[0,0],END=[1,1],而圖中帶有箭頭的折線就是二維廣義Hop-world問題中的一條典型的軌跡,其中短箭頭代表一倍步長,長箭頭代表兩倍步長。

    本文實(shí)驗(yàn)中廣義Hop-world的維度從1變化到3,為了保證每條軌跡的步數(shù)是合理的,其中步長參數(shù)根據(jù)維度的變化而改變,表1列出了3種不同維度對應(yīng)的步長并且本文設(shè)定每種動(dòng)作帶有0.2倍步長的高斯噪聲以增加系統(tǒng)的隨機(jī)性。而智能體與環(huán)境交互的質(zhì)量是由經(jīng)過的軌跡數(shù)控制的。為了得到更精準(zhǔn)的值函數(shù)逼近值,隨著維度的增加軌跡的數(shù)量也必須增加,表1列出了3種不同維度的Hop-world問題所需要的軌跡數(shù),文中RLSTD- IELM、LSTD-ELM以及LSTD-RBF算法采用相同的軌跡數(shù)。

    2.2 Monte Carlo仿真

    Monte Carlo實(shí)驗(yàn)中,在待仿真的狀態(tài)集合中任意取一個(gè)狀態(tài)作為初始狀態(tài),觀測經(jīng)歷不同軌跡后的反饋值,將所有反饋值取平均值即得到該狀態(tài)值函數(shù)的仿真值。文中采用Monte Carlo仿真實(shí)驗(yàn)的仿真值作為“真實(shí)值”,值函數(shù)逼近值與其作比較得到絕對誤差。Monte Carlo仿真實(shí)驗(yàn)仿真結(jié)果如圖4。

    表1 不同維度Hop-world實(shí)驗(yàn)中LSTD算法的各個(gè)參數(shù)

    圖4給出了1維Hop-world問題中=0.30,=0.57和=0.90時(shí)Monte Carlo仿真的情況,縱坐標(biāo)表示值函數(shù)仿真值,橫坐標(biāo)表示軌跡數(shù)量。圖中描繪了隨著仿真過程中軌跡數(shù)量的增加得到的估計(jì)值以及95%的置信空間。由圖4可以看到在經(jīng)歷過16000個(gè)軌跡之后,()的估計(jì)值基本保持穩(wěn)定,后面就是重復(fù)相同的步驟達(dá)到固定的軌跡數(shù)。除了定義保證仿真精度軌跡數(shù)之外,必須定義需要仿真的狀態(tài)集合。一方面狀態(tài)集合足夠大,可以表達(dá)所有值函數(shù);另一方面,狀態(tài)集合要足夠小,可以控制計(jì)算量。3種不同維度的Monte Carlo仿真的軌跡數(shù)量和狀態(tài)集合參數(shù)列于表2。

    表2 不同維度廣義Hop-world實(shí)驗(yàn)中Monte Carlo仿真的各個(gè)參數(shù)

    2.3 結(jié)果與分析

    首先,采用一維Hop-world問題驗(yàn)證基于Softplus激活函數(shù)的ELM相比于基于傳統(tǒng)激活函數(shù)的ELM算法可增加計(jì)算效率,減少計(jì)算時(shí)間。結(jié)合LSTD計(jì)算一條有效軌跡時(shí)間,對比結(jié)果如圖5。

    從圖5可看出,基于Softplus激活函數(shù)的LSTD-IELM算法其時(shí)間效率明顯比傳統(tǒng)LSTD-ELM算法高,達(dá)到了減少計(jì)算時(shí)間的目的。

    同時(shí),本文將所提算法與LSTD-RBF算法、LSTD-ELM結(jié)果進(jìn)行對比,驗(yàn)證所提方法的可行性與優(yōu)越性。由于文中LSTD-RBF算法基函數(shù)采用高斯函數(shù),因此高斯函數(shù)中心點(diǎn)位置()以及寬度()兩個(gè)參數(shù)對算法的結(jié)果有很大的影響。文中采用k-means算法[26]來確定參數(shù),為了確定參數(shù),根據(jù)文獻(xiàn)[27],可以將寬度定義為

    是中心點(diǎn)個(gè)數(shù),max是任意兩個(gè)中心點(diǎn)之間最大的距離。根據(jù)文獻(xiàn)[28-29],當(dāng)寬度設(shè)置為0.5max和0.33max能得到較好的效果。為了將最好的結(jié)果與本文中所提出算法進(jìn)行比較,將這3種寬度設(shè)置為一個(gè)集合set={Hay,Alp1,Alp2},并將set,2set,4set一共9種情況都進(jìn)行測試找出效果最好的一個(gè)。

    通過一維Hop-world實(shí)驗(yàn)和對比,當(dāng)=4Alp1時(shí)表現(xiàn)出來的效果最好。因此,在下面的比較實(shí)驗(yàn)中,定義=4Alp1。一維Hop-world實(shí)驗(yàn)中,LSTD-RBF、LSTD-ELM以及RLSTD()-IELM算法比較結(jié)果如圖6、圖7所示。

    圖6表示一維Hop-world問題中當(dāng)寬度為=4Alp1的LSTD-RBF算法,LSTD-ELM算法,RLSTD()-IELM算法在單元個(gè)數(shù)從5變化到45時(shí)的估計(jì)值平均絕對誤差曲線,圖7表示3種算法分別在一維實(shí)驗(yàn)中單元個(gè)數(shù)增加時(shí)每步算法完成需要的時(shí)間曲線??梢钥闯鯨STD-ELM算法與RLSTD()-IELM算法估計(jì)值的平均誤差曲線幾乎重疊,而很明顯都小于LSTD-RBF算法,所以在精度上本文所提出的算法是滿足要求的。而從時(shí)間曲線上可以看出RLSTD()-IELM算法比LSTD-RBF高,比LSTD-ELM低。因此可以看出本文所提算法在計(jì)算速度和計(jì)算精度上都有優(yōu)異的表現(xiàn)。

    二維Hop-world問題實(shí)驗(yàn)結(jié)果對比如圖8、圖9所示。

    從平均絕對誤差上來看,在單元個(gè)數(shù)增加到50之前,本文所提算法精度高于其他兩種算法,單元個(gè)數(shù)增加到50之后估計(jì)值平均絕對誤差雖然略高于LSTD-ELM算法但仍明顯低于LSTD-RBF算法。而從計(jì)算時(shí)間上來看,在單元個(gè)數(shù)增加為80之后低于其他兩種算法,所以該算法在某種特定條件下可以做到精度高于LSTD-ELM算法,計(jì)算速度高于LSTD-RBF算法。從一維和二維實(shí)驗(yàn)已經(jīng)證明該算法的優(yōu)勢,為了證明其可解決高維問題作了三維廣義Hop-world實(shí)驗(yàn),即定義=3。

    圖10、圖11為三維Hop-world問題實(shí)驗(yàn)比較結(jié)果。

    圖10 三維Hop-world問題中RLSTD(λ)-IELM、LSTD-ELM以及LSTD-RBF 3種算法隨單元個(gè)數(shù)增加時(shí)的估計(jì)值平均絕對誤差曲線對比(d=3, l =0.85)

    結(jié)合上述一維、二維、三維Hop-world問題上的對比實(shí)驗(yàn),3種算法在不同單元個(gè)數(shù)對應(yīng)的估計(jì)精度及計(jì)算時(shí)間如表3所示。

    表3 不同維度廣義Hop-world實(shí)驗(yàn)中RLSTD(λ)-IELM、LSTD-ELM以及LSTD-RBF 3種算法對比

    當(dāng)維度增加為3時(shí)本文所提算法的優(yōu)勢也越來越明顯,無論在精度和計(jì)算速度上都有優(yōu)異的表現(xiàn)。表3表示一維廣義Hop-world實(shí)驗(yàn)中取特征單元個(gè)數(shù)為10、15、20、25,二維廣義Hop-world實(shí)驗(yàn)中取特征單元個(gè)數(shù)為60、70、80、90,以及三維廣義Hop-world實(shí)驗(yàn)中取特征單元個(gè)數(shù)為300、350、400、450時(shí)L(LSTD),RL-IE(RLSTD()-IELM)以及L-E(LSTD-ELM)3種算法分別在平均絕對誤差以及計(jì)算時(shí)間兩個(gè)指標(biāo)上表現(xiàn)結(jié)果的對比。通過結(jié)果的對比可以看出,RLSTD()-IELM算法在達(dá)到相同精度時(shí)所需要的資源少于LSTD-RBF算法,而在時(shí)間上來說隨著維度和單元個(gè)數(shù)的增加,本文所提算法顯示出的優(yōu)勢越來越明顯,計(jì)算速度高于其他兩種算法,證明了該算法的可行性和優(yōu)越性。

    3 結(jié) 論

    本文針對值函數(shù)逼近算法對精度和計(jì)算時(shí)間等要求,提出了一種基于改進(jìn)極限學(xué)習(xí)機(jī)的遞歸最小二乘時(shí)序差分強(qiáng)化學(xué)習(xí)算法(RLSTD()-IELM)。在廣義Hop-wprld實(shí)驗(yàn)中與傳統(tǒng)LSTD-RBF算法和LSTD-ELM算法進(jìn)行比較,隨著單元個(gè)數(shù)的增加,本文所提算法在提高樣本利用率的同時(shí)減少了算法復(fù)雜度,減少了計(jì)算量從而提高了計(jì)算速度。在低維廣義Hop-world問題實(shí)驗(yàn)中,本文算法在精度上高于傳統(tǒng)LSTD-RBF算法甚至在某種條件下高于LSTD-ELM算法,在計(jì)算速度上高于LSTD-ELM。在高維廣義Hop-world問題實(shí)驗(yàn)中,結(jié)果表明在解決高維度問題上文中所提算法表現(xiàn)更優(yōu)于其他算法,有效證明了本文算法的可行性和優(yōu)越性。

    References

    [1] WATKINS J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(1): 279-292.

    [2] SUTTON R S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1998, 3: 10-43.

    [3] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054.

    [4] ETESSAMI K, YANNAKAKIS M. Recursive Markovdecision processes and recursive stochastic games[J]. Journal of the Acm, 2005, 62(2): 100.

    [5] DUFOUR F. Impulsive control for continuous-time Markov decision processes[J]. Advances in Applied Probability, 2014, 47(1): 129-161.

    [6] HALLAK A, CASTRO D D. Contextual Markov decision processes [J]. Computer Science, 2015, 5(4): 220-229.

    [7] BEATRIC B, KRISHNENDU C. Probabilistic opacity for Markov decision processes[J]. Information Processing Letters, 2015, 115(1): 52-59.

    [8] 劉全, 肖飛. 基于自適應(yīng)歸一化RBF網(wǎng)絡(luò)的Q-V值函數(shù)協(xié)同逼近模型[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(7): 1386-1396. LIU Q, XIAO F. Collaborative Q-V value function approximation model based on adaptive normalized radial basis function network[J]. Chinese Journal of Computers, 2015, 38(7): 1386-1396.

    [9] HACHIYA H, AKIYAMA T, SUGIAYMA M,. Adaptive importance sampling for value function approximation in off-policy reinforcement learning[J]. Neural Networks the Official Journal of the International Neural Network Society, 2009, 22(10): 1399-1410.

    [10] AKIYAMA T, HACHIYA H M. Efficient exploration through active learning for value function approximation in reinforcement learning[J]. Neural Networks the Official Journal of the International Neural Network Society, 2010, 23(5): 639-648.

    [11] XU X, HUANG Z. A clustering-based graph Laplacian framework for value function approximation in reinforcement learning[J]. Cybernetics, 2014, 44(12): 2613-2625.

    [12] ELFWING S, UCHIBE E. From free energy to expected energy: improving energy-based value function approximation in reinforcement learning[J]. Neural Networks, 2016, 84: 17-27.

    [13] WANG X S, CHENG Y H, YI J Q. A fuzzy actor-critic reinforcement learning network[J]. Information Sciences, 2007, 177(18): 3764-3781.

    [14] YAVUZ E, MAUL P, NOWOTNY T. Spiking neural network model of reinforcement learning in the honeybee implemented on the GPU[J]. Bmc Neuroscience, 2015, 16(S1): 1-2.

    [15] FAU?ER S, SCHWENKER F. Selective neural network ensembles in reinforcement learning: taking the advantage of many agents[J]. Neurocomputing, 2015, 169: 350-357.

    [16] TANG L, LIU Y J. Adaptive neural network control of robot manipulator using reinforcement learning[J]. Journal of Vibration & Control, 2013, 20(14): 2162-2171.

    [17] 蓋俊峰, 趙國榮. 基于線性近似和神經(jīng)網(wǎng)絡(luò)逼近的模型預(yù)測控制[J]. 系統(tǒng)工程與電子技術(shù), 2015, 37(2): 394-399. GAI J F, ZHAO G R. Model predictive control based on linearization and neural network approach[J]. Systems Engineering and Electronics, 2015, 37(2): 394-399.

    [18] BRADTKE S J, BARTO A G. Linear least-squares algorithms for temporal difference learning[J]. Machine Learning, 1996, 22(1/2/3): 33-57.

    [19] BOYAN J A. Technical update: least-squares temporal difference learning[J]. Machine Learning, 2002, 49(2/3): 233-246.

    [20] 王國芳, 方舟. 基于批量遞歸最小二乘的自然Actor-Critic算法[J]. 浙江大學(xué)學(xué)報(bào), 2015, 49(7): 1335-1341. WANG G F, FANG Z. Natural Actor-Critic based on batch recursive least-squares[J]. Journal of Zhejiang University (Engineering Science), 2015, 49(7): 1335-1341.

    [21] HUANG G, ZHU Q. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70: 489-501.

    [22] 孫艷豐, 楊新東. 基于Softplus激活函數(shù)和改進(jìn)Fisher判別的ELM算法[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2015, 41(9): 1341-1347.SUN Y F, YANG X D. ELM algorithm based on Softplus activation function and improved Fisher discrimination[J]. Journal of Beijing University of Technology, 2015, 41(9): 1341-1347.

    [23] 高陽, 陳世福, 陸鑫. 強(qiáng)化學(xué)習(xí)研究綜述[J]. 自動(dòng)化學(xué)報(bào), 2004, 30(1): 86-100.GAO Y, CHEN S F, LU X. Research on reinforcement learning technology: a review[J]. Acta Automatica Sinica, 2004, 30(1): 86-100.

    [24] PABLO E M, JOSE M M. Least-squares temporal difference learning based on an extreme learning machine[J]. Neurocomputing, 2014, 14: 37-45.

    [25] BOYAN J A. Least-squares temporal difference learning in proceedings of the sixteenth international conference[J]. Machine Learning, 1999, 49(2/3): 49-56.

    [26] WANG J F, WANG J D, SONG J K. Optimized Cartesian k-means[J]. IEEE Transactions on Knowledge & Data Engineering, 2015, 27(1): 180-192.

    [27] HAYKIN S. Neural Networks and Learning Machines: A Comprehensive Foundation[M]. London: Pearson Education, 2010: 800-815.

    [28] ALPAYDIN E. Introduction to machine learning[J]. Machine Learning, 2004, 5(8): 28.

    [29] ZHAO J, WEI H. Natural gradient learning algorithms for RBF networks[J]. Neural Computation, 2015, 27(2): 481-505.

    Recursive least-squares TD () learning algorithm based on improved extreme learning machine

    XU Yuan, HUANG Bingming, HE Yanlin

    (School of Information Science & Technology, Beijing University of Chemical Technology, Beijing 100029, China)

    To meet the requirements on accuracy and computational time of value approximation algorithms, a recursive least-squares temporal difference reinforcement learning algorithm with eligibility traces based on improved extreme learning machine (RLSTD()-IELM) was proposed. First, a recursive least-squares temporal difference reinforcement learning (RLSTD) was created by introducing recursive method into least-squares temporal difference reinforcement learning algorithm (LSTD), in order to eliminate matrix inversion process in least-squares algorithm and to reduce complexity and computation of the proposed algorithm. Then, eligibility trace was introduced into RLSTD algorithm to form the recursive least-squares temporal difference reinforcement learning algorithm with eligibility trace (RLSTD()), in order to solve issues of slow convergence speed of LSTD(0) and low efficiency of experience exploitation. Furthermore, since value function in most reinforcement learning problem was monotonic, a single suppressed approximation Softplus function was used to replace sigmoid activation function in the extreme learning machine network in order to reduce computation load and improve computing speed. The experiment result on generalized Hop-world problem demonstrated that the proposed algorithm RLSTD()-IELM had faster computing speed than the least-squares temporal difference learning algorithm based on extreme learning machine (LSTD-ELM), and better accuracy than the least-squares temporal difference learning algorithm based on radial basis functions (LSTD-RBF).

    reinforcement learning; activation function; recursive least-squares methods; function approximation; generalized Hop-world problem

    10.11949/j.issn.0438-1157.20161555

    TP 29

    A

    0438—1157(2017)03—0916—09

    國家自然科學(xué)基金項(xiàng)目(61573051,61472021);軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室開放課題(SKLSDE-2015KF-01);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(PT1613-05)。

    2016-11-03收到初稿,2016-11-08收到修改稿。

    聯(lián)系人:賀彥林。第一作者:徐圓(1983—),女,博士,副教授。

    2016-11-03.

    HE Yanlin, associate professor, xyfancy@ 163. com

    supported by the National Natural Science Foundation of China (61573051, 61472021), the Open Fund of the State Key Laboratory of Software Development Environment (SKLSDE-2015KF-01) and the Fundamental Research Funds for Central Universities of China (PT1613-05).

    猜你喜歡
    廣義個(gè)數(shù)軌跡
    Rn中的廣義逆Bonnesen型不等式
    怎樣數(shù)出小正方體的個(gè)數(shù)
    軌跡
    軌跡
    等腰三角形個(gè)數(shù)探索
    怎樣數(shù)出小木塊的個(gè)數(shù)
    從廣義心腎不交論治慢性心力衰竭
    怎樣數(shù)出小正方體的個(gè)數(shù)
    軌跡
    進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
    中國三峽(2017年2期)2017-06-09 08:15:29
    欧美日韩成人在线一区二区| 哪个播放器可以免费观看大片| videosex国产| 高清黄色对白视频在线免费看| 国产精品秋霞免费鲁丝片| 精品一区二区三区四区五区乱码 | 美女内射精品一级片tv| 亚洲人与动物交配视频| 国产xxxxx性猛交| 国产午夜精品一二区理论片| 免费高清在线观看日韩| 日本与韩国留学比较| 免费av中文字幕在线| 精品国产一区二区久久| 永久网站在线| 亚洲av男天堂| 日韩中字成人| 国产成人免费无遮挡视频| 妹子高潮喷水视频| 亚洲丝袜综合中文字幕| 亚洲精品自拍成人| 国产精品欧美亚洲77777| 日本欧美国产在线视频| 亚洲国产看品久久| 一级,二级,三级黄色视频| 久久久国产一区二区| 夜夜骑夜夜射夜夜干| 久久精品国产亚洲av天美| 久久精品国产亚洲av涩爱| 只有这里有精品99| 精品少妇久久久久久888优播| 亚洲五月色婷婷综合| 久久精品熟女亚洲av麻豆精品| 精品人妻在线不人妻| 亚洲国产精品一区二区三区在线| 一边亲一边摸免费视频| 侵犯人妻中文字幕一二三四区| 精品一品国产午夜福利视频| 丝袜人妻中文字幕| 国产成人av激情在线播放| 国产乱来视频区| 少妇的逼水好多| 边亲边吃奶的免费视频| 伦理电影免费视频| 亚洲成人一二三区av| 国产成人一区二区在线| 看非洲黑人一级黄片| xxxhd国产人妻xxx| 欧美日韩亚洲高清精品| 精品国产一区二区三区久久久樱花| 少妇人妻 视频| 国产免费视频播放在线视频| 极品少妇高潮喷水抽搐| 天天操日日干夜夜撸| 亚洲国产欧美在线一区| 亚洲人与动物交配视频| a级片在线免费高清观看视频| xxxhd国产人妻xxx| 日日啪夜夜爽| 色网站视频免费| 国产一区二区在线观看av| 久久韩国三级中文字幕| 国产亚洲av片在线观看秒播厂| 夫妻性生交免费视频一级片| xxx大片免费视频| 2021少妇久久久久久久久久久| 国产色爽女视频免费观看| 国产精品久久久久久久电影| 国产成人免费观看mmmm| 国产精品久久久久久精品电影小说| 国产成人精品一,二区| 大话2 男鬼变身卡| 国产高清国产精品国产三级| 中文字幕亚洲精品专区| 国产有黄有色有爽视频| 一级a做视频免费观看| 97人妻天天添夜夜摸| 午夜视频国产福利| 汤姆久久久久久久影院中文字幕| 高清不卡的av网站| 久久久a久久爽久久v久久| 一级毛片黄色毛片免费观看视频| 日本猛色少妇xxxxx猛交久久| 丝袜脚勾引网站| 日韩精品免费视频一区二区三区 | 九色成人免费人妻av| 精品一区二区三区视频在线| 日韩成人伦理影院| 日韩精品有码人妻一区| av不卡在线播放| 国产又爽黄色视频| 中文字幕另类日韩欧美亚洲嫩草| 国产av精品麻豆| 国产 精品1| 晚上一个人看的免费电影| 亚洲国产成人一精品久久久| 女人久久www免费人成看片| 亚洲欧美成人综合另类久久久| 精品国产国语对白av| 新久久久久国产一级毛片| 欧美日韩一区二区视频在线观看视频在线| 欧美另类一区| 18禁动态无遮挡网站| 女性生殖器流出的白浆| 高清av免费在线| 国产精品99久久99久久久不卡 | 丰满饥渴人妻一区二区三| 精品人妻熟女毛片av久久网站| 观看av在线不卡| 夫妻午夜视频| 成人国产麻豆网| 国产成人a∨麻豆精品| 国产成人免费无遮挡视频| 国产片特级美女逼逼视频| 亚洲av在线观看美女高潮| 亚洲精华国产精华液的使用体验| 日本免费在线观看一区| 最新中文字幕久久久久| 青青草视频在线视频观看| 99热6这里只有精品| 亚洲精品国产av蜜桃| 赤兔流量卡办理| 欧美日韩一区二区视频在线观看视频在线| 日本色播在线视频| 九色成人免费人妻av| 啦啦啦视频在线资源免费观看| 亚洲精品成人av观看孕妇| 精品亚洲成a人片在线观看| 99国产精品免费福利视频| 美女大奶头黄色视频| 一本—道久久a久久精品蜜桃钙片| 91精品伊人久久大香线蕉| 韩国高清视频一区二区三区| 99视频精品全部免费 在线| 国产一区亚洲一区在线观看| 国产无遮挡羞羞视频在线观看| 女性生殖器流出的白浆| 男女高潮啪啪啪动态图| 女人被躁到高潮嗷嗷叫费观| 蜜桃在线观看..| 97在线人人人人妻| 多毛熟女@视频| 国产精品国产三级国产av玫瑰| 国语对白做爰xxxⅹ性视频网站| 国产又爽黄色视频| 观看av在线不卡| 亚洲婷婷狠狠爱综合网| 亚洲国产精品国产精品| 亚洲精品,欧美精品| 国产1区2区3区精品| 精品亚洲成a人片在线观看| 男的添女的下面高潮视频| 视频中文字幕在线观看| 国产色婷婷99| av免费观看日本| 日韩免费高清中文字幕av| 久热这里只有精品99| 国产熟女午夜一区二区三区| 亚洲国产色片| 18禁国产床啪视频网站| 日日撸夜夜添| 久久久精品区二区三区| 久久国产精品大桥未久av| 中文精品一卡2卡3卡4更新| 韩国高清视频一区二区三区| 亚洲成色77777| 九色成人免费人妻av| 婷婷成人精品国产| 边亲边吃奶的免费视频| 高清不卡的av网站| 午夜免费男女啪啪视频观看| 看非洲黑人一级黄片| 欧美 亚洲 国产 日韩一| 精品一品国产午夜福利视频| 亚洲国产精品专区欧美| 国产精品一二三区在线看| 黑丝袜美女国产一区| 欧美国产精品一级二级三级| 91成人精品电影| 国产永久视频网站| 精品少妇久久久久久888优播| 91成人精品电影| 2022亚洲国产成人精品| 大香蕉97超碰在线| 黄色配什么色好看| 免费av中文字幕在线| 在线亚洲精品国产二区图片欧美| 最近中文字幕2019免费版| 日本色播在线视频| 有码 亚洲区| 国产精品久久久久久精品电影小说| 在线精品无人区一区二区三| 少妇的丰满在线观看| 国产精品一二三区在线看| 久久久久久久久久人人人人人人| 欧美国产精品一级二级三级| 久久久a久久爽久久v久久| 国产精品偷伦视频观看了| 亚洲国产最新在线播放| 亚洲,欧美,日韩| 国产成人免费观看mmmm| 中文字幕亚洲精品专区| 欧美亚洲 丝袜 人妻 在线| 好男人视频免费观看在线| 赤兔流量卡办理| 草草在线视频免费看| 最近2019中文字幕mv第一页| 一级毛片黄色毛片免费观看视频| 一二三四中文在线观看免费高清| 国产不卡av网站在线观看| 国产麻豆69| 一级黄片播放器| 最近中文字幕2019免费版| 亚洲av电影在线观看一区二区三区| av线在线观看网站| 波多野结衣一区麻豆| 欧美 亚洲 国产 日韩一| 99国产精品免费福利视频| av又黄又爽大尺度在线免费看| 妹子高潮喷水视频| 一级,二级,三级黄色视频| 大片免费播放器 马上看| 考比视频在线观看| 精品一区二区免费观看| 国产无遮挡羞羞视频在线观看| 制服丝袜香蕉在线| videossex国产| 熟女av电影| 桃花免费在线播放| 国产欧美日韩一区二区三区在线| 1024视频免费在线观看| 中文乱码字字幕精品一区二区三区| www.av在线官网国产| 中文精品一卡2卡3卡4更新| 在线亚洲精品国产二区图片欧美| 国产精品 国内视频| 亚洲 欧美一区二区三区| 亚洲美女搞黄在线观看| 久久鲁丝午夜福利片| 天堂中文最新版在线下载| 国产精品人妻久久久影院| 卡戴珊不雅视频在线播放| 女的被弄到高潮叫床怎么办| 午夜免费男女啪啪视频观看| 久久99精品国语久久久| 亚洲国产最新在线播放| 五月开心婷婷网| 搡老乐熟女国产| 少妇精品久久久久久久| 亚洲av成人精品一二三区| 韩国av在线不卡| 插逼视频在线观看| 国产1区2区3区精品| 午夜免费男女啪啪视频观看| av播播在线观看一区| 成人国产麻豆网| 日韩一区二区三区影片| 免费黄色在线免费观看| 亚洲欧美色中文字幕在线| 男女免费视频国产| 免费av中文字幕在线| 欧美丝袜亚洲另类| 在线天堂中文资源库| www.色视频.com| 2021少妇久久久久久久久久久| 欧美97在线视频| 日韩一本色道免费dvd| 黑人欧美特级aaaaaa片| 久热久热在线精品观看| 性高湖久久久久久久久免费观看| 一区二区av电影网| 国产精品嫩草影院av在线观看| 蜜桃在线观看..| 日韩中字成人| 蜜桃国产av成人99| 日本与韩国留学比较| av女优亚洲男人天堂| 成人亚洲精品一区在线观看| 国精品久久久久久国模美| 国产精品人妻久久久久久| 亚洲精品色激情综合| 国产欧美日韩一区二区三区在线| 哪个播放器可以免费观看大片| 97精品久久久久久久久久精品| 你懂的网址亚洲精品在线观看| 精品少妇久久久久久888优播| 赤兔流量卡办理| 精品久久蜜臀av无| 少妇精品久久久久久久| av免费在线看不卡| 亚洲av在线观看美女高潮| 18在线观看网站| 一二三四中文在线观看免费高清| 建设人人有责人人尽责人人享有的| 大陆偷拍与自拍| 精品国产一区二区三区久久久樱花| 最新中文字幕久久久久| 久久国内精品自在自线图片| 欧美变态另类bdsm刘玥| 91国产中文字幕| 丝袜美足系列| 国产xxxxx性猛交| 久久99精品国语久久久| 男男h啪啪无遮挡| 在线观看一区二区三区激情| 亚洲精品乱码久久久久久按摩| 黄片播放在线免费| 日日啪夜夜爽| a级毛片在线看网站| 黄片播放在线免费| 国产乱人偷精品视频| 伊人亚洲综合成人网| 午夜免费鲁丝| 国产日韩欧美亚洲二区| 精品人妻偷拍中文字幕| 国产片内射在线| 国产日韩欧美视频二区| 国产免费现黄频在线看| 亚洲精品色激情综合| 午夜91福利影院| 女性被躁到高潮视频| 久久久欧美国产精品| 菩萨蛮人人尽说江南好唐韦庄| 最近手机中文字幕大全| 人妻 亚洲 视频| 搡女人真爽免费视频火全软件| 国产成人aa在线观看| 国产白丝娇喘喷水9色精品| 日本与韩国留学比较| 天美传媒精品一区二区| 伊人久久国产一区二区| av网站免费在线观看视频| 综合色丁香网| tube8黄色片| 亚洲精品,欧美精品| 咕卡用的链子| 亚洲人成网站在线观看播放| 婷婷色综合大香蕉| 欧美国产精品va在线观看不卡| 亚洲性久久影院| 不卡视频在线观看欧美| 午夜免费鲁丝| 国产欧美亚洲国产| 少妇猛男粗大的猛烈进出视频| 不卡视频在线观看欧美| 亚洲欧美日韩卡通动漫| 成人亚洲精品一区在线观看| 王馨瑶露胸无遮挡在线观看| 国产高清不卡午夜福利| 丰满少妇做爰视频| 肉色欧美久久久久久久蜜桃| 高清欧美精品videossex| 最近中文字幕2019免费版| 亚洲婷婷狠狠爱综合网| 在线天堂最新版资源| 99久久综合免费| 色94色欧美一区二区| 黄色毛片三级朝国网站| 欧美最新免费一区二区三区| 咕卡用的链子| 永久网站在线| 午夜激情av网站| 欧美精品一区二区大全| 少妇人妻精品综合一区二区| 2022亚洲国产成人精品| 国产无遮挡羞羞视频在线观看| 久久99蜜桃精品久久| 丰满饥渴人妻一区二区三| 国产精品偷伦视频观看了| 韩国高清视频一区二区三区| 免费观看a级毛片全部| 亚洲成人一二三区av| 如日韩欧美国产精品一区二区三区| 欧美丝袜亚洲另类| 99香蕉大伊视频| 亚洲欧美日韩另类电影网站| 日韩一区二区视频免费看| 少妇人妻精品综合一区二区| 美女中出高潮动态图| 国产免费现黄频在线看| 免费观看性生交大片5| 国产毛片在线视频| 一边亲一边摸免费视频| 丝袜喷水一区| 亚洲精品久久久久久婷婷小说| 在线观看三级黄色| 国产爽快片一区二区三区| 国产av精品麻豆| 观看美女的网站| 日韩欧美一区视频在线观看| 美女主播在线视频| 女性被躁到高潮视频| 岛国毛片在线播放| 国产麻豆69| 999精品在线视频| 国产女主播在线喷水免费视频网站| 亚洲,一卡二卡三卡| 国产日韩欧美在线精品| 精品福利永久在线观看| 国产日韩一区二区三区精品不卡| 久久久a久久爽久久v久久| 亚洲熟女精品中文字幕| 中文字幕av电影在线播放| 极品少妇高潮喷水抽搐| 男女免费视频国产| 久久 成人 亚洲| 日韩精品免费视频一区二区三区 | 久久综合国产亚洲精品| 少妇精品久久久久久久| 天天躁夜夜躁狠狠久久av| 精品卡一卡二卡四卡免费| 国产午夜精品一二区理论片| 久久人人爽人人爽人人片va| 青春草国产在线视频| 亚洲久久久国产精品| 成人国语在线视频| 中文乱码字字幕精品一区二区三区| kizo精华| 777米奇影视久久| 欧美 日韩 精品 国产| av在线观看视频网站免费| a级毛片黄视频| 日本免费在线观看一区| 9色porny在线观看| 久热这里只有精品99| 日日撸夜夜添| 高清在线视频一区二区三区| 日韩精品有码人妻一区| 欧美成人精品欧美一级黄| 亚洲精品,欧美精品| 女性被躁到高潮视频| 国产熟女欧美一区二区| 欧美性感艳星| 亚洲丝袜综合中文字幕| 亚洲成国产人片在线观看| 少妇熟女欧美另类| 香蕉丝袜av| 在线观看美女被高潮喷水网站| 久久婷婷青草| av又黄又爽大尺度在线免费看| 如何舔出高潮| 最近中文字幕2019免费版| 精品久久国产蜜桃| 日日啪夜夜爽| 只有这里有精品99| av电影中文网址| 免费看不卡的av| 黄片无遮挡物在线观看| 欧美人与性动交α欧美软件 | av在线播放精品| 国产精品不卡视频一区二区| 国产国语露脸激情在线看| 欧美人与性动交α欧美软件 | 国产av国产精品国产| 国产精品人妻久久久久久| 亚洲一级一片aⅴ在线观看| 国产精品99久久99久久久不卡 | 欧美成人午夜免费资源| 亚洲一区二区三区欧美精品| 我要看黄色一级片免费的| 黑丝袜美女国产一区| 91精品国产国语对白视频| 看十八女毛片水多多多| 亚洲 欧美一区二区三区| 在线天堂中文资源库| 自拍欧美九色日韩亚洲蝌蚪91| 三上悠亚av全集在线观看| 最黄视频免费看| 青春草国产在线视频| 中文字幕人妻丝袜制服| 在线观看美女被高潮喷水网站| 一级爰片在线观看| 日本vs欧美在线观看视频| 国产欧美日韩一区二区三区在线| 视频在线观看一区二区三区| 亚洲欧美日韩卡通动漫| 国产欧美亚洲国产| 日本爱情动作片www.在线观看| 亚洲精品一二三| 国产视频首页在线观看| 男人添女人高潮全过程视频| av又黄又爽大尺度在线免费看| 亚洲第一av免费看| 国产精品人妻久久久影院| 国产乱人偷精品视频| 亚洲国产av新网站| 中文字幕免费在线视频6| 1024视频免费在线观看| 51国产日韩欧美| 中文天堂在线官网| 狂野欧美激情性bbbbbb| 黑人高潮一二区| 韩国精品一区二区三区 | 亚洲五月色婷婷综合| 男女免费视频国产| 少妇猛男粗大的猛烈进出视频| 国产一区二区三区综合在线观看 | 久久精品国产a三级三级三级| 视频区图区小说| 女的被弄到高潮叫床怎么办| 中文欧美无线码| 曰老女人黄片| 一级,二级,三级黄色视频| 少妇人妻精品综合一区二区| 这个男人来自地球电影免费观看 | 国产国拍精品亚洲av在线观看| 九色亚洲精品在线播放| 亚洲精品自拍成人| 一级黄片播放器| 在线观看免费日韩欧美大片| 成年人午夜在线观看视频| 母亲3免费完整高清在线观看 | 免费观看无遮挡的男女| 久久久久久久久久久免费av| 国产免费一区二区三区四区乱码| 女人久久www免费人成看片| 18禁在线无遮挡免费观看视频| 亚洲人成77777在线视频| 久久99热这里只频精品6学生| 99re6热这里在线精品视频| 天堂8中文在线网| 欧美激情极品国产一区二区三区 | 国产成人精品福利久久| 久久午夜福利片| 中文字幕另类日韩欧美亚洲嫩草| 日本爱情动作片www.在线观看| 亚洲国产精品999| 日本爱情动作片www.在线观看| 免费大片黄手机在线观看| 少妇猛男粗大的猛烈进出视频| 免费看光身美女| 最近中文字幕高清免费大全6| 黄色配什么色好看| 午夜福利视频精品| 久久人妻熟女aⅴ| 午夜老司机福利剧场| 日本-黄色视频高清免费观看| 亚洲婷婷狠狠爱综合网| 中文字幕人妻丝袜制服| 又黄又粗又硬又大视频| 伦理电影大哥的女人| av国产精品久久久久影院| 伦精品一区二区三区| av天堂久久9| 国产成人午夜福利电影在线观看| 2018国产大陆天天弄谢| 男女午夜视频在线观看 | 欧美日韩亚洲高清精品| 日产精品乱码卡一卡2卡三| 亚洲成人一二三区av| av在线观看视频网站免费| 国产精品一二三区在线看| 国产欧美日韩综合在线一区二区| 亚洲国产毛片av蜜桃av| 日本猛色少妇xxxxx猛交久久| 99国产精品免费福利视频| 美女福利国产在线| 成人亚洲精品一区在线观看| 亚洲色图综合在线观看| 免费女性裸体啪啪无遮挡网站| 下体分泌物呈黄色| 日产精品乱码卡一卡2卡三| 99热全是精品| 日韩人妻精品一区2区三区| 99热6这里只有精品| 街头女战士在线观看网站| 97在线人人人人妻| 中国国产av一级| 精品熟女少妇av免费看| 另类精品久久| 高清av免费在线| 女性生殖器流出的白浆| 久久人人爽人人片av| 十分钟在线观看高清视频www| 欧美老熟妇乱子伦牲交| av不卡在线播放| 观看av在线不卡| 久久久精品免费免费高清| 欧美日韩国产mv在线观看视频| 只有这里有精品99| 久久国产精品男人的天堂亚洲 | 成年美女黄网站色视频大全免费| 国产精品蜜桃在线观看| 国国产精品蜜臀av免费| 免费av不卡在线播放| 麻豆乱淫一区二区| 最近最新中文字幕免费大全7| 伦精品一区二区三区| 曰老女人黄片| 极品人妻少妇av视频| 日韩成人伦理影院| 五月天丁香电影| 精品国产乱码久久久久久小说| 午夜视频国产福利| 日韩免费高清中文字幕av| 成人黄色视频免费在线看| 午夜免费观看性视频| 性色avwww在线观看| 亚洲熟女精品中文字幕| 人妻 亚洲 视频| 精品久久久精品久久久| 日本午夜av视频| 国产精品国产av在线观看| 最近手机中文字幕大全| 最黄视频免费看| 97超碰精品成人国产| 在现免费观看毛片| 又大又黄又爽视频免费| 亚洲精品一二三| 中文乱码字字幕精品一区二区三区| 人人妻人人澡人人看| 国产伦理片在线播放av一区| www日本在线高清视频| 最新中文字幕久久久久| 尾随美女入室|