• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    風(fēng)險(xiǎn)敏感馬氏決策過程與狀態(tài)擴(kuò)充變換*

    2023-02-03 08:07:14馬帥夏俐
    關(guān)鍵詞:報(bào)酬測(cè)度方差

    馬帥,夏俐

    中山大學(xué)管理學(xué)院,廣東廣州 510275

    馬氏決策過程(MDP,Markov decision process),又稱馬氏控制過程(controlled Markov process)或隨機(jī)動(dòng)態(tài)規(guī)劃(stochastic dynamic programming),其主要研究對(duì)象是轉(zhuǎn)移結(jié)構(gòu)受控的隨機(jī)動(dòng)態(tài)系統(tǒng)。根據(jù)系統(tǒng)的狀態(tài),決策者選取一個(gè)動(dòng)作來控制或影響系統(tǒng)的演化,這種狀態(tài)-動(dòng)作映射即為一個(gè)策略。在無后效性的策略作用下,MDP將產(chǎn)生一個(gè)含報(bào)酬信號(hào)的馬氏過程(MRP,Markov reward process)。在隨機(jī)報(bào)酬過程{Rt}的基礎(chǔ)上,MDP的優(yōu)化準(zhǔn)則(optimality criterion)量化了策略的性能。經(jīng)典的優(yōu)化準(zhǔn)則主要考慮風(fēng)險(xiǎn)中性(risk-neutral)的累計(jì)報(bào)酬期望,主要分為累積(折扣)準(zhǔn)則與長期平均準(zhǔn)則。由于期望準(zhǔn)則滿足全期望公式且具有時(shí)間一致性(time-consistency),該準(zhǔn)則下的最優(yōu)策略可通過Bellman 最優(yōu)方程迭代得到。由于風(fēng)險(xiǎn)中性優(yōu)化準(zhǔn)則的良好性質(zhì),此類準(zhǔn)則已被廣泛研究[1-2]。然而經(jīng)典理論中無風(fēng)險(xiǎn)概念的優(yōu)化準(zhǔn)則無法滿足諸如金融、交通、醫(yī)療與能源等領(lǐng)域中風(fēng)險(xiǎn)敏感(risk-sensitive)工程問題的實(shí)際要求,即決策者難以接受伴有高風(fēng)險(xiǎn)的高收益。

    隨著人們對(duì)風(fēng)險(xiǎn)的愈發(fā)重視,針對(duì)MDP 中風(fēng)險(xiǎn)準(zhǔn)則的研究漸受關(guān)注。該研究通常包含兩類問題,一類是當(dāng)MDP 模型信息不完備,由參數(shù)不確定性造成的風(fēng)險(xiǎn)。此類問題通常被稱為魯棒控制(robust control),決策者需針對(duì)最壞情況下的參數(shù)組合進(jìn)行優(yōu)化[3]。本文主要研究由MDP 內(nèi)在隨機(jī)性引起的風(fēng)險(xiǎn),此類問題被稱為風(fēng)險(xiǎn)敏感MDP(risk-sensitive MDP)。風(fēng)險(xiǎn)敏感MDP 是一個(gè)重要研究方向,通常對(duì)標(biāo)風(fēng)險(xiǎn)中性MDP,與魯棒控制和微分博弈(differential game)存在密切的聯(lián)系,是對(duì)傳統(tǒng)風(fēng)險(xiǎn)中性MDP 的擴(kuò)展。風(fēng)險(xiǎn)敏感MDP 中,決策者需選取一個(gè)最優(yōu)策略,在該策略下可以生成一個(gè)“好”的隨機(jī)報(bào)酬過程{Rt},其中Rt為t∈N 時(shí)刻所得一步報(bào)酬。對(duì)“好”的量化體現(xiàn)于優(yōu)化準(zhǔn)則中,通常用風(fēng)險(xiǎn)測(cè)度(risk measures)將一個(gè)策略下的{Rt}轉(zhuǎn)化為標(biāo)量,并考查該策略是否滿足可能存在的約束集。風(fēng)險(xiǎn)敏感MDP 中的風(fēng)險(xiǎn)測(cè)度ρ可以分為兩類,一類著重考查{Rt}的動(dòng)態(tài)性,通常定義為

    其中ρt為t∈N 時(shí)刻的條件風(fēng)險(xiǎn)測(cè)度,此類風(fēng)險(xiǎn)測(cè)度被稱為Markov風(fēng)險(xiǎn)測(cè)度(Markov risk measure)[4-5]。另一類測(cè)度定義在一個(gè)由{Rt}簡化而來的靜態(tài)隨機(jī)變量,該靜態(tài)隨機(jī)變量通常被定義為累積(折扣)報(bào)酬或平均報(bào)酬。以無限階段MDP為例,給定折扣因子γ∈(0,1),其累積折扣報(bào)酬定義為

    該隨機(jī)變量也被稱為收益(return),經(jīng)典的期望準(zhǔn)則與一系列風(fēng)險(xiǎn)測(cè)度皆定義于此類靜態(tài)隨機(jī)變量。相比于Markov 風(fēng)險(xiǎn)測(cè)度,基于靜態(tài)隨機(jī)變量的風(fēng)險(xiǎn)測(cè)度被廣泛研究,主要可分為三類:基于方差的測(cè)度、基于效用的測(cè)度與基于分位數(shù)的測(cè)度。

    方差作為隨機(jī)變量的中心二階矩,是一種天然的風(fēng)險(xiǎn)測(cè)度。風(fēng)險(xiǎn)敏感MDP中的方差準(zhǔn)則包括:

    收益方差V(Φ),該準(zhǔn)則針對(duì)收益的方差進(jìn)行優(yōu)化。Sobel 為帶有確定性報(bào)酬的MRP 收益方差給出了解析解[6]。Mannor 和Tsitsiklis 證明了有限階段的均值-方差問題為NP-難[7]。Tamar 等[8]為多種基于收益方差的優(yōu)化準(zhǔn)則提出了基于策略梯度的優(yōu)化方法。Xie等[9]針對(duì)均值-方差問題提出了坐標(biāo)下降法。

    相比于前兩類方差,該準(zhǔn)則旨在量化一步報(bào)酬的穩(wěn)定性。Sobel和Chung研究了帶有均值約束的單鏈MDP中穩(wěn)態(tài)方差優(yōu)化問題[12-13]。Prashanth 等[14]應(yīng)用Actor-Critic 算法估計(jì)策略梯度,進(jìn)而優(yōu)化穩(wěn)態(tài)方差,該方法的局部收斂性可通過常微分方程證明。Gosavi[15]針對(duì)穩(wěn)態(tài)方差提出了Q-learning算法,該算法在假設(shè)下可收斂。Xia[16]針對(duì)穩(wěn)態(tài)方差的時(shí)變性,提出了“偽方差”的概念,進(jìn)而提出了高效的策略迭代算法?;谠撍惴ǎ琈a等[17]在穩(wěn)態(tài)方差的基礎(chǔ)上引入折扣因子,以一步報(bào)酬波動(dòng)性現(xiàn)值的累積為優(yōu)化目標(biāo),針對(duì)一類基于該方差的優(yōu)化準(zhǔn)則提出了兩層優(yōu)化算法框架,并在該框架下提出了值迭代算法,并證明其局部收斂性。

    由于有著諸多良好性質(zhì),基于方差的優(yōu)化準(zhǔn)則被廣泛應(yīng)用于金融、能源、交通與制造業(yè)等領(lǐng)域的風(fēng)險(xiǎn)敏感決策問題。金融市場(chǎng)中,Markowitz將方差引入優(yōu)化目標(biāo),在投資組合領(lǐng)域提出了均值-方差優(yōu)化方法[18]。這種方法被廣泛應(yīng)用于投資組合及對(duì)沖等金融問題[19]。能源領(lǐng)域中,當(dāng)間歇性清潔能源(風(fēng)電、水電、太陽能等)接入電網(wǎng),如何借助儲(chǔ)能設(shè)施,建立合理的充/放電策略,使得電網(wǎng)的穩(wěn)態(tài)負(fù)載方差較小,對(duì)電網(wǎng)的安全性與經(jīng)濟(jì)性至關(guān)重要[20]。交通系統(tǒng)中,交通擁堵與安全等問題往往與交通流的波動(dòng)性直接相關(guān),尤其是在不久的將來,智能網(wǎng)聯(lián)車逐漸增多,如何調(diào)控此類異質(zhì)交通流將會(huì)成為研究熱點(diǎn)[21]。工業(yè)界中,方差可以作為產(chǎn)品質(zhì)量控制的優(yōu)化目標(biāo),進(jìn)而平穩(wěn)生產(chǎn)流程,減小產(chǎn)品質(zhì)量波動(dòng)[22]。當(dāng)被考查隨機(jī)變量的分布近似正態(tài)分布時(shí),方差是一個(gè)良好的風(fēng)險(xiǎn)測(cè)度。然而當(dāng)分布的對(duì)稱性較差,或隨機(jī)變量的正/負(fù)偏差需要區(qū)別對(duì)待時(shí),方差不再是一個(gè)合適的優(yōu)化準(zhǔn)則。

    效用理論始于經(jīng)濟(jì)學(xué),最早由Morgenstern 和von Neumann于1947年提出[23]。效用理論將隨機(jī)收益所產(chǎn)生的效用定義為確定性等價(jià)物(certainty equivalent),即與該隨機(jī)收益具有相同效用值的確定性收益,該確定性收益取決于決策者對(duì)不同風(fēng)險(xiǎn)情況的主觀評(píng)價(jià)。經(jīng)典案例有阿萊悖論(Allais Paradox)[24]與圣彼得堡悖論(St.Petersburg Paradox)[25]。阿萊悖論表示,決策者更愿意選擇100%的概率得到100 萬元,而非10%的概率得到500 萬元,89%的概率得到100萬元,1%的概率無收益,即使前者的期望收益小于后者。該情況出現(xiàn)的原因被歸結(jié)為確定性效應(yīng)(certainty effect),即決策者過度重視確定性的收益。圣彼得堡悖論表示,人們不愿意以較大的付出來參與一場(chǎng)收益期望無限大的游戲。該游戲中,參與者需投擲一枚硬幣,若第一次投擲為正面,可得收益2且游戲結(jié)束;若第一次投擲為反面,則繼續(xù)投擲,若第二次為正面則可得得收益4,且游戲結(jié)束,如此,參與者若投擲不成功則繼續(xù)投擲,直到成功。若第n次投擲成功,則收益為2n,游戲結(jié)束。人們不愿意以較大的付出來參與該游戲的原因主要被歸結(jié)于決策者會(huì)弱化小概率事件的意義。上述例子中決策者的主觀態(tài)度可以通過效用函數(shù)進(jìn)行量化。風(fēng)險(xiǎn)敏感MDP 中,效用函數(shù)形式通常為U-1{E[U(Φ)]}.指數(shù)效用(exponential utility)是效用函數(shù)族中的經(jīng)典形式,被應(yīng)用于最早的風(fēng)險(xiǎn)敏感MDP模型[26],由于其結(jié)構(gòu)的良好性質(zhì),可以構(gòu)成特殊的乘法形式Bellman方程。該效用可表示為

    即U(x) ?exp(βx).Chung等[27]首次針對(duì)收益的指數(shù)效用研究了基于收益分布的不動(dòng)點(diǎn)定理。B?uerle等[28]證明MDP中指數(shù)效用準(zhǔn)則可通過定義擴(kuò)充狀態(tài)空間進(jìn)而通過值迭代算法求解。Zhang為連續(xù)時(shí)間MDP中的指數(shù)效用準(zhǔn)則建立了最優(yōu)方程,并證明了最優(yōu)確定性平穩(wěn)策略的存在性[29]。實(shí)際工程中,指數(shù)效用準(zhǔn)則被應(yīng)用于軍事[30]、金融[31]與交通[32]等領(lǐng)域。

    分位數(shù)是對(duì)隨機(jī)變量分布最直接的刻畫。風(fēng)險(xiǎn)價(jià)值(VaR,value at risk)是一種經(jīng)典的基于分位數(shù)的測(cè)度,它起源于金融界,由JP 摩根(J P Morgan)于20 世紀(jì)80 年代提出,并于90 年代被列入到《巴塞爾協(xié)議》中。作為商業(yè)銀行資產(chǎn)風(fēng)險(xiǎn)評(píng)估的標(biāo)準(zhǔn)之一,VaR 刻畫了在一定的概率水平(α)下收益的最小可能值(τ)。從數(shù)學(xué)上講,數(shù)值對(duì)(τ,α)為隨機(jī)變量累積分布函數(shù)(CDF,cumulative distribution function)上的點(diǎn),而α-VaR 即α分位點(diǎn)。Filar 等[33]為風(fēng)險(xiǎn)敏感MDP 中基于VaR 的研究定義了兩類問題:給定α下τ的優(yōu)化與給定τ下α的優(yōu)化。雖然兩個(gè)問題都是對(duì)收益CDF 的直接優(yōu)化,但在風(fēng)險(xiǎn)敏感MDP 中的方法卻不盡相同[34]。VaR 雖然是一種直觀的風(fēng)險(xiǎn)測(cè)度,但并不具有良好的數(shù)學(xué)性質(zhì)(如凸性),不能很好地度量尾部風(fēng)險(xiǎn),且不滿足一致性公理。在VaR 的基礎(chǔ)上,Rockafellar 等[35]于2000 年提出一種新的風(fēng)險(xiǎn)測(cè)度——條件風(fēng)險(xiǎn)價(jià)值(CVaR,conditional VaR)。CVaR 又被稱為expected shortfall、average value at risk 或expected tail loss,它量化了在收益不小于給定VaR 值的條件下收益的平均值。與VaR 相比,CVaR 滿足次可加性、正齊次性、單調(diào)性及傳遞不變性,因而CVaR 是一種一致性(coherent)風(fēng)險(xiǎn)測(cè)度[36]。由于具有較好的數(shù)學(xué)性質(zhì),CVaR在風(fēng)險(xiǎn)敏感MDP中具有較為廣泛的研究。Borkar和Jain針對(duì)帶有CVaR約束的有限階段MDP問題提出了動(dòng)態(tài)規(guī)劃算法,并證明了算法的收斂性。然而該算法涉及連續(xù)變量的積分,在實(shí)際應(yīng)用中難以實(shí)施[37]。B?uerle和Ott證明了CVaR準(zhǔn)則下存在最優(yōu)Markov策略,該策略定義在包含了累積報(bào)酬的擴(kuò)充狀態(tài)空間上[38]?;谠摂U(kuò)充空間,Haskell 和Jain 為CVaR 準(zhǔn)則下的MDP 問題提出了基于數(shù)學(xué)規(guī)劃的算法,然而該非凸規(guī)劃需要通過求解一系列的線性規(guī)劃進(jìn)行近似求解[39]。Prashanth 針對(duì)帶有CVaR 約束的MDP問題提出了策略梯度算法,該算法可收斂至局部最優(yōu)[40]。Chow 等從魯棒優(yōu)化的角度分析了CVaR 準(zhǔn)則下的MDP 問題,證明了其與帶約束魯棒優(yōu)化問題的等價(jià)性,并提出了近似值迭代算法[41]。除了金融領(lǐng)域[42],CVaR也被廣泛應(yīng)用于能源[43]、交通[44]與醫(yī)療[45]等領(lǐng)域中。針對(duì)CVaR的綜述,見文獻(xiàn)[46]。

    由文獻(xiàn)綜述可見,針對(duì)不同的風(fēng)險(xiǎn)測(cè)度,學(xué)者們提出了諸多理論方法,然而理論方法與工程問題常存有差異。對(duì)于風(fēng)險(xiǎn)敏感MDP 而言,這種差異的主要形式之一就是報(bào)酬函數(shù)的差異。當(dāng)系統(tǒng)的不確定性來源復(fù)雜時(shí),風(fēng)險(xiǎn)敏感MDP 中的報(bào)酬函數(shù)形式將隨之變得復(fù)雜。理論方法中的MDP 報(bào)酬通常是確定性的、基于當(dāng)前狀態(tài)的[47-51],即Rt=r(Xt,Kt),其中r為報(bào)酬函數(shù),Xt與Kt分別為t∈N 時(shí)刻的狀態(tài)與動(dòng)作;而工程問題中的報(bào)酬可能是隨機(jī)的、基于狀態(tài)轉(zhuǎn)移的,如Rt~r(Xt,Kt,Xt+1),其中r為報(bào)酬分布函數(shù)。這種報(bào)酬函數(shù)形式的差異對(duì)風(fēng)險(xiǎn)中性的期望準(zhǔn)則而言無關(guān)緊要,通常方法即將報(bào)酬函數(shù)進(jìn)行線性簡化(見定義1)。然而對(duì)于風(fēng)險(xiǎn)敏感MDP 而言,這種對(duì)報(bào)酬函數(shù)的簡化將改變隨機(jī)報(bào)酬過程{Rt},進(jìn)而改變絕大部分風(fēng)險(xiǎn)測(cè)度。以累積折扣報(bào)酬的方差為例,Sobel 為帶有確定性報(bào)酬函數(shù)的無限階段離散MRP給出了方差評(píng)估算法,然而該方法無法直接應(yīng)用于帶有隨機(jī)報(bào)酬的MRP[6]。針對(duì)此類問題,一種解決方案是對(duì)報(bào)酬函數(shù)進(jìn)行簡化,然而該簡化將改變MRP 的{Rt},進(jìn)而改變累積折扣報(bào)酬的方差。另一種方法是針對(duì)此類問題開發(fā)專門的(ad hoc)算法,但這種算法的設(shè)計(jì)開發(fā)需要工程相關(guān)的從業(yè)人員對(duì)問題本質(zhì)有著深度的理解。如何從實(shí)際問題出發(fā),考慮絕大部分風(fēng)險(xiǎn)測(cè)度,將針對(duì)簡單模型的理論方法與實(shí)際中的復(fù)雜工程問題合理對(duì)接,是風(fēng)險(xiǎn)敏感MDP中的一個(gè)重要問題,具有一定的理論意義和廣泛的應(yīng)用背景。

    狀態(tài)擴(kuò)充變換(SAT,state augmentation transformation)針對(duì)風(fēng)險(xiǎn)敏感MDP,將帶有復(fù)雜報(bào)酬函數(shù)的MDP 變換為帶有簡單報(bào)酬函數(shù)的MDP,且保證相同策略(原始策略與對(duì)應(yīng)擴(kuò)充策略)下MRP 的隨機(jī)報(bào)酬過程{Rt}不變。本文針對(duì)MDP中的策略評(píng)價(jià),通過數(shù)值實(shí)驗(yàn),在給定策略下的MDP中考查三類常用的風(fēng)險(xiǎn)測(cè)度:方差、指數(shù)效用與條件風(fēng)險(xiǎn)價(jià)值,并對(duì)比通過SAT 與報(bào)酬函數(shù)簡化所得三類風(fēng)險(xiǎn)的差異,進(jìn)而驗(yàn)證SAT對(duì)帶有復(fù)雜報(bào)酬函數(shù)/隨機(jī)策略的MDP中風(fēng)險(xiǎn)敏感策略評(píng)價(jià)的有效性。理論驗(yàn)證與數(shù)值實(shí)驗(yàn)均表明,當(dāng)報(bào)酬函數(shù)形式較為復(fù)雜時(shí),狀態(tài)擴(kuò)充變換可在簡化報(bào)酬函數(shù)的同時(shí)保持風(fēng)險(xiǎn)測(cè)度不變。故而在不確定性來源復(fù)雜的風(fēng)險(xiǎn)敏感工程問題中,需通過SAT 而非簡化報(bào)酬函數(shù)來對(duì)MDP進(jìn)行報(bào)酬函數(shù)形式上的簡化。最后,討論SAT的一些潛在發(fā)展方向。

    1 風(fēng)險(xiǎn)敏感MDP模型

    1.1 MDP模型

    本文主要研究無限階段時(shí)齊(time-homogeneous)離散MDP,其狀態(tài)與動(dòng)作數(shù)量均為有限。一個(gè)MDP可定義如下:

    (i)確定性的、基于狀態(tài)的報(bào)酬rDS:S×A→R;

    (ii)確定性的、基于狀態(tài)轉(zhuǎn)移的報(bào)酬rDT:S×A×S→R;

    (iii)隨機(jī)性的、基于狀態(tài)的報(bào)酬rSS:S×A→Δ(R);

    (iv)隨機(jī)性的、基于狀態(tài)轉(zhuǎn)移的報(bào)酬rST:S×A×S→Δ(R).r∈{rDS,rDT,rSS,rST}為系統(tǒng)的報(bào)酬函數(shù)或報(bào)酬分布函數(shù),令Rt∈[-C,C]為t時(shí)刻的一步報(bào)酬,其中C∈R 為一步報(bào)酬絕對(duì)值的上確界。簡潔起見,相同報(bào)酬函數(shù)表述也被使用于MRP。對(duì)于隨機(jī)性報(bào)酬,本文僅考慮離散隨機(jī)報(bào)酬分布。

    策略描述了決策者如何選擇動(dòng)作。針對(duì)無限階段MDP,本文僅考查平穩(wěn)Markov策略,即當(dāng)前動(dòng)作的選擇僅依賴于當(dāng)前狀態(tài)而非整個(gè)歷史,且策略不隨時(shí)間改變。用D表示平穩(wěn)Markov策略空間,其可進(jìn)一步分為確定性策略空間Dd與隨機(jī)性策略空間Dr。M在策略d∈Dd的作用下將構(gòu)成Md=S,rd,pd,μ,γ②此處忽略策略對(duì)狀態(tài)空間的可能影響。。需 注 意 的 是,M在 策 略d∈Dr的 作 用 下 構(gòu) 成 的Md不 能 直 接 表 述 為S,rd,pd,μ,γ,這是因?yàn)樵摫硎霭凳玖藞?bào)酬函數(shù)的部分簡化,進(jìn)而改變{Rt}。這也是下文中,情況3無法與情況2建立等價(jià)性的原因。

    定義1(報(bào)酬函數(shù)線性簡化) 給定一個(gè)M與策略d∈D,若所得MRP的報(bào)酬(分布)函數(shù)rd非rDS型,則可通過計(jì)算條件期望將rd簡化為rDS??紤]最一般化的形式,以一個(gè)帶有rST的M在隨機(jī)策略d∈Dr下所生成的Md為例,其報(bào)酬函數(shù)可作如下線性簡化:

    其中supp{rd( · |x,a,y)}表示分布rd( · |x,a,y)的支集(support)。

    當(dāng)優(yōu)化準(zhǔn)則為風(fēng)險(xiǎn)中性的平均準(zhǔn)則或折扣準(zhǔn)則時(shí),報(bào)酬函數(shù)的線性簡化不會(huì)影響策略的最優(yōu)性。然而優(yōu)化目標(biāo)為風(fēng)險(xiǎn)測(cè)度時(shí),報(bào)酬函數(shù)的線性簡化將改變Md的{Rt},進(jìn)而改變策略的最優(yōu)性。下文將介紹三種常用風(fēng)險(xiǎn)測(cè)度的計(jì)算或估計(jì)。

    1.2 風(fēng)險(xiǎn)測(cè)度

    本部分內(nèi)容主要介紹三種經(jīng)典風(fēng)險(xiǎn)測(cè)度:方差、指數(shù)效用與CVaR。針對(duì)MRP的收益,三種風(fēng)險(xiǎn)測(cè)度可定義如下。

    方差 方差作為隨機(jī)變量的中心二階矩,是最具代表性的風(fēng)險(xiǎn)測(cè)度之一。MRP中收益的方差定義為

    其中Eμ與Vμ為給定系統(tǒng)初始狀態(tài)分布μ時(shí)的期望與方差。Sobel基于Bellman 方程,為帶有確定性報(bào)酬的MRP中收益的方差提供了一種高效計(jì)算方法。

    定理1為MRP收益的方差給出了一種類Bellman方程的高效算法,但該算法僅針對(duì)帶有確定性報(bào)酬的MRP。

    指數(shù)效用 給定一個(gè)風(fēng)險(xiǎn)敏感系數(shù)β∈R,MRP的指數(shù)效用為

    其中O( · )為無窮小漸近。由此可知,當(dāng)β<0 時(shí),該準(zhǔn)則為一種風(fēng)險(xiǎn)規(guī)避準(zhǔn)則。當(dāng)β足夠小時(shí),該準(zhǔn)則可以用收益的期望與方差近似估計(jì)。

    CVaR CVaR 是當(dāng)收益值超過某置信度下的VaR 情況時(shí)的條件數(shù)學(xué)期望,VaR 是收益在給定置信度α∈(0,1)下的最小收益值。給定一個(gè)置信度α,MRP的VaR定義為:

    雖然CVaR 作為一類一致性風(fēng)險(xiǎn)測(cè)度,具有良好的數(shù)學(xué)性質(zhì),但難以在MRP 中被高效評(píng)估。本文通過假設(shè)收益的分布近似服從正態(tài)分布,進(jìn)而對(duì)指數(shù)效用與CVaR進(jìn)行近似估計(jì)。

    假設(shè)1 MRP的收益近似服從正態(tài)分布。

    在假設(shè)1下,CVaR可如下估計(jì):

    其中g(shù)與G分別表示標(biāo)準(zhǔn)正態(tài)分布N (μ,σ2)的概率密度函數(shù)和累積分布函數(shù),該式被稱為逆米爾斯比率(inverse Mills ratio)。更多常用常見分布的CVaR表達(dá)式可見文獻(xiàn)[52]。

    當(dāng)一個(gè)帶有rST的MDP/MRP 需要應(yīng)用一種針對(duì)帶有rDS模型的理論方法時(shí),該如何處理方法與模型在報(bào)酬函數(shù)上的差異?一種方法是為特定問題開發(fā)新算法,但這種方法需要工程相關(guān)的從業(yè)人員對(duì)問題本質(zhì)有著深度的理解。另一種方法是應(yīng)用SAT將其變換為一個(gè)帶有確定性報(bào)酬的MDP/MRP。

    2 狀態(tài)擴(kuò)充變換

    針對(duì)理論方法與實(shí)際問題由于報(bào)酬函數(shù)的差異而引起的風(fēng)險(xiǎn)測(cè)度優(yōu)化與評(píng)估的問題,本文研究了狀態(tài)擴(kuò)充變換(以下簡稱SAT)[53]。該方法針對(duì)上述問題,從策略優(yōu)化與評(píng)價(jià)兩個(gè)角度為兩類MDP/MRP建立等價(jià)形式,即對(duì)于一個(gè)帶有復(fù)雜報(bào)酬函數(shù)的MDP/MRP,SAT 可以將其轉(zhuǎn)換為一個(gè)帶有簡單報(bào)酬函數(shù)的MDP/MRP,且兩者的{Rt}相同。本文針對(duì)MDP 中的策略評(píng)價(jià),考查三類不確定性來源:由狀態(tài)轉(zhuǎn)移導(dǎo)致的不確定性、報(bào)酬本身的隨機(jī)性與策略的隨機(jī)性。將不確定性來源依次擴(kuò)展,定義如下三種情況。

    情況1:帶有rDT的Md;

    情況2:帶有rST的Md;

    情況3:帶有rST的M和一個(gè)d∈Dr.

    其中情況1 為早期SAT 考慮的問題,因其針對(duì)帶有基于狀態(tài)轉(zhuǎn)移報(bào)酬函數(shù)的MRP,故又稱狀態(tài)轉(zhuǎn)移變換[54]。情況2 為情況1 的拓展,考慮了更一般化的報(bào)酬函數(shù)。情況3 將問題進(jìn)一步擴(kuò)展,將由策略引起的隨機(jī)性考慮進(jìn)來。三種情況中前者為后者的特殊形式,若以“ ?”表示此種關(guān)系,則有

    對(duì)于情況3下的SAT有如下定理。

    定理2(SAT 作用下的隨機(jī)報(bào)酬過程等價(jià)性) 對(duì)于任意MDPM=S,A,r,p,μ,γ,其中r為rST形式,在策略d∈Dr下所產(chǎn)生的Md與SAT變換所得M?d的{Rt}相同。

    證明 考慮Md下任意樣本路徑ω=(s0,a0,s1,j1,a1,s2,j2,a2,…)。對(duì)任意t∈N,令ω(t) =(s0,a0,s1,j1,a1,s2,j2,a2,…,st,at,st+1,jt+1)及其概率P(Ω(t) =ω(t))。對(duì)應(yīng)該樣本路徑,在M?d下

    該定理描述了情形3 中兩個(gè)帶有不同類型報(bào)酬函數(shù)的MRP 關(guān)于{Rt}的等價(jià)性,而當(dāng)兩個(gè)MRP 的{Rt}相同時(shí),其風(fēng)險(xiǎn)測(cè)度必然相同。針對(duì)MDP 的SAT 被證明于文獻(xiàn)[53],并于文獻(xiàn)[55]從概率空間的角度被進(jìn)一步補(bǔ)充。值得注意的是,當(dāng)直接將SAT 應(yīng)用于MDP進(jìn)行策略優(yōu)化時(shí),由于狀態(tài)空間的擴(kuò)充,對(duì)應(yīng)策略空間也需要擴(kuò)充。應(yīng)在擴(kuò)充策略空間上增加相應(yīng)約束,進(jìn)而保證其與原策略空間的一一映射關(guān)系,詳見文獻(xiàn)[55]。由定理2出發(fā),可得針對(duì)情況1與2的推論,此處以情況2 為例給出相應(yīng)推論。

    針對(duì)該推論的證明詳見文獻(xiàn)[53]。依據(jù)推論1,以一個(gè)帶有rSS報(bào)酬函數(shù)的二狀態(tài)MRP 為例,SAT 的作用如圖1 所示。圖中圓圈表示隨機(jī)過程的狀態(tài),箭頭表示狀態(tài)轉(zhuǎn)移,其上方的數(shù)字表示對(duì)應(yīng)的轉(zhuǎn)移概率,狀態(tài)旁的方框表示報(bào)酬,隨機(jī)性報(bào)酬表示為報(bào)酬值與括號(hào)中的概率。該圖示直觀地解釋了SAT 在簡化報(bào)酬函數(shù)的同時(shí)保持{Rt}不變的原理,即將對(duì)一步報(bào)酬有影響的因素綜合為一個(gè)擴(kuò)充狀態(tài),該擴(kuò)充狀態(tài)可以被理解為與報(bào)酬對(duì)應(yīng)的“情況”。SAT作用下產(chǎn)生的隨機(jī)過程保留了原過程的Markov性,且新的轉(zhuǎn)移核可由原MRP 的轉(zhuǎn)移核與報(bào)酬/策略的分布計(jì)算而得。圖1 中,帶有隨機(jī)報(bào)酬的狀態(tài)y被擴(kuò)充為兩個(gè)狀態(tài):y1與y2,分別代表了狀態(tài)為y時(shí),獲取報(bào)酬值為-1 與1 的兩種“情況”。基于擴(kuò)充狀態(tài)空間,該MRP的轉(zhuǎn)移概率可由原轉(zhuǎn)移概率與狀態(tài)y上的報(bào)酬分布計(jì)算而得。

    圖1 一個(gè)MRP在報(bào)酬函數(shù)線性簡化與SAT作用下的兩種變換Fig. 1 The linear reward simplification and the SAT on an MRP

    3 數(shù)值實(shí)驗(yàn)

    本部分內(nèi)容以圖1 所示MRP 為例,通過數(shù)值實(shí)驗(yàn)考查報(bào)酬函數(shù)簡化對(duì)三種風(fēng)險(xiǎn)測(cè)度的影響,同時(shí)驗(yàn)證SAT的有效性。由于指數(shù)效用與CVaR的估計(jì)均基于假設(shè)1,首先驗(yàn)證該假設(shè)對(duì)于此MRP是否成立,該驗(yàn)證可量化為近似分布與真實(shí)分布的誤差分布的尾部概率。

    3.1 近似分布的誤差

    當(dāng)ACDF與AECDF相似度較高時(shí),該近似分布的誤差概率界效果較好。

    3.2 仿真結(jié)果

    設(shè)初始分布μ(x) = 1(即初始狀態(tài)為x),γ=0.95,M=20,N=100,H=500,此時(shí)δ'≤1.454 9 × 10-10。通過應(yīng)用Monte Carlo 仿真模擬,可獲取N個(gè)分位數(shù)的均值與樣本標(biāo)準(zhǔn)差,進(jìn)而繪制帶有誤差區(qū)域的AECDF。分別計(jì)算報(bào)酬函數(shù)簡化與SAT 作用后的MRP 的期望與方差,并在假設(shè)1 下繪制兩者的ACDF。三條分布曲線如圖2 所示。由圖可見,在假設(shè)1 下,SAT 所得收益的ACDF 與AECDF 相似度較高(δ≈0.016 3),而報(bào)酬函數(shù)簡化所得收益的ACDF與AECDF相似度很低。

    圖2 近似經(jīng)驗(yàn)分布(AECDF)與假設(shè)1下的兩個(gè)近似分布(ACDF)對(duì)比,兩者的方差分別在報(bào)酬函數(shù)簡化與SAT作用下通過定理1進(jìn)行估計(jì)Fig. 2 A comparison between the approximated empirical CDF and the two approximated CDFs,whose variances are calculated by Theorem 1 with the aid of the SAT and the reward simplification,respectively

    SAT與報(bào)酬函數(shù)簡化作用下MRP的三種風(fēng)險(xiǎn)測(cè)度與仿真結(jié)果對(duì)比于表1。通過對(duì)比可見,SAT下的方差和CVaR與仿真結(jié)果較為接近,而報(bào)酬函數(shù)簡化下的結(jié)果則相差甚遠(yuǎn)。在不同風(fēng)險(xiǎn)敏感參數(shù)下對(duì)比指數(shù)效用,可見相對(duì)報(bào)酬函數(shù)簡化下的結(jié)果,SAT 所得結(jié)果與仿真結(jié)果更為接近。隨著風(fēng)險(xiǎn)敏感參數(shù)的增大,SAT對(duì)指數(shù)效用的估計(jì)精度也逐漸降低,這是因?yàn)槭?1)中的誤差項(xiàng)隨著風(fēng)險(xiǎn)敏感參數(shù)的增大而增大。

    表1 三種風(fēng)險(xiǎn)測(cè)度在SAT、報(bào)酬函數(shù)簡化與仿真模擬中的結(jié)果對(duì)比Table 1 The comparison among the three risk measures with the SAT,the reward simplification and the simulation

    4 結(jié)論與展望

    風(fēng)險(xiǎn)敏感MDP 是一類廣泛且重要的隨機(jī)動(dòng)態(tài)決策問題,由于不同風(fēng)險(xiǎn)測(cè)度的特性各有不同,且風(fēng)險(xiǎn)敏感的應(yīng)用場(chǎng)景較多,目前研究活躍且成果豐富。然而理論方法與實(shí)際問題間常有差異,若不能妥善處理此類差異,則將錯(cuò)誤評(píng)估風(fēng)險(xiǎn)程度,以致決策失敗。本文針對(duì)無限階段風(fēng)險(xiǎn)敏感MDP 理論方法與實(shí)際問題在報(bào)酬函數(shù)上的差異,研究了SAT 方法,并通過仿真實(shí)驗(yàn),對(duì)比了SAT 與報(bào)酬函數(shù)簡化對(duì)三類常用的風(fēng)險(xiǎn)測(cè)度的影響。數(shù)值結(jié)果顯示,通過SAT 所得到的數(shù)值與仿真結(jié)果較為接近,而報(bào)酬函數(shù)簡化將大幅改變風(fēng)險(xiǎn)測(cè)度值。SAT的本質(zhì)在于通過擴(kuò)充狀態(tài)空間,保留了完整的{Rt}信息,進(jìn)而在簡化報(bào)酬函數(shù)的同時(shí)保持風(fēng)險(xiǎn)測(cè)度不變。該方法為理論研究提供了帶有不同報(bào)酬函數(shù)的MRP 間的等價(jià)性,并為相關(guān)從業(yè)人員提供了一種直接將理論方法應(yīng)用于復(fù)雜實(shí)際問題的解決方案。

    SAT 在策略評(píng)價(jià)情景中的應(yīng)用較為直觀,而在決策優(yōu)化情景中的應(yīng)用則較為復(fù)雜。將SAT 直接應(yīng)用于MDP進(jìn)而優(yōu)化決策時(shí),由于擴(kuò)充了狀態(tài)空間,該MDP的策略空間也被擴(kuò)充,故需對(duì)擴(kuò)充策略空間加以約束,以保證與原策略空間的一一對(duì)應(yīng)。SAT 的另一個(gè)問題是狀態(tài)空間規(guī)模的擴(kuò)充導(dǎo)致問題維度組合式增大。考慮到定義在擴(kuò)充狀態(tài)空間上的轉(zhuǎn)移概率與原MDP 的轉(zhuǎn)移概率信息量相同,如何降低擴(kuò)充問題的維度是值得研究的問題。Ma 和Yu 針對(duì)擴(kuò)充狀態(tài)的相似性,給出了狀態(tài)歸并(state lumping)的條件,滿足該條件的狀態(tài)可歸并為一個(gè)狀態(tài),且不影響風(fēng)險(xiǎn)測(cè)度[55]。處理該問題的另一種思路是從報(bào)酬值的差異程度出發(fā),當(dāng)兩個(gè)擴(kuò)充狀態(tài)由同一原始狀態(tài)擴(kuò)充而來,且兩者報(bào)酬值差異不大時(shí),可近似為一個(gè)狀態(tài),這種近似會(huì)導(dǎo)致風(fēng)險(xiǎn)測(cè)度的改變,而這種差異的上界應(yīng)為報(bào)酬值差異的函數(shù)。

    猜你喜歡
    報(bào)酬測(cè)度方差
    沒有西瓜的夏天,就像沒有報(bào)酬的加班
    方差怎么算
    三個(gè)數(shù)字集生成的自相似測(cè)度的乘積譜
    R1上莫朗測(cè)度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
    概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
    非等熵Chaplygin氣體測(cè)度值解存在性
    Cookie-Cutter集上的Gibbs測(cè)度
    計(jì)算方差用哪個(gè)公式
    方差生活秀
    醫(yī)生的最佳報(bào)酬
    海外星云(2015年15期)2015-12-01 04:17:39
    亚洲精品国产精品久久久不卡| www国产在线视频色| 国产三级在线视频| 日本一本二区三区精品| 最近最新中文字幕大全免费视频| 午夜两性在线视频| 国产精品永久免费网站| 我要搜黄色片| 人人妻,人人澡人人爽秒播| 国产欧美日韩精品一区二区| 两个人视频免费观看高清| 亚洲精品日韩av片在线观看 | 亚洲久久久久久中文字幕| 国产精品精品国产色婷婷| 国产高潮美女av| 夜夜躁狠狠躁天天躁| 亚洲黑人精品在线| 日日夜夜操网爽| 久久久久久久精品吃奶| 亚洲精品日韩av片在线观看 | 欧美精品啪啪一区二区三区| 中国美女看黄片| 精品人妻1区二区| 亚洲成av人片在线播放无| 热99re8久久精品国产| 亚洲av日韩精品久久久久久密| 精品电影一区二区在线| 日日夜夜操网爽| 午夜激情福利司机影院| 琪琪午夜伦伦电影理论片6080| 精品国产亚洲在线| 久久久久久久亚洲中文字幕 | 听说在线观看完整版免费高清| 日韩人妻高清精品专区| 亚洲午夜理论影院| 在线看三级毛片| 女生性感内裤真人,穿戴方法视频| 亚洲精品一区av在线观看| 少妇高潮的动态图| 精品久久久久久久久久免费视频| av女优亚洲男人天堂| 18禁美女被吸乳视频| 久久精品国产清高在天天线| 免费在线观看影片大全网站| 脱女人内裤的视频| 操出白浆在线播放| 国产黄a三级三级三级人| 伊人久久大香线蕉亚洲五| 中文字幕av在线有码专区| 日本撒尿小便嘘嘘汇集6| 深爱激情五月婷婷| 97人妻精品一区二区三区麻豆| 两性午夜刺激爽爽歪歪视频在线观看| 免费观看的影片在线观看| 国产欧美日韩一区二区三| 亚洲中文字幕日韩| 观看免费一级毛片| 最近在线观看免费完整版| 亚洲av成人av| 亚洲精品亚洲一区二区| 9191精品国产免费久久| 97超级碰碰碰精品色视频在线观看| 国内毛片毛片毛片毛片毛片| 精华霜和精华液先用哪个| 又黄又爽又免费观看的视频| 国产成人啪精品午夜网站| 91久久精品国产一区二区成人 | 国产精品亚洲一级av第二区| 午夜久久久久精精品| 毛片女人毛片| АⅤ资源中文在线天堂| 精品电影一区二区在线| 91在线观看av| 欧美色视频一区免费| 天堂√8在线中文| 国产精品亚洲美女久久久| 久久久色成人| 国产精品爽爽va在线观看网站| 亚洲乱码一区二区免费版| 精品欧美国产一区二区三| 国产精品永久免费网站| 琪琪午夜伦伦电影理论片6080| 婷婷丁香在线五月| 欧美日韩中文字幕国产精品一区二区三区| 动漫黄色视频在线观看| 国内精品美女久久久久久| 国产极品精品免费视频能看的| 欧美最黄视频在线播放免费| 国产欧美日韩一区二区精品| 中文字幕人妻丝袜一区二区| 免费av不卡在线播放| 法律面前人人平等表现在哪些方面| 一本一本综合久久| 女生性感内裤真人,穿戴方法视频| 久99久视频精品免费| 亚洲国产欧洲综合997久久,| 亚洲国产精品合色在线| 精品久久久久久久久久免费视频| 18禁黄网站禁片午夜丰满| 搡老妇女老女人老熟妇| 热99在线观看视频| 色哟哟哟哟哟哟| 香蕉久久夜色| 内地一区二区视频在线| 真人一进一出gif抽搐免费| 乱人视频在线观看| 国产精品久久久久久精品电影| 国内少妇人妻偷人精品xxx网站| 欧美乱色亚洲激情| 亚洲人成网站高清观看| 精品无人区乱码1区二区| 精品久久久久久久末码| 国产av不卡久久| 亚洲精品日韩av片在线观看 | 国产探花在线观看一区二区| 国产精品美女特级片免费视频播放器| 一夜夜www| 久久久久久久久大av| 成人国产一区最新在线观看| 欧美乱色亚洲激情| 淫妇啪啪啪对白视频| 亚洲一区高清亚洲精品| 一区二区三区免费毛片| 丰满乱子伦码专区| 草草在线视频免费看| 精品电影一区二区在线| 岛国在线观看网站| 免费在线观看日本一区| 最新在线观看一区二区三区| 日本一二三区视频观看| 亚洲性夜色夜夜综合| 男女午夜视频在线观看| 亚洲电影在线观看av| 亚洲天堂国产精品一区在线| 在线免费观看不下载黄p国产 | 日本黄色视频三级网站网址| svipshipincom国产片| 男女视频在线观看网站免费| 国产一区二区在线观看日韩 | 成人18禁在线播放| 国产精品美女特级片免费视频播放器| 久久这里只有精品中国| 亚洲成人久久性| 久久久久久久亚洲中文字幕 | 亚洲性夜色夜夜综合| 色吧在线观看| 国产三级在线视频| 人妻夜夜爽99麻豆av| 亚洲国产精品合色在线| 免费人成在线观看视频色| 久久草成人影院| 桃红色精品国产亚洲av| 午夜亚洲福利在线播放| 久久婷婷人人爽人人干人人爱| 国产三级中文精品| 免费av不卡在线播放| 搡老熟女国产l中国老女人| 国产色爽女视频免费观看| 欧美丝袜亚洲另类 | 亚洲va日本ⅴa欧美va伊人久久| 精品久久久久久久人妻蜜臀av| 淫妇啪啪啪对白视频| 国产精品一区二区免费欧美| 国内久久婷婷六月综合欲色啪| 一进一出抽搐动态| 亚洲精品影视一区二区三区av| 香蕉丝袜av| 亚洲精品美女久久久久99蜜臀| 男女下面进入的视频免费午夜| 12—13女人毛片做爰片一| 又黄又爽又免费观看的视频| 免费人成在线观看视频色| 国产在视频线在精品| 狂野欧美激情性xxxx| 别揉我奶头~嗯~啊~动态视频| 久久6这里有精品| 狠狠狠狠99中文字幕| 九色成人免费人妻av| 国产蜜桃级精品一区二区三区| 国产av在哪里看| 动漫黄色视频在线观看| 国产亚洲精品av在线| 日韩大尺度精品在线看网址| 熟女少妇亚洲综合色aaa.| av女优亚洲男人天堂| 日韩高清综合在线| 一个人观看的视频www高清免费观看| 免费观看人在逋| 综合色av麻豆| 十八禁网站免费在线| 黄色女人牲交| 中文字幕人成人乱码亚洲影| 亚洲 国产 在线| 悠悠久久av| 无限看片的www在线观看| 精品国内亚洲2022精品成人| 中文在线观看免费www的网站| 97超级碰碰碰精品色视频在线观看| 黄片小视频在线播放| 国产主播在线观看一区二区| 欧美+亚洲+日韩+国产| 老汉色∧v一级毛片| 亚洲国产精品合色在线| 国产亚洲精品av在线| 波多野结衣巨乳人妻| 精品日产1卡2卡| 很黄的视频免费| 在线看三级毛片| 国产国拍精品亚洲av在线观看 | 岛国在线观看网站| 午夜日韩欧美国产| 三级男女做爰猛烈吃奶摸视频| 91在线观看av| 麻豆一二三区av精品| 怎么达到女性高潮| 日本在线视频免费播放| 亚洲精品456在线播放app | 男女之事视频高清在线观看| 天堂√8在线中文| 久久精品国产亚洲av香蕉五月| 村上凉子中文字幕在线| 神马国产精品三级电影在线观看| 亚洲 欧美 日韩 在线 免费| 亚洲av二区三区四区| 搞女人的毛片| 午夜久久久久精精品| 亚洲国产精品久久男人天堂| 亚洲精品456在线播放app | 久久6这里有精品| 欧美一区二区亚洲| 国产一区二区亚洲精品在线观看| 一进一出好大好爽视频| 12—13女人毛片做爰片一| 成人高潮视频无遮挡免费网站| 少妇熟女aⅴ在线视频| 欧美日韩瑟瑟在线播放| 九九在线视频观看精品| 亚洲 欧美 日韩 在线 免费| 好男人电影高清在线观看| 午夜福利18| 亚洲激情在线av| 欧美日韩中文字幕国产精品一区二区三区| 在线观看美女被高潮喷水网站 | 国产av在哪里看| 日本 av在线| 亚洲熟妇熟女久久| 一夜夜www| 美女cb高潮喷水在线观看| 99在线视频只有这里精品首页| 亚洲欧美激情综合另类| 色av中文字幕| 脱女人内裤的视频| 伊人久久精品亚洲午夜| 欧美日韩综合久久久久久 | 国产av不卡久久| 性色av乱码一区二区三区2| 久久天躁狠狠躁夜夜2o2o| 最近在线观看免费完整版| 女人被狂操c到高潮| 欧美大码av| 精品久久久久久久人妻蜜臀av| 欧美精品啪啪一区二区三区| 黄片小视频在线播放| 午夜福利免费观看在线| 母亲3免费完整高清在线观看| 久9热在线精品视频| 少妇的丰满在线观看| 精品久久久久久久久久久久久| 小蜜桃在线观看免费完整版高清| 老熟妇乱子伦视频在线观看| 亚洲国产高清在线一区二区三| 欧美又色又爽又黄视频| av欧美777| 琪琪午夜伦伦电影理论片6080| 男女视频在线观看网站免费| 一进一出抽搐动态| 亚洲国产中文字幕在线视频| av专区在线播放| 老司机在亚洲福利影院| 中文字幕av成人在线电影| 亚洲片人在线观看| 国产成人福利小说| 久久亚洲真实| 国产美女午夜福利| 丰满人妻熟妇乱又伦精品不卡| 色综合婷婷激情| 欧美区成人在线视频| 免费看a级黄色片| 亚洲av美国av| 成人午夜高清在线视频| 久9热在线精品视频| 色综合欧美亚洲国产小说| 日日夜夜操网爽| av天堂中文字幕网| 日本五十路高清| 国产精品久久久久久精品电影| 精品久久久久久久毛片微露脸| 中亚洲国语对白在线视频| 亚洲人成伊人成综合网2020| 99久久成人亚洲精品观看| 国产成+人综合+亚洲专区| 精品国产亚洲在线| 国产真人三级小视频在线观看| 国产国拍精品亚洲av在线观看 | 日本黄色片子视频| 国内精品久久久久精免费| 免费无遮挡裸体视频| 成人国产一区最新在线观看| 91麻豆精品激情在线观看国产| 制服丝袜大香蕉在线| 午夜精品久久久久久毛片777| 国产久久久一区二区三区| 香蕉久久夜色| 99久久久亚洲精品蜜臀av| 国产高清激情床上av| 国产三级黄色录像| 高清毛片免费观看视频网站| 成人鲁丝片一二三区免费| av专区在线播放| 成人特级黄色片久久久久久久| 啦啦啦免费观看视频1| 淫秽高清视频在线观看| 日韩亚洲欧美综合| 亚洲不卡免费看| 欧美日韩亚洲国产一区二区在线观看| 国产激情偷乱视频一区二区| 日本成人三级电影网站| 亚洲精品日韩av片在线观看 | 国产成人影院久久av| 91麻豆av在线| 国产av麻豆久久久久久久| 国产毛片a区久久久久| 亚洲精品亚洲一区二区| 亚洲av成人av| 十八禁人妻一区二区| www国产在线视频色| 免费人成在线观看视频色| 欧美区成人在线视频| 久久久久亚洲av毛片大全| 亚洲国产欧洲综合997久久,| 中亚洲国语对白在线视频| 精品午夜福利视频在线观看一区| 亚洲国产欧美网| 午夜福利高清视频| 天堂动漫精品| 午夜老司机福利剧场| 老司机福利观看| 国产成+人综合+亚洲专区| 波多野结衣高清无吗| 麻豆国产97在线/欧美| 青草久久国产| 黄色丝袜av网址大全| 成人国产综合亚洲| 精品国产亚洲在线| 男女做爰动态图高潮gif福利片| 狠狠狠狠99中文字幕| 国产精品亚洲av一区麻豆| 午夜日韩欧美国产| 国内少妇人妻偷人精品xxx网站| 日本精品一区二区三区蜜桃| 18禁裸乳无遮挡免费网站照片| 精品99又大又爽又粗少妇毛片 | 90打野战视频偷拍视频| 日韩有码中文字幕| 亚洲欧美日韩高清在线视频| 精品人妻偷拍中文字幕| 亚洲av成人不卡在线观看播放网| 亚洲成人久久性| 欧美日本亚洲视频在线播放| 亚洲av日韩精品久久久久久密| 久久久国产成人免费| 久久久久久久亚洲中文字幕 | 白带黄色成豆腐渣| 丁香欧美五月| 岛国在线免费视频观看| 国产中年淑女户外野战色| 窝窝影院91人妻| 老熟妇仑乱视频hdxx| 中文字幕人妻丝袜一区二区| 给我免费播放毛片高清在线观看| 黑人欧美特级aaaaaa片| 国内精品一区二区在线观看| 日韩成人在线观看一区二区三区| 超碰av人人做人人爽久久 | 天堂av国产一区二区熟女人妻| 亚洲中文字幕一区二区三区有码在线看| 丰满人妻一区二区三区视频av | 成熟少妇高潮喷水视频| 欧美日韩瑟瑟在线播放| 一a级毛片在线观看| 99国产精品一区二区蜜桃av| 成人亚洲精品av一区二区| 国产精品国产高清国产av| 久久精品夜夜夜夜夜久久蜜豆| 亚洲欧美日韩卡通动漫| 亚洲久久久久久中文字幕| 国语自产精品视频在线第100页| 色噜噜av男人的天堂激情| 免费搜索国产男女视频| 国内久久婷婷六月综合欲色啪| 亚洲专区国产一区二区| 国产私拍福利视频在线观看| 日韩欧美精品免费久久 | 色综合欧美亚洲国产小说| 少妇高潮的动态图| 九九久久精品国产亚洲av麻豆| 欧美激情在线99| svipshipincom国产片| 国产老妇女一区| 久久精品国产亚洲av香蕉五月| 国模一区二区三区四区视频| 久久国产精品人妻蜜桃| 色哟哟哟哟哟哟| 久久久久久久午夜电影| 少妇人妻精品综合一区二区 | 亚洲精品一区av在线观看| 国产黄色小视频在线观看| 亚洲av不卡在线观看| 成年版毛片免费区| 午夜免费观看网址| 亚洲欧美日韩高清专用| 波多野结衣巨乳人妻| 午夜福利18| 一个人观看的视频www高清免费观看| 国产av一区在线观看免费| 在线天堂最新版资源| 老汉色av国产亚洲站长工具| 欧美日韩福利视频一区二区| 亚洲国产日韩欧美精品在线观看 | 精品无人区乱码1区二区| 搞女人的毛片| 国产精品av视频在线免费观看| 国产午夜精品论理片| 亚洲成人免费电影在线观看| 国产国拍精品亚洲av在线观看 | 看免费av毛片| 女人高潮潮喷娇喘18禁视频| av视频在线观看入口| 丰满人妻熟妇乱又伦精品不卡| 精品国产超薄肉色丝袜足j| 亚洲av日韩精品久久久久久密| 欧美3d第一页| 手机成人av网站| 国产成年人精品一区二区| 三级毛片av免费| 久久精品亚洲精品国产色婷小说| 少妇丰满av| 久久九九热精品免费| 午夜免费男女啪啪视频观看 | 亚洲精品成人久久久久久| 日韩欧美精品免费久久 | 夜夜躁狠狠躁天天躁| 成人国产一区最新在线观看| 一夜夜www| xxx96com| 日本五十路高清| 亚洲五月天丁香| 窝窝影院91人妻| 一级a爱片免费观看的视频| 日韩高清综合在线| 中文字幕高清在线视频| 18禁黄网站禁片免费观看直播| 久久久久国内视频| 小蜜桃在线观看免费完整版高清| 一区二区三区激情视频| 成人特级av手机在线观看| 精品日产1卡2卡| 不卡一级毛片| 制服丝袜大香蕉在线| 久久国产精品人妻蜜桃| 久久欧美精品欧美久久欧美| 最近最新中文字幕大全免费视频| 男女那种视频在线观看| 欧美+亚洲+日韩+国产| 啪啪无遮挡十八禁网站| 99精品在免费线老司机午夜| 亚洲成人中文字幕在线播放| 给我免费播放毛片高清在线观看| 搡老熟女国产l中国老女人| 欧美三级亚洲精品| 国产一区二区激情短视频| 亚洲av电影不卡..在线观看| 悠悠久久av| 久久久久久久精品吃奶| 啦啦啦观看免费观看视频高清| 最好的美女福利视频网| 久久久久国内视频| 在线播放无遮挡| 色吧在线观看| 欧美3d第一页| 三级国产精品欧美在线观看| 国产伦人伦偷精品视频| 国产在线精品亚洲第一网站| 免费看a级黄色片| 日本一二三区视频观看| 在线播放无遮挡| 久久久成人免费电影| x7x7x7水蜜桃| 在线天堂最新版资源| 深爱激情五月婷婷| 成人18禁在线播放| 国产av在哪里看| 国产亚洲精品久久久com| 国产伦一二天堂av在线观看| 免费av毛片视频| 三级毛片av免费| 久久香蕉精品热| 深爱激情五月婷婷| 午夜精品一区二区三区免费看| www日本黄色视频网| 熟女人妻精品中文字幕| 黄色日韩在线| av在线天堂中文字幕| 亚洲av成人精品一区久久| 亚洲精品成人久久久久久| 精品熟女少妇八av免费久了| 99久久九九国产精品国产免费| 色综合站精品国产| 最新美女视频免费是黄的| 搡老岳熟女国产| bbb黄色大片| 在线天堂最新版资源| 性色av乱码一区二区三区2| 国产在线精品亚洲第一网站| 丁香欧美五月| 18禁黄网站禁片午夜丰满| 亚洲中文字幕日韩| 狠狠狠狠99中文字幕| 中文字幕高清在线视频| 亚洲激情在线av| 成年女人毛片免费观看观看9| 1000部很黄的大片| 一区二区三区免费毛片| 国产免费男女视频| 床上黄色一级片| 最新美女视频免费是黄的| 啦啦啦免费观看视频1| 在线免费观看不下载黄p国产 | 色精品久久人妻99蜜桃| 欧美乱色亚洲激情| 成人特级av手机在线观看| 欧美一级a爱片免费观看看| www.色视频.com| 午夜激情福利司机影院| 亚洲无线观看免费| 在线观看一区二区三区| 嫁个100分男人电影在线观看| 婷婷精品国产亚洲av| 亚洲欧美一区二区三区黑人| 看黄色毛片网站| 99在线人妻在线中文字幕| 国产av一区在线观看免费| 亚洲精品日韩av片在线观看 | 中文字幕久久专区| 午夜免费观看网址| 亚洲男人的天堂狠狠| 一级a爱片免费观看的视频| 国内精品久久久久久久电影| 人妻夜夜爽99麻豆av| 最后的刺客免费高清国语| 色老头精品视频在线观看| 亚洲性夜色夜夜综合| 一区二区三区国产精品乱码| 欧美黄色片欧美黄色片| av黄色大香蕉| 精品国产三级普通话版| 欧美一级毛片孕妇| 国产高潮美女av| 日本一二三区视频观看| 在线a可以看的网站| 亚洲av熟女| 欧美精品啪啪一区二区三区| 免费观看人在逋| 一本综合久久免费| 国产一区二区三区在线臀色熟女| 99久久精品一区二区三区| 国产av不卡久久| 国产在线精品亚洲第一网站| 黄色女人牲交| 亚洲第一电影网av| 少妇丰满av| 欧美日韩亚洲国产一区二区在线观看| 亚洲美女黄片视频| 国产69精品久久久久777片| 国产av在哪里看| 久久久久性生活片| 久久久久亚洲av毛片大全| 一级黄片播放器| 人人妻,人人澡人人爽秒播| 美女 人体艺术 gogo| 又粗又爽又猛毛片免费看| 国产美女午夜福利| 久久精品人妻少妇| 午夜激情欧美在线| 91久久精品电影网| 精品欧美国产一区二区三| 精品一区二区三区视频在线观看免费| 嫁个100分男人电影在线观看| 九九在线视频观看精品| 欧美成人一区二区免费高清观看| 波野结衣二区三区在线 | 99久久综合精品五月天人人| 亚洲国产精品sss在线观看| 中出人妻视频一区二区| 啦啦啦免费观看视频1| 特大巨黑吊av在线直播| 国产精品香港三级国产av潘金莲| 特大巨黑吊av在线直播| 中文字幕人成人乱码亚洲影| 亚洲欧美精品综合久久99| 一a级毛片在线观看| 日韩欧美在线二视频| 免费av毛片视频| 男女那种视频在线观看| 岛国视频午夜一区免费看|