• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的雙人博弈差分隱私保護(hù)研究

    2024-12-18 00:00:00馬明揚(yáng)楊洪勇劉飛
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)

    摘要:針對雙人博弈問題,在學(xué)習(xí)Q-learning算法的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)參數(shù)逼近的方式更新狀態(tài)值函數(shù),選取自適應(yīng)梯度優(yōu)化算法進(jìn)行參數(shù)更新,并通過納什均衡思想調(diào)節(jié)兩個(gè)智能體的行為。同時(shí)為提高模型的保護(hù)效果,對結(jié)果添加差分隱私保護(hù),保證智能體博弈過程中數(shù)據(jù)的安全性。最后,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的可用性,其能夠訓(xùn)練兩個(gè)智能體在多回合之后穩(wěn)定抵達(dá)各自目標(biāo)點(diǎn)。

    關(guān)鍵詞:強(qiáng)化學(xué)習(xí);差分隱私;雙人博弈

    中圖分類號(hào): TP309;F224.32文獻(xiàn)標(biāo)識(shí)碼: A

    收稿日期:2023-01-18;修回日期:2023-05-16

    基金項(xiàng)目:國家自然科學(xué)基金(61673200),山東省自然科學(xué)基金(ZR2022MF231)

    第一作者:馬明揚(yáng)(1998-),女,山東濰坊人,碩士,主要研究方向?yàn)椴罘蛛[私保護(hù)等。

    通信作者:楊洪勇(1967-), 男,山東德州人,博士,教授,主要研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)、多智能體系統(tǒng)、智能控制等。

    Research on Differential Privacy Protection of Two-player Games Based on Reinforcement Learning

    MA Mingyang,YANG Hongyong,LIU Fei

    (School of Information and Electrical Engineering, Ludong University, Yantai 264025,China)

    Abstract:For the two-player game problem, on the basis of Q-learning algorithm, the state-value function is updated by using neural network parameter approximation, the adaptive gradient optimization algorithm is selected for parameter updating, and the behaviors of the two agents are regulated by the Nash equilibrium idea. At the same time, in order to improve the protection effect of the model, differential privacy protection is added to the results to ensure the security of the data in the process of the two-player games. Finally, the experimental results verify the usability of the algorithm, which is able to train two agents to reach their respective target points stably after multiple rounds.

    Keywords: reinforcement learning; differential privacy; two-player games

    0 引言

    自20世紀(jì)50年代中期步入互聯(lián)網(wǎng)時(shí)代以來,人工智能技術(shù)逐漸興起,機(jī)器學(xué)習(xí)作為其核心,旨在幫助人類完成重要的復(fù)雜工作[1]。強(qiáng)化學(xué)習(xí)應(yīng)用到多智能體系統(tǒng),為每個(gè)智能體的行為作出有利于自身的決策,使得多智能體系統(tǒng)的整體性能達(dá)到最優(yōu),當(dāng)前對多智能體強(qiáng)化學(xué)習(xí)方法的研究受到許多學(xué)者的關(guān)注。

    強(qiáng)化學(xué)習(xí)的馬爾科夫決策過程拓展到多智能體系統(tǒng),被定義為馬爾科夫博弈,主要指智能體之間存在合作、競爭或者共存的局面。近年來,許多學(xué)者致力于研究多智能體博弈。董等[2]對博弈的存在和實(shí)踐進(jìn)行了討論,從系統(tǒng)論角度提出了多智能體演化博弈的理論框架。Chen等[3]開發(fā)了一個(gè)馬爾可夫路由游戲(MRG),每個(gè)智能體在與運(yùn)輸網(wǎng)絡(luò)中的其他智能體交互時(shí)學(xué)習(xí)并更新自己的路徑選擇策略。雙人博弈也是多智能體博弈的一種,消去法、劃圈法等是用于求解雙人博弈純策略均衡解的經(jīng)典方法。在博弈過程中,每個(gè)智能體都希望自己能夠獲得最大回報(bào),此時(shí)的策略集稱為納什均衡。Lemke-Howson[4]算法、幾何圖形法等是用于求解混合策略納什均衡值的主流計(jì)算方法。尹等[5]運(yùn)用圖論的知識(shí)求解雙人完全信息靜態(tài)博弈的納什均衡過程。陳等[6]在進(jìn)行狀態(tài)空間描述的基礎(chǔ)上,求解了混雜動(dòng)態(tài)博弈的納什均衡。

    在雙人博弈的過程中,各智能體之間通過信息交互對當(dāng)前和下一步行為進(jìn)行決策,用收集到的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,直至結(jié)果收斂,此時(shí),攻擊者可能會(huì)利用訓(xùn)練過程中的模型更新參數(shù)對訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集進(jìn)行攻擊[7],進(jìn)而擾亂正常的交互過程。所以在研究多智能體博弈時(shí),也要注重?cái)?shù)據(jù)的安全性。在各種隱私保護(hù)方法中,差分隱私[8]通過在數(shù)據(jù)集中加入滿足某種分布的噪聲來實(shí)現(xiàn)隱私保護(hù),不管攻擊者得到的輔助信息是什么,都可以從根本上抵御身份攻擊。差分隱私已被應(yīng)用到各種領(lǐng)域以保護(hù)數(shù)據(jù)安全。Yang等[9]提出了一個(gè)形式化的框架來驗(yàn)證概率系統(tǒng)中的差分隱私。吳等[10]提出了一種基于噪聲前綴樹結(jié)構(gòu)的軌跡數(shù)據(jù)發(fā)布方法,利用差分隱私在保證軌跡數(shù)據(jù)安全的同時(shí)提高了數(shù)據(jù)可用性。白等[11]針對健康醫(yī)療的非數(shù)值型數(shù)據(jù),利用差分隱私中的指數(shù)機(jī)制,設(shè)置誤差參數(shù)和滿足誤差的統(tǒng)計(jì)個(gè)數(shù)進(jìn)一步滿足不同安全性和可用性的需求。

    在現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)算法中,多數(shù)研究的關(guān)注點(diǎn)都放在最終的任務(wù)效果上,往往忽略了理論性的證明與迭代過程中的隱私保護(hù)。基于此,本文擬研究基于強(qiáng)化學(xué)習(xí)的雙人博弈差分隱私保護(hù),在學(xué)習(xí)Q-learning算法的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)參數(shù)逼近的方式替代值函數(shù)表值更新,制定了能夠有效平衡探索與利用的動(dòng)作選擇策略,并通過納什均衡思想調(diào)節(jié)兩個(gè)智能體的行為。同時(shí)為神經(jīng)網(wǎng)絡(luò)的輸出添加合適的滿足拉普拉斯分布的噪聲,提升了數(shù)據(jù)安全性,并從理論上分析了自適應(yīng)梯度迭代算法的收斂性,保證了多智能體最終訓(xùn)練至收斂狀態(tài),同時(shí)從仿真實(shí)驗(yàn)中說明了算法的有效性。

    1 相關(guān)基本理論

    1.1 差分隱私

    定義1[12] 設(shè)有隨機(jī)算法M,對任何兩個(gè)鄰近數(shù)據(jù)集D和D′ ,S∈Range(M) ,若算法M滿足

    Pr[M(D)∈S]≤eε×Pr[M(D′)∈S](1)

    的概率約束,則其提供ε-差分隱私保護(hù),通過隨機(jī)化輸出結(jié)果提供隱私保護(hù)。其中鄰近數(shù)據(jù)集是指兩者的對稱差數(shù)量為1,參數(shù)ε表示隱私保護(hù)預(yù)算,越接近于0隱私保護(hù)程度越高。

    定義2 差分隱私保護(hù)機(jī)制:給定數(shù)據(jù)集D,設(shè)有查詢函數(shù)f,其全局敏感度為△f,那么隨機(jī)算法M(D)滿足

    M(D)=f(D)+LapΔf/ε(2)

    提供差分隱私保護(hù)。其中全局敏感度

    Δf= maxD,D′f(D)-f(D′)1(3)

    Laplace分布的概率密度公式為

    p(x|μ,b)=1/2bexp-|x-μ|/b(4)

    其中,μ為位置參數(shù),b為尺度參數(shù),該分布可記為Lap(b, μ),當(dāng)μ=0時(shí),記Lap(b)。

    1.2 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)的基本框架如圖1所示,即智能體在狀態(tài)s(state)下完成某項(xiàng)工作時(shí),執(zhí)行一項(xiàng)行為a(action)與周圍環(huán)境進(jìn)行交互,在共同作用下,智能體會(huì)產(chǎn)生新的狀態(tài)s′,同時(shí)會(huì)得到環(huán)境給出的一個(gè)即時(shí)回報(bào)r。整個(gè)過程中,智能體不斷與環(huán)境交互產(chǎn)生數(shù)據(jù),同時(shí)利用這些數(shù)據(jù)去學(xué)習(xí)能夠得到最大獎(jiǎng)勵(lì)的策略。

    大多數(shù)的強(qiáng)化學(xué)習(xí)問題都可以概括為馬爾可夫決策過程,用(S,A,P,R,γ)來表示[13]。其中S代表有限狀態(tài)集合,s∈S表示某個(gè)特定狀態(tài);A代表有限動(dòng)作集合,a∈A表示某個(gè)特定的動(dòng)作;Pass為狀態(tài)轉(zhuǎn)移概率,表示從s采取行動(dòng)a轉(zhuǎn)移到s′的概率;R為回報(bào)函數(shù);γ∈[0,1]為折扣因子,體現(xiàn)了未來的獎(jiǎng)勵(lì)在當(dāng)前時(shí)刻的價(jià)值比例。

    馬爾科夫決策過程具有無記憶性:

    Pr(Xt+1=x|Xt=xt,Xt-1=xt-1,…,X1=x1)=Pr(Xt+1=x|Xt=xt)(5)

    馬爾科夫決策過程狀態(tài)轉(zhuǎn)移概率為

    Pass=P[St+1=s′|St=s,At=a](6)

    當(dāng)單智能體延伸至多智能體時(shí),每個(gè)智能體仍然遵循最大化累積回報(bào)的目標(biāo),但此時(shí)環(huán)境的因素與所有智能體聯(lián)合動(dòng)作相關(guān)。馬爾科夫決策過程拓展到多智能體系統(tǒng),稱為馬爾科夫博弈,參與者會(huì)盡可能選取對自身最有利的行為,使其得到的回報(bào)最大。它可以通過元組 〈n,S,A1,…,An,T,R1,…,Rn,γ〉來表示,其中n為智能體個(gè)數(shù),S為狀態(tài)集合,Ai為智能體i的動(dòng)作集合,Ri為智能體i的獎(jiǎng)勵(lì)集合,T為環(huán)境狀態(tài)轉(zhuǎn)移概率,γ為折扣因子。

    1.3 納什均衡

    納什均衡又稱為完全信息靜態(tài)博弈納什均衡或者策略博弈納什均衡[14]。策略博弈可以用一個(gè)元組(n,A1,…,An,R1,…,Rn)表示,n為智能體個(gè)數(shù),Ai為智能體i的策略集合,即Ai={a(i)1,a(i)2,…,a(i)m},Ri為支付函數(shù),是智能體在聯(lián)合行為下所得到的回報(bào)。

    定義3[14] 策略博弈納什均衡是指所有玩家策略滿足不等式的集合:

    Vi(π*1,…,π*i,…,π*n)≥Vi(π*1,…,πi,…,π*n

    Viπi∈Πi, i=1,…,n(7)

    其中,Vi(·)為智能體i的值函數(shù),πi為智能體i在策略空間Πi中選擇的行為, π*i 為智能體的最優(yōu)策略。式(7)表明當(dāng)其他智能體都執(zhí)行納什均衡策略,智能體i通過改變自身策略無法獲得更大的回報(bào)。

    2 雙人博弈的差分隱私保護(hù)算法

    多智能體強(qiáng)化學(xué)習(xí)需要考慮環(huán)境的不穩(wěn)定性、智能體獲取信息的局限性、個(gè)體目標(biāo)的一致性以及可拓展性等,并且在構(gòu)建算法的過程中,要著重考慮合理性和收斂性,即在共同使用學(xué)習(xí)算法時(shí),每個(gè)智能體能夠?qū)W習(xí)并收斂到相對于對手的最優(yōu)策略。在Nash Q-learning學(xué)習(xí)算法的基礎(chǔ)上進(jìn)行改進(jìn),使改進(jìn)方法能夠在有效收斂的前提下,加入隱私保護(hù),為其數(shù)據(jù)添加隱私。

    2.1 Nash Q-learning學(xué)習(xí)算法

    Q-learning算法是基于時(shí)間差分的強(qiáng)化學(xué)習(xí)算法,但實(shí)際上也可以理解為一個(gè)表值學(xué)習(xí)算法,即智能體在與環(huán)境互動(dòng)過程中形成了一個(gè)狀態(tài)-動(dòng)作的Q值表。當(dāng)智能體完成一件事,有立即獎(jiǎng)賞,即做了一個(gè)動(dòng)作能夠立即獲得的獎(jiǎng)勵(lì),還有記憶經(jīng)驗(yàn)獎(jiǎng)勵(lì),即按照訓(xùn)練時(shí)的經(jīng)驗(yàn),上一個(gè)動(dòng)作發(fā)生后,接下來怎么做才能獲得更大的獎(jiǎng)勵(lì)。Q-learning算法的思想同時(shí)考慮這兩方面,值函數(shù)Q的更新公式為

    其中,αt為學(xué)習(xí)率,取值在0和1之間,代表未來新值置換原值的比例。γ為折扣因子。rt為選擇動(dòng)作后所得到的立即回報(bào)。

    將單智能體Q-learning方法應(yīng)用到多智能體中,智能體i不僅要觀察自身回報(bào),還要獲悉他人的回報(bào)。當(dāng)智能體之間是混合關(guān)系時(shí),每個(gè)智能體各自采取學(xué)習(xí)方法最大化Q值,可以收斂到納什均衡策略。Nash Q學(xué)習(xí)算法可應(yīng)用于多智能體問題中,在智能體i更新當(dāng)前狀態(tài)的Q值時(shí)不再只是與自身下一狀態(tài)的Q值相關(guān),而是采取納什均衡策略進(jìn)行更新,使得各個(gè)智能體聯(lián)系起來,對于其中任意一個(gè)智能體來說,無法通過采取其他的策略來獲得更高的累積回報(bào)。對于智能體i而言,它的納什Q值定義為

    NashQit(s′)=π1(s′)…πn(s′)Qit(s′)(9)

    此時(shí),假設(shè)了所有智能體從下一時(shí)刻開始都采取納什均衡策略,納什策略可以通過二次規(guī)劃(僅考慮離散的動(dòng)作空間,π為各動(dòng)作的概率分布)來求解。

    Qit+1(s,a1,a2,…,an)=(1-αt)Q(s,a1,a2,…,an)+αt[rit+βNashQit(s′)](10)

    其中,NashQit(s′)為智能體i在下一狀態(tài)的納什均衡點(diǎn)。相比單智能體,多智能體強(qiáng)化學(xué)習(xí)的智能體需要知道全局狀態(tài)、其他智能體的動(dòng)作以及下一狀態(tài)所對應(yīng)的納什均衡策略,據(jù)此計(jì)算當(dāng)前Q值,以做出更好決策,NashQ學(xué)習(xí)方法通過式(10)進(jìn)行更新學(xué)習(xí)。

    2.2 雙人博弈差分隱私保護(hù)算法設(shè)計(jì)

    Nash Q-learning學(xué)習(xí)算法中,記錄雙方的Q值需要大量空間,計(jì)算過程的復(fù)雜也會(huì)導(dǎo)致收斂較慢,所以設(shè)計(jì)一種函數(shù)逼近的方式去擬合Q值,使得值函數(shù)的更新變?yōu)閰?shù)的更新,節(jié)省算法空間,從而提高算法優(yōu)化策略的程度,并且給Q值加噪聲,給予隱私保護(hù)。

    2.2.1 動(dòng)作選擇策略

    首先設(shè)置e值,當(dāng)隨機(jī)數(shù)小于e時(shí),智能體i選擇當(dāng)前狀態(tài)下Q值最大的動(dòng)作,當(dāng)隨機(jī)數(shù)大于e時(shí),采取玻爾茲曼策略,根據(jù)Q值計(jì)算各動(dòng)作的概率,智能體i根據(jù)概率選擇下一步動(dòng)作,動(dòng)作選擇概率為

    P(a|s)=exp(Q(s,a))/∑aexp(Q(s,a))(11)

    該策略方案能夠有效地平衡探索和利用,e值隨著策略的迭代逐漸增大,訓(xùn)練前期更偏向于探索,后期逐漸訓(xùn)練完成,更偏向于利用。設(shè)置玻爾茲曼策略的意義在于給隨機(jī)選擇動(dòng)作加一個(gè)概率,更大概率地去選擇當(dāng)前Q值最佳的動(dòng)作,同時(shí)也給予探索的機(jī)率,前期各動(dòng)作的概率值趨向一致,訓(xùn)練后期逐漸得到最優(yōu)策略時(shí)也能促進(jìn)算法更快收斂。

    2.2.2 動(dòng)作值函數(shù)的優(yōu)化算法

    由于多智能體在學(xué)習(xí)的過程中往往會(huì)產(chǎn)生大量特征信息,通常采用深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)逼近目標(biāo)函數(shù)[15],故本文中設(shè)置神經(jīng)網(wǎng)絡(luò)非線性逼近Q值,輸入層的神經(jīng)元個(gè)數(shù)為觀測值的特征數(shù),輸出層的神經(jīng)元個(gè)數(shù)為動(dòng)作空間的個(gè)數(shù),輸出值是每個(gè)動(dòng)作的價(jià)值。

    損失函數(shù)設(shè)為

    其中,初始值v0=0,αt為學(xué)習(xí)率,衰減系數(shù)0lt;βlt;1,用來控制歷史信息的獲取大小,εgt;0,以保證分母不會(huì)為0,gt為損失函數(shù)的梯度。從式(13)可以看出,vt是一個(gè)指數(shù)式遞減加權(quán)的移動(dòng)平均,越近期的數(shù)值加權(quán)越大。學(xué)習(xí)率逐參數(shù)地除以經(jīng)衰減系數(shù)控制的歷史梯度平方和的平方根,當(dāng)參數(shù)空間下降平緩時(shí),歷史梯度平方和較小,從而在平緩方向上取得更大的進(jìn)步,可以加快訓(xùn)練速度。

    2.2.3 數(shù)據(jù)隱私保護(hù)設(shè)計(jì)

    為有效應(yīng)對隱私泄露,使用添加噪聲的方式實(shí)現(xiàn)差分隱私機(jī)制以抵抗差分隱私攻擊,保護(hù)原始數(shù)據(jù)。

    由于在雙人博弈的過程中,彼此要對狀態(tài)值函數(shù)產(chǎn)生的數(shù)據(jù)進(jìn)行通訊,故對該數(shù)據(jù)添加符合拉普拉斯分布的噪聲,即QQ+Lap(b),b為尺度參數(shù)。添加的噪聲是有一定規(guī)律的一組數(shù)據(jù),使整個(gè)數(shù)據(jù)結(jié)構(gòu)發(fā)生了比較大的變化,從而使得個(gè)體數(shù)據(jù)難以被破解,但對于整體數(shù)據(jù)而言,拉普拉斯分布具有均值為0的特性,所以在大量數(shù)據(jù)的訓(xùn)練背景下不會(huì)對最終結(jié)果產(chǎn)生明顯的影響。

    2.2.4 算法設(shè)計(jì)與實(shí)現(xiàn)

    雙人博弈差分隱私保護(hù)算法的步驟為:1)設(shè)置神經(jīng)網(wǎng)絡(luò)非線性逼近Q值,初始化參數(shù)θ。2)循環(huán)每一步,迭代次數(shù)用t表示,并初始化智能體的狀態(tài)。3)根據(jù)策略選擇下一步動(dòng)作。4)執(zhí)行動(dòng)作后,智能體i觀察自身和對方智能體所獲得的回報(bào)和行動(dòng)。5)根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出值更新值函數(shù),并對其添加噪聲進(jìn)行隱私保護(hù)。6)利用自適應(yīng)梯度優(yōu)化算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)。7)轉(zhuǎn)入下一次迭代至步驟3),直到滿足每個(gè)回合的結(jié)束條件。本文實(shí)驗(yàn)設(shè)置中的結(jié)束條件為智能體相撞或至少有一個(gè)智能體抵達(dá)目標(biāo)點(diǎn)。8)重復(fù)執(zhí)行上述步驟2)至步驟7),滿足設(shè)置的回合數(shù)后算法結(jié)束。

    在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,由于要求輸入的樣本之間相互獨(dú)立,所以不能簡單地依次輸入狀態(tài),需要在回合過程中,將樣本數(shù)據(jù)信息存入緩沖區(qū)。游戲開始后,累積一些數(shù)據(jù)再訓(xùn)練,訓(xùn)練時(shí)隨機(jī)抽取,以切斷樣本的相關(guān)性,并隔5步訓(xùn)練一次,提升訓(xùn)練時(shí)間。整體算法大致框圖如圖2所示。

    2.3 算法收斂性分析

    本節(jié)主要從理論上分析驗(yàn)證迭代算法是有效的,即能夠找到使損失函數(shù)最小的神經(jīng)網(wǎng)絡(luò)參數(shù)。在證明之前,給出分析算法收斂的常見假設(shè)。

    隨著t的不斷增大f(θT)不斷減小,且f(θT)≥0有下界,證明收斂。

    雖然在迭代過程中為Q值添加了拉普拉斯噪聲的隱私保護(hù),但由于該噪聲均值為0,在多次的添加過程中對其真實(shí)值幾乎沒有影響,因此不會(huì)影響其收斂性。

    3 實(shí)驗(yàn)仿真與分析

    3.1 實(shí)驗(yàn)設(shè)置

    在如圖3a所示的傳統(tǒng)雙人網(wǎng)格博弈游戲中運(yùn)行算法,其中方框代表智能體,圓形代表終點(diǎn),四周擬為墻。智能體在該網(wǎng)格的動(dòng)作空間為上、下、左、右,左上角位置點(diǎn)為0,向右向下逐漸增加,單個(gè)網(wǎng)格單位為1,據(jù)此可知初始狀態(tài)為(0,2)。在訓(xùn)練過程中,要讓雙智能體沖突得到獎(jiǎng)賞的優(yōu)先級(jí)高于僅有單智能體抵達(dá)目標(biāo)點(diǎn),否則可能會(huì)收斂至雙智能體與某個(gè)目標(biāo)點(diǎn)碰撞。因此,獎(jiǎng)賞設(shè)置為如果兩個(gè)智能體同時(shí)抵達(dá)目標(biāo)點(diǎn),獎(jiǎng)賞20,回合結(jié)束;如果兩個(gè)智能體沖突,回報(bào)-10,回合結(jié)束;如果只有一個(gè)智能體抵達(dá)目標(biāo)點(diǎn),獎(jiǎng)賞10,回合結(jié)束;如果智能體撞墻,回報(bào)-10,回合繼續(xù);到達(dá)其他狀態(tài)獲得回報(bào)0,回合繼續(xù)。圖3b是預(yù)估的能夠在均衡狀態(tài)下抵達(dá)終點(diǎn)的可能情況,最終,該算法可以訓(xùn)練兩個(gè)智能體以其中一種方式收斂到終點(diǎn)。

    3.2 實(shí)驗(yàn)分析

    在Python3.9環(huán)境下,運(yùn)行前面提到的算法,加入拉普拉斯噪聲增添隱私保護(hù),訓(xùn)練次數(shù)設(shè)為1 600回合,觀察智能體是否能夠在訓(xùn)練后以一種穩(wěn)定的路徑方式抵達(dá)目標(biāo)點(diǎn)。

    3.2.1 實(shí)驗(yàn)結(jié)果圖

    圖4為某次訓(xùn)練到一定程度后,兩個(gè)智能體的路徑,能夠按照要求抵達(dá)終點(diǎn)。

    3.2.2 損失函數(shù)

    損失函數(shù)的變化過程如圖5所示,反應(yīng)出算法在不斷的探索開發(fā)中最終是否能夠到達(dá)收斂狀態(tài),即雙智能體以一種穩(wěn)定的策略達(dá)到目標(biāo)點(diǎn)。自適應(yīng)梯度算法有利于修正擺動(dòng)幅度,使得收斂更快。同時(shí)可以看出Cost曲線并不是平滑下降,這是因?yàn)樵趯W(xué)習(xí)的過程中,神經(jīng)網(wǎng)絡(luò)的參數(shù)值是一步步學(xué)習(xí)的,兼顧探索和利用的過程,且加入噪聲,對數(shù)據(jù)產(chǎn)生影響,在反復(fù)學(xué)習(xí)后,才能達(dá)到收斂效果。

    3.2.3 結(jié)果分析

    為了進(jìn)一步觀察學(xué)習(xí)過程中實(shí)驗(yàn)結(jié)果的情況,在某次實(shí)驗(yàn)每100回合分析結(jié)果中g(shù)oodresult、generalresult、badresult所占數(shù)量,分別指的是兩個(gè)智能體都到達(dá)終點(diǎn)、僅有單智能體抵達(dá)終點(diǎn)以及其他情況,并做折線圖展示。通過圖6可以看出隨著智能體不斷學(xué)習(xí)和參數(shù)不斷迭代更新,最終穩(wěn)定抵達(dá)終點(diǎn),證明了該算法的有效性。

    同時(shí)做實(shí)驗(yàn)比較添加隱私保護(hù)對收斂情況造成的影響,某次實(shí)驗(yàn)結(jié)果如表1所示,在前期由于對Q值數(shù)據(jù)添加噪聲,各智能體的訓(xùn)練學(xué)習(xí)受到干擾,但隨著回合數(shù)的增加,依據(jù)拉普拉斯噪聲分布均值為0的特性,添加隱私保護(hù)并不影響最終的收斂情況。

    在實(shí)驗(yàn)過程中給噪聲設(shè)置不同的尺度參數(shù)并進(jìn)行多次實(shí)驗(yàn),對比添加噪聲對成功率的影響情況,如表2所示,計(jì)算在實(shí)驗(yàn)回合1 000至1 400之間的成功率,可見雖然噪聲對成功率稍有影響,但整體而言并不干擾最后的任務(wù)效果。需要注意的是,必須選擇合適的噪聲才能不影響數(shù)據(jù)的可用性,否則也會(huì)出現(xiàn)數(shù)據(jù)偏離的情況。

    4 總結(jié)

    該文針對雙人博弈問題,在學(xué)習(xí)Nash Q-learning算法的基礎(chǔ)上,設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)對狀態(tài)值函數(shù)進(jìn)行逼近,將損失函數(shù)的最小值作為優(yōu)化目標(biāo),選取自適應(yīng)梯度算法對神經(jīng)網(wǎng)絡(luò)參數(shù)迭代更新,并對神經(jīng)網(wǎng)絡(luò)輸出結(jié)果添加隱私保護(hù)。最后,實(shí)驗(yàn)表明了算法的可用性,添加了合適的拉普拉斯噪聲,加強(qiáng)了數(shù)據(jù)的安全性,訓(xùn)練使得兩個(gè)智能體能夠均衡地抵達(dá)對應(yīng)目標(biāo)點(diǎn)。

    參考文獻(xiàn):

    [1]劉豪. 多智能體博弈強(qiáng)化學(xué)習(xí)算法及其均衡研究[D]. 西安:西安科技大學(xué), 2020.

    LIU H. Research on reinforcement learning algorithm and equilibrium of multi-agent game[D]. Xi′an: Xi′an University of Science and Technology, 2020.

    [2]DONG Q, WU Z Y, LU J, et al. Existence and practice of gaming: thoughts on the development of multi-agent system gaming[J]. Frontiers of Information Technology amp; Electronic Engineering,2022,23(7):995-1002.

    [3]SHOU Z, CHEN X, FU Y, et al. Multi-agent reinforcement learning for Markov routing games: a new modeling paradigm for dynamic traffic assignment[J]. Transportation Research Part C: Emerging Technologies, 2022, 137:103560.

    [4]LEMKE C E, HOWSON J T. Equilibrium points of bimatrix games[J]. Journal of the Society for Industrialamp;Applied Mathematics, 1964, 12(2): 413-423.

    [5]尹佳偉, 程昆.納什均衡解的另一種解法[J].統(tǒng)計(jì)與決策,2017(15):70-72.

    YIN J W, CHEN K. Another solving method of nash equilibrium[J]. Statistics amp; Decision, 2017(15):70-72.

    [6]陳向勇,曹進(jìn)德,趙峰,等. 基于事件驅(qū)動(dòng)控制的混雜動(dòng)態(tài)博弈系統(tǒng)的納什均衡分析[J]. 控制理論與應(yīng)用, 2021,38(11):1801-1808.

    CHEN X Y, CAO J D, ZHAO F, et al. Nash equilibrium analysis of hybrid dynamic games system based on event-triggered control[J]. Control Theory amp; Applications. 2021,38(11):1801-1808.

    [7]張珊.深度學(xué)習(xí)中差分隱私保護(hù)算法研究[D].呼和浩特:內(nèi)蒙古大學(xué),2022.

    ZHANG S. Research on differential privacy in deep learning[D]. Hohhot: Inner Mongolia University, 2022.

    [8]FU J,CHEN Z,HAN X.Adap DP-FL:Differentially Private Federated Learning with Adaptive Noise[C]//2022 IEEE International Conference on Trust,Security and Privacy in Computing and Communications.Wuhan,China:IEEE,2022:656-663.

    [9]YANG J, CAO Y, WANG H. Differential privacy in probabilistic systems[J]. Information and Computation, 2017, 254(1): 84-104.

    [10] 吳萬青,趙永新,王巧,等.一種滿足差分隱私的軌跡數(shù)據(jù)安全存儲(chǔ)和發(fā)布方法[J].計(jì)算機(jī)研究與發(fā)展,2021,58(11):2430-2443.

    WU W Q, ZHAO Y X, WANG Q, et al. A safe storage and release method of trajectory data satisfying differential privacy[J]. Journal of Computer Research and Development, 2021,58(11):2430-2443.

    [11] 白伍彤,陳蘭香.基于差分隱私的健康醫(yī)療數(shù)據(jù)保護(hù)方案[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(8):304-311.

    BAI W T, CHEN L X. Healthcare data protection scheme based on differential privacy[J]. Computer Applications and Software, 2022,39(8):304-311.

    [12] Dwork C. Differential privacy[C]//Proceedings of the 33rd International Conference on Automata, Languages and Programming-Volume Part II.Berlin, Heidelberg, Springer: 2006.

    [13] 王軍,曹雷,陳希亮,等.多智能體博弈強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(21):1-13.

    WANG J, CAO L, CHEN X L, et al. Overview on reinforcement learning of multi-agent game[J]. Computer Engineering and Applications, 2021,57(21):1-13.

    [14] 胡浩洋,郭雷.多人非合作隨機(jī)自適應(yīng)博弈[J].控制理論與應(yīng)用,2018,35(5):637-643.

    HU H Y, GUO L. Non-cooperative stochastic adaptive multi-player games[J]. Control Theory amp; Applications, 2018,35(5):637-643.

    [15] 鄒啟杰,蔣亞軍,高兵,等.協(xié)作多智能體深度強(qiáng)化學(xué)習(xí)研究綜述[J].航空兵器,2022,29(6):78-88.

    ZOU Q J, JIANG Y J, GAO B, et al. An overview of cooperative multi-agent deep reinforcement learning[J]. Aero Weaponry, 2022,29(6):78-88.

    (責(zé)任編輯 耿金花)

    猜你喜歡
    強(qiáng)化學(xué)習(xí)
    基于強(qiáng)化學(xué)習(xí)的無線網(wǎng)絡(luò)智能接入控制技術(shù)
    機(jī)器學(xué)習(xí)發(fā)展現(xiàn)狀及應(yīng)用的研究
    未來人工智能自主學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建
    轉(zhuǎn)觀念 強(qiáng)服務(wù) 樹立用電檢查新價(jià)值
    智能車自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
    智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    欧美人与性动交α欧美精品济南到 | 成人综合一区亚洲| 国产免费现黄频在线看| 91aial.com中文字幕在线观看| 中文精品一卡2卡3卡4更新| 亚洲成人手机| 成人二区视频| 91精品三级在线观看| 国产女主播在线喷水免费视频网站| av片东京热男人的天堂| av国产精品久久久久影院| 国产精品嫩草影院av在线观看| 秋霞在线观看毛片| 国产精品久久久久久久久免| 精品亚洲乱码少妇综合久久| 精品亚洲乱码少妇综合久久| 亚洲少妇的诱惑av| 韩国精品一区二区三区 | 男的添女的下面高潮视频| 国产永久视频网站| 超色免费av| 中文字幕人妻熟女乱码| 亚洲综合色惰| 一本—道久久a久久精品蜜桃钙片| 又粗又硬又长又爽又黄的视频| 国产亚洲最大av| 最近中文字幕高清免费大全6| videossex国产| a 毛片基地| 女的被弄到高潮叫床怎么办| 精品人妻熟女毛片av久久网站| 免费高清在线观看视频在线观看| 亚洲精品久久午夜乱码| 黄色 视频免费看| 高清视频免费观看一区二区| 看非洲黑人一级黄片| 人人妻人人添人人爽欧美一区卜| 三上悠亚av全集在线观看| 精品人妻熟女毛片av久久网站| 久久99蜜桃精品久久| 制服人妻中文乱码| 麻豆精品久久久久久蜜桃| 国产午夜精品一二区理论片| 黄片无遮挡物在线观看| 亚洲,一卡二卡三卡| 亚洲国产欧美日韩在线播放| 久久av网站| 大香蕉久久成人网| 亚洲精品av麻豆狂野| 欧美 日韩 精品 国产| 捣出白浆h1v1| 亚洲熟女精品中文字幕| 久久韩国三级中文字幕| 丝瓜视频免费看黄片| 成人亚洲精品一区在线观看| 99热网站在线观看| 亚洲精品日本国产第一区| 在线观看一区二区三区激情| 久久99一区二区三区| 久久人人爽人人爽人人片va| 国产日韩欧美视频二区| 国产成人一区二区在线| 欧美3d第一页| 国产欧美亚洲国产| 少妇人妻 视频| 18禁在线无遮挡免费观看视频| 亚洲美女搞黄在线观看| 国产成人精品久久久久久| 精品一区二区免费观看| 男人爽女人下面视频在线观看| 九九爱精品视频在线观看| 久久久久久久久久久免费av| 色婷婷av一区二区三区视频| 精品国产国语对白av| 国产 精品1| 高清在线视频一区二区三区| 最近中文字幕2019免费版| 久久久亚洲精品成人影院| 国产精品三级大全| 欧美 日韩 精品 国产| 性高湖久久久久久久久免费观看| www.色视频.com| 夜夜骑夜夜射夜夜干| 丝袜喷水一区| 亚洲精品久久久久久婷婷小说| 男女高潮啪啪啪动态图| 欧美日韩亚洲高清精品| 精品国产露脸久久av麻豆| 亚洲av成人精品一二三区| 国产精品一区二区在线不卡| 国产熟女欧美一区二区| 免费大片黄手机在线观看| 国产一区二区激情短视频 | 侵犯人妻中文字幕一二三四区| 纯流量卡能插随身wifi吗| 日韩视频在线欧美| 不卡视频在线观看欧美| 亚洲一码二码三码区别大吗| 99热国产这里只有精品6| 免费av中文字幕在线| 好男人视频免费观看在线| 热re99久久精品国产66热6| 99re6热这里在线精品视频| av免费观看日本| av卡一久久| 一个人免费看片子| 国产精品国产三级专区第一集| 免费大片18禁| 中文字幕亚洲精品专区| 亚洲国产精品一区二区三区在线| 人人澡人人妻人| 飞空精品影院首页| 亚洲av电影在线进入| 免费不卡的大黄色大毛片视频在线观看| 男人爽女人下面视频在线观看| 久久毛片免费看一区二区三区| 两性夫妻黄色片 | 国产成人一区二区在线| 精品国产一区二区久久| 热99国产精品久久久久久7| 一区二区日韩欧美中文字幕 | 性色avwww在线观看| 在线 av 中文字幕| 亚洲av电影在线观看一区二区三区| 99九九在线精品视频| 久热久热在线精品观看| 国产不卡av网站在线观看| 国产成人精品无人区| 亚洲av.av天堂| 男男h啪啪无遮挡| 国产在视频线精品| 精品99又大又爽又粗少妇毛片| 亚洲国产日韩一区二区| 一区在线观看完整版| 又粗又硬又长又爽又黄的视频| 国产高清国产精品国产三级| 亚洲综合精品二区| 久久精品国产亚洲av天美| 国产精品.久久久| 又大又黄又爽视频免费| 两个人看的免费小视频| 老司机影院成人| 国产精品麻豆人妻色哟哟久久| 老司机影院毛片| 少妇被粗大猛烈的视频| 黄色怎么调成土黄色| 国产片特级美女逼逼视频| 国产日韩欧美亚洲二区| 成年人免费黄色播放视频| 欧美精品一区二区大全| 国产成人91sexporn| 亚洲婷婷狠狠爱综合网| 国产又色又爽无遮挡免| 精品一区二区三区四区五区乱码 | 精品一区二区三卡| 大香蕉久久成人网| 2021少妇久久久久久久久久久| 久热这里只有精品99| 国产一区二区三区av在线| av国产久精品久网站免费入址| 国产又爽黄色视频| 中文字幕人妻熟女乱码| 国产黄色视频一区二区在线观看| 精品人妻在线不人妻| 国产熟女欧美一区二区| 国产精品偷伦视频观看了| 国产国拍精品亚洲av在线观看| av国产久精品久网站免费入址| 亚洲国产毛片av蜜桃av| 五月伊人婷婷丁香| 日本欧美国产在线视频| 高清视频免费观看一区二区| 国产成人精品婷婷| 欧美 日韩 精品 国产| 在线天堂最新版资源| 亚洲欧洲精品一区二区精品久久久 | 久久久国产成人免费| 欧美乱色亚洲激情| 日韩三级视频一区二区三区| 法律面前人人平等表现在哪些方面| 建设人人有责人人尽责人人享有的| 国产免费现黄频在线看| 丰满迷人的少妇在线观看| 99国产极品粉嫩在线观看| 亚洲aⅴ乱码一区二区在线播放 | 啦啦啦 在线观看视频| 夜夜夜夜夜久久久久| 亚洲精品一卡2卡三卡4卡5卡| 亚洲精品粉嫩美女一区| 正在播放国产对白刺激| 亚洲成人免费av在线播放| 亚洲一区二区三区欧美精品| 免费在线观看视频国产中文字幕亚洲| 精品国产一区二区三区四区第35| 欧美黄色片欧美黄色片| 免费在线观看影片大全网站| 国产高清激情床上av| 国产精品av久久久久免费| 国产极品粉嫩免费观看在线| 久久久久久久久免费视频了| 一本综合久久免费| 日韩欧美国产一区二区入口| 亚洲av成人av| 日韩人妻精品一区2区三区| 亚洲欧美激情综合另类| 在线观看免费高清a一片| 久久久久久久国产电影| 女人久久www免费人成看片| 免费观看a级毛片全部| av国产精品久久久久影院| 飞空精品影院首页| 啦啦啦 在线观看视频| 99热国产这里只有精品6| 中文字幕av电影在线播放| 少妇粗大呻吟视频| 亚洲中文av在线| 女警被强在线播放| 亚洲午夜理论影院| 极品少妇高潮喷水抽搐| 久久精品国产清高在天天线| 999精品在线视频| av欧美777| 99re6热这里在线精品视频| 国产精品成人在线| xxx96com| 超碰97精品在线观看| 99热只有精品国产| 国产欧美日韩一区二区精品| 亚洲在线自拍视频| 每晚都被弄得嗷嗷叫到高潮| 99在线人妻在线中文字幕 | 色婷婷久久久亚洲欧美| 国产精品香港三级国产av潘金莲| 99国产精品一区二区蜜桃av | 80岁老熟妇乱子伦牲交| 最新在线观看一区二区三区| 欧美 日韩 精品 国产| 久久亚洲真实| av不卡在线播放| 大香蕉久久网| 黄色a级毛片大全视频| 亚洲第一av免费看| 在线av久久热| 日本五十路高清| 久久九九热精品免费| 色婷婷久久久亚洲欧美| 丝袜美腿诱惑在线| 看黄色毛片网站| 免费在线观看完整版高清| 久久久久视频综合| 日本五十路高清| 如日韩欧美国产精品一区二区三区| 在线十欧美十亚洲十日本专区| 五月开心婷婷网| 在线播放国产精品三级| 丁香欧美五月| 十分钟在线观看高清视频www| 妹子高潮喷水视频| 99riav亚洲国产免费| 欧美国产精品va在线观看不卡| 女性生殖器流出的白浆| 国产精品电影一区二区三区 | 国产成人精品久久二区二区免费| 黄色视频不卡| 免费观看精品视频网站| 黄片小视频在线播放| 久久久久国产一级毛片高清牌| 天天躁夜夜躁狠狠躁躁| 成人手机av| 亚洲午夜精品一区,二区,三区| 亚洲人成77777在线视频| 午夜免费鲁丝| 1024香蕉在线观看| 久久久久精品国产欧美久久久| 波多野结衣av一区二区av| 欧美日韩福利视频一区二区| 国产无遮挡羞羞视频在线观看| 久久99一区二区三区| 午夜91福利影院| 91精品三级在线观看| www.熟女人妻精品国产| 80岁老熟妇乱子伦牲交| 久久草成人影院| 黑人巨大精品欧美一区二区蜜桃| 久久九九热精品免费| 亚洲欧美精品综合一区二区三区| 人成视频在线观看免费观看| 99国产精品一区二区三区| 露出奶头的视频| 国产99久久九九免费精品| 亚洲精品一二三| 成人三级做爰电影| 国产精品久久久av美女十八| 久久久久视频综合| 亚洲国产精品sss在线观看 | 最新美女视频免费是黄的| 久久狼人影院| 亚洲avbb在线观看| av在线播放免费不卡| 欧美黄色淫秽网站| 国产精品影院久久| 精品国产一区二区久久| 丝瓜视频免费看黄片| 久久久国产成人免费| 成人特级黄色片久久久久久久| 啪啪无遮挡十八禁网站| 97人妻天天添夜夜摸| 51午夜福利影视在线观看| 亚洲av成人一区二区三| 老司机影院毛片| 久久 成人 亚洲| 亚洲熟妇中文字幕五十中出 | 久久久精品区二区三区| 日韩大码丰满熟妇| 中文亚洲av片在线观看爽 | 久久久久久久国产电影| 国产极品粉嫩免费观看在线| 亚洲全国av大片| 久久午夜亚洲精品久久| 丝袜在线中文字幕| 99香蕉大伊视频| 黄网站色视频无遮挡免费观看| 国产精品久久久久久人妻精品电影| 欧美人与性动交α欧美软件| 极品教师在线免费播放| 亚洲av成人一区二区三| 国产av精品麻豆| 看片在线看免费视频| 深夜精品福利| 怎么达到女性高潮| 19禁男女啪啪无遮挡网站| 两个人看的免费小视频| 亚洲熟妇中文字幕五十中出 | 亚洲国产欧美日韩在线播放| 亚洲一卡2卡3卡4卡5卡精品中文| 日韩免费av在线播放| 波多野结衣一区麻豆| 久久久久久免费高清国产稀缺| 最新的欧美精品一区二区| 老司机在亚洲福利影院| 久久久久久久久久久久大奶| 在线观看66精品国产| 久久久久久久久久久久大奶| 午夜激情av网站| 99国产精品一区二区蜜桃av | 后天国语完整版免费观看| 麻豆乱淫一区二区| 欧美精品一区二区免费开放| 免费在线观看影片大全网站| 国产欧美日韩综合在线一区二区| 午夜视频精品福利| 国产精品美女特级片免费视频播放器 | 精品第一国产精品| 亚洲成av片中文字幕在线观看| 久久热在线av| 国产欧美日韩精品亚洲av| 黄色a级毛片大全视频| 欧美黑人欧美精品刺激| 脱女人内裤的视频| 日韩熟女老妇一区二区性免费视频| 窝窝影院91人妻| 啦啦啦 在线观看视频| 国精品久久久久久国模美| 99在线人妻在线中文字幕 | 亚洲国产精品一区二区三区在线| 欧美日韩av久久| 69av精品久久久久久| 欧美激情久久久久久爽电影 | 极品教师在线免费播放| 欧美乱码精品一区二区三区| 国产伦人伦偷精品视频| 免费在线观看视频国产中文字幕亚洲| 日本黄色日本黄色录像| 91麻豆av在线| 乱人伦中国视频| 日韩 欧美 亚洲 中文字幕| 国产欧美亚洲国产| 国产国语露脸激情在线看| 国产精品1区2区在线观看. | 中国美女看黄片| 岛国在线观看网站| 国产av精品麻豆| 99精品在免费线老司机午夜| 国产精品香港三级国产av潘金莲| 日本一区二区免费在线视频| 午夜两性在线视频| 啪啪无遮挡十八禁网站| 久久精品亚洲精品国产色婷小说| 在线天堂中文资源库| 黄色丝袜av网址大全| 99re在线观看精品视频| 交换朋友夫妻互换小说| 人妻丰满熟妇av一区二区三区 | 午夜福利在线观看吧| 99久久99久久久精品蜜桃| 亚洲av美国av| 日韩欧美在线二视频 | 别揉我奶头~嗯~啊~动态视频| 欧美性长视频在线观看| 日韩三级视频一区二区三区| 欧美精品av麻豆av| 久久精品熟女亚洲av麻豆精品| 亚洲一区高清亚洲精品| 国产精品久久久久久精品古装| 国产精品久久久久久人妻精品电影| 亚洲午夜理论影院| 中文字幕人妻丝袜一区二区| 午夜久久久在线观看| 每晚都被弄得嗷嗷叫到高潮| 亚洲七黄色美女视频| 国产成人免费无遮挡视频| 国产不卡av网站在线观看| 免费不卡黄色视频| 国产精品久久久久久精品古装| 久久中文字幕一级| 91大片在线观看| 久久国产精品男人的天堂亚洲| 别揉我奶头~嗯~啊~动态视频| 亚洲专区国产一区二区| 久久人妻福利社区极品人妻图片| 国产日韩一区二区三区精品不卡| 搡老岳熟女国产| 黄色片一级片一级黄色片| 亚洲欧美一区二区三区久久| 国产精品免费一区二区三区在线 | 窝窝影院91人妻| 女人高潮潮喷娇喘18禁视频| 国产色视频综合| 超碰成人久久| 亚洲av美国av| 亚洲avbb在线观看| 精品亚洲成a人片在线观看| 久久香蕉激情| 一级a爱视频在线免费观看| 91av网站免费观看| 看片在线看免费视频| 免费在线观看完整版高清| 欧美国产精品一级二级三级| 在线观看一区二区三区激情| 午夜老司机福利片| 婷婷成人精品国产| 亚洲人成电影观看| 亚洲中文字幕日韩| 国产欧美日韩综合在线一区二区| 精品亚洲成a人片在线观看| 久热这里只有精品99| av天堂久久9| 亚洲成av片中文字幕在线观看| 一级毛片高清免费大全| 精品免费久久久久久久清纯 | 国产精品美女特级片免费视频播放器 | 国产1区2区3区精品| 久久中文字幕人妻熟女| 亚洲精品一卡2卡三卡4卡5卡| 中文欧美无线码| 老熟女久久久| 高清av免费在线| 日韩欧美三级三区| 丝袜美足系列| 久久久久久久久久久久大奶| 丝袜在线中文字幕| 久久久国产成人精品二区 | 超色免费av| 18禁观看日本| 成熟少妇高潮喷水视频| 一本一本久久a久久精品综合妖精| 真人做人爱边吃奶动态| 51午夜福利影视在线观看| 麻豆成人av在线观看| 男人操女人黄网站| 男女午夜视频在线观看| www.熟女人妻精品国产| 五月开心婷婷网| 99国产精品一区二区三区| 这个男人来自地球电影免费观看| 18禁观看日本| 校园春色视频在线观看| 天堂√8在线中文| 国产亚洲精品一区二区www | 老熟女久久久| 日韩欧美在线二视频 | av不卡在线播放| 99riav亚洲国产免费| 好男人电影高清在线观看| 精品午夜福利视频在线观看一区| 99精品欧美一区二区三区四区| 9191精品国产免费久久| a级毛片在线看网站| 12—13女人毛片做爰片一| 首页视频小说图片口味搜索| 宅男免费午夜| 欧美日韩国产mv在线观看视频| 亚洲av欧美aⅴ国产| 亚洲国产欧美日韩在线播放| 久久久久国产一级毛片高清牌| 国产精品免费一区二区三区在线 | 捣出白浆h1v1| 老司机深夜福利视频在线观看| 日韩大码丰满熟妇| av中文乱码字幕在线| 成人18禁在线播放| 久久久国产精品麻豆| 老熟妇乱子伦视频在线观看| 欧美人与性动交α欧美精品济南到| 免费黄频网站在线观看国产| xxx96com| 免费观看人在逋| 很黄的视频免费| 国产淫语在线视频| 99精品在免费线老司机午夜| 国产成人精品久久二区二区91| 国产精品久久久久久精品古装| 成人国语在线视频| 日韩欧美一区二区三区在线观看 | 人人妻人人爽人人添夜夜欢视频| 天天躁日日躁夜夜躁夜夜| 最近最新免费中文字幕在线| 999久久久国产精品视频| 色综合欧美亚洲国产小说| 亚洲精品美女久久久久99蜜臀| 美国免费a级毛片| 欧美日韩成人在线一区二区| 精品亚洲成a人片在线观看| 中文字幕最新亚洲高清| 国产av精品麻豆| 亚洲成人免费电影在线观看| 久久久久久亚洲精品国产蜜桃av| 人妻一区二区av| 中文字幕精品免费在线观看视频| 欧美乱妇无乱码| 亚洲欧美色中文字幕在线| 精品一区二区三区av网在线观看| 18禁美女被吸乳视频| 欧美日韩黄片免| 中出人妻视频一区二区| 亚洲精品美女久久av网站| 欧美精品啪啪一区二区三区| 在线观看日韩欧美| 精品视频人人做人人爽| 少妇猛男粗大的猛烈进出视频| 亚洲国产欧美一区二区综合| 国产深夜福利视频在线观看| 黑人猛操日本美女一级片| 视频区欧美日本亚洲| 午夜激情av网站| 日本wwww免费看| 国产免费av片在线观看野外av| 色播在线永久视频| 亚洲人成电影观看| 亚洲国产精品sss在线观看 | 欧美性长视频在线观看| 久久久国产成人免费| 国产淫语在线视频| 一级毛片高清免费大全| 免费看十八禁软件| 免费黄频网站在线观看国产| 高潮久久久久久久久久久不卡| 天堂中文最新版在线下载| 免费在线观看影片大全网站| www.精华液| 人人妻人人澡人人爽人人夜夜| 一边摸一边做爽爽视频免费| 亚洲精品乱久久久久久| 久久久水蜜桃国产精品网| 曰老女人黄片| 人人妻人人澡人人看| 他把我摸到了高潮在线观看| 国产在视频线精品| 麻豆国产av国片精品| 久久亚洲精品不卡| 在线观看舔阴道视频| 久久九九热精品免费| 美女午夜性视频免费| 美女福利国产在线| 一边摸一边抽搐一进一小说 | 最近最新中文字幕大全电影3 | 久久精品国产综合久久久| 大香蕉久久成人网| 日韩 欧美 亚洲 中文字幕| 99国产精品99久久久久| 高清毛片免费观看视频网站 | 亚洲成av片中文字幕在线观看| 中文字幕av电影在线播放| 精品国产乱码久久久久久男人| 国产免费男女视频| 亚洲欧美激情在线| 成年人黄色毛片网站| av天堂在线播放| 国产激情久久老熟女| 99精品欧美一区二区三区四区| 精品卡一卡二卡四卡免费| 亚洲av欧美aⅴ国产| 国产精品99久久99久久久不卡| 久久香蕉激情| 新久久久久国产一级毛片| 免费久久久久久久精品成人欧美视频| 亚洲视频免费观看视频| 精品少妇久久久久久888优播| av有码第一页| 免费在线观看视频国产中文字幕亚洲| 麻豆av在线久日| 久久久久久免费高清国产稀缺| 女警被强在线播放| 国产一区有黄有色的免费视频| 欧美国产精品一级二级三级| 99热只有精品国产| 亚洲av片天天在线观看| 免费人成视频x8x8入口观看| 欧美日韩黄片免| e午夜精品久久久久久久| 久久精品aⅴ一区二区三区四区| 亚洲欧美日韩高清在线视频| 久久国产精品大桥未久av| 欧美日韩av久久| 别揉我奶头~嗯~啊~动态视频|