• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的倫理智能體訓(xùn)練方法

    2022-09-06 07:30:58古天龍包旭光李云輝
    關(guān)鍵詞:軌跡倫理動(dòng)作

    古天龍 高 慧 李 龍 包旭光 李云輝

    1(暨南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 廣州 510632)

    2(廣西可信軟件重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)) 廣西桂林 541004)

    (gutianlong@jnu.edu.cn)

    人工智能(artificial intelligence, AI)已經(jīng)廣泛應(yīng)用到醫(yī)療[1]、交通[2]、智能家居[3]等諸多領(lǐng)域,給人類生活提供了諸多便利,但也引發(fā)了突出的倫理問(wèn)題.例如:微軟推出的聊天機(jī)器人Tay設(shè)計(jì)之初是為了與人類進(jìn)行友好互動(dòng),但卻被網(wǎng)友教會(huì)了粗俗甚至帶有歧視性質(zhì)的話語(yǔ);優(yōu)步(Uber)研發(fā)的無(wú)人駕駛汽車在行駛過(guò)程中撞死了無(wú)辜路人.不難想象,類似問(wèn)題如果在智能體設(shè)計(jì)之初得以解決,能夠顯著減少給人類造成的困擾和傷害.換言之,為促進(jìn)人工智能高效發(fā)展,并更好地為人類服務(wù)、提升人類生活質(zhì)量,必須設(shè)計(jì)實(shí)現(xiàn)行為符合倫理的智能體,即倫理智能體[4].正如Picard[5]所說(shuō),“機(jī)器的自由度越大,越需要道德標(biāo)準(zhǔn)”.

    價(jià)值對(duì)齊(價(jià)值一致)是典型的倫理智能體訓(xùn)練技術(shù)之一,即利用規(guī)范或規(guī)則限制智能體的行為,使其與人類價(jià)值觀相一致[6-7].由于人類價(jià)值觀的多樣及復(fù)雜性,較多學(xué)者認(rèn)為借助自下而上的方法實(shí)現(xiàn)價(jià)值對(duì)齊,從而讓智能體學(xué)得人類價(jià)值觀是較為可行的倫理智能體訓(xùn)練方法[8].其中基于專家示例[9-10]、模仿學(xué)習(xí)[11]、偏好學(xué)習(xí)[12-13]或者逆強(qiáng)化學(xué)習(xí)[14]等技術(shù)應(yīng)用較為廣泛,這類技術(shù)利用人類示范指導(dǎo)智能體行動(dòng),可以在一定程度上展現(xiàn)人類的價(jià)值觀及道德規(guī)范.但是,基于人類示范指導(dǎo)進(jìn)行倫理智能體訓(xùn)練的方法普遍存在3個(gè)缺點(diǎn)[15-16]:1)收集真實(shí)的人類行為示例代價(jià)昂貴、周期長(zhǎng),甚至是不可行的;2)因數(shù)量有限,真實(shí)人類行為示例易存在代表性差、公平性差等偏見(jiàn)歧視問(wèn)題;3)由于數(shù)據(jù)來(lái)源于實(shí)際發(fā)生的人類真實(shí)行為,絕大多數(shù)行為體現(xiàn)的是積極的價(jià)值觀,缺少與之對(duì)應(yīng)的負(fù)面行為.

    基于Li等人[17-18]的前期研究,Riedl等人[19]探討了基于故事對(duì)智能體進(jìn)行價(jià)值觀嵌入的可行性,提出了以行為結(jié)果為根本目標(biāo)的智能體訓(xùn)練方法.該方法以結(jié)果為導(dǎo)向、功能單一、訓(xùn)練粒度較粗,忽略了智能體在目標(biāo)達(dá)成過(guò)程中可能做出的不倫理行為.受到以上研究啟發(fā),本文提出了一種新穎、高效的倫理智能體訓(xùn)練方法,能夠保證智能體以符合倫理的行為方式完成預(yù)設(shè)任務(wù).本文貢獻(xiàn)有4個(gè)方面:

    1) 提出了基于強(qiáng)化學(xué)習(xí)的倫理智能體訓(xùn)練方法.借助于眾包、強(qiáng)化學(xué)習(xí)等技術(shù),智能體具備執(zhí)行倫理行為的能力,為倫理智能體的設(shè)計(jì)及訓(xùn)練提供了探索性思路.

    2) 提出了基于眾包的人類行為文本數(shù)據(jù)集構(gòu)建方法.針對(duì)人類示范數(shù)據(jù)集難以獲得、構(gòu)建耗時(shí)長(zhǎng)、代價(jià)昂貴、存在偏見(jiàn)歧視等特點(diǎn),利用眾包技術(shù)收集世界各地人們的行為示例,高效構(gòu)建能夠體現(xiàn)人類共同價(jià)值觀的行為文本數(shù)據(jù)集.

    3) 提出了元倫理行為這一概念以及一種綜合考慮道德、規(guī)范及法律因素的行為獎(jiǎng)勵(lì)機(jī)制.從《中學(xué)生日常行為規(guī)范》中提取了人類生活中最為普遍存在的9個(gè)元倫理行為,擴(kuò)展了智能體的行為空間,在一定程度上解決了其行為受場(chǎng)景限制的問(wèn)題.此外,借助于眾包對(duì)元倫理行為進(jìn)行了倫理分級(jí),提出了應(yīng)用于強(qiáng)化學(xué)習(xí)的行為獎(jiǎng)勵(lì)機(jī)制,協(xié)助智能體在完成最終目標(biāo)的前提下執(zhí)行符合倫理的行為.

    4) 通過(guò)模擬現(xiàn)實(shí)生活中常見(jiàn)的買藥場(chǎng)景,分別基于Q-learning算法和DQN(deep Q-networks)算法對(duì)倫理智能體訓(xùn)練方法的有效性及合理性進(jìn)行了實(shí)驗(yàn)驗(yàn)證.

    1 相關(guān)工作

    為使智能體的行為符合倫理,研究者展開(kāi)了相關(guān)研究.目前而言,多數(shù)研究主要借助于規(guī)則推理、案例對(duì)比及機(jī)器學(xué)習(xí)等技術(shù)賦予智能體倫理判別能力.

    基于規(guī)則推理的倫理決策方法主要利用預(yù)先設(shè)定好的倫理決策原則指導(dǎo)智能體進(jìn)行推理決策.例如,在“I,Robot”[20]中,“機(jī)器人3原則”的設(shè)定對(duì)于防止機(jī)器人傷害人類起到了重要作用.Bringsjord等人[21]在機(jī)器人3原則的基礎(chǔ)上設(shè)定了2種基本的機(jī)器決策原則,提出了一種利用命題演算和謂詞演算等邏輯推理形式實(shí)現(xiàn)機(jī)器倫理決策的方法.Briggs等人[22]創(chuàng)造了認(rèn)知機(jī)器人結(jié)構(gòu)DIARC/ADE,該結(jié)構(gòu)能夠?qū)崿F(xiàn)指令拒絕和解釋機(jī)制的機(jī)器倫理決策方法,并在簡(jiǎn)單的場(chǎng)景下進(jìn)行了測(cè)試.Anderson等人[23]基于功利主義和義務(wù)論開(kāi)發(fā)了倫理顧問(wèn)系統(tǒng),并進(jìn)一步證明了倫理原則指導(dǎo)下的決策系統(tǒng)在倫理困境下更易做出倫理決策.基于規(guī)則推理的倫理決策方法具有較強(qiáng)的可解釋性和透明性,可以協(xié)助智能體快速做出倫理決策,但是難以刻畫(huà)復(fù)雜的人類倫理,而且存在因地域、文化、個(gè)人信仰等不同而引起的規(guī)則差異等問(wèn)題.

    基于案例對(duì)比的倫理決策方法通過(guò)類比以往發(fā)生的案例自動(dòng)提取倫理規(guī)范并進(jìn)行倫理決策.Anderson等人[24]基于案例對(duì)比技術(shù)設(shè)計(jì)了倫理決策顧問(wèn)系統(tǒng)MedEthEx,該系統(tǒng)通過(guò)提取典型案例中的醫(yī)學(xué)倫理原則,協(xié)助護(hù)理智能體作出決策.Anderson等人[25]設(shè)計(jì)了一種基于專家評(píng)議的倫理困境探索系統(tǒng)GenEth,用于討論給定場(chǎng)景中的道德困境,并應(yīng)用歸納邏輯程序來(lái)推斷行為的倫理準(zhǔn)則.Arkin等人[26]提出了一種以戰(zhàn)爭(zhēng)規(guī)則為倫理決策原則的戰(zhàn)場(chǎng)機(jī)器倫理決策方法,分別從倫理行為抑制、倫理決策設(shè)計(jì)、利用效應(yīng)函數(shù)適應(yīng)非道德行為和協(xié)助操作者分配最終責(zé)任4方面提出了具體解決方案.Dehghani等人[27]提出了結(jié)合規(guī)則推理和案例對(duì)比的MoralDM系統(tǒng),既允許智能體基于某些已有的規(guī)則進(jìn)行決策,也支持智能體基于案例對(duì)比做出決策.但是,伴隨著案例數(shù)量的不斷增多,MoralDM的工作效率顯著下降,因此Blass等人[28]對(duì)其進(jìn)行了結(jié)構(gòu)映射擴(kuò)展,通過(guò)計(jì)算案例間的對(duì)應(yīng)關(guān)系以及相似度縮小搜索空間,提高類比泛化的效率.基于案例的方法雖然求解簡(jiǎn)單,但是存在難以應(yīng)對(duì)場(chǎng)景不斷變化、案例相關(guān)性差且數(shù)量有限等顯著問(wèn)題.

    基于機(jī)器學(xué)習(xí)的倫理決策研究主要依靠智能體對(duì)客觀環(huán)境的不斷學(xué)習(xí)獲得決策能力.Armstrong[29]基于貝葉斯理論構(gòu)建了智能體決策模型,該模型依據(jù)最優(yōu)效用價(jià)值原則,通過(guò)求取最大效用函數(shù)值完成決策.受巴甫洛夫條件反射的啟發(fā),強(qiáng)化學(xué)習(xí)[30]是一種基于嘗試和錯(cuò)誤的學(xué)習(xí)方法,它很好地滿足了人類的目的,即讓智能體學(xué)習(xí)道德行為.Dewey[31]在使用效用值的同時(shí)借助強(qiáng)化學(xué)習(xí)[30]設(shè)計(jì)倫理決策.Abel等人[32]主張強(qiáng)化學(xué)習(xí)可以協(xié)助智能體實(shí)現(xiàn)倫理學(xué)習(xí)和決策,并通過(guò)典型的倫理困境實(shí)驗(yàn)展示了如何借助于強(qiáng)化學(xué)習(xí)處理基本的道德問(wèn)題.Wu等人[33]提出了將倫理價(jià)值觀納入強(qiáng)化學(xué)習(xí)的倫理塑造方法,通過(guò)假設(shè)大多數(shù)人類行為是道德的,從人類行為數(shù)據(jù)學(xué)習(xí)道德塑造策略,并模擬了拿牛奶、駕駛與躲避以及駕駛與救援這3個(gè)場(chǎng)景,證明了方法的有效性.Riedl等人[19]探討了利用強(qiáng)化學(xué)習(xí)訓(xùn)練強(qiáng)化學(xué)習(xí)掌握人類價(jià)值觀的可能性,該研究借助于Li等人[17-18]的研究構(gòu)建情節(jié)圖,以刻畫(huà)智能體行為空間,然而存在受場(chǎng)景限制問(wèn)題,無(wú)法應(yīng)對(duì)現(xiàn)實(shí)環(huán)境的動(dòng)態(tài)多變.

    2 背景知識(shí)

    2.1 眾 包

    信息技術(shù)雖然不斷進(jìn)步,但是仍然存在許多計(jì)算機(jī)難以高效處理但人類卻能輕松應(yīng)對(duì)的工作,如數(shù)據(jù)標(biāo)注、物體識(shí)別等,眾包便被用于協(xié)助人類更加高效地完成此類任務(wù).眾包的核心思想是借助于互聯(lián)網(wǎng)、利用群體智慧將任務(wù)分而治之,通過(guò)工作者之間的協(xié)作完成復(fù)雜任務(wù).眾包的一般流程為:1)請(qǐng)求者在眾包平臺(tái)創(chuàng)建任務(wù);2)工作者在眾包平臺(tái)完成任務(wù);3)請(qǐng)求者在眾包平臺(tái)核查任務(wù)的完成情況,并決定是否為工作者發(fā)放酬金.

    Fig. 1 Plot graph and trajectory tree圖1 情節(jié)圖與軌跡樹(shù)

    2.2 情節(jié)圖及軌跡樹(shù)

    情節(jié)圖用于描述多個(gè)事件序列的發(fā)生順序,能夠準(zhǔn)確、簡(jiǎn)潔刻畫(huà)事件的發(fā)生過(guò)程,并過(guò)濾掉普遍存在的噪音[17-18].情節(jié)圖可以借助元組E,B,M,Eopt,Econ來(lái)表示.其中,E={e1,e2,…,en},表示情節(jié)圖中所有事件的集合;B?E×E,表示事件間先后關(guān)系的集合;M?E×E,表示事件間互斥關(guān)系的集合;Eopt?E,表示情節(jié)圖中所有可選擇事件的集合;Econ?E,表示情節(jié)圖中所有條件事件的集合.條件事件的發(fā)生取決于可選擇事件是否發(fā)生.圖1所示左邊為情節(jié)圖,節(jié)點(diǎn)代表事件,有向邊代表事件間的先后關(guān)系(如事件e1早于事件e2發(fā)生),虛線邊代表事件間的互斥關(guān)系(如事件e2與事件e3不可能同時(shí)發(fā)生).

    如圖1右邊所示,軌跡樹(shù)是有向無(wú)環(huán)圖,主要作用是便于強(qiáng)化學(xué)習(xí)為智能體分配獎(jiǎng)勵(lì).此外,智能體可以根據(jù)軌跡樹(shù)追蹤自己的行為.

    Fig. 2 Flow chart of method圖2 方法流程圖

    2.3 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)[30]用于描述和解決智能體在某一環(huán)境中獲得最大回報(bào)或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題.其核心為馬爾可夫決策過(guò)程(Markov decision process, MDP),可表示為五元組S,A,T,R,γ.其中,S表示智能體的所有狀態(tài)(即狀態(tài)空間);A表示智能體的所有動(dòng)作(即動(dòng)作空間);T:S×A→P(S)表示狀態(tài)轉(zhuǎn)移概率;R:S×A→R表示智能體采取某一動(dòng)作并到達(dá)某一狀態(tài)所獲得的獎(jiǎng)勵(lì)值;γ∈[0,1]表示獎(jiǎng)勵(lì)衰減因子.MDP的目標(biāo)是最大化智能體取得的長(zhǎng)期獎(jiǎng)勵(lì),即其中t為智能體所處時(shí)刻.

    2.3.1 Q-learning算法

    Q-learning使用Q值Q(s,a)估計(jì)在狀態(tài)s采取行動(dòng)a的預(yù)期獎(jiǎng)勵(lì),用于協(xié)助智能體學(xué)得行動(dòng)策略π:S→A,即每一個(gè)狀態(tài)下該采取的動(dòng)作.Q(s,a)的計(jì)算方式為

    (1)

    其中α為學(xué)習(xí)率,r為回報(bào),γ為折扣因子,s′為新?tīng)顟B(tài),a′為新?tīng)顟B(tài)可采取的動(dòng)作.

    智能體在狀態(tài)s下,依據(jù)Q-table選擇動(dòng)作a,使Q(s,a)最大化.Q-table的行表示狀態(tài)s,列表示動(dòng)作a,矩陣中的值表示特定狀態(tài)下執(zhí)行某動(dòng)作的回報(bào)值為r(s,a).智能體通過(guò)不斷更新并查找該表,最終學(xué)到最佳策略.在學(xué)習(xí)過(guò)程中,探索率ε制約智能體按照Q-table的最優(yōu)值選擇行為或者隨機(jī)選擇行為.

    2.3.2 DQN算法

    DQN[34]采用神經(jīng)網(wǎng)絡(luò)估計(jì)價(jià)值函數(shù),以端對(duì)端的方式對(duì)智能體進(jìn)行訓(xùn)練.DQN的誤差函數(shù)表示為

    (2)

    (3)

    同時(shí),神經(jīng)網(wǎng)絡(luò)的參數(shù)采用梯度下降的方式進(jìn)行更新.此外,DQN中的探索率是變化的,隨著訓(xùn)練的進(jìn)行,由ε1逐步變化為ε2.

    3 倫理智能體訓(xùn)練方法

    本文所提出的倫理智能體訓(xùn)練方法主要包含4個(gè)步驟:1)基于眾包收集人類行為示例,構(gòu)建人類行為數(shù)據(jù)集;2)構(gòu)建情節(jié)圖,并進(jìn)一步創(chuàng)建軌跡樹(shù);3)從《中學(xué)生日常行為規(guī)范》提取元倫理行為,并基于眾包進(jìn)行倫理分級(jí);4)綜合考慮道德、規(guī)范及法律因素,針對(duì)強(qiáng)化學(xué)習(xí)提出行為獎(jiǎng)勵(lì)機(jī)制,采用獎(jiǎng)勵(lì)機(jī)制與軌跡樹(shù)相結(jié)合的方式訓(xùn)練倫理智能體.如圖2所示:

    3.1 基于眾包的人類行為示例收集

    鑒于眾包在數(shù)據(jù)收集方面的優(yōu)勢(shì),本文采用眾包收集人類行為示例.為保證數(shù)據(jù)質(zhì)量,提出3個(gè)要求:

    1) 工作者撰寫(xiě)的行為示例包含8~30句話,每句話必須包含一個(gè)行為.工作者worker1撰寫(xiě)的包含n個(gè)行為的示例可表示為Aworker1(a11,a12,…,a1n).

    2) 必須采用簡(jiǎn)單的自然語(yǔ)言進(jìn)行表述,不能使用大量的復(fù)合句以及條件句等.

    3) 同一示例中僅包含單一行為主體.

    對(duì)于接受的每條示例,將給與工作者0.4~1.2美元的酬金.最終收集到的m條人類行為示例可表示為A={(Aworker1(a11,a12,…,a1n)),(Aworker1(a21,a22,…,a2n)),…,(Aworker m(am1,am2,…,amn))}.

    3.2 情節(jié)圖及軌跡樹(shù)的生成

    情節(jié)圖的生成分為2個(gè)步驟:

    1) 利用相似度度量技術(shù)對(duì)句子進(jìn)行聚類,并提取情節(jié)點(diǎn).本文使用K-Means聚類方法對(duì)句子進(jìn)行聚類.

    2) 利用關(guān)聯(lián)分析技術(shù)分析情節(jié)點(diǎn)之間的先后關(guān)系、互斥關(guān)系,并構(gòu)造情節(jié)圖.

    對(duì)于情節(jié)點(diǎn)ei與ej,創(chuàng)建f(ei→ej)和f(ej→ei)這2個(gè)假設(shè),通過(guò)計(jì)算支持每種假設(shè)的樣本數(shù)量,得出ei與ej的先后關(guān)系.假設(shè)ei與ej出現(xiàn)在同一個(gè)文本中,且ei出現(xiàn)在ej之前,則認(rèn)為該文本支持f(ei→ej).借助于置信度計(jì)算公式,當(dāng)f(ei→ej)的置信度大于0.5時(shí),認(rèn)定ei發(fā)生在ej之前.

    (4)

    其中,ei→ej表示在同一個(gè)文本中ei先發(fā)生而ej后發(fā)生,|Sample|表示所有文本數(shù)量.

    對(duì)于情節(jié)點(diǎn)ei,ej,分別設(shè)置Ei,Ej,用于表明ei,ej是否出現(xiàn)在某一示例中,當(dāng)出現(xiàn)時(shí)Ei和Ej的取值為1,否則取值為0.根據(jù)下式計(jì)算M值,M是用于判定ei和ej是否存在互斥關(guān)系的函數(shù),如果M>0,則說(shuō)明ei,ej存在互斥關(guān)系.

    (5)

    在遵循情節(jié)點(diǎn)間關(guān)系的前提下,通過(guò)遍歷情節(jié)圖生成所有可能的路徑,便可得到軌跡樹(shù).

    3.3 元倫理行為提取及分級(jí)

    不同場(chǎng)景中的不同動(dòng)作可能具備相同的倫理意義,如偷水果、偷藥都是不符合倫理的偷盜行為.因此,為了高效擴(kuò)展智能體的行為空間,引入元倫理行為這一概念來(lái)表示含義較為相似的一類倫理行為.

    為了客觀、公平對(duì)元倫理行為分級(jí),采用眾包收集行為分級(jí)的建議,眾包任務(wù)設(shè)計(jì)如表1左邊2列所示:

    Table 1 Meta-Ethical Behavior Grading表1 元倫理行為分級(jí)

    對(duì)于眾包結(jié)果,基于多數(shù)投票機(jī)制[35]進(jìn)行數(shù)據(jù)聚合,最終結(jié)果如表1右邊2列所示.元倫理行為可分類為

    3.4 基于元倫理行為的強(qiáng)化學(xué)習(xí)

    獲得軌跡樹(shù)之后,需要將其映射到強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境中,完成倫理智能體訓(xùn)練.但是強(qiáng)化學(xué)習(xí)的訓(xùn)練環(huán)境是有限場(chǎng)景,無(wú)法羅列智能體可能遇到的全部情況.此外,在沒(méi)有先驗(yàn)知識(shí)的情況下,強(qiáng)化學(xué)習(xí)算法需要隨機(jī)探索狀態(tài)-動(dòng)作對(duì),并在進(jìn)行足量探索后逐步提升學(xué)習(xí)效率.為此,本文將元倫理行為及其分級(jí)作為先驗(yàn)知識(shí),提出了基于元倫理行為的強(qiáng)化學(xué)習(xí).

    Q-learning基于獎(jiǎng)勵(lì)塑造的Q值計(jì)算公式為

    (6)

    DQN算法中基于獎(jiǎng)勵(lì)塑造的損失函數(shù)為

    (7)

    (8)

    其中,F(s,a)為基于元倫理行為的獎(jiǎng)勵(lì)函數(shù),a|s代表智能體在s狀態(tài)下執(zhí)行的動(dòng)作a.

    顯而易見(jiàn),在基于元倫理行為的強(qiáng)化學(xué)習(xí)中,智能體不僅能夠獲得環(huán)境獎(jiǎng)勵(lì)(與軌跡樹(shù)相關(guān)),還能獲得與元倫理行為及其分級(jí)相關(guān)的獎(jiǎng)勵(lì).2種獎(jiǎng)勵(lì)機(jī)制相互結(jié)合,達(dá)到擴(kuò)展智能體行為空間、改善訓(xùn)練效果的目的.

    4 實(shí)驗(yàn)驗(yàn)證與分析

    為了驗(yàn)證本文所提方法的有效性,選擇生活中較為常見(jiàn)的“購(gòu)買處方藥”任務(wù),對(duì)倫理智能體進(jìn)行訓(xùn)練,并對(duì)結(jié)果進(jìn)行分析.在該實(shí)驗(yàn)中,智能體的最終目標(biāo)是攜帶處方藥回家,但其所有行為應(yīng)盡可能符合倫理.

    本文首先通過(guò)Q-learning算法對(duì)所提方法進(jìn)行驗(yàn)證,并分別使用3種獎(jiǎng)勵(lì)機(jī)制訓(xùn)練對(duì)比分析方法的有效性.其次使用DQN算法完成訓(xùn)練實(shí)驗(yàn),并與基于Q-learning算法的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比分析.

    4.1 包數(shù)據(jù)收集

    針對(duì)“購(gòu)買處方藥”這一主題,本文利用Amazon Mechanical Turk平臺(tái),進(jìn)行了2次眾包,共收集到437條人類行為示例.綜合考慮主題、行為數(shù)量等因素,對(duì)收集到的行為示例進(jìn)行了篩選,保留了其中的179條(占總量的40%)作為實(shí)驗(yàn)樣本.實(shí)驗(yàn)樣本中的每條數(shù)據(jù)平均包含12個(gè)行為,數(shù)據(jù)可用性較高.

    4.2 情節(jié)圖及軌跡樹(shù)生成

    經(jīng)過(guò)情節(jié)點(diǎn)以及情節(jié)點(diǎn)間關(guān)系的學(xué)習(xí),本文買藥場(chǎng)景的情節(jié)圖如圖3所示,共包含32個(gè)情節(jié)點(diǎn).由于情節(jié)圖轉(zhuǎn)換的軌跡樹(shù)軌跡較多,本文在此展示部分轉(zhuǎn)換結(jié)果,如圖4所示.

    Fig. 3 Plot graph圖3 情節(jié)圖

    Fig. 4 Partial trajectory tree圖4 部分軌跡樹(shù)

    4.3 強(qiáng)化學(xué)習(xí)場(chǎng)景映射

    為完成倫理智能體訓(xùn)練,需要將其行為狀態(tài)映射到強(qiáng)化學(xué)習(xí)場(chǎng)景中,場(chǎng)景由狀態(tài)空間和動(dòng)作空間組成:1)狀態(tài)空間包括物理位置、交互狀態(tài)及所處軌跡樹(shù)位置.物理位置是指智能體所處的地點(diǎn)和位置坐標(biāo)信息;交互狀態(tài)是指智能體在與其他主體交互過(guò)程中的自身狀態(tài),如是否獲得或擁有錢、是否獲得或擁有處方;所處軌跡樹(shù)位置是指智能體當(dāng)前動(dòng)作所處的軌跡樹(shù)節(jié)點(diǎn)位置.2)動(dòng)作空間包括智能體在場(chǎng)景中可執(zhí)行的位移動(dòng)作和交互動(dòng)作.位移動(dòng)作指智能的上下左右移動(dòng)和進(jìn)出某地點(diǎn);交互動(dòng)作指智能體與其他主體間的信息交互.

    動(dòng)作空間的規(guī)模受制于狀態(tài)空間的規(guī)模,可通過(guò)窮舉法得出.狀態(tài)轉(zhuǎn)移隨動(dòng)作導(dǎo)致的狀態(tài)變化而變化,如位移動(dòng)作將使智能體的物理位置信息發(fā)生變化,交互動(dòng)作則使智能體的交互狀態(tài)(如付出金錢獲得藥品)和所處軌跡樹(shù)位置發(fā)生變化.

    Fig. 5 Overall scene圖5 全局場(chǎng)景

    圖5所示8×8平面為全局場(chǎng)景示意圖,包含家(H)、醫(yī)院(D)、銀行($)、藥店(+)四個(gè)局部場(chǎng)景及智能體(@1).任意局部場(chǎng)景均擁有更為詳細(xì)的場(chǎng)景布局,如圖6所示7×7平面為藥店場(chǎng)景,包含柜臺(tái)(?)、智能體(@1)、顧客(@2)、藥店員(@3)及出口(E).藥店員的職責(zé)是檢查處方并售賣藥品,因此智能體需要去醫(yī)院咨詢醫(yī)生獲得處方并攜帶處方購(gòu)買處方藥.@2的存在表明智能體須排隊(duì)購(gòu)藥,若繞過(guò)@2直接與@3溝通,則存在插隊(duì)行為.

    Fig. 6 Pharmacy scene圖6 藥店場(chǎng)景

    4.4 強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)

    為說(shuō)明本文所提倫理智能體訓(xùn)練方法的有效性,本文使用3種不同的獎(jiǎng)勵(lì)機(jī)制訓(xùn)練倫理智能體.

    機(jī)制1.當(dāng)智能體成功購(gòu)買處方藥時(shí)可獲得獎(jiǎng)勵(lì).該獎(jiǎng)勵(lì)機(jī)制無(wú)需先驗(yàn)知識(shí)指導(dǎo),成功購(gòu)買處方藥可獲得計(jì)數(shù)為10的獎(jiǎng)勵(lì),否則獲得計(jì)數(shù)為-10的獎(jiǎng)勵(lì).

    機(jī)制2.當(dāng)智能體的行為遵循軌跡樹(shù)路徑時(shí)可獲得獎(jiǎng)勵(lì).該獎(jiǎng)勵(lì)機(jī)制利用軌跡樹(shù)對(duì)智能體的行為進(jìn)行指導(dǎo),當(dāng)智能體執(zhí)行了軌跡樹(shù)中的動(dòng)作時(shí)可獲得計(jì)數(shù)為10的獎(jiǎng)勵(lì),否則獲得計(jì)數(shù)為-10的獎(jiǎng)勵(lì).

    機(jī)制3.當(dāng)智能體的行為遵循軌跡樹(shù)路徑時(shí)可獲得獎(jiǎng)勵(lì),且需要結(jié)合3.3節(jié)、3.4節(jié)中所提出的元倫理行為及其分級(jí)原則.

    4.5 實(shí)驗(yàn)結(jié)果及分析

    為驗(yàn)證4.4節(jié)所述的倫理智能體訓(xùn)練方法的可行性,本節(jié)分別采用Q-learning算法、DQN算法進(jìn)行實(shí)驗(yàn)驗(yàn)證及分析.

    4.5.1 基于Q-learning算法的實(shí)驗(yàn)驗(yàn)證

    采用Q-learning算法進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),實(shí)驗(yàn)參數(shù)設(shè)置如表2所示:

    Table 2 Q-learning Experimental Parameters表2 Q-learning實(shí)驗(yàn)參數(shù)

    本文首先使用機(jī)制3訓(xùn)練倫理智能體,對(duì)使用機(jī)制3訓(xùn)練倫理智能體的過(guò)程進(jìn)行分析.由于智能體在醫(yī)院是否得到處方具有隨機(jī)性,本文分為得到處方以及沒(méi)有得到處方2種情況.圖7、圖8分別為得到處方、沒(méi)有得到處方情況下智能體的動(dòng)作變化情況,圖中縱坐標(biāo)為動(dòng)作執(zhí)行數(shù)量與結(jié)果之比(即動(dòng)作執(zhí)行率).

    Fig. 7 Action execution rate when prescription isobtained(Q-learning)圖7 得到處方的動(dòng)作執(zhí)行率(Q-learning)

    如圖7所示,買藥曲線隨訓(xùn)練回合數(shù)逐漸上升并趨于平穩(wěn),表明智能體已經(jīng)從中學(xué)會(huì)如何買藥;代表?yè)屽X和插隊(duì)的曲線在訓(xùn)練初期有小幅度上升后立即下降,表明智能體對(duì)非倫理行為進(jìn)行了嘗試,并在得到懲罰后避開(kāi)該類行為;異常結(jié)束曲線訓(xùn)練初期接近于1表明智能體不斷嘗試各種動(dòng)作,并超過(guò)了回合最大動(dòng)作數(shù);返還多余金錢的曲線前期動(dòng)作執(zhí)行率為0,此時(shí)智能體還未學(xué)會(huì)支付金錢;幫助老人的曲線收斂得最快,因?yàn)榘磦惱矸旨?jí)機(jī)制幫助老人可以獲得相應(yīng)獎(jiǎng)勵(lì),曲線上升并收斂說(shuō)明了倫理分級(jí)機(jī)制的有效性.

    從圖8可以看出,隨著訓(xùn)練回合數(shù)的增加,偷藥、搶錢、插隊(duì)等動(dòng)作的執(zhí)行率顯著下降并趨于穩(wěn)定,說(shuō)明智能體獲得了執(zhí)行倫理行為的能力.在訓(xùn)練前期,攻擊藥店員的動(dòng)作執(zhí)行率與被藥店員拒絕出售藥品的動(dòng)作執(zhí)行率成正比,說(shuō)明智能體尚未獲得執(zhí)行倫理行為的能力;但隨著訓(xùn)練回合的增加,被藥店員拒絕出售藥品的動(dòng)作執(zhí)行率顯著提高(接近1),而攻擊藥店員的動(dòng)作執(zhí)行率卻接近為0,說(shuō)明智能體獲得了執(zhí)行倫理行為的能力.

    Fig. 8 Action execution rate when prescription isn’tobtained(Q-learning)圖8 沒(méi)有得到處方的動(dòng)作執(zhí)行率(Q-learning)

    下面針對(duì)4.4節(jié)所述的3種獎(jiǎng)勵(lì)機(jī)制做對(duì)比實(shí)驗(yàn),每訓(xùn)練1 000回合測(cè)試10次,共統(tǒng)計(jì)1 000次測(cè)試結(jié)果.在實(shí)驗(yàn)結(jié)果分析時(shí),以預(yù)約、搶錢、插隊(duì)、提供假處方、偷藥、攻擊藥店員、買藥、遇到多余金錢時(shí)返還與否、遇到老人時(shí)幫助與否、被藥店員拒絕出售藥品、異常結(jié)束這14個(gè)行為或結(jié)果作為評(píng)價(jià)指標(biāo),分析各獎(jiǎng)勵(lì)機(jī)制的差異.實(shí)驗(yàn)結(jié)果如圖9所示.

    Fig. 9 Comparison of results under different mechanisms圖9 不同獎(jiǎng)勵(lì)機(jī)制下的實(shí)驗(yàn)結(jié)果對(duì)比

    由圖9可見(jiàn),采用機(jī)制1對(duì)智能體進(jìn)行獎(jiǎng)勵(lì)時(shí),由于不對(duì)智能體買藥過(guò)程中的行為進(jìn)行倫理層面的指導(dǎo),導(dǎo)致其執(zhí)行了較多違背倫理的行為,如偷藥1 000次、攻擊店員546次,而在離開(kāi)家后的探索中197次遇見(jiàn)需要幫助的老人,其中44次給予幫助.

    采用機(jī)制2對(duì)智能體進(jìn)行獎(jiǎng)勵(lì)時(shí),智能體為了獲得更多獎(jiǎng)勵(lì),會(huì)執(zhí)行較多軌跡樹(shù)中出現(xiàn)的行為,如在去醫(yī)院咨詢醫(yī)生前執(zhí)行預(yù)約行為1 000次,保證了智能體執(zhí)行任務(wù)的邏輯順序.但是對(duì)軌跡樹(shù)中未出現(xiàn)的行為仍然不具備判斷能力,如497次收到收銀員找回的多余零錢、493次未執(zhí)行返還行為(占比約99.2%).在離開(kāi)家后的探索中,1 000次遇見(jiàn)需要幫助的老人,其中52次給予幫助.

    采用機(jī)制3對(duì)智能體進(jìn)行獎(jiǎng)勵(lì)時(shí),智能體在軌跡樹(shù)和元倫理行為分級(jí)的雙重指導(dǎo)下,具備更高效的倫理行為學(xué)習(xí)能力,執(zhí)行了更多的倫理行為.如486次收到收銀員找回的多余零錢,455次執(zhí)行了返還行為(占比約93.6%).在離開(kāi)家后的探索中,1 000次遇見(jiàn)需要幫助的老人,均給予了幫助.

    4.5.2 基于DQN算法的實(shí)驗(yàn)驗(yàn)證

    采用DQN算法進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),實(shí)驗(yàn)參數(shù)設(shè)置如表3所示:

    Table 3 DQN Experimental Parameters表3 DQN實(shí)驗(yàn)參數(shù)

    與Q-learning算法一致,基于DQN算法的實(shí)驗(yàn)同樣分為得到處方以及沒(méi)有得到處方2種情況.圖10、圖11曲線的走勢(shì)與圖7、圖8較為相似,說(shuō)明在使用DQN算法進(jìn)行智能體訓(xùn)練時(shí),智能體最終能夠獲得執(zhí)行符合倫理行為的能力,即能夠遵守人類道德與倫理規(guī)范,驗(yàn)證了所提方法的合理有效性.但是不難發(fā)現(xiàn),使用DQN算法時(shí),完成智能體訓(xùn)練所需的回合數(shù)更多.

    Fig. 10 Action execution rate when prescription is obtained(DQN)圖10 得到處方的動(dòng)作執(zhí)行率(DQN)

    Fig. 11 Action execution rate when prescriptionisn’t obtained(DQN)圖11 沒(méi)有得到處方的動(dòng)作執(zhí)行率(DQN)

    4.5.3 算法間的對(duì)比實(shí)驗(yàn)

    為進(jìn)一步說(shuō)明Q-learning與DQN這2種算法在倫理智能體訓(xùn)練方面的差異,本節(jié)進(jìn)行更深入的對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)采用的對(duì)比指標(biāo)為平均獎(jiǎng)勵(lì),即智能體執(zhí)行一定行為后所獲得獎(jiǎng)勵(lì)的平均值,該指標(biāo)越高說(shuō)明智能體能夠選擇更合乎倫理的動(dòng)作.為減少實(shí)驗(yàn)的偶然性對(duì)結(jié)果的影響,本文進(jìn)行了100次重復(fù)的實(shí)驗(yàn),并利用實(shí)驗(yàn)所得數(shù)據(jù)的均值繪制了平均獎(jiǎng)勵(lì)圖,如圖12所示.

    Fig. 12 Average reward of two algorithms圖12 2種算法的平均獎(jiǎng)勵(lì)

    由實(shí)驗(yàn)結(jié)果可見(jiàn),Q-learning算法的訓(xùn)練效果整體好于DQN算法,主要表現(xiàn)在2個(gè)方面:Q-learning算法收斂速度快且比較平穩(wěn);Q-learning算法在收斂后的平均得分高于DQN算法.主要原因有2個(gè)方面:

    1) 對(duì)Q-table的更新效率存在差異.Q-learning算法借助于Q-table描述“狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)”情況,智能體通過(guò)不斷迭代更新并查找該表,選擇獎(jiǎng)勵(lì)最高的動(dòng)作執(zhí)行.Q-learning算法將獲得的獎(jiǎng)勵(lì)通過(guò)式(1)對(duì)Q-table進(jìn)行更新,該方式直接有效并能快速將新的Q-table應(yīng)用到下一次探索中.DQN算法針對(duì)的是狀態(tài)動(dòng)作空間較大、遍歷Q-table復(fù)雜度較高的情況,此時(shí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量地輸入數(shù)據(jù),并通過(guò)梯度下降的方法調(diào)整模型參數(shù)以擬合Q-table,Q-table擬合的不精確性導(dǎo)致訓(xùn)練速度慢,且并非總能以最優(yōu)方式完成任務(wù).

    2) 未來(lái)獎(jiǎng)勵(lì)的獲取受到不同程度的干擾.本文中倫理智能體執(zhí)行的是一系列連貫的動(dòng)作,只有完成了前面部分動(dòng)作才能執(zhí)行后續(xù)動(dòng)作.Q-learning算法初始Q-table為空,不存在干擾未來(lái)獎(jiǎng)勵(lì)的因素.深度神經(jīng)網(wǎng)絡(luò)在構(gòu)建網(wǎng)絡(luò)模型時(shí)的參數(shù)隨機(jī)初始化及梯度更新時(shí)由于參數(shù)調(diào)整所產(chǎn)生的誤差,對(duì)當(dāng)前狀態(tài)存在擬合的不準(zhǔn)確性,使得未來(lái)獎(jiǎng)勵(lì)的獲取受到一定的干擾,尤其是在進(jìn)行前半部分較慢的訓(xùn)練速度影響了整體的收斂速度.

    綜上,強(qiáng)化學(xué)習(xí)能夠訓(xùn)練智能體執(zhí)行倫理行為的能力,但Q-learning算法總體表現(xiàn)更好,DQN雖然能完成最終任務(wù),但訓(xùn)練效果稍差.

    5 總 結(jié)

    智能體在人類生活中擔(dān)任越來(lái)越重要的角色,承擔(dān)越來(lái)越復(fù)雜的任務(wù),不但應(yīng)該具備高效完成預(yù)定任務(wù)的能力,而且在執(zhí)行任務(wù)的過(guò)程所采取的行為應(yīng)符合倫理.基于這一出發(fā)點(diǎn),提出了倫理智能體訓(xùn)練方法,并分別借助Q-learning算法和DQN算法完成了模擬實(shí)驗(yàn),該實(shí)驗(yàn)證明所提方法是有效的;此外,對(duì)Q-learning算法和DQN算法的訓(xùn)練效果進(jìn)行了對(duì)比實(shí)驗(yàn),證明了任務(wù)搜索空間不大時(shí)不必使用DQN算法,Q-learning算法的效果反而更好.

    本文雖然針對(duì)倫理智能體的訓(xùn)練提供了解決方案,但是所提方案較為初步,仍需要進(jìn)一步改進(jìn).可開(kāi)展的后續(xù)研究有:

    1) 本文所提取的元倫理行為較為粗糙、粒度不夠細(xì),無(wú)法完全涵蓋復(fù)雜的人類行為,有必要開(kāi)展更具代表性的元倫理行為分類及歸納研究;

    2) 本文實(shí)驗(yàn)場(chǎng)景設(shè)置相對(duì)簡(jiǎn)單,未考慮特殊情況下非倫理行為的合理性,如闖紅燈是非倫理行為,但“為救人而闖紅燈”卻是合理的,因此可以針對(duì)更加復(fù)雜情形下的倫理行為判定展開(kāi)研究,并進(jìn)行實(shí)驗(yàn)驗(yàn)證;

    3) 本文假定訓(xùn)練環(huán)境中的其他主體(藥店員、銀行職員等)均執(zhí)行符合倫理的行為,并以此為基礎(chǔ)完成了單倫理智能體的訓(xùn)練,但是真實(shí)環(huán)境中可能存在多智能體且不具備倫理判別能力,因此有必要研究多智能體協(xié)同合作時(shí)的倫理問(wèn)題,以及多倫理智能體的同步訓(xùn)練方法;

    4) 在實(shí)驗(yàn)驗(yàn)證方面,因本文方法與其他倫理智能體訓(xùn)練方法在機(jī)器學(xué)習(xí)算法、方案設(shè)計(jì)、場(chǎng)景搭建等方面存在較大差異,因此未進(jìn)行直接對(duì)比,后續(xù)可在實(shí)驗(yàn)設(shè)計(jì)方面進(jìn)行改進(jìn),增加不同研究方法間的對(duì)比分析.

    作者貢獻(xiàn)聲明:古天龍負(fù)責(zé)提出研究選題,提供設(shè)備及指導(dǎo)性支持;高慧負(fù)責(zé)調(diào)研整理文獻(xiàn),設(shè)計(jì)研究方案及實(shí)施研究過(guò)程;李龍負(fù)責(zé)設(shè)計(jì)論文框架,起草及修訂論文;包旭光負(fù)責(zé)修訂及終審論文;李云輝負(fù)責(zé)采集整理數(shù)據(jù)及實(shí)驗(yàn)結(jié)果分析.

    猜你喜歡
    軌跡倫理動(dòng)作
    《心之死》的趣味與倫理焦慮
    軌跡
    軌跡
    護(hù)生眼中的倫理修養(yǎng)
    活力(2019年19期)2020-01-06 07:37:00
    軌跡
    動(dòng)作描寫(xiě)要具體
    畫(huà)動(dòng)作
    進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
    動(dòng)作描寫(xiě)不可少
    非同一般的吃飯動(dòng)作
    久久久久久久久久久免费av| 国产视频首页在线观看| 少妇丰满av| 亚洲欧美成人综合另类久久久| 五月伊人婷婷丁香| 如日韩欧美国产精品一区二区三区 | 亚洲欧洲国产日韩| 看非洲黑人一级黄片| 最新中文字幕久久久久| 一级,二级,三级黄色视频| 我的女老师完整版在线观看| 国产在视频线精品| 乱码一卡2卡4卡精品| 久久鲁丝午夜福利片| 日日啪夜夜撸| 亚洲av电影在线观看一区二区三区| 国产精品熟女久久久久浪| 高清在线视频一区二区三区| av天堂中文字幕网| 精品一区二区免费观看| 99久久综合免费| 久热久热在线精品观看| 成年人免费黄色播放视频 | 成人亚洲欧美一区二区av| 久久av网站| 国产高清不卡午夜福利| 日本wwww免费看| 一级毛片久久久久久久久女| 久久99热6这里只有精品| 大又大粗又爽又黄少妇毛片口| 亚洲经典国产精华液单| 亚洲伊人久久精品综合| 人妻人人澡人人爽人人| av在线老鸭窝| 欧美xxⅹ黑人| 久久久久视频综合| 18禁在线播放成人免费| 亚洲欧洲国产日韩| 97精品久久久久久久久久精品| 日日撸夜夜添| 久久女婷五月综合色啪小说| 国产精品伦人一区二区| 噜噜噜噜噜久久久久久91| 亚洲一级一片aⅴ在线观看| 不卡视频在线观看欧美| 国产亚洲最大av| av天堂中文字幕网| av在线app专区| 日日摸夜夜添夜夜添av毛片| 麻豆成人午夜福利视频| 综合色丁香网| 国产亚洲精品久久久com| 男人和女人高潮做爰伦理| 午夜福利视频精品| 久久久久精品性色| 自线自在国产av| 国产av一区二区精品久久| 国产欧美亚洲国产| 欧美人与善性xxx| 夜夜爽夜夜爽视频| 亚洲av在线观看美女高潮| 天堂8中文在线网| 又粗又硬又长又爽又黄的视频| 久久久久精品久久久久真实原创| 少妇的逼好多水| 最新的欧美精品一区二区| 在线观看免费日韩欧美大片 | 亚洲久久久国产精品| 五月开心婷婷网| 女性生殖器流出的白浆| 国产午夜精品一二区理论片| 国产av一区二区精品久久| 色视频在线一区二区三区| 人人妻人人澡人人看| 久久精品国产亚洲av涩爱| 婷婷色av中文字幕| 国产无遮挡羞羞视频在线观看| 又爽又黄a免费视频| 中文字幕免费在线视频6| 精品视频人人做人人爽| 少妇高潮的动态图| 看十八女毛片水多多多| 亚洲av欧美aⅴ国产| 99久久精品一区二区三区| 成人美女网站在线观看视频| 高清毛片免费看| 国产色爽女视频免费观看| 一级毛片aaaaaa免费看小| 三级经典国产精品| 在线看a的网站| 一区在线观看完整版| 大码成人一级视频| 久久影院123| 啦啦啦视频在线资源免费观看| 男人爽女人下面视频在线观看| 99热这里只有是精品在线观看| 免费黄网站久久成人精品| 大又大粗又爽又黄少妇毛片口| 三级经典国产精品| 91久久精品电影网| 国产精品免费大片| 欧美3d第一页| 最近中文字幕2019免费版| 日韩制服骚丝袜av| 男人和女人高潮做爰伦理| 国产淫语在线视频| 国产 一区精品| 校园人妻丝袜中文字幕| 极品少妇高潮喷水抽搐| 制服丝袜香蕉在线| 18禁在线播放成人免费| 国产乱人偷精品视频| 高清午夜精品一区二区三区| 国产精品三级大全| 国产精品久久久久久久久免| 免费大片黄手机在线观看| 欧美bdsm另类| 大片免费播放器 马上看| 亚洲国产精品国产精品| 亚洲欧美一区二区三区黑人 | 国产一区二区在线观看av| 街头女战士在线观看网站| 天堂8中文在线网| 人妻制服诱惑在线中文字幕| 国产免费视频播放在线视频| 日韩免费高清中文字幕av| 成人黄色视频免费在线看| 国产精品一区二区三区四区免费观看| 国产精品伦人一区二区| 我要看日韩黄色一级片| 看非洲黑人一级黄片| av免费在线看不卡| 偷拍熟女少妇极品色| 卡戴珊不雅视频在线播放| 亚洲精品国产av成人精品| 最后的刺客免费高清国语| 精品久久久精品久久久| 我要看日韩黄色一级片| 91久久精品国产一区二区三区| av在线观看视频网站免费| 国产精品一区二区三区四区免费观看| 亚洲图色成人| 热re99久久国产66热| 丰满少妇做爰视频| av国产精品久久久久影院| 麻豆成人午夜福利视频| av在线app专区| www.av在线官网国产| 国产黄色免费在线视频| 夫妻午夜视频| 少妇的逼好多水| 街头女战士在线观看网站| 老司机影院毛片| 国产高清不卡午夜福利| 国产高清不卡午夜福利| 免费高清在线观看视频在线观看| 国产精品人妻久久久影院| 国精品久久久久久国模美| 简卡轻食公司| 老女人水多毛片| 亚洲国产日韩一区二区| 日韩一本色道免费dvd| 美女国产视频在线观看| 国产黄片视频在线免费观看| 久久精品久久久久久久性| 久久久a久久爽久久v久久| 不卡视频在线观看欧美| 一区二区三区精品91| 日韩中文字幕视频在线看片| 亚洲成人手机| 男人添女人高潮全过程视频| 69精品国产乱码久久久| 日韩免费高清中文字幕av| 在线观看免费视频网站a站| 国产精品国产三级专区第一集| 嫩草影院新地址| 国产亚洲一区二区精品| 蜜桃在线观看..| 少妇的逼好多水| 一级毛片电影观看| 日韩欧美精品免费久久| 97精品久久久久久久久久精品| av在线app专区| 内射极品少妇av片p| 日日啪夜夜撸| 欧美少妇被猛烈插入视频| 中文字幕精品免费在线观看视频 | 国产成人精品久久久久久| 国产精品国产三级专区第一集| 女人精品久久久久毛片| 狂野欧美激情性xxxx在线观看| 久久国内精品自在自线图片| 国产69精品久久久久777片| 精品人妻一区二区三区麻豆| 午夜91福利影院| 少妇被粗大猛烈的视频| 色哟哟·www| 日本爱情动作片www.在线观看| av国产久精品久网站免费入址| 建设人人有责人人尽责人人享有的| 中文字幕久久专区| 丝袜美腿诱惑在线| 视频在线观看一区二区三区| 人妻久久中文字幕网| 欧美精品啪啪一区二区三区 | 久久香蕉激情| 中文欧美无线码| 国产片内射在线| 妹子高潮喷水视频| 黄色 视频免费看| 亚洲av日韩精品久久久久久密| 免费观看a级毛片全部| 国产成人精品久久二区二区免费| 欧美+亚洲+日韩+国产| 午夜福利在线免费观看网站| 亚洲国产欧美在线一区| 不卡av一区二区三区| 午夜免费成人在线视频| 国产精品av久久久久免费| 99久久精品国产亚洲精品| 国产成人a∨麻豆精品| 亚洲国产成人一精品久久久| 日韩,欧美,国产一区二区三区| 在线观看免费日韩欧美大片| 亚洲av电影在线观看一区二区三区| 精品少妇一区二区三区视频日本电影| 他把我摸到了高潮在线观看 | 精品国产一区二区久久| 日韩免费高清中文字幕av| 国产一级毛片在线| 1024香蕉在线观看| 国产成人影院久久av| 多毛熟女@视频| 久久人人爽人人片av| 国产日韩欧美在线精品| 久久人妻熟女aⅴ| 亚洲人成电影免费在线| 丁香六月欧美| 亚洲专区中文字幕在线| 日韩一区二区三区影片| 窝窝影院91人妻| 九色亚洲精品在线播放| 日韩欧美国产一区二区入口| 欧美老熟妇乱子伦牲交| 亚洲一区二区三区欧美精品| 国产精品欧美亚洲77777| av免费在线观看网站| 亚洲精品久久成人aⅴ小说| 亚洲av欧美aⅴ国产| 亚洲欧洲日产国产| 狂野欧美激情性bbbbbb| 人妻 亚洲 视频| 最新的欧美精品一区二区| 国产高清国产精品国产三级| 久久久久国产精品人妻一区二区| 91麻豆精品激情在线观看国产 | 亚洲天堂av无毛| 色视频在线一区二区三区| 国产亚洲精品一区二区www | 久久久久久人人人人人| 俄罗斯特黄特色一大片| 亚洲av国产av综合av卡| 母亲3免费完整高清在线观看| 久久国产精品影院| 精品乱码久久久久久99久播| 如日韩欧美国产精品一区二区三区| 人人澡人人妻人| 亚洲专区国产一区二区| 日韩欧美一区视频在线观看| av网站免费在线观看视频| 91麻豆精品激情在线观看国产 | 国产精品1区2区在线观看. | 亚洲国产av影院在线观看| 丁香六月欧美| 国产在线一区二区三区精| 亚洲性夜色夜夜综合| 精品一区二区三区四区五区乱码| 久久精品国产综合久久久| 亚洲精品国产av蜜桃| 亚洲av日韩精品久久久久久密| 精品久久久久久电影网| 丁香六月欧美| 久久精品国产a三级三级三级| 黑丝袜美女国产一区| 少妇的丰满在线观看| 97人妻天天添夜夜摸| av视频免费观看在线观看| 国产成人av教育| 亚洲熟女毛片儿| 91av网站免费观看| 久久ye,这里只有精品| 欧美 日韩 精品 国产| 精品一区在线观看国产| 亚洲 欧美一区二区三区| 国产在视频线精品| 999久久久国产精品视频| 欧美黑人欧美精品刺激| 男女床上黄色一级片免费看| 不卡一级毛片| 在线观看www视频免费| 12—13女人毛片做爰片一| 在线观看人妻少妇| 国产精品久久久av美女十八| 少妇精品久久久久久久| 亚洲第一av免费看| 啦啦啦免费观看视频1| avwww免费| 一区福利在线观看| 欧美黑人精品巨大| 啦啦啦免费观看视频1| 精品国产一区二区三区四区第35| 黄色视频,在线免费观看| 久久精品久久久久久噜噜老黄| 亚洲精品av麻豆狂野| 成人国产一区最新在线观看| 国产欧美日韩精品亚洲av| 欧美成狂野欧美在线观看| 国产色视频综合| av福利片在线| 人人妻人人添人人爽欧美一区卜| 青春草亚洲视频在线观看| 日日爽夜夜爽网站| 国产免费一区二区三区四区乱码| 91精品国产国语对白视频| 97精品久久久久久久久久精品| 亚洲欧美色中文字幕在线| 国产精品香港三级国产av潘金莲| 久久久久国内视频| 一区二区三区四区激情视频| 国产成人系列免费观看| 亚洲精华国产精华精| 人人妻人人添人人爽欧美一区卜| 极品少妇高潮喷水抽搐| 中亚洲国语对白在线视频| 99热网站在线观看| 熟女少妇亚洲综合色aaa.| 亚洲情色 制服丝袜| 国产精品一区二区精品视频观看| 国产主播在线观看一区二区| 免费女性裸体啪啪无遮挡网站| av网站在线播放免费| 99精国产麻豆久久婷婷| 亚洲一卡2卡3卡4卡5卡精品中文| 午夜日韩欧美国产| 精品国产一区二区三区四区第35| 18在线观看网站| 国产1区2区3区精品| 天天躁狠狠躁夜夜躁狠狠躁| 一级片免费观看大全| 免费一级毛片在线播放高清视频 | 亚洲精品国产色婷婷电影| 国产精品久久久久久精品古装| 国产亚洲欧美在线一区二区| 国产成人欧美在线观看 | 中文字幕色久视频| 无遮挡黄片免费观看| 日本一区二区免费在线视频| 亚洲国产成人一精品久久久| 在线观看免费午夜福利视频| 黄色 视频免费看| 永久免费av网站大全| 50天的宝宝边吃奶边哭怎么回事| a 毛片基地| av天堂在线播放| 19禁男女啪啪无遮挡网站| 国产欧美日韩综合在线一区二区| 男女国产视频网站| 99久久综合免费| 狂野欧美激情性bbbbbb| 十八禁高潮呻吟视频| 十八禁网站免费在线| 99国产精品一区二区蜜桃av | 在线十欧美十亚洲十日本专区| 国产一级毛片在线| av欧美777| av视频免费观看在线观看| 亚洲国产欧美一区二区综合| 欧美国产精品一级二级三级| 亚洲精品国产av蜜桃| 天堂中文最新版在线下载| 日本vs欧美在线观看视频| 成人国产av品久久久| 亚洲国产看品久久| 亚洲精品美女久久久久99蜜臀| 最近中文字幕2019免费版| 国内毛片毛片毛片毛片毛片| 免费在线观看黄色视频的| 欧美少妇被猛烈插入视频| 精品卡一卡二卡四卡免费| 亚洲少妇的诱惑av| 成人免费观看视频高清| 91国产中文字幕| 丰满迷人的少妇在线观看| 涩涩av久久男人的天堂| 欧美精品一区二区免费开放| 欧美日韩av久久| 99国产精品免费福利视频| 桃花免费在线播放| netflix在线观看网站| 老司机靠b影院| 纵有疾风起免费观看全集完整版| 操出白浆在线播放| 精品一区二区三区av网在线观看 | 日日爽夜夜爽网站| 一区福利在线观看| 黄色片一级片一级黄色片| 亚洲欧美精品综合一区二区三区| 欧美激情 高清一区二区三区| av片东京热男人的天堂| 一级a爱视频在线免费观看| 日韩视频一区二区在线观看| 两个人看的免费小视频| 黑人巨大精品欧美一区二区蜜桃| 久久精品熟女亚洲av麻豆精品| av视频免费观看在线观看| 亚洲免费av在线视频| 三上悠亚av全集在线观看| 亚洲成av片中文字幕在线观看| 中文精品一卡2卡3卡4更新| 久久久久久久国产电影| 成年美女黄网站色视频大全免费| 国产成人av激情在线播放| 搡老岳熟女国产| 99精品久久久久人妻精品| 男男h啪啪无遮挡| 91麻豆精品激情在线观看国产 | 少妇猛男粗大的猛烈进出视频| 欧美老熟妇乱子伦牲交| 日韩制服骚丝袜av| 丝袜脚勾引网站| 在线天堂中文资源库| 国产成人啪精品午夜网站| 窝窝影院91人妻| 王馨瑶露胸无遮挡在线观看| 超碰97精品在线观看| 捣出白浆h1v1| 亚洲欧美成人综合另类久久久| 9191精品国产免费久久| 欧美+亚洲+日韩+国产| 女人久久www免费人成看片| 女人精品久久久久毛片| 精品卡一卡二卡四卡免费| 国产成人欧美| 成人亚洲精品一区在线观看| 日本vs欧美在线观看视频| 欧美乱码精品一区二区三区| 嫁个100分男人电影在线观看| 伊人亚洲综合成人网| 日韩有码中文字幕| 久久 成人 亚洲| 亚洲精品一区蜜桃| a级片在线免费高清观看视频| 日韩大码丰满熟妇| 亚洲精品av麻豆狂野| h视频一区二区三区| 这个男人来自地球电影免费观看| 久久国产亚洲av麻豆专区| 女人被躁到高潮嗷嗷叫费观| 午夜福利在线免费观看网站| 久久久久久久精品精品| 自线自在国产av| 黑丝袜美女国产一区| 欧美另类亚洲清纯唯美| 亚洲精品一卡2卡三卡4卡5卡 | 国产xxxxx性猛交| 狠狠婷婷综合久久久久久88av| 国产黄色免费在线视频| 欧美另类一区| 黄色视频在线播放观看不卡| 欧美黑人精品巨大| 丝袜人妻中文字幕| 国产免费视频播放在线视频| 丝瓜视频免费看黄片| 亚洲国产欧美一区二区综合| 国产1区2区3区精品| 亚洲成av片中文字幕在线观看| 成人国语在线视频| 亚洲欧美日韩另类电影网站| 91精品三级在线观看| 亚洲免费av在线视频| 国产亚洲av高清不卡| 亚洲中文av在线| 日韩大片免费观看网站| 天堂俺去俺来也www色官网| 美女高潮到喷水免费观看| 成年女人毛片免费观看观看9 | 最近中文字幕2019免费版| 国产精品一区二区免费欧美 | 18禁黄网站禁片午夜丰满| 欧美日韩av久久| 久久99一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看 | 日本av手机在线免费观看| 黄片小视频在线播放| 久久ye,这里只有精品| 一区福利在线观看| 亚洲第一欧美日韩一区二区三区 | 黄色视频在线播放观看不卡| 黄频高清免费视频| 午夜日韩欧美国产| 国产欧美亚洲国产| 久久综合国产亚洲精品| 精品一区二区三卡| 中文字幕色久视频| 亚洲全国av大片| 国产精品偷伦视频观看了| 色婷婷久久久亚洲欧美| 色94色欧美一区二区| 亚洲精品久久午夜乱码| 国产欧美日韩一区二区三 | 一二三四在线观看免费中文在| 欧美激情高清一区二区三区| 色播在线永久视频| 亚洲av电影在线进入| 成年人午夜在线观看视频| 中文欧美无线码| 97在线人人人人妻| 久久久久精品国产欧美久久久 | 欧美精品av麻豆av| 久久久国产精品麻豆| 国产精品久久久久成人av| 久久久久久久久久久久大奶| 久久久久久人人人人人| 婷婷丁香在线五月| 99re6热这里在线精品视频| 丝袜美足系列| 久久精品国产亚洲av高清一级| 亚洲中文字幕日韩| 两人在一起打扑克的视频| 欧美变态另类bdsm刘玥| 91精品伊人久久大香线蕉| 69av精品久久久久久 | 一二三四社区在线视频社区8| 99九九在线精品视频| 中亚洲国语对白在线视频| 成人国产一区最新在线观看| 大片电影免费在线观看免费| 欧美黄色片欧美黄色片| 人妻人人澡人人爽人人| 亚洲精品久久久久久婷婷小说| 日韩制服丝袜自拍偷拍| 国产精品欧美亚洲77777| 欧美日本中文国产一区发布| 亚洲专区字幕在线| 大型av网站在线播放| 九色亚洲精品在线播放| 叶爱在线成人免费视频播放| 最近最新中文字幕大全免费视频| 色老头精品视频在线观看| 亚洲精华国产精华精| 啦啦啦啦在线视频资源| 99国产精品一区二区蜜桃av | 国产一区二区激情短视频 | 在线天堂中文资源库| 亚洲欧美一区二区三区久久| 在线看a的网站| 99热全是精品| 国产成人av教育| 亚洲欧美色中文字幕在线| 美女扒开内裤让男人捅视频| 国产精品久久久人人做人人爽| 国产精品免费大片| 亚洲,欧美精品.| 一区二区三区四区激情视频| 99精国产麻豆久久婷婷| 狂野欧美激情性bbbbbb| 欧美日韩视频精品一区| 嫩草影视91久久| 久久久久国产一级毛片高清牌| av视频免费观看在线观看| 丰满迷人的少妇在线观看| 十八禁网站网址无遮挡| 欧美日韩国产mv在线观看视频| 亚洲欧美一区二区三区黑人| 久久国产精品影院| 久久精品亚洲av国产电影网| 三上悠亚av全集在线观看| 亚洲av男天堂| 在线观看免费视频网站a站| 国产一区二区 视频在线| www.av在线官网国产| 一本久久精品| 精品免费久久久久久久清纯 | 午夜老司机福利片| 精品人妻一区二区三区麻豆| 欧美黄色淫秽网站| av欧美777| 亚洲欧美日韩高清在线视频 | 伊人亚洲综合成人网| 国产日韩欧美视频二区| 波多野结衣一区麻豆| 好男人电影高清在线观看| 免费不卡黄色视频| 女人高潮潮喷娇喘18禁视频| 亚洲精品乱久久久久久| 国产日韩欧美在线精品| 一级片'在线观看视频| 精品一品国产午夜福利视频| 2018国产大陆天天弄谢| 久久毛片免费看一区二区三区| 91大片在线观看| 一二三四社区在线视频社区8| 国产av国产精品国产| 国产伦人伦偷精品视频| 老司机亚洲免费影院| 国产成人精品无人区| 麻豆乱淫一区二区| 欧美日韩一级在线毛片| 伊人久久大香线蕉亚洲五| 日本vs欧美在线观看视频| 亚洲成人免费av在线播放| 亚洲avbb在线观看| 18禁国产床啪视频网站| 久久 成人 亚洲| 日韩欧美免费精品|