• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    聊天機(jī)器人的分類標(biāo)準(zhǔn)和評(píng)估標(biāo)準(zhǔn)綜述

    2021-04-06 04:04:19王艷秋管浩言張彤
    軟件工程 2021年2期

    王艷秋 管浩言 張彤

    摘? 要:近年來,人工智能和大數(shù)據(jù)技術(shù)的發(fā)展極大地推動(dòng)了聊天機(jī)器人產(chǎn)業(yè)的發(fā)展。如今,聊天機(jī)器人種類眾多,但質(zhì)量參差不齊,對(duì)其進(jìn)行評(píng)估成為當(dāng)下的重要問題之一。本文首先通過功能和技術(shù)實(shí)現(xiàn)方式方面的分析,對(duì)當(dāng)前的聊天機(jī)器人進(jìn)行了歸納分類。然后從多方面對(duì)聊天機(jī)器人的評(píng)估方式進(jìn)行了系統(tǒng)的整理與總結(jié),并詳細(xì)介紹分析了其中各種評(píng)估指標(biāo)。最后探討了當(dāng)前聊天機(jī)器人的研究難點(diǎn)與評(píng)估難點(diǎn),并在此基礎(chǔ)上對(duì)聊天機(jī)器人未來的研究發(fā)展方向進(jìn)行了展望。

    關(guān)鍵詞:聊天機(jī)器人;分類標(biāo)準(zhǔn);評(píng)估標(biāo)準(zhǔn)

    Abstract: In recent years, the development of artificial intelligence and big data technology has greatly promoted chatbot industry. Currently, there are many types of chatbots, but the quality is uneven, and the evaluation criteria are becoming an important issue. This paper first summarizes and categorizes the current chatbots technology based on their functions and technical implementation methods. Then, it systematically proposes an evaluation approach for chatbots quality via different aspects, and introduces various evaluation indicators in detail. Finally, current research issues and evaluation difficulties of chatbots are discussed, and on this basis, future research and development directions of chatbots are prospected.

    Keywords: chatbot; classification criteria; evaluation criteria

    1? ?引言(Introduction)

    隨著人工智能和大數(shù)據(jù)技術(shù)的發(fā)展,聊天機(jī)器人已經(jīng)不再是個(gè)新鮮的詞匯,并且早已慢慢滲入人們的日常生活中,如蘋果的Siri、阿里巴巴的阿里小蜜、百度的小度、微軟的Cortana和小冰、亞馬孫的Alexa、IBM的Watson等。這些聊天機(jī)器人應(yīng)用于不同場(chǎng)景,有著不同的定位與功能,但其中都使用了自然語(yǔ)言處理(Natural Language Processing,NLP)相關(guān)技術(shù),使機(jī)器人能夠使用文本或語(yǔ)音與人類進(jìn)行對(duì)話。如今的聊天機(jī)器人并不完善,時(shí)常會(huì)出現(xiàn)答非所問、語(yǔ)句不通順等問題,因此聊天機(jī)器人需要能夠反映其真實(shí)智能水平的評(píng)估標(biāo)準(zhǔn)來促進(jìn)其優(yōu)化改進(jìn)。本文針對(duì)不同功能與技術(shù)實(shí)現(xiàn)方式對(duì)聊天機(jī)器人進(jìn)行了分類,同時(shí)對(duì)現(xiàn)有的所有聊天機(jī)器人評(píng)價(jià)指標(biāo)進(jìn)行了分析、分類與總結(jié),并指出了當(dāng)下聊天機(jī)器人發(fā)展的困境以及未來的發(fā)展方向。

    2? ?聊天機(jī)器人分類(Chatbot taxonomy)

    2.1? ?任務(wù)導(dǎo)向型與閑聊型

    根據(jù)功能的不同,可分為任務(wù)導(dǎo)向型聊天機(jī)器人和閑聊型聊天機(jī)器人。任務(wù)導(dǎo)向型聊天機(jī)器人是指以任務(wù)驅(qū)動(dòng)來完成多輪對(duì)話的對(duì)話系統(tǒng),通常針對(duì)封閉專業(yè)領(lǐng)域知識(shí),機(jī)器人需要在對(duì)話過程中理解、澄清并生成對(duì)話,其構(gòu)建方式主要為Pipeline和End-to-end。Pipeline的構(gòu)建采用模塊化結(jié)構(gòu),包含四個(gè)主要模塊:自然語(yǔ)言理解(Natural Language Understanding,NLU)、對(duì)話狀態(tài)追蹤(Dialogue State Tracking,DST)、對(duì)話策略學(xué)習(xí)(Dialogue Policy Learning,DPL)、自然語(yǔ)言生成(Natural Language Generation,NLG)。這種構(gòu)建方式容易實(shí)現(xiàn),可解釋性強(qiáng),但模塊之間誤差會(huì)逐層積累,又因各模塊之間相互獨(dú)立導(dǎo)致無法聯(lián)合調(diào)優(yōu)。End-to-end即基于深度學(xué)習(xí)的端到端系統(tǒng),使用大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)深度學(xué)習(xí)模型,用戶從輸入端輸入語(yǔ)句便可從輸出端得到相應(yīng)回復(fù)。這種方法可擴(kuò)展性強(qiáng),但需要大量且高質(zhì)量的標(biāo)注數(shù)據(jù),目前仍處于探索階段。閑聊型聊天機(jī)器人主要與用戶進(jìn)行面向開放域的閑聊,目標(biāo)是與用戶進(jìn)行有意義的自然多輪對(duì)話。相比于任務(wù)導(dǎo)向型聊天機(jī)器人,閑聊型聊天機(jī)器人涉及的領(lǐng)域范圍更大,用戶意圖更模糊難識(shí)別,因此要求更高,實(shí)現(xiàn)更難。

    2.2? ?檢索式與生成式

    聊天機(jī)器人需要對(duì)用戶的輸入做出自然的語(yǔ)言回復(fù),這涉及自然語(yǔ)言生成技術(shù)。根據(jù)對(duì)話生成的不同技術(shù),可將聊天機(jī)器人分為檢索式與生成式兩種[1]。檢索式模型基于現(xiàn)成的數(shù)據(jù)庫(kù)進(jìn)行基于規(guī)則的模式匹配,或應(yīng)用較為復(fù)雜的深度學(xué)習(xí)算法進(jìn)行模式匹配,但并不生成全新的回復(fù)。因此檢索式模型產(chǎn)生的回復(fù)具有流暢自然、信息量豐富的優(yōu)點(diǎn),但同時(shí)也具有無法進(jìn)行上下文關(guān)聯(lián)的不足[2]。最早出現(xiàn)的模擬心理醫(yī)生的聊天機(jī)器人ELIZA便是完全基于規(guī)則手工建立的,雖然能夠生成較好的回復(fù),但構(gòu)建過程過于煩瑣,耗費(fèi)了大量人力。生成式模型則會(huì)產(chǎn)生全新的語(yǔ)句回復(fù),通過將大量人類真實(shí)語(yǔ)料輸入深度學(xué)習(xí)模型中進(jìn)行特征提取與特征學(xué)習(xí),再使用模型對(duì)用戶的輸入做出回復(fù)。生成式模型會(huì)有記憶功能,即可利用歷史對(duì)話信息形成對(duì)話的上下文關(guān)聯(lián),但生成的回復(fù)可能會(huì)有不符合語(yǔ)法規(guī)則、語(yǔ)句不通順、逃避復(fù)雜問題進(jìn)行無意義回復(fù)等情況出現(xiàn)。目前生成效果較好的模型有微軟DialoGPT、谷歌Meena、Facebook Blender、百度PLATO & PLATO-2等,這些均使用了超大規(guī)模文本數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型參數(shù)都在億量級(jí)。

    3? ?評(píng)價(jià)指標(biāo)分類(Evaluation index taxonomy)

    聊天機(jī)器人評(píng)價(jià)通常是指對(duì)機(jī)器人對(duì)話回復(fù)質(zhì)量的評(píng)估,但也有聊天機(jī)器人能夠識(shí)別用戶發(fā)出的圖片并進(jìn)行回復(fù)與評(píng)論,這時(shí)則涉及圖像描述生成的相關(guān)評(píng)估。此外,對(duì)于一些產(chǎn)品化的任務(wù)導(dǎo)向型聊天機(jī)器人,也需要進(jìn)行一些產(chǎn)品層面的評(píng)估。本文分別對(duì)這幾類聊天機(jī)器人的評(píng)價(jià)指標(biāo)進(jìn)行了總結(jié),圖1是所有評(píng)價(jià)指標(biāo)的分類圖。下文將對(duì)所有評(píng)價(jià)指標(biāo)進(jìn)行詳細(xì)介紹。

    3.1? ?對(duì)話評(píng)估

    3.1.1? ?人工評(píng)價(jià)

    人工評(píng)價(jià)是目前最準(zhǔn)確、最有效地對(duì)話質(zhì)量評(píng)價(jià)指標(biāo),但存在耗費(fèi)人力、耗時(shí)長(zhǎng)的問題,主要包含成對(duì)對(duì)比和李克特量表評(píng)價(jià)兩種評(píng)價(jià)方式。

    成對(duì)對(duì)比:即對(duì)兩個(gè)系統(tǒng)產(chǎn)生的回復(fù)就不同的側(cè)重點(diǎn)進(jìn)行人工評(píng)價(jià),如圖2所示的ACUTE-EVAL評(píng)估界面,它要求人們比較兩個(gè)多輪對(duì)話,在對(duì)話1(淺藍(lán)色)和對(duì)話2(深藍(lán)色)之間進(jìn)行選擇。同樣還有基于單輪對(duì)話的成對(duì)對(duì)比評(píng)估。

    李克特量表:在聊天機(jī)器人的人工評(píng)價(jià)中,李克特量表指的是李克特量表形式的人工評(píng)分,評(píng)分可設(shè)置為3、5、7等級(jí),如對(duì)聊天機(jī)器人的回復(fù)是否連貫進(jìn)行5等級(jí)評(píng)分,將分?jǐn)?shù)范圍設(shè)置為[0,1,2,3,4],再由人工針對(duì)回復(fù)的連貫性在分?jǐn)?shù)范圍內(nèi)選擇合適的分?jǐn)?shù)進(jìn)行評(píng)價(jià)??梢葬槍?duì)對(duì)話質(zhì)量的多方面進(jìn)行評(píng)價(jià),如對(duì)話的信息量(Informativeness)、連貫性(Coherence)、新穎性(Engagingness)、人性(Humanness)等。還有一種谷歌在其Meena聊天機(jī)器人中提出的評(píng)價(jià)指標(biāo)SSA(Sensibleness and Specificity Average),指的是敏感性和特異性平均值。特異性表示是否是針對(duì)上句對(duì)話的特定的具體的回答,敏感性表示聊天機(jī)器人的對(duì)話是否有意義。單純以敏感性作為唯一指標(biāo),會(huì)導(dǎo)致回答趨向模糊無聊的安全回答,因此將敏感性與特異性結(jié)合來進(jìn)行綜合評(píng)價(jià)更能體現(xiàn)回復(fù)的質(zhì)量。實(shí)驗(yàn)顯示,SSA與自動(dòng)評(píng)價(jià)指標(biāo)困惑度成正相關(guān)關(guān)系。

    盡管人們一直在探索能夠代替人工評(píng)價(jià)的自動(dòng)評(píng)價(jià)方法,但至今沒有自動(dòng)評(píng)價(jià)方法能夠代替人工評(píng)價(jià),人工評(píng)價(jià)仍是所有聊天機(jī)器人都必須進(jìn)行的評(píng)價(jià)。人工評(píng)價(jià)盡管必不可少,但也有一些弊端,例如不同模型的評(píng)價(jià)者背景條件、人群規(guī)模往往不盡相同,在不同模型之間很難做到完全客觀的對(duì)比評(píng)價(jià)。

    3.1.2? ?自動(dòng)評(píng)價(jià)

    自動(dòng)評(píng)價(jià)可以分為兩部分:一部分不需要參考回復(fù)即可進(jìn)行評(píng)價(jià),其中包含針對(duì)檢索式模型和生成式模型的評(píng)價(jià)指標(biāo);另一部分是需要參考回復(fù)的評(píng)價(jià)指標(biāo),且基本都是針對(duì)生成式模型所生成對(duì)話的質(zhì)量的評(píng)價(jià)。而根據(jù)評(píng)價(jià)原理又可分為基于詞重疊、基于詞向量以及基于深度學(xué)習(xí)的各種評(píng)價(jià)指標(biāo)。

    (1)不需要參考回復(fù)——檢索式模型

    檢索式聊天機(jī)器人的關(guān)鍵點(diǎn)在于匹配答案時(shí)候選回復(fù)的排列順序,所以其評(píng)價(jià)指標(biāo)一般使用傳統(tǒng)信息檢索系統(tǒng)常用的評(píng)價(jià)指標(biāo)。

    召回率(Recall):又稱查全率,指檢索出的相關(guān)回復(fù)占所有相關(guān)回復(fù)總數(shù)的比例,表示是否查全。

    準(zhǔn)確率(Precision):又稱查準(zhǔn)率,指檢索出的相關(guān)回復(fù)占所有檢索出的回復(fù)總數(shù)的比例,表示是否查準(zhǔn)。

    F值(F-measure):指召回率和準(zhǔn)確率的調(diào)和平均值,它綜合了兩者的評(píng)價(jià)效果。

    平均準(zhǔn)確率均值(Mean Average Precision,MAP):平均準(zhǔn)確率(Average Precision,AP)將準(zhǔn)確率與候選回復(fù)的排列順序相結(jié)合,如公式(3)所示,其中i指第i個(gè)候選回復(fù);s表示第i個(gè)回復(fù)的位置,指的是一個(gè)查詢中檢索出的相關(guān)回復(fù)的P@K的平均值。MAP則是對(duì)所有查詢的平均準(zhǔn)確率再求均值,其值越高說明檢索出的相關(guān)回復(fù)排列順序越靠前。

    (2)不需要參考回復(fù)——生成式模型

    生成式模型主要評(píng)價(jià)的是生成回復(fù)的質(zhì)量,其評(píng)價(jià)一方面聚焦于回復(fù)本身的信息量和生成概率,另一方面則由用戶與其交互的時(shí)間來側(cè)面反映。

    熵(Entropy):指的是回復(fù)中N-gram包含的信息量,用來衡量回復(fù)多樣性[4]。

    困惑度(Perplexity):語(yǔ)言模型的標(biāo)準(zhǔn)度量指標(biāo)[5],可用來評(píng)價(jià)對(duì)話模型中回復(fù)的生成質(zhì)量,一定程度上可體現(xiàn)多樣性,是目前常用的聊天機(jī)器人回復(fù)質(zhì)量評(píng)價(jià)指標(biāo)。語(yǔ)言模型實(shí)際上是計(jì)算語(yǔ)句概率的模型,概率值越高,語(yǔ)言模型越好,困惑度越小。

    平均長(zhǎng)度(Average Length):指的是生成回復(fù)的平均長(zhǎng)度,普遍認(rèn)為生成長(zhǎng)句子的對(duì)話生成模型相對(duì)質(zhì)量更高。

    單次平均對(duì)話輪數(shù)(Conversation-turns Per Session,CPS):指的是聊天機(jī)器人和用戶之間的每次對(duì)話中所含對(duì)話輪數(shù)的平均值[7]。一般用來對(duì)閑聊型聊天機(jī)器人進(jìn)行評(píng)價(jià),CPS越大,說明聊天機(jī)器人的社交參與程度越高。

    對(duì)話時(shí)間:指用戶與聊天機(jī)器人的對(duì)話所持續(xù)的時(shí)間。

    (3)需要參考回復(fù)——基于詞重疊

    基于詞語(yǔ)重疊的評(píng)價(jià)方法需要有參考回復(fù),主要是根據(jù)參考回復(fù)與生成回復(fù)之間詞語(yǔ)的重疊程度來進(jìn)行度量。

    BLEU:全稱為BiLingual Evaluation Understudy[8],最早用于機(jī)器翻譯任務(wù),評(píng)價(jià)前提是需要語(yǔ)料庫(kù)中有高質(zhì)量的參考回復(fù),核心思想是比較生成回復(fù)文本和參考回復(fù)文本中N-gram的重合程度,重合程度越高則認(rèn)為文本質(zhì)量越高。N一般取1—4,然后進(jìn)行加權(quán)平均,時(shí)用于衡量單詞翻譯的準(zhǔn)確性,時(shí)用于衡量句子的流暢性。隨后優(yōu)化改進(jìn)出了多種新的評(píng)價(jià)指標(biāo)。雖然近年來BLEU被證明與人工判斷的相關(guān)性不高[9],但目前仍然是聊天機(jī)器人評(píng)估常用的指標(biāo)。

    NIST:全稱是National Institute of Standards and Technology[10],改進(jìn)自BLEU方法,引入了每個(gè)N-gram的信息量的概念,定義見公式(7)。公式中分母表示N-gram在參考回復(fù)中出現(xiàn)的次數(shù),分子表示對(duì)應(yīng)的(N-1)-gram在參考回復(fù)中出現(xiàn)的次數(shù),當(dāng)時(shí),分子取值為整個(gè)參考回復(fù)的長(zhǎng)度。由此,將一些出現(xiàn)較少的重點(diǎn)詞的權(quán)重增大。

    ROUGE:全稱是Recall-Oriented Understudy for Gisting Evaluation,改進(jìn)自BLEU方法,不同于BLEU,它專注于衡量N-gram的召回率,而不是準(zhǔn)確率。通常使用的有ROUGE-N[11]和ROUGE-L[12]。ROUGE-N通過統(tǒng)計(jì)參考回復(fù)中N-gram的個(gè)數(shù)與參考回復(fù)和生成回復(fù)中共有的N-gram個(gè)數(shù)來計(jì)算召回率。

    METEOR:全稱為Metric for Evaluation of Translation with Explicit ORdering[13],該指標(biāo)同時(shí)考慮了準(zhǔn)確率和召回率,其中召回率的權(quán)重更高。將生成回復(fù)與參考回復(fù)之間的Uni-grams通過簡(jiǎn)單的映射進(jìn)行對(duì)齊,可進(jìn)行詞干提取和精確的單詞匹配,從而計(jì)算得到特定的匹配關(guān)系,與人類判斷有較好的相關(guān)性。

    (4)需要參考回復(fù)——基于詞向量

    不同于基于詞重疊(即利用N-gram計(jì)算生成回復(fù)和參考回復(fù)之間的重合程度)的方式,基于詞向量的評(píng)價(jià)方式則是利用Word2Vec、Sent2Vec等方法把回復(fù)表示為句向量,再通過余弦相似性等方法計(jì)算生成回復(fù)與參考回復(fù)之間的相似程度。

    貪婪匹配(Greedy Matching):本質(zhì)是計(jì)算兩個(gè)語(yǔ)句的相似性。該方法分別將生成回復(fù)和參考回復(fù)中的每個(gè)詞轉(zhuǎn)換為詞向量,然后對(duì)參考回復(fù)中每個(gè)詞向量,計(jì)算其在生成回復(fù)中與每個(gè)詞向量的余弦相似度,取最高的余弦相似度將其相加并求平均,最后再對(duì)生成回復(fù)進(jìn)行相同流程的計(jì)算,取兩者平均值。

    平均匹配(Embedding Average):使用句向量計(jì)算生成回復(fù)和參考回復(fù)的余弦相似度。句向量由語(yǔ)句中每個(gè)詞向量相加再取平均值得到。

    向量極值(Vector Extrema):同樣基于句向量計(jì)算兩個(gè)語(yǔ)句的相似性,但句向量由詞向量每個(gè)維度中極值最大的一維構(gòu)成,然后再計(jì)算余弦相似度。這種方法可以忽略語(yǔ)句中的常見表達(dá),保留特殊的重要語(yǔ)義詞語(yǔ)[14]。

    (5)需要參考回復(fù)——基于深度學(xué)習(xí)

    近幾年,深度學(xué)習(xí)快速發(fā)展,針對(duì)基于深度學(xué)習(xí)進(jìn)行生成回復(fù)評(píng)價(jià)的研究也逐漸增多。以下是幾種典型的應(yīng)用深度學(xué)習(xí)進(jìn)行生成回復(fù)評(píng)價(jià)的方法。

    ADEM:全稱為Automatic Dialogue Evaluation Model[15],即對(duì)話系統(tǒng)自動(dòng)評(píng)價(jià)模型,它將對(duì)話系統(tǒng)的評(píng)價(jià)問題轉(zhuǎn)換為預(yù)測(cè)回復(fù)語(yǔ)句的人工評(píng)分問題,收集人類對(duì)對(duì)話語(yǔ)料進(jìn)行評(píng)分的數(shù)據(jù)集,訓(xùn)練使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)構(gòu)建自動(dòng)評(píng)價(jià)模型。雖然文章指出這種方法效果要好于BLEU、ROUGE,但后續(xù)研究表明ADEM存在明顯的缺陷,其分配給各種回復(fù)的分值分布在范圍內(nèi),分辨力較低,無法為多個(gè)回復(fù)提供合適的評(píng)分,仍需要改進(jìn)[16]。

    RUBER:全稱為Referenced metric and Unreferenced metric Blended Evaluation Routine[17],是一種針對(duì)開放域?qū)υ捪到y(tǒng)的無監(jiān)督自動(dòng)評(píng)估方法,不需要人工評(píng)分?jǐn)?shù)據(jù)。其主要思想是將有參考回復(fù)評(píng)估和無參考回復(fù)評(píng)估以不同的策略結(jié)合起來以提高評(píng)估性能。有參考回復(fù)評(píng)估采用詞向量池化的方法,選擇詞向量每個(gè)維度的最大值和最小值來代表語(yǔ)句,然后計(jì)算余弦相似度;無參考回復(fù)評(píng)估通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來衡量生成回復(fù)和對(duì)應(yīng)查詢之間的匹配程度。實(shí)驗(yàn)表明,RUBER可擴(kuò)展到不同數(shù)據(jù)集中,且與人工評(píng)價(jià)具有一定的相關(guān)性。

    GAN-based:生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)通常應(yīng)用于圖像生成任務(wù)中,受其啟發(fā)產(chǎn)生了基于GAN結(jié)構(gòu)的對(duì)話系統(tǒng)評(píng)價(jià)模型,使用生成器生成回復(fù),判別器區(qū)分生成回復(fù)和參考回復(fù)。

    BERTScore:一種基于Bert的生成回復(fù)評(píng)估方法[18]。給定一個(gè)參考回復(fù)和生成回復(fù),使用Bert來提取輸入每個(gè)單詞的上下文特征,表示為帶有上下文信息的詞向量,然后使用余弦相似度計(jì)算每?jī)蓚€(gè)詞向量之間的匹配相似度。使用貪婪匹配來最大化匹配相似度得分,選擇性地使用逆文檔頻率分?jǐn)?shù)對(duì)詞向量進(jìn)行重要性加權(quán)。實(shí)驗(yàn)表明,BERTScore取得了比一般指標(biāo)更好的相關(guān)性,并且對(duì)于模型選擇有一定效果,但是沒有一種BERTScore配置明顯優(yōu)于其他所有配置。

    3.2? ?圖像描述生成評(píng)估

    人們?cè)谏缃涣奶熘薪?jīng)常會(huì)圍繞圖片展開交流和討論,圖片中所體現(xiàn)的事物、事件、氛圍或感情通常是人們討論的主要內(nèi)容。圖像描述生成技術(shù)便是為了能夠自動(dòng)生成能真實(shí)全面地表現(xiàn)圖片中發(fā)生事件以及反映出的感情的描述,運(yùn)用到的技術(shù)實(shí)際上是計(jì)算機(jī)視覺(Computer Vision,CV)和自然語(yǔ)言處理的結(jié)合,通過CV技術(shù)分析圖像內(nèi)容,利用NLP技術(shù)生成相對(duì)應(yīng)的文字來描述圖像中明顯的特征。生成對(duì)話的評(píng)估方法大多數(shù)能直接用于圖像描述生成的評(píng)估,除此以外,CIDEr和SPICE是專門用于圖像描述生成的評(píng)估方式。

    CIDEr:全稱是Consensus-based Image Description Evaluation[19],即基于共識(shí)的圖像描述評(píng)估。其主要思想是利用TF-IDF計(jì)算得到生成回復(fù)和參考回復(fù)的不同N-gram的權(quán)重,將在數(shù)據(jù)集中比較常見、包含較小信息量的N-gram權(quán)重調(diào)低,然后計(jì)算生成回復(fù)與參考回復(fù)的余弦相似度,再對(duì)每個(gè)N-gram的相似度加和求平均值,得到最終的CIDEr評(píng)估值。

    SPICE:全稱是Semantic Propositional Image Caption Evaluation[20],即語(yǔ)義命題圖像描述評(píng)估。不同于CIDEr利用詞語(yǔ)重疊進(jìn)行評(píng)估,SPICE通過建立場(chǎng)景圖(Scene Graphs)來對(duì)圖像描述中的對(duì)象、屬性和關(guān)系進(jìn)行編碼。首先利用PCFG依賴解析器把要評(píng)估的圖像描述轉(zhuǎn)換為語(yǔ)法依賴樹;然后根據(jù)九種簡(jiǎn)單的語(yǔ)言規(guī)則把生成的語(yǔ)法依賴樹映射到場(chǎng)景圖;再把場(chǎng)景圖中的語(yǔ)義關(guān)系看作對(duì)象、屬性和關(guān)系構(gòu)成的元組,計(jì)算生成回復(fù)和參考回復(fù)的元組之間的F值作為最終的SPICE評(píng)估值。

    3.3? ?任務(wù)導(dǎo)向型評(píng)估

    任務(wù)導(dǎo)向型聊天機(jī)器人通常應(yīng)用于特定的情景和場(chǎng)所中,面向特定領(lǐng)域,主要是一些為用戶提供信息或任務(wù)導(dǎo)覽等服務(wù)來滿足用戶明確需求的機(jī)器人。目前這類機(jī)器人在訂餐、訂票、訂酒店、商品咨詢、業(yè)務(wù)辦理等方面應(yīng)用較多。雖然任務(wù)導(dǎo)向型聊天機(jī)器人也可以用準(zhǔn)確率、召回率等評(píng)價(jià)對(duì)話質(zhì)量的標(biāo)準(zhǔn)來評(píng)估,但更多地需要從整體來對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)。

    任務(wù)成功率:指成功解決用戶問題的對(duì)話所占比例,如票務(wù)系統(tǒng)為用戶成功訂票次數(shù)占全部訂票需求數(shù)量的比例。

    單次任務(wù)平均對(duì)話輪數(shù):與前文中的單次平均對(duì)話輪數(shù)(CPS)不同,任務(wù)導(dǎo)向型聊天機(jī)器人講求效率,需要在盡可能少的對(duì)話輪數(shù)內(nèi)解決問題,所以對(duì)話越簡(jiǎn)潔、越明確,越能為用戶提供更好的服務(wù)。

    用戶留存:好的產(chǎn)品需要不斷地迭代更新,與此同時(shí),用戶往往是流動(dòng)的。用戶留存率可以讓開發(fā)者更清晰地看到更新前后一段時(shí)間內(nèi)的用戶留存狀態(tài),從而對(duì)產(chǎn)品的優(yōu)化提供反饋。

    用戶活躍度:用戶活躍度指的是頻繁使用產(chǎn)品的用戶所占比例,即會(huì)頻繁地使用任務(wù)導(dǎo)向型聊天機(jī)器人進(jìn)行相關(guān)服務(wù)的用戶所占比例,用戶活躍度越高,側(cè)面說明機(jī)器人的任務(wù)完成得越好,越能滿足用戶要求。

    4? 研究難點(diǎn)與未來發(fā)展方向(Research difficulties and future development direction)

    4.1? ?研究難點(diǎn)

    隨著近幾年相關(guān)技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)的逐漸成熟,聊天機(jī)器人技術(shù)也在快速發(fā)展,但仍存在著諸多難點(diǎn)。

    (1)對(duì)話技術(shù)依舊不成熟

    目前在某些封閉域方面,聊天機(jī)器人可以很好地與用戶進(jìn)行溝通,比如購(gòu)票系統(tǒng)等。但當(dāng)聊天范圍逐漸擴(kuò)大到開放領(lǐng)域,即用戶希望與聊天機(jī)器人閑聊時(shí),聊天機(jī)器人的回答就會(huì)變得粗糙。這就是目前技術(shù)的瓶頸,即如何讓聊天機(jī)器人在與用戶進(jìn)行無特定范圍的開放域聊天時(shí),能做出合理回復(fù)。聊天機(jī)器人需要數(shù)據(jù)集來反復(fù)訓(xùn)練,一旦用戶期望的對(duì)話內(nèi)容沒有在訓(xùn)練數(shù)據(jù)集中體現(xiàn),聊天機(jī)器人就無法給出合理的回答,然后給出“我不知道”等搪塞用戶的敷衍回答。

    (2)人類和聊天機(jī)器人對(duì)話的心理問題

    恐怖谷理論說明,當(dāng)機(jī)器人的外貌和人類極其相似的時(shí)候,人類會(huì)對(duì)它產(chǎn)生非常強(qiáng)烈的厭惡情緒。在對(duì)話方面,人類也有類似心理,即當(dāng)聊天機(jī)器人的回答內(nèi)容過于真實(shí)或表現(xiàn)出過于透徹的了解時(shí),會(huì)使用戶產(chǎn)生隱私被窺視的感受,用戶可能會(huì)產(chǎn)生厭惡心理。這種現(xiàn)象是十分矛盾的,算法的設(shè)計(jì)需要聊天機(jī)器人的回答內(nèi)容趨向于真實(shí)自然,并且以對(duì)用戶信息的了解為基礎(chǔ)才能生成個(gè)性化對(duì)話內(nèi)容;但是表現(xiàn)得過于真實(shí)與了解就可能使用戶產(chǎn)生反感,甚至出現(xiàn)侵犯隱私問題。

    (3)聊天機(jī)器人的個(gè)性選取

    對(duì)于同一個(gè)問題,不同的人會(huì)有不同的回答,這取決于每個(gè)人的個(gè)性,聊天機(jī)器人也一樣。目前主流的聊天機(jī)器人個(gè)性設(shè)置都是溫柔、耐心等,但由于暴力、色情等不良內(nèi)容很容易出現(xiàn)在聊天機(jī)器人的訓(xùn)練數(shù)據(jù)集中,導(dǎo)致聊天機(jī)器人的個(gè)性并不能完全被控制。另一方面,某些用戶在與聊天機(jī)器人對(duì)話的過程中可能表現(xiàn)出一些心理問題,聊天機(jī)器人如何疏導(dǎo)用戶,幫助其調(diào)整心態(tài),而不是加重其心理問題是目前技術(shù)暫時(shí)無法突破的難點(diǎn)。

    (4)聊天機(jī)器人所需計(jì)算資源較大

    深度學(xué)習(xí)讓聊天機(jī)器人的魯棒性有了很大的飛躍,但同時(shí)也帶來了巨大的計(jì)算資源的需求。尤其是現(xiàn)在聊天功能的需求廣泛,網(wǎng)頁(yè)端、移動(dòng)端等沒有太多計(jì)算資源的邊緣設(shè)備,都需要后臺(tái)服務(wù)器輔助計(jì)算。對(duì)此問題,輕量化聊天機(jī)器人的算法、對(duì)算法的蒸餾等,仍需要更多的研究和應(yīng)用。

    (5)需要“大規(guī)模”和“有質(zhì)量”的語(yǔ)料庫(kù)

    語(yǔ)料庫(kù),即聊天機(jī)器人的訓(xùn)練數(shù)據(jù)集,是機(jī)器人學(xué)習(xí)說話的來源,對(duì)于回答的質(zhì)量非常關(guān)鍵?!按笠?guī)模”指的是語(yǔ)料庫(kù)內(nèi)容要多,涉及方方面面,才能讓機(jī)器人無所不知;“有質(zhì)量”指語(yǔ)料庫(kù)的內(nèi)容要可靠,不能有不良信息,也不能有答非所問的內(nèi)容,這樣的語(yǔ)料庫(kù)才能訓(xùn)練出優(yōu)秀的聊天機(jī)器人。而現(xiàn)實(shí)是,一方面高效獲得語(yǔ)料庫(kù)是一個(gè)難點(diǎn)問題;另一方面即使找到現(xiàn)有的語(yǔ)料庫(kù),目前最多的訓(xùn)練用語(yǔ)料庫(kù)都是以成億計(jì),語(yǔ)料的內(nèi)容也是良莠不齊,高質(zhì)量語(yǔ)料篩選工作也是一個(gè)難點(diǎn)問題。

    (6)自動(dòng)評(píng)估與人工評(píng)估相關(guān)性較差

    生成回復(fù)的自動(dòng)評(píng)價(jià)一直是聊天機(jī)器人評(píng)估領(lǐng)域探索的重點(diǎn)內(nèi)容,也是難點(diǎn)內(nèi)容。由于自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的相關(guān)性一直不高,尤其是現(xiàn)有的自動(dòng)評(píng)價(jià)方法很多都來源于機(jī)器翻譯等其他領(lǐng)域,對(duì)生成回復(fù)的語(yǔ)義多樣性能否進(jìn)行評(píng)價(jià),以及對(duì)模型的有效性和優(yōu)化反饋能否起到作用等問題一直存在爭(zhēng)議。

    4.2? ?發(fā)展方向

    未來聊天機(jī)器人的發(fā)展方向?qū)②呄蛴诔墒斓膶?duì)話生成模型訓(xùn)練和模型輕量化。目前聊天機(jī)器人的回答依然存在答非所問等問題,未來的發(fā)展方向必然需要向增強(qiáng)對(duì)話生成的魯棒性和合理性前進(jìn)。另一方面,計(jì)算輕量化的需求也日益增長(zhǎng),即能夠在計(jì)算能力較弱的機(jī)器人中部署需求,這是當(dāng)今聊天機(jī)器人應(yīng)用場(chǎng)景與應(yīng)用設(shè)備日益擴(kuò)張的必然要求。

    5? ?結(jié)論(Conclusion)

    目前,進(jìn)入市場(chǎng)并產(chǎn)品化的聊天機(jī)器人主要是功能導(dǎo)向型聊天機(jī)器人,產(chǎn)品形式主要是嵌入PC端與手機(jī)端應(yīng)用的問詢功能模塊、實(shí)體化的問詢功能機(jī)器人和智能語(yǔ)音音箱等智能家居。當(dāng)前相關(guān)產(chǎn)業(yè)已經(jīng)較為成熟,產(chǎn)品也逐漸趨同,評(píng)價(jià)精度方面并無較大進(jìn)展。處于研究階段的大規(guī)模開放域的訓(xùn)練模型,訓(xùn)練參數(shù)逐漸增多,模型體量逐漸增大,發(fā)展空間與潛力較大。但這些模型質(zhì)量參差不齊,對(duì)其進(jìn)行有效精準(zhǔn)的評(píng)價(jià)十分重要。本文在實(shí)現(xiàn)功能和實(shí)現(xiàn)技術(shù)兩方面對(duì)聊天機(jī)器人進(jìn)行了分類,從多方面對(duì)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了較為系統(tǒng)的介紹、分析與總結(jié),提出了目前聊天機(jī)器人技術(shù)的研究難點(diǎn)與未來的發(fā)展方向。希望能夠?yàn)槟壳傲奶鞕C(jī)器人的分類和評(píng)價(jià)標(biāo)準(zhǔn)構(gòu)建出一個(gè)較為完整的全局概覽圖,為相關(guān)研究人員提供一定參考和借鑒。

    參考文獻(xiàn)(References)

    [1] 陳晨,朱晴晴,嚴(yán)睿,等.基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,042(007):1439-1466.

    [2] 戴怡琳,劉功申.智能聊天機(jī)器人的技術(shù)綜述[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2018,8(6):918-929.

    [3] Li M, Weston J, Roller S. ACUTE-EVAL: Improved dialogue evaluation with optimized questions and multi-turn comparisons[DB/OL]. [2019-09-06]. https://arxiv.org/pdf/1909.03087.pdf.

    [4] Zhang Y, Galley M, Gao J, et al. Generating informative and diverse conversational responses via adversarial information maximization[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems, 2018: 1815-1825.

    [5] Tevet G, Berant J. Evaluating the evaluation of diversity in natural language generation[DB/OL]. [2020-04-26]. https://arxiv.org/pdf/2004.02990v2.pdf.

    [6] Li J, Galley M, Brockett C, et al. A diversity-promoting objective function for neural conversation models[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016:110-119.

    [7] Zhou L, Gao J, Li D, et al. The design and implementation of XiaoIce, an empatheic social chatbot[J]. Computational Linguistics, 2020, 46(1):53-93.

    [8] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002:311-318.

    [9] Liu C W, Lowe R, Serban I V, et al. How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation[DB/OL]. [2017-01-03]. https://arxiv.org/pdf/1603.08023v2.pdf.

    [10] Doddington G. Automatic evaluation of machine translation quality using N-gram co-occurence statistics[C]. Proceedings of the second international conference on Human Language Technology Research, 2002:138-145.

    [11] Lin C Y, Hovy E. Automatic evaluation of summaries using N-gram co-occurrence statistics[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003:71-78.

    [12] Lin C Y, Och F J. Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics[C]. Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL-04), 2004: 605-612.

    [13] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005:65-72.

    [14] 張偉男,張楊子,劉挺.對(duì)話系統(tǒng)評(píng)價(jià)方法綜述[J].中國(guó)科學(xué):信息科學(xué),2017,47(08):953-966.

    [15] Lowe R, Noseworthy M, Serban I V, et al. Towards an automatic turing test: Learning to evaluate dialogue responses[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017:1116-1126.

    [16] Sai A B, Gupta M D, Khapra M M, et al. Re-evaluating ADEM: A deeper look at scoring dialogue responses[C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:6220-6227.

    [17] Tao C Y, Mou L, Zhao D Y, et al. RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems[C]. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), 2018, 32(1):722-729.

    [18] Zhang T, Kishore V, Wu F, et al. BERTScore: Evaluating text generation with BERT[DB/OL]. [2020-02-24]. https://arxiv.org/pdf/1904.09675.pdf.

    [19] Vedantam R, Zitnick C L, Parikh D. CIDEr: Consensus-based Image Description Evaluation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015:4566-4575.

    [20] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[J]. Adaptive Behavior, 2016, 11(4):382-398.

    作者簡(jiǎn)介:

    王艷秋(1993-),女,碩士,初級(jí)研究員.研究領(lǐng)域:人工智能,數(shù)據(jù)挖掘.

    管浩言(1994-),男,碩士,初級(jí)研究員.研究領(lǐng)域:人工智能,計(jì)算機(jī)視覺.

    張? 彤(1994-),女,碩士,初級(jí)研究員.研究領(lǐng)域:人工智能,圖像處理.

    国产精品久久久久成人av| 老司机靠b影院| 欧美国产精品va在线观看不卡| 夫妻午夜视频| 99精国产麻豆久久婷婷| 午夜福利视频精品| 青草久久国产| 狠狠精品人妻久久久久久综合| 亚洲五月色婷婷综合| 97精品久久久久久久久久精品| 高清不卡的av网站| 久久久久久久久免费视频了| 国产一区亚洲一区在线观看| 欧美日韩福利视频一区二区| 日韩av在线免费看完整版不卡| 精品国产露脸久久av麻豆| 亚洲第一青青草原| 亚洲精品美女久久久久99蜜臀 | 我的亚洲天堂| 一本色道久久久久久精品综合| 午夜激情久久久久久久| 制服丝袜香蕉在线| 中文字幕人妻丝袜一区二区 | 日韩av不卡免费在线播放| 黄片小视频在线播放| 嫩草影视91久久| 一本久久精品| 久久99一区二区三区| 欧美97在线视频| 午夜激情av网站| 亚洲美女视频黄频| av视频免费观看在线观看| 国产一级毛片在线| 午夜福利影视在线免费观看| 国产亚洲最大av| 精品一区二区三区四区五区乱码 | 日韩制服丝袜自拍偷拍| 超碰成人久久| av一本久久久久| 99精品久久久久人妻精品| 天堂中文最新版在线下载| 热99久久久久精品小说推荐| 18禁动态无遮挡网站| 女性被躁到高潮视频| 日韩成人av中文字幕在线观看| 久久这里只有精品19| 电影成人av| 色94色欧美一区二区| 免费少妇av软件| 精品国产超薄肉色丝袜足j| 一区二区三区乱码不卡18| 欧美国产精品一级二级三级| 亚洲一卡2卡3卡4卡5卡精品中文| 人体艺术视频欧美日本| 亚洲欧美成人精品一区二区| www.自偷自拍.com| 一级a爱视频在线免费观看| 日本av手机在线免费观看| 自拍欧美九色日韩亚洲蝌蚪91| 国产精品偷伦视频观看了| 欧美日韩亚洲综合一区二区三区_| 另类亚洲欧美激情| 精品国产一区二区三区四区第35| 亚洲精品第二区| 亚洲av福利一区| 别揉我奶头~嗯~啊~动态视频 | av卡一久久| 熟女少妇亚洲综合色aaa.| 午夜av观看不卡| 天天操日日干夜夜撸| 亚洲av电影在线进入| 少妇被粗大的猛进出69影院| 97在线人人人人妻| 国产精品久久久久久久久免| 国产成人a∨麻豆精品| 最近最新中文字幕免费大全7| 国产 一区精品| 美女脱内裤让男人舔精品视频| 欧美变态另类bdsm刘玥| 天天影视国产精品| 国产欧美日韩一区二区三区在线| 久久久久精品性色| 精品少妇内射三级| 国产精品一区二区在线不卡| 亚洲美女视频黄频| 男人操女人黄网站| 亚洲成色77777| 午夜免费观看性视频| 纯流量卡能插随身wifi吗| 热re99久久精品国产66热6| 97精品久久久久久久久久精品| 高清欧美精品videossex| 亚洲成人手机| 亚洲 欧美一区二区三区| 人人澡人人妻人| 一边亲一边摸免费视频| 中国三级夫妇交换| 又粗又硬又长又爽又黄的视频| 女人精品久久久久毛片| 哪个播放器可以免费观看大片| 亚洲欧美精品自产自拍| 人人妻人人澡人人爽人人夜夜| 日韩熟女老妇一区二区性免费视频| 一本一本久久a久久精品综合妖精| 九草在线视频观看| 久久久精品国产亚洲av高清涩受| 欧美精品人与动牲交sv欧美| 国产有黄有色有爽视频| 欧美老熟妇乱子伦牲交| 午夜福利乱码中文字幕| 欧美激情 高清一区二区三区| 男女床上黄色一级片免费看| 午夜福利一区二区在线看| 国产午夜精品一二区理论片| 亚洲精华国产精华液的使用体验| 亚洲av在线观看美女高潮| 美国免费a级毛片| 大片电影免费在线观看免费| 亚洲伊人久久精品综合| 亚洲美女黄色视频免费看| 亚洲精品久久久久久婷婷小说| 欧美精品人与动牲交sv欧美| 男的添女的下面高潮视频| 国产熟女欧美一区二区| 国产一区二区激情短视频 | 在线观看免费午夜福利视频| 成人黄色视频免费在线看| 欧美精品一区二区免费开放| 汤姆久久久久久久影院中文字幕| 男女边摸边吃奶| 狠狠婷婷综合久久久久久88av| 永久免费av网站大全| 男女边摸边吃奶| 午夜日本视频在线| 只有这里有精品99| 日韩一本色道免费dvd| 美女高潮到喷水免费观看| 午夜免费观看性视频| 欧美在线黄色| 久热这里只有精品99| 日本黄色日本黄色录像| 夫妻性生交免费视频一级片| 国产精品av久久久久免费| 黑丝袜美女国产一区| 精品国产一区二区三区久久久樱花| 性高湖久久久久久久久免费观看| 老汉色av国产亚洲站长工具| 蜜桃在线观看..| www.av在线官网国产| 国产探花极品一区二区| 大香蕉久久网| 男的添女的下面高潮视频| 18在线观看网站| 亚洲精品,欧美精品| 国产欧美日韩综合在线一区二区| 99热国产这里只有精品6| 欧美日韩一级在线毛片| 久久这里只有精品19| 国产成人欧美在线观看 | 99久久综合免费| 国产免费一区二区三区四区乱码| 不卡av一区二区三区| 亚洲综合精品二区| 国产在视频线精品| 国产精品久久久久成人av| 国产精品99久久99久久久不卡 | 精品酒店卫生间| 熟女av电影| 亚洲国产精品999| 女人久久www免费人成看片| 看十八女毛片水多多多| 国产成人精品在线电影| 亚洲成色77777| 午夜福利乱码中文字幕| 在线观看一区二区三区激情| videos熟女内射| 亚洲精品一区蜜桃| 精品亚洲成a人片在线观看| 日韩一区二区三区影片| 美女国产高潮福利片在线看| a 毛片基地| 亚洲欧美清纯卡通| 一级毛片我不卡| 我要看黄色一级片免费的| 亚洲色图综合在线观看| 亚洲情色 制服丝袜| 一级毛片电影观看| 久久久久人妻精品一区果冻| 精品一区二区三区av网在线观看 | 男女床上黄色一级片免费看| 少妇精品久久久久久久| tube8黄色片| 久久精品熟女亚洲av麻豆精品| 九草在线视频观看| 国产成人精品福利久久| 国产精品 国内视频| 日日啪夜夜爽| 国产一区二区 视频在线| 日韩不卡一区二区三区视频在线| 国产高清不卡午夜福利| 久久久欧美国产精品| 国产精品二区激情视频| 亚洲国产精品一区二区三区在线| 高清黄色对白视频在线免费看| 日韩大码丰满熟妇| 日韩伦理黄色片| 国产精品欧美亚洲77777| svipshipincom国产片| 亚洲av电影在线观看一区二区三区| 精品一区在线观看国产| 亚洲精品久久午夜乱码| 亚洲婷婷狠狠爱综合网| 夜夜骑夜夜射夜夜干| 国产黄色视频一区二区在线观看| 精品少妇一区二区三区视频日本电影 | 肉色欧美久久久久久久蜜桃| 一级毛片黄色毛片免费观看视频| 成年美女黄网站色视频大全免费| 亚洲av中文av极速乱| 观看av在线不卡| 日本午夜av视频| av片东京热男人的天堂| xxx大片免费视频| 成人影院久久| 国产免费视频播放在线视频| 精品卡一卡二卡四卡免费| 亚洲精品国产av成人精品| 丝袜脚勾引网站| 日韩一区二区三区影片| 国产乱人偷精品视频| 国产精品久久久av美女十八| 国产精品久久久人人做人人爽| 国产精品久久久人人做人人爽| 亚洲久久久国产精品| 国产一区二区激情短视频 | 男女国产视频网站| 欧美另类一区| 国产av国产精品国产| 亚洲精品日本国产第一区| 欧美成人精品欧美一级黄| 在线看a的网站| 美女大奶头黄色视频| bbb黄色大片| 美女扒开内裤让男人捅视频| 午夜91福利影院| 欧美人与性动交α欧美软件| 美女国产高潮福利片在线看| 性色av一级| 亚洲精品在线美女| 伊人久久大香线蕉亚洲五| 欧美黄色片欧美黄色片| 国产伦人伦偷精品视频| 最黄视频免费看| 一级毛片 在线播放| 青青草视频在线视频观看| 男男h啪啪无遮挡| 成年人午夜在线观看视频| 亚洲国产成人一精品久久久| 久久婷婷青草| 九草在线视频观看| 国产av码专区亚洲av| 制服诱惑二区| 国产一区亚洲一区在线观看| 久久青草综合色| 99九九在线精品视频| 国产 精品1| 中文字幕制服av| 免费黄频网站在线观看国产| 久久婷婷青草| 亚洲精品美女久久av网站| 狠狠婷婷综合久久久久久88av| 最新的欧美精品一区二区| 亚洲欧洲国产日韩| 成人漫画全彩无遮挡| 高清欧美精品videossex| 亚洲精品在线美女| 涩涩av久久男人的天堂| 亚洲国产精品999| 欧美日韩一区二区视频在线观看视频在线| 色网站视频免费| 伊人亚洲综合成人网| 欧美另类一区| 最近2019中文字幕mv第一页| 另类亚洲欧美激情| 日韩一本色道免费dvd| 青春草亚洲视频在线观看| 在线观看www视频免费| 国产一卡二卡三卡精品 | 国产成人91sexporn| 国产精品久久久久成人av| 美女中出高潮动态图| 肉色欧美久久久久久久蜜桃| 99热网站在线观看| 国产精品久久久久久精品电影小说| 国产免费又黄又爽又色| 男女之事视频高清在线观看 | 青草久久国产| 国产1区2区3区精品| 国产乱人偷精品视频| 亚洲专区中文字幕在线 | 国产精品成人在线| 又大又黄又爽视频免费| 伦理电影免费视频| 咕卡用的链子| 老司机靠b影院| 久久国产精品男人的天堂亚洲| 人妻一区二区av| 免费女性裸体啪啪无遮挡网站| 久久免费观看电影| av片东京热男人的天堂| 亚洲精品久久午夜乱码| 免费在线观看视频国产中文字幕亚洲 | 免费黄色在线免费观看| 亚洲伊人色综图| 国产成人午夜福利电影在线观看| 美女脱内裤让男人舔精品视频| 永久免费av网站大全| 别揉我奶头~嗯~啊~动态视频 | 国产精品一二三区在线看| 欧美av亚洲av综合av国产av | xxx大片免费视频| 黄片播放在线免费| 婷婷色综合www| 老司机靠b影院| 尾随美女入室| 视频在线观看一区二区三区| av网站在线播放免费| 中文乱码字字幕精品一区二区三区| 九九爱精品视频在线观看| 亚洲av日韩在线播放| 国产人伦9x9x在线观看| 性色av一级| 久久女婷五月综合色啪小说| 久久久精品国产亚洲av高清涩受| 久久精品国产综合久久久| 在线观看人妻少妇| 中文字幕人妻丝袜制服| 亚洲国产欧美在线一区| 国产 精品1| 亚洲av电影在线进入| 国产成人啪精品午夜网站| 久久久久久免费高清国产稀缺| 免费高清在线观看日韩| 日日撸夜夜添| 老司机影院成人| 一区二区日韩欧美中文字幕| 亚洲美女黄色视频免费看| 王馨瑶露胸无遮挡在线观看| 亚洲少妇的诱惑av| a级片在线免费高清观看视频| 欧美亚洲 丝袜 人妻 在线| 亚洲婷婷狠狠爱综合网| 少妇 在线观看| 少妇精品久久久久久久| 最新的欧美精品一区二区| www.熟女人妻精品国产| 久久久精品区二区三区| 捣出白浆h1v1| 国产成人91sexporn| 久久久久精品性色| 秋霞伦理黄片| 男女之事视频高清在线观看 | 一级片免费观看大全| av在线播放精品| 久久天堂一区二区三区四区| 街头女战士在线观看网站| 王馨瑶露胸无遮挡在线观看| 久久国产精品男人的天堂亚洲| 国产黄色免费在线视频| 午夜激情久久久久久久| 免费黄色在线免费观看| tube8黄色片| 中文欧美无线码| 美女福利国产在线| 伊人久久国产一区二区| 女人久久www免费人成看片| 在线看a的网站| 少妇的丰满在线观看| 青春草国产在线视频| 日韩欧美一区视频在线观看| a级毛片在线看网站| 国产视频首页在线观看| 一级黄片播放器| 欧美激情极品国产一区二区三区| 日本av免费视频播放| 欧美久久黑人一区二区| 激情视频va一区二区三区| 宅男免费午夜| 69精品国产乱码久久久| 精品久久久精品久久久| 一区福利在线观看| 老鸭窝网址在线观看| 欧美国产精品一级二级三级| 亚洲欧美中文字幕日韩二区| 青春草视频在线免费观看| 午夜福利网站1000一区二区三区| 大片电影免费在线观看免费| 黄色视频在线播放观看不卡| 韩国精品一区二区三区| 欧美黑人欧美精品刺激| a级毛片在线看网站| 精品午夜福利在线看| 99久国产av精品国产电影| 美女午夜性视频免费| 天天操日日干夜夜撸| 欧美中文综合在线视频| 国产精品久久久久久精品电影小说| 久久狼人影院| 大话2 男鬼变身卡| 在线观看三级黄色| 在线 av 中文字幕| 一本一本久久a久久精品综合妖精| 欧美精品一区二区免费开放| 成人影院久久| 国产乱来视频区| 亚洲人成网站在线观看播放| 老鸭窝网址在线观看| 日本猛色少妇xxxxx猛交久久| 麻豆精品久久久久久蜜桃| 亚洲精品美女久久久久99蜜臀 | 岛国毛片在线播放| 亚洲欧美成人综合另类久久久| 男人操女人黄网站| 曰老女人黄片| kizo精华| 国产黄频视频在线观看| 国产亚洲午夜精品一区二区久久| 亚洲国产精品成人久久小说| 精品一区二区三卡| 纵有疾风起免费观看全集完整版| 久久久久视频综合| av电影中文网址| 亚洲成人免费av在线播放| 免费高清在线观看视频在线观看| 国产亚洲午夜精品一区二区久久| 中文乱码字字幕精品一区二区三区| 日韩一区二区视频免费看| 香蕉国产在线看| 99九九在线精品视频| 另类亚洲欧美激情| 日韩av在线免费看完整版不卡| 观看美女的网站| 丝袜在线中文字幕| 伦理电影大哥的女人| 中国三级夫妇交换| 不卡av一区二区三区| 亚洲第一av免费看| 亚洲精品自拍成人| 啦啦啦中文免费视频观看日本| 午夜福利视频在线观看免费| 国产精品国产三级专区第一集| 啦啦啦中文免费视频观看日本| 日本91视频免费播放| 天天躁夜夜躁狠狠久久av| 欧美日韩av久久| 悠悠久久av| 国产精品av久久久久免费| 丰满乱子伦码专区| 国产乱人偷精品视频| 国产女主播在线喷水免费视频网站| 丰满乱子伦码专区| 婷婷成人精品国产| 免费观看av网站的网址| 美女扒开内裤让男人捅视频| 欧美精品亚洲一区二区| 久久久国产精品麻豆| √禁漫天堂资源中文www| 久久久久久久国产电影| 久久人妻熟女aⅴ| 亚洲精品国产色婷婷电影| av线在线观看网站| 高清黄色对白视频在线免费看| 亚洲,一卡二卡三卡| 精品一品国产午夜福利视频| 国产黄频视频在线观看| 一本久久精品| 成人午夜精彩视频在线观看| 日本av免费视频播放| netflix在线观看网站| 天天躁狠狠躁夜夜躁狠狠躁| 电影成人av| 亚洲情色 制服丝袜| 十八禁高潮呻吟视频| 一区在线观看完整版| 亚洲自偷自拍图片 自拍| 国产在线视频一区二区| 在线观看免费午夜福利视频| 热99国产精品久久久久久7| 亚洲欧美成人精品一区二区| 亚洲欧洲国产日韩| 国产片特级美女逼逼视频| 欧美黄色片欧美黄色片| 女人精品久久久久毛片| 侵犯人妻中文字幕一二三四区| 黄色视频不卡| 中文精品一卡2卡3卡4更新| 在线观看www视频免费| 色网站视频免费| 亚洲欧洲精品一区二区精品久久久 | 日韩制服骚丝袜av| 亚洲欧美日韩另类电影网站| 欧美激情高清一区二区三区 | 精品人妻在线不人妻| 免费在线观看黄色视频的| 一二三四在线观看免费中文在| 美女脱内裤让男人舔精品视频| 成人影院久久| tube8黄色片| 午夜av观看不卡| 欧美日韩av久久| 国产成人精品在线电影| 欧美中文综合在线视频| 新久久久久国产一级毛片| 一区二区三区精品91| 在线 av 中文字幕| 国产男女超爽视频在线观看| 欧美精品av麻豆av| 亚洲伊人色综图| 一区二区三区精品91| 老司机影院成人| 国产高清不卡午夜福利| 制服人妻中文乱码| 久久婷婷青草| 亚洲成国产人片在线观看| 超碰97精品在线观看| 亚洲精品视频女| 亚洲欧美中文字幕日韩二区| 老司机影院毛片| 国产成人a∨麻豆精品| 99re6热这里在线精品视频| av天堂久久9| 久久狼人影院| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲图色成人| 99香蕉大伊视频| 一二三四在线观看免费中文在| 精品国产露脸久久av麻豆| 毛片一级片免费看久久久久| 欧美人与善性xxx| www.精华液| 精品一区二区三卡| 最近最新中文字幕免费大全7| 蜜桃国产av成人99| 国产av码专区亚洲av| 一二三四中文在线观看免费高清| 另类亚洲欧美激情| 日日撸夜夜添| 国产日韩欧美视频二区| 中文字幕人妻丝袜制服| 午夜91福利影院| 国产成人精品福利久久| 观看美女的网站| 一本一本久久a久久精品综合妖精| 欧美中文综合在线视频| 波多野结衣av一区二区av| 久久久精品国产亚洲av高清涩受| 欧美成人精品欧美一级黄| 一区二区三区精品91| 一级a爱视频在线免费观看| 在线看a的网站| 日韩大码丰满熟妇| 婷婷色综合www| 制服丝袜香蕉在线| 9热在线视频观看99| 国产黄色免费在线视频| 超碰97精品在线观看| 美女主播在线视频| 国产亚洲一区二区精品| 亚洲av国产av综合av卡| 欧美日韩精品网址| 在线看a的网站| 老司机深夜福利视频在线观看 | 免费av中文字幕在线| 欧美97在线视频| 国产成人欧美在线观看 | 十分钟在线观看高清视频www| www.自偷自拍.com| 别揉我奶头~嗯~啊~动态视频 | 久久性视频一级片| 建设人人有责人人尽责人人享有的| 亚洲精品aⅴ在线观看| 老司机亚洲免费影院| 在线看a的网站| 欧美 亚洲 国产 日韩一| 精品国产乱码久久久久久男人| 亚洲成人手机| videosex国产| 久久韩国三级中文字幕| 性高湖久久久久久久久免费观看| 亚洲色图综合在线观看| 亚洲精品美女久久av网站| 人人妻人人添人人爽欧美一区卜| 一本一本久久a久久精品综合妖精| 青春草亚洲视频在线观看| 蜜桃在线观看..| 中文字幕最新亚洲高清| 1024香蕉在线观看| 国产片内射在线| 国产精品国产av在线观看| 激情五月婷婷亚洲| av视频免费观看在线观看| 国产男女内射视频| 国产精品香港三级国产av潘金莲 | 国产成人91sexporn| 亚洲少妇的诱惑av| 99热网站在线观看| 亚洲少妇的诱惑av| 99久久精品国产亚洲精品| 人人妻,人人澡人人爽秒播 | 成年人免费黄色播放视频| 丁香六月欧美| 亚洲成色77777| 人妻人人澡人人爽人人| 亚洲成人av在线免费| 天天躁日日躁夜夜躁夜夜|