• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    機器生成語言的質(zhì)量評價方法綜述*

    2022-01-24 02:16:24
    計算機工程與科學(xué) 2022年1期
    關(guān)鍵詞:文摘譯文人工

    秦 穎

    (北京外國語大學(xué)人工智能與人類語言實驗室,北京 100089)

    1 引言

    生成可被理解的、流暢且符合語言環(huán)境和要求的自然語言是人工智能的重要體現(xiàn)。自然語言生成NLG(Natural Language Generation)廣義上包含了所有機器生成語言的任務(wù),涵蓋機器翻譯、自動文摘、對話系統(tǒng)、故事和新聞寫作、圖像與視頻標題生成等。根據(jù)生成語言時是否有參照,本文將NLG任務(wù)分為參照型和開放型2大類,如圖1所示。

    Figure 1 Main research directions of general natural language generation圖1 廣義自然語言生成任務(wù)的主要研究方向

    參照型任務(wù)依據(jù)給定的文本或圖像等生成語言。常見的生成需求有:(1)形式轉(zhuǎn)換任務(wù),例如機器翻譯、圖像/視頻標題生成等。機器翻譯將原文轉(zhuǎn)換為另一種語言的譯文;圖像/視頻標題生成任務(wù)為圖像/視頻生成相應(yīng)的描述文字,即從圖像語義表達變?yōu)槲淖终Z義表達。(2)語義壓縮任務(wù),主要包括自動文摘和句子簡化等文本到文本的生成任務(wù),在保持給定原文核心內(nèi)容不變的情況下,實現(xiàn)語義壓縮,生成更簡短的文本。

    開放型生成任務(wù)往往沒有明確的生成參照,目的是實現(xiàn)基于自然語言的交流或創(chuàng)作,包括人機對話、機器寫作和文本擴展等典型任務(wù)。

    不難看出,從機器翻譯、自動文摘、圖像標題生成到人機對話、機器寫作,生成任務(wù)的開放性逐漸增大。

    近年來語言生成技術(shù)取得了令人矚目的進展,而生成語言的質(zhì)量評價問題越來越突出。首先,代價高、周期長、重用性差的人工評價仍作為各個任務(wù)的黃金標準(Gold Standard),自動評價的性能較差,無法代替人工。其次,語言質(zhì)量評價的研究發(fā)展緩慢,已經(jīng)成為制約NLG發(fā)展的、亟待解決的難點和瓶頸問題[1 - 4]。下面以機器翻譯評測平臺WMT(Workshop of Machine Translation)近15年的人工與自動評價方法的變化為例。2006年人工評價標準是譯文流利度和充分性的5段打分,自動評價采用的是BLEU (BiLingual Evaluation Understudy)算法[5,6]。之后增加了人工排序和句法成分等更細粒度的評價,自動評價增加了METEOR、TER(Translation Error Rate)和GTM(Graph Theory Matching)等10種算法[7]。為保證人工評價的可信度,增加了多人評價的一致性衡量指標。2009年后不再對譯文打分,只對不同系統(tǒng)譯文進行排序,同時增加人工對機器譯文的編輯,采取HTER(Human-mediated Translation Edit Rate)指標反映譯文的質(zhì)量[8]。為擴大人工評價的范圍,2010年開始采取眾包方式(Crowd-sourced)評估各個機器翻譯系統(tǒng)。自動評價方面,2012年增加了無參考譯文的質(zhì)量估計[9]。之后又在人工排序評價前,加入了對系統(tǒng)譯文的聚類處理。質(zhì)量估計的粒度從句子級擴展到詞匯級。2014年提出了新的排序模型,以更好地利用人工排序結(jié)果,質(zhì)量評估的粒度也更多更細。2016年提出了單語直接評測法(Direct Assessment)[10],以避免參考譯文對人工評價的影響。

    生成語言質(zhì)量評價是研發(fā)過程的重要反饋,不但反映生成系統(tǒng)性能,很大程度還能指導(dǎo)生成技術(shù)的研究,并且在訓(xùn)練時用于生成模型的參數(shù)調(diào)整[11]。

    本文對近年來NLG任務(wù)的有關(guān)文獻梳理后發(fā)現(xiàn),不同任務(wù)的評價方法差異較大,同時又有很強的關(guān)聯(lián)性,存在諸多可相互借鑒的思想和方法,有必要從整體上分析機器生成語言的質(zhì)量評價問題,通過不同任務(wù)評價的對比,實現(xiàn)相互借鑒和融合,探索新的評價方法。

    下文中,首先介紹人工評價的特點及關(guān)注的主要問題。然后是自動評價算法的介紹和優(yōu)缺點分析,介紹開放的評價資源,并總結(jié)各算法之間的聯(lián)系和交叉應(yīng)用情況;最后是對機器生成語言質(zhì)量評價的總結(jié)和展望。

    2 人工評價

    人工評價機器生成語言的質(zhì)量具有主觀性,盡管存在代價高、周期長、不一致和不確定等問題,人工評價目前仍是各個生成任務(wù)最準確、最認可的方式。人工評價主要有以下幾個關(guān)注的問題:

    2.1 評價者與評價結(jié)果的選擇

    常見的評價者有系統(tǒng)研發(fā)人員、語言專業(yè)人士和評價志愿者。評價者的選擇影響評價的結(jié)果,選擇不同的評價者時對評價質(zhì)量的控制方法也不同。一般而言,系統(tǒng)研發(fā)人員和語言專業(yè)人士具有較好的背景知識,可信度相對較高。評價可由一人完成,也可多人評價。一人評價容易受個人主觀因素的影響而不穩(wěn)定[12]。多人評價的結(jié)果也會存在波動性。為保證多人評價的可信度,需要檢查評價結(jié)果的一致性(Agreement)。衡量一致性的指標常用Kappa系數(shù)[13]。Kappa系數(shù)K的計算方法如式(1)所示:

    (1)

    其中,P(A)代表2個評價結(jié)果相同的概率,P(E)為基于隨機猜測時2個評價結(jié)果相同的概率。Kappa系數(shù)越大說明一致性越高。Kappa系數(shù)在0.2以下,說明幾乎沒有一致性;0.2~0.4表示一致性較低;0.4~0.6表示一致性中等程度;0.6~0.8表示一致性較高;0.8以上代表幾乎完全一致[14]。

    基于眾包平臺如Mechanical Turk(MTurk)[15]和CrowdFlower(www. crowdflower.com)的志愿者評價是較為廉價的人工評價方式。眾包評價的關(guān)鍵是評價結(jié)果的質(zhì)量控制,著名的有MACE(Multi-Annotator Competence Estimation)工具[16]。針對評價者的投機取巧等作弊行為,基于MTurk平臺也提出了多種控制質(zhì)量的方法[17]。

    2.2 內(nèi)部評價與外部評價

    內(nèi)部評價(Intrinsic Evaluation)不涉及語言生成系統(tǒng)的設(shè)置和使用效果,是針對生成語言內(nèi)在質(zhì)量進行的評價,如語言的流利度、正確性和合理性等。而外部評價(Extrinsic Evaluation)考查的是生成系統(tǒng)達成目標的效度,是從系統(tǒng)的外部表現(xiàn)或系統(tǒng)作為其他應(yīng)用的組成時對其他部分的影響角度進行的評價。顯然,效度與系統(tǒng)應(yīng)用和設(shè)計目的密切相關(guān)[18]。例如評價京東客服機器人對話系統(tǒng)Alphasales時,使用了客服電話轉(zhuǎn)人工率、72小時內(nèi)再次撥打的比例等與任務(wù)相關(guān)的外部評價指標。

    2.3 評價方式

    生成語言質(zhì)量評價方式主要有分類(Classification)、評分(Scoring)和排序(Ranking)3種。一般認為,排序的評價難度低于分類和評分,且一致性也比評價分高,更適用于系統(tǒng)之間的比較[19]。此外,還有基于閱讀時間的測量法(Reading-Time Measure),是根據(jù)評價者做出判斷所需要的閱讀時間來區(qū)分不同的文本質(zhì)量[20],一般來講,評閱時間越長,生成語言的質(zhì)量越差,因此是一種間接的評價方式。

    2.4 評價參考和事先培訓(xùn)

    人工評價結(jié)果作為黃金標準也不是完美的,經(jīng)常會出現(xiàn)評價者曲解評價任務(wù),或給出不合邏輯的、異常的評價。為了讓評價者更好地理解評價任務(wù)和評價標準,可通過事先培訓(xùn)來提高評價的一致性。另一種提高人工評價一致性的方式是給出參考答案,比如評價機器翻譯時提供專家譯文作為評價的參考,但這樣的代價會更高,評價者的判斷也容易受參考答案的影響。

    還有很多復(fù)雜的因素會影響人工評價的一致性,如評價文本的長度和復(fù)雜度、評價的數(shù)目等。

    2.5 人工評價標準

    內(nèi)部評價常根據(jù)不同任務(wù)從不同的語言質(zhì)量維度進行,主要指標有連貫性、內(nèi)容性、結(jié)構(gòu)性、正確性、風(fēng)格和整體質(zhì)量等。任務(wù)不同,維度也有所不同,比如機器翻譯一般不去評價譯文的語言風(fēng)格和內(nèi)容的豐富性,重點關(guān)注譯文的流利度和準確度。而評價幽默寫作的質(zhì)量時,則會增加文檔的趣味性這一維度。評價基于多篇文檔的機器文摘時,會增加信息冗余度這一指標。以下是機器翻譯、自動文摘和人機對話任務(wù)常見的人工評價標準。

    2.5.1 機器翻譯

    1964年美國語言自動處理咨詢委員會ALPAC(Automatic Language Processing Advisory Committee)人工評價機器譯文包括2個角度:一是譯文的忠實度(Fidelity),二是譯文的可理解度(Intelligibility)。我國863機器翻譯評測中的人工評分標準包括充分性(Adequacy)和流利度(Fluency),評分共分6個等級。充分性衡量譯文多大程度體現(xiàn)了原文的語義,流利度反映譯文的可讀性。

    從2009年開始,WMT開始采取眾包方式對參賽系統(tǒng)譯文進行質(zhì)量排序,并且在亞馬遜網(wǎng)站上開發(fā)了著名的MTurk評價平臺?;谠撈脚_,可計算人工干預(yù)的翻譯編輯率HTER,即人工修訂機器譯文成為可接受的譯文需要進行的編輯量[15],值越小質(zhì)量越高。

    以上是內(nèi)部評價機器譯文質(zhì)量的標準。外部評價機器翻譯的質(zhì)量,可讓評價者基于機器譯文進行閱讀理解測試[15]。

    2.5.2 自動文摘

    自動文摘任務(wù)有多種類型[21]:根據(jù)文摘的來源文檔數(shù)目可分為單文檔文摘(Single Document Summarization)和多文檔文摘(Multi-Document Summarization);根據(jù)文摘的策略可分為抽取式文摘(Extractive Summarization)和抽象式文摘(Abstractive Summarization)。而查詢文摘(Query-Focused)和通用文摘(Generic)的區(qū)別是前者圍繞查詢相關(guān)的內(nèi)容組成文摘,后者是以核心內(nèi)容構(gòu)成的文摘。從輸出風(fēng)格上又可分為標示型文摘(Indicative Summary)和信息型文摘(Informative Summary)。標示型文摘只需要給出文檔最核心的主題,而信息型文摘則要列出全部主題的內(nèi)容。針對不同的文摘類型,質(zhì)量評價指標也各不相同。通用型文摘強調(diào)摘要內(nèi)容的重要性(查詢文摘重點是主題的相關(guān)性)、內(nèi)容的覆蓋面、句子的連貫性和信息冗余度等。

    內(nèi)部評價文摘質(zhì)量的標準主要包括:無冗余(Non-Redundancy)、結(jié)構(gòu)和連貫(Structure and Coherence)、重點突出(Focus)和整體質(zhì)量(Quality)狀況[22]。有的標準還包括文摘的語法性(Grammaticality)和參照清晰度(Referential Clarity)等指標[21]。

    在文檔理解會議DUC(Document Understanding Conference)上,評價者以句子為單位評價機器文摘的內(nèi)容和語言質(zhì)量,其中語言質(zhì)量指標又進一步分為語法性(Grammaticality)、內(nèi)斂性(Cohesion)和連貫性(Coherence)3個方面[23]。后來在文本分析會議TAC(Text Analysis Confe- rence)上,人工評價機器文摘采用了金字塔(Pyramid)法和反應(yīng)度(Responsiveness)2種標準[24]。金字塔法要求人工標注文摘的內(nèi)容單元(Content Unit),基于文摘中包含內(nèi)容單元的多少和權(quán)重計算得分。反應(yīng)度是根據(jù)用戶信息需求對機器文摘進行的直觀印象評分。

    外部評價將文摘置于特定的應(yīng)用中來評價文摘對系統(tǒng)的影響,如將文摘置于類似游戲場景下,利用猜測下一個詞的游戲來評價文摘的信息含量[25];以及基于問答方式測試讀者對文摘的理解程度[21]等方法。

    2.5.3 對話系統(tǒng)

    對話系統(tǒng)的類型很多(如圖1所示),不同類型的對話系統(tǒng)功能和目的不同,評價標準差異較大[26]:(1)任務(wù)型對話系統(tǒng)強調(diào)對話的內(nèi)容和策略,評價主要從任務(wù)實現(xiàn)(Task-Success)和對話效率(Dialogue Efficiency)2個方面進行,可分為用戶滿意(User Satisfaction Modeling)和用戶模擬(User Simulation)2種評價模型。(2)社會型對話屬于開放的、非結(jié)構(gòu)化的交談,傳統(tǒng)的評價方式是圖靈測試(Turing Test)。粗粒度的評價標準包括對話應(yīng)答的恰當(dāng)性(Appropriateness)和類人性(Human Likeness)。細粒度的評價標準涉及具體的語言特征,如對話的連貫性和主題的維持(Maintaining)、主題的深度(Topic Depth)、對話的廣度(Conversational Breadth)等。(3)問答型對話的質(zhì)量評價經(jīng)常借鑒信息檢索的評價標準,如準確率和召回率等。

    文獻[27]針對一個口語對話系統(tǒng)的生成話語設(shè)計了3項人工評價的內(nèi)容:對話的信息度(Informativeness)、自然度(Naturalness)和總體質(zhì)量(Quality)??煽亓奶鞕C器人的關(guān)鍵是對話的可控性,文獻[28]提出的評價生成話語可控制性的指標有:重復(fù)性(Repetition)、特異性(Specificity)、應(yīng)答相關(guān)性(Response-Relatedness)和提問能力(Question-Asking)。最近谷歌公司開放域多輪對話系統(tǒng)Meena的人工評價標準是回復(fù)的合理性(Sensibleness)和內(nèi)容的具體性(Specificity)2個指標的平均值,即SSA(Sensibleness and Specificity Average)評價指標[29]。實驗表明,SSA與人們對對話系統(tǒng)的喜好程度正相關(guān)。

    人工評價聊天機器人的對話質(zhì)量目前尚沒有確定統(tǒng)一的標準。評價時通常會設(shè)計很多問題進行問卷調(diào)查,比如“對話進行是否順暢?參與對話的程度如何?你認為對方是人還是機器人?是否愿意再聊一次?”等,這些問題主觀性強,答案與受訪者對系統(tǒng)的期望值有關(guān)。開放型對話系統(tǒng)的質(zhì)量與多種因素有關(guān),這些因素的權(quán)衡和比較在評價時十分重要。

    為研究多輪對話中對整體對話質(zhì)量有貢獻的重要因素,文獻[28]發(fā)現(xiàn):(1)控制對話的重復(fù)率對所有人工判斷極其重要;(2)問更多的問題能提升對話系統(tǒng)的吸引力;(3)控制特異性即減少使用通用話語,能提高聊天的吸引力、興趣和感知;(4)評價者對非通用機器人的錯誤容忍度較低,當(dāng)出現(xiàn)不流利或無意義的語句時評分通常較低。整體上,與用戶體驗關(guān)系密切的因素包括聊天內(nèi)容的趣味性、對話的流利度、傾聽性和少問問題等。

    3 自動評價

    廉價、快速、一致和可重用是自動評價的優(yōu)勢。自動評價算法通常與不同語言生成任務(wù)相適應(yīng)。自動評價也分外部評價和內(nèi)部評價。內(nèi)部評價研究最多的是基于參考答案的評價,即將機器生成文本與人工參考答案進行相似度的比較,越相似的認為質(zhì)量越高。

    3.1 對自動評價算法的要求

    根據(jù)NLG研究文獻,本文歸納了自動評價算法通常要滿足的要求:(1)算法有足夠的質(zhì)量區(qū)分度,能夠區(qū)分不同質(zhì)量的機器生成文本,或者能識別人工文本與機器生成文本。(2)可解釋性,也就是區(qū)分不同質(zhì)量的文本的依據(jù)要合理。(3)對評價系統(tǒng)和數(shù)據(jù)的依賴度,一般要求評價算法獨立于系統(tǒng)和評價數(shù)據(jù)。(4)健壯性,即算法對評價數(shù)據(jù)變動的敏感程度[30],健壯的算法應(yīng)能適應(yīng)評價內(nèi)容和領(lǐng)域的變化。(5)可重用性,算法應(yīng)能重復(fù)使用,并保持多次評價結(jié)果不變。(6)可靠性,評價結(jié)果具有較高的可信度和準確度。

    常用與人工評價的相關(guān)度來衡量自動評價算法的性能,如皮爾遜相關(guān)系數(shù)(Pearson Coefficient)、斯皮爾曼相關(guān)系數(shù)(Spearman Coefficient)和Kendall tau等指標,并用威廉姆斯測試(Williams’ test)[31]判斷相關(guān)的顯著程度。

    3.2 不同任務(wù)的自動評價算法分析與資源

    3.2.1 機器翻譯

    機器翻譯中經(jīng)典的、影響深遠的自動評價算法是BLEU。評價的思想是比較參考譯文和機器譯文在語言形式上的相似度,計算單位是共現(xiàn)的n-gram數(shù)目。BLEU得分的計算如式(2)所示:

    (2)

    其中,pn是不同n-gram的鉗位匹配率,wn是相應(yīng)n-gram的權(quán)重,N一般取到4。BP是對長度小于參考譯文r的機器譯文c的懲罰因子。

    BLEU算法的優(yōu)點是與語言無關(guān)(Language Independent),簡單易行。盡管一直作為WMT平臺的官方評價標準(https://github.com/jhclark/multeval),BLEU評價還有很多問題,如當(dāng)n較大時匹配的幾率很小,n-gram得分經(jīng)常為0,因此目前采取的是Smoothed BLEU[32],處理了n-gram為0的情況。但是,Smoothed BLEU仍未能改變機械匹配和n-gram稀疏帶來的問題[33,34]。盡管算法可基于多個參考譯文進行評價,但正確的譯文往往是多樣的,機械匹配難以評價同義或近義的譯法。BLEU算法實際上是一種準確率評價指標。算法中譯文長度的懲罰因子設(shè)定也具有主觀性。針對上述問題,有不少改進研究,如EBLEU(Enhanced BLEU)算法[35]綜合了準確率和召回率、調(diào)和平均以及多種長度懲罰因子指標;AMBER(A Modified Bleu,Enhanced Ranking)評價[36]則是對比了10種懲罰因子、4種匹配策略和多種譯文輸入類型而提出的。這些工作一定程度上提升了BLEU算法的性能,但評價結(jié)果還是受到不少質(zhì)疑[37],很多文獻指出BLEU得分并不足以反映譯文質(zhì)量的細微差異。

    與BLEU類似的、基于語言形式匹配的評價算法還有不少,如NIST(National Institute of Standards and Technology)[38]和METEOR[39]等,這類自動評價算法的困難都是無法深入到譯文的句法和語義層面進行相似度的比較,基于詞匯或n-gram的匹配只能在較淺的層面上檢查譯文的充分性和流利度。

    無參考譯文時,自動評價算法一般要提取原文和機器譯文的語言特征并結(jié)合外部資源進行譯文質(zhì)量的估計,判定詞匯級、句子級的翻譯質(zhì)量等級或進行排序。WMT目前使用的機器翻譯質(zhì)量估計平臺是QuEst[40]。QuEst+ +提取的語言特征已多達172種[41],但整體上質(zhì)量估計的性能低于有參考譯文的評價性能,更多的應(yīng)用是檢查機器譯文中的特異點,進行譯后編輯。

    3.2.2 自動文摘

    外部評價文摘質(zhì)量時關(guān)注的是文摘對其他任務(wù)的影響。文獻[42]提出了關(guān)聯(lián)相關(guān)度(Relevance Correlation)評價方法,將生成文摘置于檢索任務(wù)中,根據(jù)摘要而不是原文進行檢索時,檢索性能相對下降的度量被定義為關(guān)聯(lián)相關(guān)度。

    內(nèi)部評價算法主要評價文摘的語言質(zhì)量和信息度[21]?;谌斯⒖嘉恼淖詣釉u價算法以內(nèi)容的重疊程度為依據(jù)計算文摘的信息度[43]。常用的指標有句子共選(Sentence Co-selection)率、準確率、召回率、F1值和ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[44]。其中,ROUGE是DUC會議的官方評價標準。與BLEU類似,ROUGE也是一種求n-gram重疊率的算法。ROUGE有很多變體,包括ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S和ROUGE-SU等[45]?;綬OUGE-N的通用計算如式(3)所示,評價工具也是公開的(https://github.com/summanlp/evaluation/tree/master/ROUGE-RELEASE-1.5.5)。

    (3)

    其中,N表示n-gram的長度,{ReferenceSummaries}表示參考文摘構(gòu)成的集合,S代表字符串,Countmatch(gramn)表示生成文摘與參考文摘共現(xiàn)的n-gram最大數(shù)目;Count(gramn)的含義是參考文摘中全部n-gram的數(shù)目。ROUGE給出每一個n-gram的得分,是一種召回率指標。因此,ROUGE評價主要反映的是文摘涵蓋信息的豐富程度。

    ROUGE的優(yōu)點是它是一種獨立于語言的評價方法,實現(xiàn)簡單。不同的變體體現(xiàn)了不同的評價側(cè)重點,比如ROUGE-N能夠反映詞序關(guān)系,但當(dāng)N值較大時,ROUGE得分通常很低,影響了評價的區(qū)分度;ROUGE-S計算的是skip-gram,即不要求連續(xù)的n-gram匹配,因而能更好地關(guān)注句子的內(nèi)容而不是其中詞匯的順序,但是不連續(xù)區(qū)間的大小又不容易確定。

    ROUGE比較適用于抽取式文摘,而不太適合抽象式文摘的評價。抽象式文摘強調(diào)的是核心觀點和概念的抽取,可用不同于原文的句子使摘要內(nèi)容更清晰[21],但ROUGE基于簡單匹配難以反映生成句子的準確率和流利度。實際上,文章中承載信息的形式很多,包括事實詞(Factoids)、相同意義單位和重述等,ROUGE只是從n-gram重疊率這個角度反映文摘的信息,算法同樣不能深入到語義層面分析摘要的意義。

    自動文摘任務(wù)較開放,人工參考文摘的變化較多。研究者們開發(fā)了多種基于相似度比較的評價算法,著名的有QARLA評價框架[46]。如果沒有參考文摘做參照,評價算法往往通過比較機器文摘和原文檔的語義相似度、核心內(nèi)容的相似度來判斷文摘的質(zhì)量,例如求原文與文摘的主題相似度和詞匯意義相似度的潛在語義分析法LSA(Latent Semantic Analysis)[47],以及基于詞中心度的評價算法[48],中心詞代表的是向量空間文檔簇的中心。

    3.2.3 圖像標題生成

    圖像標題生成(Image Captioning)是計算機視覺領(lǐng)域的一個重要方向,屬于跨模態(tài)的語言生成任務(wù),也稱圖像標注(Image Labeling)。

    針對同一幅圖像,不同人給出的描述可能完全不同,但可能都是好的標題,因此圖像標題生成任務(wù)的開放性更大。研究者們也嘗試用BLEU、ROUGE等算法評價生成的標題,結(jié)果發(fā)現(xiàn),基于人工標題和生成標題匹配的自動評價算法和人工評價結(jié)果很難有較高的一致性[49-51]。近年來出現(xiàn)了針對圖像標題生成特有的評價算法,如CIDEr(Consensus-based Image Description Evaluation)[49]、SPICE(Semantic Propositional Image Caption Evalution)和神經(jīng)網(wǎng)絡(luò)判別模型等。CIDEr算法對n-gram利用TF-IDF(Term Frequency- Inversed Document Frequency)加權(quán)的方式計算生成標題與多個參考標題的一致性,力求得到不同參考標題共同關(guān)注的內(nèi)容。

    設(shè)第i幅圖像的參考標題句子集合為Si={si1,si2,…,sim},m是句子數(shù)目,n-gramwk在參考標題的句子sij以及在生成標題句子ci中出現(xiàn)的次數(shù)分別為hk(sij)和hk(ci),基于TF-IDF對n-gramwk的加權(quán)值gk(sij)如式(4)所示:

    (4)

    其中,Ω表示n-gram詞表,I是圖像集合。

    長度為n的n-gram的CIDEr得分如式(5)所示:

    (5)

    其中,gn()為n-gram函數(shù)。

    再結(jié)合n-gram的權(quán)重,最終CIDEr得分形式如式(6)所示:

    (6)

    CIDEr算法開源了評價工具包(https://github.com/tylin/coco-caption)和評價服務(wù)器[50]。算法與語言無關(guān),評價思想也是比較n-gram的相似度,其特點是利用了加權(quán)方式反映出多樣化的人工標題中共同關(guān)注的圖像要素,其優(yōu)缺點基本與BLEU和ROUGE的相同,不再贅述。

    SPICE是從語義命題內(nèi)容角度提出的評價圖像標題質(zhì)量的方法[1]。將標題解析為場景圖(Scene Graphs),場景圖對對象、屬性和關(guān)系進行編碼。圖中的語義關(guān)系被視為邏輯命題的連接?;趫D中對象類別、關(guān)系和屬性構(gòu)成的三元組判斷生成標題和參考標題的語義相似度,最終以F1值表示標題質(zhì)量的高低。SPICE算法也有公開的工具(http://panderson.me/spice)。SPICE借助于場景圖解析標題所描述的對象、關(guān)系和屬性,更能從圖像內(nèi)容層面實現(xiàn)評價,因此取得了較好的評價性能。SPICE算法適用于圖像標題類較簡短句子的評價,在機器翻譯等復(fù)雜評價任務(wù)上的嘗試還沒有開展。

    圖像標題的質(zhì)量評價還可以采用判別器模型[52]:輸入圖像、人工標題和生成標題,訓(xùn)練一個模型,根據(jù)概率得分判別是人工標題還是機器生成的標題。計算如式(7)所示:

    (7)

    3.2.4 對話系統(tǒng)

    與機器翻譯等有參照的生成任務(wù)相比,對話有以下的特點:首先生成語言的內(nèi)容由系統(tǒng)決定,而不是參照文本或圖像;其次對話語言多呈現(xiàn)口語化,句子相對簡單,語言的復(fù)雜度比機器翻譯小。自動評價對話質(zhì)量的主要困難來自任務(wù)的開放性內(nèi)容。

    如果有人工應(yīng)答做參考,可借用機器翻譯、信息檢索等評價指標如BLEU、DISTINCT1/2、Hits@K和knowledgeprecision/recall/F1等評價應(yīng)答的質(zhì)量[53]。不同指標反映了生成應(yīng)答在不同層面的質(zhì)量:F1反映的是應(yīng)答在字級別的性能,BLEU得分主要反映詞匯級的性能,而DISTINCT指標用于衡量應(yīng)答的多樣性。針對知識型對話的應(yīng)答質(zhì)量,文獻[54]將生成的句子和系統(tǒng)知識在unigram層面計算準確率、召回率和F1值。也有基于多種距離函數(shù)來定義準確率、召回率和F1值的方法評價應(yīng)答質(zhì)量的研究[55]。

    但是文獻[27]指出,F(xiàn)1、BLEU和DISTINCT等指標用于評價基于數(shù)據(jù)驅(qū)動的、端到端方式的對話系統(tǒng)生成的應(yīng)答時,只能略微地反映出人工評價的思想。算法評價在系統(tǒng)級有較高的可信度,但在句子級的可信度很差。不同算法的性能還與特定的數(shù)據(jù)和系統(tǒng)有關(guān)。

    神經(jīng)網(wǎng)絡(luò)也被用于對對話質(zhì)量進行評價,文獻[56]嘗試了對抗學(xué)習(xí)(Adversarial Learning)的評價方法:訓(xùn)練一個生成對抗網(wǎng)絡(luò),以判別器的性能反映對話的質(zhì)量。但是,作者沒有評估判別器的評分能否作為評價對話質(zhì)量的可行性。有研究者指出,利用對抗學(xué)習(xí)評價對話質(zhì)量的可行性并不樂觀[57]。

    針對開放性很強的生成任務(wù),語言生成模型的困惑度PPL(PerPLexity)被用于評價人對于對話系統(tǒng)的喜歡程度。研究發(fā)現(xiàn),PPL與人類喜歡程度負相關(guān)[29]。PPL其實是語言模型的評價指標,只能從統(tǒng)計意義上間接地體現(xiàn)生成應(yīng)答的質(zhì)量。PPL是一個指數(shù)值,模型的微小改變可能引起PPL的較大改變,PPL值的改變和人們對生成語言質(zhì)量的感知并不成比例。

    機器無法做到真正理解語言。對話系統(tǒng)所做的努力是讓機器產(chǎn)出的結(jié)果看起來像是理解了人類語言后才發(fā)出的響應(yīng),越是接近自然人的響應(yīng)結(jié)果,越能體現(xiàn)智能性,對話應(yīng)答的質(zhì)量也越高。因此,對話的外部評價主要從應(yīng)答的適宜程度和類人程度角度進行。

    3.2.5 其他語言生成任務(wù)

    句子簡化(Sentence Simplification)通過替換復(fù)雜單詞、簡化復(fù)雜的句法結(jié)構(gòu)、刪去次要成分等方式重寫給定的句子,生成簡單短小的句子。句子簡化屬于文本到文本的生成任務(wù)之一[58]。為衡量簡短句的質(zhì)量,文獻[58]采用了可讀性標準Flesch-Kincaid得分和SARI得分(可讀性得分的計算工具 https://github.com/mmautner/readability)。BLEU得分也被用于評價,但文獻[59]發(fā)現(xiàn)BLEU得分與人工流利度評分的相關(guān)度低,但正相關(guān);與充分性評分的相關(guān)度更低,且負相關(guān)。

    故事生成(Storytelling)屬于創(chuàng)意寫作。給定故事的開頭等提示信息,由機器自動生成后續(xù)的故事內(nèi)容。故事生成也是開放域的生成任務(wù),質(zhì)量評價十分困難。文獻[60]用語言分析法評價故事生成的連續(xù)性。評價內(nèi)容分為2項,第1項是獨立于故事的質(zhì)量評價,語言特征包括句子長度、語法、詞匯多樣性、詞頻和句法復(fù)雜度等8項。第2項是與故事有關(guān)句子的質(zhì)量評價,語言特征包括詞匯選擇、風(fēng)格匹配度和實體共指等。文獻[61]基于一個常識故事結(jié)尾續(xù)寫的語料庫,提出了一個基于故事理解的自動評價框架——故事完型測試(Story Cloze Test):系統(tǒng)根據(jù)故事前面的句子完成最后一句的續(xù)寫,實際上是從正反2種故事結(jié)尾答案中做出選擇,類似完形填空,從而實現(xiàn)自動評價。文獻[62]提出的自動評價無需和人工故事進行比較,而是用故事生成模型的困惑度和提示排名精確度(Prompt Ranking Accuracy)來評估流利度和輸出對輸入的依賴程度。

    機器新聞寫作的質(zhì)量主要從讀者的接受程度考慮。由于機器新聞寫作同時有負面的應(yīng)用,即假新聞(Fake News)的生成,因此,新聞寫作方面較多的研究是檢測新聞的真假[63],而不是評價生成新聞的質(zhì)量。

    文獻[64]指出,一個能很好地預(yù)測機器寫作與人工寫作相似性的評價方法并不一定能成為一個好的預(yù)測器,好的預(yù)測器能夠站在讀者角度預(yù)測寫作的有效性和有用性。

    3.2.6 不同任務(wù)算法之間的聯(lián)系與應(yīng)用

    NLG各任務(wù)評價之間有較強的相關(guān)性,一些自動評價算法實現(xiàn)了跨任務(wù)應(yīng)用。本文匯總了經(jīng)典自動評價算法在多種不同生成任務(wù)上的應(yīng)用情況,如表1所示。其中,MT表示機器翻譯,AS表示自動文摘,HD表示人機對話,IC表示圖像標題生成,ST表示故事生成。

    Table 1 Application of automatic evaluation algorithms in different tasks

    基于參考答案和生成文本相似度的評價算法如BLEU、ROUGE等獲得了最廣泛的應(yīng)用,成為多數(shù)自動評價算法的基礎(chǔ)。盡管BLEU和ROUGE等在生成語言質(zhì)量評價方面的結(jié)果并不理想,但仍然是官方認可的標準之一。圖像標題的CIDEr評價算法需要很多人工參考標題來獲得一致的評價內(nèi)容,SPICE因為需要將句子解析為場景圖,在復(fù)雜句子上的應(yīng)用有限。PPL是一種統(tǒng)計算法,主要反映模型的多樣性,并不能真正反映生成語言的質(zhì)量,一般在缺少或不便提供參考答案時用困惑度來評價機器生成的語言的質(zhì)量。

    3.3 自動評價性能的影響因素與特點

    自動評價的穩(wěn)定性和可靠性影響因素與算法參數(shù)有關(guān)。與參考答案進行相似度比較的評價方法中,參考答案的數(shù)目是一個影響因素。研究表明[38],BLEU和NIST對參考譯文的數(shù)目并不敏感,多個參考答案對評價性能的提升并不明顯。同樣的結(jié)論也出現(xiàn)在自動文摘的評價ROUGE算法中[12];文獻[38]同時指出,評價樣本的數(shù)量其實對評價結(jié)果的穩(wěn)定性和可靠性影響更大,要得到具有統(tǒng)計意義的結(jié)果,樣本要足夠多。

    算法性能還與特定的數(shù)據(jù)和系統(tǒng)有關(guān)。自動評價區(qū)分一般質(zhì)量與高質(zhì)量的生成文本比較困難。對于質(zhì)量較差的生成文本,自動評價似乎與人工評價的評價結(jié)果更趨一致,但對高質(zhì)量的文本和中等質(zhì)量的文本,自動評價與人工的評價相關(guān)度較差[27]。文獻[65]研究了多種評價算法的健壯性,更換場景、更換人物、共享場景和共享人物4種情況都對圖像標題的評價結(jié)果產(chǎn)生影響。

    最后,自動評價往往高估(Overestimate)生成文本的質(zhì)量,部分得分較高的系統(tǒng)實際生成語言的質(zhì)量并不好[27,66]。

    4 結(jié)束語

    機器正在以各種方式大量生成自然語言,生成語言的質(zhì)量評價不可或缺又異常復(fù)雜。人工對生成語言的質(zhì)量評價相對準確可靠,具有可解釋性和診斷性等特點,但是代價高、周期長,且評價結(jié)果不可重用、不可擴展,從而嚴重制約了NLG的研發(fā),迫切需要高性能的自動評價算法[67]。但是,現(xiàn)在還沒有任何自動評價算法可以充分捕捉到文本質(zhì)量的全貌,即能夠代理人類的判斷。一個好的評價算法不但能評價生成文本的質(zhì)量,還能夠兼顧答案的多樣性(Diversity),這對于帶有創(chuàng)造性、開放領(lǐng)域的生成任務(wù)而言尤其重要[67]。

    語言質(zhì)量評價應(yīng)與文本生成任務(wù)分離,獨立于生成任務(wù)的質(zhì)量預(yù)測是更好的選擇[4]。自動評價的研究遇到瓶頸,其主要困難從根本上看是評價模型的問題,如果自動評價采取模擬人工評價的思想和方法,模型的實現(xiàn)將十分復(fù)雜。因此,多數(shù)評價采取了與人工答案比較相似度的模型。利用相似度模型評價時,難點問題變成了相似度與語言質(zhì)量的關(guān)系。一般性假設(shè)是,與人工答案越相似的質(zhì)量越高,但這對于開放型評價任務(wù)并不總是成立。人工答案不是唯一的,數(shù)目也有限,質(zhì)量評價時真正需要比較的應(yīng)該是語義層面的相似度,語言形式的相似并不等于語義的相似,所以基于形式比較的自動評測都無法深入到參考答案的語義和語用層面。傳統(tǒng)的語言學(xué)特征是研究語言形式相似的主要手段。另一種觀點認為,文本質(zhì)量是非構(gòu)成式的,不是各個語言特征的疊加,而是文本的附屬屬性,是只能在特定上下文中對文本特征進行整體評估后才能獲得的一種屬性[68]。自動評價模型有待于提升。

    第2個困難是評價機器生成語言的質(zhì)量是一個動態(tài)的、源源不斷的需求,并且與任務(wù)相關(guān)。加上多文檔、多語種、多模態(tài)評價任務(wù)的出現(xiàn),以及復(fù)雜評價因素如文本風(fēng)格、個性化、情感傾向等的加入,無論是對自動評價還是人工評價而言,都面臨巨大的挑戰(zhàn)。各種評價算法一直是被動地去適應(yīng)這些需求,領(lǐng)域適用性和穩(wěn)定性不好,都未能從根本上解決語言質(zhì)量評價的核心問題。

    最近的自動評價研究體現(xiàn)出解決這些難題的一些思路。在相似度研究方面,除了利用傳統(tǒng)的語言特征,也開始嘗試新的語義表示方法,例如基于詞嵌入的相似度比較,相比機械匹配而言,詞嵌入能更多地捕捉語義,實現(xiàn)連續(xù)空間中的內(nèi)容比較[65]。也有將文檔之間的距離視為旅行代價,基于詞匯移動距離WMD(Word Mover’s Distance)[69]求相似度的評價方法[22]。針對不同領(lǐng)域的評價,遷移學(xué)習(xí)的思想也受到關(guān)注,例如谷歌最近推出的評價機器翻譯的BLEURT(github.com/google-research/bleurt)算法,可提高BLEU在不同領(lǐng)域的適應(yīng)性和穩(wěn)定性。

    本文認為,自動評價研究的大致趨勢可分為3個具體的方向:(1)新的評價模型的研究,最新的工作是利用深度學(xué)習(xí)的框架實現(xiàn)自動評價[70]。(2)不同評價方式的整合研究[18,24,46],由于不同的算法從不同角度捕捉了語言質(zhì)量的不同方面,綜合的模型可更全面地反映生成語言的質(zhì)量狀況。(3)定義更聚焦的評價算法以捕捉生成文本的特定方面,而不是進行籠統(tǒng)的質(zhì)量評價,這樣可以幫助我們追蹤所關(guān)心的生成文本的某些重要的質(zhì)量因素,比如流利度、多樣性和重復(fù)率等。

    本質(zhì)上,機器生成語言的質(zhì)量評價屬于自然語言理解任務(wù),全面準確地評價語言質(zhì)量涉及的因素非常復(fù)雜,生成語言的質(zhì)量評價比語言生成任務(wù)本身更有挑戰(zhàn)性。

    猜你喜歡
    文摘譯文人工
    人工3D脊髓能幫助癱瘓者重新行走?
    軍事文摘(2022年8期)2022-11-03 14:22:01
    Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
    人工,天然,合成
    人工“美顏”
    哈哈畫報(2021年11期)2021-02-28 07:28:45
    IAPA文摘
    譯文摘要
    文摘
    寶藏(2017年2期)2017-03-20 13:16:46
    I Like Thinking
    新型多孔鉭人工種植牙
    譯文
    精品少妇一区二区三区视频日本电影| 国产日韩一区二区三区精品不卡| 久久精品aⅴ一区二区三区四区| 国产精品一区二区精品视频观看| 亚洲天堂av无毛| 人妻 亚洲 视频| 晚上一个人看的免费电影| 一区二区三区乱码不卡18| 久9热在线精品视频| 亚洲成人国产一区在线观看 | 男女午夜视频在线观看| 一级a爱视频在线免费观看| 国产精品一区二区免费欧美 | 亚洲成人免费av在线播放| 精品一区在线观看国产| 操出白浆在线播放| 如日韩欧美国产精品一区二区三区| 免费观看人在逋| kizo精华| 狠狠精品人妻久久久久久综合| av国产久精品久网站免费入址| 久久热在线av| 少妇的丰满在线观看| 国产精品久久久久久人妻精品电影 | 黄色视频在线播放观看不卡| av国产精品久久久久影院| 亚洲免费av在线视频| 日本wwww免费看| 免费观看a级毛片全部| 免费看十八禁软件| 国产男女超爽视频在线观看| 赤兔流量卡办理| 久久人人97超碰香蕉20202| 狠狠精品人妻久久久久久综合| 在线 av 中文字幕| 亚洲成人手机| 大码成人一级视频| 日韩制服骚丝袜av| 伊人亚洲综合成人网| 精品少妇黑人巨大在线播放| www.自偷自拍.com| 99热全是精品| 超碰成人久久| 黄色a级毛片大全视频| 99久久精品国产亚洲精品| 亚洲欧美成人综合另类久久久| 欧美日韩亚洲综合一区二区三区_| 80岁老熟妇乱子伦牲交| 人人妻,人人澡人人爽秒播 | 飞空精品影院首页| 热99国产精品久久久久久7| 久久国产亚洲av麻豆专区| 精品久久蜜臀av无| 一区二区av电影网| 亚洲七黄色美女视频| 亚洲,欧美精品.| 国产精品久久久av美女十八| 18禁观看日本| 久久久久久久国产电影| 免费在线观看视频国产中文字幕亚洲 | 午夜免费观看性视频| 韩国高清视频一区二区三区| 国产精品熟女久久久久浪| 无遮挡黄片免费观看| 黑人猛操日本美女一级片| 日韩制服骚丝袜av| 菩萨蛮人人尽说江南好唐韦庄| 亚洲色图 男人天堂 中文字幕| 日韩av在线免费看完整版不卡| 成在线人永久免费视频| 国产精品九九99| 午夜免费观看性视频| 国产亚洲av片在线观看秒播厂| 欧美+亚洲+日韩+国产| 晚上一个人看的免费电影| 一区二区三区激情视频| 免费日韩欧美在线观看| av天堂久久9| 欧美另类一区| 人人妻人人澡人人看| 中文欧美无线码| 国产福利在线免费观看视频| 纵有疾风起免费观看全集完整版| 国产伦人伦偷精品视频| 午夜福利,免费看| 亚洲av综合色区一区| 亚洲欧美一区二区三区国产| 少妇 在线观看| 亚洲专区国产一区二区| 色婷婷久久久亚洲欧美| 国产成人精品久久久久久| 青春草视频在线免费观看| 韩国精品一区二区三区| 人人妻,人人澡人人爽秒播 | 免费少妇av软件| 国产精品久久久久久精品古装| 一区二区三区激情视频| 在现免费观看毛片| 亚洲国产欧美在线一区| 人妻一区二区av| 欧美精品啪啪一区二区三区 | 桃花免费在线播放| 免费看不卡的av| 高清不卡的av网站| 国产亚洲精品久久久久5区| 五月天丁香电影| 国产成人欧美在线观看 | 亚洲一卡2卡3卡4卡5卡精品中文| 欧美黑人精品巨大| 一本久久精品| 精品久久蜜臀av无| 国产精品一区二区在线观看99| 欧美老熟妇乱子伦牲交| 好男人电影高清在线观看| av天堂在线播放| 亚洲专区中文字幕在线| 久久久久久免费高清国产稀缺| 激情视频va一区二区三区| 少妇 在线观看| 欧美日韩亚洲高清精品| 一级黄色大片毛片| 亚洲欧美日韩另类电影网站| 精品高清国产在线一区| 久久久久久久精品精品| 2018国产大陆天天弄谢| 午夜老司机福利片| 日本午夜av视频| 日韩伦理黄色片| 天天躁夜夜躁狠狠久久av| 人体艺术视频欧美日本| 人妻一区二区av| 亚洲精品一二三| 精品国产一区二区三区四区第35| 每晚都被弄得嗷嗷叫到高潮| 亚洲三区欧美一区| 亚洲三区欧美一区| 欧美精品亚洲一区二区| 亚洲一区中文字幕在线| a 毛片基地| 欧美 日韩 精品 国产| 黄色 视频免费看| 美女视频免费永久观看网站| 97精品久久久久久久久久精品| 亚洲欧美激情在线| 老司机靠b影院| 中文字幕亚洲精品专区| 丝瓜视频免费看黄片| 欧美日韩亚洲高清精品| 久久久久视频综合| 日韩制服骚丝袜av| 欧美国产精品一级二级三级| 免费一级毛片在线播放高清视频 | 亚洲美女黄色视频免费看| 久久九九热精品免费| 日韩一卡2卡3卡4卡2021年| 日本猛色少妇xxxxx猛交久久| 各种免费的搞黄视频| 国产亚洲欧美精品永久| 爱豆传媒免费全集在线观看| 国产精品三级大全| 午夜免费鲁丝| 久久久久精品国产欧美久久久 | 亚洲,欧美精品.| 国产精品一区二区在线观看99| 国产精品 国内视频| 1024视频免费在线观看| 亚洲色图 男人天堂 中文字幕| 女性生殖器流出的白浆| 久久精品人人爽人人爽视色| 交换朋友夫妻互换小说| 亚洲激情五月婷婷啪啪| 日本av免费视频播放| 丝袜人妻中文字幕| 最新的欧美精品一区二区| 亚洲av国产av综合av卡| 成人国语在线视频| 国产亚洲午夜精品一区二区久久| 9191精品国产免费久久| 久热爱精品视频在线9| 丝袜脚勾引网站| 欧美+亚洲+日韩+国产| 午夜免费成人在线视频| 国产精品香港三级国产av潘金莲 | 成人手机av| 91麻豆av在线| xxxhd国产人妻xxx| 国产成人免费无遮挡视频| 在线观看免费高清a一片| 久久国产亚洲av麻豆专区| 丁香六月欧美| 国产精品熟女久久久久浪| 麻豆乱淫一区二区| 热re99久久精品国产66热6| 三上悠亚av全集在线观看| 美女中出高潮动态图| 午夜福利乱码中文字幕| kizo精华| 亚洲,欧美,日韩| 成人亚洲欧美一区二区av| 黄频高清免费视频| 欧美人与性动交α欧美精品济南到| 麻豆国产av国片精品| 99热网站在线观看| 国产精品三级大全| 精品少妇内射三级| 国产精品一区二区精品视频观看| 麻豆乱淫一区二区| 中文字幕亚洲精品专区| 久久久久久久大尺度免费视频| 久久精品国产a三级三级三级| 美女中出高潮动态图| 成人午夜精彩视频在线观看| 亚洲成人国产一区在线观看 | 成人国语在线视频| 免费av中文字幕在线| 男女高潮啪啪啪动态图| 多毛熟女@视频| 高清不卡的av网站| 亚洲精品成人av观看孕妇| 中文字幕制服av| 亚洲第一av免费看| 日韩精品免费视频一区二区三区| 九草在线视频观看| 美女脱内裤让男人舔精品视频| 亚洲精品自拍成人| 美女脱内裤让男人舔精品视频| 性高湖久久久久久久久免费观看| 国产有黄有色有爽视频| 亚洲精品久久久久久婷婷小说| 爱豆传媒免费全集在线观看| 精品第一国产精品| 午夜福利视频精品| 黄色视频在线播放观看不卡| 嫩草影视91久久| 深夜精品福利| 亚洲,欧美,日韩| 夫妻性生交免费视频一级片| 狠狠婷婷综合久久久久久88av| 国产黄色免费在线视频| e午夜精品久久久久久久| 国产精品一区二区在线不卡| 夜夜骑夜夜射夜夜干| 飞空精品影院首页| 午夜免费成人在线视频| 精品人妻在线不人妻| 美女中出高潮动态图| 亚洲av日韩精品久久久久久密 | 久久女婷五月综合色啪小说| 亚洲国产欧美一区二区综合| 亚洲欧洲国产日韩| 国产精品三级大全| 2021少妇久久久久久久久久久| 悠悠久久av| tube8黄色片| 黄片小视频在线播放| 亚洲精品美女久久久久99蜜臀 | 亚洲情色 制服丝袜| 精品久久久精品久久久| 亚洲精品第二区| 久久人人97超碰香蕉20202| 久久天堂一区二区三区四区| 黑丝袜美女国产一区| 色精品久久人妻99蜜桃| 亚洲欧美成人综合另类久久久| 午夜久久久在线观看| 亚洲国产最新在线播放| 老汉色∧v一级毛片| tube8黄色片| 老汉色av国产亚洲站长工具| 久久中文字幕一级| 如日韩欧美国产精品一区二区三区| 久久久久久亚洲精品国产蜜桃av| 国产高清videossex| 亚洲欧美日韩高清在线视频 | 精品视频人人做人人爽| 欧美黑人欧美精品刺激| 永久免费av网站大全| 黄色片一级片一级黄色片| 亚洲国产中文字幕在线视频| 久久精品国产综合久久久| 欧美成人午夜精品| 国产野战对白在线观看| 国产淫语在线视频| 午夜福利在线免费观看网站| 制服诱惑二区| xxx大片免费视频| 国产99久久九九免费精品| 日韩 亚洲 欧美在线| 亚洲 国产 在线| 国产精品香港三级国产av潘金莲 | 久热这里只有精品99| 91字幕亚洲| 丰满饥渴人妻一区二区三| 中文字幕亚洲精品专区| 超碰97精品在线观看| 99热全是精品| 久久久久国产精品人妻一区二区| 天天躁日日躁夜夜躁夜夜| 少妇猛男粗大的猛烈进出视频| 中国国产av一级| av又黄又爽大尺度在线免费看| 国产极品粉嫩免费观看在线| 日韩一卡2卡3卡4卡2021年| av又黄又爽大尺度在线免费看| 国产97色在线日韩免费| 欧美黄色淫秽网站| 日本色播在线视频| 一级,二级,三级黄色视频| 大话2 男鬼变身卡| 成在线人永久免费视频| 精品国产一区二区三区久久久樱花| 91精品三级在线观看| 国产免费福利视频在线观看| 久久久久久亚洲精品国产蜜桃av| 9色porny在线观看| 欧美人与性动交α欧美软件| 亚洲精品第二区| 久久精品aⅴ一区二区三区四区| 色94色欧美一区二区| 久久精品亚洲av国产电影网| 美女扒开内裤让男人捅视频| 啦啦啦中文免费视频观看日本| 一级a爱视频在线免费观看| 搡老岳熟女国产| 你懂的网址亚洲精品在线观看| xxx大片免费视频| 免费在线观看视频国产中文字幕亚洲 | 麻豆av在线久日| 99香蕉大伊视频| 国产一区二区 视频在线| 亚洲欧美精品综合一区二区三区| 国产亚洲精品第一综合不卡| 亚洲国产日韩一区二区| 中文字幕另类日韩欧美亚洲嫩草| 亚洲欧洲国产日韩| 久久99热这里只频精品6学生| 韩国高清视频一区二区三区| av在线app专区| 久久久国产精品麻豆| 欧美成狂野欧美在线观看| 国产亚洲午夜精品一区二区久久| 老司机深夜福利视频在线观看 | 欧美 亚洲 国产 日韩一| 国产又爽黄色视频| 久久久久久久久久久久大奶| 国产一区二区 视频在线| 欧美日韩黄片免| 久久国产精品大桥未久av| 国产精品一区二区免费欧美 | 亚洲精品av麻豆狂野| 欧美成人午夜精品| 亚洲成人国产一区在线观看 | 欧美性长视频在线观看| 精品人妻一区二区三区麻豆| 亚洲九九香蕉| 91麻豆av在线| 亚洲国产精品成人久久小说| 亚洲第一av免费看| 欧美激情高清一区二区三区| 国产精品秋霞免费鲁丝片| 黄色怎么调成土黄色| 国产精品久久久久久精品古装| 亚洲国产看品久久| 男的添女的下面高潮视频| 啦啦啦在线观看免费高清www| 五月天丁香电影| 久久亚洲精品不卡| 久久免费观看电影| 国产男女内射视频| 五月天丁香电影| 91成人精品电影| 老司机影院毛片| 婷婷色综合大香蕉| 欧美精品av麻豆av| 手机成人av网站| 日本91视频免费播放| 黄频高清免费视频| 成人国语在线视频| 夜夜骑夜夜射夜夜干| 丁香六月天网| 免费女性裸体啪啪无遮挡网站| 久久久久视频综合| 我要看黄色一级片免费的| 自线自在国产av| 99国产综合亚洲精品| 婷婷丁香在线五月| 久久久久国产精品人妻一区二区| 精品人妻在线不人妻| 日韩人妻精品一区2区三区| 亚洲精品国产色婷婷电影| 欧美精品亚洲一区二区| 少妇精品久久久久久久| 熟女av电影| 男女之事视频高清在线观看 | 国产一区亚洲一区在线观看| 精品久久久精品久久久| 国产成人系列免费观看| 日本av免费视频播放| 午夜日韩欧美国产| 新久久久久国产一级毛片| 精品免费久久久久久久清纯 | 操美女的视频在线观看| 欧美乱码精品一区二区三区| 日本欧美视频一区| 精品福利永久在线观看| 男女边吃奶边做爰视频| 午夜两性在线视频| 91麻豆精品激情在线观看国产 | 国产精品久久久久成人av| 精品视频人人做人人爽| 青草久久国产| 色播在线永久视频| 国产一区有黄有色的免费视频| 亚洲黑人精品在线| 两个人看的免费小视频| 亚洲国产精品国产精品| 国产免费福利视频在线观看| 男女国产视频网站| 日韩一区二区三区影片| 熟女av电影| 日本av免费视频播放| 色播在线永久视频| 久久亚洲精品不卡| 汤姆久久久久久久影院中文字幕| av在线播放精品| 国产精品麻豆人妻色哟哟久久| 国产亚洲精品久久久久5区| 欧美日韩亚洲国产一区二区在线观看 | 美女高潮到喷水免费观看| 精品国产一区二区久久| 男人爽女人下面视频在线观看| 在线观看免费视频网站a站| 日韩精品免费视频一区二区三区| 久久中文字幕一级| 女人精品久久久久毛片| 三上悠亚av全集在线观看| 黑丝袜美女国产一区| 国产亚洲午夜精品一区二区久久| 免费在线观看影片大全网站 | 久久国产精品大桥未久av| 婷婷丁香在线五月| 丝瓜视频免费看黄片| 国产免费福利视频在线观看| 亚洲情色 制服丝袜| 国产亚洲精品第一综合不卡| 精品福利永久在线观看| 天堂8中文在线网| 美女午夜性视频免费| 国产精品一国产av| 精品高清国产在线一区| 国产亚洲av片在线观看秒播厂| 久久久久国产一级毛片高清牌| 狂野欧美激情性xxxx| 国产成人欧美| 久久九九热精品免费| 黄色视频在线播放观看不卡| 老司机影院毛片| 亚洲情色 制服丝袜| 男人添女人高潮全过程视频| 波多野结衣一区麻豆| 下体分泌物呈黄色| 80岁老熟妇乱子伦牲交| 又大又黄又爽视频免费| 亚洲熟女毛片儿| 欧美xxⅹ黑人| 久久综合国产亚洲精品| 新久久久久国产一级毛片| 超色免费av| 水蜜桃什么品种好| 久久精品国产亚洲av高清一级| 美国免费a级毛片| 岛国毛片在线播放| 精品一区二区三区av网在线观看 | 天天添夜夜摸| av一本久久久久| 午夜福利视频在线观看免费| 精品国产乱码久久久久久小说| 国产无遮挡羞羞视频在线观看| 亚洲国产欧美一区二区综合| 国产av国产精品国产| 久久久欧美国产精品| 高清av免费在线| 97在线人人人人妻| 亚洲精品日韩在线中文字幕| 午夜91福利影院| 欧美黄色片欧美黄色片| 成人国产av品久久久| 国产真人三级小视频在线观看| 亚洲av国产av综合av卡| 色播在线永久视频| 蜜桃在线观看..| 最新在线观看一区二区三区 | 80岁老熟妇乱子伦牲交| 七月丁香在线播放| 久久精品久久久久久久性| cao死你这个sao货| 91精品伊人久久大香线蕉| 两个人免费观看高清视频| 久久久久视频综合| 亚洲精品国产区一区二| 国产成人影院久久av| 五月天丁香电影| 免费观看人在逋| 美国免费a级毛片| 51午夜福利影视在线观看| 日本欧美国产在线视频| 少妇裸体淫交视频免费看高清 | 中文字幕精品免费在线观看视频| 91精品三级在线观看| 777米奇影视久久| 久久精品国产a三级三级三级| 久久精品久久久久久噜噜老黄| 在线观看www视频免费| 亚洲欧美精品自产自拍| 黑人欧美特级aaaaaa片| 在线观看免费视频网站a站| 一级片'在线观看视频| 久久精品国产a三级三级三级| 久9热在线精品视频| 国产黄色视频一区二区在线观看| 国产精品一区二区在线观看99| 免费av中文字幕在线| 丝袜喷水一区| 老司机午夜十八禁免费视频| 晚上一个人看的免费电影| 成年人黄色毛片网站| 韩国高清视频一区二区三区| 天天操日日干夜夜撸| 91九色精品人成在线观看| 亚洲精品美女久久久久99蜜臀 | 女人被躁到高潮嗷嗷叫费观| 免费看十八禁软件| 亚洲欧美中文字幕日韩二区| 久久人妻熟女aⅴ| 中文字幕高清在线视频| 亚洲,欧美精品.| 国产精品 欧美亚洲| 精品人妻1区二区| 香蕉国产在线看| 一边摸一边抽搐一进一出视频| 国产又色又爽无遮挡免| 大码成人一级视频| 男女午夜视频在线观看| 中文字幕人妻熟女乱码| 日韩中文字幕欧美一区二区 | 丰满迷人的少妇在线观看| 久久精品aⅴ一区二区三区四区| 亚洲免费av在线视频| 热re99久久精品国产66热6| 香蕉国产在线看| 亚洲精品中文字幕在线视频| 婷婷色综合大香蕉| 嫩草影视91久久| 又大又黄又爽视频免费| 国产精品国产三级国产专区5o| 最近最新中文字幕大全免费视频 | 国产91精品成人一区二区三区 | 日韩视频在线欧美| 亚洲人成电影免费在线| 久久久精品区二区三区| 视频在线观看一区二区三区| 亚洲国产欧美网| 久久久国产精品麻豆| 脱女人内裤的视频| 国产精品二区激情视频| 久久午夜综合久久蜜桃| 人妻 亚洲 视频| 欧美日韩亚洲国产一区二区在线观看 | 精品一品国产午夜福利视频| 狂野欧美激情性xxxx| 少妇精品久久久久久久| 久久久久视频综合| 亚洲欧美色中文字幕在线| 国产极品粉嫩免费观看在线| 久久久久久人人人人人| 久久99精品国语久久久| 久热爱精品视频在线9| 母亲3免费完整高清在线观看| 99国产精品一区二区三区| 精品国产乱码久久久久久男人| 午夜91福利影院| 亚洲成色77777| 亚洲精品国产av成人精品| 色94色欧美一区二区| 国产99久久九九免费精品| 久久久久精品人妻al黑| 色视频在线一区二区三区| 免费在线观看完整版高清| 91老司机精品| 99re6热这里在线精品视频| 久久国产亚洲av麻豆专区| 性高湖久久久久久久久免费观看| 亚洲 欧美一区二区三区| 亚洲国产日韩一区二区| 免费在线观看日本一区| 国产成人一区二区在线| 亚洲欧洲精品一区二区精品久久久| 另类亚洲欧美激情| 久久人人爽av亚洲精品天堂| 亚洲国产精品999| 国产成人免费无遮挡视频| 90打野战视频偷拍视频| 精品少妇内射三级| 香蕉丝袜av| 亚洲欧美中文字幕日韩二区| 亚洲精品自拍成人| 久久精品久久久久久久性| 亚洲色图 男人天堂 中文字幕| 热re99久久精品国产66热6| 麻豆国产av国片精品| 国产爽快片一区二区三区| 9色porny在线观看| 精品亚洲成a人片在线观看| 日韩中文字幕视频在线看片| 日本91视频免费播放|