王艷秋 管浩言 張彤
摘? 要:近年來,人工智能和大數(shù)據(jù)技術(shù)的發(fā)展極大地推動(dòng)了聊天機(jī)器人產(chǎn)業(yè)的發(fā)展。如今,聊天機(jī)器人種類眾多,但質(zhì)量參差不齊,對(duì)其進(jìn)行評(píng)估成為當(dāng)下的重要問題之一。本文首先通過功能和技術(shù)實(shí)現(xiàn)方式方面的分析,對(duì)當(dāng)前的聊天機(jī)器人進(jìn)行了歸納分類。然后從多方面對(duì)聊天機(jī)器人的評(píng)估方式進(jìn)行了系統(tǒng)的整理與總結(jié),并詳細(xì)介紹分析了其中各種評(píng)估指標(biāo)。最后探討了當(dāng)前聊天機(jī)器人的研究難點(diǎn)與評(píng)估難點(diǎn),并在此基礎(chǔ)上對(duì)聊天機(jī)器人未來的研究發(fā)展方向進(jìn)行了展望。
關(guān)鍵詞:聊天機(jī)器人;分類標(biāo)準(zhǔn);評(píng)估標(biāo)準(zhǔn)
Abstract: In recent years, the development of artificial intelligence and big data technology has greatly promoted chatbot industry. Currently, there are many types of chatbots, but the quality is uneven, and the evaluation criteria are becoming an important issue. This paper first summarizes and categorizes the current chatbots technology based on their functions and technical implementation methods. Then, it systematically proposes an evaluation approach for chatbots quality via different aspects, and introduces various evaluation indicators in detail. Finally, current research issues and evaluation difficulties of chatbots are discussed, and on this basis, future research and development directions of chatbots are prospected.
Keywords: chatbot; classification criteria; evaluation criteria
1? ?引言(Introduction)
隨著人工智能和大數(shù)據(jù)技術(shù)的發(fā)展,聊天機(jī)器人已經(jīng)不再是個(gè)新鮮的詞匯,并且早已慢慢滲入人們的日常生活中,如蘋果的Siri、阿里巴巴的阿里小蜜、百度的小度、微軟的Cortana和小冰、亞馬孫的Alexa、IBM的Watson等。這些聊天機(jī)器人應(yīng)用于不同場(chǎng)景,有著不同的定位與功能,但其中都使用了自然語(yǔ)言處理(Natural Language Processing,NLP)相關(guān)技術(shù),使機(jī)器人能夠使用文本或語(yǔ)音與人類進(jìn)行對(duì)話。如今的聊天機(jī)器人并不完善,時(shí)常會(huì)出現(xiàn)答非所問、語(yǔ)句不通順等問題,因此聊天機(jī)器人需要能夠反映其真實(shí)智能水平的評(píng)估標(biāo)準(zhǔn)來促進(jìn)其優(yōu)化改進(jìn)。本文針對(duì)不同功能與技術(shù)實(shí)現(xiàn)方式對(duì)聊天機(jī)器人進(jìn)行了分類,同時(shí)對(duì)現(xiàn)有的所有聊天機(jī)器人評(píng)價(jià)指標(biāo)進(jìn)行了分析、分類與總結(jié),并指出了當(dāng)下聊天機(jī)器人發(fā)展的困境以及未來的發(fā)展方向。
2? ?聊天機(jī)器人分類(Chatbot taxonomy)
2.1? ?任務(wù)導(dǎo)向型與閑聊型
根據(jù)功能的不同,可分為任務(wù)導(dǎo)向型聊天機(jī)器人和閑聊型聊天機(jī)器人。任務(wù)導(dǎo)向型聊天機(jī)器人是指以任務(wù)驅(qū)動(dòng)來完成多輪對(duì)話的對(duì)話系統(tǒng),通常針對(duì)封閉專業(yè)領(lǐng)域知識(shí),機(jī)器人需要在對(duì)話過程中理解、澄清并生成對(duì)話,其構(gòu)建方式主要為Pipeline和End-to-end。Pipeline的構(gòu)建采用模塊化結(jié)構(gòu),包含四個(gè)主要模塊:自然語(yǔ)言理解(Natural Language Understanding,NLU)、對(duì)話狀態(tài)追蹤(Dialogue State Tracking,DST)、對(duì)話策略學(xué)習(xí)(Dialogue Policy Learning,DPL)、自然語(yǔ)言生成(Natural Language Generation,NLG)。這種構(gòu)建方式容易實(shí)現(xiàn),可解釋性強(qiáng),但模塊之間誤差會(huì)逐層積累,又因各模塊之間相互獨(dú)立導(dǎo)致無法聯(lián)合調(diào)優(yōu)。End-to-end即基于深度學(xué)習(xí)的端到端系統(tǒng),使用大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)深度學(xué)習(xí)模型,用戶從輸入端輸入語(yǔ)句便可從輸出端得到相應(yīng)回復(fù)。這種方法可擴(kuò)展性強(qiáng),但需要大量且高質(zhì)量的標(biāo)注數(shù)據(jù),目前仍處于探索階段。閑聊型聊天機(jī)器人主要與用戶進(jìn)行面向開放域的閑聊,目標(biāo)是與用戶進(jìn)行有意義的自然多輪對(duì)話。相比于任務(wù)導(dǎo)向型聊天機(jī)器人,閑聊型聊天機(jī)器人涉及的領(lǐng)域范圍更大,用戶意圖更模糊難識(shí)別,因此要求更高,實(shí)現(xiàn)更難。
2.2? ?檢索式與生成式
聊天機(jī)器人需要對(duì)用戶的輸入做出自然的語(yǔ)言回復(fù),這涉及自然語(yǔ)言生成技術(shù)。根據(jù)對(duì)話生成的不同技術(shù),可將聊天機(jī)器人分為檢索式與生成式兩種[1]。檢索式模型基于現(xiàn)成的數(shù)據(jù)庫(kù)進(jìn)行基于規(guī)則的模式匹配,或應(yīng)用較為復(fù)雜的深度學(xué)習(xí)算法進(jìn)行模式匹配,但并不生成全新的回復(fù)。因此檢索式模型產(chǎn)生的回復(fù)具有流暢自然、信息量豐富的優(yōu)點(diǎn),但同時(shí)也具有無法進(jìn)行上下文關(guān)聯(lián)的不足[2]。最早出現(xiàn)的模擬心理醫(yī)生的聊天機(jī)器人ELIZA便是完全基于規(guī)則手工建立的,雖然能夠生成較好的回復(fù),但構(gòu)建過程過于煩瑣,耗費(fèi)了大量人力。生成式模型則會(huì)產(chǎn)生全新的語(yǔ)句回復(fù),通過將大量人類真實(shí)語(yǔ)料輸入深度學(xué)習(xí)模型中進(jìn)行特征提取與特征學(xué)習(xí),再使用模型對(duì)用戶的輸入做出回復(fù)。生成式模型會(huì)有記憶功能,即可利用歷史對(duì)話信息形成對(duì)話的上下文關(guān)聯(lián),但生成的回復(fù)可能會(huì)有不符合語(yǔ)法規(guī)則、語(yǔ)句不通順、逃避復(fù)雜問題進(jìn)行無意義回復(fù)等情況出現(xiàn)。目前生成效果較好的模型有微軟DialoGPT、谷歌Meena、Facebook Blender、百度PLATO & PLATO-2等,這些均使用了超大規(guī)模文本數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型參數(shù)都在億量級(jí)。
3? ?評(píng)價(jià)指標(biāo)分類(Evaluation index taxonomy)
聊天機(jī)器人評(píng)價(jià)通常是指對(duì)機(jī)器人對(duì)話回復(fù)質(zhì)量的評(píng)估,但也有聊天機(jī)器人能夠識(shí)別用戶發(fā)出的圖片并進(jìn)行回復(fù)與評(píng)論,這時(shí)則涉及圖像描述生成的相關(guān)評(píng)估。此外,對(duì)于一些產(chǎn)品化的任務(wù)導(dǎo)向型聊天機(jī)器人,也需要進(jìn)行一些產(chǎn)品層面的評(píng)估。本文分別對(duì)這幾類聊天機(jī)器人的評(píng)價(jià)指標(biāo)進(jìn)行了總結(jié),圖1是所有評(píng)價(jià)指標(biāo)的分類圖。下文將對(duì)所有評(píng)價(jià)指標(biāo)進(jìn)行詳細(xì)介紹。
3.1? ?對(duì)話評(píng)估
3.1.1? ?人工評(píng)價(jià)
人工評(píng)價(jià)是目前最準(zhǔn)確、最有效地對(duì)話質(zhì)量評(píng)價(jià)指標(biāo),但存在耗費(fèi)人力、耗時(shí)長(zhǎng)的問題,主要包含成對(duì)對(duì)比和李克特量表評(píng)價(jià)兩種評(píng)價(jià)方式。
成對(duì)對(duì)比:即對(duì)兩個(gè)系統(tǒng)產(chǎn)生的回復(fù)就不同的側(cè)重點(diǎn)進(jìn)行人工評(píng)價(jià),如圖2所示的ACUTE-EVAL評(píng)估界面,它要求人們比較兩個(gè)多輪對(duì)話,在對(duì)話1(淺藍(lán)色)和對(duì)話2(深藍(lán)色)之間進(jìn)行選擇。同樣還有基于單輪對(duì)話的成對(duì)對(duì)比評(píng)估。
李克特量表:在聊天機(jī)器人的人工評(píng)價(jià)中,李克特量表指的是李克特量表形式的人工評(píng)分,評(píng)分可設(shè)置為3、5、7等級(jí),如對(duì)聊天機(jī)器人的回復(fù)是否連貫進(jìn)行5等級(jí)評(píng)分,將分?jǐn)?shù)范圍設(shè)置為[0,1,2,3,4],再由人工針對(duì)回復(fù)的連貫性在分?jǐn)?shù)范圍內(nèi)選擇合適的分?jǐn)?shù)進(jìn)行評(píng)價(jià)??梢葬槍?duì)對(duì)話質(zhì)量的多方面進(jìn)行評(píng)價(jià),如對(duì)話的信息量(Informativeness)、連貫性(Coherence)、新穎性(Engagingness)、人性(Humanness)等。還有一種谷歌在其Meena聊天機(jī)器人中提出的評(píng)價(jià)指標(biāo)SSA(Sensibleness and Specificity Average),指的是敏感性和特異性平均值。特異性表示是否是針對(duì)上句對(duì)話的特定的具體的回答,敏感性表示聊天機(jī)器人的對(duì)話是否有意義。單純以敏感性作為唯一指標(biāo),會(huì)導(dǎo)致回答趨向模糊無聊的安全回答,因此將敏感性與特異性結(jié)合來進(jìn)行綜合評(píng)價(jià)更能體現(xiàn)回復(fù)的質(zhì)量。實(shí)驗(yàn)顯示,SSA與自動(dòng)評(píng)價(jià)指標(biāo)困惑度成正相關(guān)關(guān)系。
盡管人們一直在探索能夠代替人工評(píng)價(jià)的自動(dòng)評(píng)價(jià)方法,但至今沒有自動(dòng)評(píng)價(jià)方法能夠代替人工評(píng)價(jià),人工評(píng)價(jià)仍是所有聊天機(jī)器人都必須進(jìn)行的評(píng)價(jià)。人工評(píng)價(jià)盡管必不可少,但也有一些弊端,例如不同模型的評(píng)價(jià)者背景條件、人群規(guī)模往往不盡相同,在不同模型之間很難做到完全客觀的對(duì)比評(píng)價(jià)。
3.1.2? ?自動(dòng)評(píng)價(jià)
自動(dòng)評(píng)價(jià)可以分為兩部分:一部分不需要參考回復(fù)即可進(jìn)行評(píng)價(jià),其中包含針對(duì)檢索式模型和生成式模型的評(píng)價(jià)指標(biāo);另一部分是需要參考回復(fù)的評(píng)價(jià)指標(biāo),且基本都是針對(duì)生成式模型所生成對(duì)話的質(zhì)量的評(píng)價(jià)。而根據(jù)評(píng)價(jià)原理又可分為基于詞重疊、基于詞向量以及基于深度學(xué)習(xí)的各種評(píng)價(jià)指標(biāo)。
(1)不需要參考回復(fù)——檢索式模型
檢索式聊天機(jī)器人的關(guān)鍵點(diǎn)在于匹配答案時(shí)候選回復(fù)的排列順序,所以其評(píng)價(jià)指標(biāo)一般使用傳統(tǒng)信息檢索系統(tǒng)常用的評(píng)價(jià)指標(biāo)。
召回率(Recall):又稱查全率,指檢索出的相關(guān)回復(fù)占所有相關(guān)回復(fù)總數(shù)的比例,表示是否查全。
準(zhǔn)確率(Precision):又稱查準(zhǔn)率,指檢索出的相關(guān)回復(fù)占所有檢索出的回復(fù)總數(shù)的比例,表示是否查準(zhǔn)。
F值(F-measure):指召回率和準(zhǔn)確率的調(diào)和平均值,它綜合了兩者的評(píng)價(jià)效果。
平均準(zhǔn)確率均值(Mean Average Precision,MAP):平均準(zhǔn)確率(Average Precision,AP)將準(zhǔn)確率與候選回復(fù)的排列順序相結(jié)合,如公式(3)所示,其中i指第i個(gè)候選回復(fù);s表示第i個(gè)回復(fù)的位置,指的是一個(gè)查詢中檢索出的相關(guān)回復(fù)的P@K的平均值。MAP則是對(duì)所有查詢的平均準(zhǔn)確率再求均值,其值越高說明檢索出的相關(guān)回復(fù)排列順序越靠前。
(2)不需要參考回復(fù)——生成式模型
生成式模型主要評(píng)價(jià)的是生成回復(fù)的質(zhì)量,其評(píng)價(jià)一方面聚焦于回復(fù)本身的信息量和生成概率,另一方面則由用戶與其交互的時(shí)間來側(cè)面反映。
熵(Entropy):指的是回復(fù)中N-gram包含的信息量,用來衡量回復(fù)多樣性[4]。
困惑度(Perplexity):語(yǔ)言模型的標(biāo)準(zhǔn)度量指標(biāo)[5],可用來評(píng)價(jià)對(duì)話模型中回復(fù)的生成質(zhì)量,一定程度上可體現(xiàn)多樣性,是目前常用的聊天機(jī)器人回復(fù)質(zhì)量評(píng)價(jià)指標(biāo)。語(yǔ)言模型實(shí)際上是計(jì)算語(yǔ)句概率的模型,概率值越高,語(yǔ)言模型越好,困惑度越小。
平均長(zhǎng)度(Average Length):指的是生成回復(fù)的平均長(zhǎng)度,普遍認(rèn)為生成長(zhǎng)句子的對(duì)話生成模型相對(duì)質(zhì)量更高。
單次平均對(duì)話輪數(shù)(Conversation-turns Per Session,CPS):指的是聊天機(jī)器人和用戶之間的每次對(duì)話中所含對(duì)話輪數(shù)的平均值[7]。一般用來對(duì)閑聊型聊天機(jī)器人進(jìn)行評(píng)價(jià),CPS越大,說明聊天機(jī)器人的社交參與程度越高。
對(duì)話時(shí)間:指用戶與聊天機(jī)器人的對(duì)話所持續(xù)的時(shí)間。
(3)需要參考回復(fù)——基于詞重疊
基于詞語(yǔ)重疊的評(píng)價(jià)方法需要有參考回復(fù),主要是根據(jù)參考回復(fù)與生成回復(fù)之間詞語(yǔ)的重疊程度來進(jìn)行度量。
BLEU:全稱為BiLingual Evaluation Understudy[8],最早用于機(jī)器翻譯任務(wù),評(píng)價(jià)前提是需要語(yǔ)料庫(kù)中有高質(zhì)量的參考回復(fù),核心思想是比較生成回復(fù)文本和參考回復(fù)文本中N-gram的重合程度,重合程度越高則認(rèn)為文本質(zhì)量越高。N一般取1—4,然后進(jìn)行加權(quán)平均,時(shí)用于衡量單詞翻譯的準(zhǔn)確性,時(shí)用于衡量句子的流暢性。隨后優(yōu)化改進(jìn)出了多種新的評(píng)價(jià)指標(biāo)。雖然近年來BLEU被證明與人工判斷的相關(guān)性不高[9],但目前仍然是聊天機(jī)器人評(píng)估常用的指標(biāo)。
NIST:全稱是National Institute of Standards and Technology[10],改進(jìn)自BLEU方法,引入了每個(gè)N-gram的信息量的概念,定義見公式(7)。公式中分母表示N-gram在參考回復(fù)中出現(xiàn)的次數(shù),分子表示對(duì)應(yīng)的(N-1)-gram在參考回復(fù)中出現(xiàn)的次數(shù),當(dāng)時(shí),分子取值為整個(gè)參考回復(fù)的長(zhǎng)度。由此,將一些出現(xiàn)較少的重點(diǎn)詞的權(quán)重增大。
ROUGE:全稱是Recall-Oriented Understudy for Gisting Evaluation,改進(jìn)自BLEU方法,不同于BLEU,它專注于衡量N-gram的召回率,而不是準(zhǔn)確率。通常使用的有ROUGE-N[11]和ROUGE-L[12]。ROUGE-N通過統(tǒng)計(jì)參考回復(fù)中N-gram的個(gè)數(shù)與參考回復(fù)和生成回復(fù)中共有的N-gram個(gè)數(shù)來計(jì)算召回率。
METEOR:全稱為Metric for Evaluation of Translation with Explicit ORdering[13],該指標(biāo)同時(shí)考慮了準(zhǔn)確率和召回率,其中召回率的權(quán)重更高。將生成回復(fù)與參考回復(fù)之間的Uni-grams通過簡(jiǎn)單的映射進(jìn)行對(duì)齊,可進(jìn)行詞干提取和精確的單詞匹配,從而計(jì)算得到特定的匹配關(guān)系,與人類判斷有較好的相關(guān)性。
(4)需要參考回復(fù)——基于詞向量
不同于基于詞重疊(即利用N-gram計(jì)算生成回復(fù)和參考回復(fù)之間的重合程度)的方式,基于詞向量的評(píng)價(jià)方式則是利用Word2Vec、Sent2Vec等方法把回復(fù)表示為句向量,再通過余弦相似性等方法計(jì)算生成回復(fù)與參考回復(fù)之間的相似程度。
貪婪匹配(Greedy Matching):本質(zhì)是計(jì)算兩個(gè)語(yǔ)句的相似性。該方法分別將生成回復(fù)和參考回復(fù)中的每個(gè)詞轉(zhuǎn)換為詞向量,然后對(duì)參考回復(fù)中每個(gè)詞向量,計(jì)算其在生成回復(fù)中與每個(gè)詞向量的余弦相似度,取最高的余弦相似度將其相加并求平均,最后再對(duì)生成回復(fù)進(jìn)行相同流程的計(jì)算,取兩者平均值。
平均匹配(Embedding Average):使用句向量計(jì)算生成回復(fù)和參考回復(fù)的余弦相似度。句向量由語(yǔ)句中每個(gè)詞向量相加再取平均值得到。
向量極值(Vector Extrema):同樣基于句向量計(jì)算兩個(gè)語(yǔ)句的相似性,但句向量由詞向量每個(gè)維度中極值最大的一維構(gòu)成,然后再計(jì)算余弦相似度。這種方法可以忽略語(yǔ)句中的常見表達(dá),保留特殊的重要語(yǔ)義詞語(yǔ)[14]。
(5)需要參考回復(fù)——基于深度學(xué)習(xí)
近幾年,深度學(xué)習(xí)快速發(fā)展,針對(duì)基于深度學(xué)習(xí)進(jìn)行生成回復(fù)評(píng)價(jià)的研究也逐漸增多。以下是幾種典型的應(yīng)用深度學(xué)習(xí)進(jìn)行生成回復(fù)評(píng)價(jià)的方法。
ADEM:全稱為Automatic Dialogue Evaluation Model[15],即對(duì)話系統(tǒng)自動(dòng)評(píng)價(jià)模型,它將對(duì)話系統(tǒng)的評(píng)價(jià)問題轉(zhuǎn)換為預(yù)測(cè)回復(fù)語(yǔ)句的人工評(píng)分問題,收集人類對(duì)對(duì)話語(yǔ)料進(jìn)行評(píng)分的數(shù)據(jù)集,訓(xùn)練使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)構(gòu)建自動(dòng)評(píng)價(jià)模型。雖然文章指出這種方法效果要好于BLEU、ROUGE,但后續(xù)研究表明ADEM存在明顯的缺陷,其分配給各種回復(fù)的分值分布在范圍內(nèi),分辨力較低,無法為多個(gè)回復(fù)提供合適的評(píng)分,仍需要改進(jìn)[16]。
RUBER:全稱為Referenced metric and Unreferenced metric Blended Evaluation Routine[17],是一種針對(duì)開放域?qū)υ捪到y(tǒng)的無監(jiān)督自動(dòng)評(píng)估方法,不需要人工評(píng)分?jǐn)?shù)據(jù)。其主要思想是將有參考回復(fù)評(píng)估和無參考回復(fù)評(píng)估以不同的策略結(jié)合起來以提高評(píng)估性能。有參考回復(fù)評(píng)估采用詞向量池化的方法,選擇詞向量每個(gè)維度的最大值和最小值來代表語(yǔ)句,然后計(jì)算余弦相似度;無參考回復(fù)評(píng)估通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來衡量生成回復(fù)和對(duì)應(yīng)查詢之間的匹配程度。實(shí)驗(yàn)表明,RUBER可擴(kuò)展到不同數(shù)據(jù)集中,且與人工評(píng)價(jià)具有一定的相關(guān)性。
GAN-based:生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)通常應(yīng)用于圖像生成任務(wù)中,受其啟發(fā)產(chǎn)生了基于GAN結(jié)構(gòu)的對(duì)話系統(tǒng)評(píng)價(jià)模型,使用生成器生成回復(fù),判別器區(qū)分生成回復(fù)和參考回復(fù)。
BERTScore:一種基于Bert的生成回復(fù)評(píng)估方法[18]。給定一個(gè)參考回復(fù)和生成回復(fù),使用Bert來提取輸入每個(gè)單詞的上下文特征,表示為帶有上下文信息的詞向量,然后使用余弦相似度計(jì)算每?jī)蓚€(gè)詞向量之間的匹配相似度。使用貪婪匹配來最大化匹配相似度得分,選擇性地使用逆文檔頻率分?jǐn)?shù)對(duì)詞向量進(jìn)行重要性加權(quán)。實(shí)驗(yàn)表明,BERTScore取得了比一般指標(biāo)更好的相關(guān)性,并且對(duì)于模型選擇有一定效果,但是沒有一種BERTScore配置明顯優(yōu)于其他所有配置。
3.2? ?圖像描述生成評(píng)估
人們?cè)谏缃涣奶熘薪?jīng)常會(huì)圍繞圖片展開交流和討論,圖片中所體現(xiàn)的事物、事件、氛圍或感情通常是人們討論的主要內(nèi)容。圖像描述生成技術(shù)便是為了能夠自動(dòng)生成能真實(shí)全面地表現(xiàn)圖片中發(fā)生事件以及反映出的感情的描述,運(yùn)用到的技術(shù)實(shí)際上是計(jì)算機(jī)視覺(Computer Vision,CV)和自然語(yǔ)言處理的結(jié)合,通過CV技術(shù)分析圖像內(nèi)容,利用NLP技術(shù)生成相對(duì)應(yīng)的文字來描述圖像中明顯的特征。生成對(duì)話的評(píng)估方法大多數(shù)能直接用于圖像描述生成的評(píng)估,除此以外,CIDEr和SPICE是專門用于圖像描述生成的評(píng)估方式。
CIDEr:全稱是Consensus-based Image Description Evaluation[19],即基于共識(shí)的圖像描述評(píng)估。其主要思想是利用TF-IDF計(jì)算得到生成回復(fù)和參考回復(fù)的不同N-gram的權(quán)重,將在數(shù)據(jù)集中比較常見、包含較小信息量的N-gram權(quán)重調(diào)低,然后計(jì)算生成回復(fù)與參考回復(fù)的余弦相似度,再對(duì)每個(gè)N-gram的相似度加和求平均值,得到最終的CIDEr評(píng)估值。
SPICE:全稱是Semantic Propositional Image Caption Evaluation[20],即語(yǔ)義命題圖像描述評(píng)估。不同于CIDEr利用詞語(yǔ)重疊進(jìn)行評(píng)估,SPICE通過建立場(chǎng)景圖(Scene Graphs)來對(duì)圖像描述中的對(duì)象、屬性和關(guān)系進(jìn)行編碼。首先利用PCFG依賴解析器把要評(píng)估的圖像描述轉(zhuǎn)換為語(yǔ)法依賴樹;然后根據(jù)九種簡(jiǎn)單的語(yǔ)言規(guī)則把生成的語(yǔ)法依賴樹映射到場(chǎng)景圖;再把場(chǎng)景圖中的語(yǔ)義關(guān)系看作對(duì)象、屬性和關(guān)系構(gòu)成的元組,計(jì)算生成回復(fù)和參考回復(fù)的元組之間的F值作為最終的SPICE評(píng)估值。
3.3? ?任務(wù)導(dǎo)向型評(píng)估
任務(wù)導(dǎo)向型聊天機(jī)器人通常應(yīng)用于特定的情景和場(chǎng)所中,面向特定領(lǐng)域,主要是一些為用戶提供信息或任務(wù)導(dǎo)覽等服務(wù)來滿足用戶明確需求的機(jī)器人。目前這類機(jī)器人在訂餐、訂票、訂酒店、商品咨詢、業(yè)務(wù)辦理等方面應(yīng)用較多。雖然任務(wù)導(dǎo)向型聊天機(jī)器人也可以用準(zhǔn)確率、召回率等評(píng)價(jià)對(duì)話質(zhì)量的標(biāo)準(zhǔn)來評(píng)估,但更多地需要從整體來對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)。
任務(wù)成功率:指成功解決用戶問題的對(duì)話所占比例,如票務(wù)系統(tǒng)為用戶成功訂票次數(shù)占全部訂票需求數(shù)量的比例。
單次任務(wù)平均對(duì)話輪數(shù):與前文中的單次平均對(duì)話輪數(shù)(CPS)不同,任務(wù)導(dǎo)向型聊天機(jī)器人講求效率,需要在盡可能少的對(duì)話輪數(shù)內(nèi)解決問題,所以對(duì)話越簡(jiǎn)潔、越明確,越能為用戶提供更好的服務(wù)。
用戶留存:好的產(chǎn)品需要不斷地迭代更新,與此同時(shí),用戶往往是流動(dòng)的。用戶留存率可以讓開發(fā)者更清晰地看到更新前后一段時(shí)間內(nèi)的用戶留存狀態(tài),從而對(duì)產(chǎn)品的優(yōu)化提供反饋。
用戶活躍度:用戶活躍度指的是頻繁使用產(chǎn)品的用戶所占比例,即會(huì)頻繁地使用任務(wù)導(dǎo)向型聊天機(jī)器人進(jìn)行相關(guān)服務(wù)的用戶所占比例,用戶活躍度越高,側(cè)面說明機(jī)器人的任務(wù)完成得越好,越能滿足用戶要求。
4? 研究難點(diǎn)與未來發(fā)展方向(Research difficulties and future development direction)
4.1? ?研究難點(diǎn)
隨著近幾年相關(guān)技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)的逐漸成熟,聊天機(jī)器人技術(shù)也在快速發(fā)展,但仍存在著諸多難點(diǎn)。
(1)對(duì)話技術(shù)依舊不成熟
目前在某些封閉域方面,聊天機(jī)器人可以很好地與用戶進(jìn)行溝通,比如購(gòu)票系統(tǒng)等。但當(dāng)聊天范圍逐漸擴(kuò)大到開放領(lǐng)域,即用戶希望與聊天機(jī)器人閑聊時(shí),聊天機(jī)器人的回答就會(huì)變得粗糙。這就是目前技術(shù)的瓶頸,即如何讓聊天機(jī)器人在與用戶進(jìn)行無特定范圍的開放域聊天時(shí),能做出合理回復(fù)。聊天機(jī)器人需要數(shù)據(jù)集來反復(fù)訓(xùn)練,一旦用戶期望的對(duì)話內(nèi)容沒有在訓(xùn)練數(shù)據(jù)集中體現(xiàn),聊天機(jī)器人就無法給出合理的回答,然后給出“我不知道”等搪塞用戶的敷衍回答。
(2)人類和聊天機(jī)器人對(duì)話的心理問題
恐怖谷理論說明,當(dāng)機(jī)器人的外貌和人類極其相似的時(shí)候,人類會(huì)對(duì)它產(chǎn)生非常強(qiáng)烈的厭惡情緒。在對(duì)話方面,人類也有類似心理,即當(dāng)聊天機(jī)器人的回答內(nèi)容過于真實(shí)或表現(xiàn)出過于透徹的了解時(shí),會(huì)使用戶產(chǎn)生隱私被窺視的感受,用戶可能會(huì)產(chǎn)生厭惡心理。這種現(xiàn)象是十分矛盾的,算法的設(shè)計(jì)需要聊天機(jī)器人的回答內(nèi)容趨向于真實(shí)自然,并且以對(duì)用戶信息的了解為基礎(chǔ)才能生成個(gè)性化對(duì)話內(nèi)容;但是表現(xiàn)得過于真實(shí)與了解就可能使用戶產(chǎn)生反感,甚至出現(xiàn)侵犯隱私問題。
(3)聊天機(jī)器人的個(gè)性選取
對(duì)于同一個(gè)問題,不同的人會(huì)有不同的回答,這取決于每個(gè)人的個(gè)性,聊天機(jī)器人也一樣。目前主流的聊天機(jī)器人個(gè)性設(shè)置都是溫柔、耐心等,但由于暴力、色情等不良內(nèi)容很容易出現(xiàn)在聊天機(jī)器人的訓(xùn)練數(shù)據(jù)集中,導(dǎo)致聊天機(jī)器人的個(gè)性并不能完全被控制。另一方面,某些用戶在與聊天機(jī)器人對(duì)話的過程中可能表現(xiàn)出一些心理問題,聊天機(jī)器人如何疏導(dǎo)用戶,幫助其調(diào)整心態(tài),而不是加重其心理問題是目前技術(shù)暫時(shí)無法突破的難點(diǎn)。
(4)聊天機(jī)器人所需計(jì)算資源較大
深度學(xué)習(xí)讓聊天機(jī)器人的魯棒性有了很大的飛躍,但同時(shí)也帶來了巨大的計(jì)算資源的需求。尤其是現(xiàn)在聊天功能的需求廣泛,網(wǎng)頁(yè)端、移動(dòng)端等沒有太多計(jì)算資源的邊緣設(shè)備,都需要后臺(tái)服務(wù)器輔助計(jì)算。對(duì)此問題,輕量化聊天機(jī)器人的算法、對(duì)算法的蒸餾等,仍需要更多的研究和應(yīng)用。
(5)需要“大規(guī)模”和“有質(zhì)量”的語(yǔ)料庫(kù)
語(yǔ)料庫(kù),即聊天機(jī)器人的訓(xùn)練數(shù)據(jù)集,是機(jī)器人學(xué)習(xí)說話的來源,對(duì)于回答的質(zhì)量非常關(guān)鍵?!按笠?guī)模”指的是語(yǔ)料庫(kù)內(nèi)容要多,涉及方方面面,才能讓機(jī)器人無所不知;“有質(zhì)量”指語(yǔ)料庫(kù)的內(nèi)容要可靠,不能有不良信息,也不能有答非所問的內(nèi)容,這樣的語(yǔ)料庫(kù)才能訓(xùn)練出優(yōu)秀的聊天機(jī)器人。而現(xiàn)實(shí)是,一方面高效獲得語(yǔ)料庫(kù)是一個(gè)難點(diǎn)問題;另一方面即使找到現(xiàn)有的語(yǔ)料庫(kù),目前最多的訓(xùn)練用語(yǔ)料庫(kù)都是以成億計(jì),語(yǔ)料的內(nèi)容也是良莠不齊,高質(zhì)量語(yǔ)料篩選工作也是一個(gè)難點(diǎn)問題。
(6)自動(dòng)評(píng)估與人工評(píng)估相關(guān)性較差
生成回復(fù)的自動(dòng)評(píng)價(jià)一直是聊天機(jī)器人評(píng)估領(lǐng)域探索的重點(diǎn)內(nèi)容,也是難點(diǎn)內(nèi)容。由于自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的相關(guān)性一直不高,尤其是現(xiàn)有的自動(dòng)評(píng)價(jià)方法很多都來源于機(jī)器翻譯等其他領(lǐng)域,對(duì)生成回復(fù)的語(yǔ)義多樣性能否進(jìn)行評(píng)價(jià),以及對(duì)模型的有效性和優(yōu)化反饋能否起到作用等問題一直存在爭(zhēng)議。
4.2? ?發(fā)展方向
未來聊天機(jī)器人的發(fā)展方向?qū)②呄蛴诔墒斓膶?duì)話生成模型訓(xùn)練和模型輕量化。目前聊天機(jī)器人的回答依然存在答非所問等問題,未來的發(fā)展方向必然需要向增強(qiáng)對(duì)話生成的魯棒性和合理性前進(jìn)。另一方面,計(jì)算輕量化的需求也日益增長(zhǎng),即能夠在計(jì)算能力較弱的機(jī)器人中部署需求,這是當(dāng)今聊天機(jī)器人應(yīng)用場(chǎng)景與應(yīng)用設(shè)備日益擴(kuò)張的必然要求。
5? ?結(jié)論(Conclusion)
目前,進(jìn)入市場(chǎng)并產(chǎn)品化的聊天機(jī)器人主要是功能導(dǎo)向型聊天機(jī)器人,產(chǎn)品形式主要是嵌入PC端與手機(jī)端應(yīng)用的問詢功能模塊、實(shí)體化的問詢功能機(jī)器人和智能語(yǔ)音音箱等智能家居。當(dāng)前相關(guān)產(chǎn)業(yè)已經(jīng)較為成熟,產(chǎn)品也逐漸趨同,評(píng)價(jià)精度方面并無較大進(jìn)展。處于研究階段的大規(guī)模開放域的訓(xùn)練模型,訓(xùn)練參數(shù)逐漸增多,模型體量逐漸增大,發(fā)展空間與潛力較大。但這些模型質(zhì)量參差不齊,對(duì)其進(jìn)行有效精準(zhǔn)的評(píng)價(jià)十分重要。本文在實(shí)現(xiàn)功能和實(shí)現(xiàn)技術(shù)兩方面對(duì)聊天機(jī)器人進(jìn)行了分類,從多方面對(duì)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了較為系統(tǒng)的介紹、分析與總結(jié),提出了目前聊天機(jī)器人技術(shù)的研究難點(diǎn)與未來的發(fā)展方向。希望能夠?yàn)槟壳傲奶鞕C(jī)器人的分類和評(píng)價(jià)標(biāo)準(zhǔn)構(gòu)建出一個(gè)較為完整的全局概覽圖,為相關(guān)研究人員提供一定參考和借鑒。
參考文獻(xiàn)(References)
[1] 陳晨,朱晴晴,嚴(yán)睿,等.基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,042(007):1439-1466.
[2] 戴怡琳,劉功申.智能聊天機(jī)器人的技術(shù)綜述[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2018,8(6):918-929.
[3] Li M, Weston J, Roller S. ACUTE-EVAL: Improved dialogue evaluation with optimized questions and multi-turn comparisons[DB/OL]. [2019-09-06]. https://arxiv.org/pdf/1909.03087.pdf.
[4] Zhang Y, Galley M, Gao J, et al. Generating informative and diverse conversational responses via adversarial information maximization[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems, 2018: 1815-1825.
[5] Tevet G, Berant J. Evaluating the evaluation of diversity in natural language generation[DB/OL]. [2020-04-26]. https://arxiv.org/pdf/2004.02990v2.pdf.
[6] Li J, Galley M, Brockett C, et al. A diversity-promoting objective function for neural conversation models[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016:110-119.
[7] Zhou L, Gao J, Li D, et al. The design and implementation of XiaoIce, an empatheic social chatbot[J]. Computational Linguistics, 2020, 46(1):53-93.
[8] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002:311-318.
[9] Liu C W, Lowe R, Serban I V, et al. How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation[DB/OL]. [2017-01-03]. https://arxiv.org/pdf/1603.08023v2.pdf.
[10] Doddington G. Automatic evaluation of machine translation quality using N-gram co-occurence statistics[C]. Proceedings of the second international conference on Human Language Technology Research, 2002:138-145.
[11] Lin C Y, Hovy E. Automatic evaluation of summaries using N-gram co-occurrence statistics[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003:71-78.
[12] Lin C Y, Och F J. Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics[C]. Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL-04), 2004: 605-612.
[13] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005:65-72.
[14] 張偉男,張楊子,劉挺.對(duì)話系統(tǒng)評(píng)價(jià)方法綜述[J].中國(guó)科學(xué):信息科學(xué),2017,47(08):953-966.
[15] Lowe R, Noseworthy M, Serban I V, et al. Towards an automatic turing test: Learning to evaluate dialogue responses[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017:1116-1126.
[16] Sai A B, Gupta M D, Khapra M M, et al. Re-evaluating ADEM: A deeper look at scoring dialogue responses[C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:6220-6227.
[17] Tao C Y, Mou L, Zhao D Y, et al. RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems[C]. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), 2018, 32(1):722-729.
[18] Zhang T, Kishore V, Wu F, et al. BERTScore: Evaluating text generation with BERT[DB/OL]. [2020-02-24]. https://arxiv.org/pdf/1904.09675.pdf.
[19] Vedantam R, Zitnick C L, Parikh D. CIDEr: Consensus-based Image Description Evaluation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015:4566-4575.
[20] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[J]. Adaptive Behavior, 2016, 11(4):382-398.
作者簡(jiǎn)介:
王艷秋(1993-),女,碩士,初級(jí)研究員.研究領(lǐng)域:人工智能,數(shù)據(jù)挖掘.
管浩言(1994-),男,碩士,初級(jí)研究員.研究領(lǐng)域:人工智能,計(jì)算機(jī)視覺.
張? 彤(1994-),女,碩士,初級(jí)研究員.研究領(lǐng)域:人工智能,圖像處理.