• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中超出領(lǐng)域話語(yǔ)的協(xié)處理方法

    2015-04-21 10:41:29王俊東黃沛杰林仙茂徐禹洪李凱茵
    中文信息學(xué)報(bào) 2015年5期
    關(guān)鍵詞:語(yǔ)料庫(kù)話語(yǔ)模板

    王俊東,黃沛杰,林仙茂,徐禹洪,李凱茵

    (華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)

    ?

    限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中超出領(lǐng)域話語(yǔ)的協(xié)處理方法

    王俊東,黃沛杰,林仙茂,徐禹洪,李凱茵

    (華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)

    領(lǐng)域外話語(yǔ)的開(kāi)放性、口語(yǔ)化以及表達(dá)多樣性,使得現(xiàn)有的限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)不能很好地處理超出領(lǐng)域話語(yǔ)。該文提出了一種限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)協(xié)處理方案,基于人工智能標(biāo)記語(yǔ)言AIML,設(shè)計(jì)一套理解開(kāi)放語(yǔ)義用戶話語(yǔ)的理解模板,并對(duì)未匹配話語(yǔ)基于話語(yǔ)相似度進(jìn)行理解模板分類,進(jìn)而采用擴(kuò)展有限狀態(tài)自動(dòng)機(jī)處理模式,結(jié)合對(duì)話流程上下文的狀態(tài)及信息,實(shí)現(xiàn)理解模板到應(yīng)答模板的轉(zhuǎn)換,改變了單純模板匹配方法在對(duì)話流程控制方面的相對(duì)缺失。中文手機(jī)導(dǎo)購(gòu)領(lǐng)域的測(cè)試表明,該文所提出的協(xié)處理方法能有效地輔助口語(yǔ)對(duì)話系統(tǒng)完成限定領(lǐng)域完整對(duì)話流程,得到更好的用戶滿意度。

    超出領(lǐng)域話語(yǔ);協(xié)處理;AIML;有限狀態(tài)自動(dòng)機(jī);口語(yǔ)對(duì)話系統(tǒng)

    1 引言

    口語(yǔ)對(duì)話系統(tǒng)(spoken dialogue system)指的是通過(guò)自然語(yǔ)言和人交流的計(jì)算機(jī)系統(tǒng),主要研究如何能讓計(jì)算機(jī)理解并生成人們?nèi)粘K褂玫恼Z(yǔ)言,對(duì)人向計(jì)算機(jī)提出的問(wèn)題,通過(guò)對(duì)話的方式,用自然語(yǔ)言進(jìn)行回答。研究對(duì)話系統(tǒng)的目的是讓人同計(jì)算機(jī)的交流更方便,讓計(jì)算機(jī)具有類似人類的思維從而幫助人們完成更多的工作,從這個(gè)角度看,能勝任某一專業(yè)領(lǐng)域工作的面向任務(wù)(task-oriented)的限定領(lǐng)域(restricted domain)對(duì)話系統(tǒng)[1-8],比開(kāi)放領(lǐng)域(open domain),如面向聊天(chat-oriented)的對(duì)話系統(tǒng)[9-10]更有研究意義和應(yīng)用價(jià)值[11]。然而,當(dāng)使用自然語(yǔ)言對(duì)話時(shí),即使用戶了解某對(duì)話系統(tǒng)的限定領(lǐng)域,例如: 醫(yī)療信息咨詢、導(dǎo)航或者導(dǎo)購(gòu),用戶在對(duì)話流程中仍然不可避免會(huì)使用一些超出領(lǐng)域(out-of-domain,OOD)話語(yǔ)(utterance),如問(wèn)候、個(gè)人問(wèn)題、表態(tài)等。事實(shí)上,OOD話語(yǔ)的現(xiàn)象很常見(jiàn),如AT&T的“How may I help you”系統(tǒng)[2],以及BTaxeCT和Lucent Bell合作開(kāi)發(fā)的“OASIS call-steering”系統(tǒng)[5],大約有20%的用戶問(wèn)題是OOD的。盡管這些限定領(lǐng)域?qū)υ捪到y(tǒng)從完成任務(wù)角度上看只需要專注于自己預(yù)定義的業(yè)務(wù)功能,但是,如果能較為妥善地處理好OOD話語(yǔ),而不僅僅是提示用戶話語(yǔ)超出領(lǐng)域,將會(huì)有效地提高用戶體驗(yàn)[12]。

    目前已有的限定領(lǐng)域?qū)υ捪到y(tǒng),如導(dǎo)航系統(tǒng)[4, 8]、導(dǎo)游系統(tǒng)[7]和信息查詢系統(tǒng)[1-3, 5-6]等,基于語(yǔ)義和語(yǔ)法相結(jié)合的技術(shù),并結(jié)合近年來(lái)逐漸成為熱點(diǎn)的意圖追蹤[13]和對(duì)話管理[14-16],能有效地理解和處理領(lǐng)域內(nèi)語(yǔ)義的話語(yǔ)。然而,面對(duì)OOD話語(yǔ)的開(kāi)放性、口語(yǔ)化以及表達(dá)多樣性,現(xiàn)有的限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)在處理OOD話語(yǔ)時(shí)仍然存在一定困難。不少研究人員開(kāi)始進(jìn)行關(guān)于限定領(lǐng)域?qū)υ捪到y(tǒng)OOD話語(yǔ)問(wèn)題的研究,例如,Lane等人[17]開(kāi)發(fā)的機(jī)器輔助對(duì)話系統(tǒng)和Tür等人[18]開(kāi)發(fā)的虛擬個(gè)人助理系統(tǒng)使用基于SVM(support vector machine)主題分類方法計(jì)算源話語(yǔ)在領(lǐng)域內(nèi)各子領(lǐng)域的分類置信度,再使用置信度向量訓(xùn)練一個(gè)線性判斷模型,并檢測(cè)源話語(yǔ)是否超出領(lǐng)域,若超出領(lǐng)域,系統(tǒng)可以提示用戶當(dāng)前系統(tǒng)無(wú)法處理該任務(wù)并引導(dǎo)用戶回到領(lǐng)域可處理范圍。Celikyitmaz等人[19]也提出了使用LDA(latent dirichlet allocation)主題模型對(duì)多領(lǐng)域問(wèn)題做主題聚類并檢測(cè)OOD情況。Reichel等人研究的汽車導(dǎo)航領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)[8],將在多領(lǐng)域內(nèi)切換過(guò)程中出現(xiàn)錯(cuò)誤且不能被任何子領(lǐng)域接受的話語(yǔ)歸為OOD情況,并返回給用戶做領(lǐng)域選擇。但這些工作主要集中在OOD話語(yǔ)的檢測(cè)識(shí)別,并根據(jù)檢測(cè)結(jié)果簡(jiǎn)單響應(yīng)用戶,而缺少對(duì)OOD話語(yǔ)的有效處理方法。

    面向聊天的開(kāi)放領(lǐng)域?qū)υ捪到y(tǒng),如國(guó)外的ELIZA[20]、PARRY[21]和ALICE[9, 22],國(guó)內(nèi)的清華大學(xué)圖書(shū)館的“小圖”[23]、機(jī)器人小I[24]等,由于設(shè)計(jì)初衷就是開(kāi)放領(lǐng)域,在覆蓋多領(lǐng)域的語(yǔ)料庫(kù)的支持下,一定程度上滿足了話語(yǔ)開(kāi)放性、口語(yǔ)化和表達(dá)多樣性的要求。這些系統(tǒng)可以與用戶進(jìn)行基于自然語(yǔ)言話語(yǔ)的交互,并已被廣泛應(yīng)用到機(jī)器助理比如反恐支持平臺(tái)[25]、計(jì)算機(jī)輔助英語(yǔ)學(xué)習(xí)[26]和健康咨詢[27]等。然而,這些面向聊天的對(duì)話系統(tǒng)幾乎都是基于完全精確匹配或者很弱的模糊匹配的模板來(lái)搜索回答[28],并沒(méi)有真正地“理解”用戶的問(wèn)題,并且難于掌控對(duì)話流程的系統(tǒng)狀態(tài)和信息。這類對(duì)話系統(tǒng)不能單獨(dú)應(yīng)用到復(fù)雜任務(wù)的限定領(lǐng)域?qū)υ?。此外,語(yǔ)料庫(kù)的構(gòu)建是此類系統(tǒng)的瓶頸,盡管有一些關(guān)于語(yǔ)料庫(kù)自動(dòng)建設(shè)[12, 29]、超出詞匯處理[10]等的研究,如Banchs[29]和Ameixa等人[12]分別采用電影劇本和電影字幕來(lái)構(gòu)建語(yǔ)料庫(kù),但其話語(yǔ)覆蓋程度仍然遠(yuǎn)遠(yuǎn)不足以應(yīng)用于限定領(lǐng)域?qū)υ捪到y(tǒng)中OOD話語(yǔ)的處理。此外,單純模板匹配方法由于對(duì)話上下文及對(duì)話狀態(tài)方面的缺失,難以真正提高OOD話語(yǔ)回答的針對(duì)性。

    本文提出一種限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)中處理OOD話語(yǔ)的協(xié)處理方案,主要貢獻(xiàn)包括:

    (1) 根據(jù)基于模板匹配方法適合開(kāi)放語(yǔ)義、口語(yǔ)化話語(yǔ)以及表達(dá)多樣性的特點(diǎn),基于人工智能標(biāo)記語(yǔ)言AIML(artificial intelligence markup language)[30],設(shè)計(jì)一套用于理解OOD話語(yǔ)的理解模板,并采用基于話語(yǔ)相似度的分類方法,將未匹配話語(yǔ)分類到相應(yīng)的理解模板,從某種程度上解決了語(yǔ)料庫(kù)一次性完備構(gòu)建的困難。

    (2) 采用擴(kuò)展有限狀態(tài)自動(dòng)機(jī)(extended finite-state machine,EFSM)處理模式,結(jié)合對(duì)話上下文信息及對(duì)話狀態(tài),實(shí)現(xiàn)理解模板到應(yīng)答模板的轉(zhuǎn)換,并給出不同應(yīng)答模板相應(yīng)的處理程序,改變了單純模板匹配方法在對(duì)話流程控制方面的相對(duì)缺失。

    本文的方案被應(yīng)用到我們開(kāi)發(fā)的手機(jī)導(dǎo)購(gòu)對(duì)話系統(tǒng)[31],應(yīng)用測(cè)試結(jié)果表明,能有效地輔助系統(tǒng)完成限定領(lǐng)域?qū)υ捔鞒?,得到更好的用戶滿意度。本文后續(xù)部分安排如下:第二節(jié)簡(jiǎn)要介紹協(xié)處理方案的系統(tǒng)框架及處理流程;第三節(jié)詳細(xì)介紹了協(xié)處理方案;第四節(jié)給出了測(cè)試驗(yàn)證結(jié)果;最后,第五節(jié)總結(jié)了本文的工作并做了簡(jiǎn)要的展望。

    2 系統(tǒng)框架

    圖1是我們開(kāi)發(fā)的限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)的系統(tǒng)框架,目前應(yīng)用于手機(jī)導(dǎo)購(gòu)領(lǐng)域,加粗部分是本文提出的協(xié)處理方案。

    在這個(gè)框架里,“主處理器”基于自然語(yǔ)言處理技術(shù),完成攜帶領(lǐng)域語(yǔ)義信息的話語(yǔ)的處理。語(yǔ)義提取、語(yǔ)法分析等技術(shù)被應(yīng)用于口語(yǔ)語(yǔ)言理解?;钴S信息表象征著對(duì)話系統(tǒng)的“記憶”,目前保持了三種活躍信息,包括商品屬性值、對(duì)話的上下文以及已推薦商品列表。其中,商品屬性值是一般對(duì)話系統(tǒng)具有的對(duì)話語(yǔ)義框(dialogue frame)[32-33]中的槽信息(slot)。

    而“協(xié)處理器”,顧名思義,就是主處理器的協(xié)處理機(jī)制,并不單獨(dú)完成導(dǎo)購(gòu)服務(wù),僅在主處理器中的OOD話語(yǔ)檢測(cè)模塊識(shí)別不到有效領(lǐng)域語(yǔ)義信息時(shí)接收主處理器傳來(lái)的用戶輸入話語(yǔ),并協(xié)助完成該對(duì)話步驟。協(xié)處理方案包括一套有三個(gè)模塊的協(xié)處理機(jī)制和三個(gè)信息庫(kù),其中,AIML語(yǔ)料庫(kù)支持對(duì)OOD話語(yǔ)到理解模板的映射,模板類別語(yǔ)料庫(kù)支持未匹配話語(yǔ)的理解模板分類,EFSM支持模式轉(zhuǎn)換?;贏IML和EFSM的協(xié)處理流程是:首先加載AIML語(yǔ)料庫(kù)到內(nèi)存并初始化需要的數(shù)據(jù),用戶話語(yǔ)進(jìn)入話語(yǔ)理解模塊后匹配上AIML中的理解模板或者在未匹配時(shí)通過(guò)模板分類算法得到理解模板;接著通過(guò)模式轉(zhuǎn)換模塊,完成系統(tǒng)模式的轉(zhuǎn)換和理解模板到應(yīng)答模板的映射,轉(zhuǎn)移條件中的上下文信息來(lái)自活躍信息表;最后是對(duì)應(yīng)答模板進(jìn)行分類處理,得到相應(yīng)的應(yīng)答并返回主處理。

    圖1 限定領(lǐng)域口語(yǔ)對(duì)話系統(tǒng)的系統(tǒng)框架

    3 AIML和EFSM相結(jié)合的協(xié)處理方案

    3.1 基于AIML的話語(yǔ)理解模板

    AIML[30]是經(jīng)典聊天機(jī)器人ALICE[9, 22]所采用的一種XML的人工智能標(biāo)記語(yǔ)言,定義了一整套具有特定含義的標(biāo)簽。由包含和標(biāo)簽對(duì)的知識(shí)單元構(gòu)成,前者表示用戶輸入需要進(jìn)行匹配的模板,后者代表匹配成功后用于回答的模板。AIML除了能夠處理精確匹配,還能夠處理模糊匹配以及優(yōu)先匹配。

    通過(guò)對(duì)AIML語(yǔ)料庫(kù)的回答模板(