黃沛杰,王俊東,柯子烜,林丕源
(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
限定領(lǐng)域口語對話系統(tǒng)中超出領(lǐng)域話語的對話行為識別
黃沛杰,王俊東,柯子烜,林丕源
(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)
由于領(lǐng)域外話語具有內(nèi)容短小、表達(dá)多樣性、開放性及口語化等特點(diǎn),限定領(lǐng)域口語對話系統(tǒng)中超出領(lǐng)域話語的對話行為識別是一個挑戰(zhàn)。該文提出了一種結(jié)合外部無標(biāo)簽微博數(shù)據(jù)的隨機(jī)森林對話行為識別方法。該文采用的微博數(shù)據(jù)無需根據(jù)應(yīng)用領(lǐng)域特點(diǎn)專門收集和挑選,又與口語對話同樣具有口語化和表達(dá)多樣性的特點(diǎn),其訓(xùn)練得到的詞向量在超出領(lǐng)域話語出現(xiàn)超出詞匯表字詞時提供了有效的相似性擴(kuò)展度量。隨機(jī)森林模型具有較好的泛化能力,適合訓(xùn)練數(shù)據(jù)有限的分類任務(wù)。中文特定領(lǐng)域的口語對話語料庫測試表明,該文提出的超出領(lǐng)域話語的對話行為識別方法取得了優(yōu)于最大熵、卷積神經(jīng)網(wǎng)絡(luò)等短文本分類研究進(jìn)展中的方法的效果。
對話行為識別;超出領(lǐng)域話語;隨機(jī)森林;詞向量;口語對話系統(tǒng)
面向任務(wù)(task-oriented)的限定領(lǐng)域?qū)υ捪到y(tǒng)是目前人工智能和自然語言理解領(lǐng)域內(nèi)的研究熱點(diǎn)之一,已廣泛應(yīng)用于信息查詢系統(tǒng)[1-5]、導(dǎo)航系統(tǒng)[6-7]、導(dǎo)游系統(tǒng)[8]和導(dǎo)購系統(tǒng)[9]等自然語言智能助理。然而,當(dāng)使用自然語言對話時,即使用戶了解某對話系統(tǒng)的限定領(lǐng)域,用戶在對話流程中仍然不可避免會使用一些超出領(lǐng)域(out-of-domain,OOD)話語(utterance),如問候、表態(tài)等[10]。事實(shí)上,OOD話語的現(xiàn)象很常見,例如,AT&T的“How may I help you”系統(tǒng)[2],以及BTaxeCT和Lucent Bell合作開發(fā)的“OASIS call-steering”系統(tǒng)[4],大約有20%的用戶問題是OOD的。盡管這些限定領(lǐng)域?qū)υ捪到y(tǒng)從完成任務(wù)角度上看只需要專注于特定的業(yè)務(wù)功能,但是如果能較為妥善地處理好OOD話語,而不僅僅是提示用戶話語超出領(lǐng)域,將會有效地提高用戶體驗(yàn)[11]。
對話行為(dialogue act, DA)識別是處理OOD話語的關(guān)鍵環(huán)節(jié),是后續(xù)對話控制和應(yīng)答的基礎(chǔ)。在研究進(jìn)展中,DA識別通常被當(dāng)作短文本分類問題[12]。然而,與評論等短文本信息相比,限定領(lǐng)域口語對話系統(tǒng)中的OOD話語通常長度更短,也更為口語化,并且比領(lǐng)域內(nèi)(in-domain)話語更具開放性和表達(dá)多樣性,其DA的有效識別仍然是個挑戰(zhàn)。已有的OOD話語相關(guān)研究工作主要集中在OOD話語的檢測,并根據(jù)檢測結(jié)果簡單響應(yīng)用戶,而缺少對OOD話語DA的有效識別[7,13-15]。
本文提出一種結(jié)合外部無標(biāo)簽數(shù)據(jù)的OOD話語DA識別方法。由于訓(xùn)練分類模型的OOD話語樣例數(shù)量有限,以及OOD話語的語義開放性和口語表達(dá)多樣性,待分類OOD話語中有時會出現(xiàn)超出詞匯表(out-of-vocabulary, OOV)字詞。而同樣具有口語化和表達(dá)多樣性的微博數(shù)據(jù)的“字詞相似性”可預(yù)期能接近于限定領(lǐng)域口語對話系統(tǒng)中OOD話語的“字詞相似性”。因此,本文采用分布式表達(dá)方式訓(xùn)練無標(biāo)簽微博數(shù)據(jù)得到詞向量(word embedding),并用于幫助待分類OOD話語出現(xiàn)OOV字詞時實(shí)現(xiàn)有效的特征擴(kuò)充。分類模型采用了隨機(jī)森林(random forests,RF)模型[16],并通過交叉驗(yàn)證的方式進(jìn)行了參數(shù)選擇。相比于已有的研究,本文的主要貢獻(xiàn)包括:
(1) 采用無標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量作為相似性度量,在待分類OOD話語出現(xiàn)OOV時提供OOV字詞的相似性擴(kuò)展,從某種程度上解決了OOD話語的開放性帶來的對話語料庫詞匯覆蓋不全的問題,也增強(qiáng)了識別方法對OOD所固有的口語化和表達(dá)多樣性的適應(yīng)。
(2) 在中文手機(jī)導(dǎo)購領(lǐng)域的對話系統(tǒng)中評測了基于隨機(jī)森林的OOD話語DA識別方法,在訓(xùn)練數(shù)據(jù)有限的情況下,取得了優(yōu)于最大熵(maximum entropy,ME)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等短文本分類研究進(jìn)展中的方法的效果。
本文后續(xù)部分安排如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹本文提出的方法;第四節(jié)給出測試結(jié)果及分析;最后,第五節(jié)總結(jié)本文的工作并做簡要的展望。
在短文本信息,如微博、商品評論、影評等的分析領(lǐng)域,為了克服短文本具有的噪音多、特征稀疏和主題不明確等特點(diǎn)[17],許多機(jī)器學(xué)習(xí)模型如SVM(support vector machine)[18]、最大熵[19]、CNN[20]被應(yīng)用于短文本分類。此外,為了解決短文本分類問題中數(shù)據(jù)稀疏問題,結(jié)構(gòu)化語義知識庫如Wikipedia、WordNet等常被用于語義相似性計算[21],另外一些研究則采用在領(lǐng)域相關(guān)的無標(biāo)簽數(shù)據(jù)集上使用LDA(latent dirichlet allocation)獲取主題特征[22]或者使用神經(jīng)網(wǎng)絡(luò)(neural network)訓(xùn)練詞向量[19]的方法增加語義特征。
在口語對話系統(tǒng)領(lǐng)域內(nèi)話語的DA識別方面,傳統(tǒng)的語言模型和機(jī)器學(xué)習(xí)方法如N-gram[23]、樸素貝葉斯(na?ve bayes)[24]、決策樹(decision tree)[25]、最大熵[26]、神經(jīng)網(wǎng)絡(luò)[27]、隱馬爾科夫(hidden markov model,HMM)[28]、條件隨機(jī)場(conditional random field, CRF)[29]等各種分類模型被應(yīng)用。較為豐富的語義或語法等文本信息被良好表達(dá)并輸入到分類模型。有些研究還考慮了對話上下文的序列信息[28-29]以及更深層次的異構(gòu)特征學(xué)習(xí)[29]。
上述研究進(jìn)展的方法都對OOD話語的DA識別提供了很好的借鑒。然而與短文本分類及領(lǐng)域內(nèi)話語的DA識別相比,OOD話語的DA識別具有以下挑戰(zhàn):
(1) 口語對話系統(tǒng)話語比微博、評論、新聞標(biāo)題等常見短文本信息更短。如搜狗實(shí)驗(yàn)室提供的中文新聞標(biāo)題分類數(shù)據(jù)集,大部分文本數(shù)據(jù)長度集中在10~21字之間[19],微博、電影評論等的平均長度則更長一些,而在我們實(shí)驗(yàn)中的對話語料,OOD話語平均長度只有3.6字,集中在1~8個字之間。短文本所固有的噪音多和特征稀疏在口語對話的OOD話語中表現(xiàn)得更為突出。另外,口語對話中的OOD話語比電影評論和新聞標(biāo)題等短文本更為口語化,比微博也多了一些口語化省略的情況。
(2) 相比于領(lǐng)域內(nèi)話語,OOD話語語義更為開放和表達(dá)多樣,容易產(chǎn)生OOV字詞,并且也缺少領(lǐng)域內(nèi)話語攜帶的相對較為豐富的語義或語法等文本信息。此外,OOD話語與對話上下文的關(guān)聯(lián)也遠(yuǎn)遠(yuǎn)沒有領(lǐng)域內(nèi)話語高。
王俊東等人[10]提出的OOD話語處理方案中也包含了對OOD話語的DA識別,采用了向量空間模型(vector space model,VSM),通過詞頻和期望交叉熵(expected cross entropy,ECE)權(quán)重計算句子相似度,不足之處在于DA識別方法比較簡單,并且缺乏對OOD話語中OOV字詞的考慮。本文采用大量無標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量作為相似性度量,為OOD話語中的OOV字詞提供相似性擴(kuò)展。與大多數(shù)文本分類研究相比,本文并沒有依賴于領(lǐng)域密切相關(guān)的外部數(shù)據(jù),更易于實(shí)現(xiàn)。此外,在中文訓(xùn)練語料數(shù)據(jù)有限的情況下,考慮到以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的隨機(jī)森林模型在小樣本數(shù)據(jù)集上的良好表現(xiàn)[16],本文采用隨機(jī)森林作為分類模型。
3.1 總體技術(shù)架構(gòu)
圖1是本文提出的方法的總體技術(shù)架構(gòu)。
圖1 限定領(lǐng)域口語對話系統(tǒng)OOD話語DA識別方法技術(shù)架構(gòu)
在這個架構(gòu)中,主要分成兩個階段: (1)在訓(xùn)練階段,將訓(xùn)練語料庫中句子進(jìn)行預(yù)處理,進(jìn)而針對對話系統(tǒng)OOD話語口語化的特點(diǎn),利用BOC(bag of Chinese characters)計算特征值,生成特征向量,并使用隨機(jī)森林分類器進(jìn)行模型訓(xùn)練;(2)在測試階段,首先對檢測到出現(xiàn)OOV字詞的待識別OOD話語進(jìn)行相似性擴(kuò)展。相似性擴(kuò)展通過計算字詞間詞向量的余弦相似度,找出OOV字詞最相近的訓(xùn)練語料中的字詞擴(kuò)展OOD話語。接著將擴(kuò)展后的OOD話語進(jìn)行BOC特征值計算,并生成特征向量。最后使用由(1)訓(xùn)練得到的分類器進(jìn)行DA標(biāo)簽的分類。
3.2 外部數(shù)據(jù)詞向量
詞向量通常被稱為“word representation”或“word embedding”,是通過訓(xùn)練無標(biāo)簽語料將每個詞映射成低維實(shí)數(shù)向量的方法,每一維都代表了詞的淺層語義特征[30],通過低維實(shí)數(shù)向量之間的距離(例如余弦相似度、歐式距離等)來描述字詞之間的語義相似度。低維的詞向量避免了用傳統(tǒng)的稀疏表達(dá)在解決某些任務(wù)的時候(比如構(gòu)建語言模型)所造成的維數(shù)災(zāi)難[31]。本文采用與OOD話語同樣具有口語化和表達(dá)多樣性的微博數(shù)據(jù)來訓(xùn)練詞向量。
目前訓(xùn)練詞向量的主流方法是在訓(xùn)練語言模型的同時得到詞向量?;诮y(tǒng)計的語言模型能夠表示成一個已出現(xiàn)的詞和當(dāng)前詞的條件概率的極大似然估計為式(1)。
針對不同的上下文構(gòu)造方法,在訓(xùn)練詞向量時主要有CBOW (continuous bag-of-words)和Skip-gram兩種語言模型[32]。Skip-gram模型允許某些詞被跳過,在訓(xùn)練數(shù)據(jù)少的情況用Skip-gram可以創(chuàng)造更多的訓(xùn)練例子,而連續(xù)的CBOW則可以有較快的訓(xùn)練速度[32]。由于本文采用的是大量微博數(shù)據(jù),因此本文使用CBOW語言模型對詞語的語義層面建模。CBOW語言模型不僅限于已出現(xiàn)的詞為wt的上下文,而是考慮了句子中距離當(dāng)前詞為n以內(nèi)的詞都看作是當(dāng)前詞的上下文環(huán)境,如圖2所示。
用一個函數(shù)f表示當(dāng)前詞wt的上下文的向量到當(dāng)前詞wt條件概率的映射[31],并結(jié)合CBOW的機(jī)制,則當(dāng)前詞的上下文和當(dāng)前詞的條件概率可以表示為式(2)。
=f(wt,C(wt-n),...,C(wt-1),C(wt+1),...,C(wt+n))
其中,C(wi)是詞語wi的分布式特征向量。
圖2 CBOW語言模型架構(gòu)
3.3 隨機(jī)森林模型
隨機(jī)森林(randomforest)[16]作為一種集成學(xué)習(xí)(ensemblelearning)方法,是一種利用多棵樹為基學(xué)習(xí)器構(gòu)建Bagging集成的分類器。本文采用了Breiman提出的基于分類回歸樹(classificationandregressiontrees,CART)[35]的隨機(jī)森林模型。該模型具有良好的實(shí)用性能和處理高維數(shù)據(jù)的能力,并且只依賴于少數(shù)的幾個容易調(diào)節(jié)的參數(shù),已成為模式識別問題的一種常用的學(xué)習(xí)算法[36]。隨機(jī)森林模型結(jié)合了Breiman的自助聚集(bootstrapaggregating)[37]思想和Ho的隨機(jī)子空間(randomsubspace)[38]方法,其模型訓(xùn)練原理[39]如圖3所示。其中,k對應(yīng)隨機(jī)森林的子樹數(shù)量,子樹的分裂次數(shù)N由不同子樹的樣本和特征決定。每顆子樹都分裂直至最大生長,即同一個節(jié)點(diǎn)下所有訓(xùn)練樣例都屬于同一個類別。
圖3 隨機(jī)森林訓(xùn)練原理示意圖
大量的理論和實(shí)證研究都證明了隨機(jī)森林模型具有很高的預(yù)測準(zhǔn)確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合[39]。
4.1 數(shù)據(jù)集
訓(xùn)練數(shù)據(jù)集采用了和文獻(xiàn)[10]一樣的OOD話語訓(xùn)練庫,共1 238句。我們在文獻(xiàn)[10]的基礎(chǔ)上進(jìn)一步完善了DA分類,如表1所示。共五大類(維度)25小類(交互功能)。
值得注意的是,盡管在一些文獻(xiàn)中,OOD話語只限于身份信息、天氣等閑聊話語,在我們的研究中,我們把不攜帶領(lǐng)域語義信息的用戶話語都當(dāng)成OOD話語。這個廣義的OOD定義使得一些領(lǐng)域任務(wù)相關(guān)的話語也被歸類到OOD話語,如肯定或者否定的表態(tài),或者慣用開場語。我們希望這樣的OOD定義對限定領(lǐng)域口語對話系統(tǒng)是有益的,因?yàn)閿y帶領(lǐng)域語義信息的話語可以根據(jù)領(lǐng)域語義得到較好的處理。此外,我們用一個“其他”小類代表不屬于任何前24個小類的OOD話語,該小類的訓(xùn)練集只用于匹配,而不參與識別模型的建模。
表1 OOD話語的DA類別與示例
續(xù)表
對話行為維度交互功能OOD話語示例社交義務(wù)問候你好!致謝謝謝!道歉不好意思。接受致謝不用謝。接受道歉沒關(guān)系。閑聊時間現(xiàn)在幾點(diǎn)啦?天氣今天天氣好冷。身份信息你叫什么名字?其他罵人混蛋!其他你猜。
我們在實(shí)現(xiàn)的中文手機(jī)導(dǎo)購對話系統(tǒng)[9]中進(jìn)行了測試。系統(tǒng)的測試人員是15名學(xué)生志愿者,每位測試者測試12~14段。由于本文關(guān)注的是OOD話語的DA分類,因此,沒有正常結(jié)束的對話(可能是系統(tǒng)異常中斷或者用戶異常退出連接)中的OOD話語也可以使用。
用于測試的對話語料的總體情況如表2所示。
分明是初相遇,卻似故友重逢。詩人頓生情愫,那些噴涌出來的熾熱與憂傷源源不斷,被秋天的長風(fēng)帶到更遠(yuǎn)的地方。樟樹聽人們深情表白,葉子沙沙,不知是點(diǎn)頭還是搖頭,不知它是否在意人的褒揚(yáng)。它的資歷實(shí)在太老了,王朝更替,兵荒馬亂,雨順風(fēng)調(diào),好的壞的,裝了一肚子。它見過男人如何留起了一根長辮,又如何一朝剪下,見過女人的小腳,顫顫巍巍在面前走過,見過甜蜜的愛情和無情的背叛,見過一茬茬的人呱呱喊叫著來到人世,最后沉默地躺進(jìn)山坡,它還無數(shù)次地目睹一輪明月如何被“天狗”蠶食,饑荒年代人們?nèi)绾螌⒁话岩安艘恍淦ぱb進(jìn)胃囊。直至有一天,如果不是那場適時而降的大雨,一場意外,差點(diǎn)將它燒成灰燼……
表2 測試語料的情況
對話語料庫共193段對話,用戶話語總數(shù)為2 070,OOD的數(shù)量為362,占了17.5%,與文獻(xiàn)[2]和[4]中的口語對話系統(tǒng)的OOD比例相似,表明了OOD識別在限定領(lǐng)域口語對話系統(tǒng)研究和應(yīng)用中的價值。在131例未被訓(xùn)練集覆蓋的待識別的OOD話語中,有四例屬于其他小類。因此,本文的測試集即為去除了四例其他小類之后的127句OOD話語。
4.2 實(shí)驗(yàn)設(shè)置
本文的外部數(shù)據(jù)庫采用的是中國中文信息學(xué)會社會媒體專委會提供的SMP2015微博數(shù)據(jù)集(SMP 2015 Weibo DataSet)。該數(shù)據(jù)集超過500G,目前我們采用了其中的一個子集(1 000萬條微博,519 734詞匯,約1.5G),與相關(guān)方法采用的搜狗實(shí)驗(yàn)室新聞數(shù)據(jù)(Sougo News)(515 789詞匯)具有相當(dāng)?shù)脑~匯量標(biāo)準(zhǔn)。我們也驗(yàn)證過更大的微博數(shù)據(jù)量,在當(dāng)前的DA識別任務(wù)中沒有顯著的識別效果提升。詞向量采用Python Gensim主題模型包中的word2vec進(jìn)行訓(xùn)練。隨機(jī)森林和CNN模型的參數(shù)通過K-折(本文的實(shí)驗(yàn)采用3折)交叉驗(yàn)證得到。
實(shí)驗(yàn)方案為:
(1) 隨機(jī)森林模型的參數(shù)選擇: 驗(yàn)證不同的子樹數(shù)量的隨機(jī)森林模型的性能;
(2) 原始特征的選擇: 對比字和詞作為原始特征的DA識別效果;
(3) 研究進(jìn)展方法DA識別性能對比: 對比了本文提出的方法與研究進(jìn)展方法的DA識別結(jié)果。并對比了不同外部數(shù)據(jù)對OOV相似性擴(kuò)展的效果;
(4) 訓(xùn)練庫規(guī)模的影響: 采用不同比例的訓(xùn)練語料庫,驗(yàn)證本文提出的方法對訓(xùn)練數(shù)據(jù)規(guī)模的依賴性。
本文的方法,結(jié)合外部無標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量為度量的OOV相似性擴(kuò)展的隨機(jī)森林模型,記為RF(BOC+OOV(w2v)),對比的三種研究進(jìn)展的方法如下。
(1) VSM(ECE): 王俊東等人[10]應(yīng)用于OOD話語DA分類的方法,利用ECE選出類別特征詞,并將類別特征詞以VSM向量形式表示類別,通過詞頻和ECE權(quán)重計算句子相似度;
(2) ME(TFIDF): 馬成龍等人[19]應(yīng)用于短文本(網(wǎng)頁搜索片段和新聞標(biāo)題)分類的方法,對訓(xùn)練數(shù)據(jù)所生成的詞典利用TFIDF計算特征值,采用最大熵模型進(jìn)行分類;
(3) CNN(w2v): Kim[20]應(yīng)用于短文本(電影評論等)分類的方法,采用Google新聞?wù)Z料訓(xùn)練得到的詞向量表達(dá)短文本中的詞語,分類模型采用了CNN,并使用了3、4、5三種不同卷積窗口的卷積核。在本文的實(shí)驗(yàn)中,我們采用微博數(shù)據(jù)訓(xùn)練得到的詞向量訓(xùn)練CNN模型,并通過交叉驗(yàn)證選擇最優(yōu)的卷積核數(shù)量。
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 隨機(jī)森林模型的參數(shù)選擇
隨機(jī)森林的關(guān)鍵參數(shù)包括子樹的棵數(shù)k以及每棵樹隨機(jī)選取的特征數(shù)m。通過交叉驗(yàn)證發(fā)現(xiàn)m的最優(yōu)值與經(jīng)驗(yàn)公式log(M)相近,其中M為總特征數(shù),本文實(shí)驗(yàn)中M為754。不同的子樹數(shù)量的隨機(jī)森林模型的訓(xùn)練和驗(yàn)證結(jié)果如圖4所示,采用的識別方法是本文的RF(BOC+OOV(w2v))方法。
圖4 不同子樹數(shù)量的隨機(jī)森林訓(xùn)練和驗(yàn)證結(jié)果
可以看到隨機(jī)森林模型在訓(xùn)練誤差已經(jīng)接近為0(20棵子樹)的情況下,隨著子樹數(shù)量進(jìn)一步增加,模型并沒有馬上進(jìn)入過擬合狀態(tài),其交叉驗(yàn)證的正確率繼續(xù)保持提升。另一方面,也可以看到,不需要太復(fù)雜的模型(140棵子樹左右)就可以接近性能上限(在現(xiàn)有的數(shù)據(jù)集條件下),并且隨著子樹的進(jìn)一步增加保持了較穩(wěn)定的驗(yàn)證結(jié)果,不容易產(chǎn)生模型過擬合。
4.3.2 原始特征的選擇
我們對比了各種模型選用字和詞作為原始特征的DA識別效果,如圖5所示。
圖5 不同原始特征(詞和字)的DA識別效果
從圖5可以看到,除了VSM模型,其他模型采用字為原始特征的識別效果比采用詞的好,尤其是CNN和RF模型,這也反映了對話系統(tǒng)的OOD話語口語化的特點(diǎn)。VSM模型詞比字作為原始特征的識別效果更好,可能是因?yàn)槟P秃唵?,未能很好地?shí)現(xiàn)由字到詞的特征搭配。
4.3.3 研究進(jìn)展方法DA識別性能對比
本文的方法與研究進(jìn)展方法的DA識別結(jié)果如表3所示。根據(jù)圖5的對比,除了VSM模型采用詞為原始特征,其他方法都采用了字為原始特征。其中,我們也對比了使用不同外部數(shù)據(jù)訓(xùn)練的詞向量作為OOV字詞提供相似性擴(kuò)展時的度量的效果。為了區(qū)別采用搜狗實(shí)驗(yàn)室的新聞數(shù)據(jù)(Sougo News)訓(xùn)練的詞向量作為距離度量的方法,在表3中,本文的方法標(biāo)記為RF(BOC+OOV(w2v_SMP-Weibo))。在本文的其他比較中,本文的方法標(biāo)記為RF(BOC+OOV(w2v))。
表3 本文方法與研究進(jìn)展方法的DA識別對比
從表3可以看到,本文提出的方法比VSM(ECE)、ME(TFIDF)和CNN(w2v)等方法分別提高了18.90%、18.11%和3.15%的OOD話語DA識別正確率。與口語對話系統(tǒng)OOD話語同樣具有口語化和表達(dá)多樣性的微博數(shù)據(jù)(SMP-Weibo)訓(xùn)練的詞向量作為距離度量能更好地為OOD話語中的OOV字詞提供合適的相似性擴(kuò)展,而采用搜狗實(shí)驗(yàn)室的新聞數(shù)據(jù)(Sougo News)訓(xùn)練的詞向量作為距離度量沒能幫助提高識別正確率。我們還進(jìn)一步對比了RF和CNN方法的識別穩(wěn)定性,采用了在模型選擇時的驗(yàn)證Top 5的模型在測試集上的DA識別正確率進(jìn)行對比,如圖6所示。
圖6 不同識別模型的識別性能穩(wěn)定性
從圖6可以看到,我們的方法比CNN模型具有更穩(wěn)定的識別效果。我們的方法的驗(yàn)證Top 5的模型對應(yīng)的最低、平均和最高測試正確率分別為83.46%、84.09%和84.25%,而CNN的驗(yàn)證Top 5的模型對應(yīng)的最高和最低的測試正確率差異則超過3%。
4.3.4 訓(xùn)練庫規(guī)模的影響
我們進(jìn)一步驗(yàn)證了本文提出的方法對訓(xùn)練數(shù)據(jù)規(guī)模的依賴性。我們保持DA類別分布比例不變,將訓(xùn)練語料庫平均分成十份,每次隨機(jī)增加一份作為訓(xùn)練數(shù)據(jù)。共進(jìn)行了十遍實(shí)驗(yàn)(選擇不同的一份作為第一份)。使用同樣的測試集進(jìn)行測驗(yàn),測驗(yàn)的方法包括本文的RF(BOC+OOV(w2v))方法以及沒對OOV進(jìn)行相似性擴(kuò)展的RF(BOC)方法,結(jié)果如圖7所示。從圖中結(jié)果可以看到,隨著訓(xùn)練語料庫規(guī)模的增大,兩種方法的識別正確率都保持增長,可見DA識別方法對訓(xùn)練語料的依賴還是比較大的。另一個方面也可以看到,目前規(guī)模的訓(xùn)練語料的50%已經(jīng)可以使本文的識別方法獲得較好的識別正確率(70%+)。
圖7 不同比例訓(xùn)練語料的測試結(jié)果
本文基于外部無標(biāo)簽微博數(shù)據(jù)訓(xùn)練的詞向量和隨機(jī)森林模型,提出了一種限定領(lǐng)域口語對話系統(tǒng)OOD話語的DA識別方法。在中文手機(jī)導(dǎo)購領(lǐng)域的OOD話語測試表明,本文的方法取得了優(yōu)于研究進(jìn)展中的短文本分類方法的應(yīng)用效果。與限定領(lǐng)域口語對話系統(tǒng)中OOD話語同樣具有口語化和表達(dá)多樣性特點(diǎn)的微博數(shù)據(jù)訓(xùn)練得到的詞向量,有助于為待分類的OOD話語中的OOV字詞找到合適的近似擴(kuò)展。隨機(jī)森林模型在有限的OOD話語訓(xùn)練數(shù)據(jù)集的條件下,取得了優(yōu)于最大熵和CNN等模型的識別效果。未來計劃通過分析存在的識別錯誤樣例,并通過人工標(biāo)注對話語料中的OOD話語,結(jié)合進(jìn)一步擴(kuò)大的訓(xùn)練庫,探索CNN和長短期記憶人工神經(jīng)網(wǎng)絡(luò)(long-short term memory, LSTM)等具有一定結(jié)構(gòu)化學(xué)習(xí)優(yōu)勢的模型在OOD話語的DA識別中性能提升的可能,以及多種識別模型有效結(jié)合的方法。
[1] Price P J. Evaluation of spoken language systems: the ATIS domain[C]//Proceedings of DARPA Workshop on Speech and Natural Language, Hidden Valley, PA, 1990.
[2] Gorin A, Riccardi G, Wright J.How may I help you?[J]. Speech Communication,1997, 23(1-2): 113-127.
[3] Zue V, Seneff S, Glass J, et al. JUPITER: a telephone-based conversational interface for weather information[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(1): 85-96.
[4] Durston P, Farrell M, Attwater D, et al. OASIS natural language call steering trial[C]//Proceedings of 7th European Conference on Speech Communication and Technology (Eurospeech 2011), 2001: 1323-1326.
[5] 張琳, 高峰, 郭榮, 等. 漢語股票實(shí)時行情查詢對話系統(tǒng)[J]. 計算機(jī)應(yīng)用, 2004, 24(7): 61-63.
[6] 黃寅飛, 鄭方, 燕鵬舉, 等. 校園導(dǎo)航系統(tǒng)EasyNav的設(shè)計與實(shí)現(xiàn)[J].中文信息學(xué)報, 2001, 15(4): 35-40.
[7] Reichel C S, Sohn J, Ehrlich U, et al. Out-of-domain spoken dialogs in the car: a WoZ study[C]//Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL 2014), 2014: 12-21.
[8] Pappu A, Rudnicky A. The structure and generality of spoken route instructions[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL 2012), 2012: 99-107.
[9] Huang P J, Lin X M, Lian Z Q, et al. Ch2R: a Chinese chatter robot for online shopping guide[C]//Proceedings of the 3rd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2014), 2014: 26-34.
[10] 王俊東, 黃沛杰, 林仙茂等. 限定領(lǐng)域口語對話系統(tǒng)中超出領(lǐng)域話語的協(xié)處理方法[J].中文信息學(xué)報, 2015, 29(5): 194-203.
[11] Ameixa D, Coheur L, Fialho P, et al. Luke, I am your father: dealing with out-of-domain requests by using movies subtitles [J]. IVA 2014. LNCS (LNAI), vol. 8637, pp. 13-21. Springer, Heidelberg (2014)
[12] Novielli N. and Strapparava C. The role of affect analysis in dialogue act identification [J]. IEEE Transactions on Affective Computing, 2013, 6(1): 1-14.
[13] Lane I R, Kawahara T, Matsui T, et al. Out-of-domain utterance detection using classification confidences of multiple topics[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 150-161.
[14] Tür G, Deoras A, Hakkani-Tür D. Detecting out-of-domain utterances addressed to a virtual personal assistant[C]//Proceedings of the 15th Annual Conference of the International Speech Communication Association (INTERSPEECH 2014), 2014: 283-287.
[15] Celikyitmaz A, Hakkani-Tür D, Tür G. Approximate inference for domain detection in spoken language understanding[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association (INTERSPEECH 2011), 2011: 1293-1296.
[16] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1), 5-32.
[17] Chen M G, Jin X M, Shen D. Short text classification improved by learning multigranularity topics [C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence (IJCAI 2011), 2011: 1776-1781.
[18] Silva J, Coheur L, Mendes A C, et al. From symbolic to sub-symbolic information in question classification. Artificial Intelligence Review, 2011, 35(2): 137-154.
[19] 馬成龍, 姜亞松, 李艷玲,等. 基于詞矢量相似度的短文本分類[J]. 山東大學(xué)學(xué)報: 理學(xué)版, 2014(12): 18-22.
[20] Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 19th Conference on Empirical Methods in Natural Language Processing (EMNLP 2014), 2014: 1746-1751.
[21] Kenter T, Rijke M D. Short text similarity with word embeddings[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management (CIKM 2015), 2015: 1411-1420.
[22] Phan X H, Nguyen L M, Horiguchi S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C]//Proceedings of the 17th International World Wide Web Conference (WWW 2008), 2008: 91-100.
[23] Louwerse M M, Crossley S A. Dialog act classifi-cation using n-gram algorithms[C]//Proceedings of 19th Florida Artificial Intelligence Research Society Conference (FLAIRS 2006), 2006: 758-763.
[24] Levin L, Langley C, Lavie A, et al. Domain specific speech acts for spoken language translation[C]//Proceedings of 4th SIGdial Workshop on Discourse and Dialogue (SIGDIAL 2003), 2003.
[25] Irie Y, Matsubara S, Kawaguchi N, et al. Speech intention understanding based on decision tree learning[C]//Proceedings of 8th International Conference on Spoken Language Processing (INTERSPEECH 2004- ICSLP), 2004.
[26] Lan K C, Shiu H K, Pong Luk Robert Wing, et al. Dialogue act recognition using maximum entropy[J]. Journal of the American Society for Information Science & Technology, 2008, 59(6): 859-874.
[27] Král P, Cerisara C, Klecková J. Combination of classifiers for automatic recognition of dialog acts[C]//Proceedings of 9th European Conference on Speech Communication and Technology (INTERSPEECH 2005- Eurospeech), 2005: 825-828.
[28] Lee S, Seo J. Korean speech act analysis system using hidden markov model with decision trees[J]. International Journal of Computer Processing of Oriental Languages, 2002, 15(03): 231-243.
[29] Zhou Y, Hu Q, Liu J, et al. Combining heterogeneous deep neural networks with conditional random fields for chinese dialogue act recognition[J]. Neurocomputing, 2015, 168(C): 408-417.
[30] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of the 48thAnnual Meeting of the Association for Computational Linguistics (ACL 2010), 2010: 384-394.
[31] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, (3): 1137-1155.
[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in Vector Space[C]//Proceedings of the 1st International Conference on Learning Representations (ICLR 2013), 2013.
[33] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS 2013), 2013: 3111-3119.
[34] Morin F, Bengio Y. Hierarchical probabilistic neural network language model[C]//Proceedings of the International Workshop on Artificial Intelligence and Statistics (AISTATS 2005), 2005: 246-252.
[35] Breiman L, Friedman J, Olshen R A, et al. Classification and regression trees[M]. Chapman & Hall, New York, 1984.
[36] Scornet E. Random forests and kernel methods [J]. IEEE Transactions on Information Theory, 2015, 62(3): 1485-1500.
[37] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 26(2): 123-140
[38] Ho, T K. The random subspace method for constructing decision forests[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998, 20(8), 832-844.
[39] 方匡南, 吳見彬, 朱建平,等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計與信息論壇, 2011, 26(3): 32-38.
Dialogue Act Recognition for Out-of-Domain Utterances in Spoken Dialogue System
HUANG Peijie, WANG Jundong, KE Zixuan, LIN Piyuan
(College of Mathematic and Informatics, South China Agricultural University, Guangzhou, Guangdong 510642, China)
Due to the short length, diversity, openness and colloquial features of out-of-domain (OOD) utterances, such dialogue act (DA) recognition for OOD utterances remains a challenge in domain specific spoken dialogue system. This paper proposes an effective DA recognition method using the random forest and external information. The unlabeled Weibo dataset, which is not domain specific yet possesses the similar characteristic of colloquialism and diversity with the spoken dialogue, is used to train the word embedding by unsupervised learning method. The trained word embedding provides similar computing for out of vocabulary (OOV) words in the training and test OOD utterances. The evaluation on a Chinese dialogue corpus in restricted domain shows that the proposed method outperforms some state-of-the-art short text classification methods for DA recognition.
dialogue act recognition; out-of-domain utterance; random forest; word embedding; spoken dialogue system
黃沛杰(1980—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄堋⒆匀徽Z言處理、口語對話系統(tǒng)。E-mail:pjhuang@scau.edu.cn王俊東(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:jdwang@stu.scau.edu.cn柯子烜(1995—),本科生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:iscauzixuanke@gmail.com
1003-0077(2016)06-0182-08
2016-09-27 定稿日期: 2016-10-20
國家自然科學(xué)基金(71472068);廣東省大學(xué)生科技創(chuàng)新培育專項(xiàng)項(xiàng)目(pdjh2016b0087)
TP391
A