劉 嬌,李艷玲,林 民
內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022
人機(jī)對(duì)話系統(tǒng)主要由語音識(shí)別(automatic speech recognition,ASR)、口語理解(spoken language understanding,SLU)、對(duì)話管理(dialog management,DM)、對(duì)話生成(dialogue generation,DG)和語音合成(text to speech,TTS)五部分組成[1],其中口語理解是對(duì)話系統(tǒng)中最重要的一部分,目的是理解用戶的需求。為了讓機(jī)器給用戶反饋正確的信息,口語理解中的意圖識(shí)別起著至關(guān)重要的作用,意圖識(shí)別的準(zhǔn)確性直接關(guān)系到整個(gè)對(duì)話系統(tǒng)的性能。Moldovan等人[2]通過研究對(duì)話系統(tǒng)中各個(gè)模塊對(duì)系統(tǒng)性能的影響,得到結(jié)論——意圖識(shí)別對(duì)系統(tǒng)的影響非常大。因此為了構(gòu)建性能更好的人機(jī)對(duì)話系統(tǒng),意圖識(shí)別的研究非常重要。
由于人與機(jī)器的頻繁交互以及用戶表達(dá)的隨意性,意圖文本可以分為無意圖文本和有意圖文本,其中無意圖文本一般具有主題不明確,檢索困難等特點(diǎn),如聊天類意圖文本。有意圖文本指主題明確,屬于任務(wù)型對(duì)話的意圖文本。隨著人們對(duì)智能助理的依賴以及人機(jī)對(duì)話系統(tǒng)研究的深入,用戶表達(dá)的意圖往往不只含有一種,而是兩種及以上,例如:“我想看完新聞再聽音樂”,這句話中包含“看新聞”和“聽音樂”兩種意圖。如果讓機(jī)器同時(shí)理解用戶意圖文本中的兩種或兩種以上的意圖還是比較困難的,因此針對(duì)這一問題,本文對(duì)含有多個(gè)意圖的文本進(jìn)行研究。
為了理解用戶的多意圖表達(dá),多意圖(multi-intent,MI)識(shí)別是研究的主要內(nèi)容。多意圖識(shí)別類似于多標(biāo)簽(multi-label,ML)分類,但又不同于多標(biāo)簽分類,多標(biāo)簽分類通常處理的是長文本,而多意圖識(shí)別主要針對(duì)短文本進(jìn)行處理[3]。如何對(duì)較短的文本識(shí)別出用戶的多種意圖是意圖識(shí)別的一個(gè)難點(diǎn)。目前大部分學(xué)者對(duì)單個(gè)意圖識(shí)別的研究較多,而對(duì)多種意圖識(shí)別的研究較少,還處于探索階段。
多意圖識(shí)別問題又可以看作是一種多標(biāo)簽分類問題,徐曉璐[4]針對(duì)傳統(tǒng)的多標(biāo)簽分類方法無法對(duì)數(shù)據(jù)的不平衡問題進(jìn)行處理,而循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)會(huì)產(chǎn)生梯度消失或梯度爆炸的問題,提出使用長短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對(duì)文本進(jìn)行特征提取,并利用門控循環(huán)單元(gated recurrent unit,GRU)模型進(jìn)一步提取特征,同時(shí)利用構(gòu)建的標(biāo)簽樹對(duì)短文本進(jìn)行多標(biāo)簽分類。劉心惠等人[5]利用多頭注意力機(jī)制處理單詞權(quán)重分配,然后采用膠囊網(wǎng)絡(luò)(capsule network,CapsNet)和Bi-LSTM(bidirectional long short-term memory)分別進(jìn)行特征提取,通過平均融合特征進(jìn)行多標(biāo)簽文本分類,將不同層次的文本特征合理利用提升分類性能。李德玉等人[6]針對(duì)文本情緒多標(biāo)簽分類任務(wù),利用標(biāo)簽特征增強(qiáng)標(biāo)簽和文本情緒的關(guān)系,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行多標(biāo)簽分類,提升分類性能。牟甲鵬等人[7]針對(duì)標(biāo)簽之間的相關(guān)性問題,在類屬屬性(每個(gè)特征都有自己的特性)的空間中附加相關(guān)標(biāo)簽來引入標(biāo)簽相關(guān)性從而提升多分類算法性能。
針對(duì)多意圖識(shí)別任務(wù),Xu等人[8]采用對(duì)數(shù)線性模型并利用不同意圖組合之間的共享意圖信息進(jìn)行多意圖識(shí)別,但是針對(duì)大量的意圖組合則會(huì)出現(xiàn)數(shù)據(jù)稀疏問題。Kim等人[9]提出一種基于單意圖標(biāo)記訓(xùn)練數(shù)據(jù)的多意圖識(shí)別系統(tǒng)。他將句子看作三種類型,單意圖語句、帶連詞的多意圖語句和不帶連詞的多意圖語句,然后采用兩階段法,利用最大熵模型[10]和線性鏈條件隨機(jī)場(chǎng)(conditional random fields,CRF)分類器[11]實(shí)現(xiàn)多意圖識(shí)別,但限定只能識(shí)別兩種意圖。楊春妮等人[12]將用戶意圖文本進(jìn)行依存句法分析確定是否包含多種意圖,利用詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)和訓(xùn)練好的詞向量計(jì)算矩陣距離確定意圖的數(shù)量,將句法特征和CNN結(jié)合進(jìn)行意圖分類,最終判別用戶的多種意圖。該方法在10種類別的多意圖識(shí)別任務(wù)中取得不錯(cuò)的效果,但是依賴于句法結(jié)構(gòu)特征,因此基于深度學(xué)習(xí)的多意圖識(shí)別研究仍然比較少。
CNN是一種深度學(xué)習(xí)網(wǎng)絡(luò),它主要由輸入層、卷積層、池化層、全連接層和Softmax層五部分構(gòu)成[13]。膠囊網(wǎng)絡(luò)是一種新的深度神經(jīng)網(wǎng)絡(luò),它主要是對(duì)卷積神經(jīng)網(wǎng)絡(luò)的一種改進(jìn),主要包括輸入層、卷積層、初級(jí)膠囊層和全連接膠囊層[14]。“膠囊”的概念最初由Hinton等人[15]提出,用以解決CNN和RNN的表征局限性,一個(gè)膠囊包含一組神經(jīng)元的向量表示,向量的方向表示實(shí)體屬性,向量的長度表示實(shí)體存在的概率。Sabour等人[14]提出膠囊網(wǎng)絡(luò),將CNN的標(biāo)量輸出特征檢測(cè)器用矢量輸出膠囊代替,并且通過協(xié)議路由(protocol routing)代替最大池化(max-pooling)。相比于原來的CNN,膠囊網(wǎng)絡(luò)會(huì)通過動(dòng)態(tài)路由過程保留特征之間的準(zhǔn)確位置關(guān)系。因此,Zhao等人[16]首次將膠囊網(wǎng)絡(luò)用于文本分類任務(wù),分類性能優(yōu)于CNN,同時(shí)將膠囊網(wǎng)絡(luò)用于多標(biāo)簽文本分類任務(wù),提出三種動(dòng)態(tài)路由策略提高動(dòng)態(tài)路由過程的性能,以減輕噪聲(停用詞和與類別無關(guān)的詞)膠囊的干擾,在路透社數(shù)據(jù)集上獲得60.3%的性能效果。Xia等人[17]提出一種基于膠囊網(wǎng)絡(luò)的意圖膠囊模型,該模型對(duì)意圖文本提取加入自注意力機(jī)制的語義特征,然后采用動(dòng)態(tài)路由機(jī)制進(jìn)行意圖分類。該模型在意圖識(shí)別任務(wù)上取得了不錯(cuò)的效果,但是該方法僅僅針對(duì)單意圖進(jìn)行識(shí)別,并未對(duì)多意圖識(shí)別任務(wù)進(jìn)行研究。Renkens等人[18]針對(duì)少量訓(xùn)練集,研究膠囊網(wǎng)絡(luò)是否能夠有效利用有限可用的數(shù)據(jù)集進(jìn)行訓(xùn)練,考慮到原有的深度神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù),提出一種采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network,Bi-RNN)編碼的膠囊網(wǎng)絡(luò)完成口語理解任務(wù),實(shí)驗(yàn)表明該方法在GRABO數(shù)據(jù)集[19]上優(yōu)于其他基線方法,膠囊網(wǎng)絡(luò)能夠利用小數(shù)據(jù)集獲得更好的效果。由于膠囊網(wǎng)絡(luò)利用動(dòng)態(tài)路由可以建立特征之間的位置關(guān)系,使得在小型數(shù)據(jù)集上優(yōu)于結(jié)構(gòu)相似的卷積神經(jīng)網(wǎng)絡(luò)[20]。
膠囊網(wǎng)絡(luò)存在以下優(yōu)勢(shì):第一,相比于CNN,膠囊網(wǎng)絡(luò)中的動(dòng)態(tài)路由可以保留句子中出現(xiàn)概率較小的語義特征,保證特征信息的完整性,具有很好的魯棒性以及擬合特征的能力;第二,由于動(dòng)態(tài)路由無法共享權(quán)重,在大型數(shù)據(jù)集上耗費(fèi)時(shí)間較長,其他深度神經(jīng)網(wǎng)絡(luò)需要大量訓(xùn)練數(shù)據(jù)才可以學(xué)習(xí)到更好的效果,而膠囊網(wǎng)絡(luò)在小型數(shù)據(jù)集上就可以很好地利用訓(xùn)練數(shù)據(jù)。因此本文針對(duì)比較稀缺的多意圖語料,采用膠囊網(wǎng)絡(luò)構(gòu)造基于單意圖標(biāo)記的多意圖分類器對(duì)用戶的多意圖文本進(jìn)行研究,通過增加卷積膠囊層提取句子中的深層次語義信息,合理利用句子中的完整特征信息,動(dòng)態(tài)學(xué)習(xí)屬性特征和意圖類別之間的關(guān)系,從而完成多意圖識(shí)別任務(wù)。
假設(shè)帶有標(biāo)記的數(shù)據(jù)集記為{(S,L)},其中S表示樣本集合,Si是數(shù)據(jù)集中的一個(gè)樣本,L表示樣本所對(duì)應(yīng)的意圖標(biāo)簽的集合,記為L={l1,l2,…,ln}。如果Si對(duì)應(yīng)L集合中的兩個(gè)或兩個(gè)以上的標(biāo)簽,則說明一個(gè)句子中同時(shí)含有兩種或兩種以上的意圖,這樣的語句可以稱為多意圖文本。在多意圖文本中,如果可以同時(shí)識(shí)別出兩種或兩種以上的意圖稱為多意圖識(shí)別問題。
本文的模型結(jié)構(gòu)如圖1所示,主要分為四層:第一層為卷積層,用于提取句子中的n-gram特征;第二層為初級(jí)膠囊層,用于封裝句子中低級(jí)特征的各種屬性;第三層為卷積膠囊層,用于提取句子中的高層次語義信息,增強(qiáng)特征質(zhì)量;第四層為全連接膠囊層,將卷積膠囊層得到的高層次語義特征進(jìn)行整合,使其包含輸入句子的所有組合特征信息,如語法、語義和位置等信息,進(jìn)而完成意圖分類,同時(shí)在意圖膠囊類別中增加孤立膠囊(見圖1意圖膠囊中的深色膠囊)用于處理與意圖類別無關(guān)的特征信息,避免影響其他意圖種類的識(shí)別。
3.2.1 數(shù)據(jù)預(yù)處理
本文針對(duì)用戶的中文意圖文本,首先進(jìn)行分詞處理,然后采用word2vec得到詞語的詞矢量,進(jìn)而將意圖語句進(jìn)行向量化表示,使其作為深度學(xué)習(xí)模型的輸入向量。而英文數(shù)據(jù)本身詞和詞之間存在分隔,因此不需要進(jìn)行分詞處理,只需要將其詞矢量化然后表示成句子向量。
3.2.2 卷積層
卷積層主要對(duì)意圖文本進(jìn)行特征提取,通過卷積操作提取句子的n-gram特征。這里假設(shè)句子的長度為L,詞向量的維數(shù)為V,n1為n-gram的長度,為了獲取有序的詞組搭配信息,采用的濾波器以步長為1在句子的不同位置提取特征,因此會(huì)得到L-n1+1維的特征序列,每一維特征可以表示為:
如果采用X個(gè)n-gram長度為n1的濾波器進(jìn)行特征的提取,得到組合,即A=[a1,a2,…,aX]。
3.2.3 初級(jí)膠囊層
所謂膠囊是指一組向量神經(jīng)元的集合,每個(gè)神經(jīng)元表示意圖文本中出現(xiàn)的某個(gè)特征的不同屬性,例如:n-gram特征、單詞或短語的位置信息、句子的語法特征等。由于膠囊中包含的信息比較豐富,因此用矢量輸出膠囊代替CNN的標(biāo)量輸出特征檢測(cè)器可以使句子特征信息更加豐富。
初級(jí)膠囊層主要用于封裝句子低級(jí)特征的各種屬性,因此在卷積層上得到的低級(jí)特征中選取ngram長度為1的詞向量矩陣Ai(i=1,2,…,L-n1+1),為了封裝每個(gè)詞組的不同屬性,采用d種W2∈R1×X的濾波器以步長為1將低級(jí)特征變換成一組初級(jí)特征膠囊,膠囊的維度為d,每個(gè)膠囊特征中包含句子特征的多種屬性,如:詞和短語的語法以及位置信息等。此時(shí),就會(huì)得到L-n1+1個(gè)d維的膠囊,即,每一個(gè)膠囊的每一層可以表示為:
其中,ij表示第i(1 ≤i≤L-n1+1) 個(gè)膠囊的第j(1 ≤j≤d)層,b2表示偏置項(xiàng),f是非線性激活函數(shù),如果采用Y個(gè)過濾器,則會(huì)得到(L-n1+1)×Y個(gè)d維的膠囊,即。
3.2.4 卷積膠囊層
為了得到更深層次的語義信息,保證特征信息的質(zhì)量,本文采用卷積的方法對(duì)初級(jí)膠囊特征進(jìn)行卷積處理,選取n-gram長度為n2的低層膠囊(n2=3,便于將零散的語義特征進(jìn)行整合),采用d種W3∈n2×Y×d的濾波器以步長為1對(duì)初級(jí)膠囊特征再次進(jìn)行卷積操作,將n2×Y個(gè)低層膠囊(見圖1初級(jí)膠囊層的深色部分)記為ui,Z為高層膠囊的數(shù)量(相當(dāng)于有Z個(gè)濾波器)。為了學(xué)習(xí)低層特征膠囊和高層特征膠囊之間的關(guān)系,首先需要得到低層特征膠囊對(duì)高層特征膠囊的預(yù)測(cè)向量uj|i,同時(shí)利用動(dòng)態(tài)路由算法生成高層特征膠囊sj,最后得到(L-n1-n2+2)×Z個(gè)d維的高層膠囊。膠囊層之間的計(jì)算過程如圖2所示。
Fig.2 Calculation process diagram between capsule networks圖2 膠囊網(wǎng)絡(luò)之間的計(jì)算過程圖
其中,cij為低層膠囊連接高層膠囊的概率值,由動(dòng)態(tài)路由計(jì)算得出,也稱為動(dòng)態(tài)路由的耦合系數(shù),這些耦合系數(shù)的和為1,通過更新cij從而更新膠囊輸出值sj。在膠囊網(wǎng)絡(luò)中,低層膠囊到高層膠囊的變換都是以向量的形式進(jìn)行傳遞,因此需要對(duì)膠囊的方向進(jìn)行處理,即采用非線性激活函數(shù)squash[21],表達(dá)式如下:
vj是所有膠囊共同作用的結(jié)果,是將sj經(jīng)過squash非線性函數(shù)壓縮之后得到的整體預(yù)測(cè)向量,大小在0~1之間。該公式的前半部分為壓縮函數(shù),主要對(duì)vj向量的模長進(jìn)行約束,將其歸一化到0~1之間。后半部分則是將sj向量單位化,使其方向與vj一致。
3.2.5 全連接膠囊層
將卷積膠囊層中得到的高層膠囊向量展開存入膠囊列表中,同時(shí)輸出到全連接膠囊層中,高層特征膠囊和意圖膠囊之間通過矩陣變換,同時(shí)利用動(dòng)態(tài)路由算法計(jì)算每個(gè)高層特征膠囊對(duì)意圖膠囊作用的結(jié)果,得到意圖文本的最終膠囊表示以及它所屬類別的概率。其中,意圖膠囊層中的膠囊個(gè)數(shù)為意圖文本的類別數(shù)和孤立類別數(shù)之和,利用膠囊向量的模長表示意圖的概率大小,膠囊向量的方向表示意圖類別的屬性。孤立類別用于表示與意圖類別無關(guān)的信息以及未被訓(xùn)練成功的噪聲膠囊。
3.2.6 動(dòng)態(tài)路由
膠囊網(wǎng)絡(luò)的處理主要分為兩個(gè)階段,即仿射變換(矩陣變換)和動(dòng)態(tài)路由。仿射變換主要針對(duì)膠囊向量,借助神經(jīng)網(wǎng)絡(luò)中的線性組合對(duì)預(yù)測(cè)向量進(jìn)行計(jì)算,而動(dòng)態(tài)路由主要是解決低層膠囊連接高層膠囊所需權(quán)重大小的問題。
在動(dòng)態(tài)路由過程中,需要利用softmax函數(shù)不斷更新耦合系數(shù)cij,使其低層膠囊被動(dòng)態(tài)分配到合適的高層膠囊上,計(jì)算公式如下:
bij表示低層膠囊連接高層膠囊的先驗(yàn)概率,初始值為0,bij直接影響動(dòng)態(tài)路由過程中的cij。在膠囊網(wǎng)絡(luò)中,利用低層膠囊的輸入,即單個(gè)膠囊的預(yù)測(cè)向量uj|i和高層膠囊的輸出向量vj的內(nèi)積來判斷向量之間的相似性,同時(shí)用于更新bij。膠囊耦合系數(shù)越高表示兩個(gè)膠囊的相似度越高,低層膠囊連接高層膠囊的可能性就越大。
最后用輸出膠囊的范數(shù)(向量長度)計(jì)算輸出意圖標(biāo)簽的概率,利用間隔損失函數(shù)作為目標(biāo)函數(shù)使損失和最小化,每個(gè)膠囊vj的損失函數(shù)Lj定義如下:
其中,j表示意圖類別,Tj為分類的指示函數(shù),如果j類在意圖文本中存在,則Tj=1;反之,則Tj=0。||vj||表示意圖膠囊的輸出概率,m+為上界,設(shè)置為0.9,懲罰假陽性,若j類在意圖文本中存在,預(yù)測(cè)不存在則會(huì)導(dǎo)致?lián)p失函數(shù)的值很大。m-為下界,設(shè)置為0.1,懲罰假陰性,若j類在意圖文本中不存在,預(yù)測(cè)存在則會(huì)導(dǎo)致?lián)p失函數(shù)值很大。λ為比例系數(shù),用于調(diào)整公式前后部分的比例。
3.2.7 閾值設(shè)定
由于膠囊網(wǎng)絡(luò)中的動(dòng)態(tài)路由算法可以輸出屬于各類意圖的概率值,而且概率之和不為1,因此適用于多意圖分類問題。本文通過設(shè)置閾值為0.5來判定預(yù)測(cè)的意圖類別是否在意圖文本中,如果預(yù)測(cè)的意圖膠囊的概率大于閾值,則說明該意圖文本中含有該意圖類別,如果預(yù)測(cè)的意圖膠囊的概率小于閾值,則說明該意圖文本不包含該意圖類別。
本實(shí)驗(yàn)采用第七屆全國社會(huì)媒體處理大會(huì)SMP2017中文人機(jī)對(duì)話技術(shù)評(píng)測(cè)提供的實(shí)驗(yàn)語料[22]的補(bǔ)充以及英文數(shù)據(jù)集SNIP-nlu[17],其中中文數(shù)據(jù)集共包含27種單一意圖,共4 039句,英文數(shù)據(jù)集共包含7種意圖,共13 802句。本文主要利用以上數(shù)據(jù)收集基于單意圖標(biāo)簽的多意圖文本測(cè)試集,其中中文多意圖測(cè)試集共收集445句,英文多意圖測(cè)試集共收集610句,部分多意圖語料示例如表1所示。
本文主要針對(duì)較短的用戶意圖文本,多為對(duì)話文本進(jìn)行研究,每個(gè)句子中僅包含2種或3種意圖,多意圖測(cè)試集的統(tǒng)計(jì)數(shù)據(jù)如表2所示。
本實(shí)驗(yàn)采用64維的中文詞向量,300維的英文詞向量對(duì)用戶意圖文本進(jìn)行向量化表示,采用Adam-Optimize優(yōu)化算法模型,學(xué)習(xí)率設(shè)置為0.001,膠囊的維度設(shè)置為16。
Table 1 Examples of multi-intent corpus表1 多意圖語料示例
Table 2 Multi-intent test set description表2 多意圖測(cè)試集描述
多意圖識(shí)別任務(wù)不同于單意圖識(shí)別任務(wù),它需要考慮意圖文本中存在的多個(gè)意圖標(biāo)簽,因此在多意圖識(shí)別任務(wù)中,需要思考不同標(biāo)簽對(duì)意圖文本分類的影響。本文采用宏平均精確度(Macro_P)、宏平均召回率(Macro_R)、宏平均F1值(Macro_F)作為多意圖識(shí)別性能結(jié)果的評(píng)價(jià)指標(biāo),n表示類別數(shù),i表示每一種類別,計(jì)算公式如式(9)~式(11)所示。
本文采用CNN、膠囊網(wǎng)絡(luò)(CapsNet)和增加卷積膠囊層的膠囊網(wǎng)絡(luò)(CapsNet+Conv)分別在中文和英文數(shù)據(jù)集上對(duì)用戶的多意圖文本進(jìn)行實(shí)驗(yàn)。另外針對(duì)增加卷積膠囊層的膠囊網(wǎng)絡(luò)又分析了取不同ngram值得到的實(shí)驗(yàn)性能結(jié)果,各模型在中英文數(shù)據(jù)集上的多意圖識(shí)別性能結(jié)果如表3所示。
實(shí)驗(yàn)結(jié)果表明,在多意圖識(shí)別任務(wù)中,膠囊網(wǎng)絡(luò)優(yōu)于CNN,因?yàn)镃NN中的池化層只能提取句子中最顯著的語義特征或平均語義特征,忽略了有助于句子分析但出現(xiàn)概率較小的語義信息,而且CNN在訓(xùn)練過程中需要大量的語料數(shù)據(jù)。而膠囊網(wǎng)絡(luò)將CNN的標(biāo)量輸出用矢量膠囊代替,使得句子中的屬性特征信息更加豐富,同時(shí)膠囊網(wǎng)絡(luò)中的動(dòng)態(tài)路由可以將句子中的屬性特征動(dòng)態(tài)分配到意圖類別中,保留了句子中的全部語義特征,有助于提升性能效果,同時(shí)膠囊網(wǎng)絡(luò)適用于小型數(shù)據(jù)集,具有更好的擬合特征的能力。為了提升意圖文本特征的質(zhì)量,獲取更具有意圖類別特性的語義信息,本文通過增加卷積膠囊層提取句子中的深層次語義信息,使得最終提取到的特征包含句子中的所有高層次特征信息,如詞組、語序、語法和語義等信息,有助于多種意圖的識(shí)別,同時(shí)膠囊網(wǎng)絡(luò)中的動(dòng)態(tài)路由可以將提取到的完整語義特征動(dòng)態(tài)分配到意圖類別中,有助于完成多意圖識(shí)別任務(wù)。不同的n-gram值可以提取到意圖語句的不同詞組搭配,其中n-gram值取3時(shí),可以得到更好的詞組搭配,得到的多意圖識(shí)別性能最好。雖然相對(duì)于CNN和膠囊網(wǎng)絡(luò),增加卷積膠囊層的膠囊網(wǎng)絡(luò)的實(shí)驗(yàn)參數(shù)有所增加,實(shí)驗(yàn)過程需要的時(shí)間較長,但n-gram值取3時(shí),實(shí)驗(yàn)結(jié)果性能均好于CNN和膠囊網(wǎng)絡(luò)。相比于膠囊網(wǎng)絡(luò),n-gram值取3時(shí),增加卷積膠囊層的膠囊網(wǎng)絡(luò)在中英文數(shù)據(jù)集上的宏平均F1值分別提升0.092和0.071。
膠囊之間的關(guān)系運(yùn)算往往由動(dòng)態(tài)路由決定,本文在第一次動(dòng)態(tài)路由過程中通過迭代3次動(dòng)態(tài)學(xué)習(xí)初級(jí)特征膠囊與高層特征膠囊之間的關(guān)系,充分進(jìn)行語義搭配。第二次動(dòng)態(tài)路由可以將各種屬性特征融合后作用于意圖膠囊類別,從而完成多意圖分類。而且不同的路由迭代次數(shù)會(huì)影響多意圖識(shí)別的性能結(jié)果,本文在第二次動(dòng)態(tài)路由過程中通過使用2、3、4的迭代次數(shù)分別在中文數(shù)據(jù)集上和英文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
Table 3 Comparison of multi-intent detection performance results of different models表3 不同模型的多意圖識(shí)別性能結(jié)果對(duì)比
Table 4 Performance results of multi-intent detection with 2,3 and 4 routing iterations表4 路由迭代次數(shù)分別為2、3、4的多意圖識(shí)別性能結(jié)果
實(shí)驗(yàn)結(jié)果表明,在第二次動(dòng)態(tài)路由過程中,動(dòng)態(tài)路由迭代3次的效果最好,因?yàn)榈?次不能充分將高層特征膠囊與意圖膠囊動(dòng)態(tài)連接,沒有找到高層膠囊和意圖膠囊之間的最佳路由關(guān)系,使得性能較差,而迭代4次不僅需要花費(fèi)更長的時(shí)間,而且容易造成過擬合,導(dǎo)致識(shí)別性能降低。
在膠囊網(wǎng)絡(luò)模型中,多種意圖存在的概率往往取決于閾值的設(shè)定,本文主要分析閾值分別取0.4、0.5、0.6、0.7得到的多意圖識(shí)別性能結(jié)果,實(shí)驗(yàn)結(jié)果如圖3所示,圖3(a)為中文數(shù)據(jù)集中不同閾值得到的多意圖識(shí)別性能結(jié)果,圖3(b)為英文數(shù)據(jù)集中不同閾值得到的多意圖識(shí)別性能結(jié)果。結(jié)果表明在中英文數(shù)據(jù)集中,閾值取0.5時(shí),多意圖識(shí)別的宏平均準(zhǔn)確率、宏平均召回率和宏平均F1值均取得最高值,因?yàn)殚撝堤蠡蛱《紩?huì)使與意圖類別相關(guān)的意圖文本不能正確分類到相應(yīng)意圖標(biāo)簽中。因此本文通過設(shè)置閾值為0.5進(jìn)行多意圖分類,使得多意圖識(shí)別性能效果更好。
本文主要針對(duì)人機(jī)對(duì)話過程中用戶語句含有多種意圖的情況,而多意圖語料數(shù)據(jù)比較稀缺,膠囊網(wǎng)絡(luò)在小型數(shù)據(jù)集上可以很好地利用數(shù)據(jù),因此采用膠囊網(wǎng)絡(luò)構(gòu)造基于單意圖標(biāo)記的多意圖分類器對(duì)多意圖文本進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明膠囊網(wǎng)絡(luò)在多意圖識(shí)別任務(wù)上的性能效果優(yōu)于CNN,而且增加卷積膠囊層的膠囊網(wǎng)絡(luò)可以更優(yōu)化地利用語義特征進(jìn)而提升多意圖識(shí)別性能。不同的n-gram值會(huì)影響意圖文本中的詞組搭配關(guān)系,而n-gram值取3時(shí),增加卷積膠囊層的膠囊網(wǎng)絡(luò)得到的性能效果較好。在第二次的路由過程中,不同的路由迭代次數(shù)會(huì)影響識(shí)別性能結(jié)果,迭代3次得到的多意圖識(shí)別性能更好。
雖然本文在一定程度上取得了進(jìn)展,但是在多意圖識(shí)別任務(wù)以及膠囊網(wǎng)絡(luò)模型上還有許多值得研究的地方:(1)針對(duì)多意圖語料的稀缺問題,本文主要基于已有的單意圖標(biāo)簽收集多意圖測(cè)試集進(jìn)行研究,后續(xù)會(huì)采用零樣本學(xué)習(xí)[17]實(shí)現(xiàn)多意圖識(shí)別任務(wù),為對(duì)話系統(tǒng)的研究進(jìn)行鋪墊。(2)針對(duì)膠囊網(wǎng)絡(luò)模型,本文主要改進(jìn)了特征質(zhì)量,下一步準(zhǔn)備對(duì)膠囊網(wǎng)絡(luò)中的動(dòng)態(tài)路由算法進(jìn)行改進(jìn),利用數(shù)學(xué)方法減少模型參數(shù),提升模型效率。
Fig.3 Comparison of performance results of different threshold values in Chinese and English datasets圖3 中英文數(shù)據(jù)集中不同閾值得到的性能結(jié)果對(duì)比