趙鵬飛,李艷玲,林 民
內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特010022
口語(yǔ)理解在人機(jī)對(duì)話系統(tǒng)任務(wù)中具有十分重要的作用。為了讓機(jī)器理解用戶的需求并進(jìn)行反饋,口語(yǔ)理解通常利用三個(gè)模塊對(duì)用戶輸入內(nèi)容進(jìn)行分析,分別是領(lǐng)域識(shí)別、意圖識(shí)別和語(yǔ)義槽填充,其中,意圖識(shí)別的準(zhǔn)確性能夠直接影響口語(yǔ)理解的性能。隨著智能人機(jī)對(duì)話系統(tǒng)應(yīng)用的廣泛發(fā)展,例如Siri、Cortana以及智能教育系統(tǒng)和預(yù)訂票務(wù)系統(tǒng),人們逐漸體會(huì)到了人機(jī)對(duì)話系統(tǒng)的便利性和實(shí)用性,對(duì)于其他新領(lǐng)域?qū)υ捪到y(tǒng)的需求也在增加。因此,開(kāi)發(fā)新領(lǐng)域?qū)υ捪到y(tǒng)成為當(dāng)前的研究熱點(diǎn)。在新領(lǐng)域開(kāi)發(fā)過(guò)程中,通常很難獲得可直接用于模型訓(xùn)練的數(shù)據(jù)和標(biāo)簽,這導(dǎo)致了訓(xùn)練新模型需要昂貴的代價(jià)。為了解決新領(lǐng)域數(shù)據(jù)不足的問(wèn)題,目前通常的做法是利用遷移學(xué)習(xí)。
遷移學(xué)習(xí)能夠?qū)⒃慈蝿?wù)中的知識(shí)和信息最大化地遷移到目標(biāo)任務(wù)中,解決目標(biāo)任務(wù)的相關(guān)問(wèn)題。近年來(lái),遷移學(xué)習(xí)在圖像識(shí)別、目標(biāo)檢測(cè)以及跨語(yǔ)言翻譯方面應(yīng)用廣泛,并在實(shí)際領(lǐng)域發(fā)揮作用,比如醫(yī)學(xué)領(lǐng)域、物理領(lǐng)域等[1]。Wu等人[2]針對(duì)低分辨率圖像分類問(wèn)題,提出利用源域高分辨率圖像和低分辨率圖像進(jìn)行模型的預(yù)訓(xùn)練,并將其嵌入目標(biāo)任務(wù)的分類模型中,提升目標(biāo)任務(wù)的分類性能。Chen等人[3]利用遷移學(xué)習(xí)的預(yù)訓(xùn)練模型對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行模塊微調(diào),解決跨領(lǐng)域的醫(yī)學(xué)圖像分類問(wèn)題。對(duì)抗網(wǎng)絡(luò)是實(shí)現(xiàn)遷移學(xué)習(xí)中領(lǐng)域適應(yīng)的一種有效方法,膠囊網(wǎng)絡(luò)對(duì)于小樣本特征提取具有一定優(yōu)勢(shì)。本文針對(duì)新領(lǐng)域人機(jī)對(duì)話系統(tǒng)中意圖識(shí)別訓(xùn)練數(shù)據(jù)較少的問(wèn)題,利用膠囊網(wǎng)絡(luò)改進(jìn)領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)解決訓(xùn)練數(shù)據(jù)稀缺的意圖識(shí)別問(wèn)題。
意圖識(shí)別問(wèn)題其本質(zhì)也屬于一種文本分類問(wèn)題。楊志明等人[4-5]針對(duì)意圖文本較短以及卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)不能充分學(xué)習(xí)到意圖特征表示和語(yǔ)義信息的問(wèn)題,提出一種雙通道CNN算法,利用字級(jí)別詞向量輔助詞級(jí)別詞向量捕捉更深層次的語(yǔ)義信息,該方法對(duì)于解決意圖識(shí)別中的短文本問(wèn)題具有一定效果。侯麗仙等人[6]針對(duì)意圖識(shí)別以及語(yǔ)義槽填充任務(wù),采用一種增加門控機(jī)制、注意力機(jī)制以及條件隨機(jī)場(chǎng)約束條件的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory,BiLSTM)方法,該方法在航空信息領(lǐng)域數(shù)據(jù)集上取得了不錯(cuò)的效果。劉嬌等人[7]針對(duì)意圖文本較短以及CNN中池化操作可能丟失特征信息的問(wèn)題,采用一種改進(jìn)膠囊網(wǎng)絡(luò)的意圖識(shí)別算法,該方法驗(yàn)證了膠囊網(wǎng)絡(luò)在意圖文本特征提取方面的優(yōu)勢(shì)。尹春勇等人[8]針對(duì)CNN丟失部分特征信息以及膠囊網(wǎng)絡(luò)準(zhǔn)確度較低的問(wèn)題,提出一種增加兩層CNN的膠囊網(wǎng)絡(luò)方法,通過(guò)對(duì)文本進(jìn)行兩層卷積操作再利用膠囊網(wǎng)絡(luò)捕捉更深層次的特征信息。
遷移學(xué)習(xí)有基于實(shí)例的方法、基于網(wǎng)絡(luò)的方法以及基于領(lǐng)域適應(yīng)的方法[1]。領(lǐng)域適應(yīng)是遷移學(xué)習(xí)的重要實(shí)現(xiàn)方向,其目標(biāo)是在源數(shù)據(jù)集上建立一個(gè)性能良好的神經(jīng)網(wǎng)絡(luò),并確保該神經(jīng)網(wǎng)絡(luò)在目標(biāo)數(shù)據(jù)集上也具有良好的性能。領(lǐng)域適應(yīng)的實(shí)現(xiàn)方法中主要包括基于分布的領(lǐng)域適應(yīng)和基于對(duì)抗的領(lǐng)域適應(yīng)。Pan等人[9]提出一種基于遷移成分分析(Transfer Component Analysis,TCP)的邊緣分布領(lǐng)域適應(yīng)方法,該方法利用最大平均差異(Maximum Mean Discrepancy,MMD)學(xué)習(xí)源域和目標(biāo)域的數(shù)據(jù)映射。在此數(shù)據(jù)映射空間中,源域和目標(biāo)域盡可能接近且相似,利用該特征空間完成源域到目標(biāo)域的遷移。Zellinger等人[10]針對(duì)最大平均差異的高階特性,提出一種基于最大平均差異的中心矩陣差異算法,該方法通過(guò)高階矩陣差異進(jìn)行匹配概率分布的中心矩陣,解決了最大平均差異存在的計(jì)算量大的問(wèn)題,在遷移學(xué)習(xí)數(shù)據(jù)集上取得了一定的效果。Goodfellow等人[11]首次提出生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN),首先利用生成器生成樣本,將生成樣本輸入到判別器與真實(shí)數(shù)據(jù)進(jìn)行對(duì)抗訓(xùn)練,目標(biāo)是使生成器數(shù)據(jù)盡可能接近真實(shí)數(shù)據(jù),判別器盡可能無(wú)法區(qū)別數(shù)據(jù)的真?zhèn)?。Ajakan等人[12]針對(duì)目標(biāo)域數(shù)據(jù)稀缺的問(wèn)題,提出一種領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)(Domain-Adversarial Neural Network,DANN)方法,該方法首次將對(duì)抗訓(xùn)練引入遷移學(xué)習(xí),通過(guò)對(duì)抗訓(xùn)練,特征提取器能夠?qū)W習(xí)到源域和目標(biāo)域的公共特征,即域不變特征,利用域不變特征對(duì)目標(biāo)域進(jìn)行分類。Ganin等人[13]利用領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)解決了目標(biāo)域數(shù)據(jù)稀缺的問(wèn)題,領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)在MNIST-M數(shù)據(jù)集上獲得了76.6%的準(zhǔn)確率,驗(yàn)證了對(duì)抗網(wǎng)絡(luò)的有效性。Daniel等人[14]針對(duì)目標(biāo)語(yǔ)言數(shù)據(jù)稀缺的問(wèn)題,利用領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)完成了在文本方面的研究,在亞馬遜情感分類的跨領(lǐng)域適應(yīng)任務(wù)中,該方法獲得了88.8%的準(zhǔn)確率,在低資源語(yǔ)言無(wú)標(biāo)記數(shù)據(jù)領(lǐng)域獲得了78.8%的準(zhǔn)確率,上述實(shí)驗(yàn)驗(yàn)證了領(lǐng)域?qū)咕W(wǎng)絡(luò)在文本方面的可行性。趙鵬飛等人[1]針對(duì)對(duì)話系統(tǒng)中新領(lǐng)域?qū)υ捳Z(yǔ)料相對(duì)稀缺的相關(guān)問(wèn)題,綜述了意圖識(shí)別的相關(guān)方法模型,提出未來(lái)對(duì)于解決新領(lǐng)域?qū)υ挃?shù)據(jù)稀缺的意圖識(shí)別研究方向。
本文受文獻(xiàn)[7-8,11-12,14]的啟發(fā),傳統(tǒng)領(lǐng)域判別器無(wú)法深層次提取不同領(lǐng)域的獨(dú)有意圖特征,導(dǎo)致領(lǐng)域判別器對(duì)源域和目標(biāo)域的判別能力弱以及特征提取器的混淆能力差。為了提升領(lǐng)域的判別能力,利用膠囊網(wǎng)絡(luò)對(duì)領(lǐng)域判別器進(jìn)行改進(jìn)。使用膠囊網(wǎng)絡(luò)對(duì)輸入至領(lǐng)域判別器的源域和目標(biāo)特征進(jìn)行多次提取,深層次捕捉意圖文本特征,提取足夠多的領(lǐng)域特征信息,提升領(lǐng)域判別能力,保障領(lǐng)域適應(yīng)的可靠性。通過(guò)該方法解決新領(lǐng)域人機(jī)對(duì)話系統(tǒng)中數(shù)據(jù)稀缺的意圖識(shí)別問(wèn)題。
本方法的主要框架如圖1所示,主要包含五個(gè)部分:輸入層、特征提取器、意圖識(shí)別器、梯度反轉(zhuǎn)層和領(lǐng)域判別器。
圖1 模型框架圖Fig.1 Model structure diagram
本文針對(duì)新領(lǐng)域?qū)υ捪到y(tǒng)中意圖識(shí)別數(shù)據(jù)稀缺的問(wèn)題,采用領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)將源域特征遷移到目標(biāo)域,解決目標(biāo)域數(shù)據(jù)稀缺的問(wèn)題。模型優(yōu)化過(guò)程中,領(lǐng)域判別器需要盡可能正確區(qū)分特征的來(lái)源,而特征提取器則要盡可能讓領(lǐng)域判別器無(wú)法區(qū)分特征來(lái)源,因此兩個(gè)部分形成對(duì)抗訓(xùn)練。通過(guò)這種方式使得特征提取器能夠?qū)W習(xí)到一個(gè)公共特征空間,即域不變特征。該特征具有兩個(gè)特點(diǎn):(1)特征提取器利用該特征無(wú)法區(qū)分其來(lái)自源域或目標(biāo)域;(2)目標(biāo)域使用該特征可以進(jìn)行意圖識(shí)別。由此可知,本文的主要思想是利用對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)域不變特征。
另外,本文針對(duì)傳統(tǒng)對(duì)抗網(wǎng)絡(luò)中領(lǐng)域判別模塊無(wú)法更好地提取領(lǐng)域特征信息,降低了領(lǐng)域判別能力,從而限制了特征提取器領(lǐng)域混淆能力的問(wèn)題,提出一種結(jié)合膠囊網(wǎng)絡(luò)的領(lǐng)域適應(yīng)方法。通過(guò)對(duì)源域和目標(biāo)域特征進(jìn)行二次提取,充分提取意圖文本的深層次特征信息,捕捉不同領(lǐng)域的獨(dú)有特征,提高領(lǐng)域的判別能力,提升領(lǐng)域適應(yīng)的可靠性,并且提升意圖識(shí)別器對(duì)目標(biāo)域的意圖識(shí)別能力。
模型的訓(xùn)練過(guò)程分為兩個(gè)階段:第一階段,由源域和目標(biāo)域中少量已標(biāo)注數(shù)據(jù)共同訓(xùn)練意圖識(shí)別器,使意圖識(shí)別器具有良好的分類性能且對(duì)目標(biāo)域有效;第二階段,由源域和目標(biāo)域共同訓(xùn)練領(lǐng)域判別器,使特征提取器能夠更好地學(xué)習(xí)域不變特征,領(lǐng)域判別器能夠很好地區(qū)分領(lǐng)域來(lái)源。通過(guò)兩個(gè)階段的共同訓(xùn)練,目標(biāo)域意圖文本利用特征提取器捕捉到具有域不變特征的信息表示,完成意圖識(shí)別任務(wù)。
輸入層的主要目的是對(duì)意圖文本進(jìn)行向量化表示。中文數(shù)據(jù)集的數(shù)據(jù)預(yù)處理包括分詞以及去停用詞等,英文數(shù)據(jù)集的數(shù)據(jù)預(yù)處理包括大小寫轉(zhuǎn)換等。模型的輸入是長(zhǎng)度為x的意圖文本,在此模塊中使用預(yù)訓(xùn)練Word2Vec詞向量獲得每個(gè)詞的詞嵌入,并將其映射到高維向量空間得到K維詞向量表示,即(e1,e2,…,ex)。
特征提取器的主要作用是提取用戶的意圖文本特征,并且最大程度地將來(lái)自源域和目標(biāo)域的特征信息進(jìn)行混淆,使其所學(xué)習(xí)到的特征信息無(wú)法區(qū)分領(lǐng)域來(lái)源,即完成域不變特征的學(xué)習(xí)。特征提取器包括兩個(gè)階段的訓(xùn)練,第一階段僅使用源域數(shù)據(jù)進(jìn)行訓(xùn)練,并將訓(xùn)練后的特征表示輸入意圖識(shí)別器;第二階段數(shù)據(jù)由源域和目標(biāo)域組成,并將訓(xùn)練后的特征表示反饋給領(lǐng)域判別器。特征提取器利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本的句子進(jìn)行特征提取,每個(gè)句子經(jīng)過(guò)預(yù)處理構(gòu)建成一個(gè)標(biāo)準(zhǔn)化的表示:s=?x×K,這里x代表標(biāo)準(zhǔn)化后句子的長(zhǎng)度,K代表預(yù)訓(xùn)練詞向量的維度。通過(guò)不同維度(i=[3,4,5])的濾波器對(duì)原始句子進(jìn)行特征提取,如式(1)所示:
其中,f代表非線性激活函數(shù),W代表濾波器,b代表偏置項(xiàng),i代表濾波器的窗口大小。
模型的第一階段為意圖識(shí)別器的訓(xùn)練,整個(gè)階段由輸入層、特征提取器和意圖識(shí)別器構(gòu)成。通過(guò)將源域意圖文本所獲取到的特征表示輸入到意圖識(shí)別器中進(jìn)行模型訓(xùn)練。在訓(xùn)練過(guò)程中,將目標(biāo)域中少量已標(biāo)注數(shù)據(jù)加入源域中共同訓(xùn)練,提升模型對(duì)目標(biāo)域的有效性和對(duì)意圖的識(shí)別能力。模型訓(xùn)練結(jié)構(gòu)如圖2所示。
圖2 意圖識(shí)別器訓(xùn)練網(wǎng)絡(luò)Fig.2 Intent detection training network
通過(guò)全連接層將特征提取器中所獲取的特征表示進(jìn)行展開(kāi),將特征表示轉(zhuǎn)換成一個(gè)長(zhǎng)度為||C||的向量,其中C表示意圖類別的個(gè)數(shù)。通過(guò)softmax激活函數(shù)計(jì)算每個(gè)意圖類別的概率,如式(2):
其中,h表示特征提取器所捕捉到的特征信息,y表示源域意圖中每個(gè)意圖類別的概率。意圖識(shí)別器的損失函數(shù)為交叉熵?fù)p失函數(shù),如式(3)所示:
其中,xi表示源域和少量目標(biāo)域的輸入;Gf表示特征提取器;Gy表示意圖識(shí)別器;yi表示源域的意圖標(biāo)簽,其中包含了少量目標(biāo)域的意圖類別。
傳統(tǒng)的反向傳播過(guò)程會(huì)同時(shí)優(yōu)化兩個(gè)部分,無(wú)法實(shí)現(xiàn)特征提取器和領(lǐng)域判別器的對(duì)抗訓(xùn)練過(guò)程。因此,將梯度反轉(zhuǎn)層引入特征提取器和領(lǐng)域判別器之間,目的是將判別器傳入提取器的梯度進(jìn)行反向,從而實(shí)現(xiàn)兩個(gè)部分對(duì)抗訓(xùn)練的效果。
2014年,Ganin等人[13]首次將梯度反轉(zhuǎn)層引入到神經(jīng)網(wǎng)絡(luò)中,利用梯度反轉(zhuǎn)層實(shí)現(xiàn)對(duì)抗訓(xùn)練,解決領(lǐng)域適應(yīng)問(wèn)題。梯度反轉(zhuǎn)層主要包括兩部分內(nèi)容:前向傳播和反向傳播。前向傳播時(shí),只對(duì)特征表示做線性轉(zhuǎn)換而不改變特征表示的內(nèi)容,如式(4)所示;反向傳播是將傳入本層的誤差乘以一個(gè)負(fù)值,使得特征提取器和領(lǐng)域判別器的訓(xùn)練效果相反,實(shí)現(xiàn)對(duì)抗訓(xùn)練,如式(5)所示:
領(lǐng)域判別器的作用是盡可能正確區(qū)分特征來(lái)自于源域或者目標(biāo)域。普通卷積神經(jīng)網(wǎng)絡(luò)無(wú)法深層次提取特定領(lǐng)域的意圖特征且容易造成特征丟失問(wèn)題,導(dǎo)致其對(duì)源域和目標(biāo)域的判別能力下降。為了提升領(lǐng)域判別器的判別能力,本文利用膠囊網(wǎng)絡(luò)對(duì)其進(jìn)行改進(jìn),通過(guò)對(duì)源域和目標(biāo)域的特征信息進(jìn)行多次學(xué)習(xí),深層次捕獲源域和目標(biāo)域的特征信息,學(xué)習(xí)更加豐富的特征表達(dá)。而且,利用膠囊網(wǎng)絡(luò)能夠提取用來(lái)區(qū)分源域和目標(biāo)域的獨(dú)有特征,提升模型的判別能力,為實(shí)現(xiàn)領(lǐng)域適應(yīng)提供保障。模型的第二階段為領(lǐng)域判別器的訓(xùn)練,整個(gè)階段由輸入層、特征提取器、梯度反轉(zhuǎn)層和領(lǐng)域判別器構(gòu)成。領(lǐng)域判別器的結(jié)構(gòu)為膠囊網(wǎng)絡(luò),如圖3所示。
圖3 基于膠囊網(wǎng)絡(luò)的領(lǐng)域判別器Fig.3 Domain discriminator based on capsule network
膠囊網(wǎng)絡(luò)分為三層:卷積層、膠囊層以及領(lǐng)域膠囊層。卷積層對(duì)源域和目標(biāo)域的特征表示進(jìn)行特征提取,充分捕捉意圖文本中的特征信息。膠囊層主要將卷積層的輸出作為輸入并生成一組膠囊單元,即將卷積層所獲得的特征表示用膠囊單元進(jìn)行封裝。本質(zhì)上,每個(gè)膠囊單元來(lái)自于卷積層的特征加權(quán)和。為了獲得膠囊單元,采用d種W=?1×m濾波器對(duì)卷積層的輸出進(jìn)行加權(quán)和,通過(guò)膠囊層獲得(x-n+1)×d的膠囊單元,如式(6)所示:
其中,Ac:c+1表示卷積層的輸出,W表示濾波器,b表示偏置項(xiàng),f表示激活函數(shù)。
同時(shí),采用z個(gè)濾波器進(jìn)行特征提取,獲得句子的特征圖表示,Z=?(x-n+1)×z×d。
領(lǐng)域膠囊層主要由領(lǐng)域膠囊組成。源域和目標(biāo)域均由上層d個(gè)主要膠囊產(chǎn)生的矢量作為此層輸入,輸出源域和目標(biāo)域的膠囊類別,其主要的膠囊變換由動(dòng)態(tài)路由算法進(jìn)行操作。
動(dòng)態(tài)路由算法完成上層膠囊到下層膠囊的轉(zhuǎn)換,其輸入由膠囊層的輸出提供,其輸出為領(lǐng)域膠囊單元,圖4表示動(dòng)態(tài)路由算法的轉(zhuǎn)換過(guò)程。
圖4 基于動(dòng)態(tài)路由的膠囊轉(zhuǎn)換Fig.4 Capsule conversion based on dynamic routing
在動(dòng)態(tài)路由算法中,對(duì)bij進(jìn)行初始化并獲得初始化的耦合系數(shù)cij,即膠囊間轉(zhuǎn)換權(quán)重,如式(7)、(8)所示:
其中,i表示當(dāng)前層膠囊單元,j表示下層膠囊單元。
上層膠囊ui通過(guò)權(quán)重Wi獲得預(yù)測(cè)向量uj|i,如式(9);利用初始化的膠囊權(quán)重以獲得膠囊輸出sj,如式(10);通過(guò)激活函數(shù)Squashing對(duì)sj進(jìn)行處理獲得下層的膠囊輸出vj,如式(11);通過(guò)預(yù)測(cè)向量uj|i和膠囊輸出vj進(jìn)一步更新膠囊權(quán)重cij。已有實(shí)驗(yàn)表明[7],迭代次數(shù)為3時(shí),可以獲得最好的權(quán)重值表示。
領(lǐng)域判別器損失函數(shù)為Margin損失函數(shù),如式(12)所示,該損失函數(shù)類似于交叉熵?fù)p失函數(shù),其對(duì)每個(gè)表示領(lǐng)域類別的膠囊分別給出單獨(dú)邊緣損失函數(shù)。
其中,xi表示源域和目標(biāo)域的輸入,Gf表示特征提取器,Gd表示領(lǐng)域判別器,di表示領(lǐng)域標(biāo)簽,c表示領(lǐng)域類別,Tc表示領(lǐng)域類別的指示函數(shù),||vj||表示領(lǐng)域類別膠囊的輸出概率,m+為上界,通常設(shè)置為0.9,m-為下界,通常設(shè)置為0.1。模型的總體優(yōu)化損失由意圖識(shí)別器分類損失以及領(lǐng)域判別器膠囊損失構(gòu)成,如公式(13)所示:
其中,yi表示源域和少量目標(biāo)域的意圖標(biāo)簽,di表示領(lǐng)域標(biāo)簽。
本次實(shí)驗(yàn)采用的數(shù)據(jù)集包括:SNIP-NLU[15](英文)、ATIS航空領(lǐng)域人機(jī)對(duì)話系統(tǒng)語(yǔ)料[16](中文)、SMP中文人機(jī)對(duì)話評(píng)測(cè)語(yǔ)料以及團(tuán)隊(duì)擴(kuò)充語(yǔ)料[17](中文)。數(shù)據(jù)集示例及介紹如表1所示。
表1 數(shù)據(jù)集示例及介紹Table 1 Dataset example and introduction
本次實(shí)驗(yàn)中文數(shù)據(jù)集利用維基百科的預(yù)訓(xùn)練word2vec詞向量,其中,中文詞向量28維,英文詞向量300維,利用word2vec詞向量對(duì)用戶的輸入文本進(jìn)行向量化表示。
意圖識(shí)別任務(wù)本質(zhì)上屬于文本分類任務(wù)。通常使用準(zhǔn)確率、精確率以及F1值對(duì)模型的性能進(jìn)行評(píng)價(jià)[1]。在本實(shí)驗(yàn)中也使用上述評(píng)價(jià)標(biāo)準(zhǔn)。
從相關(guān)的領(lǐng)域適應(yīng)文獻(xiàn)中選取具有代表性的相關(guān)方法與本實(shí)驗(yàn)方法進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)比方法如下:其一,Tzeng等人[18]提出一種深度領(lǐng)域混淆方法(DDC);其二,利用膠囊網(wǎng)絡(luò)改進(jìn)深度混淆方法中的強(qiáng)分類機(jī)制模型方法(DDC+Capsule);其三,Ganin等人[13]提出的一種領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)方法(DANN)。對(duì)比實(shí)驗(yàn)中所有的源域數(shù)據(jù)數(shù)量以及目標(biāo)域已標(biāo)注數(shù)據(jù)數(shù)量均一致,實(shí)驗(yàn)設(shè)置和詞向量維度均一致。
對(duì)比實(shí)驗(yàn)在源域選擇英文數(shù)據(jù)集B、R、W、M,目標(biāo)域選擇P,并將目標(biāo)域中500個(gè)已標(biāo)注樣本加入源域中共同訓(xùn)練意圖識(shí)別器。實(shí)驗(yàn)結(jié)果如表2所示。
表2 在不同領(lǐng)域判別器下模型的準(zhǔn)確率Table 2 Accuracy of model on different discriminator
結(jié)果表明,利用膠囊網(wǎng)絡(luò)改進(jìn)領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)中的領(lǐng)域判別器的實(shí)驗(yàn)方法,在同樣的測(cè)試樣本取得了88.3%的準(zhǔn)確率,改進(jìn)后的模型相比于原始模型分別提升了0.072、0.054、0.031。實(shí)驗(yàn)表明,通過(guò)膠囊網(wǎng)絡(luò)對(duì)源域和目標(biāo)域的意圖特征進(jìn)行再次提取,保存了句子中的多種特征。通過(guò)膠囊間的動(dòng)態(tài)路由轉(zhuǎn)換,對(duì)句子中所包含特征進(jìn)行進(jìn)一步的聚類表示,充分學(xué)習(xí)了源域和目標(biāo)域的意圖文本的大多數(shù)信息,包括語(yǔ)義、語(yǔ)序以及方向等,更深層次的捕捉領(lǐng)域間的獨(dú)有特征表示,進(jìn)一步提升了領(lǐng)域判別器對(duì)源域和目標(biāo)域的判別能力,提高了模型的領(lǐng)域適應(yīng)能力,對(duì)目標(biāo)域的意圖識(shí)別準(zhǔn)確率具有一定效果。
為了盡可能模擬目標(biāo)域包含不同數(shù)量已標(biāo)注樣本對(duì)意圖識(shí)別準(zhǔn)確率的影響,將目標(biāo)域中不同數(shù)量的已標(biāo)注樣本加入源域共同訓(xùn)練意圖識(shí)別器進(jìn)行實(shí)驗(yàn)分析。實(shí)際應(yīng)用中標(biāo)注大量數(shù)據(jù)的代價(jià)是十分昂貴的,因此,本實(shí)驗(yàn)僅使用少量已標(biāo)注數(shù)據(jù),在實(shí)際應(yīng)用過(guò)程中,標(biāo)記少量數(shù)據(jù)相對(duì)容易。在SNIP-NLU英文數(shù)據(jù)集中選取上述四個(gè)領(lǐng)域作為源域,目標(biāo)域選擇另外一個(gè)領(lǐng)域。從目標(biāo)域中選取M={100,200,300,400,500}作為目標(biāo)域的已標(biāo)注數(shù)據(jù)量,目標(biāo)域測(cè)試數(shù)據(jù)選取1 000個(gè)數(shù)據(jù)樣本進(jìn)行評(píng)測(cè),在此模型上做了5個(gè)任務(wù)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同已標(biāo)注目標(biāo)域下模型在1 000個(gè)樣本的準(zhǔn)確率Table 3 Accuracy of model in 1 000 samples under different target domains and labeled data
實(shí)驗(yàn)表明,排除部分噪聲數(shù)據(jù)外,總體模型準(zhǔn)確率隨著已標(biāo)注數(shù)據(jù)量的增加而增加。目標(biāo)域已標(biāo)注數(shù)據(jù)量?jī)H為100的情況下,通過(guò)源域和目標(biāo)域的意圖樣本對(duì)抗訓(xùn)練,在目標(biāo)域數(shù)據(jù)下可以取得平均85.1%的準(zhǔn)確率,目標(biāo)域已標(biāo)注數(shù)據(jù)量為500時(shí),可以獲得平均92.7%的準(zhǔn)確率??梢钥吹?,隨著目標(biāo)域已標(biāo)注數(shù)據(jù)量的增加,每增加100個(gè)已標(biāo)注數(shù)據(jù)樣本,模型可以取得平均0.015的提升,總體平均準(zhǔn)確率達(dá)到88.9%,驗(yàn)證了該方法的有效性。
另外,噪聲數(shù)據(jù)的存在影響了模型的總體提升走向。如圖5所示,隨著目標(biāo)域數(shù)據(jù)量的增加,每個(gè)任務(wù)均有不符合總體趨勢(shì)的情況。從表2中可以看到,當(dāng)源域選擇為B、W、P、M,目標(biāo)域選擇為B時(shí),在已標(biāo)注數(shù)據(jù)為300的情況下,測(cè)試結(jié)果出現(xiàn)了下降的情況。通過(guò)對(duì)相關(guān)數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)的分析,原因主要是:其一,在數(shù)據(jù)集P中包含了一些“想要播放音樂(lè)”的相關(guān)表述,與數(shù)據(jù)集B中“想要預(yù)訂餐廳”存在一定的相似性,造成意圖混淆,導(dǎo)致準(zhǔn)確率下降。其二,數(shù)據(jù)量較少的問(wèn)題,導(dǎo)致多輪迭代后造成過(guò)擬合現(xiàn)象對(duì)實(shí)驗(yàn)結(jié)果造成影響。通過(guò)分析,模型性能變化的最主要原因是在英文數(shù)據(jù)集中不同領(lǐng)域存在文本信息的交叉情況,即領(lǐng)域間文本表述相似度高。
圖5 準(zhǔn)確率隨標(biāo)注數(shù)據(jù)量的變化曲線Fig.5 Change curve of accuracy rate with amount of labeled data
中文領(lǐng)域人機(jī)對(duì)話系統(tǒng)的意圖識(shí)別任務(wù)中,中文意圖識(shí)別數(shù)據(jù)集更為稀缺。因此,利用結(jié)合膠囊網(wǎng)絡(luò)的對(duì)抗意圖識(shí)別方法解決中文領(lǐng)域意圖識(shí)別任務(wù)尤為重要。
為了解決上述問(wèn)題,本實(shí)驗(yàn)中文數(shù)據(jù)采用ATIS航空領(lǐng)域人機(jī)對(duì)話系統(tǒng)語(yǔ)料、SMP2020中文人機(jī)對(duì)話評(píng)測(cè)語(yǔ)料以及擴(kuò)充語(yǔ)料,其中ATIS數(shù)據(jù)集作為源域,SMP2020中的單個(gè)領(lǐng)域作為目標(biāo)域進(jìn)行中文數(shù)據(jù)下的遷移訓(xùn)練,模型結(jié)果如表4所示。表4結(jié)果表明,意圖識(shí)別器在源域上的準(zhǔn)確率可以達(dá)到90.6%,使用性能優(yōu)良的意圖識(shí)別器在中文目標(biāo)域數(shù)據(jù)集上也可以獲得平均83.3%的準(zhǔn)確率。可以得到結(jié)論,利用膠囊網(wǎng)絡(luò)改進(jìn)的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)方法能夠在一定程度解決中文領(lǐng)域意圖識(shí)別任務(wù)訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。
表4 模型在中文數(shù)據(jù)集下的準(zhǔn)確率Table 4 Accuracy of model on Chinese dataset
本文主要針對(duì)新領(lǐng)域?qū)υ捪到y(tǒng)中訓(xùn)練語(yǔ)料稀缺的問(wèn)題進(jìn)行意圖識(shí)別方法研究。利用膠囊網(wǎng)絡(luò)改進(jìn)領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò),通過(guò)梯度反轉(zhuǎn)層的對(duì)抗訓(xùn)練完成領(lǐng)域自適應(yīng),從而完成知識(shí)遷移。膠囊網(wǎng)絡(luò)在數(shù)據(jù)量較少領(lǐng)域的訓(xùn)練結(jié)果較好,且其獨(dú)有的膠囊長(zhǎng)度代表了其類別概率,可以很好地獲取意圖文本特征,提升領(lǐng)域判別能力。實(shí)驗(yàn)結(jié)果表明,結(jié)合膠囊網(wǎng)絡(luò)的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)可以很好地學(xué)習(xí)源域和目標(biāo)域的域不變特征,目標(biāo)域數(shù)據(jù)可以利用源域所訓(xùn)練的分類器獲得不錯(cuò)的效果,驗(yàn)證了領(lǐng)域適應(yīng)在意圖識(shí)別的可應(yīng)用性。為將來(lái)利用遷移學(xué)習(xí)研究新領(lǐng)域人機(jī)對(duì)話系統(tǒng)奠定了一定的基礎(chǔ)。
本文雖然在一定程度上對(duì)遷移學(xué)習(xí)的意圖識(shí)別問(wèn)題取得了進(jìn)展,但就意圖識(shí)別任務(wù)本身還有許多值得研究的問(wèn)題:(1)針對(duì)多意圖識(shí)別,有時(shí)用戶的輸入文本不可能總包含單一意圖,可能包含多種意圖類別,而本文主要基于單意圖識(shí)別任務(wù)進(jìn)行研究,后續(xù)將針對(duì)多意圖識(shí)別問(wèn)題進(jìn)行研究。(2)針對(duì)網(wǎng)絡(luò)模型,對(duì)特征提取器以及膠囊網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn)優(yōu)化,減少模型參數(shù),提升訓(xùn)練速度和模型效果。(3)針對(duì)未知意圖類別。新領(lǐng)域?qū)υ捪到y(tǒng)具有數(shù)據(jù)稀缺的特點(diǎn),而意圖類別通常由人工預(yù)先定義,這樣可能造成新領(lǐng)域中部分文本的意圖在已知意圖類別中不存在,即存在意圖類別不完善的情況。后續(xù)將對(duì)未知意圖進(jìn)行研究。