羅順茺,何 軍
(四川大學(xué) 計算機(jī)學(xué)院,四川 成都 610065)
意圖識別是面向任務(wù)型對話系統(tǒng)的一個基本組成部分。近年來,隨著諸如智能客服、人機(jī)對話等面向任務(wù)型對話系統(tǒng)的廣泛使用,意圖識別方面的需求越來越大。一般將意圖對應(yīng)標(biāo)簽,采用多標(biāo)簽文本分類的方法去構(gòu)建解決方案。但目前普通的單意圖型對話已經(jīng)滿足不了人們的需求,因為在自然場景中,一句話往往包含多個用戶意圖,并且對話任務(wù)總是在不同的領(lǐng)域之間迅速變化,新領(lǐng)域一般只有少量數(shù)據(jù)樣本。因此多意圖識別通常面臨數(shù)據(jù)匱乏的問題。
近期小樣本學(xué)習(xí)在應(yīng)對數(shù)據(jù)稀缺挑戰(zhàn)上取得豐碩成果,引起了很多學(xué)者的關(guān)注[1]。Bao Y[2]等人將少量數(shù)據(jù)的分布式標(biāo)簽映射為注意力分?jǐn)?shù),再用該分?jǐn)?shù)對詞匯表示進(jìn)行加權(quán),使用元學(xué)習(xí)框架訓(xùn)練,最后得到數(shù)據(jù)樣本的原型表征。Ohashi S[3]等人結(jié)合標(biāo)簽表征之間的語義關(guān)聯(lián)性,生成嵌入每個標(biāo)簽特定信息的標(biāo)簽表示,提升了小樣本分類的性能;Luo Q[4]等人探索利用類標(biāo)簽信息從預(yù)訓(xùn)練語言模型中提取輸入文本的更多鑒別性特征表示,并在樣本稀少的情況下實(shí)現(xiàn)性能提升;Han C[5]等人提出一個新的與對抗性領(lǐng)域適應(yīng)網(wǎng)絡(luò)相結(jié)合的元學(xué)習(xí)框架,提升了模型適應(yīng)新任務(wù)數(shù)據(jù)的能力。然而上述方法都旨在從單標(biāo)簽樣本提煉標(biāo)簽的原型表征[6],更多地適應(yīng)小樣本單標(biāo)簽場景下的任務(wù)。在多標(biāo)簽場景下,支持集、查詢句中每一個標(biāo)簽類別所包含的句子是多種多樣的,并且包含不相關(guān)類別的噪聲。例如,在支持集中,A句子的標(biāo)簽是{a,c},B句子的標(biāo)簽是{d,e,a}。對于a標(biāo)簽類來說,標(biāo)簽{c,d,e}都是噪聲。上述方法忽略了包含多個標(biāo)簽樣本的標(biāo)簽原型構(gòu)建相互混淆的問題,因此很難在多標(biāo)簽任務(wù)中構(gòu)建標(biāo)簽原型。
基于上述問題,Simon C[7]等人改進(jìn)原型網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等,使其適應(yīng)多標(biāo)簽分類問題,并通過關(guān)系推理估計給定樣本標(biāo)簽數(shù)量來間接預(yù)測樣本分類閾值;Hu M[8]等人利用兩個注意力機(jī)制來減小標(biāo)簽原型中不相關(guān)標(biāo)簽所帶來的噪聲,并通過策略網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)每個實(shí)例的動態(tài)閾值;Hou Y[9]等人將標(biāo)簽名嵌入到原型表征中,從而細(xì)化了不同類別的表示,然后通過核回歸來校準(zhǔn)閾值。然而,大多數(shù)研究者通過估計標(biāo)簽實(shí)例相關(guān)性得分側(cè)重于研究閾值的動態(tài)選擇策略,從輸入文本的信息中建立元學(xué)習(xí)器,但忽略了短句子中類別標(biāo)簽的豐富語義信息,并且沒有考慮到實(shí)例句很容易被與標(biāo)簽相關(guān)的語義信息混淆的問題,未能很好地在含有多個標(biāo)簽的實(shí)例句中提取分離式原型表征。
本文提出融合意圖信息的小樣本多意圖識別方法,設(shè)計了意圖融合特征提取機(jī)制,利用預(yù)訓(xùn)練語言模型將輸入樣本同標(biāo)簽信息一起建模,采用注意力機(jī)制捕獲標(biāo)簽信息分離式樣本表征;設(shè)計了原型意圖分離機(jī)制,通過多頭支持集注意力和查詢集注意力提取分離式原型表征;利用多任務(wù)聯(lián)合訓(xùn)練,動態(tài)選擇閾值,實(shí)現(xiàn)了在區(qū)分標(biāo)簽相關(guān)語義信息的同時捕獲分離式原型表征,緩解了原型標(biāo)簽與實(shí)例的相關(guān)性分?jǐn)?shù)計算不準(zhǔn)確的問題。在驗證的數(shù)據(jù)集中,F1指標(biāo)均有3%~10%的性能提升。
本文的主要貢獻(xiàn)包括:
(1) 針對意圖識別場景下短句話語容易與意圖相關(guān)的語義混淆的問題,設(shè)計意圖融合特征提取機(jī)制,通過嵌入意圖信息來捕獲更具鑒別性特征的語義表示。
(2) 針對多意圖場景下意圖原型表征容易受到不相關(guān)意圖信息干擾的問題,設(shè)計了原型意圖分離機(jī)制,通過兩個注意力機(jī)制來計算相關(guān)意圖的權(quán)重,凸顯相關(guān)意圖信息,弱化不相關(guān)意圖信息。
(3) 提出了融合意圖信息的小樣本多意圖識別方法,較現(xiàn)有的方法在F1指標(biāo)上有一定程度上的提升。
小樣本學(xué)習(xí)[10]能夠根據(jù)先前的知識經(jīng)驗,捕獲不同領(lǐng)域或任務(wù)的元知識構(gòu)建表征原型,例如,模型架構(gòu)、不同領(lǐng)域任務(wù)之間的關(guān)聯(lián)等,從而快速適應(yīng)新領(lǐng)域的任務(wù)[11]。
對于多意圖識別來說,支持集采取k=1(每個意圖包含一條話語)來模擬極少意圖樣本的情況,k=5模擬樣本數(shù)較大的情況。查詢句x為一句話,包含一組詞x=(x1,x2,…,xj)。與普通小樣本學(xué)習(xí)不同的是,本文不再預(yù)測單一標(biāo)簽,而是預(yù)測一組意圖標(biāo)簽Y={y1,y2,…,ym}。
與單標(biāo)簽文本分類不同,多標(biāo)簽文本分類主要研究單一實(shí)例句同一組標(biāo)簽之間的聯(lián)系。假設(shè)χ表示實(shí)例句空間,γ={y1,y2,…,yn}∈{0,1}表示有n個可能標(biāo)簽的標(biāo)簽空間,每個標(biāo)簽有{1,0}屬性,分別代表相關(guān)與不相關(guān)。多標(biāo)簽文本分類的任務(wù)是學(xué)習(xí)一個函數(shù)H(·):χ→γ,從實(shí)例句空間到標(biāo)簽空間的一個映射。對于每個學(xué)習(xí)實(shí)例(xi,yi),xi∈χ是j維的輸入,yi∈γ是相應(yīng)的標(biāo)簽集,在測試階段,對于一個從未見過的實(shí)例x,函數(shù)H(x)={y|h(x,y)>t,y∈γ}通過一個閾值t來預(yù)測該實(shí)例句的標(biāo)簽。大多數(shù)情況下h(x,y)是一個實(shí)值函數(shù),評估標(biāo)簽與實(shí)例句相關(guān)性分?jǐn)?shù),它反映了y∈γ是x的真實(shí)標(biāo)簽的置信度。
本文設(shè)計了一種融合意圖信息的小樣本多意圖識別方法,目標(biāo)是通過融合意圖標(biāo)簽所表示的豐富語義信息來提取構(gòu)建具有分離式標(biāo)簽的原型表征,解決實(shí)例句很容易被與標(biāo)簽相關(guān)的語義混淆、小樣本學(xué)習(xí)處理多標(biāo)簽問題時標(biāo)簽原型表征容易受到不相關(guān)標(biāo)簽影響等問題。
本文提出的模型主要分為三個模塊: 意圖融合特征提取機(jī)制(Intention Fusion Feature Extraction Mechanism, IFE)、原型意圖分離機(jī)制(Prototype Intent Separation Mechanism, PIS)和多任務(wù)聯(lián)合訓(xùn)練(Multitasking Training, MTT)(標(biāo)簽數(shù)量估計Hou Y[9])。模型總體框架如圖1所示。
圖1 模型總體框架
首先,在支持集和查詢句中,設(shè)計將話語和標(biāo)簽按照{(diào)句子+標(biāo)簽}的模式,利用預(yù)訓(xùn)練語言模型BERT得到句子和標(biāo)簽的詞向量,計算標(biāo)簽對每一個詞的權(quán)重,按照權(quán)重加和得到句子向量;其次,在支持集部分,設(shè)計多頭支持集注意力機(jī)制得到分離式標(biāo)簽原型表征。在查詢集部分,設(shè)計查詢集注意力機(jī)制計算多個特定的原型表征,其中相關(guān)方面被放大,不相關(guān)方面被縮小;最后通過預(yù)測查詢句標(biāo)簽數(shù)量來間接得到動態(tài)閾值,并將其損失同模型損失一起聯(lián)合訓(xùn)練。
在對話場景中,多意圖識別的目的是針對說話人的一句話來識別話語中體現(xiàn)出的意圖。在真實(shí)對話場景下,話語通常具有短句;涵蓋多個意圖信息;對話任務(wù)、話題、領(lǐng)域變化迅速;新任務(wù)、領(lǐng)域只包含少量數(shù)據(jù)等特點(diǎn)。小樣本學(xué)習(xí)通過利用先前的經(jīng)驗,僅從少數(shù)樣例中總結(jié)規(guī)律,獲得較好的性能。因此將多意圖識別任務(wù)抽象為小樣本多標(biāo)簽文本分類(Qin L[12]等)任務(wù),其中將意圖抽象為標(biāo)簽形式。
Y={y|H(E(x),E(y),S)>t,y∈γ}
(1)
其中,H(·)表示標(biāo)簽實(shí)例相關(guān)性分?jǐn)?shù)的計算,E(·)為實(shí)例句、標(biāo)簽特征提取操作,Y=(y1,y2,…,)∈{0,1}表示預(yù)測的標(biāo)簽集,t為閾值。γ表示標(biāo)簽空間。
在低資源多意圖識別場景下,僅使用每個意圖類別的樣例會導(dǎo)致解釋類別定義時產(chǎn)生歧義。因此,意圖融合特征提取機(jī)制的目的是利用標(biāo)簽信息,從像BERT這樣的預(yù)訓(xùn)練語言模型中提取輸入文本的更多判別性特征。
標(biāo)簽信息對于人類準(zhǔn)確解釋有限的訓(xùn)練樣本中所傳達(dá)的意義是至關(guān)重要的。本文考慮將BERT的輸入進(jìn)行修改,在支持集中,每個句子在一個[SEP]標(biāo)記后附加相應(yīng)的真實(shí)標(biāo)簽,得到xs=(x1,…,xs,lright);在查詢句中,每個句子和一個[SEP]標(biāo)記后附加標(biāo)簽空間中的所有標(biāo)簽,得到xq=(x1,…,xq,l1,…,ln)。如圖2所示。
圖2 意圖融合特征提取機(jī)制
經(jīng)過像BERT這樣的預(yù)訓(xùn)練語言模型編碼后得到12層隱藏層輸出,考慮到基于[CLS]得到句向量表現(xiàn)性能不佳(Choi H[13]等),本文取第一層和最后一層的隱藏層輸出之和作為BERT的輸出得到支持集、查詢句和標(biāo)簽集的詞向量hBERT,如式(2)所示。
(2)
用標(biāo)簽附加到[SEP]之后,BERT能夠從輸入句子中提取與標(biāo)簽相關(guān)的信息,得到具有更多判別性特征的細(xì)粒度詞向量。
在查詢句中,將查詢句對應(yīng)的詞向量相加求平均得到查詢句的句向量。將查詢句中的標(biāo)簽詞向量分離得到標(biāo)簽集向量,如式(3)所示。
(3)
其中,ln表示標(biāo)簽向量,T(·)表示分離標(biāo)簽詞向量操作,即將標(biāo)簽對應(yīng)的詞向量取出來,作為單個標(biāo)簽的標(biāo)簽向量。
在支持集中,通過將每個支持集中的標(biāo)簽向量相加求平均,然后分別和對應(yīng)句子的詞向量計算相似性得分,得出每個詞對真實(shí)標(biāo)簽的貢獻(xiàn)程度。最后加權(quán)求和得到支持集中句子的句向量,如式(4)所示。
(4)
其中,MSA(·)表示的是多頭支持集注意力機(jī)制。
通過利用句子和意圖標(biāo)簽信息構(gòu)建意圖融合特征提取機(jī)制,得到具有判別特征的支持集、查詢句和標(biāo)簽集句向量,消除了類別定義時產(chǎn)生的歧義,使文本獲得了更多的判別性特征,緩解實(shí)例句很容易被與標(biāo)簽相關(guān)的語義混淆的問題。
小樣本學(xué)習(xí)是通過先前經(jīng)驗來捕捉標(biāo)簽原型表征,然后用查詢句計算相似度,相似度最高的標(biāo)簽作為查詢句的預(yù)測標(biāo)簽。單標(biāo)簽樣本中,{N-way,K-shot}的訓(xùn)練片段有n個標(biāo)簽類別,k個樣本存在標(biāo)簽與樣本一一對應(yīng)關(guān)系。因此,提取標(biāo)簽原型表征的時候不存在不相關(guān)標(biāo)簽信息干擾的問題。然而,在多標(biāo)簽樣本中,一個樣本對應(yīng)多個標(biāo)簽,訓(xùn)練片段中的標(biāo)簽樣本關(guān)系非常復(fù)雜,標(biāo)簽對應(yīng)的樣本往往含有其他不相關(guān)標(biāo)簽信息,如圖3(上部分)所示。直接構(gòu)建標(biāo)簽原型含有太多噪聲,沒有區(qū)分度。無獨(dú)有偶,查詢句也受到不相關(guān)信息的干擾。針對這個問題,通過設(shè)計多頭支持集注意力機(jī)制(Multi-head Support Attention mechanism,MSA)和查詢集注意力機(jī)制(Query Attention Mechanism,QAM)來構(gòu)建原型意圖分離機(jī)制,旨在捕獲分離式標(biāo)簽原型表征和具有互信息的查詢句表征。
圖3 多頭支持集注意力機(jī)制
2.3.1 多頭支持集注意力機(jī)制(MSA)
假設(shè)現(xiàn)在要提取標(biāo)簽a的原型表征,如圖3所示。給定標(biāo)簽a的標(biāo)簽向量li∈1×d,其中l(wèi)i∈el,d表示向量維度。給定訓(xùn)練片段支持集中所有含有標(biāo)簽a的樣本t∈n×d,其中t∈es,n表示樣本條數(shù)。
為了從不同視角了解標(biāo)簽向量,復(fù)制z次標(biāo)簽向量,再進(jìn)行線性變換,利用樣本t得到標(biāo)簽的注意力矩陣Watt∈n×d。如式(5)所示。
Watt=t·Ws(li?z)
(5)
其中,Ws∈d×z是權(quán)重矩陣。?為復(fù)制操作。
(6)
其中,conv表示卷積操作。
然后,利用標(biāo)簽向量和樣本同卷積注意力矩陣計算得到標(biāo)簽對樣本的相關(guān)性分?jǐn)?shù)socre∈1×n,如式(7)所示。
(7)
由于Softmax會將大部分概率錯誤地分配給值大的一處,因此對乘積進(jìn)行縮放操作。
最后,將得到的相關(guān)性分?jǐn)?shù)分配到樣本中,得到最終的標(biāo)簽原型表征,如式(8)所示,其中LN表示層歸一化。
pm=LN(socre·t)
(8)
為了從多個方面把握標(biāo)簽和樣本的信息,采用多頭機(jī)制并行操作,最后取平均得到初始標(biāo)簽原型表征,如式(9)所示。
pi=mean(p1,..,pm)
(9)
由于注意力機(jī)制很難將不相關(guān)標(biāo)簽方面的相關(guān)性分?jǐn)?shù)置為0,因此此時獲得的初始標(biāo)簽原型表征p={pi,…,pn}仍然存在部分噪聲。采用動態(tài)融合標(biāo)簽表征的方式進(jìn)一步加強(qiáng)相關(guān)方面,弱化不相關(guān)方面,如式(10)所示。
(10)
其中,動態(tài)體現(xiàn)在參數(shù)α,β在訓(xùn)練過程中自動調(diào)整,不需要人為干預(yù)。
最終得到具有分離式標(biāo)簽原型表征P∈n×d。
2.3.2 查詢集注意力機(jī)制(QAM)
對于查詢句來說,不僅可能存在多個標(biāo)簽,而且句向量中還存在不相關(guān)詞語向量的表征帶來的噪聲。直接使用查詢向量表征eq和標(biāo)簽原型P計算得到的相似度不準(zhǔn)確。
為了解決這個問題,本文計算查詢句向量對原型表征的貢獻(xiàn)度來凸顯重要特征,盡可能的排除不相關(guān)方面,如圖4所示。
圖4 查詢集注意力機(jī)制
(11)
其中,Wq∈d×d是權(quán)重矩陣。
再利用原型表征同卷積注意力矩陣計算相關(guān)性分?jǐn)?shù)s∈N×1,如式(12)所示。其中,d表示樣本的維度,P∈n×d為分離式標(biāo)簽原型表征。
(12)
最后,將相關(guān)性分?jǐn)?shù)分配到查詢句向量中去,得到最終的查詢句表征Q,如式(13)所示。
Q=mean(s·eq)
(13)
得到標(biāo)簽原型表征P和查詢句表征Q之后,采用點(diǎn)積相似度來計算它們之間的相似性,如式(14)所示。
H(x,yi,S)=SIM(P,Q)
(14)
其中,SIM表示點(diǎn)積相似度。
使用元校準(zhǔn)閾值(Meta Calibrated Threshold,MCT)通過間接估計標(biāo)簽數(shù)量得到動態(tài)閾值。與Hou Y[9]不同的是因考慮到與標(biāo)簽數(shù)量相關(guān)的特征遠(yuǎn)遠(yuǎn)不止MCT中所提到的五種,因此本文將MCT的輸入修改為{句子長度,連詞,標(biāo)點(diǎn)符號,動詞,代詞,副詞,名詞,數(shù)字}八種特征,并且將預(yù)測標(biāo)簽數(shù)量的過程與模型協(xié)同訓(xùn)練,構(gòu)建一個多任務(wù)聯(lián)合訓(xùn)練的模式。
本文通過一系列的訓(xùn)練片段來訓(xùn)練模型,其中每一個訓(xùn)練片段都包含K-shot的支持集和一個查詢句。在數(shù)據(jù)豐富的領(lǐng)域上模擬低資源場景,并在不同的領(lǐng)域進(jìn)行交叉優(yōu)化,確保訓(xùn)練和低資源場景的一致性。
本文使用二元交叉熵?fù)p失(Binary Cross Entropy Loss,BCE)作為模型損失函數(shù),以最小化的方式來進(jìn)一步優(yōu)化模型,如式(15)所示。
(15)
其中,n為查詢句的數(shù)量,N為標(biāo)簽的數(shù)量,fij∈[0,1],yij∈{0,1}分別表示第i個實(shí)例的第j個標(biāo)簽的預(yù)測標(biāo)簽和真實(shí)標(biāo)簽。
標(biāo)簽數(shù)量預(yù)測任務(wù)使用均方誤差(Mean Square Error,MSE)作為損失函數(shù),如式(16)所示。
(16)
最后,利用線性插值來平衡兩個任務(wù),進(jìn)行聯(lián)合訓(xùn)練,如式(17)所示。
L=(1-λ)L1+λL2
(17)
其中,λ表示的是插值率,是一個超參數(shù)。
為了模擬低資源場景,設(shè)置了1-shot/5-shot多意圖識別任務(wù),實(shí)驗將經(jīng)驗知識從只包含1-shot/5-shot的源域(訓(xùn)練)轉(zhuǎn)移到未知標(biāo)簽的目標(biāo)域(測試)。
本文在兩個基準(zhǔn)多意圖識別數(shù)據(jù)集上進(jìn)行實(shí)驗: TourSG、StanfordLU[14]。這兩個數(shù)據(jù)集都包含多個領(lǐng)域數(shù)據(jù),因此可以模擬未知領(lǐng)域上的低資源多意圖識別場景。其中,TourSG數(shù)據(jù)集包含25 751條話語,帶有六個關(guān)于新加坡旅游信息的獨(dú)立領(lǐng)域: 行程(It)、住宿(Ac)、景點(diǎn)(At)、食物(Fo)、交通(Tr)、購物(Sh)。StanfordLU是斯坦福對話數(shù)據(jù)集的重新注釋版本,包含來自三個領(lǐng)域的8 038條用戶話語: 日程(Sc)、導(dǎo)航(Na)、天氣(We)。
為了模擬低資源多領(lǐng)域交互的多意圖識別場景,本文將數(shù)據(jù)集采樣為小樣本學(xué)習(xí)形式,其中每個訓(xùn)練片段是一個查詢實(shí)例(xq,yq)和相應(yīng)的K-shot支持集S的組合。
由于多意圖識別數(shù)據(jù)集中一條話語往往包含多個意圖,因此不能采用單標(biāo)簽小樣本數(shù)據(jù)抽樣方法。為了解決這個問題,本文采用最小包含算法近似構(gòu)造了K-shot支持集[15]。該算法構(gòu)造支持集遵循兩個標(biāo)準(zhǔn): ①領(lǐng)域中的所有標(biāo)簽在支持集中至少出現(xiàn)k次。②如果從其中刪除任何實(shí)例句,則至少有一個標(biāo)簽在支持集中出現(xiàn)的次數(shù)少于k次。
每個領(lǐng)域中,采樣Ns個不同的K-shot支持集,對于每個支持集,采樣Nq個實(shí)例作為查詢集(查詢集實(shí)例不包含在支持集中)。每個{支持集,查詢集}構(gòu)成一個訓(xùn)練片段。最終,得到Ns個訓(xùn)練片段,每個領(lǐng)域Ns×Nq個實(shí)例。
具體來說,對于TourSG數(shù)據(jù)集,構(gòu)建了Ns=100個訓(xùn)練片段作為訓(xùn)練集,Nt=50個測試片段作為測試集,查詢集的大小為Nq=16。由于StanfordLU數(shù)據(jù)集中領(lǐng)域偏少,構(gòu)建了Ns=200個訓(xùn)練片段作為訓(xùn)練集,Nt=50個測試片段作為測試集,查詢集大小為Nq=32。
具體的數(shù)據(jù)集細(xì)節(jié),如表1所示。其中,P.ML表示多意圖句子的比例;Ave表示平均支持集大小。由表1可知,相較于數(shù)據(jù)集StanfordLU,TourSG平均支持集尺寸大、多意圖句子數(shù)多、多意圖句子比例更加均衡。數(shù)據(jù)集StanfordLU有三個領(lǐng)域,并且領(lǐng)域之間相互獨(dú)立,數(shù)據(jù)集TourSG有六個領(lǐng)域,領(lǐng)域之間相互交叉,有相似領(lǐng)域。
表1 實(shí)驗數(shù)據(jù)集信息
本文的實(shí)驗環(huán)境如表2所示。
表2 實(shí)驗環(huán)境配置信息
實(shí)驗過程中,本文遵循元學(xué)習(xí)訓(xùn)練模式,使用uncased BERT-Base[16]預(yù)訓(xùn)練模型;采用768維的詞向量;Dropout設(shè)置為0.1;訓(xùn)練時采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 01;插值率λ為0.2。
為了提高測試結(jié)果的魯棒性,本文設(shè)置在不同的領(lǐng)域進(jìn)行交叉驗證。其中,一個領(lǐng)域作為驗證集,一個領(lǐng)域作為測試集,其余領(lǐng)域作為訓(xùn)練集。最后,報告三個隨機(jī)種子[17]4 000、4 001、4 002的平均值作為最終結(jié)果。
本文使用MicroF1分?jǐn)?shù)來評估所提出方法的預(yù)測表現(xiàn);使用準(zhǔn)確率(Accuracy)來評估預(yù)測標(biāo)簽數(shù)量的表現(xiàn)。首先將所有類別直接放到一起來計算精確率和召回率,如式(18)、式(19)所示。
其中,TP表示實(shí)際為正例且被分類器判定為正例的樣本數(shù);FP表示實(shí)際為負(fù)例且被分類器判定為正例的樣本數(shù);FN表示實(shí)際為正例但被分類器判定為負(fù)例的樣本數(shù);TN表示實(shí)際為負(fù)例且被分類器判定為負(fù)例的樣本數(shù)。L表示標(biāo)簽類別的數(shù)量。
然后,再計算MicroF1分?jǐn)?shù),如式(20)所示。
(20)
為了驗證方法的有效性,本文評估了3個方法:
(1) 多標(biāo)簽原型網(wǎng)絡(luò)(Multi-label Prototypical Network,MPN): 基于相似性的小樣本模型。通過原型網(wǎng)絡(luò)[18]計算實(shí)例與標(biāo)簽原型之間的相關(guān)性得分,使用固定的閾值在源域上訓(xùn)練,并直接在目標(biāo)域上測試。
(2) 多標(biāo)簽匹配網(wǎng)絡(luò)(Multi-label Matching Network,MMN): 基于相似性的小樣本模型。通過匹配網(wǎng)絡(luò)[19]計算實(shí)例與標(biāo)簽原型之間的相關(guān)性得分。
(3) 小樣本多意圖識別模型(Meta Calibrated Threshold-Anchored Label Representation,MCT-ALR)[9]: 基于相似性的小樣本模型。通過使用MCT預(yù)測標(biāo)簽數(shù)量來確定動態(tài)閾值,使用ALR捕獲瞄點(diǎn)標(biāo)簽原型表示。采用點(diǎn)積相似度來計算實(shí)例與標(biāo)簽原型之間的相關(guān)性得分。
對比實(shí)驗主要分為兩個部分: 不同數(shù)據(jù)集中MicroF1指標(biāo)評分分析和時間復(fù)雜度分析。
3.6.1 指標(biāo)評價分析
實(shí)驗結(jié)果如表3~表5所示。表中每列分別表示將該列中的領(lǐng)域作為測試集,其他領(lǐng)域作為驗證集、訓(xùn)練集的MicroF1分?jǐn)?shù)(%)。其中Ave.表示均值。
表3 TourSG 1-shot數(shù)據(jù)集Micro F1分?jǐn)?shù)
對于數(shù)據(jù)集TourSG(表3: 1-shot設(shè)置,表4: 5-shot設(shè)置),MCT-ALR方法相比MPN和MMN方法F1指標(biāo)提升30%~40%左右,主要是因為MPN和MMN方法是由單標(biāo)簽?zāi)P头椒ǜ倪M(jìn)而來,它們并沒有很好地處理實(shí)例句很容易被與標(biāo)簽相關(guān)的語義混淆和多標(biāo)簽話語帶來的不相關(guān)標(biāo)簽信息干擾的問題。而MCT-ALR方法采用瞄點(diǎn)標(biāo)簽構(gòu)造標(biāo)簽原型表征去除了部分不相關(guān)的標(biāo)簽信息,使得預(yù)測準(zhǔn)確度大幅提升。選擇MPN和MMN方法,一方面可以反映出在多標(biāo)簽小樣本意圖識別和單標(biāo)簽小樣本意圖識別之間的差距巨大;另一方面反映了多標(biāo)簽小樣本領(lǐng)域中實(shí)例句與標(biāo)簽相關(guān)的語義混淆和多標(biāo)簽話語帶來的不相關(guān)標(biāo)簽信息干擾問題的嚴(yán)重性。
表4 TourSG 5-shot數(shù)據(jù)集Micro F1分?jǐn)?shù)
不論在1-shot設(shè)置中,還是5-shot設(shè)置中,本文所提出的方法較MCT-ALR方法提升2.8%~3.5% 左右。原因主要有兩點(diǎn): 第一,TourSG數(shù)據(jù)集中領(lǐng)域之間差距比較小,不同領(lǐng)域的標(biāo)簽比較相似,標(biāo)簽原型中不相關(guān)標(biāo)簽信息帶來的噪聲非常復(fù)雜,難以區(qū)分,使得分離式標(biāo)簽原型表征的構(gòu)建難度極大。得益于所設(shè)計的原型意圖分離機(jī)制,采用注意力的方式融合標(biāo)簽信息進(jìn)一步去除不相關(guān)標(biāo)簽信息;第二,由于TourSG數(shù)據(jù)集是由自然場景下的對話組成,具有非正式話語,且一句話包含較少的單詞(極端情況下有一兩個單詞構(gòu)成的話語)。得益于所設(shè)計的意圖融合特征提取機(jī)制,緩解了實(shí)例句很容易被與標(biāo)簽相關(guān)的語義混淆的問題。
對于數(shù)據(jù)集StanfordLU(表5左: 1-shot設(shè)置,表5右: 5-shot設(shè)置),相較于數(shù)據(jù)集TourSG來說,涵蓋的領(lǐng)域只有三個,模擬了在低領(lǐng)域場景下的低資源意圖識別任務(wù)。本文提出的方法較MCT-ALR方法提升7%~10%左右,尤其是在5-shot設(shè)置中。這是因為StanfordLU數(shù)據(jù)集領(lǐng)域較少,且領(lǐng)域之間不太相似,使得原型意圖分離機(jī)制可以更容易區(qū)分不同領(lǐng)域信息,從而更好地去除不相關(guān)標(biāo)簽信息。
表5 StanfordLU數(shù)據(jù)集Micro F1分?jǐn)?shù)
3.6.2 時間復(fù)雜度分析
表6是本文提出方法在TourSG、StanfordLU數(shù)據(jù)集1-shot/5-shot設(shè)置上訓(xùn)練到收斂所消耗的時間對比。
表6 本文提出方法StanfordLU、TourSG 訓(xùn)練時間對比
從表6可以看出,5-shot比1-shot設(shè)置所使用的時間更多,原因是樣本數(shù)增加(表1)特征提取IFE、原型意圖分離機(jī)制PIS所需的成本也增加。數(shù)據(jù)集TourSG比StanfordLU所使用的時間更多,一方面因為在數(shù)據(jù)集TourSG中多標(biāo)簽話語比StanfordLU多,給原型意圖分離機(jī)制PIS帶來了巨大的壓力;另一方面因為在數(shù)據(jù)集TourSG中支持集比StanfordLU普遍大,所需要的成本自然增加。
本文提出的方法可以看作是由IFE、MSA、QAM、MTT組件構(gòu)成。為了更好地理解每個組件對所提出方法的貢獻(xiàn)程度,本文在1-shot設(shè)置上,通過移除組件的方式來構(gòu)建消融實(shí)驗。實(shí)驗結(jié)果如表7、圖5所示。其中,圖5折線圖顯示的是兩個數(shù)據(jù)集中指標(biāo)Ave.的可視化結(jié)果。
表7 消融實(shí)驗1-shot Micro F1分?jǐn)?shù)
圖5 StanfordLU、TourSG移除組件的平均性能
從表7和圖5中可以看到,組件MSA對模型的貢獻(xiàn)最大,一方面可以說明采用注意力機(jī)制的MSA可以降低不相關(guān)意圖信息帶來的噪聲,另一方面也體現(xiàn)出了不相關(guān)意圖噪聲對構(gòu)建標(biāo)簽原型表征所帶來的嚴(yán)峻挑戰(zhàn)。其次是IFE,這是因為所使用的兩個數(shù)據(jù)集中都含有大量短句,直接對短句提取表征不能很好體現(xiàn)出意圖。IFE結(jié)合意圖信息很好地捕獲具有判別性特征的語義表征。
組件QAM對模型的影響最小,這是因為QAM組件主要是為了去除與意圖信息無關(guān)的噪聲,保留所有的意圖信息,而數(shù)據(jù)集中短句居多,與意圖不相關(guān)的信息本來就不多。
為了驗證采用8個特征的MCT的輸入和聯(lián)合模型一起訓(xùn)練的方式更具表現(xiàn)力。本文分別在兩個數(shù)據(jù)集的1-shot中采用準(zhǔn)確率(Accuracy)的評估標(biāo)準(zhǔn)預(yù)測標(biāo)簽的數(shù)量。實(shí)驗結(jié)果如表8所示。
表8 StanfordLU、TourSG 1-shot標(biāo)簽數(shù)量預(yù)測
由表8中可以發(fā)現(xiàn),采用8個特征聯(lián)合模型一起訓(xùn)練更容易預(yù)測句子標(biāo)簽數(shù)量。一方面是因為使用特征數(shù)多,信息量越大模型預(yù)測能力越好;另一方面連詞、副詞和代詞等詞是更具代表性的特征,可以使模型更具區(qū)分度。
本文提出一種融合意圖信息的小樣本多意圖識別方法。首先,設(shè)計意圖融合特征提取機(jī)制,結(jié)合話語和意圖信息利用預(yù)訓(xùn)練語言模型提取支持集、查詢集和標(biāo)簽集表征, 緩解短話語往往遭遇標(biāo)簽相關(guān)信息的語義混淆的問題;其次,設(shè)計原型意圖分離機(jī)制,利用意圖信息作為基點(diǎn),計算所屬標(biāo)簽話語對該標(biāo)簽原型的相關(guān)程度,聯(lián)合標(biāo)簽權(quán)重得到分離式標(biāo)簽原型表征,進(jìn)一步細(xì)化標(biāo)簽原型特征,解決了多標(biāo)簽小樣本學(xué)習(xí)中標(biāo)簽原型表征容易受到不相關(guān)標(biāo)簽影響的問題。最后,采用模型訓(xùn)練和動態(tài)閾值預(yù)測聯(lián)合訓(xùn)練的方式優(yōu)化模型。實(shí)驗結(jié)果表明,本文提出的方法可有效提高低資源場景下意圖識別任務(wù)的效果。
未來將繼續(xù)進(jìn)行低資源場景下自然語言處理研究,例如,將融合標(biāo)簽信息的小樣本學(xué)習(xí)方法應(yīng)用到低資源場景下的語音識別等領(lǐng)域。