侯麗仙,李艷玲,林 民,李成城
內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022
口語(yǔ)理解是對(duì)話系統(tǒng)中至關(guān)重要的一部分,其性能直接影響整個(gè)對(duì)話系統(tǒng)的性能[1-2],意圖識(shí)別和語(yǔ)義槽填充是口語(yǔ)理解的兩個(gè)子任務(wù)[3-4]。意圖識(shí)別任務(wù)主要分析理解輸入語(yǔ)句中用戶話語(yǔ)行為,語(yǔ)義槽填充任務(wù)主要解決特定領(lǐng)域關(guān)鍵詞以及屬性的標(biāo)注問(wèn)題,口語(yǔ)理解通過(guò)完成兩個(gè)任務(wù)并將意圖和關(guān)鍵詞用語(yǔ)義框架表示出來(lái),有助于后續(xù)對(duì)話系統(tǒng)的研究。
解決意圖識(shí)別任務(wù)的傳統(tǒng)方法包括支持向量機(jī)(support vector machine,SVM)[5]、樸素貝葉斯(naive Bayes,NB)[6]、決策樹(shù)(decision tree,DT)[7]等。解決語(yǔ)義槽填充任務(wù)的傳統(tǒng)方法包括條件隨機(jī)場(chǎng)(conditional random fields,CRF)[8]、隱馬爾可夫(hidden Markov model,HMM)[9]模型、最大熵(maximum entropy,ME)[10]模型等。
對(duì)于口語(yǔ)理解任務(wù),通過(guò)上下文獲取用戶表達(dá)中詞匯的語(yǔ)義信息以及全局語(yǔ)法信息至關(guān)重要。近年來(lái),由于深度神經(jīng)網(wǎng)絡(luò)可以自主學(xué)習(xí)輸入文本的特征,以及在訓(xùn)練過(guò)程中能捕獲更深層次語(yǔ)義信息等優(yōu)點(diǎn),因此在口語(yǔ)理解任務(wù)中被廣泛應(yīng)用。由于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BLSTM)可以捕獲上下文信息,CRF可以根據(jù)標(biāo)簽間的關(guān)系進(jìn)行結(jié)果調(diào)整,使得標(biāo)注結(jié)果更為準(zhǔn)確,因此有學(xué)者將BLSTM神經(jīng)網(wǎng)絡(luò)模型與CRF語(yǔ)言模型相結(jié)合應(yīng)用于不同領(lǐng)域的命名實(shí)體識(shí)別任務(wù)[11-13]。
意圖識(shí)別和語(yǔ)義槽填充兩個(gè)任務(wù)相互依賴,例如一個(gè)短文本的意圖是“查閱書(shū)籍”,那么該短文本很可能包含“作者”及“書(shū)名”等相關(guān)語(yǔ)義槽類型;而一個(gè)短文本的意圖是“預(yù)定機(jī)票”時(shí),那么該短文本可能包含“出發(fā)城市”“到達(dá)城市”以及“出發(fā)日期”等相關(guān)語(yǔ)義槽類型。即不同的意圖,對(duì)應(yīng)的語(yǔ)義槽類型也是不同的,說(shuō)明意圖和語(yǔ)義槽填充具有很強(qiáng)的關(guān)聯(lián)關(guān)系。意圖識(shí)別和語(yǔ)義槽填充任務(wù)的執(zhí)行策略有并聯(lián)型和級(jí)聯(lián)型[4]。并聯(lián)方式將兩個(gè)任務(wù)看作獨(dú)立任務(wù)進(jìn)行解決,該方式無(wú)法實(shí)現(xiàn)輸入的詞與詞之間的特征共享;級(jí)聯(lián)方式將兩個(gè)任務(wù)順序執(zhí)行,前一個(gè)任務(wù)的結(jié)果作為后續(xù)任務(wù)的先驗(yàn)知識(shí),但是會(huì)出現(xiàn)誤差累積的問(wèn)題,因此聯(lián)合識(shí)別成為當(dāng)前口語(yǔ)理解的主流方法[14-16]。
由于意圖識(shí)別和語(yǔ)義槽填充具有相關(guān)性,而獨(dú)立建模和級(jí)聯(lián)方式建模等都無(wú)法利用兩者的相關(guān)性提升對(duì)話系統(tǒng)的性能,因此相關(guān)領(lǐng)域的研究者紛紛采用聯(lián)合建模方法。Jeong等人采用三角鏈條件隨機(jī)場(chǎng)(triangular-chain CRF)模型,解決意圖識(shí)別和語(yǔ)義槽填充任務(wù),共同捕獲兩者的內(nèi)在聯(lián)系[17]。該模型雖然在聯(lián)合識(shí)別上作出了一定的貢獻(xiàn),但是仍存在傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的不足,費(fèi)時(shí)費(fèi)力,而且需要足夠多的訓(xùn)練語(yǔ)料。
2013年微軟的Xu等人使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和三角鏈條件隨機(jī)場(chǎng)(CNN-TriCRF)用于意圖和語(yǔ)義槽填充的聯(lián)合識(shí)別[18]。Xu的貢獻(xiàn)在于使用CNN學(xué)習(xí)文本特征,而不是人工提取特征,對(duì)于語(yǔ)義槽填充任務(wù),采用TriCRF分析數(shù)據(jù)在全局的分布,解決了局部標(biāo)注偏置問(wèn)題,得到全局最優(yōu)解。但是較傳統(tǒng)方法而言,模型訓(xùn)練的參數(shù)變多,模型更為復(fù)雜。
微軟研究院的Guo等人提出使用遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RecNN)和Viterbi算法聯(lián)合解決意圖識(shí)別和語(yǔ)義槽填充任務(wù)[14]。在該方法中,語(yǔ)義槽填充被看作是序列標(biāo)注任務(wù),即在給定用戶話語(yǔ)x以及所有語(yǔ)義槽類型空間的條件下,取最大概率對(duì)應(yīng)的語(yǔ)義槽類型作為當(dāng)前詞的語(yǔ)義標(biāo)注類型,盡管性能有所提升,但是會(huì)產(chǎn)生信息損失。
繼RecNN之后,北京大學(xué)計(jì)算語(yǔ)言研究所的Zhang等人提出使用門(mén)控循環(huán)單元(gated recurrent unit,GRU)和CNN聯(lián)合解決意圖識(shí)別和語(yǔ)義槽填充任務(wù)[19],通過(guò)GRU學(xué)習(xí)詞的表示,預(yù)測(cè)語(yǔ)義槽的標(biāo)簽。同時(shí),利用最大池化層捕獲句子的全局特征,進(jìn)行意圖分類,模型被兩個(gè)任務(wù)共享。模型雖然在性能上有一定的提升,但是仍有需要改進(jìn)的地方。由于該模型采用的數(shù)據(jù)集——中文問(wèn)答理解數(shù)據(jù)集(Chinese question understanding dataset,CQUD)由網(wǎng)上收集而成,實(shí)驗(yàn)是以字作為分詞的最小單位,數(shù)據(jù)采用手工標(biāo)注,而沒(méi)有經(jīng)過(guò)相關(guān)領(lǐng)域?qū)<业亩x,對(duì)實(shí)驗(yàn)結(jié)果有一定的影響。同時(shí),對(duì)于意圖識(shí)別任務(wù),該模型采用最大池化進(jìn)行意圖分類,會(huì)產(chǎn)生一定的信息損失。
隨后,Liu等人采用注意力機(jī)制解決意圖識(shí)別和語(yǔ)義槽填充任務(wù)[20],該方法雖然較其他聯(lián)合識(shí)別模型在公有數(shù)據(jù)集ATIS(airline travel information systems)[21]上的性能有所提升,但是該模型沒(méi)有將意圖識(shí)別的結(jié)果作用于語(yǔ)義槽填充任務(wù),在Liu提出模型的基礎(chǔ)上,Goo等人使用slot-gated機(jī)制將意圖識(shí)別的結(jié)果作用于語(yǔ)義槽填充任務(wù)[22],該模型在公有數(shù)據(jù)集ATIS上有所提升,但是對(duì)于語(yǔ)義槽填充任務(wù),由于沒(méi)有考慮序列在全局的概率,導(dǎo)致出現(xiàn)了如連續(xù)標(biāo)注B-Person、I-Organization等不合理標(biāo)注結(jié)果。
綜上所述,在聯(lián)合建模研究中,意圖識(shí)別和語(yǔ)義槽填充任務(wù)具有較強(qiáng)的相關(guān)性,意圖識(shí)別的結(jié)果可以有效地作用于語(yǔ)義槽填充任務(wù),并且CRF可以對(duì)神經(jīng)網(wǎng)絡(luò)得到的序列標(biāo)注進(jìn)行結(jié)果調(diào)整。本文采用BLSTM作為基本單元,對(duì)意圖識(shí)別和語(yǔ)義槽填充任務(wù)分別加入注意力機(jī)制,捕獲全局的語(yǔ)法信息及更優(yōu)的語(yǔ)義信息,解決前人研究中采用最大池化產(chǎn)生局部最優(yōu)解的問(wèn)題,并通過(guò)加入slot-gated機(jī)制表明意圖識(shí)別和語(yǔ)義槽填充之間的關(guān)系,通過(guò)實(shí)驗(yàn)驗(yàn)證兩個(gè)任務(wù)的相關(guān)性,同時(shí)由神經(jīng)網(wǎng)絡(luò)和slot-gated得到語(yǔ)義槽填充結(jié)果后,加入CRF模型,其作用是根據(jù)標(biāo)簽間的關(guān)系進(jìn)行結(jié)果后處理,使得標(biāo)注結(jié)果更為準(zhǔn)確,有助于性能的提升。
本文的改進(jìn)如下:第一,對(duì)意圖識(shí)別和語(yǔ)義槽填充進(jìn)行聯(lián)合建模,達(dá)到優(yōu)化語(yǔ)義框架的目的;在BLSTM得到隱藏層狀態(tài)后,對(duì)于意圖識(shí)別和語(yǔ)義槽填充任務(wù)加入注意力機(jī)制,達(dá)到不同時(shí)刻對(duì)所有輸入序列的聚焦式學(xué)習(xí)。第二,對(duì)于航空信息領(lǐng)域以及SMP語(yǔ)料(SMP中文人機(jī)對(duì)話技術(shù)評(píng)測(cè)(Evaluation of Chinese Human-Computer Dialogue Technology,SMP2019-ECDT)任務(wù)1——自然語(yǔ)言理解評(píng)測(cè),本評(píng)測(cè)任務(wù)針對(duì)自然語(yǔ)言理解模塊,主要包括領(lǐng)域分類、意圖識(shí)別和語(yǔ)義槽填充三個(gè)子任務(wù)。本實(shí)驗(yàn)只進(jìn)行意圖和語(yǔ)義槽填充聯(lián)合識(shí)別。http://conference.cipsc.org.cn/smp2019/),在模型中加入slot-gated機(jī)制,將意圖識(shí)別的結(jié)果作用于語(yǔ)義槽填充任務(wù),可以更好地捕獲兩個(gè)任務(wù)之間的關(guān)聯(lián)性,并在語(yǔ)義槽填充任務(wù)中加入CRF模型。
這部分首先介紹長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、BLSTM神經(jīng)網(wǎng)絡(luò)模型,其次介紹注意力機(jī)制、slot-gated機(jī)制以及本研究的實(shí)驗(yàn)?zāi)P汀?/p>
深度神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練,實(shí)現(xiàn)對(duì)輸入特征的表示學(xué)習(xí),從而完成特定任務(wù),如詞性標(biāo)注、語(yǔ)義槽填充等,屬于端到端(end to end)的學(xué)習(xí)方式。神經(jīng)網(wǎng)絡(luò)的輸入是向量表示,該向量由大量的包含語(yǔ)義信息的詞語(yǔ)訓(xùn)練得到。向量表示方法有One-hot、Word2Vec[23]等,One-hot編碼無(wú)法表示語(yǔ)義相近的兩個(gè)詞[24],而Word2Vec是通過(guò)其上下文捕獲當(dāng)前詞的語(yǔ)義信息,語(yǔ)義相近的詞匯可以通過(guò)向量空間中距離相近的向量表示,如v(“國(guó)王”)-v(“王后”)約等于v(“男”)-v(“女”)[25],Word2Vec解決了One-hot維度爆炸以及向量稀疏的問(wèn)題,得到的是低維度的稠密向量。
隨著社會(huì)經(jīng)濟(jì)的高速發(fā)展,各個(gè)行業(yè)對(duì)機(jī)械產(chǎn)品的需求也相應(yīng)的大大增加,按照傳統(tǒng)的機(jī)械制造工藝進(jìn)行生產(chǎn)已經(jīng)無(wú)法滿足市場(chǎng)的需求,而現(xiàn)代機(jī)械制造工藝?yán)酶鞣N先進(jìn)高新技術(shù),使得生產(chǎn)效率大大提升,能夠進(jìn)行大批量的生產(chǎn),滿足市場(chǎng)的需求,而且現(xiàn)代機(jī)械制造工藝生產(chǎn)的產(chǎn)品不僅數(shù)量能夠得以保證,而且產(chǎn)品質(zhì)量更加的穩(wěn)定,體現(xiàn)現(xiàn)代機(jī)械制造工藝高強(qiáng)度的穩(wěn)定性。
實(shí)驗(yàn)過(guò)程采用Word2Vec進(jìn)行詞向量化。輸入分詞后的數(shù)據(jù)序列為X=(x1,x2,…,xT),對(duì)應(yīng)的詞向量為E=[e1,e2,…,eT],經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)的變換得到隱藏層狀態(tài)H=[h1,h2,…,hT],其中T表示輸入數(shù)據(jù)的長(zhǎng)度,即詞的個(gè)數(shù)。設(shè)ν為詞匯表,d為詞向量維度,有xt∈ν,隱藏層狀態(tài)H∈Rd×T。
雖然RNN(recurrent neural networks)在解決自然語(yǔ)言處理任務(wù)中已經(jīng)表現(xiàn)出良好的性能,但是存在“梯度消失”問(wèn)題,LSTM通過(guò)加入輸入門(mén)、輸出門(mén)和遺忘門(mén)解決了這一問(wèn)題[26]。遺忘門(mén)可以選擇性地記憶重要的歷史信息,丟棄一些語(yǔ)義無(wú)關(guān)的信息,使模型很容易學(xué)習(xí)和捕捉到詞與詞之間的長(zhǎng)距離依賴關(guān)系,有利于模型對(duì)有效信息的長(zhǎng)期保存。
式(1)~式(5)為L(zhǎng)STM各個(gè)門(mén)的計(jì)算公式,t時(shí)刻,給定輸入xt和前一時(shí)刻的隱藏層狀態(tài)ht-1,LSTM通過(guò)內(nèi)部循環(huán)和更新,計(jì)算當(dāng)前時(shí)刻的隱藏層狀態(tài)ht,Wi、Wf、Wo、Wc表示xt和ht-1的權(quán)重矩陣,bi、bf、bo、bc表示偏移向量,σ表示sigmoid激活函數(shù):
語(yǔ)義語(yǔ)法信息由詞的上下文共同得到,LSTM無(wú)法捕獲上下文語(yǔ)義語(yǔ)法信息,BLSTM可以捕獲到詞的上下文語(yǔ)義語(yǔ)法信息[27],不同時(shí)刻的隱藏層狀態(tài)由前向LSTM的隱藏層狀態(tài)以及反向LSTM的隱藏層狀態(tài)共同決定,即,本文采用BLSTM神經(jīng)網(wǎng)絡(luò)。
現(xiàn)實(shí)世界中,人們對(duì)文本和圖像理解時(shí),并不是使用相同的注意力關(guān)注文本中的每一個(gè)詞或者圖像中的每一部分,而是關(guān)注一些關(guān)鍵部分,對(duì)于非關(guān)鍵部分,投入的注意力較少。因此如果通過(guò)加入注意力來(lái)表達(dá)文本或者圖像各個(gè)部分的重要程度,對(duì)于理解文本和圖像是非常有幫助的。
2015年,Bahdanau等人提出了注意力機(jī)制[28],對(duì)不同輸入xi賦予不同的權(quán)重,然后作用于輸出。注意力機(jī)制一般作用于編解碼模型中,用來(lái)提升LSTM或GRU的性能。將深度神經(jīng)網(wǎng)絡(luò)(如LSTM或GRU)得到的所有隱藏層狀態(tài)值與輸出Y進(jìn)行概率分布計(jì)算,然后將概率分布值與所有的隱藏層狀態(tài)進(jìn)行加權(quán)求和得到當(dāng)前時(shí)刻的語(yǔ)義編碼[29],再將其作為輸出,從而提高模型的性能。
在意圖識(shí)別和語(yǔ)義槽填充任務(wù)中,采用注意力機(jī)制理解文本序列豐富的語(yǔ)義信息。對(duì)于意圖識(shí)別任務(wù),加入注意力機(jī)制,可以關(guān)注到所有輸入數(shù)據(jù)序列對(duì)于意圖識(shí)別的影響;對(duì)于語(yǔ)義槽填充任務(wù),加入注意力機(jī)制,可以關(guān)注到不同時(shí)刻所有數(shù)據(jù)序列對(duì)于語(yǔ)義槽類型的影響。
式中,aij表示第i時(shí)刻不同隱藏層狀態(tài)值對(duì)應(yīng)的權(quán)重向量,其值由式(7)和式(8)計(jì)算得到,上面的計(jì)算過(guò)程實(shí)現(xiàn)了由初始隱藏層向注意力層的變換,權(quán)重系數(shù)aij或ai反映了當(dāng)前時(shí)刻不同輸入序列對(duì)輸出的影響力大小。圖1為實(shí)驗(yàn)中注意力機(jī)制的結(jié)構(gòu)示意圖。
Fig.1 Attention mechanism圖1 注意力機(jī)制
由于之前的聯(lián)合識(shí)別模型都只是共享模型的參數(shù),隱式地說(shuō)明意圖和語(yǔ)義槽填充的相關(guān)性,本文采用Goo等人提出的slot-gated機(jī)制[22],關(guān)注兩個(gè)任務(wù)之間的關(guān)系。該機(jī)制先將含有意圖信息的注意力參數(shù)cI與所有的語(yǔ)義槽填充注意力參數(shù)加權(quán)計(jì)算,然后使用一個(gè)正相關(guān)的激活函數(shù)得到包含意圖信息的參數(shù)g,再將g作用于各個(gè)時(shí)刻的語(yǔ)義槽填充,用意圖識(shí)別的結(jié)果影響語(yǔ)義槽填充任務(wù)。其中,cI包含整個(gè)輸入序列的語(yǔ)義信息,將意圖識(shí)別的結(jié)果作用于語(yǔ)義槽填充任務(wù),證明意圖識(shí)別和語(yǔ)義槽填充的相互依賴關(guān)系。slot-gated機(jī)制對(duì)應(yīng)的計(jì)算公式如式(12)~式(16)所示[22]:
本文采用BLSTM神經(jīng)網(wǎng)絡(luò)模型,為提高模型的性能,加入注意力機(jī)制,同時(shí)使用slot-gated機(jī)制將意圖識(shí)別的結(jié)果作用于語(yǔ)義槽填充任務(wù)。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,輸出層的誤差可以指導(dǎo)輸入層參數(shù)的學(xué)習(xí),根據(jù)模型的輸出與真實(shí)結(jié)果之間的誤差,使用梯度下降法調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。
對(duì)于深度神經(jīng)網(wǎng)絡(luò)模型,輸出已經(jīng)是各個(gè)標(biāo)簽取值的概率,但是直接使用神經(jīng)網(wǎng)絡(luò)模型輸出的標(biāo)簽沒(méi)有考慮連續(xù)標(biāo)簽之間的依賴關(guān)系,比如連續(xù)標(biāo)注B-Person,I-Organization就是一個(gè)不合理的序列標(biāo)注,這樣會(huì)影響語(yǔ)義槽填充任務(wù)的性能,CRF可以考慮標(biāo)簽前后的依賴關(guān)系,將人工特征補(bǔ)充到神經(jīng)網(wǎng)絡(luò)模型的輸出,根據(jù)已經(jīng)生成的標(biāo)簽間的關(guān)系進(jìn)行結(jié)果后處理,使得標(biāo)注結(jié)果更為準(zhǔn)確。因此,本研究在slotgated模型后加入CRF,使得序列標(biāo)注更為準(zhǔn)確。
CRF是判別式與生成式的綜合模型,其聯(lián)合條件概率是在給定輸入序列x下,計(jì)算標(biāo)注序列y的概率,計(jì)算公式如下:
式中,Z(x)是歸一化因子,tk和sk表示兩種特征函數(shù),λk和μk表示特征函數(shù)對(duì)應(yīng)的權(quán)重系數(shù),tk表示轉(zhuǎn)移函數(shù),與相鄰的隱藏層節(jié)點(diǎn)yi-1、yi有關(guān);sk表示特征函數(shù),當(dāng)滿足特征條件時(shí)特征函數(shù)取1,否則取0。
本文的聯(lián)合識(shí)別模型如圖2所示。xi表示分詞后的數(shù)據(jù)序列,首先將詞語(yǔ)xi進(jìn)行詞向量化,再將詞向量輸入到神經(jīng)網(wǎng)絡(luò)BLSTM中,通過(guò)BLSTM得到隱藏層狀態(tài)值hi,對(duì)于意圖識(shí)別和語(yǔ)義槽填充兩個(gè)任務(wù),分別加入注意力機(jī)制。對(duì)于意圖識(shí)別任務(wù),注意力機(jī)制得到的上下文向量cI直接作用于意圖結(jié)果。對(duì)于語(yǔ)義槽填充任務(wù),除了注意力機(jī)制,同時(shí)加入slotgated機(jī)制,將意圖識(shí)別的結(jié)果作用于語(yǔ)義槽填充任務(wù),最后在語(yǔ)義槽填充任務(wù)的輸出層加入CRF模型。
Fig.2 Joint recognition model圖2 聯(lián)合識(shí)別模型
聯(lián)合識(shí)別的性能由兩個(gè)任務(wù)的結(jié)果共同決定。意圖識(shí)別和語(yǔ)義槽填充的聯(lián)合計(jì)算公式如下[22]:
本實(shí)驗(yàn)采用的數(shù)據(jù)集包括航空信息領(lǐng)域和SMP中文人機(jī)對(duì)話技術(shù)評(píng)測(cè)數(shù)據(jù)集。
收集的句子存在指代不明確問(wèn)題,如“它有去天津的航班嗎”,“它”指代不明確,不確定是從哪個(gè)城市出發(fā)去天津,還存在口語(yǔ)化、語(yǔ)序顛倒等問(wèn)題,如“北京周二去武漢”。因此,首先對(duì)收集得到的句子進(jìn)行整理,去口語(yǔ)化,調(diào)整語(yǔ)序;其次利用Jieba進(jìn)行分詞,在分詞的過(guò)程中由于機(jī)場(chǎng)名稱與城市名稱有重疊詞、時(shí)間的不規(guī)范性等問(wèn)題導(dǎo)致分詞出錯(cuò),因此將專有名詞放入用戶詞典,使專有名詞在分詞過(guò)程中不被錯(cuò)誤切分。由于模型是有監(jiān)督的訓(xùn)練,因此需要對(duì)分詞后的詞語(yǔ)進(jìn)行標(biāo)注,標(biāo)注過(guò)程采用Begin/In/Out(BIO)標(biāo)簽進(jìn)行標(biāo)注。
本實(shí)驗(yàn)收集到關(guān)于航空信息領(lǐng)域的短文本語(yǔ)句5 871條,并將數(shù)據(jù)分為訓(xùn)練集、測(cè)試集以及開(kāi)發(fā)集三部分,其中訓(xùn)練集包含4 478條,測(cè)試集包含893條,開(kāi)發(fā)集包含500條;SMP人機(jī)對(duì)話比賽數(shù)據(jù)集共包含2 579條短文本語(yǔ)句,并將數(shù)據(jù)按7∶2∶1分為訓(xùn)練集、測(cè)試集以及開(kāi)發(fā)集三部分,其中訓(xùn)練集包含1 805條,測(cè)試集包含517條,開(kāi)發(fā)集包含257條,實(shí)驗(yàn)數(shù)據(jù)集對(duì)應(yīng)的意圖類別和語(yǔ)義槽類別如表1所示。
實(shí)驗(yàn)中BLSTM用于記憶和存儲(chǔ)過(guò)去狀態(tài)的節(jié)點(diǎn)個(gè)數(shù)為64,神經(jīng)網(wǎng)絡(luò)中的所有參數(shù)進(jìn)行隨機(jī)初始化,在訓(xùn)練過(guò)程中進(jìn)行微調(diào)。
dropout用于解決模型訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題,它是按照一定的比例隨機(jī)去掉神經(jīng)網(wǎng)絡(luò)中的某些神經(jīng)單元,然后利用模型訓(xùn)練,提高模型的泛化能力,本實(shí)驗(yàn)中dropout為0.05。
實(shí)驗(yàn)中意圖識(shí)別使用意圖準(zhǔn)確率作為評(píng)價(jià)指標(biāo);語(yǔ)義槽填充使用F1值作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
表2為不同模型在航空信息領(lǐng)域數(shù)據(jù)集下的意圖識(shí)別性能結(jié)果和語(yǔ)義槽填充性能結(jié)果。從表2可以看出,BLSTM模型在意圖識(shí)別和語(yǔ)義槽填充任務(wù)中性能優(yōu)于LSTM,加入注意力機(jī)制模型性能優(yōu)于不加注意力機(jī)制的模型,BLSTM可以捕獲序列數(shù)據(jù)長(zhǎng)距離依賴關(guān)系,更好地獲取全局語(yǔ)義信息,同時(shí)加入slot-gated機(jī)制的模型在性能上優(yōu)于不加slot-gated機(jī)制模型,slot-gated機(jī)制可以更好地說(shuō)明意圖識(shí)別對(duì)于語(yǔ)義槽填充任務(wù)的影響。模型對(duì)于意圖識(shí)別和語(yǔ)義槽填充任務(wù)均采用注意力機(jī)制,即slot-gated(full attention),模型的性能優(yōu)于僅在意圖識(shí)別中使用注意力機(jī)制slotgated(intent_only attention)模型的性能,原因是對(duì)于意圖識(shí)別任務(wù),關(guān)注所有輸入序列對(duì)于意圖的影響cI,避免局部最優(yōu)化,對(duì)于語(yǔ)義槽填充任務(wù),將包含全局信息的意圖和不同時(shí)刻輸入對(duì)語(yǔ)義槽任務(wù)的影響共同作用,提高模型的性能。本實(shí)驗(yàn)的BLSTM+attention+slot-gated+CRF模型,是在意圖識(shí)別和語(yǔ)義槽填充兩個(gè)任務(wù)上都加入注意力機(jī)制的情況下進(jìn)行實(shí)驗(yàn),從結(jié)果可以看出,在加入CRF模型后,實(shí)驗(yàn)結(jié)果最優(yōu)。對(duì)于語(yǔ)義槽填充任務(wù),可以有兩部分的信息來(lái)源,其一是可以將意圖識(shí)別的信息作為參考,其二是由CRF模型提供的標(biāo)簽前后的依賴關(guān)系作為參考。
Table 1 Experimental data表1 實(shí)驗(yàn)數(shù)據(jù)
Table 2 Performance comparison of joint recognition on different models(flight information field)表2 不同模型聯(lián)合識(shí)別的性能對(duì)比(航空信息領(lǐng)域)
表3為不同模型在SMP數(shù)據(jù)集下的意圖識(shí)別和語(yǔ)義槽填充的性能對(duì)比。從表3可以看出,不同模型在SMP數(shù)據(jù)集下BLSTM+attention+slot-gated+CRF模型達(dá)到了最好的性能,原因如下:首先,加入注意力機(jī)制,可以更好地理解話語(yǔ)語(yǔ)義;其次,加入slot-gated機(jī)制用于語(yǔ)義槽填充任務(wù),可以更好地捕捉兩個(gè)任務(wù)之間的關(guān)聯(lián)性,同時(shí)加入CRF模型,可以考慮到標(biāo)簽序列前后的依賴關(guān)系,使得標(biāo)注結(jié)果更為準(zhǔn)確。但是相比詢問(wèn)航空信息的數(shù)據(jù)集,相同的聯(lián)合識(shí)別模型在SMP數(shù)據(jù)集下,語(yǔ)義槽填充的性能明顯低于在航空信息領(lǐng)域數(shù)據(jù)集下的性能,主要是由于SMP數(shù)據(jù)集的語(yǔ)句比較少,模型很難通過(guò)少量數(shù)據(jù)捕獲深層次的語(yǔ)義信息,同時(shí)該數(shù)據(jù)集的語(yǔ)義槽類型相比航空信息領(lǐng)域數(shù)據(jù)集較多,不同意圖對(duì)應(yīng)的句子數(shù)目差距比較大,數(shù)據(jù)分布不均衡。
Table 3 Performance comparison of joint recognition on different models(SMP)表3 不同模型聯(lián)合識(shí)別的性能對(duì)比(SMP)
表4為影響語(yǔ)義槽填充性能的類型舉例。從表4可以看出,該數(shù)據(jù)集中包含“發(fā)短信”“翻譯”“查詢”這三類意圖,這些意圖對(duì)應(yīng)的語(yǔ)義槽類型包含“Bcontent”和“B-name”,語(yǔ)義槽值分別為“發(fā)短信內(nèi)容”“翻譯內(nèi)容”以及“小說(shuō)內(nèi)容”,語(yǔ)義槽值的內(nèi)容較長(zhǎng)。后續(xù)會(huì)將該語(yǔ)義槽值在分詞過(guò)程正常切分,并將語(yǔ)義槽標(biāo)簽標(biāo)注為B-content、I-content等。除此以外,由于該數(shù)據(jù)集包含不同的領(lǐng)域,不同領(lǐng)域?qū)?yīng)不同的意圖,而本研究不考慮領(lǐng)域,只將文本的意圖和語(yǔ)義槽填充聯(lián)合識(shí)別,因此實(shí)驗(yàn)性能有所影響。
本文針對(duì)口語(yǔ)理解中的兩個(gè)任務(wù)聯(lián)合建模,在BLSTM隱藏層上對(duì)意圖識(shí)別和語(yǔ)義槽填充任務(wù)分別加入注意力機(jī)制,可以捕獲不同時(shí)刻輸入序列對(duì)輸出的影響;同時(shí)加入slot-gated機(jī)制,更有力地說(shuō)明意圖識(shí)別和語(yǔ)義槽填充任務(wù)的相關(guān)性,并在神經(jīng)網(wǎng)絡(luò)的輸出層加入CRF模型,有效地考慮標(biāo)簽前后的依賴關(guān)系,提高語(yǔ)義槽填充的性能。模型在航空信息領(lǐng)域和SMP人機(jī)對(duì)話比賽數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明了模型的有效性。實(shí)驗(yàn)結(jié)果表明,加入slot-gated和CRF模型優(yōu)于其他聯(lián)合識(shí)別模型。
在自然語(yǔ)言處理領(lǐng)域,高質(zhì)量的語(yǔ)料以及大規(guī)模的預(yù)訓(xùn)練詞向量對(duì)于模型的性能有很大的影響,下一步會(huì)將語(yǔ)料進(jìn)行擴(kuò)充,并獲取大規(guī)模的預(yù)訓(xùn)練詞向量訓(xùn)練更優(yōu)的向量表示;本研究只驗(yàn)證了意圖識(shí)別對(duì)語(yǔ)義槽填充任務(wù)的影響,后續(xù)會(huì)進(jìn)行語(yǔ)義槽填充對(duì)意圖識(shí)別影響的實(shí)驗(yàn);由于在現(xiàn)實(shí)的人機(jī)交互過(guò)程中,用戶會(huì)涉及多意圖的交互,不同的意圖會(huì)對(duì)應(yīng)不同的語(yǔ)義槽類型,后續(xù)會(huì)進(jìn)一步研究多意圖文本對(duì)語(yǔ)義槽填充任務(wù)的影響;由于BERT(bidirectional encoder representations from transformers)模型在訓(xùn)練過(guò)程可以隨機(jī)屏蔽輸入中的一些字段,使得模型的泛化能力增強(qiáng)[30],且BERT在多項(xiàng)自然語(yǔ)言處理任務(wù)中表現(xiàn)出良好的性能,而本實(shí)驗(yàn)數(shù)據(jù)集比較小,為增強(qiáng)模型的泛化能力,下一步擬采用BERT模型用于口語(yǔ)理解中意圖和語(yǔ)義槽填充的聯(lián)合識(shí)別。
Table 4 Examples of types of SMP dataset semantic slot filling with low F1 score表4 SMP數(shù)據(jù)集語(yǔ)義槽填充F1值偏低的類型舉例