倪鈺婷,張德平
(南京航空航天大學 計算機科學與技術學院,江蘇 南京 211106)
任務型對話系統(tǒng)是自然語言處理領域的研究熱點?;谔囟▓鼍?任務型對話系統(tǒng)需要與用戶進行多輪交互,理解用戶意圖并完成用戶目標。當前,任務型對話系統(tǒng)在多個業(yè)務場景得到廣泛應用,如阿里小蜜、京東小智等電商平臺的智能客服。任務型對話系統(tǒng)作為一種重要的人機交互手段,具有廣闊的應用前景。
任務型對話系統(tǒng)主要分為管道方法(Pipeline Method)和端到端方法(End-to-End Method)。管道方法將任務型對話系統(tǒng)劃分為四個模塊,分別是自然語言理解(Natural Language Understanding, NLU)、對話狀態(tài)跟蹤(Dialogue State Tracking, DST)、對話策略(Dialogue Policy, DP)和自然語言生成(Natural Language Generation, NLG)。該方法具有較高的可解釋性,但各個模塊間容易產(chǎn)生誤差積累。端到端方法則由單一模型構(gòu)成,直接由用戶輸入得到系統(tǒng)輸出。該方法結(jié)構(gòu)簡單,但依賴大量的訓練數(shù)據(jù),可解釋性差。因此,工業(yè)界普遍采用管道方法構(gòu)建任務型對話系統(tǒng)[1]。
近年來,市場上推出的各種任務型對話系統(tǒng)以單領域為主,而學術界研究熱點則集中于多領域任務型對話系統(tǒng),跨領域的復雜對話場景給對話狀態(tài)跟蹤帶來了極大挑戰(zhàn)。隨著深度學習的發(fā)展,目前許多研究工作使用深度神經(jīng)網(wǎng)絡模型對話狀態(tài)跟蹤。相較于傳統(tǒng)的基于人工規(guī)則的對話狀態(tài)跟蹤模型,該類研究方法在預測精度上得到較大提升,但仍面臨嚴峻的挑戰(zhàn)[2]。首先,編碼階段,現(xiàn)有模型對所有的對話歷史進行編碼,導致編碼負擔過重。其次,多領域場景下,現(xiàn)有方法大多未考慮領域與領域、槽位與槽位之間的關聯(lián),導致難以獲取跨領域的關聯(lián)信息。最后,解碼階段,現(xiàn)有模型僅關注對話上下文與槽位的全局語義,而忽視了局部語義,導致狀態(tài)預測精度下降。
基于上述問題,本文提出一種融合槽位關聯(lián)和語義關聯(lián)的對話狀態(tài)跟蹤模型DST-S2C(Dialogue State Tracking with Slot Connection and Semantic Connection)。本文主要貢獻歸納如下:
(1) 提出了層級圖注意力網(wǎng)絡(Hierarchical Graph Attention Networks, HGAT),將槽位構(gòu)建成多關系圖,計算槽位間的關系級和結(jié)點級注意力得分,提升了對話狀態(tài)跟蹤的預測精度。
(2) 提出了融入局部語義信息的槽門機制,將對話歷史與槽位間的詞級語義相似度向量作為槽門機制的增強特征,提高了槽門機制的預測精度。
(3) 實驗表明,該模型在MultiWOZ2.0[3]和MultiWOZ2.1[4]數(shù)據(jù)集上均有較優(yōu)的表現(xiàn)。
目前,基于深度學習構(gòu)建對話狀態(tài)跟蹤模型有兩種方式: 檢索式與生成式。檢索式方法將對話狀態(tài)跟蹤視為分類任務,其基本思想是: 預定義一個包含所有候選槽值對的本體,在每輪對話中對每個槽位進行分類預測。生成式方法不基于預定義的領域本體,直接以序列生成的形式預測槽值。
基于生成式方法的對話狀態(tài)跟蹤的泛化能力更強,Wu等人[9]在指針生成網(wǎng)絡(Pointer Network)[10]的基礎上,提出了TRADE模型。該模型使用雙向門控循環(huán)單元(Gated Recurrent Unit, GRU)[11]編碼對話歷史,并在解碼過程中引入軟拷貝機制(Soft Copy Mechanism)[12]直接生成每個槽位對應的值。為提高多領域、大數(shù)據(jù)量場景下的計算速度,Ren等人[13]提出了COMER模型。該模型利用BERT對前輪對話狀態(tài)、前輪系統(tǒng)輸出和當前輪用戶輸入進行編碼,然后采用分層解碼結(jié)構(gòu)生成槽值。此后,Kim等人[14]提出SOM模型,該模型將對話狀態(tài)視為固定大小的內(nèi)存,并提出一種選擇性覆蓋機制來提高對話狀態(tài)跟蹤的效率。SOM將對話狀態(tài)跟蹤分解為兩個子任務: 狀態(tài)操作預測和槽值生成。狀態(tài)操作預測以編碼器的輸出作為四分類器的輸入,而槽值生成只作用于狀態(tài)操作預測為“UPDATE”的槽位。
對話狀態(tài)跟蹤任務的具體描述如下:t時刻的系統(tǒng)回復為Rt,用戶語句為Ut,則t時刻的對話上下文為Dt={R1,U1,…,Rt,Ut}。對話狀態(tài)跟蹤的目標是根據(jù)Dt獲取t時刻的對話狀態(tài)。對話狀態(tài)主要負責記錄所有槽值對信息,其表示形式為Bt={S1:V1,S2:V2,…,SN:VN},其中,S表示槽位,V表示槽值,N表示槽位總數(shù)。
對話進行中的每一輪次,對話狀態(tài)跟蹤都會根據(jù)當前對話語句進行狀態(tài)更新。假設一個完整對話共T輪,則對話狀態(tài)B={B1,B2,…,BT}。這T個對話狀態(tài)越近似真實對話狀態(tài),則表明對話狀態(tài)跟蹤模型的性能越好。
DST-S2C的模型結(jié)構(gòu)如圖1所示,該模型由四個模塊組成,分別是對話歷史編碼器、多關系圖編碼器、槽門機制和槽值解碼器。
圖1 DST-S2C的模型結(jié)構(gòu)圖
2.2.1 對話歷史編碼器
對話歷史編碼器負責將自然語言形式的對話歷史編碼成數(shù)值型特征,對話歷史指的是當前對話之前的對話信息。一個完整的對話可以表示成一個對話輪次集合X={(R0,U0),(R1,U1),…,(RT,UT)},(Rt,Ut)表示t時刻的對話語句,Rt表示系統(tǒng)回復,Ut表示用戶語句,對話語句則以單詞序列的形式表示。
對話歷史由當前對話語句和前一輪對話狀態(tài)組成。t時刻的對話歷史表示為Xt=[CLS]⊕Rt⊕[SEP]⊕Ut⊕[SEP]⊕Bt-1。其中,Rt表示系統(tǒng)回復,Ut表示用戶語句,Bt-1表示前一輪對話狀態(tài),⊕表示拼接操作。[CLS]和[SEP]是特殊標記,[CLS]標簽代表整個對話歷史的句子級表示,[SEP]標簽代表對話歷史不同組成部分的分隔符。
本文利用預訓練語言模型BERT作為對話歷史編碼器,對話歷史Xt由一個詞序列組成,該詞序列的詞嵌入作為BERT模型的一部分輸入,此外,還需要增加對話歷史的分段嵌入和位置嵌入。分段嵌入表示對話歷史中不同組成部分的編碼,本文將Rt部分的分段嵌入設為0,Ut部分的分段嵌入設為1,Bt-1部分的分段嵌入設為2。位置嵌入表示對話歷史中每個詞的位置信息,以每個詞在序列中的自然順序來表示。
(1)
其中,Wpool為前饋神經(jīng)網(wǎng)絡的參數(shù)。
2.2.2 多關系圖編碼器
槽位關聯(lián)信息由多關系圖編碼器引入,該過程主要包含多關系圖構(gòu)建以及圖編碼兩部分。多關系圖依賴本體構(gòu)建,本體包含了對話領域中需要的所有槽位以及候選槽值信息。基于本體,將多關系圖定義為G=(N,E)。其中,N={
本文提出四種槽位關系,即邊連接類型,并根據(jù)這四種槽位關系為多關系圖構(gòu)建四個鄰接矩陣,其中,共享值連接和隱式連接通常依賴于領域?qū)<以O置。共享值連接代表兩個槽位的槽值域相交,隱式連接代表兩個槽位的槽值存在一定的正比或反比關系。具體描述如下:
需要注意的是,結(jié)點與其自身具備領域連接關系和槽名連接關系。圖2是上述四種關系類型的示例圖。
圖2 四種關系類型示例圖
本文利用圖注意力網(wǎng)絡(Graph Attention Networks, GAT)[15]融合槽位關聯(lián)信息,提出一種層級圖注意力網(wǎng)絡HGAT。HGAT由L個編碼器塊堆疊,每個編碼器塊分為注意力子層和前饋神經(jīng)網(wǎng)絡(Feed Forward Network, FFN)子層,注意力子層由關系級(relation-level)注意力機制和結(jié)點級(node-level)注意力機制組成。關系級注意力機制計算結(jié)點與關系之間的注意力分數(shù),結(jié)點級注意力機制計算結(jié)點與結(jié)點之間的注意力分數(shù)。
圖3是注意力子層的結(jié)構(gòu)示意圖,該圖清晰展現(xiàn)了注意力子層中結(jié)點向量的更新過程。
圖3 注意力子層的結(jié)構(gòu)示意圖
關系級注意力機制負責計算結(jié)點與關系之間的相關性,旨在讓結(jié)點對相關性更強的關系類型給予更高的注意力。關系級注意力機制在標準注意力機制上進行了改進,不考慮原有表達式中的V,僅計算Q與K之間的注意力分數(shù),不將注意力分數(shù)與V進行加權。Q代表所有結(jié)點向量,初始結(jié)點向量由對話歷史編碼器獲得,維度為d。K代表所有關系向量,將所有關系記為R={r1,r2,r3,r4}。本文利用torch框架中的Embedding函數(shù)獲取關系向量,關系向量的維度與結(jié)點向量一致。
結(jié)點i與關系j的關系級注意力得分計算如式(2)、式(3)所示。
(2)
(3)
結(jié)點級注意力機制負責計算結(jié)點與結(jié)點之間的相關性,與標準注意力機制一樣,結(jié)點級注意力機制由Q、K和V作為輸入,這三個變量都表示為所有結(jié)點向量,向量維度為d,E表示多關系圖中的所有邊。
結(jié)點i與結(jié)點j的結(jié)點級注意力得分計算如式(4)~式(6)所示。
本文的FFN子層與Transformer[16]結(jié)構(gòu)相似,由兩個全連接層和ReLu激活函數(shù)組成,如式(7)所示。
FFN(x)=Wf2ReLu(Wf1x+b1)+b2
(7)
其中,Wf1、Wf2、b1和b2都是可訓練參數(shù)。
2.2.3 槽門機制
DST-S2C模型在槽門機制模塊中引入語義關聯(lián)。槽門機制利用槽位向量對每個槽位的狀態(tài)操作進行預測。槽位的狀態(tài)操作集合表示為{none, dontcare, carryover, generate, copy},狀態(tài)操作可以理解為該槽位的槽值預測方式。“none”表示該槽位不需要預測槽值,“dontcare”表示該槽位可任意取值,“carryover”表示該槽位的值與前一輪對話狀態(tài)中的槽值保持一致,“generate”表示該槽位的值可以從對話歷史中獲取,“copy”表示該槽位的值無法直接從對話歷史中獲取,需要從前一輪對話狀態(tài)的其他槽位中以值拷貝的方式獲取。
本文對槽門機制的輸入做了改進,除了利用槽位向量外,額外引入對話歷史與槽位的詞級語義相似度向量作為局部語義特征。最后,將該向量與槽位向量拼接后作為槽門機制的輸入。
(8)
Ht中每個詞向量都按式(8)計算其與槽位i的語義相似度,并將結(jié)果合并到一個向量中,記為simi∈Rlen,len表示對話歷史的序列長度。
接下來,槽位i的狀態(tài)操作分布概率計算如式(9)所示。
(9)
最后,t時刻槽位i的狀態(tài)操作預測結(jié)果如式(10)所示。
(10)
2.2.4 槽值解碼器
槽值解碼器負責預測槽值,由生成式解碼器和拷貝式解碼器兩個子模塊構(gòu)成。生成式解碼器對槽位狀態(tài)操作為“generate”的槽位進行預測,拷貝式解碼器對槽位狀態(tài)操作為“copy”的槽位進行預測。
(13)
接下來需要對隱向量作進一步處理,首先利用詞嵌入矩陣Evoc∈Rdvoc×hd將隱向量映射到詞典空間中,得到隱向量在詞典空間中的概率分布如式(14)所示。
(14)
其中,dvoc表示詞典大小,hd表示隱向量維度。
接著,將隱向量映射到對話歷史Ht的詞空間中,得到隱向量在對話歷史中的概率分布如式(15)所示。
(15)
與TRADE[9]類似,本文利用軟拷貝機制[12]生成一個標量α,α決定第k步解碼輸出直接從詞典中生成或者直接從對話歷史中獲取。
(16)
(17)
最終,第k步解碼輸出分布計算如式(18)所示。
(18)
上述解碼過程直到生成代表解碼結(jié)束的特殊標記[EOS]才停止解碼。
拷貝式解碼器對槽位狀態(tài)操作為“copy”的槽位進行預測,首先預測出與目標槽位i關聯(lián)性最大的槽位,將其視為源槽位,然后直接從前一輪對話狀態(tài)中復制源槽位的值。
其中,j∈{1,2,…,N}{i}。
然后,將概率最高的槽位作為目標槽位i的源槽位。最后,槽位i的槽值直接通過拷貝源槽位的槽值進行獲取。
本文模型訓練的目標函數(shù)主要由三部分組成,分別是槽門機制的槽位狀態(tài)預測損失Lgate、生成式解碼器的槽值預測損失Lgen以及拷貝式解碼器的源槽位預測損失Lcopy。上述損失函數(shù)均采用交叉熵函數(shù),具體計算如式(21)~式(23)所示。
模型訓練的目標函數(shù)為三個損失函數(shù)之和如式(24)所示。
Ltotal=Lgate+Lgen+Lcopy
(24)
結(jié)合上文所述,DST-S2C模型的訓練過程偽代碼如算法1所示。
算法1 訓練過程輸入: 預處理后的訓練集(Rt,Ut,Bt-1,ygate,ygen,ycopy)輸出: 模型預測結(jié)果(y^gate,y^gen,y^copy)1:for epoch in Epoch do2: Lgate,Lgen,Lcopy,Ltotal=03: for batch in Batch do4: Ht,H[CLS]t,H[SLOT]t=對話編碼器(Rt,Ut,Bt-1)5: SLt=多關系圖編碼器(H[SLOT]t)6: y^gate,Lgate=槽門機制(Ht;SLt)7: if label(y^gate)=generate8: y^gen,Lgen=生成式解碼器(Ht;H[CLS]t;SLt)9: Ltotal+=Lgen10: iflabel(y^gate)=copy11: y^copy,Lcopy=拷貝式解碼器(H[CLS]t,SLt)12: Ltotal+=Lcopy13: Ltotal.backward(),誤差反向傳播更新參數(shù)14: end15: 在驗證集上進行驗證16: end
本文實驗使用兩個基準數(shù)據(jù)集: MultiWOZ 2.0和MultiWOZ 2.1。MultiWOZ 2.0是一個大規(guī)模的多領域?qū)υ捳Z料,每個對話都有相應的對話狀態(tài)和對話動作標注。MultiWOZ 2.0中共有10 438個對話,其中包含3 406個單領域?qū)υ捄? 032個多領域?qū)υ?共有115 434個對話輪次,單領域?qū)υ捚骄啍?shù)為8.93,多領域?qū)υ捚骄啍?shù)為 15.39。
MultiWOZ 2.1是MultiWOZ 2.0的修正版本,該數(shù)據(jù)集對MultiWOZ 2.0 中存在的對話狀態(tài)標注錯誤和對話語句錯誤進行了修正。MultiWOZ 2.1中包含Train、Attraction、Restaurant、Taxi、Hotel、Hospital、Police共7個領域,其中,Hospital和Police兩個領域在數(shù)據(jù)集中缺少對應的對話狀態(tài)標注,因此僅選取前5個領域的數(shù)據(jù)進行實驗。最終,經(jīng)過數(shù)據(jù)預處理后,實驗數(shù)據(jù)包含 5個領域、30個槽位以及超過4 500個槽值。具體統(tǒng)計信息如表1所示。
表1 MultiWOZ 2.1數(shù)據(jù)集統(tǒng)計信息
實驗主要通過聯(lián)合準確率(Joint-accuracy)和槽位準確率(Slot-accuracy)兩個指標來評價模型效果。
聯(lián)合準確率表示在所有對話輪中,所有槽位均正確的對話輪所占的比例,該指標用于評價模型在輪級別的對話狀態(tài)預測能力,如式(25)所示。
(25)
其中,turnall為測試集中對話輪總數(shù),turncorrect為所有槽位均正確的對話輪數(shù)。
槽位準確率表示在每一輪對話中,槽位的準確率,用于評價模型在槽級別的對話狀態(tài)預測能力,如式(26)所示。
(26)
其中,slotall為測試集需要判斷的槽位總數(shù),slotcorrect為這些槽位中預測正確的槽位個數(shù)。
為驗證本文提出的DST-S2C模型的有效性,實驗部分將與若干被驗證有效的模型進行對比,本文選擇兩類方法作為基線方法: 未引入圖結(jié)構(gòu)的方法(w/o Graph)和引入圖結(jié)構(gòu)的方法(w Graph)。兩類基線方法的區(qū)別在于,w Graph以一種清晰明確的圖結(jié)構(gòu)對槽位關系進行建模,而w/o Graph只依賴槽位的語義信息。
TRADE[9]包含槽門機制和用于狀態(tài)生成的指針生成器。
COMER[13]將對話狀態(tài)跟蹤看作序列生成任務,采用層級解碼方式生成對話狀態(tài)。
SOM[14]利用BERT對前輪對話狀態(tài)及對話歷史進行編碼,并采用RNN解碼器為需要更新的槽位預測槽值。
DST-HTG[17]將槽位按領域名和槽名拆分,以領域名和槽名作為結(jié)點構(gòu)建圖,利用GAT對槽位關系進行建模。
SST[18]將槽位按詞拆分,以拆分后的詞作為結(jié)點構(gòu)建圖,利用GAT對槽位關系進行建模。
CSFN-DST[19]將槽位按領域名和槽名拆分,以槽位、領域名和槽名作為結(jié)點構(gòu)建圖,利用多頭注意力獲取槽位之間的關系。
GCDST[20]以槽位作為結(jié)點構(gòu)建圖,利用圖卷積網(wǎng)絡(Graph Convolutional Network, GCN)[21]對槽位關系進行建模。
本實驗使用BERT-base-uncased模型進行對話編碼,并利用GRU作為槽值解碼器,解碼過程使用貪心搜索策略。實驗的Epoch數(shù)為30,訓練集和驗證集的批次大小均為32。本實驗一共運行5次,最終的實驗結(jié)果取5次實驗的平均。DST-S2C模型的具體參數(shù)設置如表2所示。
表2 參數(shù)設置
3.5.1 實驗結(jié)果
各模型在MultiWOZ 2.0和MultiWOZ 2.1上的實驗結(jié)果如表3所示?;€方法的結(jié)果來源于原始文獻,其中,星號標注的數(shù)據(jù)源自復現(xiàn)實驗,復現(xiàn)實驗的參數(shù)設置與本文方法保持一致。
表3 各模型在MultiWOZ 2.0和MultiWOZ 2.1上的聯(lián)合準確率與槽位準確率
由表3可以看出,DST-S2C與兩類基線方法相比均取得了明顯性能的提升。與w/o Graph相比,如COMER和SOM,DST-S2C在MultiWOZ 2.0數(shù)據(jù)集上的聯(lián)合準確率提升了4.67%和1.74%;在MultiWOZ 2.1數(shù)據(jù)集上的聯(lián)合準確率提升了6.73%和3.34%。提升明顯的主要原因在于,DST-S2C中的多關系圖將槽位關聯(lián)信息融入到狀態(tài)跟蹤過程中,具備處理槽位指代問題的能力,而w/o Graph方法未考慮槽位關聯(lián)信息。與w Graph相比,如SST和CSFN-DST,DST-S2C 在MultiWOZ 2.0數(shù)據(jù)集上的聯(lián)合準確率提升了2.29%和1.89%;在MultiWOZ 2.1數(shù)據(jù)集上的聯(lián)合準確率提升了1.12%和3.47%。DST-S2C與w Graph方法均利用圖結(jié)構(gòu)建模槽位關系,不同之處在于DST-S2C將槽位構(gòu)建成多關系圖,而w Graph將槽位構(gòu)建成單關系圖。因此,相較于其他引入圖結(jié)構(gòu)的方法,DST-S2C的優(yōu)勢可能源于多關系圖編碼器中的層級圖注意力,該機制不僅關注槽位與槽位的關系,還關注了槽位關系的多樣性。
3.5.2 實驗分析
為驗證本文提出的對話歷史編碼方式的有效性,本文在實驗部分對對話歷史編碼器模塊進行消融實驗,實驗結(jié)果如表4所示。
表4 DST-S2C的對話歷史編碼器在MultiWOZ 2.1上的消融實驗結(jié)果
由表4可以發(fā)現(xiàn),增加對話歷史編碼信息后,模型的聯(lián)合準確率并未得到提升,而省略部分信息則導致模型性能下降。該結(jié)果表明,僅對當前輪對話信息和前輪對話狀態(tài)進行編碼的方式是有效的,與前輪對話狀態(tài)相比,當前輪對話信息對狀態(tài)跟蹤的影響更大。
為探索多關系圖中槽位關系建模對狀態(tài)跟蹤的影響,本文在實驗部分進一步分析了DST-S2C在特定領域和特定槽位的表現(xiàn)。將測試集按照不同領域劃分為若干子數(shù)據(jù)集,每個子數(shù)據(jù)集中的對話僅包含特定領域的槽位。表5是DST-S2C、CSFN-DST和SOM在特定領域的聯(lián)合準確率。
表5 MultiWOZ 2.1中特定領域的聯(lián)合準確率
表5的結(jié)果表明,DST-S2C在所有領域中的表現(xiàn)均優(yōu)于其他模型,尤其是在“Restaurant”和“Hotel”領域。多領域?qū)υ拡鼍爸?不同領域間的槽位并不是完全相互獨立的。如
為評估DST-S2C在特定槽位的表現(xiàn),本文統(tǒng)計了DST-S2C和SST在不同槽位的槽值預測誤差率。圖4是排在前五和后五的槽位誤差率。
結(jié)果表明,DST-S2C在特定槽位的準確率均高于SST,尤其是在跨領域槽位上。如槽位
槽門機制負責預測每個槽位的狀態(tài)操作,而狀態(tài)操作的準確性會直接影響槽值預測的精度。因此,為驗證局部語義信息對槽門機制的影響,本文增加對槽門機制的評估實驗。圖5是槽門機制引入局部語義信息前后,在不同狀態(tài)操作上的預測精度對比結(jié)果。
由圖5可以看出,引入局部語義信息后,槽門機制中不同狀態(tài)操作的預測精度都得到一定提升?!癵enerate”和“copy”這兩個狀態(tài)操作的分類效果提升最為明顯,這也解釋了DST-S2C在聯(lián)合準確度上的提升表現(xiàn)。此外,槽門機制對“none”的預測精度達到99%,而對“dontcare”的預測精度僅為50.4%。該現(xiàn)象最主要的原因在于數(shù)據(jù)的不平衡性,訓練數(shù)據(jù)中標簽為“dontcare”的數(shù)據(jù)占比較少,而大部分數(shù)據(jù)的標簽為“none”,這導致不同狀態(tài)操作預測的表現(xiàn)差異過大。
最后,為評估DST-S2C不同組件的作用,本文對DST-S2C進行消融實驗,實驗結(jié)果如表6所示。
表6 DST-S2C在 MultiWOZ 2.1上的消融實驗結(jié)果
移除多關系圖編碼器的變體,其聯(lián)合準確率下降了1.96%。移除詞級語義相似度向量的變體,其聯(lián)合準確率下降了0.65%。由此表明,槽位關聯(lián)信息和局部語義信息對提升對話狀態(tài)跟蹤的表現(xiàn)確有幫助。相比于局部語義信息,槽位關聯(lián)信息所起的作用則更加重要。
本文首先探討了當前對話狀態(tài)跟蹤任務中存在的主要問題。基于這些問題,提出一種融合槽位關聯(lián)和語義關聯(lián)的對話狀態(tài)跟蹤模型DST-S2C。該模型引入多關系圖對槽位進行關系建模,利用層級圖注意力網(wǎng)絡對槽位向量進行更新。同時,在槽門機制中增加了詞級語義相似度向量,獲取槽位與對話的局部語義。在基準數(shù)據(jù)集MultiWOZ2.1上的結(jié)果表明,DST-S2C在聯(lián)合準確率和槽位準確率上都超越了基線方法。消融實驗則進一步驗證了DST-S2C中多關系圖編碼器和詞級語義相似度向量的有效性。最后,實驗過程中遇到的名稱類槽位難以跟蹤以及槽門機制中類別不平衡的問題,將成為后續(xù)工作的研究內(nèi)容。