郭哲銘 張 虎 崔 軍 王笑月
(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 山西 太原 030006)
框架語(yǔ)義分析是通過(guò)語(yǔ)義框架刻畫事件或場(chǎng)景[1],并以此對(duì)自然語(yǔ)言進(jìn)行語(yǔ)義分析的一種技術(shù)??蚣苷Z(yǔ)義分析任務(wù)主要包括框架識(shí)別和語(yǔ)義角色標(biāo)注兩個(gè)子任務(wù)[2-3]。本文主要圍繞框架識(shí)別任務(wù)展開研究,即給定可激起框架的目標(biāo)詞,根據(jù)上下文語(yǔ)境,選取最符合該目標(biāo)詞語(yǔ)境的語(yǔ)義框架。在真實(shí)的語(yǔ)言資源中單個(gè)目標(biāo)詞會(huì)對(duì)應(yīng)一個(gè)或多個(gè)所屬框架,但在具體的上下文場(chǎng)景中其僅可選擇一個(gè)關(guān)聯(lián)框架。如表1所示,目標(biāo)詞“叫”所屬框架有三個(gè),但依據(jù)上下文語(yǔ)境S1中“叫”后接地名“茶峒”應(yīng)屬于“命名”框架,而S2中鳥叫聲應(yīng)屬于“發(fā)聲”框架。
表1 語(yǔ)料示例
早期研究中通常將該任務(wù)視為多分類任務(wù),使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法以及人工特征建立模型。Johansson等[4]使用支持向量機(jī)對(duì)不同的詞元訓(xùn)練一個(gè)分類器,同時(shí)將詞根、次級(jí)框架集合(目標(biāo)詞為動(dòng)詞時(shí))和父子節(jié)點(diǎn)等特征融入其中,并在FrameNet[5]英文語(yǔ)料庫(kù)進(jìn)行了驗(yàn)證。然而,特征選擇的復(fù)雜性及龐大的數(shù)量導(dǎo)致人工定義特征成本過(guò)高,模型難以泛化。面對(duì)該問(wèn)題,Li等[6]提出T-CRF模型,首先采用句法分析工具得到文本的層次結(jié)構(gòu),之后結(jié)合條件隨機(jī)場(chǎng)模型(CRF)進(jìn)行漢語(yǔ)框架[7]識(shí)別。
深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使框架識(shí)別任務(wù)逐漸擺脫對(duì)特征規(guī)則的依賴,且模型性能也得到了提升。Hermann等[8]使用句法和語(yǔ)法特征并將謂詞進(jìn)行分布式表示,之后將其與通過(guò)WSABIE算法得到框架表示計(jì)算距離進(jìn)行框架識(shí)別任務(wù)。Swayamdipta等[9]提出Open-SESAME,通過(guò)Bi-LSTM提取上下文信息,同時(shí)為在上下文中表示目標(biāo)詞,將目標(biāo)詞與相鄰為1的詞語(yǔ)作為前向LSTM的輸入。但上述工作只對(duì)語(yǔ)料上下文信息進(jìn)行了提取,忽略了目標(biāo)詞周圍的局部信息特征。且已有工作大多為一個(gè)目標(biāo)詞訓(xùn)練一個(gè)分類器,導(dǎo)致模型缺乏通用性。
通過(guò)分析語(yǔ)料發(fā)現(xiàn),目標(biāo)詞周邊詞語(yǔ)對(duì)框架識(shí)別有重要作用。如表1中句S1,只需確認(rèn)目標(biāo)詞周邊2個(gè)字(即“小城叫茶峒”)就可確定所屬框架。且在語(yǔ)料中,不同的字詞對(duì)目標(biāo)詞框架選擇的影響程度不同,如S2中“鳥兒”和“嘰嘰喳喳”對(duì)框架選擇的重要程度更高。因此本文引入了局部信息提取機(jī)制,強(qiáng)化框架識(shí)別中的局部信息;此外,由于基于RNNs的模型存在長(zhǎng)距離依賴的問(wèn)題,故此本文采用大型預(yù)訓(xùn)練模型BERT[10]得到文本表示,并基于此使用RNNs進(jìn)一步捕捉文本的序列化結(jié)構(gòu)。
綜上所述,本文的主要貢獻(xiàn)包括:
(1) 在框架識(shí)別任務(wù)上將預(yù)訓(xùn)練語(yǔ)言模型與RNNs相結(jié)合,既緩解了長(zhǎng)距離依賴問(wèn)題,又可同時(shí)捕捉到文本固有的序列化信息。
(2) 結(jié)合框架識(shí)別的特點(diǎn),提出一種局部信息提取機(jī)制,其可以強(qiáng)化框架識(shí)別中的局部重要信息。
(3) 在FrameNet和Chinese FrameNet上的實(shí)驗(yàn)結(jié)果表明本文所提方法可有效提高框架識(shí)別準(zhǔn)確率。
框架語(yǔ)義分析最早由Gildea等[11]提出,并通過(guò)使用FrameNet進(jìn)行了可行性驗(yàn)證,后來(lái)在2007年的SemEval中被正式以評(píng)測(cè)任務(wù)的方式提出。作為框架語(yǔ)義分析子任務(wù)的框架識(shí)別也備受矚目。
現(xiàn)有的框架模型主要依靠?jī)煞N方式:第一種主要使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行分類,比如條件隨機(jī)場(chǎng)(CRF)、支持向量機(jī)(SVM)和最大熵(ME)等模型。Bejan[12]使用SVM和ME模型對(duì)FrameNet中556個(gè)帶有歧義的目標(biāo)詞分別構(gòu)造多分類器進(jìn)行識(shí)別。李濟(jì)洪等[13]利用詞性、依存句法等特征,使用最大熵進(jìn)行建模。門宇鵬等[14]在其基礎(chǔ)上加入語(yǔ)義依存分析特征,并利用支持向量機(jī)進(jìn)行分類。但以上研究大多由研究者自行選擇特征,并利用現(xiàn)有的分析系統(tǒng)抽取特征。這不僅加大了研究人員的工作量還由于分析系統(tǒng)自身存在的誤差且沒(méi)有進(jìn)行修復(fù)導(dǎo)致存在誤差累計(jì)。
隨著深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理領(lǐng)域中相關(guān)任務(wù)的深入應(yīng)用,越來(lái)越多的研究者也嘗試將其引入到框架識(shí)別任務(wù)中。Das等[3]將多種句法特征融入到半監(jiān)督學(xué)習(xí)方法進(jìn)行框架識(shí)別;Hermann等[15]通過(guò)引入大型外部數(shù)據(jù)庫(kù)來(lái)提高框架識(shí)別性能;在此基礎(chǔ)上張力文等[16]將詞語(yǔ)及句子利用分布式表征方法表示,再使用相似度計(jì)算的方式進(jìn)行框架的識(shí)別。借鑒以上方法,Botschen等[17]通過(guò)將語(yǔ)料中的目標(biāo)詞替換為目標(biāo)框架進(jìn)行迭代訓(xùn)練,最后提出該目標(biāo)詞位置的向量作為框架的表示參與框架識(shí)別任務(wù)。侯運(yùn)瑤等[18]通過(guò)對(duì)同一例句同一目標(biāo)詞所激起的框架構(gòu)建正負(fù)例,再經(jīng)過(guò)以hinge-loss為目標(biāo)函數(shù)的神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí),得到帶有可區(qū)別該目標(biāo)詞所屬正確框架與錯(cuò)誤框架的框架表示向量,并使用該向量進(jìn)行框架的識(shí)別。然而,神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的優(yōu)點(diǎn)并沒(méi)有體現(xiàn)。因此,趙紅燕等[19]將深度神經(jīng)網(wǎng)絡(luò)框架與詞分布式表征相結(jié)合,基于卷積神經(jīng)網(wǎng)絡(luò)建立了一個(gè)通用的框架識(shí)別網(wǎng)絡(luò)。但以上工作均忽略了目標(biāo)詞周圍的局部信息。
框架識(shí)別任務(wù)是指給定包含目標(biāo)詞的句子S,記為S=(w1,w2,…,wn),其中wi為組成句子的第i個(gè)字(英文為第i個(gè)詞),1≤i≤n。待識(shí)別目標(biāo)詞記為WT=(wt1,wt2,…,wtn),Wt∈S。要求通過(guò)上下文的語(yǔ)義場(chǎng)景從給定的框架庫(kù)F={f1,f2,…,fn}中選擇出適合的框架ft,記為:
(1)
本文提出一種融合全局和局部注意力機(jī)制的框架識(shí)別模型,整體架構(gòu)如圖1所示。其主要分為3個(gè)部分:① 編碼層:通過(guò)預(yù)訓(xùn)練模型得到文本的向量表示。② 注意力交互層:通過(guò)全局注意力和局部注意力分別對(duì)上下文及目標(biāo)詞周邊信息建模,得到面向目標(biāo)詞的語(yǔ)義信息編碼。③ 輸出層:融合得到的特征信息經(jīng)過(guò)全連接層變換后輸入分類器進(jìn)行框架的選擇。
圖1 TBGA模型結(jié)構(gòu)
本文采用BERT作為文本編碼層,將“[CLS]+句子S+[SEP]”作為模型輸入X,其模型結(jié)構(gòu)如圖2所示。
圖2 BERT預(yù)訓(xùn)練語(yǔ)言模型結(jié)構(gòu)
圖3 窗口大小K實(shí)驗(yàn)
其使用雙向Transformer[20]作為基本結(jié)構(gòu),將每個(gè)詞與其上下文信息進(jìn)行交互,并賦予不同權(quán)重,以此得到融合上下文信息的文本表示。
Ei=Etoken(xi)+Epos(xi)+Eseg(xi)
(2)
Hs=BERT(E1,E2,…,En)
(3)
式(2)和式(3)展示了BERT的處理過(guò)程,首先將輸入X進(jìn)行分詞操作得到標(biāo)記序列[x1,x2,…,xn],n為序列長(zhǎng)度。再分別使用詞嵌入、位置嵌入、段落嵌入將每個(gè)xi編碼為向量Ei,最后將其輸入BERT中輸出詞向量Hs∈Rn×d。
框架識(shí)別中一條句子可能存在多個(gè)框架場(chǎng)景,如表1的句子S4中存在兩個(gè)目標(biāo)詞“是”和“成為”。同時(shí)在同一語(yǔ)料中一個(gè)目標(biāo)詞也可屬于多個(gè)框架,如句子S3中,“叫皮皮的狗”刻畫的是對(duì)狗的指稱,屬于“命名”框架;而“瘋狂地叫著”體現(xiàn)的是“發(fā)出聲響”,屬于發(fā)聲框架。因此目標(biāo)周邊信息對(duì)框架識(shí)別任務(wù)格外重要。本文使用Bi-GRU分別對(duì)目標(biāo)詞上下文和目標(biāo)詞周邊信息進(jìn)行語(yǔ)義信息提取,捕捉文本語(yǔ)言中的序列結(jié)構(gòu)信息和目標(biāo)詞的局部信息特征。針對(duì)語(yǔ)料中各個(gè)詞語(yǔ)在框架識(shí)別任務(wù)時(shí)重要性差異問(wèn)題,本文引入注意力機(jī)制,從而有效地提供了針對(duì)目標(biāo)詞的文本語(yǔ)義信息。
2.2.1序列化特性提取
基于Attention機(jī)制的BERT預(yù)訓(xùn)練模型無(wú)法捕捉自然語(yǔ)言獨(dú)特的序列化結(jié)構(gòu)。故本文引入雙向門控循環(huán)網(wǎng)絡(luò)(Bi-GRU)挖掘BERT所得文本表示中的結(jié)構(gòu)信息。
(4)
(5)
(6)
Shi=[h1,h2,…,hn]
(7)
為提取目標(biāo)詞周邊信息,本文以目標(biāo)詞為中心,使用開窗口的方式選取其周邊字組成周邊句ST=(wt1-k,…,wt1-1,wtn+1,…,wtn+k)其中k為窗口的大小。通過(guò)使用Bi-GRU對(duì)周邊句進(jìn)行建模提取特征,Sti記為局部信息表示。如式(8)-式(11)所示。其中xti∈R2k×2d是經(jīng)過(guò)編碼后的周邊句中的字向量。
(8)
(9)
(10)
Sti=[ht1,ht2,…,ht2k]
(11)
2.2.2雙注意力機(jī)制
在目標(biāo)詞的上下文中不同的詞語(yǔ)對(duì)目標(biāo)詞框架選擇的影響力不同。如表1的句子S2中“《邊城》中的小城”的“小城”更能體現(xiàn)出框架“命名”的場(chǎng)景,而“《邊城》”僅起定語(yǔ)的作用。因此對(duì)于語(yǔ)料中包含語(yǔ)義角色的詞語(yǔ),定語(yǔ)、補(bǔ)語(yǔ)之類不同程度的修飾詞語(yǔ)應(yīng)在進(jìn)行句子語(yǔ)義表示時(shí)賦予不同的權(quán)重。因此本文在Bi-GRU編碼層后引入注意力機(jī)制,從而使得表達(dá)出的語(yǔ)義更加符合當(dāng)前目標(biāo)詞所表達(dá)的語(yǔ)義場(chǎng)景。
如式(12)-式(15)所示,本文將BERT所得的目標(biāo)詞表示uwt∈Rd作為注意力機(jī)制中的查詢值query,將Bi-GRU得到的句子表示Shi視為key和value,得到關(guān)于目標(biāo)詞的注意力權(quán)重矩陣。之后將權(quán)重矩陣與文本表示Shi加權(quán)求和,得到融入目標(biāo)詞信息的文本特征表示M∈Rd。
uwt=mean(WT)
(12)
ui=tanh(Wihi+bi)
(13)
(14)
(15)
同時(shí),為提取更有效的目標(biāo)詞周邊信息,對(duì)Bi-GRU所得到的目標(biāo)詞局部信息表示Sti也使用了同樣操作。如式(16)-式(18)所示,使用目標(biāo)詞詞向量uwt計(jì)算周邊詞語(yǔ)的可靠度ati,并將Mt作為周邊句的特征向量。
uti=tanh(Wtihti+bti)
(16)
(17)
(18)
為充分融合上下文語(yǔ)義特征、周邊詞語(yǔ)義特征與目標(biāo)詞特征,本文將三種特征進(jìn)行拼接作為最終的整體信息Q∈Rd×3。其中為了充分體現(xiàn)目標(biāo)詞中每個(gè)字的信息,目標(biāo)詞特征Mw為目標(biāo)詞中的每個(gè)字向量相加得到,如式(19)-式(20)所示。
Mw=wt1+wt2+…+wtn
(19)
Q=M?Mt?Mw
(20)
在網(wǎng)絡(luò)最后使用全連接層進(jìn)行約束,并將結(jié)果輸入softmax分類器中進(jìn)行分類。與其他方法不同,本方法使用一個(gè)分類器對(duì)不同目標(biāo)詞進(jìn)行識(shí)別,為多分類問(wèn)題,故采取CrossEntropyLoss損失函數(shù)訓(xùn)練整個(gè)網(wǎng)絡(luò)。其輸入為真實(shí)樣本類別分布p(x)和觀測(cè)樣本的預(yù)測(cè)概率分布q(x),如式(21)-式(22)所示。
q(x)=softmax(Q)
(21)
(22)
本文分別在漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)(Chinese FrameNet,CFN)和英文框架語(yǔ)義知識(shí)庫(kù)(FrameNet)進(jìn)行了實(shí)驗(yàn),表2介紹了文中所使用數(shù)據(jù)集的詳細(xì)信息。其中FrameNet1.5數(shù)據(jù)集中目標(biāo)詞歧義的語(yǔ)料較少,無(wú)法較好體現(xiàn)出本文所提方法在框架排歧上的優(yōu)越性。故針對(duì)框架排歧實(shí)驗(yàn)分析,本文主要采用CFN語(yǔ)料。
表2 數(shù)據(jù)集的分布
實(shí)驗(yàn)采用準(zhǔn)確率(accuracy)作為評(píng)價(jià)指標(biāo),計(jì)算的是所有正確預(yù)測(cè)的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的比值,不考慮預(yù)測(cè)的樣本是正例還是負(fù)例。本次在實(shí)驗(yàn)中就是在所有目標(biāo)詞標(biāo)簽預(yù)測(cè)的目標(biāo)句中,標(biāo)簽預(yù)測(cè)正確的句子占有的比例。計(jì)算公式如下:
(23)
式中:TP+TN是正確識(shí)別框架的例句數(shù);TP+TN+FP+FN是框架識(shí)別的例句總數(shù)。
實(shí)驗(yàn)的參數(shù)設(shè)置如表3所示,本文將最大序列長(zhǎng)度設(shè)置為128,訓(xùn)練批量大小為16,使用Adam優(yōu)化函數(shù),初始學(xué)習(xí)率為5e-5,并設(shè)定隨著訓(xùn)練的進(jìn)行將學(xué)習(xí)率逐漸降低,衰減率為0.05,epoch為5。Bi-GRU隱層節(jié)點(diǎn)數(shù)也為768維。
表3 參數(shù)設(shè)置表
本文主要進(jìn)行了四組實(shí)驗(yàn):實(shí)驗(yàn)一、二分別使用兩種數(shù)據(jù)集與現(xiàn)有模型方法進(jìn)行了對(duì)比;實(shí)驗(yàn)三針對(duì)窗口大小的選擇進(jìn)行了分析。實(shí)驗(yàn)四通過(guò)消融實(shí)驗(yàn)驗(yàn)證了模型各個(gè)模塊的作用。
3.4.1CFN數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果及分析
在進(jìn)行框架識(shí)別任務(wù)時(shí),漢語(yǔ)的復(fù)雜性導(dǎo)致一詞多義及目標(biāo)詞包含語(yǔ)義場(chǎng)景的現(xiàn)象較多,因此CFN相比FrameNet更能體現(xiàn)模型在排岐上的有效性。故選取文獻(xiàn)[18]中的最好結(jié)果作為基線對(duì)比,記為C&W_FR。但該方法仍是針對(duì)目標(biāo)詞進(jìn)行建模,受限于目標(biāo)詞語(yǔ)料規(guī)模,為得到更可靠的實(shí)驗(yàn)對(duì)比,將語(yǔ)料按照論文方式劃分成四個(gè)大小相同子集并保證目標(biāo)詞所屬語(yǔ)料均勻分配到每個(gè)子集。然后將其中任意兩塊作為測(cè)試集,其他兩塊作為訓(xùn)練集進(jìn)行3×2折交叉驗(yàn)證實(shí)驗(yàn),結(jié)果如表4所示。此外,本文還比較了其他兩種通過(guò)框架表示進(jìn)行識(shí)別的模型,結(jié)果如表5所示。
表4 CFN實(shí)驗(yàn)(%)
表5 CFN實(shí)驗(yàn)(%)
可以看出,本文提出的框架識(shí)別模型(BTGAT)在六組實(shí)驗(yàn)中均高于基線模型的最好結(jié)果,其平均結(jié)果相較于基線模型提升了2.38%。同時(shí),表5的結(jié)果表示本文的方法顯著優(yōu)于其他方法。以上結(jié)果驗(yàn)證了所提方法針對(duì)歧義詞元的識(shí)別具有優(yōu)越性。
3.4.2FrameNet1.5上實(shí)驗(yàn)結(jié)果及分析
為驗(yàn)證模型的通用性與延展性,本文比較了其他三種不同的方法并在英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。表6展示了在使用FrameNet1.5作為數(shù)據(jù)集時(shí)的實(shí)驗(yàn)結(jié)果。
表6 FrameNet實(shí)驗(yàn)(%)
可以看出本文通過(guò)對(duì)上下文和目標(biāo)詞周邊信息進(jìn)行自動(dòng)加權(quán)提取的特征可以有效地進(jìn)行框架的預(yù)測(cè)。其中SEMAFOR為Das等[3]對(duì)SemEval 2007最佳模型[2]的改進(jìn),采用基于圖的半監(jiān)督學(xué)習(xí)方法和對(duì)偶分解算法進(jìn)行識(shí)別。對(duì)比SEMAFOR系統(tǒng),本文的模型識(shí)別效果提升了4.79百分點(diǎn)。相比于同樣未使用語(yǔ)法特征的Open-SESAME[9]系統(tǒng)和Hermann等[15]的方法,模型效果分別提高了1.45百分點(diǎn)和0.76百分點(diǎn),說(shuō)明本文通過(guò)對(duì)周邊句提取特征可以有效地提高識(shí)別能力。作為通用模型,本文的實(shí)驗(yàn)在英文數(shù)據(jù)集中的結(jié)果均優(yōu)于其他模型。且本模型不是針對(duì)詞元進(jìn)行建模,因此若出現(xiàn)與訓(xùn)練框架相似的新詞元不需要針對(duì)其進(jìn)行新的建模訓(xùn)練,可直接通過(guò)語(yǔ)料自動(dòng)提取特征進(jìn)行識(shí)別。故本方法擁有其他模型不具備的魯棒性和延展性。
3.4.3窗口大小K實(shí)驗(yàn)
本文通過(guò)調(diào)整例句中以目標(biāo)詞為中心開窗口K的大小,得到對(duì)框架識(shí)別效果提升最大的目標(biāo)詞周邊信息。以CFN實(shí)驗(yàn)中的最佳效果為例,當(dāng)選擇的窗口大小過(guò)大導(dǎo)致目標(biāo)詞左邊或右邊沒(méi)有詞語(yǔ)時(shí),為保證輸入注意力機(jī)制的向量維度一致,本文使用0向量進(jìn)行有順序的填充。
可以看出,對(duì)于中文,選取大小為4的時(shí)候效果最佳。當(dāng)窗口小于4時(shí),可能過(guò)短的周邊詞語(yǔ)無(wú)法提取出對(duì)框架識(shí)別有用的信息導(dǎo)致效果不佳。而當(dāng)窗口過(guò)大時(shí)可能導(dǎo)致提取的特征與上下文信息部分重復(fù),影響最終的預(yù)測(cè)。對(duì)于FrameNet數(shù)據(jù)集,當(dāng)K為2時(shí)效果最佳。原因可能為中英文分詞差異,周邊為2的英文詞匯包含信息與中文周邊4個(gè)字組成的目標(biāo)句信息對(duì)識(shí)別效果最佳。
3.4.4消融實(shí)驗(yàn)
為了分析神經(jīng)網(wǎng)絡(luò)模型中各個(gè)組成部分的有效性,本文在中文的數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),具體結(jié)果如表7所示。
表7 消融實(shí)驗(yàn)(%)
可以看出,上下文特征貢獻(xiàn)度大于周邊詞特征。且在加入上下文(+C)和目標(biāo)詞周邊(+R)的特征之后,框架的準(zhǔn)確度在兩個(gè)數(shù)據(jù)集上分別提高了2.54百分點(diǎn)和1.16百分點(diǎn),這表明通過(guò)Bi-GRU提取到的特征對(duì)框架識(shí)別是有意義的。而對(duì)得到的兩個(gè)特征引入注意力機(jī)制(+A)使得準(zhǔn)確度進(jìn)一步提升了2.21百分點(diǎn)和1.47百分點(diǎn),說(shuō)明注意力機(jī)制通過(guò)加權(quán)使得語(yǔ)料中的重要信息得到體現(xiàn)。針對(duì)同語(yǔ)料目標(biāo)詞不同問(wèn)題,將目標(biāo)詞作為注意力的參照目標(biāo)對(duì)特征進(jìn)行提取,相比之前結(jié)果分別提升了0.96百分點(diǎn)和0.87百分點(diǎn),表明該方案得到的特征更加符合當(dāng)前目標(biāo)詞所刻畫的語(yǔ)義場(chǎng)景。此外,從表7中可以看出在該任務(wù)中,GRU的序列化特性提取性能優(yōu)于LSTM且雙向提取的信息高于單向。
對(duì)比兩個(gè)數(shù)據(jù)集及其實(shí)驗(yàn)結(jié)果,由于中文數(shù)據(jù)集的詞元均有歧義而英文數(shù)據(jù)中歧義詞元較少,導(dǎo)致該模型在中文數(shù)據(jù)上各個(gè)模塊之間的提升幅度較大而英文相對(duì)幅度較小,表明該模型對(duì)歧義框架的識(shí)別提升明顯。
3.4.5錯(cuò)誤結(jié)果分析
本文在兩個(gè)數(shù)據(jù)集分別選取了測(cè)試集中的50條錯(cuò)誤數(shù)據(jù)進(jìn)行了分析,錯(cuò)誤數(shù)據(jù)如表8所示。其錯(cuò)誤類型主要有以下幾點(diǎn)。
表8 錯(cuò)誤分析
(1) 框架之間具有總分關(guān)系:啟程和出發(fā)的框架定義相近,但總框架分別為位移和旅行,故不僅需要上下文語(yǔ)境,還需分析激起框架中具有的框架關(guān)系,并選擇符合此時(shí)語(yǔ)境的上位框架。
(2) 篇章關(guān)系:如識(shí)別詞元“出航”時(shí),只從給出的當(dāng)前語(yǔ)料無(wú)法判定其語(yǔ)境為“旅游”還是為“位移”。
(3) 語(yǔ)句情感:“表達(dá)”與“陳述”框架均使用了信息交流框架,區(qū)別在于“表達(dá)”框架偏向于刻畫信息傳遞者的思想、感情等抽象化信息,而“陳述”框架則是重點(diǎn)刻畫說(shuō)話者傳達(dá)信息的場(chǎng)景。但計(jì)算機(jī)無(wú)法對(duì)該語(yǔ)料中所傳達(dá)的信息進(jìn)行分辨。
(4) 權(quán)重分配問(wèn)題:目標(biāo)詞“party”的預(yù)測(cè)框架“Organization”在人工標(biāo)注時(shí)無(wú)法激起,說(shuō)明抽取出的上下文及周邊詞特征之和對(duì)該詞元的影響力過(guò)大,導(dǎo)致目標(biāo)詞特征無(wú)法準(zhǔn)確定位框架。
本文提出了一種BTGAT模型,首先針對(duì)多義詞問(wèn)題,使用BERT對(duì)語(yǔ)料訓(xùn)練增強(qiáng)了詞向量的詞義表征能力。其次,通過(guò)Bi-GRU對(duì)上下文及周邊句信息進(jìn)行語(yǔ)義表示,再使用全局和局部注意力機(jī)制以詞元作為參照目標(biāo)對(duì)語(yǔ)義表示進(jìn)行針對(duì)性建模,得到符合當(dāng)前目標(biāo)詞所刻畫場(chǎng)景的特征。最后將得到的特征拼接后送入分類器進(jìn)行框架識(shí)別。實(shí)驗(yàn)結(jié)果表明,該模型在兩個(gè)數(shù)據(jù)集上的性能均優(yōu)于基線。同時(shí),本模型不僅可用于多種語(yǔ)言且統(tǒng)一訓(xùn)練參數(shù),而非對(duì)不同詞元訓(xùn)練不同分類器,因此具有通用性和延展性。此外,本文還對(duì)目標(biāo)詞周邊窗口大小對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行了研究。結(jié)合錯(cuò)誤分析,在今后的工作中將重點(diǎn)研究框架關(guān)系對(duì)識(shí)別的影響,嘗試將候選框架之間的聯(lián)系進(jìn)行建模,利用上位框架等信息進(jìn)行過(guò)濾。針對(duì)篇章關(guān)系,可引入標(biāo)注的篇章語(yǔ)料,通過(guò)保留上文重要信息進(jìn)行識(shí)別。同時(shí)可對(duì)提取的不同特征通過(guò)分配不同的權(quán)重,緩解次要特征影響力過(guò)大問(wèn)題,進(jìn)一步提高框架識(shí)別的準(zhǔn)確性。