蘇魁麟,張 凱,呂學(xué)強(qiáng),張 樂
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播重點實驗室,北京 100101;2.首都師范大學(xué)文學(xué)院 中國語言智能研究中心,北京 100048)
隱喻是用來描述和理解抽象概念的主要手段,它不但是一種語言現(xiàn)象,也是一種認(rèn)知方式[1]。認(rèn)知是指人們獲得知識或應(yīng)用知識的過程,是人類信息加工的基本過程[2],隱喻對人們的交流和認(rèn)知有莫大的幫助,在人們?nèi)粘S谜Z或行為中都存在隱喻的特性,因此隱喻研究近年來越來越受關(guān)注。
隱喻的理解是隱喻理論的一個重要部分,因為隱喻的工作機(jī)制和認(rèn)知功能是在理解過程中達(dá)成和體現(xiàn)出來的。隱喻的理解過程包括:隱喻識別和隱喻意義的推斷。其作用是在人們用語言思考所感知的物質(zhì)世界和精神時,能從原先互不相干的不同事物、概念和語言表達(dá)中發(fā)現(xiàn)如同互聯(lián)網(wǎng)中的鏈接點,建立想象豐富的聯(lián)系。這不是一個量的變化,而是認(rèn)識上質(zhì)的飛躍,難以用規(guī)則描述[3]。因此如何有效地識別隱喻是當(dāng)下面臨的問題,而這個問題對自然語言的下游任務(wù)如機(jī)器翻譯、問答系統(tǒng)、情感分析、閱讀理解、人機(jī)對話、文本摘要等有著制約的影響。根據(jù)句法結(jié)構(gòu),隱喻一般分為:名詞性隱喻、動詞性隱喻、形容詞性隱喻、副詞性隱喻等。名詞性隱喻在自然語言中占的比重較大,因此該文圍繞名詞性隱喻識別開展研究。
名詞隱喻指自然語言表達(dá)中通過連接詞表征的隱喻類型,其源域與目標(biāo)域詞匯通常以名詞的形式出現(xiàn)在句子中也稱本體和喻體,如“愛情就像棉花糖,柔軟而又甜蜜”為名詞隱喻,本體是愛情,喻體是棉花糖,是不同領(lǐng)域之間的映射。如何定位源域和目標(biāo)域以及實體間的映射關(guān)系是隱喻識別的一項重要因素。
名詞隱喻識別研究常用的方法是基于規(guī)則,利用語法特征,傳統(tǒng)的機(jī)器學(xué)習(xí),再到神經(jīng)網(wǎng)絡(luò),但是目前對名詞隱喻的語義表示不夠充分,特征的抽取不精確,信息丟失造成識別的準(zhǔn)確率不高。因此如何充分地從上下文識別學(xué)習(xí)語義信息和潛在特征的抽取是隱喻識別的問題關(guān)鍵。
該文提出一種融合表征模型,抽取隱喻句中的潛在特征,結(jié)合上下文的語義信息和位置信息進(jìn)行編碼,構(gòu)建針對名詞隱喻識別的模型。具體而言使用BERT進(jìn)行字嵌入表示,其Transformer結(jié)構(gòu)中的注意力機(jī)制能夠有效獲得上下文的語義信息,同時對位置信息也進(jìn)行向量化表征,提高喻體和本體的定位準(zhǔn)確率,利用CNN進(jìn)行局部特征的提取,融合兩者特征再通過線性層得到隱喻結(jié)果。經(jīng)實驗表明該模型優(yōu)于現(xiàn)有的深度學(xué)習(xí)模型。
隱喻的識別起于Wilks[4]提出的語義中斷理論和優(yōu)先選擇模型,是基于符號規(guī)則的識別方法。Fass[5]提出基于語義優(yōu)先理論,由于語料庫有限,不能很好地獲取語義信息,因此效果不好。許雅緣[6]基于WordNet根據(jù)語義知識和語義關(guān)系識別隱喻,其原理是基于詞語間的相似度計算,通過與WordNet詞典中的詞語計算相似度再使用加權(quán)算法得出隱喻值,但在中文方面暫時沒有成熟的知識庫。上述方法均需要構(gòu)建大量規(guī)則和特征,耗費人力。
隨著深度學(xué)習(xí)技術(shù)在自然語言處理中的廣泛應(yīng)用,Kim.Y等[7]提出CNN用于文本分類,它只需要很少的超參數(shù)調(diào)整和靜態(tài)向量,就可以在多個基準(zhǔn)上獲得很好的結(jié)果。Luo.L等[8]應(yīng)用LSTM+Attention在實體識別上的效果有了大幅提升,利用通過Attention獲得的文檔級全局信息在文檔中實施同一Token的多個實例之間標(biāo)記一致性。王子牛等[9]提出一種語言強(qiáng)化融合模型CNN+LSTM證明在文本分類上的提升。Yang等[10]提出將BERT與Anserini相結(jié)合,構(gòu)建了一個通過外部知識庫從而輔助閱讀理解的方法,在問答領(lǐng)域有了較大提升。Peng[11]提出變體BERT模型,其主要是在解碼器Transformer上進(jìn)行微調(diào)改造,在多種生物醫(yī)學(xué)和臨床自然語言處理任務(wù)都有大幅提升。Zhang等[12]提出CMedBERT,是一種異構(gòu)特征的動態(tài)融合機(jī)制和多任務(wù)學(xué)習(xí)策略,將醫(yī)學(xué)知識融合到預(yù)先訓(xùn)練的語言模型,在基線實驗上表現(xiàn)最優(yōu)。但將深度學(xué)習(xí)應(yīng)用于隱喻研究領(lǐng)域還是較少,Do Dinh等[13]提出基于詞向量的神經(jīng)網(wǎng)絡(luò)模型識別隱喻,在效果上相較于傳統(tǒng)機(jī)器學(xué)習(xí)等方法有了較大的提升,但網(wǎng)絡(luò)本身比較簡單且相較于現(xiàn)有的LSTM略遜色。王治敏[14]提出基于機(jī)器學(xué)習(xí)算法的隱喻識別,主要針對上下文和詞性兩種特征進(jìn)行建模,但忽視了語義層的重要信息。李晗雨[15]提出基于深度學(xué)習(xí)的隱喻識別與解釋方法研究,采用卷積神經(jīng)網(wǎng)絡(luò)和SVM作為模型架構(gòu),表明卷積神經(jīng)網(wǎng)絡(luò)在提取隱喻特征的表現(xiàn)很好。朱嘉瑩等[16]提出基于Bi-LSTM的多層面隱喻識別方法,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。通過分析隱喻的多層面特征在Bi-LSTM上進(jìn)行識別取得了88.8%的準(zhǔn)確率。張冬瑜等[17]提出使用BERT+Transformer模型進(jìn)行隱喻識別,能夠很好地獲取語義信息,但局限性是對文本的冷僻詞判斷較困難,無法有效提取句子的局部特征。
上述研究采用了基于規(guī)則、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法識別,對語義信息的挖掘不足,無法有效分辨隱喻中的動詞、名詞、形容詞等知識。語義是隱喻中的一個重要因素,需要根據(jù)不同的上下文從不同維度去挖掘語義信息獲取相應(yīng)的知識,因此要滿足建模的適用性和穩(wěn)定性,同時如何把隱喻中隱含的潛在特征挖掘出來是提高隱喻識別的關(guān)鍵,二者缺一不可。
ci=f(w?xi:i+h-1)
(1)
(2)
圖1 CNN模型結(jié)構(gòu)
Devlin J等[19]提出的基于Transformer結(jié)構(gòu)的全新預(yù)訓(xùn)練模型瞬間刷新在各項自然語言處理任務(wù)GLUE的得分。從模型特點來說其輸入表征不僅是詞向量(token embedding),還有段表征(segment embed-ding)和位置表征(position embedding)相加產(chǎn)生,一定程度上豐富了特征信息。為了能夠更好地學(xué)習(xí)到語言的本質(zhì)增加Masked LM和Next Sentence Prediction機(jī)制,首先Masked LM隨機(jī)選取少量詞匯進(jìn)行遮掩訓(xùn)練,這就迫使模型更依賴于上下文信息去預(yù)測詞匯,并賦予了模型一定的糾錯能力。其次Next Sentence Prediction在段落結(jié)構(gòu)上進(jìn)行了訓(xùn)練學(xué)習(xí),與Masked LM相結(jié)合讓模型能夠更準(zhǔn)確地刻畫語句乃至篇章層面的語義信息。
從模型結(jié)構(gòu)上Transformer是組成BERT的核心模塊,而Attention機(jī)制又是Transformer中最關(guān)鍵的部分。其中主要涉及三個概念:Query、Key和Value,目標(biāo)字及其上下文的字都有各自的原始Value,Attention機(jī)制將目標(biāo)字作為Query、其上下文的各個字作為Key,并將Query與各個Key的相似性作為權(quán)重,把上下文各個字的Value融入目標(biāo)字的原始Value中。Attention計算公式如式(3):
(3)
其中,Q,K,V分別表示矩陣,dk表示k維序列。通過Attention構(gòu)成多頭機(jī)制作為編碼器的一個分支,另一個分支是一個前向傳播網(wǎng)絡(luò),在兩個分支外加一個殘差連接,這樣就組成了一個編碼器。BERT是由6個編碼器組成編碼層,解碼層也是由6個解碼器組成,其每個解碼器的組成原理和編碼器一致。BERT的模型結(jié)構(gòu)如圖2所示。
圖2 BERT模型結(jié)構(gòu)
實際操作中,Attention是在序列上并行,將所有序列連在一起構(gòu)成Q,K,V矩陣在矩陣上進(jìn)行計算,多頭Attention計算公式如式(4):
MultiHead(Q,K,V)=Concat(head1,head2,…,
headn)
(4)
Concat用于連接多個頭,把多個不同的注意力體連接在一起,每個head的表示如式(5):
(5)
BERT的前饋神經(jīng)網(wǎng)絡(luò)公式如式(6):
FFN(x)=max(0,xW1+b1)W2+b2
(6)
其中,W1,W2,b1,b2分別代表權(quán)重,根據(jù)反向傳播自動優(yōu)化。
CNN有效提取局部特征,有效識別句子中冷僻詞匯、成語古語以及干擾詞匯,BERT對語義信息的理解和詞與詞之間位置信息的特征提取,通過融合兩個模型提取到的特征,最后通過線性分類器,從而提升隱喻的識別效果。特征融合計算公式如式(7),線性層計算公式如式(8):
H=concat(hc,hb)
(7)
Y=HAT+b
(8)
其中,hc代表CNN隱藏層輸出,hb代表BERT隱藏層輸出,H代表融合隱藏層矩陣,AT代表權(quán)重矩陣,b代表偏置矩陣,Y代表預(yù)測值。
特征融合模型CB結(jié)構(gòu)如圖3所示。
圖3 CB模型結(jié)構(gòu)
整體的隱喻識別思路是首先對語料進(jìn)行清洗,由于語料本身為結(jié)構(gòu)化,只需要去掉標(biāo)點符號,然后對句子進(jìn)行編碼,在每個句子開頭和結(jié)尾分別添加CLS和SEP標(biāo)識符分別代表開始和中斷,其作用是處理成BERT的輸入格式;其次是對網(wǎng)絡(luò)層的編碼組合包括對BERT預(yù)訓(xùn)練模型的選取和CNN卷積層和池化層的維度定義,通過兩者輸出進(jìn)行隱藏層維度的融合,再通過線性分類器,這樣網(wǎng)絡(luò)層就定義好了;最后經(jīng)過多次訓(xùn)練得出最優(yōu)結(jié)果。整體的識別流程如圖4所示。
圖4 隱喻識別流程
(1)數(shù)據(jù)來源。
采用CCL2018評測的中文動詞隱喻識別任務(wù)中的數(shù)據(jù)集,由2 040條動詞隱喻、2 035條名詞隱喻、319條非隱喻句組成,共計4 394個中文句子。同時針對數(shù)據(jù)集進(jìn)行了進(jìn)一步歸并,把名詞性隱喻句歸為一類,動詞隱喻和非隱喻句子歸為一類。
(2)數(shù)據(jù)標(biāo)注情況。
數(shù)據(jù)分為正文部分和類別部分,而類別標(biāo)注情況主要有三種,如表1所示。
表1 數(shù)據(jù)標(biāo)注情況
“愛情就像棉花糖,柔軟而又甜蜜”是名詞隱喻,將“愛情”(本體)比喻為“棉花糖”(喻體),”愛情”本身是一個抽象的名詞,但“棉花糖”是人們熟知的東西,說到“棉花糖”不禁想到“甜美”,“純潔”等詞匯,這是一種意識聚集。將抽象事物“愛情”比喻為具體事物“棉花糖”能夠更好地去理解愛情的本質(zhì)。
將該文提出的模型與基線模型和同數(shù)據(jù)集實驗下的最優(yōu)模型進(jìn)行對比實驗,如表2所示。
表2 對比實驗分析
實驗結(jié)果評價指標(biāo)采用準(zhǔn)確率(A)、精確率(P)、召回率(R)和F1值,分別見公式(9)~公式(12)。
(9)
(10)
(11)
(12)
其中,TP:樣本為正,預(yù)測結(jié)果為正;FP:樣本為負(fù),預(yù)測結(jié)果為正;TN:樣本為負(fù),預(yù)測結(jié)果為負(fù);FN:樣本為正,預(yù)測結(jié)果為負(fù)。
經(jīng)過多次實驗,實驗結(jié)果較好的參數(shù)情況如下:優(yōu)化器采用AdamW,其中學(xué)習(xí)率2×10-5,eps=1×10-8,損失函數(shù)采用CrossEntropyLoss,Epoch初始化設(shè)置為100,通過設(shè)置判斷條件即連續(xù)10個Epoch下驗證集的準(zhǔn)確率沒有提升結(jié)束訓(xùn)練,并保存最優(yōu)的Epoch值為4,Batch設(shè)置為32,采用BERT生成的字向量,維度100。卷積核長度設(shè)置為[3,4,5],通道設(shè)置為[100,100,100],輸出維度為300。防止過擬合采用dropout,dropout=0.5,融合后的隱藏特征通過線性層進(jìn)行分類。
數(shù)據(jù)集按照7∶2∶1比例分為訓(xùn)練集、驗證集、測試集,使用pytorch框架進(jìn)行預(yù)處理和模型訓(xùn)練等編碼,使用由谷歌提供的中文預(yù)訓(xùn)練模型BERT,結(jié)構(gòu)為12層,隱藏層大小768。
根據(jù)4個評價指標(biāo)在所提出的模型上的實驗結(jié)果如表3所示。
表3 名詞隱喻識別結(jié)果
從結(jié)果可以看出,提出的CB模型方法在各項指標(biāo)上表現(xiàn)最優(yōu),說明能夠有效地提取語義信息和潛在特征。CNN和LSTM的指標(biāo)結(jié)果說明語義理解對隱喻的識別會有大幅度提高,但是也不能忽視其中的潛在的特征。CB模型的精確率和召回率較于BT模型的提升可以說明在加入CNN提取局部特征確實能夠提高對于中文文本中的冷僻詞匯、成語古語以及干擾詞匯等特征信息的判斷,從而提高名詞隱喻的識別率,而CLA也是基于特征融合的思想,盡管LSTM能夠獲得上下文信息,但其門控制相較于BERT中MLM和NSP學(xué)習(xí)機(jī)制對語義信息的提取還是略顯不足,且對長依賴問題處理效果不好。
從預(yù)測結(jié)果來說CB模型學(xué)習(xí)到名詞隱喻中具有代表性的詞如“像”,“好像”,”似乎”等句子預(yù)測結(jié)果都正確,同時對于沒有代表性的詞特征的句子如“太陽是我們心中的明燈,引領(lǐng)我們前行”預(yù)測正確說明對本體“太陽”和喻體“明燈”正確定位,說明對語義信息的理解很好。“廣告路牌是地面上的肉疣”中“肉疣”是生僻詞,但預(yù)測結(jié)果正確,說明CNN對局部潛在特征的提取能夠提高識別效果。
隱喻是自然語言認(rèn)知上的一個重要因素,因此如何有效地識別隱喻是當(dāng)前需要攻克的難題。該文針對目前隱喻識別上對語義信息的理解不足和隱喻中蘊含的特征提取不夠等問題,提出了一種特征融合神經(jīng)網(wǎng)絡(luò)模型,利用BERT提取文本中語義信息和表征位置信息,CNN提取隱喻中潛在的局部特征,最后在隱藏特征維度上對兩者進(jìn)行融合。從局部和全局兩個方向上識別隱喻,從提出的評價指標(biāo)來看優(yōu)于現(xiàn)有的主流深度學(xué)習(xí)和方法。名詞隱喻中不僅只有本體和喻體的映射關(guān)系。還有其他如隱喻觸發(fā)詞、隱喻鏈等特征無法針對性的去挖掘,模型還存在局限。
針對這些局限性問題可以聯(lián)想到兩種解決辦法:
(1)對數(shù)據(jù)集進(jìn)行知識性的擴(kuò)充標(biāo)注和擴(kuò)大數(shù)據(jù)集的量,從本質(zhì)上豐富數(shù)據(jù)集的特征信息。
(2)挖掘隱喻中更重要的特性并針對性地進(jìn)行建模識別,理論上來說可以通過模型挖掘隱喻中所有的特性,根據(jù)每個特性在隱喻中的重要性去分散研究最后通過加權(quán)算法識別隱喻,而這其中涉及到各個特性在隱喻中比重是需要通過大量研究得出結(jié)論,隱喻識別仍是當(dāng)今自然語言研究上所面臨的難題。