羅琨皓,曹擎星,梁小丹
(中山大學(xué) 智能工程學(xué)院,廣東 廣州 510006)
在大規(guī)模文本語(yǔ)料庫(kù)上訓(xùn)練的預(yù)訓(xùn)練模型,無(wú)需人工標(biāo)簽,通過(guò)自監(jiān)督學(xué)習(xí)的方式即可學(xué)習(xí)到通用的文本表示。BERT[1]、Elmo[2]等語(yǔ)言模型,利用自注意力機(jī)制和多層堆疊等機(jī)制提高模型容量,增強(qiáng)了模型的泛化效果。研究表明,通過(guò)自監(jiān)督的方式預(yù)訓(xùn)練得到的大容量的預(yù)訓(xùn)練語(yǔ)言模型,不僅能夠?qū)φZ(yǔ)言知識(shí)進(jìn)行編碼,而且還能學(xué)習(xí)到蘊(yùn)含在大型文本語(yǔ)料庫(kù)中的某些結(jié)構(gòu)信息。例如,BERT和Elmo可提取到句子中的語(yǔ)法依賴結(jié)構(gòu)[3-4]。除此之外,在事實(shí)類完形填空問(wèn)題中,BERT還可通過(guò)預(yù)測(cè)文本的空白詞匯學(xué)習(xí)到關(guān)系知識(shí)[5]。在自然語(yǔ)言理解領(lǐng)域和信息抽取領(lǐng)域,大量的研究工作致力于從自由形式的文本中解析出不同類型的結(jié)構(gòu)化信息,例如,語(yǔ)法分析[6]、實(shí)體鏈接[7]和知識(shí)提取[8]。在多種自然語(yǔ)言理解任務(wù)上,例如,文本蘊(yùn)含[9]、情感分類[10]和機(jī)器問(wèn)答[11-12],相關(guān)研究工作已經(jīng)證明結(jié)構(gòu)化信息的效果。
近年來(lái),多個(gè)研究工作致力于在語(yǔ)言模型之外引入知識(shí)。例如,譚等人[13]在閱讀理解任務(wù)中,引入現(xiàn)代漢語(yǔ)詞典和HowNet[14]等詞義知識(shí),在中文閱讀理解任務(wù)上取得顯著的性能提升。張等人[15]從知識(shí)庫(kù)中提取出高信息量的實(shí)體信息,通過(guò)特殊的語(yǔ)義融合模塊來(lái)增強(qiáng)文本中對(duì)應(yīng)的表示。因此,針對(duì)某種特定的NLP任務(wù),如常識(shí)問(wèn)答,動(dòng)態(tài)選擇和利用不同的結(jié)構(gòu)信息非常重要;否則,僅通過(guò)預(yù)訓(xùn)練任務(wù)將大量人類提出的結(jié)構(gòu)化信息融入數(shù)據(jù)驅(qū)動(dòng)的模型中,需要極大規(guī)模的文本數(shù)據(jù)和超大容量的模型。
本文探索如何利用文本中的底層結(jié)構(gòu)關(guān)系信息,從而擴(kuò)展語(yǔ)言模型的表征能力。在訓(xùn)練時(shí),我們并非直接為詞向量添加額外的結(jié)構(gòu)化約束,而是探索如何將結(jié)構(gòu)化的先驗(yàn)知識(shí)信息融入模型結(jié)構(gòu)中。朱等人[16]將Transformer網(wǎng)絡(luò)[17]應(yīng)用在AMR圖轉(zhuǎn)文本任務(wù),曹等人[18]將Transformer模型中引入語(yǔ)法糾錯(cuò)任務(wù),這類方法體現(xiàn)了Transformer網(wǎng)絡(luò)在編碼結(jié)構(gòu)信息上具有天然的優(yōu)勢(shì)。因此,本文將嘗試在Transformer網(wǎng)絡(luò)中動(dòng)態(tài)融入多種結(jié)構(gòu)化信息,提出PDT(Prior-Driven Transformer) 模型,該模型能夠動(dòng)態(tài)融合多種結(jié)構(gòu)化信息。給定一個(gè)文本序列,首先利用現(xiàn)有的工具,如Spacy[19]等,提取四種不同層級(jí)的結(jié)構(gòu)化信息,包括依賴關(guān)系解析樹、實(shí)體檢測(cè)鏈接、情感詞連接,以及常識(shí)知識(shí)圖。這四種結(jié)構(gòu)信息反映了人類理解語(yǔ)言時(shí)的不同角度。然后,對(duì)于每種結(jié)構(gòu)關(guān)系,通過(guò)構(gòu)建不同的鄰接關(guān)系矩陣,來(lái)表示兩個(gè)單詞是否能夠通過(guò)某種特定的結(jié)構(gòu)信息建立鏈接。最后,根據(jù)具體輸入的文本,PDT模型進(jìn)一步融合和選擇合適的結(jié)構(gòu)信息。通過(guò)給定關(guān)系矩陣,隱式建立了四種不同的關(guān)系語(yǔ)義圖,語(yǔ)義圖可看是作在兩個(gè)單詞之間是否有相關(guān)聯(lián)系的標(biāo)志。在模型中,每個(gè)單詞只能通過(guò)特征矩陣,將特征轉(zhuǎn)發(fā)給語(yǔ)義圖中相連的單詞,并最終將模型內(nèi)部的結(jié)構(gòu)信息與人類的先驗(yàn)結(jié)構(gòu)信息結(jié)合。
本文的貢獻(xiàn)總結(jié)如下: 在常識(shí)問(wèn)答任務(wù)中,利用文本中蘊(yùn)含的常識(shí)信息,為文本建立常識(shí)關(guān)系圖,利用現(xiàn)有工具抽取多種有助于理解語(yǔ)言的結(jié)構(gòu)化信息,并將其融入到深度模型中,來(lái)輔助常識(shí)問(wèn)答任務(wù)。實(shí)驗(yàn)結(jié)果證明,本文提出的動(dòng)態(tài)融合模型,還可針對(duì)某個(gè)特定的任務(wù)或者樣本,對(duì)不同的結(jié)構(gòu)信息加權(quán)以輔助常識(shí)問(wèn)答。在多種結(jié)構(gòu)化信息的指導(dǎo)下,我們提出的PDT模型能顯著提升多個(gè)常識(shí)問(wèn)答數(shù)據(jù)集的效果。
近年來(lái),多種幾何結(jié)構(gòu)(如序列、樹和圖等)已經(jīng)被廣泛應(yīng)用到深度模型中。基于人類知識(shí)先驗(yàn)構(gòu)建的結(jié)構(gòu),不僅融入了人類的結(jié)構(gòu)化知識(shí),同時(shí)降低了模型的計(jì)算復(fù)雜度。例如,RNN[20]和LSTM[21]之類的序列模型,前提假設(shè)是步驟t的狀態(tài)僅僅取決于其上一個(gè)步驟t-1的狀態(tài);樹型LSTM[22]之類的樹模型,前提假設(shè)是父節(jié)點(diǎn)的特征組成僅僅取決于其子節(jié)點(diǎn)的特征組成;條件隨機(jī)場(chǎng)CRF[23]和圖卷積神經(jīng)網(wǎng)絡(luò)GCN[24]之類的圖模型,前提假設(shè)是樣本中的輸入可轉(zhuǎn)化為多個(gè)相鄰節(jié)點(diǎn)的聯(lián)系。在多種NLP任務(wù)上的相關(guān)研究工作,已經(jīng)證實(shí)這些結(jié)構(gòu)在深度模型的有效性。
除了手動(dòng)設(shè)計(jì)的結(jié)構(gòu)化信息之外,近期提出的深度模型還學(xué)會(huì)了在詞向量編碼中融入幾何結(jié)構(gòu)信息。Hewitt等人[3]提出了一種結(jié)構(gòu)探測(cè)方法,應(yīng)用全局線性變換和平方L2距離來(lái)構(gòu)建最小生成樹,并將得到的最小生成樹與標(biāo)準(zhǔn)的語(yǔ)法解析樹進(jìn)行比較。結(jié)果表明基于神經(jīng)網(wǎng)絡(luò)編碼的詞向量表示可以融入語(yǔ)法樹信息。RFeif等人[4]還發(fā)現(xiàn),在詞向量的表示空間中,頭部詞匯和從屬詞之間的L2距離與二者之間的依賴類型相關(guān)。Petroni等人[5]通過(guò)在完形填空的事實(shí)句子中預(yù)測(cè)三元組中被替換掉的賓語(yǔ)對(duì)象,恢復(fù)出深層語(yǔ)言模型中蘊(yùn)藏的知識(shí)三元組。鑒于上述的研究成果,最近有多個(gè)模型試圖利用語(yǔ)言自身的結(jié)構(gòu)信息來(lái)改進(jìn)深度模型在NLP下游任務(wù)中的效果。SG-Net[25]利用掩蓋語(yǔ)法依賴關(guān)系之間的權(quán)重,將依賴關(guān)系樹融入語(yǔ)言模型中。StructBert[26]引入了兩個(gè)輔助任務(wù)來(lái)預(yù)測(cè)被打亂單詞和句子的正確順序,從而學(xué)習(xí)到文本的上下文結(jié)構(gòu)信息。
隨著深度神經(jīng)網(wǎng)絡(luò)模型[1,27]在大型問(wèn)答數(shù)據(jù)集[28-30]上的成功應(yīng)用,機(jī)器問(wèn)答相關(guān)任務(wù)上的模型效果近年來(lái)取得顯著的提升。Cui等人[31]提出了Attention-over-Attention模型,用于計(jì)算問(wèn)題和文檔中每對(duì)單詞之間的注意力權(quán)值。Seo等人[32]提出了BiDAF網(wǎng)絡(luò),分層建立基于問(wèn)題感知的文章表征注意力和基于文章感知的問(wèn)題表征注意力,以捕獲問(wèn)題和文章不同粒度的特征。Yu等人[33]提出了QANet網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制,開辟了機(jī)器問(wèn)答研究的新方向。Chen等人[34]利用Wikipedia額外引入知識(shí)來(lái)回答事實(shí)問(wèn)題。本文同樣利用乘性注意力機(jī)制,并考慮了文章和問(wèn)題之間包括常識(shí)在內(nèi)的多種結(jié)構(gòu)聯(lián)系。
在常識(shí)問(wèn)答任務(wù)中,通常將常識(shí)作為語(yǔ)義圖聯(lián)系的形式。由于圖神經(jīng)網(wǎng)絡(luò)在處理圖結(jié)構(gòu)信息方面具有天然的優(yōu)勢(shì),近年來(lái),多篇研究工作[35-36]嘗試?yán)脠D神經(jīng)網(wǎng)絡(luò)來(lái)改進(jìn)深度神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,并顯著提升CosmosQA[37]、CommonsenseQA[38]等常識(shí)問(wèn)答任務(wù)上的效果。KagNet[36]網(wǎng)絡(luò)在CommonsenseQA[38]常識(shí)問(wèn)答任務(wù)中,提出在ConceptNet[39]中抽取4跳內(nèi)的三元組建立常識(shí)語(yǔ)義圖,利用圖卷積神經(jīng)網(wǎng)絡(luò)GCN[24]對(duì)圖進(jìn)行編碼,利用LSTM[21]對(duì)圖中的路徑進(jìn)行編碼,利用基于路徑的注意力機(jī)制計(jì)算出語(yǔ)義圖和QA文本對(duì)之間的聯(lián)系,但該方法引入太多的無(wú)關(guān)常識(shí)信息。Lv等人[40]將ConceptNet[39]中蘊(yùn)含的三元組信息看作結(jié)構(gòu)化知識(shí),將Wikipedia中囊括關(guān)鍵詞的句子看作非結(jié)構(gòu)化知識(shí),分別抽取出三元組,利用圖卷積神經(jīng)網(wǎng)絡(luò)GCN編碼圖信息,并利用圖注意力網(wǎng)絡(luò)GAT[41]來(lái)聚合兩種結(jié)構(gòu)信息。但該方法同樣存在大量的信息冗余,使得模型容易關(guān)注無(wú)關(guān)的信息上。
鑒于上述研究工作忽視了底層語(yǔ)法結(jié)構(gòu)在常識(shí)問(wèn)答中的作用,本文同樣基于ConceptNet構(gòu)建常識(shí)聯(lián)系圖,并結(jié)合多種類型的語(yǔ)法結(jié)構(gòu)信息。但本文在構(gòu)建常識(shí)聯(lián)系圖時(shí),并非利用路徑上的所有信息,而是將起始節(jié)點(diǎn)連邊,并映射到二者之間的注意力聯(lián)系上,增強(qiáng)常識(shí)連接詞之間的特征。
針對(duì)常識(shí)問(wèn)答任務(wù),本文提出知識(shí)驅(qū)動(dòng)的編碼器模型——Prior-Driven Transformer模型,簡(jiǎn)稱為PDT模型,模型結(jié)構(gòu)如圖1所示。其將多種人類理解語(yǔ)言需要的結(jié)構(gòu)知識(shí),整合到基于Transformer網(wǎng)絡(luò)的改進(jìn)模型中,從而擴(kuò)展了Transformer網(wǎng)絡(luò)的表征能力。
圖1 PDT(Prior-Driven Transformer)模型結(jié)構(gòu)圖
具體來(lái)說(shuō),本文考慮了4種先驗(yàn)結(jié)構(gòu)信息: 語(yǔ)法依賴關(guān)系、實(shí)體鏈接關(guān)系、情感詞連接關(guān)系以及常識(shí)連接關(guān)系。給定一個(gè)包含N個(gè)單詞的序列,首先利用現(xiàn)有的工具包Spacy 來(lái)提取這些結(jié)構(gòu)信息,然后將結(jié)構(gòu)關(guān)系轉(zhuǎn)化為4個(gè)N×N維的二進(jìn)制關(guān)系矩陣M=[M1,M2,M3,M4]。這些矩陣可表示在對(duì)應(yīng)類型的結(jié)構(gòu)關(guān)系中兩個(gè)單詞之間是否存在邊的連接。例如,如果兩個(gè)單詞wi和wj之間具有語(yǔ)法依賴關(guān)系,則M1[i;j]=M1[j;i]=1,否則M1[i;j]=M1[j;i]=0。
為抽取文本中的結(jié)構(gòu)信息,首先將樣本中的文章、問(wèn)題和答案拼接為整個(gè)序列,然后利用Spacy等工具提取單詞之間的結(jié)構(gòu)關(guān)系。圖2給出了CommonsenseQA數(shù)據(jù)集中某個(gè)樣本的多種結(jié)構(gòu)關(guān)系。
圖2 CommonsenseQA數(shù)據(jù)集的不同結(jié)構(gòu)關(guān)系實(shí)例
2.1.1 依賴關(guān)系
依賴關(guān)系反映了文本序列中頭部詞匯和其從屬詞之間的句法聯(lián)系,從而得到序列的句法結(jié)構(gòu)。在問(wèn)答任務(wù)中,語(yǔ)義相關(guān)聯(lián)的單詞之間通常存在語(yǔ)法依賴聯(lián)系,從而可定位出問(wèn)答所需要的關(guān)鍵信息,因而考慮額外引入依賴關(guān)系來(lái)輔助問(wèn)答。
本文利用現(xiàn)有的Spacy工具將給定的序列解析為語(yǔ)法依賴樹,并進(jìn)一步確定每個(gè)節(jié)點(diǎn)的所有祖先節(jié)點(diǎn),節(jié)點(diǎn)與祖先節(jié)點(diǎn)采用無(wú)向圖的方式連接,生成依賴關(guān)系矩陣M1。
如果在語(yǔ)法解析樹中,某個(gè)單詞wj是單詞wi的祖先,則M1[i;j]=M1[j;i]=1,否則M1[i;j]=M1[j;i]=0。如在圖2(b)中,為問(wèn)題序列構(gòu)建出語(yǔ)法依賴樹,中心詞為thought和meant,問(wèn)題中的其他詞都為中心詞的子節(jié)點(diǎn)。通過(guò)將依賴樹中的所有節(jié)點(diǎn)與其對(duì)應(yīng)的祖先節(jié)點(diǎn)建立雙向連接,得到一個(gè)對(duì)稱的關(guān)系矩陣。
2.1.2 實(shí)體關(guān)系
在長(zhǎng)文本序列中,時(shí)間、地點(diǎn)和人名等特定實(shí)體有助于定位序列中的關(guān)鍵信息,從而構(gòu)建出特定對(duì)象之間的語(yǔ)義聯(lián)系。在常識(shí)問(wèn)答任務(wù)中,實(shí)體間的聯(lián)系可看作顯式的常識(shí)關(guān)聯(lián),因而考慮將實(shí)體關(guān)系引入該任務(wù)。
本文利用Spacy工具包中現(xiàn)成的實(shí)體檢測(cè)和短語(yǔ)解析方法,識(shí)別文本中的命名實(shí)體和實(shí)體短語(yǔ),并將所有實(shí)體以無(wú)向邊的方式連接,從而構(gòu)建實(shí)體關(guān)系矩陣M2。
在序列中,如果其中兩個(gè)單詞wi和wj均屬于命名實(shí)體或?qū)嶓w短語(yǔ),則建立連接M2[i;j]=M2[j;i]=1,否則M2[i;j]=M2[j;i]=0。在圖2(c)中,序列中包括5個(gè)實(shí)體,在實(shí)體之間分別建立連接,從而得到對(duì)稱的實(shí)體關(guān)系矩陣M2。
2.1.3 情緒關(guān)系
文本序列中的情緒詞反映了文本中的觀點(diǎn)態(tài)度。在問(wèn)答任務(wù)中,情緒詞之間的聯(lián)系可視為隱式的常識(shí)關(guān)聯(lián),有助于在特定語(yǔ)境下更深層次地理解文本,因而考慮在常識(shí)問(wèn)答任務(wù)中引入情緒聯(lián)系來(lái)輔助問(wèn)答。
本文利用SentiWordNet情緒詞表[42]來(lái)提取給定文本中的情感詞,并建立情感關(guān)系矩陣M3。首先利用Spacy工具中的詞性識(shí)別方法,識(shí)別每個(gè)單詞的詞性;然后根據(jù)單詞內(nèi)容及其詞性,從SentiWordNet中檢索出單詞對(duì)應(yīng)的積極情緒和消極情緒得分。如果檢索到的某類得分包括多個(gè)值,則將多個(gè)得分取平均值。如果某個(gè)詞wi的積極情緒得分大于消極情緒得分,則將這個(gè)詞視為積極情緒詞;如果某個(gè)詞的積極情緒得分小于消極情緒得分,則將其視為消極情緒詞;否則視為中性詞。
最終,若兩個(gè)單詞wi和wj同為積極情緒詞,或同為消極情緒詞,則建立連接,得到M3[i;j]=M3[j;i]=1,否則M3[i;j]=M3[j;i]=0。例如,在 圖2(d)中,問(wèn)題中的home、time和答案中的early均為積極情緒詞,在問(wèn)題和答案之間建立情緒詞連接,進(jìn)而得到情緒詞關(guān)系矩陣。
2.1.4 常識(shí)關(guān)系
在常識(shí)問(wèn)答任務(wù)中,不僅需要考慮文本自身蘊(yùn)藏的語(yǔ)義信息,還需要考慮文本內(nèi)隱藏的常識(shí)聯(lián)系。通過(guò)構(gòu)建顯式的常識(shí)關(guān)系圖,在圖結(jié)構(gòu)上可定位問(wèn)答所需要的關(guān)鍵信息,從而完成常識(shí)推理。因而考慮在常識(shí)問(wèn)答任務(wù)中,引入常識(shí)關(guān)系結(jié)構(gòu)。
本文利用常識(shí)概念圖譜ConceptNet[39]來(lái)提取文本中單詞之間的常識(shí)聯(lián)系。具體來(lái)說(shuō),在CosmosQA數(shù)據(jù)集中,給定文章、問(wèn)題和答案組成的序列,如果序列中的單詞wi和wj在ConceptNet中都存在具有相同詞干的節(jié)點(diǎn)與之對(duì)應(yīng),則視為在單詞之間建立常識(shí)連接。同理,在CommonsenseQA數(shù)據(jù)集中,給定問(wèn)題和答案組成的序列,如果兩個(gè)詞wi和wj在ConceptNet中存在2跳之內(nèi)(包括2跳)的聯(lián)系,則視為單詞之間存在常識(shí)連接。
假設(shè)單詞wi和wj分別與ConceptNet中的節(jié)點(diǎn)ni和nj具有相同的詞干,且節(jié)點(diǎn)ni和節(jié)點(diǎn)nj在ConceptNet中具有2跳以內(nèi)(包括2跳)的連接,則在常識(shí)關(guān)系圖中,可在單詞wi和wj之間建立連接,即M4[i;j]=M4[j;i]=1,否則M4[i;j]=M4[j;i]=0。在圖2(a)中,問(wèn)題中的home、evening、time和leave與答案中的early和morning均存在常識(shí)聯(lián)系,可構(gòu)建出對(duì)稱的常識(shí)關(guān)系矩陣M4。
2.1.5 動(dòng)態(tài)結(jié)構(gòu)融合
其中,t∈[1,4],N是文章、問(wèn)題和候選答案所組成的序列中的單詞數(shù)。Wl∈R4×D,αl∈R4是學(xué)習(xí)到的不同矩陣間的權(quán)值,D為隱藏層h中詞向量表示的維度。
在PDT模型中,我們改進(jìn)了原始Transformer模型[17]中的多頭自注意力機(jī)制,將提取到的四種結(jié)構(gòu)信息通過(guò)改進(jìn)的注意力計(jì)算,動(dòng)態(tài)融合到Transformer模型結(jié)構(gòu)中。
2.2.1 Transformer模型層
2.2.2 PDT模型層
(4)
(5)
在訓(xùn)練階段,在所有的候選答案上執(zhí)行交叉熵?fù)p失函數(shù),在測(cè)試階段,將選擇通過(guò)Softmax計(jì)算后,概率最高的候選答案作為預(yù)測(cè)的輸出。
本文在熱門的常識(shí)問(wèn)答數(shù)據(jù)集CosmosQA[37]和CommonsenseQA上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集主要專注于常識(shí)推理,適用于評(píng)測(cè)融入模型中的不同結(jié)構(gòu),從而判斷哪些信息對(duì)于常識(shí)問(wèn)答更為有效。
CosmosQA數(shù)據(jù)集中包含35 000個(gè)樣本,每個(gè)樣本包括文章、問(wèn)題和候選答案三部分。要回答這類問(wèn)題,需要考慮文本之外的多種常識(shí)信息。數(shù)據(jù)集中的文章來(lái)自Spinn3r Blog數(shù)據(jù)集。在數(shù)據(jù)標(biāo)注階段,標(biāo)注者僅保留存在常識(shí)推理過(guò)程的樣本,并給出1個(gè)正確答案和3個(gè)錯(cuò)誤答案,將順序打亂后作為候選答案。
CommonsenseQA數(shù)據(jù)集中包含12 102個(gè)樣本,每個(gè)樣本中包含問(wèn)題和候選答案兩部分。要想回答問(wèn)題,需要充分利用樣本中涉及的常識(shí)知識(shí),并篩選出重要的常識(shí)連接。數(shù)據(jù)集中的問(wèn)答對(duì)基于Conceptnet常識(shí)庫(kù)標(biāo)注。在數(shù)據(jù)標(biāo)注階段,標(biāo)注者針對(duì)每個(gè)問(wèn)題給出1個(gè)正確答案,并選擇四個(gè)與問(wèn)題相關(guān)的錯(cuò)誤答案,將順序打亂后作為候選答案。
在詞向量編碼階段,選擇RoBERTa-base模型[27]作為模型骨架網(wǎng)絡(luò),之后加入隨機(jī)初始化后的PDT模型,以評(píng)估融合結(jié)構(gòu)化信息后PDT模型的有效性。為了使自定義的模型與RoBERTa-base模型的輸出保持一致,PDT模型將隱藏層維度設(shè)置為768,多頭注意力機(jī)制中包含12個(gè)自注意力頭,并堆疊了三層嵌入結(jié)構(gòu)知識(shí)的Transformer層。
表1和表2中展示了本文提出的PDT模型在CosmosQA和CommonsenseQA兩個(gè)常識(shí)問(wèn)答數(shù)據(jù)集上的效果。其中, Dev代表模型在驗(yàn)證集上的準(zhǔn)確率,Test代表模型在測(cè)試集上的準(zhǔn)確率,所有數(shù)值均分百分?jǐn)?shù)。
表1 不同模型在CosmosQA數(shù)據(jù)集上的準(zhǔn)確率
表2 不同模型在CommonsenseQA數(shù)據(jù)集上的準(zhǔn)確率
表1中的實(shí)驗(yàn)結(jié)果表明,在以RoBERTa-base[27]作為骨架網(wǎng)絡(luò)的模型中, 在CosmosQA數(shù)據(jù)集上,本文提出的PDT模型的效果已經(jīng)超過(guò)其他模型,成為當(dāng)前效果最好的方法。PDT模型在RoBERTa-base基線模型的基礎(chǔ)上,通過(guò)較小的模型改進(jìn),在CosmosQA數(shù)據(jù)集的驗(yàn)證集上,準(zhǔn)確率較基線模型提高了1.58個(gè)百分點(diǎn)。
表2中的實(shí)驗(yàn)結(jié)果也表明,在以RoBERTa-base為骨架模型的模型中,PDT模型在CommonsenseQA常識(shí)問(wèn)答數(shù)據(jù)集上,相較于基線模型也取得明顯的性能提升。在CommonsenseQA數(shù)據(jù)集上中,PDT模型在驗(yàn)證集上的準(zhǔn)確率相較于基線模型提升了1.27個(gè)百分點(diǎn)。
上述結(jié)果一方面證明了PDT模型在多個(gè)常識(shí)問(wèn)答任務(wù)上的有效性;另一方面PDT模型在常識(shí)問(wèn)答任務(wù)中的準(zhǔn)確率與人類的表現(xiàn)存在顯著的差異,這也表明大容量的預(yù)訓(xùn)練語(yǔ)言模型,即使基于大量的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練,其理解語(yǔ)言的方式同人類仍然存在一個(gè)語(yǔ)義的鴻溝。當(dāng)前預(yù)訓(xùn)練模型還不能有效利用文本中蘊(yùn)含的常識(shí)信息,模型與人類相比,在理解結(jié)構(gòu)知識(shí)的能力上仍存在較大的差異。
為進(jìn)一步評(píng)估在PDT模型中融入模型的不同結(jié)構(gòu)信息的作用,我們進(jìn)行了一組對(duì)比實(shí)驗(yàn)。通過(guò)比較不同的結(jié)構(gòu)信息在模型上的實(shí)驗(yàn)結(jié)果,評(píng)估出不同結(jié)構(gòu)關(guān)系對(duì)模型的影響。
除此之外,為驗(yàn)證不同的動(dòng)態(tài)結(jié)構(gòu)融合方式的效果,我們也進(jìn)行了一組對(duì)比實(shí)驗(yàn),比較了不同的特征融合方式的效果。
3.4.1 結(jié)構(gòu)信息對(duì)比
表3列出了在CosmosQA和CommonsenseQA數(shù)據(jù)集中,使用融入不同的結(jié)構(gòu)信息之后模型的效果?;€模型以RoBERTa-base模型作為骨架模型,并在后面堆疊了額外的3層Transformer層。RoBERTa網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)輸出的第一個(gè)單詞的特征將被用于分類。
表3 不同的結(jié)構(gòu)信息在CosmosQA驗(yàn)證集上的準(zhǔn)確率
表3中的其余每一行,代表在CosmosQA數(shù)據(jù)集中引入不同的結(jié)構(gòu)關(guān)系信息之后,模型在驗(yàn)證集上的效果。
表4中的其余每一行,代表在CommonsenseQA數(shù)據(jù)集中,引入多種結(jié)構(gòu)關(guān)系后模型在驗(yàn)證集上的效果。
表4 不同的結(jié)構(gòu)信息在CommonsenseQA驗(yàn)證集上的準(zhǔn)確率
(1) 語(yǔ)法依賴關(guān)系
在兩種數(shù)據(jù)集的實(shí)驗(yàn)中,語(yǔ)法依賴關(guān)系均會(huì)損害模型在驗(yàn)證集上的性能。在CosmosQA數(shù)據(jù)集上添加語(yǔ)法依賴結(jié)構(gòu)信息后,PDT模型在驗(yàn)證集上的準(zhǔn)確率降為69.41%,相較于基線模型下降了0.94個(gè)百分點(diǎn)。在CommonsenseQA數(shù)據(jù)集上,添加語(yǔ)法依賴關(guān)系后,PDT模型在驗(yàn)證集上的準(zhǔn)確率降為67.16%,相較于基線模型準(zhǔn)確率下降了1.23個(gè)百分點(diǎn)。
上述結(jié)果表明,在常識(shí)問(wèn)答任務(wù)中,僅僅依賴文本內(nèi)部的句法結(jié)構(gòu)無(wú)法提供完全有效的常識(shí)信息。句法結(jié)構(gòu)與常識(shí)問(wèn)答中需要的常識(shí)信息存在較大差異,因而模型未取得明顯性能提升。
(2) 實(shí)體鏈接關(guān)系
實(shí)體鏈接關(guān)系同樣會(huì)降低模型在數(shù)據(jù)集上的性能。在CosmosQA數(shù)據(jù)集中,融入實(shí)體信息后,PDT模型在驗(yàn)證集上預(yù)測(cè)的準(zhǔn)確率下降到69.88%,相較于基線模型下降了0.47個(gè)百分點(diǎn)。在CommonsenseQA數(shù)據(jù)集上,添加實(shí)體聯(lián)系后,PDT模型在驗(yàn)證集上的準(zhǔn)確率下降到66.74%,相較于基線模型,準(zhǔn)確率下降了1.65個(gè)百分點(diǎn)。
上述結(jié)果表明,僅僅依賴特定實(shí)體間的聯(lián)系,同樣無(wú)法構(gòu)建出有效的常識(shí)信息。實(shí)體間聯(lián)系僅僅反映出特定類型的單詞之間的關(guān)聯(lián),無(wú)法反映序列整體的語(yǔ)義信息。
(3) 情緒詞關(guān)系
情緒詞關(guān)系在兩個(gè)數(shù)據(jù)集上取得相反的效果。在CosmosQA數(shù)據(jù)集上,添加情緒詞關(guān)系后,PDT模型在驗(yàn)證集上的準(zhǔn)確率提升到70.51%,相較于基線模型準(zhǔn)確率提升了0.16個(gè)百分點(diǎn)。但在CommonsenseQA數(shù)據(jù)集上,融入情緒詞關(guān)系后,PDT模型準(zhǔn)確率下降到66.42%,相較于基線模型準(zhǔn)確率下降了1.97個(gè)百分點(diǎn)。
該結(jié)果表明,在CommonsenseQA數(shù)據(jù)集上,由于序列長(zhǎng)度較短,且答案與情緒詞基本不相關(guān),因而準(zhǔn)確率明顯下降。但在CosmosQA數(shù)據(jù)集中,序列中包含大量有效的情緒詞,在某些樣本中,可利用情緒詞作為額外的常識(shí)信息來(lái)輔助問(wèn)答,因而模型準(zhǔn)確率取得小幅度提升。
(4) 常識(shí)關(guān)系
單種結(jié)構(gòu)關(guān)系提升最大的是常識(shí)關(guān)系,其在兩種數(shù)據(jù)集上相較于基線模型均取得明顯性能提升。在CosmosQA數(shù)據(jù)集上,PDT模型在驗(yàn)證集上的準(zhǔn)確率提升到71.19%,相較于基線模型提升了0.84個(gè)百分點(diǎn)。而在CosmosQA數(shù)據(jù)集中,相較于基線模型,PDT模型在驗(yàn)證集中的準(zhǔn)確率提升到68.51%,整體提升了0.12個(gè)百分點(diǎn)。
上述結(jié)果表明,在常識(shí)問(wèn)答任務(wù)中引入額外的常識(shí)關(guān)系,能夠增強(qiáng)文本信息之間的語(yǔ)義特征。在理解復(fù)雜長(zhǎng)文本時(shí),常識(shí)信息為問(wèn)答提供了清晰的推理路徑,對(duì)于輔助常識(shí)問(wèn)答起到了至關(guān)重要的作用。
不同結(jié)構(gòu)關(guān)系的實(shí)驗(yàn)結(jié)果對(duì)比也說(shuō)明,并非所有的結(jié)構(gòu)信息在單獨(dú)應(yīng)用時(shí)都適用于特定的問(wèn)答任務(wù)。在不同的數(shù)據(jù)集或不同樣本上,不同類型的結(jié)構(gòu)信息的作用存在明顯差異。為充分利用不同的結(jié)構(gòu)知識(shí),需要將多種結(jié)構(gòu)知識(shí)動(dòng)態(tài)融合,從而為每個(gè)樣本篩選出重要的結(jié)構(gòu)信息。
3.4.2 結(jié)構(gòu)融合方式對(duì)比
本文比較了基于不同的思路提出的3種動(dòng)態(tài)結(jié)構(gòu)融合機(jī)制: 基于輸入的、基于任務(wù)的以及固定注意力頭的,并列出了不同模型的實(shí)驗(yàn)對(duì)比結(jié)果,結(jié)果如表5、表6所示。
表5 不同結(jié)構(gòu)融合方式在CosmosQA驗(yàn)證集上的準(zhǔn)確率
表6 不同結(jié)構(gòu)融合方式在CommonsenseQA驗(yàn)證集上的準(zhǔn)確率
(1) 基于輸入的動(dòng)態(tài)融合
預(yù)訓(xùn)練語(yǔ)言模型在提取序列特征時(shí),能有效融合上下文信息,得到考慮上下文的特征向量。在動(dòng)態(tài)融合時(shí),由于文本特征向量融合整個(gè)文本序列的語(yǔ)義特征,因而選擇對(duì)特征向量進(jìn)行線性變換,來(lái)生成融合多種結(jié)構(gòu)關(guān)系矩陣的權(quán)值。
基于輸入的結(jié)構(gòu)融合,通過(guò)對(duì)RoBERTa層輸出的詞向量表示進(jìn)行平均池化后,經(jīng)過(guò)線性層后得到動(dòng)態(tài)融合的權(quán)重。其中,Layer-wise代表對(duì)于每一層Transformer網(wǎng)絡(luò)使用不同的動(dòng)態(tài)融合參數(shù);Head-wise代表對(duì)于同一層Transformer網(wǎng)絡(luò)中的不同自注意力頭使用不同的動(dòng)態(tài)融合權(quán)重;Layer &Head wise代表對(duì)每一層Transformer網(wǎng)絡(luò)中的不同自注意力頭,使用不同的動(dòng)態(tài)融合參數(shù)。
在CosmosQA數(shù)據(jù)集上,Layer-wise方法將PDT模型在驗(yàn)證集上的準(zhǔn)確率提高到72.09%,在基線模型的基礎(chǔ)上準(zhǔn)確率提升了1.74個(gè)百分點(diǎn);Head-wise方法使PDT模型在驗(yàn)證集上的準(zhǔn)確率提升到70.75%,相較于基線模型提高了0.4個(gè)百分點(diǎn); Layer &Head-wise方法使PDT模型在驗(yàn)證集上的準(zhǔn)確率下降到69.41%,整體下降了0.94個(gè)百分點(diǎn)。
在CommonsenseQA數(shù)據(jù)集上,Head-wise方法使得PDT模型在驗(yàn)證集上的準(zhǔn)確率提升到68.80%,相較于基線模型提升了0.41個(gè)百分點(diǎn);Head-wise方法使PDT模型在驗(yàn)證集上的準(zhǔn)確率下降到67.98%,在基線模型的基礎(chǔ)上下降了0.41個(gè)百分點(diǎn);Layer &Head-ise方法使PDT模型在驗(yàn)證集上的準(zhǔn)確率下降到68.06%,整體下降了0.33個(gè)百分點(diǎn)。
上述結(jié)果表明,在兩種數(shù)據(jù)集中,Layer-wise方法通過(guò)在不同層上為不同的結(jié)構(gòu)關(guān)系設(shè)置不同的權(quán)值,從而動(dòng)態(tài)融合多種結(jié)構(gòu)關(guān)系,模型效果提升較為顯著。其中的權(quán)值反映了在每一層中區(qū)分出每種結(jié)構(gòu)的重要性。Head-wise方法在兩種數(shù)據(jù)集上取得不一樣的效果,也表明在不同的注意力頭上應(yīng)用不同的結(jié)構(gòu)關(guān)系,模型在不同數(shù)據(jù)集上效果不穩(wěn)定。Layer &Head-wise在兩種數(shù)據(jù)集上準(zhǔn)確率都明顯下降,這也表明使用更多的參數(shù)來(lái)學(xué)習(xí)動(dòng)態(tài)融合權(quán)重,并不能提高模型的性能。
該結(jié)果也表明,基于不同層的結(jié)構(gòu)融合方式,在構(gòu)建文本中常識(shí)關(guān)系時(shí),可針對(duì)特定的樣本提取出更有效的常識(shí)信息。
(2) 基于任務(wù)的動(dòng)態(tài)融合
為驗(yàn)證動(dòng)態(tài)融合權(quán)值的重要性,本文嘗試隨機(jī)生成權(quán)值來(lái)融合多種結(jié)構(gòu)關(guān)系矩陣,利用標(biāo)準(zhǔn)正態(tài)分布來(lái)隨機(jī)生成權(quán)值。該權(quán)值與文本序列特征無(wú)關(guān),從而對(duì)比基于輸入向量特征生成動(dòng)態(tài)融合權(quán)值的有效性。
基于任務(wù)的動(dòng)態(tài)融合,在整個(gè)數(shù)據(jù)集上自定義動(dòng)態(tài)融合權(quán)重,而非在每個(gè)樣本上定義權(quán)重。具體來(lái)說(shuō),動(dòng)態(tài)融合權(quán)重α是一個(gè)維度為4的需要學(xué)習(xí)的參數(shù),并且有∑tαt=1?;谌蝿?wù)的動(dòng)態(tài)融合權(quán)重α不依賴于某個(gè)具體的樣本輸入。因此注意力過(guò)程僅僅與任務(wù)相關(guān)。
在CosmosQA數(shù)據(jù)集中,基于任務(wù)的動(dòng)態(tài)融合模型,在驗(yàn)證集上的準(zhǔn)確率相對(duì)于基線模型都存在不同程度的下降,該結(jié)果也表明,隨機(jī)生成的自定義參數(shù)并不能為所有的樣本選擇出合適的權(quán)值,來(lái)融合多種結(jié)構(gòu)知識(shí)。
(3) 固定自注意力頭的結(jié)構(gòu)融合
為對(duì)比選擇性地利用不同結(jié)構(gòu)知識(shí)的重要性,本文還嘗試在注意力機(jī)制中應(yīng)用固定的結(jié)構(gòu)關(guān)系矩陣,而非動(dòng)態(tài)融合多種結(jié)構(gòu)關(guān)系矩陣,所有樣本都采用固定的注意力矩陣。
具體來(lái)說(shuō),固定自注意力頭的結(jié)構(gòu)融合,在結(jié)構(gòu)融合過(guò)程中,模型不需要額外生成動(dòng)態(tài)融合權(quán)重α。相反,該方法為每一層Transformer層中不同的注意力頭分配不同類型的結(jié)構(gòu)關(guān)系矩陣。給定鄰接矩陣M,M中包含四種不同的矩陣{M1,M2,M3,M4},我們?cè)诿恳粚覶ransformer網(wǎng)絡(luò)中的不同的自注意力頭上分配不同的結(jié)構(gòu)信息。即將結(jié)構(gòu)關(guān)系矩陣M1應(yīng)用到第1~3個(gè)自注意力頭{H1,H2,H3}上,將矩陣M2應(yīng)用到第4~6個(gè)自注意力頭{H4,H5,H6}上,將矩陣M3的應(yīng)用到第7~9個(gè)自注意力頭{H7,H8,H9}上,將矩陣M4的應(yīng)用到第10~12個(gè)自注意力頭{H10,H11,H12}上。
在固定自注意力頭的模型實(shí)驗(yàn)中,兩個(gè)數(shù)據(jù)集上模型的準(zhǔn)確率相對(duì)于最優(yōu)結(jié)果都存在不同程度的下降。該結(jié)果也表明將所有結(jié)構(gòu)知識(shí)若不加區(qū)別地施加到所有的注意力頭上,模型并不能夠充分利用不同的結(jié)構(gòu)信息。由于該模型的準(zhǔn)確率還低于僅僅依賴常識(shí)結(jié)構(gòu)關(guān)系的準(zhǔn)確率,即該結(jié)構(gòu)并未考慮到每種結(jié)構(gòu)關(guān)系之間的重要性,從而模型準(zhǔn)確率顯著降低。
3.5.1 結(jié)構(gòu)可視化
為衡量不同結(jié)構(gòu)知識(shí)在常識(shí)問(wèn)答中的作用,嘗試將PDT模型的常識(shí)推理模塊中的某些注意力可視化,以圖2實(shí)例的情緒詞關(guān)系和常識(shí)關(guān)系為例來(lái)證明PDT模型的效果。
(1) 情緒詞關(guān)系
為驗(yàn)證情緒詞關(guān)系在常識(shí)問(wèn)答中的效果,將圖2實(shí)例的情緒詞關(guān)系矩陣輸入到RoBERTa-base+3 Transformer基線模型中,并挑選Transformer結(jié)構(gòu)中的最后一層的第5個(gè)自注意力頭的注意力權(quán)值進(jìn)行可視化,可視化結(jié)果如圖3所示。其中圖3(a)表示未引入情緒詞關(guān)系時(shí)的注意力可視化結(jié)果,圖3(b)表示引入情緒詞關(guān)系后的注意力可視化結(jié)果。
圖3(b)的結(jié)果也表明,引入情緒詞結(jié)構(gòu)知識(shí)后,PDT模型能夠捕捉到home、time和early等單詞之間的情緒詞關(guān)系,從而引導(dǎo)模型選擇正確的答案,輔助常識(shí)問(wèn)答。
(2) 常識(shí)關(guān)系
為證明常識(shí)關(guān)系在常識(shí)問(wèn)答中的重要性,也將圖2中實(shí)例的常識(shí)關(guān)系輸入到基線模型中,并挑選Transformer結(jié)構(gòu)中最后一層的第11個(gè)注意力頭的注意力權(quán)值進(jìn)行可視化,可視化結(jié)果如圖4所示,圖4(a)表示未引入常識(shí)關(guān)系的注意力可視化結(jié)果,圖4(b)表示引入常識(shí)關(guān)系的可視化結(jié)果。
圖4 常識(shí)關(guān)系的注意力可視化結(jié)果
圖4(b)中的結(jié)果也反映出,引入常識(shí)關(guān)系,PDT模型能夠捕捉到問(wèn)題中的home、evening等四個(gè)單詞與答案中的單詞之間的常識(shí)關(guān)系,并通過(guò)常識(shí)關(guān)系圖進(jìn)行常識(shí)推理,進(jìn)而輔助模型選擇正確的答案。
3.5.2 動(dòng)態(tài)融合可視化
在常識(shí)問(wèn)答任務(wù)中,為驗(yàn)證PDT模型中的動(dòng)態(tài)融合方式的影響,嘗試在基于輸入的動(dòng)態(tài)融合方式中,將圖2中的實(shí)例輸入到PDT模型中,不同結(jié)構(gòu)知識(shí)的關(guān)系矩陣和動(dòng)態(tài)融合的權(quán)值如圖5所示。動(dòng)態(tài)融合后,Transformer最后一層的動(dòng)態(tài)掩碼矩陣如圖6(a)所示,第9個(gè)注意力頭的注意力權(quán)值如圖6(b)所示。
圖5 不同結(jié)構(gòu)關(guān)系矩陣的權(quán)值對(duì)比
圖6 動(dòng)態(tài)融合后的掩碼矩陣和注意力權(quán)值
圖中結(jié)果表明,不同的結(jié)構(gòu)知識(shí)對(duì)于某個(gè)問(wèn)答樣本的重要性不同。在該實(shí)例中,常識(shí)關(guān)系和情緒詞聯(lián)系更有助于輔助回答該問(wèn)題,模型亦為其分配較大了的權(quán)值,而其余結(jié)構(gòu)關(guān)系的權(quán)值相對(duì)較低。通過(guò)不同的動(dòng)態(tài)融合權(quán)值,PDT模型可為不同的樣本分配最有效的結(jié)構(gòu)知識(shí)信息。
在本文工作中,我們提出了PDT模型,將語(yǔ)言學(xué)中被廣泛研究的結(jié)構(gòu)化信息,視為額外知識(shí)融入到語(yǔ)言模型中。對(duì)于常識(shí)問(wèn)答任務(wù),諸如語(yǔ)法依賴樹和常識(shí)知識(shí)圖等結(jié)構(gòu)信息,可以提供輔助問(wèn)答的有效信息。通過(guò)動(dòng)態(tài)融合這些結(jié)構(gòu)信息,PDT模型可充分利用結(jié)構(gòu)知識(shí),使得當(dāng)前的深度語(yǔ)言模型有穩(wěn)定的提升。本文還證實(shí)了將傳統(tǒng)的語(yǔ)言學(xué)結(jié)構(gòu)信息與當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)結(jié)合的重要性,為以后的研究提供了參考思路。未來(lái)工作中,我們還將探索引入更多元化的結(jié)構(gòu)信息,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來(lái)動(dòng)態(tài)融合這些結(jié)構(gòu),并研究大量結(jié)構(gòu)信息如何改善當(dāng)前的深度模型性能。