袁 蕾,高 曙,郭 淼,袁自勇
(武漢理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢 430000)
隨著互聯(lián)網(wǎng)的發(fā)展和個人移動終端的普及,互聯(lián)網(wǎng)上產(chǎn)生的信息以爆炸方式增長.這些信息數(shù)量龐大、種類繁雜,且大部分是以短文本(或句子)的方式存在的,包括Twitter、微博的推文,電商網(wǎng)站的用戶評價等.這些短文本數(shù)據(jù)具有稀疏性、實時性、不規(guī)范性等特點,導(dǎo)致人工處理這些海量的短文本信息極其困難.對用戶生成的噪聲文本進行釋義識別是自然語言處理、信息檢索、文本挖掘領(lǐng)域的重要任務(wù),對查詢排名、剽竊檢測、問答、文檔摘要等領(lǐng)域也起到了重要作用[1].最近,由于需要處理語言變異的問題,釋義識別任務(wù)已經(jīng)在自然語言處理領(lǐng)域中獲得了極大的關(guān)注.
釋義識別,又稱復(fù)述檢測,通常被形式化為二進制分類任務(wù):對于給定的兩個句子,確定它們是否具有相同的含義,具有相同含義的句子稱為釋義對,而具有不同含義的句子稱為非釋義對[2].
傳統(tǒng)的釋義識別方法主要關(guān)注文本的特征,包括字面特征、語法特征、語義特征等.但這些方法存在準(zhǔn)確率不高和受到語料庫限制導(dǎo)致適應(yīng)性差等缺點.隨著神經(jīng)網(wǎng)絡(luò)發(fā)展,專家學(xué)者們陸續(xù)提出了各種基于神經(jīng)網(wǎng)絡(luò)的釋義識別模型.這些基于神經(jīng)網(wǎng)絡(luò)的釋義識別模型大大提高了識別的準(zhǔn)確率,但仍存在一些問題:易受到數(shù)據(jù)集限制,在大型數(shù)據(jù)集上表現(xiàn)良好的模型,常常在小型數(shù)據(jù)集上表現(xiàn)較差等.同時,現(xiàn)有神經(jīng)網(wǎng)絡(luò)釋義識別模型大多采用“編碼-匹配”模式,對句子對進行編碼、匹配操作以后,結(jié)果被直接用于分類,沒有充分利用匹配結(jié)果中的信息.針對這些問題,本文提出了一種面向釋義識別的層次化神經(jīng)網(wǎng)絡(luò)模型,它采用了“編碼-匹配-提取”模式,編碼層使用基于注意力的上下文雙向長短期記憶力網(wǎng)絡(luò)(Attention Based Contextual Bi-directional Long Short-Term Memory Network, ABC-BiLSTM)作為編碼器,獲取前向和逆向兩個長短期記憶力網(wǎng)絡(luò)(Long Short-Term Memory Network, LSTM)所有隱藏層狀態(tài),并且通過注意力機制(Attention Mechanism)提取權(quán)重信息;匹配層利用多種矩陣運算獲得匹配結(jié)果;特征提取層則利用Xception作為提取器,以便進一步從句子匹配結(jié)果中提取分類特征.
近年來,國內(nèi)外相關(guān)學(xué)者在釋義識別領(lǐng)域投入了大量的研究.識別兩個句子是否是釋義對,即是識別二者是否足夠相似,包括字面上的相似和語義上的相似.現(xiàn)有的釋義識別方法主要有基于特征的方法和基于神經(jīng)網(wǎng)絡(luò)的方法.
基于特征的方法主要關(guān)注文本的特征,包括n-gram重疊特征[3]、語法特征[4]、語言特征[5-6]、基于維基百科的語義網(wǎng)絡(luò)[7]、知識圖[8]等.該類方法通過提取文本對的特征,然后通過計算特征向量的相似度,判斷兩個文本是否是釋義對.計算特征向量的相似度方法有余弦相似度、歐式距離以及詞移距離等方法.
基于神經(jīng)網(wǎng)絡(luò)的方法有兩種,一種是通過神經(jīng)網(wǎng)絡(luò)計算詞向量,然后計算詞向量的距離得到文本相似度,判斷是否是釋義對.如黃江平等使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量,并使用改進的EMD方法計算向量間的語義距離,獲得文本釋義關(guān)系[9].另一種是通過神經(jīng)網(wǎng)絡(luò)模型直接輸出文本是否是釋義對,本質(zhì)上是一種分類算法.常用的神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、注意力機制等.在這些模型的基礎(chǔ)上,學(xué)者們提出了各種適用于釋義識別的神經(jīng)網(wǎng)絡(luò)模型.包括Wang等提出的BiMPM,通過雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory Network, BiLSTM)編碼句子,在兩個方向上匹配來自多個角度的編碼結(jié)果[10];Chen等的ESIM模型,使用兩層BiLSTM和自注意力機制,將編碼后結(jié)果通過平均池化層和最大池化層,輸入決策層分類[11];Kim等設(shè)計的一種具有密集連接的互注意力循環(huán)神經(jīng)網(wǎng)絡(luò)DRCN,主要由單詞表示層,注意力機制連接的RNN編碼層和交互預(yù)測層組成[12]等.
綜上,基于特征和基于神經(jīng)網(wǎng)絡(luò)的釋義識別方法,或者受到語料庫限制,或者缺乏特征提取機制,或者模型準(zhǔn)確率對數(shù)據(jù)集大小較敏感,有待進一步提升。因此,本文設(shè)計了面向釋義識別的層次化神經(jīng)網(wǎng)絡(luò)模型,通過增加特征提取層并在相關(guān)層提取更豐富的語義和分類信息,從而克服以上問題.
對于給定長度為p的句子A=(a1,…,ap)和長度為q的句子B=(b1,…,bq),求分類結(jié)果y∈{0,1}.y=0表示兩個句子含義不同(是釋義對),y=1表示兩個句子含義相同(非釋義對).
本文提出的面向釋義識別的層次化神經(jīng)網(wǎng)絡(luò)(Hierarchical Paraphrase Identification Network, HPIN)模型是一種分層結(jié)構(gòu),由輸入層、嵌入層、編碼層、匹配層、特征提取層、輸出層組成.圖1顯示了該模型的整體結(jié)構(gòu).與已有的釋義識別神經(jīng)網(wǎng)絡(luò)模型不同,HPIN采用“編碼-匹配-提取”模式,在“編碼-匹配”模式基礎(chǔ)上,添加了特征提取層,以便從匹配結(jié)果中提取更多分類信息.HPIN各層的概述如下.
1)輸入層用于將句子轉(zhuǎn)換為向量形式,即用不同的數(shù)字表示不同的單詞.該層的輸入是句子對,輸出是向量對.
2)嵌入層使用密集分布向量表示輸入句子的每個單詞,向量之間的距離表示語義的相似程度.該層對預(yù)訓(xùn)練詞向量(包含可訓(xùn)練和不可訓(xùn)練兩種)、字符向量和附加特征向量進行連接,并作為最終詞向量.嵌入層的輸入是向量對,輸出是詞向量矩陣對.
3)編碼層用于學(xué)習(xí)句子的上下文信息.編碼層采用基于注意力機制的上下文雙向長短期記憶力網(wǎng)絡(luò),能夠獲取前向和逆向兩個LSTM中所有單元的隱藏狀態(tài).該層的輸入是詞向量矩陣對,輸出是編碼矩陣對.
圖1 面向釋義識別的層次化神經(jīng)網(wǎng)絡(luò)模型
4)匹配層對編碼結(jié)果進行多種矩陣運算,包括矩陣減法、矩陣相減再按位求絕對值、矩陣按位乘法,并且與編碼矩陣對堆疊,生成三維張量.該層的輸入是由編碼層生成的編碼矩陣對,輸出是三維張量.
5)特征提取層用于提取匹配層輸出的三維張量的語義特征.HPIN使用Xception作為編碼器以便更有效地從匹配結(jié)果中提取分類信息.該層的輸入是由匹配層生成的三維張量,并將Xception的輸出平鋪成一個長向量,作為特征提取層的輸出.
6)輸出層由密集層和sigmoid函數(shù)組成,用于判斷句子對是否為釋義對.該層的輸入是特征提取層生成的長向量,輸出是二進制值,1代表是釋義對,0代表非釋義對.
在嵌入層,每個單詞被表示為一個密集分布的向量,整個句子因而被表示為詞向量矩陣.使用可訓(xùn)練詞向量、不可訓(xùn)練詞向量、字符向量和附加特征向量的串聯(lián)作為最終的詞向量.
1)可訓(xùn)練詞向量和不可訓(xùn)練詞向量.使用840B通用語料預(yù)訓(xùn)練的GloVe作為詞向量.可訓(xùn)練詞向量指在訓(xùn)練過程中會被更新的詞向量,不可訓(xùn)練詞向量指在訓(xùn)練過程中不會被更新的詞向量.在嵌入層,兩種詞向量都會被使用.
2)字符向量.使用一維卷積核過濾字符向量.單詞的字符卷積特征在時間維度上最大池化獲得向量.字符特征能夠為一些詞匯表外(Out-of-Vocabulary, OOV)的單詞提供額外信息.
3)附加特征向量.通過“附加特征篩選實驗及分析”選取合適的附加特征組合,從而得到附加特征向量.嵌入層使用的附加特征有Wordnet相似度和詞性標(biāo)注.
最終的詞向量由可訓(xùn)練詞向量、不可訓(xùn)練詞向量、字符向量、附加特征向量連接而成,具體可表示為
E(P)=[t(P),u(P),c(P),f(P)].
(1)
式中:P為句子,E(P)為句子P的詞向量矩陣,t(P)為可訓(xùn)練詞向量,u(P)為不可訓(xùn)練詞向量,c(P)為字符向量,f(P)為附加特征向量,[,]為連接操作.
字符向量可以包括OOV詞匯,附加特征向量可以提供語義和語法特征,這些特征不被包括在預(yù)訓(xùn)練的詞向量中.因此,模型使用以上四種向量的連接作為最終嵌入可以獲得更多信息并帶來更好的識別效果.
編碼層對句子的上下文信息進行編碼,HPIN使用基于注意力機制的上下文雙向長短期記憶網(wǎng)絡(luò)作為編碼器.雙向長短期記憶網(wǎng)絡(luò)包括兩個方向相反的長短期記憶網(wǎng)絡(luò),能夠?qū)W習(xí)句子的前向和逆向兩個方向的上下文信息.上下文長短期記憶(Contextual Long Short-Term Memory Network, Contextual-LSTM)網(wǎng)絡(luò)不是僅使用LSTM的最后一個單元的輸出,而是使用所有單元的隱藏狀態(tài)作為輸出,獲得LSTM上的所有單元的信息.
本文設(shè)計的ABC-BiLSTM結(jié)合了BiLSTM和Contextual-LSTM的優(yōu)點,能夠獲取前向LSTM和逆向LSTM所有單元的隱藏狀態(tài),并且在此基礎(chǔ)上加入注意力機制,為不同單元的隱藏狀態(tài)對句子編碼結(jié)果的影響提供權(quán)重信息,從而產(chǎn)生更好的編碼性能.其工作原理如下.
對于長度為l的句子的詞向量矩陣w=(w1,w2,…,wl),編碼過程為:
(2)
(3)
(4)
C(w)=[h1,h2,…,hl].
(5)
增加的注意力機制為:
(6)
(7)
A(w)=[a(h1),a(h2),…,a(hl)].
(8)
式中:wα∈R3d是可訓(xùn)練的參數(shù),?為元素按位相乘操作,[,]為連接操作,A(w)為ABC-BiLSTM的輸出,i,j∈[1,…,l].
由此可見,注意力機制的增加改變了Contextual-LSTM隱藏層節(jié)點狀態(tài)hi對于編碼結(jié)果中每一列影響的權(quán)重,由于注意力機制中的參數(shù)wα是可訓(xùn)練的參數(shù),可通過選擇合適的損失函數(shù),訓(xùn)練wα,獲得更好的編碼結(jié)果.
匹配層對來自編碼層的句子編碼矩陣對進行匹配.與以往單純的將句子編碼矩陣相乘或者相減作為匹配結(jié)果不同,HPIN對編碼層輸出的矩陣對進行多種矩陣計算,包括矩陣相減、矩陣相減后按位取絕對值、矩陣按位乘法,其目的是獲取編碼矩陣對之間的相關(guān)性,最后把句子編碼矩陣對和3種匹配結(jié)果矩陣堆疊起來,形成的三維張量作為最終的匹配結(jié)果,如下
m={u,v,u-v,|u-v|,u?v}.
(9)
式中:u和v表示兩個句子的編碼結(jié)果矩陣,操作符|-|和?都是矩陣按位(element-wise)操作,-為矩陣減法,|-|為矩陣相減以后按位取絕對值,?為按位相乘,{,}為堆疊操作,即把二維張量堆疊為三維張量,m為匹配層的匹配結(jié)果.
傳統(tǒng)的“編碼-匹配”模式難以從匹配結(jié)果中提取到足夠的分類信息,因此本文設(shè)計了“編碼-匹配-提取”架構(gòu),添加了特征提取層.在傳統(tǒng)的“編碼-匹配”模型中,由于缺少提取分類信息的結(jié)構(gòu),匹配層的匹配結(jié)果被直接輸入到輸出層用于分類,導(dǎo)致了分類準(zhǔn)確率下降.在HPIN中,增加特征提取層,用于從匹配結(jié)果更好地提取分類信息.根據(jù)“特征提取器選擇實驗及分析”實驗結(jié)果,最終選取Xception作為特征提取器.
Xception是Chollet于2017年提出的深度學(xué)習(xí)模型[13],最早用于圖像分類.Xception是對Inception的改進,Chollet將Inception中的Inception單元替換為深度可分離卷積單元,得到了Xception.Xception是帶有殘差連接的深度可分離卷積單元的線性堆疊.簡化的深度可分離卷積單元的結(jié)構(gòu)見圖2.
圖2 深度可分離卷積單元
從圖2中可以看出,輸入通過多個3×3卷積核進行卷積,然后結(jié)果被連接起來,再進行1×1卷積.Xception由34個類似結(jié)構(gòu)的深度可分離卷積單元組成.
在HPIN中,Xception接受來自匹配層的匹配結(jié)果(一個三維張量)作為輸入,輸入數(shù)據(jù)依次通過多個深度可分離卷積單元,在每個深度可分離卷積單元中,輸入數(shù)據(jù),先按照通道分組,對每個通道做一次3×3的卷積,然后再對卷積結(jié)果進行1×1的卷積.深度可分離卷積保證了得到的特征之間獨立性,沒有太多的相互依賴.殘差連接把一些深度可分離卷積單元之間連接起來,從而避免了梯度爆炸問題.最后,整個Xception的輸出被平鋪成一個長向量,作為輸出層的輸入.
由于增加Xception作為特征提取器,利用其結(jié)構(gòu)中多個深度可分離卷積單元以及殘差連接,有效地提取了句子的分類信息,從而使得模型的分類準(zhǔn)確率有了進一步提升.
1)Quora問題對數(shù)據(jù)集.Quora問題對數(shù)據(jù)集來源于Quora.com,包含超過40萬對真實數(shù)據(jù).每個問題對都有二進制注釋,1表示重復(fù)(釋義對),0表示不重復(fù)(非釋義對).
2)Twitter Paraphrase SemEval 2015數(shù)據(jù)集.最近不少釋義識別研究都采用了Twitter Paraphrase SemEval 2015提供的數(shù)據(jù)集[14](以下簡稱PIT數(shù)據(jù)集).該數(shù)據(jù)集由帶有噪音的短文本組成,共有18 762個文本對.
表1 數(shù)據(jù)集劃分
在所有實驗中,數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,如表1所示.對于Quora數(shù)據(jù)集,隨機抽取10 000個數(shù)據(jù)作為驗證集,10 000個作為測試集,其余數(shù)據(jù)作為訓(xùn)練集.對于PIT數(shù)據(jù)集,使用數(shù)據(jù)集本身提供的數(shù)據(jù)劃分.
實驗采用準(zhǔn)確率和F1值作為評價指標(biāo).準(zhǔn)確率是正確分類的釋義對的百分比,F(xiàn)1值是精確度和召回率的組合.在使用Quora數(shù)據(jù)集的實驗中使用準(zhǔn)確率,在使用PIT數(shù)據(jù)集的實驗中使用F1值,以更好地與其他人的工作進行對比(Quora數(shù)據(jù)集中更常用準(zhǔn)確率,PIT數(shù)據(jù)集中更常用F1值).
實驗使用Keras框架實現(xiàn)提出的模型,使用初始學(xué)習(xí)率為0.001的RMSProp優(yōu)化器優(yōu)化可訓(xùn)練的參數(shù).批量大小設(shè)置為128.使用300維840B語料訓(xùn)練的GloVe向量作為預(yù)訓(xùn)練詞向量.設(shè)置句子標(biāo)準(zhǔn)長度為32,超出部分會被截去,不足部分用0補齊.對于所有實驗,選擇在驗證集上表現(xiàn)最佳的模型,然后在測試集上對其進行評估.
HPIN的嵌入層中使用了附加特征向量.本小節(jié)希望探索哪些附加組合可以更好地優(yōu)化模型效果,并評估附加特征的優(yōu)化效果在不同規(guī)模的數(shù)據(jù)集上的表現(xiàn).
5.1.1 單附加特征篩選實驗與分析
本實驗?zāi)康氖翘接懩男└郊犹卣髂軆?yōu)化模型效果.由于實驗只用于評價單個附加特征對模型的影響,不作模型性能評估,所以僅使用Quora數(shù)據(jù)集.
在該實驗中,將備選特征分別添加到模型中,評估該特征的加入對模型準(zhǔn)確率的影響.將沒有任何特征添加的模型視為該實驗的基線.實驗結(jié)果見表2,其中句子的長度、句子中單詞的位置和n-gram重疊特征對提高模型準(zhǔn)確率沒有幫助,而BTM特征、詞性標(biāo)注和Wordnet相似度的加入提高了模型的準(zhǔn)確率.
表2 單個特征對模型的影響
句子的長度、單詞位置和n-gram重疊在被添加到詞向量中時會產(chǎn)生負面效應(yīng).原因可能是這些特征包含的信息不足,而當(dāng)它們被添加到詞向量中時,同時也將噪聲帶入了詞向量.
5.1.2 附加特征組合篩選實驗及分析
本實驗的目的是探索哪些附加組合可以更好地優(yōu)化模型效果.由于實驗只用于評價附加特征組合對模型的影響,不作模型性能評估,所以僅使用Quora數(shù)據(jù)集.
對“單附加特征評估實驗與分析”中能優(yōu)化模型效果的三個特征:BTM特征、詞性標(biāo)注和Wordnet相似度,進行組合并通過實驗對這些組合的效果進行評估,結(jié)果如表3所示.可以發(fā)現(xiàn)“詞性標(biāo)注+Wordnet相似度”效果更好,因此模型最終選擇詞性標(biāo)注和Wordnet相似度的組合生成附加特征向量.
由表3可知,BTM特征在單獨添加到詞向量中時會產(chǎn)生正面影響,而當(dāng)它被添加到具有Wordnet相似度或詞性標(biāo)注的詞向量中時,模型表現(xiàn)并不好.原因可能是BTM特征攜帶的信息與Wordnet相似度以及詞性標(biāo)注攜帶的信息存在重疊,當(dāng)同時被加入模型中時,噪聲比有價值的信息增加得更多.
5.1.3 附加特征在不同數(shù)據(jù)集上對模型優(yōu)化效果評估
本組實驗的目的是評估附加特征對于所提出模型HPIN的優(yōu)化效果在不同規(guī)模數(shù)據(jù)集上的表現(xiàn).主要記錄4組結(jié)果:無附加特征添加的模型分別在Quora(大型數(shù)據(jù)集)和PIT(中小型數(shù)據(jù)集)上的準(zhǔn)確率和有“詞性標(biāo)注+Wordnet相似度”作為附加特征添加的模型分別在Quora和PIT數(shù)據(jù)集上的準(zhǔn)確率.實驗結(jié)果如表4所示.
表3 附加特征組合對模型的影響
表4 附加特征對模型影響(Quora,PIT)
由表4可知,對于Quora數(shù)據(jù)集,附加特征的添加使得模型準(zhǔn)確率提升了1.23%.而對于PIT數(shù)據(jù)集,附加特征的添加使得準(zhǔn)確率提升了2.62%.顯然,附加特征對于模型的優(yōu)化效果在中小型數(shù)據(jù)集上表現(xiàn)得更明顯.
設(shè)計特征提取層是為了從匹配結(jié)果中更好地提取分類信息.本實驗的目的是驗證特征提取層的有效性以及尋找適合的特征提取器.由于該實驗只評估不同特征提取器對模型準(zhǔn)確率的影響,不作模型性能評估,所以僅使用Quora數(shù)據(jù)集.
在其他設(shè)置不變的情況下,只改變特征提取層的結(jié)構(gòu),以評估不同特征提取器對模型準(zhǔn)確率的影響.其中,無特征提取層的模型作為實驗的基線.參與對比實驗的特征提取器結(jié)構(gòu)有InceptionV3、DenseNet121、DenseNet169、DenseNet201、Xception、InceptionResnetV2和ResNet50.實驗結(jié)果如表5所示,最佳結(jié)果在表格中用下劃線標(biāo)出.顯然有特征提取層的模型比無特征提取層的模型準(zhǔn)確率更高.這表明了特征提取層的設(shè)置是有效的.在各種特征提取器中,Xception和DenseNet121表現(xiàn)最好,達到了88.5%以上的準(zhǔn)確率.而Xception比DenseNet121參數(shù)更少,訓(xùn)練得更快,所以最終選擇了Xception作為模型的特征提取器.
在表5中,可以發(fā)現(xiàn)Xception的性能優(yōu)于Inception、DenseNet和Resnet.Xception比InceptionV3更深卻與InceptionV3的參數(shù)數(shù)量幾乎相同,這體現(xiàn)了Xception能更有效地使用模型參數(shù).Resnet50和DenseNet結(jié)構(gòu)表現(xiàn)不佳的原因可能是當(dāng)數(shù)據(jù)集較小時這些結(jié)構(gòu)更容易過擬合.
表5 特征提取器效果評估
本組實驗對HPIN與其他釋義識別模型在Quora數(shù)據(jù)集和PIT數(shù)據(jù)集(分別作為大型數(shù)據(jù)集和中小型數(shù)據(jù)集的代表)的釋義識別結(jié)果進行評估對比.
5.3.1 Quora數(shù)據(jù)集上的模型性能評估
將HPIN與GenSen[15]、BiMPM[10]、SSE[17]、ESIM[11]、inferSent[18]和PWIM[20]在Quora數(shù)據(jù)集上釋義識別的結(jié)果進行比較.與HPIN對比的模型數(shù)據(jù)來源于文獻[10,15,21].結(jié)果如表6所示,最佳結(jié)果在表格中用下劃線標(biāo)出.HPIN在測試集上達到了88.58%的準(zhǔn)確率,這比BiMPM的88.17%表現(xiàn)得更好.
表6 Quora數(shù)據(jù)集上的模型評估
HPIN表現(xiàn)得比較好的原因可能有三點:首先是附加特征的使用,參與對比的其他模型沒有使用附加特征,而HPIN采用多特征融合詞向量,其蘊含的信息比普通的預(yù)訓(xùn)練詞向量更加豐富;其次是增設(shè)了特征提取層,參與對比的其他模型沒有特征提取步驟,HPIN使用Xception作為特征提取器,而“特征提取器選擇實驗及分析”表明,Xception作為特征提取器能夠進一步提取分類信息,從而提升了模型識別的準(zhǔn)確率;最后是HPIN在編碼層使用了注意力機制,該機制能調(diào)節(jié)不同隱藏層狀態(tài)對編碼結(jié)果影響的權(quán)重,從而有助于準(zhǔn)確率的提升,而其他幾個模型沒有使用注意力機制.
5.3.2 PIT數(shù)據(jù)集上的模型性能評估
將HPIN與Huang等的模型[16]、AugDeepParaphrase模型[1]、SSE[17]、ESIM[11]、inferSent[18]和PWIM[20]在PIT數(shù)據(jù)集上釋義識別的結(jié)果進行比較.與HPIN對比的模型數(shù)據(jù)來源于文獻[1,16,21].結(jié)果如表7所示,最佳結(jié)果在表格中用下劃線標(biāo)出.HPIN的F1值為0.749,僅比最佳模型AugDeepParaphrase低0.002.表明HPIN不僅在Quora這樣的大型數(shù)據(jù)集上表現(xiàn)良好(見表6),在像PIT這樣的中小型數(shù)據(jù)集上也有很好的表現(xiàn).
表7 PIT數(shù)據(jù)集上的模型評估
同時,分析表6和表7結(jié)果可知,模型SSE、ESIM、inferSent和PWIM在大型數(shù)據(jù)集Quora上表現(xiàn)良好(準(zhǔn)確率與最優(yōu)模型差距不大),但在中小型數(shù)據(jù)集PIT上則表現(xiàn)較差(表現(xiàn)遠遠差于最優(yōu)模型),表明了這些模型對數(shù)據(jù)集大小較敏感;而HPIN在大型數(shù)據(jù)集Quora和中小型數(shù)據(jù)集PIT上都取得了良好的效果,表明HPIN具有一定程度的泛用性.其原因一是模型采用了多特征融合的詞向量,特別是當(dāng)數(shù)據(jù)集較小時,附加特征的貢獻尤為明顯(結(jié)論來自“附加特征在不同數(shù)據(jù)集上對模型優(yōu)化效果評估”);另一個原因則是增設(shè)了特征提取層,充分提取了匹配結(jié)果中的分類信息,無論在大型數(shù)據(jù)集上還是在中小型數(shù)據(jù)集上都具有良好效果.
本文構(gòu)建了一種新的釋義識別模型HPIN.與大多數(shù)現(xiàn)有的釋義識別模型采用的“編碼-匹配”模式不同,采用“編碼-匹配-提取”模式,增設(shè)了特征提取層,從匹配結(jié)果中提取更深層的分類信息.HPIN是一個分層模型,由6層組成:輸入層、嵌入層、編碼層、匹配層、特征提取層、輸出層.嵌入層使用可訓(xùn)練的詞向量、不可訓(xùn)練的詞向量、字符向量和附加特征向量的連接,作為最終的詞向量,較普通的預(yù)訓(xùn)練詞向量攜帶更豐富的信息;編碼層中采取基于注意力機制的上下文雙向BiLSTM作為編碼器,獲取前向和逆向兩個LSTM中所有隱藏層中的信息,有效地對詞向量矩陣的上下文進行編碼;在匹配層中,運用多種矩陣運算,從不同角度獲取句子對的匹配信息;在特征提取層中,使用Xception結(jié)構(gòu),更有效地提取分類信息.本文在Quora(作為大型數(shù)據(jù)集代表)和PIT兩個公開數(shù)據(jù)集上(作為中小型數(shù)據(jù)集的代表)評估該模型,均達到了競爭性的效果,從而表明所提出的HPIN模型不僅能有效提高釋義識別的準(zhǔn)確率,而且在不同規(guī)模的數(shù)據(jù)集上(Quora和PIT)都表現(xiàn)良好,因此也具有一定程度的泛用性.