• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Capsule-BiGRU的文本相似度分析算法

      2021-08-06 08:23:34杜彥輝蘆天亮沈少禹
      關(guān)鍵詞:膠囊向量單詞

      趙 琪,杜彥輝,蘆天亮,沈少禹

      中國(guó)人民公安大學(xué) 警務(wù)信息工程與網(wǎng)絡(luò)安全學(xué)院,北京 100038

      文本相似度在自然語(yǔ)言處理中有著重要的地位。其旨在對(duì)給定的兩個(gè)文本進(jìn)行特征提取,計(jì)算文本特征向量相似度,以此來(lái)量化兩個(gè)文本之間的的相似程度。文本相似度在自動(dòng)問(wèn)答系統(tǒng)、信息檢索、自動(dòng)文本摘要、文本分類(lèi)等自然語(yǔ)言處理的任務(wù)中都有著廣泛的應(yīng)用[1]。

      近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)在文本相似度的任務(wù)中得到廣泛的應(yīng)用。由于卷積神經(jīng)網(wǎng)絡(luò)[2]與循環(huán)神經(jīng)網(wǎng)絡(luò)[3]在各個(gè)領(lǐng)域的任務(wù)中表現(xiàn)出了良好的性能,從而成為如今主要的兩種神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)詞向量矩陣進(jìn)行處理,從而有效地提取出文本的局部特征,但缺點(diǎn)在于不能考慮文本的上下文信息,有時(shí)不能表達(dá)文本真正的含義。循環(huán)神經(jīng)網(wǎng)絡(luò)將文本視為一個(gè)序列,它可以將上一神經(jīng)元的輸出作用于下一神經(jīng)元,因此這種網(wǎng)絡(luò)結(jié)構(gòu)具有記憶性,利用循環(huán)神經(jīng)網(wǎng)絡(luò)完成文本特征向量提取,可以考慮詞語(yǔ)的順序信息,利用文本的上下文信息提取文本的全局特征,但對(duì)于長(zhǎng)距離的依賴(lài)關(guān)系,循環(huán)神經(jīng)網(wǎng)絡(luò)不能很好地提取文本特征。針對(duì)兩種網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn),本文提出基于capsule-BiGRU 的文本相似度分析方法,該方法將兩個(gè)文本通過(guò)兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)處理之后得到的文本特征向量進(jìn)行相似度分析,得到局部相似度矩陣和全局相似度矩陣,將兩個(gè)層次的相似度矩陣進(jìn)行融合,以此完成文本相似度分析。

      本文提出的方法首先利用互注意力機(jī)制賦予單詞不同的權(quán)重,針對(duì)兩個(gè)文本,對(duì)兩個(gè)文本的詞向量距離進(jìn)行計(jì)算,對(duì)于更接近另一個(gè)文本的單詞給更高的權(quán)重。其次結(jié)合膠囊網(wǎng)絡(luò)與BiGRU 網(wǎng)絡(luò)構(gòu)建集成模型,將膠囊網(wǎng)絡(luò)提取的文本局部特征和BiGRU網(wǎng)絡(luò)提取的文本全局特征分別進(jìn)行相似度分析,將兩個(gè)層次的相似度矩陣進(jìn)行融合。最后根據(jù)兩個(gè)句子的相似度向量判斷文本是否相似。

      1 相關(guān)工作

      傳統(tǒng)的文本相似度研究的方法主要是以one-hot、詞袋模型、N-gram,TF-IDF 等作為文本的特征向量[4-5],利用余弦相似度等方法作為量化文本相似程度的指標(biāo)。但這些方法單純地以文本的統(tǒng)計(jì)信息作為文本的特征向量,沒(méi)能考慮詞語(yǔ)的上下文信息,同時(shí)在特征提取時(shí)存在特征稀疏和維度爆炸的問(wèn)題[6]。

      隨著深度學(xué)習(xí)的發(fā)展,利用深度學(xué)習(xí)的方法研究文本相似度任務(wù)成為了如今的主流方法。

      Mikolov等人[7]在文中提出word2vec詞向量嵌入方法,作為一種神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,該方法將單詞轉(zhuǎn)化為多維向量表示,極大地方便了后續(xù)工作。Pennington等人[8]在文中提出Glove 詞向量嵌入方法,該方法融合了全局矩陣分解方法和局部文本框捕捉方法的優(yōu)點(diǎn),詞向量嵌入考慮了上下文的信息,更準(zhǔn)確地表達(dá)了文本的上下文信息,在多個(gè)自然語(yǔ)言處理任務(wù)中有良好的表現(xiàn)。

      Kim等人[9]在2014年發(fā)表的論文中提出了TextCNN模型,將CNN應(yīng)用到自然語(yǔ)言處理領(lǐng)域中,進(jìn)行文本分類(lèi)任務(wù)。使用預(yù)先訓(xùn)練好的詞向量作為模型的輸入,使用多個(gè)不同尺寸的卷積核來(lái)提取句子的文本特征向量,經(jīng)過(guò)最大池化層篩選句子的顯著特征,將篩選出的特征連接,最后進(jìn)入全連接層輸出每個(gè)類(lèi)別的概率。Sabour等人[10]在2017年在文中提出了膠囊網(wǎng)絡(luò),膠囊網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)的一種變體,使用神經(jīng)元向量代替?zhèn)鹘y(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的單個(gè)神經(jīng)元節(jié)點(diǎn),以向量的形式保存更多的信息。同時(shí)以動(dòng)態(tài)路由機(jī)制訓(xùn)練膠囊網(wǎng)絡(luò),減少了網(wǎng)絡(luò)的參數(shù),在手寫(xiě)數(shù)字識(shí)別數(shù)據(jù)集上有很好的效果。Zhao等人[11]將膠囊網(wǎng)絡(luò)引入自然語(yǔ)言處理中,做文本分類(lèi)的任務(wù),膠囊網(wǎng)絡(luò)可以對(duì)文本信息進(jìn)行有效的編碼,保存了文本多層次的特征,提取出的特征向量更準(zhǔn)確地表達(dá)了文本的取得了很好的效果。Francis-Landau 等人[12]在文中使用CNN 完成實(shí)體關(guān)系抽取任務(wù),該模型使用的多個(gè)粒度的卷積網(wǎng)絡(luò),具有良好的表現(xiàn)。

      Mikolov 等人[13]將循環(huán)神經(jīng)網(wǎng)絡(luò)引入自然語(yǔ)言處理領(lǐng)域,利用循環(huán)神經(jīng)網(wǎng)絡(luò)完成了機(jī)器翻譯的任務(wù),使用循環(huán)結(jié)構(gòu)遍歷整個(gè)文本,得到文本的全局特征。Sundermeyer 等人[14]在文獻(xiàn)中將LSTM 應(yīng)用于自然語(yǔ)言處理領(lǐng)域,LSTM解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)于輸入序列長(zhǎng)距離信息依賴(lài)關(guān)系的問(wèn)題。Neculoiu等人[15]提出基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)用于文本相似度,該網(wǎng)絡(luò)通過(guò)兩個(gè)LSTM 網(wǎng)絡(luò)遍歷整個(gè)文本,綜合考慮每個(gè)單詞的上下文信息,提取句子的特征,完成文本相似度的判別。Bahdanau 等人[16]在將注意力機(jī)制應(yīng)用到了自然語(yǔ)言處理領(lǐng)域,通過(guò)注意力機(jī)制,神經(jīng)網(wǎng)絡(luò)具備專(zhuān)注于某些特征的能力,對(duì)于重要的特征分配較多的注意力。

      He 等人[17]在文中提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型用于文本相似度分析,該模型利用注意力機(jī)制對(duì)文本單詞賦予權(quán)重并使用卷積網(wǎng)絡(luò)提取特征矩陣。方炯焜等人[18]將GloVe 詞向量嵌入方法與GRU 網(wǎng)絡(luò)結(jié)合起來(lái)做文本分類(lèi)的任務(wù),該方法利用GloVe方法完成單詞表示,并利用GRU 網(wǎng)絡(luò)作為分類(lèi)器在文本分類(lèi)中有較好的表現(xiàn)。Pontes 等人[19]提出利用CNN 與LSTM網(wǎng)絡(luò)提取文本特征完成文本相似度分析任務(wù)。郭浩等人[20]提出基于CNN-BiLSTM的文本相似度計(jì)算方法,使用CNN 和BiLSTM 網(wǎng)絡(luò)提取文本特征,完成相似度計(jì)算。唐莊等人[21]提出一種transformer-capsule集成模型,分別利用膠囊網(wǎng)絡(luò)和transformer 來(lái)提取文本的局部短語(yǔ)特征和全局特征,得到文本序列的多層次特征表示,完成文本分類(lèi)的任務(wù)。尹春勇等人[22]對(duì)傳統(tǒng)膠囊網(wǎng)絡(luò)改進(jìn),將卷積神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)融合做文本分類(lèi)的任務(wù)。

      針對(duì)CNN 網(wǎng)絡(luò)與RNN 網(wǎng)絡(luò)在特征提取階段的優(yōu)勢(shì)與不足,本文提出的方法將CNN 網(wǎng)絡(luò)變體capsule 與RNN網(wǎng)絡(luò)變體BiGRU結(jié)合,同時(shí)引入互注意力機(jī)制,解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型不能很好地提取文本的特征向量的問(wèn)題。本文提出的方法在文本相似度任務(wù)中有較好的表現(xiàn)。

      2 模型

      基于capsule-BiGRU的文本相似度分析模型框架如圖1 所示。本文提出的模型主要包括:詞向量嵌入模塊、特征矩陣提取模塊、特征矩陣分析判斷模塊。本文提出的方法首先針對(duì)文本相似度任務(wù),使用互注意力機(jī)制分析重要的單詞賦予較高的權(quán)重。其次將膠囊網(wǎng)絡(luò)(capsule)和雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)(BiGRU)相結(jié)合,使用膠囊網(wǎng)絡(luò)提取文本的局部特征,使用BiGRU 網(wǎng)絡(luò)提取文本的全局特征,將提取出的兩個(gè)層次的特征融合得到文本的多層次特征。同時(shí)對(duì)將傳統(tǒng)的膠囊網(wǎng)絡(luò)進(jìn)行改進(jìn),將與文本語(yǔ)義無(wú)關(guān)的單詞視為噪聲膠囊,賦予較小權(quán)值,從而減輕對(duì)后續(xù)任務(wù)的影響。

      圖1 基于capsule-BiGRU的文本相似度分析模型框架Fig.1 Framework of text similarity analysis model based on capsule-BiGRU

      本文提出的方法首先使用預(yù)訓(xùn)練的GloVe模型,將兩個(gè)文本分別映射為300 維的詞向量矩陣。將詞向量矩陣作為模型的輸入,經(jīng)過(guò)注意力機(jī)制模塊賦予權(quán)重,然后將其結(jié)果分別輸入到BiGRU網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)模型中。在膠囊網(wǎng)絡(luò)中,首先進(jìn)行卷積運(yùn)算,經(jīng)過(guò)主膠囊層做膠囊卷積運(yùn)算,經(jīng)擠壓函數(shù)運(yùn)算后作為主膠囊層的輸出,經(jīng)過(guò)動(dòng)態(tài)路由協(xié)議機(jī)制運(yùn)算后連接到分類(lèi)膠囊層,將分類(lèi)膠囊層的輸出結(jié)果展開(kāi)作為文本的局部特征向量。在BiGRU 網(wǎng)絡(luò)中,使用雙向的GRU 網(wǎng)絡(luò)從兩個(gè)方向提取文本的信息,得到文本的全局特征向量。同時(shí)在特征向量提取階段,使用孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即處理兩個(gè)詞向量矩陣使用完全相同的網(wǎng)絡(luò)結(jié)構(gòu),這樣將兩個(gè)詞向量矩陣編碼到同一矢量空間。最后將兩個(gè)文本各自的局部特征和全局特征分別進(jìn)行相似度分析,得到兩個(gè)文本的相似度矩陣,將相似度矩陣作為全連接網(wǎng)絡(luò)的輸入,全連接網(wǎng)絡(luò)最后一層使用sigmoid函數(shù)作為分類(lèi)器,判斷兩個(gè)文本是否相似。

      2.1 詞向量嵌入模塊

      在詞向量嵌入模塊首先對(duì)文本進(jìn)行預(yù)處理,主要包括去停用詞、特殊符號(hào)等,通過(guò)分析所有文本,本實(shí)驗(yàn)選擇句子最大長(zhǎng)度為25 個(gè)字符,對(duì)不足25 個(gè)字符的句子進(jìn)行補(bǔ)齊,超過(guò)25 個(gè)字符的句子截取前25 個(gè)字符作為句子表示。使用了斯坦福大學(xué)自然語(yǔ)言處理小組預(yù)訓(xùn)練的GloVe 模型將文本中每個(gè)單詞映射為300 維詞向量。

      GloVe 模型對(duì)單詞進(jìn)行向量化表示過(guò)程如下:首先計(jì)算語(yǔ)料庫(kù)的共現(xiàn)矩陣X,其中Xij為在語(yǔ)料庫(kù)中單詞i與單詞j共同出現(xiàn)在同一窗口中的次數(shù)。

      Xi表示單詞i在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),Pij表示單詞j在單詞i的語(yǔ)境中出現(xiàn)的概率。假設(shè)已經(jīng)知道單詞i和j的詞向量分別是vi和vj,計(jì)算vi與vj的相似度與Pij進(jìn)行比較,當(dāng)差值較小的時(shí)候證明詞向量與共現(xiàn)矩陣一致性較高,詞向量對(duì)上下文信息把握準(zhǔn)確。

      使用代價(jià)值J表示兩項(xiàng)的差值,bi與bj為偏差項(xiàng)。通過(guò)迭代的更改所有單詞的詞向量使得代價(jià)值J在整個(gè)語(yǔ)料庫(kù)中最小,即得到了語(yǔ)料庫(kù)中所有單詞最優(yōu)的詞向量,這樣通過(guò)上下文信息計(jì)算出單詞的詞向量。斯坦福大學(xué)自然語(yǔ)言處理小組收集了維基百科網(wǎng)站上的數(shù)據(jù)集作為語(yǔ)料庫(kù)進(jìn)行了詞向量訓(xùn)練,該數(shù)據(jù)集包含大量的英文文本,預(yù)訓(xùn)練得到的詞向量中包含更準(zhǔn)確的上下文信息,發(fā)布了50維、100維200維與300維詞向量訓(xùn)練結(jié)果。本文選用斯坦福大學(xué)自然語(yǔ)言處理小組發(fā)布的300維詞向量作為詞向量表示。

      2.2 特征矩陣提取模塊

      2.2.1 注意力

      在自然語(yǔ)言處理中,傳統(tǒng)的注意力模型主要是分析文本中與任務(wù)更相關(guān)的單詞,從而賦予較高的注意力,這樣的注意力模型在處理單個(gè)句子的任務(wù)時(shí)會(huì)有較好的表現(xiàn)。但針對(duì)本文的任務(wù)——文本相似度而言,主要關(guān)注兩個(gè)文本是否相似,對(duì)于兩個(gè)輸入的文本t1和t2而言,更應(yīng)該關(guān)注的是t1與t2相似的部分,對(duì)于相似的部分給予更高的注意力[23]。計(jì)算t1中任意一個(gè)單詞與t2中所有單詞之間的相似度并求和,相似度計(jì)算方法使用余弦相似度,將余弦相似度的和作為描述該單詞的權(quán)重的值。假設(shè)文本t1和t2經(jīng)過(guò)詞向量嵌入層得到的詞向量矩陣為:

      其中,表示文本t1中第j個(gè)單詞的詞向量。余弦相似度計(jì)算公式如下:

      根據(jù)前式文本t1和t2的詞向量矩陣為vt1,vt2,利用余弦相似度計(jì)算公式計(jì)算兩個(gè)輸入文本所有單詞與另一文本的相似程度。

      式中,kt1[i] 為文本t1中第i個(gè)單詞與文本t2各個(gè)單詞的余弦相似度和,通過(guò)計(jì)算得到文本t1與t2中各個(gè)單詞的余弦相似度kt1、kt2并作為計(jì)算各個(gè)單詞權(quán)重的值。使用kt1、kt2以及SoftMax函數(shù)完成單詞權(quán)重的計(jì)算。

      At1、At2為文本t1和t2各個(gè)單詞對(duì)應(yīng)的權(quán)值,將單詞的詞向量與對(duì)應(yīng)權(quán)值相乘得到文本的特征矩陣,作為后續(xù)網(wǎng)絡(luò)的輸入。

      2.2.2 膠囊網(wǎng)絡(luò)

      在文本中存在大量的限定詞,感嘆詞等與文本語(yǔ)義無(wú)關(guān)的單詞,這些單詞在兩個(gè)文本中有極高的概率同時(shí)存在,經(jīng)過(guò)注意力模塊運(yùn)算后這些單詞可能得到較高的權(quán)重,但這些單詞對(duì)文本的語(yǔ)義沒(méi)有較大的影響,賦予較大的權(quán)重會(huì)對(duì)最后的結(jié)果有一定的影響。在膠囊網(wǎng)絡(luò)模塊中稱(chēng)這些無(wú)關(guān)單詞為噪聲膠囊。使用NLTK 工具對(duì)句子中的單詞進(jìn)行詞性標(biāo)注,在膠囊網(wǎng)絡(luò)中首先根據(jù)單詞詞性對(duì)限定詞、連詞、感嘆詞、代詞賦予較低權(quán)重,以減輕噪聲膠囊對(duì)后續(xù)任務(wù)的影響,解決上述問(wèn)題。將經(jīng)過(guò)注意力機(jī)制的特征矩陣輸入膠囊網(wǎng)絡(luò),使用動(dòng)態(tài)路由算法計(jì)算上層膠囊輸出,計(jì)算步驟如下。

      (1)Ai=attention(ui)

      (2)bij=0

      (3)迭代r次:

      (4)返回vj

      其中,ui為互注意力模塊得到的特征向量,Ai為降低噪聲膠囊權(quán)重之后的特征向量,r為動(dòng)態(tài)路由算法迭代次數(shù),wij為兩層膠囊之間的權(quán)值矩陣,cij為耦合系數(shù),表示下層膠囊i激活上層膠囊j的可能性,u(j|i)為上層膠囊的輸入,squash為激活函數(shù),vj為上層膠囊的輸出。動(dòng)態(tài)路由算法將bij的初始值設(shè)為0,這樣vj的初始值為u(j|i)的均值,通過(guò)迭代更新bij,從而更新cij與vj的值。wij為神經(jīng)網(wǎng)絡(luò)模型的參數(shù),模型通過(guò)大量的訓(xùn)練數(shù)據(jù)學(xué)習(xí)wij的值。Sabour在文中提出的膠囊網(wǎng)絡(luò)包括三層結(jié)構(gòu),分別為:卷積層、PrimaryCaps層、DigitCaps層。在本文提出的方法中,使用DigitCaps 層的輸出作為文本的局部特征矩陣。

      2.2.3 BiGRU

      雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)(BiGRU)是一種雙向的基于門(mén)控的循環(huán)神經(jīng)網(wǎng)絡(luò),由前向GRU與后向GRU組合而成。通過(guò)兩個(gè)方向的網(wǎng)絡(luò)遍歷文本,得到包含文本上下文的信息,解決了GRU 模型只能包含上文信息的問(wèn)題。GRU 模型是長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的變體。相較于LSTM,GRU 模型網(wǎng)絡(luò)結(jié)構(gòu)較簡(jiǎn)單,但效果與LSTM基本相同,大大減少了網(wǎng)絡(luò)訓(xùn)練所需的時(shí)間。循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)前時(shí)間步的輸出與前面時(shí)間步的輸出有關(guān),這使循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性,適合處理序列數(shù)據(jù)。但傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只具有短期記憶,對(duì)于長(zhǎng)距離的依賴(lài)關(guān)系效果不好,同時(shí)存在梯度爆炸或梯度消失的問(wèn)題。LSTM通過(guò)門(mén)控機(jī)制解決了上述問(wèn)題,可以學(xué)習(xí)跨度較長(zhǎng)的依賴(lài)關(guān)系。LSTM神經(jīng)元結(jié)構(gòu)如圖2所示。

      圖2 LSTM神經(jīng)元結(jié)構(gòu)圖Fig.2 LSTM neuron structure diagram

      GRU網(wǎng)絡(luò)將LSTM中輸入門(mén)和遺忘門(mén)合并,稱(chēng)為更新門(mén),這使訓(xùn)練網(wǎng)絡(luò)所需的時(shí)間大大減少。GRU 神經(jīng)元結(jié)構(gòu)如圖3所示。

      圖3 GRU神經(jīng)元結(jié)構(gòu)圖Fig.3 GRU neuron structure diagram

      在GRU 網(wǎng)絡(luò)中,更新門(mén)控制當(dāng)前時(shí)刻的隱狀態(tài)狀態(tài)ht中保留多少歷史時(shí)刻的隱狀態(tài)和當(dāng)前時(shí)刻的候選狀態(tài)。重置門(mén)的作用是決定當(dāng)前時(shí)刻的候選狀態(tài)h′t與上一時(shí)刻的隱狀態(tài)之間的依賴(lài)程度。

      xt為當(dāng)前時(shí)刻的輸入,ht-1為上一時(shí)刻的隱狀態(tài),為當(dāng)前時(shí)刻的候選狀態(tài),ht為當(dāng)前時(shí)刻的隱狀態(tài),yt為當(dāng)前時(shí)刻輸出。公式(8)為更新門(mén)的計(jì)算公式,公式(9)為重置門(mén)的計(jì)算公式。

      在GRU 網(wǎng)絡(luò)中信息只能單向傳遞,但在實(shí)際中每個(gè)單詞可能與上下文中的單詞都有依賴(lài)關(guān)系,使用BiGRU 網(wǎng)絡(luò)通過(guò)兩個(gè)方向的網(wǎng)絡(luò)訓(xùn)練文本,使得模型的效果更好,BiGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。本文提出的方法使用BiGRU網(wǎng)絡(luò)的輸出作為文本的全局特征矩陣[24]。

      圖4 BiGRU網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 BiGRU network structure diagram

      2.3 特征矩陣分析判斷模塊

      將兩個(gè)文本的局部特征矩陣與全局特征矩陣分別進(jìn)行相似度計(jì)算,得到局部特征的相似度矩陣E1和全局的相似度矩陣E2。其中E1和E2的計(jì)算方法相同,這里介紹E1的計(jì)算方法。假設(shè)兩個(gè)文本的局部特征分別為S1和S2,E1計(jì)算公式如下:

      為相似度矩陣第i行第j列元素,為S1的第i行,為S2的第j行。在得到相似度矩陣后將兩個(gè)相似度矩陣展平并連接。將融合后的相似度向量作為全連接層的輸入,將全連接網(wǎng)絡(luò)輸出與softmax 分類(lèi)器連接。使用softmax分類(lèi)器判別兩個(gè)文本是否相似。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集

      為了評(píng)估模型在文本相似度任務(wù)上的表現(xiàn),本文使用了Quora Question Pairs 數(shù)據(jù)集和MRPC(Microsoft Research Paraphrase Corpus)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

      Quora Question Pairs數(shù)據(jù)集包含404 000個(gè)句子對(duì),相似的句子對(duì)標(biāo)簽為1,否則為0。在本文的實(shí)驗(yàn)中將數(shù)據(jù)集進(jìn)行分割,80%作為訓(xùn)練集,10%作為測(cè)試集,10%作為驗(yàn)證集。MRPC(Microsoft Research Paraphrase Corpus)數(shù)據(jù)集包括4 076個(gè)訓(xùn)練樣本和1 725個(gè)測(cè)試樣本,相似的句子對(duì)標(biāo)簽為1,否則為0。

      3.2 實(shí)驗(yàn)設(shè)置

      本文進(jìn)行的實(shí)驗(yàn)基于keras框架實(shí)現(xiàn),使用Adam優(yōu)化器,在Quora Question Pairs 數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)?zāi)P蛥?shù)設(shè)置如表1所示。

      表1 實(shí)驗(yàn)參數(shù)設(shè)置Table 1 Experimental parameter settings

      3.3 評(píng)價(jià)指標(biāo)

      本文實(shí)驗(yàn)的性能評(píng)價(jià)指標(biāo)主要包括:準(zhǔn)確率、精確率、召回率、F1值。設(shè)TP為將正確類(lèi)預(yù)測(cè)為正確類(lèi)的個(gè)數(shù);TN 為將錯(cuò)誤類(lèi)預(yù)測(cè)為錯(cuò)誤類(lèi)的個(gè)數(shù);FP 為將錯(cuò)誤類(lèi)預(yù)測(cè)為正確類(lèi)的個(gè)數(shù);FN 為將正確類(lèi)預(yù)測(cè)為錯(cuò)誤類(lèi)的個(gè)數(shù)。評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

      3.4 實(shí)驗(yàn)結(jié)果分析

      驗(yàn)證本文提出方法的有效性,本文進(jìn)行了三個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)(1)與深度學(xué)習(xí)領(lǐng)域主流模型進(jìn)行對(duì)比實(shí)驗(yàn);實(shí)驗(yàn)(2)與其他論文中提出方法進(jìn)行對(duì)比實(shí)驗(yàn);實(shí)驗(yàn)(3)改變capsule網(wǎng)絡(luò)迭代次數(shù)進(jìn)行對(duì)比實(shí)驗(yàn);實(shí)驗(yàn)(4)在兩個(gè)數(shù)據(jù)集上測(cè)試模型表現(xiàn)。

      實(shí)驗(yàn)(1)中選取深度學(xué)習(xí)領(lǐng)域主流的模型進(jìn)行比較實(shí)驗(yàn),包括:LSTM、BiLSTM、capsule、GRU、BiGRU、Siamese-capsule、Siamese-BiGRU、capsule-BiGRU,使用上述模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

      表2 實(shí)驗(yàn)(1)數(shù)據(jù)結(jié)果Table 2 Experimen(t1)data results %

      從表2 中可以看出,與傳統(tǒng)的CNN、LSTM 網(wǎng)絡(luò)相比,本文提出的模型在文本相似度任務(wù)中表現(xiàn)更好。GRU網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)在任務(wù)中的表現(xiàn)基本相同,但在相同的網(wǎng)絡(luò)規(guī)模,訓(xùn)練GRU 網(wǎng)絡(luò)所需時(shí)間遠(yuǎn)小于訓(xùn)練LSTM 網(wǎng)絡(luò)。通過(guò)對(duì)比capsule 與Siamese-capsule,BiGRU 與Siamese-BiGRU 的表現(xiàn)發(fā)現(xiàn),Siamese-BiGRU 網(wǎng)絡(luò)相較于BiGRU網(wǎng)絡(luò),準(zhǔn)確率提升了2.52個(gè)百分點(diǎn),精確率提升了2.99 個(gè)百分點(diǎn),召回率提升了1.31 個(gè)百分點(diǎn),F(xiàn)1值提升了2.19個(gè)百分點(diǎn)。Siamese-capsule網(wǎng)絡(luò)相較于capsule網(wǎng)絡(luò),準(zhǔn)確率提升了1.88個(gè)百分點(diǎn),精確率提升了3.63 個(gè)百分點(diǎn),F(xiàn)1 值提升了1.78 個(gè)百分點(diǎn)。從中可以發(fā)現(xiàn)孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以有效地提高模型的表現(xiàn)。本文提出的方法在準(zhǔn)確率、精確率、召回率、F1值上的表現(xiàn)都優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型。相較于傳統(tǒng)的LSTM模型準(zhǔn)確率提高了6.08個(gè)百分點(diǎn),F(xiàn)1值提高了4.49個(gè)百分點(diǎn)。

      實(shí)驗(yàn)(2)中將本文提出方法與其他論文所提方法進(jìn)行比較,對(duì)比結(jié)果如表3所示。

      表3 實(shí)驗(yàn)(2)數(shù)據(jù)結(jié)果Table 3 Experimen(t2)data results %

      通過(guò)比較可以發(fā)現(xiàn),本文提出的方法相較于文獻(xiàn)[20]提出的模型準(zhǔn)確率提高了1.58 個(gè)百分點(diǎn)、F1 值提高了3.75個(gè)百分點(diǎn)。相較于文獻(xiàn)[25]提出的模型準(zhǔn)確率提高了0.66個(gè)百分點(diǎn),F(xiàn)1值提高了1.67個(gè)百分點(diǎn),該模型使用了6層堆疊的BiLSTM網(wǎng)絡(luò),模型較為復(fù)雜,訓(xùn)練所需時(shí)間較長(zhǎng)。

      實(shí)驗(yàn)(3)中改變capsule 網(wǎng)絡(luò)中動(dòng)態(tài)路由算法迭代次數(shù)做對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

      表4 實(shí)驗(yàn)(3)數(shù)據(jù)結(jié)果Table 4 Experimen(t3)data results %

      基于上述實(shí)驗(yàn)結(jié)果可知,動(dòng)態(tài)路由算法迭代次數(shù)對(duì)capsule網(wǎng)絡(luò)有一定影響。隨著迭代次數(shù)的增加,訓(xùn)練模型所需時(shí)間不斷增加。當(dāng)動(dòng)態(tài)路由算法迭代次數(shù)設(shè)置為3時(shí),模型有較好的表現(xiàn)且訓(xùn)練時(shí)間為198 min,迭代次數(shù)超過(guò)3次后,模型表現(xiàn)逐漸下降。在本文的其他實(shí)驗(yàn)中膠囊網(wǎng)絡(luò)動(dòng)態(tài)路由迭代次數(shù)設(shè)置為3,以獲得更好的表現(xiàn)。

      由于MRPC 數(shù)據(jù)集樣本較少,所以調(diào)整了Dropout參數(shù)為0.1,其他模型參數(shù)不做調(diào)整。在表5 中可以看出,模型在Quora Question Pairs 數(shù)據(jù)集上表現(xiàn)更加出色,主要是因?yàn)镼uora Question Pairs 數(shù)據(jù)集中的樣本數(shù)量更多,模型訓(xùn)練更加完善,說(shuō)明本文提出的模型的表現(xiàn)比較依賴(lài)于數(shù)據(jù)集中樣本的數(shù)量。

      表5 實(shí)驗(yàn)(4)數(shù)據(jù)結(jié)果Table 5 Experimen(t4)data results %

      4 結(jié)束語(yǔ)

      針對(duì)文本相似度任務(wù),本文提出基于capsule-BiGRU的文本相似度分析方法。capsule 網(wǎng)絡(luò)可以有效地提取文本的局部特征向量,BiGRU 網(wǎng)絡(luò)使用雙向的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)從兩個(gè)方向遍歷整個(gè)文本,從而有效地提取上下文信息得到文本的全局特征矩陣,對(duì)兩個(gè)文本的特征矩陣進(jìn)行相似度分析,判斷文本是否相似。實(shí)驗(yàn)表明本文提出的方法對(duì)文本相似度任務(wù)而言有更好的效果,同時(shí)模型的表現(xiàn)比較依賴(lài)于數(shù)據(jù)集中樣本的數(shù)量。

      猜你喜歡
      膠囊向量單詞
      Shugan Jieyu capsule (舒肝解郁膠囊) improve sleep and emotional disorder in coronavirus disease 2019 convalescence patients: a randomized,double-blind,placebo-controlled trial
      向量的分解
      Shumian capsule(舒眠膠囊)improves symptoms of sleep mood disorder in convalescent patients of Corona Virus Disease 2019
      聚焦“向量與三角”創(chuàng)新題
      單詞連一連
      看圖填單詞
      看完這些單詞的翻譯,整個(gè)人都不好了
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      聚焦“毒膠囊”
      仙游县| 新野县| 新竹县| 金山区| 台前县| 南乐县| 平潭县| 荃湾区| 石家庄市| 志丹县| 锡林郭勒盟| 桐柏县| 邵东县| 枣阳市| 石狮市| 永胜县| 山阴县| 荥阳市| 新密市| 沅江市| 龙门县| 常山县| 崇仁县| 聂拉木县| 东源县| 浮山县| 济南市| 龙州县| 鄂尔多斯市| 广东省| 邓州市| 湘阴县| 吉水县| 沙坪坝区| 忻州市| 玉环县| 襄汾县| 巴青县| 嘉义市| 临澧县| 固安县|