• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      聯(lián)合注意力機(jī)制與MatchPyramid的文本相似度分析算法

      2022-10-18 01:02:58孫海春朱容辰孫天楊
      計算機(jī)工程與應(yīng)用 2022年19期
      關(guān)鍵詞:特征提取注意力卷積

      代 翔,孫海春,朱容辰,孫天楊

      中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038

      文本相似度計算是自然語言處理領(lǐng)域的核心技術(shù)之一,在自動問答系統(tǒng)、信息檢索、自動文本摘要、文本分類等自然語言處理的任務(wù)中都有著廣泛的應(yīng)用[1]。隨著深度學(xué)習(xí)的迅速發(fā)展,文本相似度計算方法層出不窮,孿生網(wǎng)絡(luò)結(jié)構(gòu)是文本相似度計算常采取的一種網(wǎng)絡(luò)結(jié)構(gòu),將兩個文本分別輸入到兩個子網(wǎng)絡(luò)中,子網(wǎng)絡(luò)常采用卷積神經(jīng)網(wǎng)絡(luò)或者長短期記憶網(wǎng)絡(luò),通過這兩個獨立的子網(wǎng)絡(luò)分別對兩個文本進(jìn)行特征提取,然后將子網(wǎng)絡(luò)輸出的特征向量采用曼哈頓距離等距離度量方法進(jìn)行計算即得到兩個文本的相似度得分。這種以孿生網(wǎng)絡(luò)為主體的文本相似度計算方法,善于捕獲單文本內(nèi)部的特征,但文本之間沒有產(chǎn)生交互,因而完全忽略了文本之間的關(guān)聯(lián)信息。之后,注意力機(jī)制被引入到文本相似度計算當(dāng)中用來建模文本之間的交互信息,例如給定以下兩個文本:

      A:He said the foodservice pie business doesn’t fit the company’s long-term growth strategy.

      B:The foodservice pie business does not fit our long-term growth strategy.

      當(dāng)對A 句中“foodservice”進(jìn)行編碼時,注意力機(jī)制可以使我們看到B句中各個單詞對“foodservice”的影響力,影響力越高,對A句中“foodservice”進(jìn)行編碼的過程中貢獻(xiàn)度就越大。通過這種方式,使兩個文本在編碼過程中融入彼此的信息從而產(chǎn)生交互。MatchPyramid 模型提出一種新穎的交互方式,其在編碼過程中使兩個文本詞向量矩陣進(jìn)行點積,將兩個文本融合為圖的模式。接著使用卷積神經(jīng)網(wǎng)絡(luò)對該二維圖進(jìn)行特征提取,在卷積的過程中兩個文本在不同層級的特征上產(chǎn)生信息交互。本文針對傳統(tǒng)的MatchPyramid 模型進(jìn)行改進(jìn),在輸入編碼層加入多頭自注意力機(jī)制和互注意力機(jī)制增強(qiáng)對文本內(nèi)部特征和文本間關(guān)聯(lián)特征的表達(dá)。其次使用了密集連接的卷積神經(jīng)網(wǎng)絡(luò),彌補(bǔ)了模型對長距離依賴特征提取的不足,結(jié)果表明本文模型在文本相似度計算任務(wù)上表現(xiàn)更好。

      1 Related works

      早期,人們判斷兩段文本是否相似主要依賴于關(guān)鍵字匹配,這種匹配方式完全忽略了語義的影響,對于語義相似而字面差距大的文本識別效果不好。之后,人們逐漸考慮到了語義理解在文本相似度計算中的重要性,使用一系列的機(jī)器學(xué)習(xí)算法如LSA、PLSA、LDA將文本從稀疏的高維空間映射到低維語義空間,在低維語義空間計算相似度。在這一時期初步考慮到了語義,但一詞多義等問題仍是難點。Mikolov等人[2]創(chuàng)造出的word2vec模型,該模型使用大量的語料庫訓(xùn)練,不僅使單詞從過去稀疏的獨熱編碼轉(zhuǎn)換到了稠密的分布式詞向量表示方法,極大降低了單詞表示維度,也考慮到了單詞的語義。Pennington等人[3]在word2vec的基礎(chǔ)上提出了glove向量,相比word2vec 單單考慮到了單詞局部的上下文信息,glove 通過共現(xiàn)矩陣考慮到了整個語料庫的全局信息,對單詞的語義表達(dá)更充分。劉繼明等人[4]提出PO-SIF算法,將word2vec詞向量使用SIF算法轉(zhuǎn)化為句向量,然后計算句向量之間的相似度。Huang 等人[5]提出了DSSM模型,首次將神經(jīng)網(wǎng)絡(luò)模型運用到文本相似度計算當(dāng)中,DSSM 模型使用的是詞袋模型,但其提出了詞哈希技術(shù),將單詞切割為三字母表示,極大地降低了單詞向量的維度,接著將降維后的單詞向量投入到全連接神經(jīng)網(wǎng)絡(luò)中抽取相應(yīng)的語義特征。隨后,Shen 等人[6]提出了CLSM模型,該文認(rèn)為,DSSM模型采用詞袋模型忽略了文本中的詞序,文中利用滑動窗口順序取詞,然后利用詞哈希技術(shù)降維,在一定程度上考慮到了文本的位置信息。同時,在特征提取層,用卷積神經(jīng)網(wǎng)絡(luò)替代全連接神經(jīng)網(wǎng)絡(luò),通過卷積層操作融入局部上下文信息,但忽略了全局信息。后續(xù)又出現(xiàn)了LSTMDSSM[7]等模型提升對文本長距離依賴特征的提取表現(xiàn)。Hu等人[8]提出了ARC-I和ARC-II模型,ARC-I單純使用CNN 分別對文本提取特征,兩個文本之間并沒有交互。而ARC-II 模型屬于交互學(xué)習(xí)的模型,模型從兩個文本分別抽取詞向量組合起來進(jìn)行全卷積,以此加強(qiáng)對關(guān)聯(lián)特征的提取。Yin等人[9]提出了ABCNN模型,將注意力機(jī)制與CNN 相結(jié)合進(jìn)行特征表示。Wan 等人[10]提出了MV-LSTM 模型,使用雙向LSTM 對語句重編碼,然后將編碼后的句向量以多種方式進(jìn)行交互操作,最后使用k-Max 池在每個交互矩陣上提取最大信號。2016年,Liang等人[11]提出了MatchPyramid模型,該模型將兩個文本的詞向量矩陣通過點積轉(zhuǎn)化為二維圖的形式,然后使用CNN 對二維圖進(jìn)行卷積操作。Mueller 等人[12]提出了孿生LSTM 模型評估句子之間的語義相似性,將詞嵌入作為LSTMs的輸入,把句子編碼為固定大小的向量來表達(dá)句子潛在意義,然后對兩個向量計算曼哈頓距離。Parikh 等人[13]提出了可分解注意力模型,該模型將兩個句子分解成每個詞的軟對齊機(jī)制,來計算當(dāng)前文本中每個詞與另一段文本的注意力得分從而得到每個詞的加權(quán)向量,該模型強(qiáng)調(diào)單詞之間的對應(yīng)關(guān)系。Wang等人[14]提出了適用于句子匹配任務(wù)的比較聚合框架,研究了在對兩個句子向量進(jìn)行匹配過程中使用不同比較函數(shù)的效果。在2017 年,Nie 等人[15]提出了SSE 模型,在編碼層使用堆疊的雙向LSTM,同時每層Bilstm的輸入都是前面所有層輸出的連接,最后一層的輸出接最大池化形成固定向量后輸入到分類器中。Chen 等人[16]提出了ESIM 模型,該模型在編碼層使用Bilstm 對輸入詞向量在當(dāng)前語境下重編碼,接著對輸出的兩個文本向量使用注意力加權(quán),加權(quán)后的向量與原始向量采取多種方式組合。最后將生成的向量連接起來再輸入到Bilstm中進(jìn)行特征提取。Wang等人[17]提出了BIMPM模型,該模型對于孿生Bilstm 的每一步進(jìn)行交互匹配,且提出了多種匹配方式,實現(xiàn)更細(xì)粒度的交互機(jī)制。Yi等人[18]提出了MCAN模型,注意力機(jī)制通常用來關(guān)注重點信息,本文中將注意力機(jī)制視為特征提取器,將多種注意力機(jī)制視為從不同的視角提取文本特征,增強(qiáng)了文本特征表示。Chen 等人[19]提出將對抗網(wǎng)絡(luò)應(yīng)用到文本相似度建模任務(wù)上,認(rèn)為這種方式能更好的建模了兩個文本之間的共同特征。Kim等人[20]提出DRCN模型,結(jié)合密集連接和注意力機(jī)制的遞歸模型進(jìn)行文本相似度計算,文中使用5 層Bilstm 模型,每層的輸入都采用密集連接包含了之前所有層的輸出,同時為了避免密集連接機(jī)制所造成的的維度增大,引入自編碼器壓縮高維向量到固定長度,這種密集連接機(jī)制避免了底層特征的丟失。趙琪等人[21]提出膠囊網(wǎng)絡(luò)和BIGRU 的聯(lián)合模型,認(rèn)為膠囊網(wǎng)絡(luò)可以提取文本的局部特征,BIGRU 可以提取文本的全局特征,該模型在Quora數(shù)據(jù)集上準(zhǔn)確率達(dá)到86.16%。

      交互式模型能很好地建模文本之間的關(guān)聯(lián)特征,傳統(tǒng)的MatchPyramid 模型的特點決定了它在句內(nèi)特征與長距離依賴特征方面的提取還有改善的空間?;诖?,本文提出融合注意力機(jī)制的增強(qiáng)MatchPyramid 模型,多頭自注意力機(jī)制彌補(bǔ)了模型在單文本內(nèi)部特征提取的不足,互注意力機(jī)制則增強(qiáng)了對文本間交互特征的表示,同時,采用密集連接的卷積神經(jīng)網(wǎng)絡(luò)提升模型在長距離依賴特征提取上的表現(xiàn)。結(jié)果表明,本文模型在文本相似度計算任務(wù)上有更優(yōu)良的表現(xiàn)。

      2 模型架構(gòu)

      本文的模型分為輸入編碼層、特征提取層、特征分析判斷層。如圖1 所示為本文模型架構(gòu)圖。在輸入編碼層,首先使用自編碼器(autoencoder,AE)對初始詞向量降維,降維后的詞向量作為多頭自注意力和互注意力機(jī)制的輸入,通過多頭自注意力機(jī)制,可以提取到單文本的內(nèi)部語義特征,捕獲文本內(nèi)部的詞依賴關(guān)系;互注意力機(jī)制更善于提取句間特征,對兩個句子中更相似的部分給予更高的關(guān)注。本文將兩種注意力的輸出以不同形式相組合,然后將形成的多種特征與初始詞向量相連接形成新的詞向量矩陣。傳統(tǒng)的MatchPyramid 模型將兩個文本通過點積形成單通道圖的形式,本文首先將新形成兩個文本向量通過轉(zhuǎn)換矩陣映射到多個特征子空間,然后使特征子空間的文本向量對應(yīng)點積形成多通道圖作為特征提取層的輸入,相比于單通道圖輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,映射到多個特征子空間再進(jìn)行特征提取更能突出某些特征。在特征提取層相比于傳統(tǒng)的MatchPyramid 模型,本文使用了密集連接的卷積神經(jīng)網(wǎng)絡(luò),使底層特征能夠傳遞到最高層,避免了特征信息的丟失。本文的密集連接卷積神經(jīng)網(wǎng)絡(luò)分為3個DenseBlock,其中前2 個DenseBlock 包含4 個卷積模塊,第3 個DenseBlock 包含2 個卷積模塊。每個卷積模塊都包括Batch Normalization 層、卷積層、ReLU 層,其中最后一個卷積模塊增加池化層進(jìn)行特征降維。本文池化層聯(lián)合平均池和最大池進(jìn)行組合池化。在特征分析判斷層,本文的分類器是一個多層感知機(jī)(multilayer perceptron,MLP),由兩個全連接神經(jīng)網(wǎng)絡(luò)組成,網(wǎng)絡(luò)間加入ReLU 激活函數(shù)和batch normalization 層,最后使用Sigmoid函數(shù)進(jìn)行二分類。

      2.1 輸入編碼層

      2.1.1 自編碼器

      在輸入編碼層,不像之前的模型直接使用注意力加權(quán)后的詞向量矩陣代替初始的glove詞向量矩陣作為后續(xù)網(wǎng)絡(luò)的輸入。本文將多頭自注意力機(jī)制與互注意力機(jī)制的輸出以多種形式組合并與原始300 維預(yù)訓(xùn)練的glove向量相連接作為后續(xù)網(wǎng)絡(luò)的輸入。假如直接將多個詞向量矩陣按照圖1模式相連接,那么詞向量的維度將達(dá)到1 500 維,極大地增加模型運行時間。因此為防止詞向量長度過大造成計算量的急劇上升,本文增加了自編碼器用于降低維度。本文的自編碼器只包含編碼層,去除了解碼層,使用自編碼器將300維glove向量壓縮到64 維,然后將降維后的詞向量作為多頭自注意力機(jī)制和互注意力機(jī)制的輸入,這極大地降低了注意力層的計算量。

      圖1 總體模型架構(gòu)Fig.1 Overall model architecture

      2.1.2 多頭自注意力機(jī)制

      在公式(4)中,將h次注意力機(jī)制的結(jié)果按照維度dv進(jìn)行拼接后,通過W0進(jìn)行線性變換得到的結(jié)果即為最終的多頭注意力。

      本文多頭自注意力機(jī)制的輸入為經(jīng)自編碼器壓縮過的詞向量矩陣,因此輸入輸出的詞向量長度均為64維。

      2.1.3 互注意力機(jī)制

      文本相似度建模是基于雙文本,因此既要考慮單文本內(nèi)部的依賴特征,也要關(guān)注文本之間的關(guān)聯(lián)特征。將預(yù)訓(xùn)練的300 維Glove 向量輸入到自編碼器,向量長度被壓縮到64 維,然后將壓縮后的向量輸入互注意力機(jī)制中,公式(5)和(6)表示輸入的兩個壓縮后的詞向量矩陣P2和Q2,對P2中的任何一個單詞,要衡量其與Q2中每個單詞間的相關(guān)程度。這在現(xiàn)實中具有很好的解釋性,在判斷兩個語句之間的相似性時,兩個語句的單詞之間相關(guān)程度并不是一致的,更要關(guān)注重點信息。為了計算pi對Q2的注意力,首先根據(jù)公式(7)計算出pi與Q2中每個單詞之間的相關(guān)程度,然后將所有得到的值使用公式(8)歸一化即得到pi與Q2之間每個單詞的注意力權(quán)重,最后根據(jù)公式(9)使用注意力權(quán)重對Q2的每個詞向量加權(quán)求和即得到最終的pi對Q2的注意力值。

      在得到多頭自注意力與互注意力的輸出后,不像以往的模型直接使用注意力的輸出作為后續(xù)網(wǎng)絡(luò)的輸入,本文將注意力的輸出以多種方式組合并與底層的詞向量相連接。以文本P(文本Q類似)為例,本文計算互注意力和多頭自注意力之間的差值以及二者之間的元素點積,如公式(10)將注意力機(jī)制的輸出、差值、元素點積的結(jié)果與原始的300 維Glove 向量相連接,得到的詞向量為556維,認(rèn)為這樣能夠更好地對文本進(jìn)行表示。

      圖2 單頭注意力計算過程Fig.2 Calculation process of single head attention

      2.1.4 多通道映射

      傳統(tǒng)的MatchPyramid 模型將兩個文本的詞向量矩陣通過點積形成單通道二維圖的形式,圖中的每個像素點即為兩個單詞的詞向量點積后得到的實數(shù)值。本文提出將兩個文本的詞向量矩陣映射到多個表示子空間中,由公式(11)生成初始化三維張量M,其中mi的維度與輸入的詞向量矩陣的維度一致,均為seq_len×embed_size,l代表要映射的通道數(shù),具體來說對于輸入的詞向量矩陣P5和Q5而言,根據(jù)公式(12)將詞向量矩陣P5與M進(jìn)行元素點積,最終將詞向量矩陣映射到20個特征子空間中,對Q5進(jìn)行同樣的操作。

      經(jīng)多通道映射后得到的P6和Q6的形狀為l×seq_len×embed_size,將二者做點積,形成多通道二維圖的形式,形狀為l×seq_len×seq_len,其中某單通道二維圖的像素點即代表在該表示子空間下兩個單詞的詞向量點積后得到的實數(shù)值。該多通道二維圖即為后續(xù)特征提取層的輸入。

      2.2 特征提取層

      傳統(tǒng)的MatchPyramid 模型在特征提取層將兩個文本詞向量矩陣經(jīng)點積后形成的單通道二維圖直接輸入到多層CNN中進(jìn)行特征提取,依靠CNN層的堆疊雖然能在一定程度上加強(qiáng)對文本長距離特征的提取,但是也在一定程度上造成了底層特征的損失。本文在特征提取層使用密集連接的CNN,通過密集連接的方式將底層的特征傳遞到頂層的卷積層。這種將不同卷積層的特征圖相連接的方式,可以實現(xiàn)特征重用,既使模型能夠提取文本長距離依賴特征,又減少了底層特征的損失。如圖3 所示,特征提取層主要由3 個DenseBlock 組成,其中前2個DenseBlock均包含4個卷積模塊,最后1個DenseBlock 由2 個卷積模塊組成。其中每個卷積模塊都包含batch normalization層、卷積層、ReLU層,最后一個卷積模塊添加池化層用于對特征圖降維。

      圖3 特征提取層流程圖Fig.3 Flow chart of feature extraction layer

      Batch normalization層在本文的網(wǎng)絡(luò)中發(fā)揮很大的作用,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練十分復(fù)雜,每層網(wǎng)絡(luò)的一個很細(xì)微的變化通過層層傳遞,就會逐漸被放大,當(dāng)我們對初始層的輸入進(jìn)行歸一化的處理后,數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)的隱藏層的變換會導(dǎo)致深度模型中間層網(wǎng)絡(luò)的輸入數(shù)據(jù)的分布不斷變化,然后網(wǎng)絡(luò)去不斷地調(diào)整以適應(yīng)這種新的數(shù)據(jù)分布,從而影響到訓(xùn)練速度。中間層網(wǎng)絡(luò)輸入數(shù)據(jù)分布的變化引起后續(xù)網(wǎng)絡(luò)數(shù)據(jù)分布的改變,這種神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中中間層數(shù)據(jù)分布的變化也被稱為內(nèi)部協(xié)方差偏移。batch normalization 是歸一化網(wǎng)絡(luò)層,在卷積層前添加batch normalization 層可以使每層卷積網(wǎng)絡(luò)的輸入數(shù)據(jù)分布保持穩(wěn)定,從而使網(wǎng)絡(luò)快速收斂,并且有利于提高網(wǎng)絡(luò)的泛化能力。

      對于batch normalization層的具體計算是針對每一批數(shù)據(jù)進(jìn)行的,首先根據(jù)公式(13)計算出每批數(shù)據(jù)的均值,m代表batch_size:

      但是如果單純的將每層網(wǎng)絡(luò)的輸入數(shù)據(jù)做歸一化處理,那么上層網(wǎng)絡(luò)所學(xué)習(xí)到的特征分布就會被破壞。因此,為了保留上層網(wǎng)絡(luò)學(xué)習(xí)到的特征分布,batch normalization 算法在對批數(shù)據(jù)歸一化處理后加入了變換重構(gòu),如公式(16),其中γ和β是可學(xué)習(xí)參數(shù),從該公式中可以看出,當(dāng)γ與β的值接近于批標(biāo)準(zhǔn)差和均值時,特征分布就會被還原,從而起到恢復(fù)特征分布的作用。

      本文特征提取層的輸入數(shù)據(jù)的形狀為batch_size×l×seq_len×seq_len,l代表輸入通道數(shù)。在本文的Denseblock模塊中,每一個卷積模塊的輸入都會采取密集連接的機(jī)制,根據(jù)公式(17)將前面所有卷積模塊的輸出都連接起來作為本層卷積模塊的輸入,其中函數(shù)Hl是卷積模塊中batch normalization 層、卷積層、ReLU 層、池化層一系列操作的組合,xl代表每一個卷積模塊的輸出。

      2.3 特征分析判斷層

      在特征分析判斷層將特征提取層最終輸出的特征圖展平然后輸入到分類器中。該層主要包含一個多層感知器,由兩層全連接神經(jīng)網(wǎng)絡(luò)組成,在每層全連接神經(jīng)網(wǎng)絡(luò)前添加batch normalization層對輸入數(shù)據(jù)做歸一化處理,最后使用Sigmoid 函數(shù)進(jìn)行二分類從而判斷出兩個文本是否相似。損失函數(shù)本文使用的是二分類交叉熵?fù)p失函數(shù)。

      3 實驗結(jié)果與分析

      3.1 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集為Quora Question Pairs[17],該數(shù)據(jù)集包含多個字段,囊括了問題對的序號以及標(biāo)識問題對是否具有相同的含義的序號,1代表問題對具有相同釋義,0 代表該問題對之間無關(guān)聯(lián)。數(shù)據(jù)集一共包含404 000 個問題對,將其劃分為訓(xùn)練集、驗證集和測試集,其中訓(xùn)練集包括384 000條數(shù)據(jù),驗證集和測試集各10 000 條數(shù)據(jù)。本文在數(shù)據(jù)處理方面,去除了停用詞,句子最大長度設(shè)置為40 個字符,長度不足40 個字符的則補(bǔ)齊,超過40個字符的句子則截取前40個字符。

      3.2 實驗設(shè)置

      本文使用預(yù)訓(xùn)練的300維Glove向量做初始化詞嵌入,對于未登錄詞隨機(jī)初始化。優(yōu)化器選擇Adam,超參數(shù)設(shè)置方面,學(xué)習(xí)率設(shè)置為0.001,batch_size 設(shè)置為64,epoch 設(shè)置為20。本文的實驗環(huán)境為:pytorch1.6.0,python3.6.9。

      3.3 評價指標(biāo)

      文本相似度計算屬于二分類任務(wù),兩個文本若被判斷為相似則分類為1,不相似便被分類為0。對此,本文使用準(zhǔn)確率、精確率、召回率、F1值和Auc值來評價模型的好壞。

      準(zhǔn)確率,即預(yù)測結(jié)果中正確預(yù)測的樣本占所有預(yù)測結(jié)果的比重:

      3.4 實驗結(jié)果及分析

      針對本文提出的模型,實施了4 個實驗進(jìn)行驗證:(1)將本文的模型其他的一些基準(zhǔn)模型進(jìn)行對比;(2)進(jìn)行消融實驗,探索模型各部分是否發(fā)揮積極作用;(3)對密集連接的卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)進(jìn)行了探索;(4)探討了BN層的位置對本文模型的影響。

      如表1所示,在Quora Question Pairs數(shù)據(jù)集上將本文模型與其他文章中所提出的模型進(jìn)行對比,相比于文獻(xiàn)[11]提出的MatchPyramid 模型,文獻(xiàn)[22]提出的聯(lián)合孿生LSTM網(wǎng)絡(luò)在準(zhǔn)確率和F1值上均有所提升。傳統(tǒng)的MatchPyramid 模型,將兩段文本的詞向量矩陣通過點乘形成二維圖,在此過程中,兩段文本已經(jīng)進(jìn)行了初次交互,而后續(xù)利用多層卷積神經(jīng)網(wǎng)絡(luò)對該二維圖進(jìn)行特征提取,能夠獲得文本短語特征、語法和語義等高階特征。文獻(xiàn)[22]提出的模型,在MatchPyramid模型的基礎(chǔ)上,通過利用LSTM 的長期記憶性,從而保留了一些文本內(nèi)長距離依賴特征,因此效果要好于傳統(tǒng)的Match-Pyramid 模型。而相比于以上所提出的模型,本文的模型在輸入編碼層融合了多頭自注意力機(jī)制和互注意力機(jī)制,自注意力機(jī)制相比于LSTM 網(wǎng)絡(luò),不僅能夠提取出文本全局特征,而且更能銳化關(guān)鍵特征,充分表示出單文本內(nèi)部的特征依賴,而互注意力機(jī)制通過對兩段文本進(jìn)行交互加權(quán),進(jìn)一步加強(qiáng)了文本間交互特征的表示,最后將點積形成的單通道圖映射到多個表示子空間,以豐富特征表達(dá)。在特征提取層本文采取了密集連接的卷積神經(jīng)網(wǎng)絡(luò),將底層邊緣特征與高階特征相結(jié)合,避免了特征損失,最終本文的模型準(zhǔn)確率達(dá)到86.62%,F(xiàn)1值達(dá)到86.93%,相比前文所提到的模型有所提升。

      表1 基準(zhǔn)模型對比Table 1 Comparison of benchmark models單位:%

      如表2所示,本文對模型各部分發(fā)揮的作用做出了定量的分析,將注意力機(jī)制的結(jié)果與原始詞向量相連接,會使詞向量表示能力更加健壯,從而對模型的性能產(chǎn)生影響。特征映射將形成的單通道圖映射到多個表示子空間,豐富了底層的特征表示,同時在密集連接的卷積神經(jīng)網(wǎng)絡(luò)中,特征映射的通道數(shù)會對后續(xù)多層卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)造成較大影響。

      表2 消融實驗對比Table 2 Comparison of ablation experiments單位:%

      BN層在每個卷積層和最終的全連接層都發(fā)揮著作用,一方面,提高網(wǎng)絡(luò)的收斂速度,另一方面,在一定程度上抑制模型的過擬合,提高模型的泛化能力,因此當(dāng)去除了所有的BN層后,模型的過擬合現(xiàn)象比較嚴(yán)重,使得模型的效果更差。最后,可以看出dense 網(wǎng)絡(luò)對模型的提升效果并不太好,原因在于實驗中為了提高模型的運行速度,本文模型在加深模型深度的同時,降低了卷積層的通道數(shù),從而減少了模型的參數(shù)量,不可避免地削弱了特征提取層的表征能力,使得dense 網(wǎng)絡(luò)對模型的提升效果不明顯。

      在特征提取層,本文采取了密集連接的卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)的增加能使模型提取更高層次的特征,但盲目的增加網(wǎng)絡(luò)層數(shù),一方面過深的網(wǎng)絡(luò)也會導(dǎo)致模型過擬合,另一方面過深的網(wǎng)絡(luò)會引起參數(shù)量的急劇增長,從而加劇了模型時間復(fù)雜度。因此,選取適當(dāng)?shù)木W(wǎng)絡(luò)層數(shù)也是本文需要探索的目標(biāo)。如表3 所示給出了不同深度的卷積層下模型的效果,可以看出當(dāng)層數(shù)為10時最合適。

      表3 不同卷積層數(shù)實驗對比Table 3 Experimental comparison of different convolution layers 單位:%

      將BN層置于卷積層之后,激活層之前,可以使卷積層的輸出落在激活函數(shù)的非飽和區(qū)從而緩解梯度爆炸或梯度消失的問題。本文測試了將BN層分別置于卷積層前后的效果,如表4所示BN層位于卷積層之前效果更好,原因在于本文的密集連接在每個卷積層的輸入都會接受到其他層的輸出,因此若將BN層置于卷積模塊中卷積層之后激活層之前,那么歸一化的效果只會作用于當(dāng)前層的輸出,然而下一層網(wǎng)絡(luò)的輸入是之前所有層的輸出相連接,因此BN層歸一化的效果被極大的削弱了,所以對于本文而言,將BN層置于卷積層之前效果更好。

      表4 BN層位置對比Table 4 Comparison of ablation experiments單位:%

      4 結(jié)束語

      本文對傳統(tǒng)的MatchPyramid 模型進(jìn)行了改進(jìn),通過多頭自注意力機(jī)制和互注意力機(jī)制,彌補(bǔ)了傳統(tǒng)的MatchPyramid 模型對單文本內(nèi)特征和雙文本間依賴特征提取的不足,采取多通道映射將單通道圖映射到多個表示子空間豐富了特征表達(dá),也能對關(guān)鍵特征起到銳化作用。接著使用密集連接的卷積神經(jīng)網(wǎng)絡(luò)使得底層特征能夠參與到最終的分類決策當(dāng)中,避免了特征損失。實驗結(jié)果表明,本文提出的模型在文本相似度計算任務(wù)上效果很好。

      猜你喜歡
      特征提取注意力卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      Bagging RCSP腦電特征提取算法
      A Beautiful Way Of Looking At Things
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      登封市| 长子县| 疏勒县| 四川省| 阿勒泰市| 新郑市| 灵璧县| 临江市| 孟村| 宁晋县| 盘山县| 自贡市| 珠海市| 册亨县| 肇源县| 孝昌县| 华容县| 巩义市| 临武县| 崇州市| 淮南市| 博兴县| 密山市| 苏州市| 兴安盟| 钦州市| 芮城县| 策勒县| 中西区| 富裕县| 龙陵县| 巴彦淖尔市| 交城县| 长春市| 成武县| 辉南县| 武夷山市| 清徐县| 镇雄县| 京山县| 临泉县|