BSLA：改進(jìn)Siamese-LSTM的文本相似模型

2022-12-06 10:32:34孟金旭單鴻濤萬俊杰賈仁祥

計(jì)算機(jī)工程與應(yīng)用 2022年23期

孟金旭，單鴻濤，萬俊杰，賈仁祥

上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院，上海 201620

互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展帶來了海量的文本數(shù)據(jù)，這些海量的文本數(shù)據(jù)通常包含著有用的相似信息，文本相似算法可以提取里面的相似信息，并將這些相似信息應(yīng)用在搜索引擎[1]、問答系統(tǒng)[2]、文本摘要[3]等方面上。

文本相似度通常指的是對(duì)比兩個(gè)文本的語義相似程度來判斷它們表達(dá)的意思是否一致。例如，句子1“手機(jī)看漫畫用什么軟件”和句子2“用手機(jī)什么軟件能看漫畫”都表達(dá)了看漫畫需要使用什么樣的手機(jī)軟件的意思，是相似文本，而句子3“求《黑虎》這部電影”和句子4“求筷子兄弟微電影《父親》”，雖然都表達(dá)的是尋求一部電影，但是這里面表達(dá)的是尋求不同的電影，不是相似文本。文本相似度的計(jì)算方法有很多，傳統(tǒng)的文本相似度計(jì)算方法有余弦值計(jì)算[4]（cosine similarity）、N-Gram[5]、VSM（vector space model）[6]和Jaccard相似度[7]等計(jì)算方法。這些傳統(tǒng)的文本相似度計(jì)算方法存在著人工耗費(fèi)量大、模型對(duì)語義相似處理能力差和泛化能力差等缺點(diǎn)。后來，隨著深度學(xué)習(xí)的快速發(fā)展，國內(nèi)外很多研究學(xué)者將深度學(xué)習(xí)的方法運(yùn)用到文本相似度計(jì)算中，卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）[8]可以提取文本的局部特征信息，Shen等[9]在DSSM[10]模型中引進(jìn)了CNN網(wǎng)絡(luò)，提出了CNN-DSSM文本相似模型。長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM（long short-term memory networks）[11]可以提取長序列文本的特征信息，得到文本的全局特征信息，解決了CNN不能提取的全局特征的缺陷，Palangi等[12]基于LSTM網(wǎng)絡(luò)提出了Siamese-LSTM文本相似模型，Wang等[13]在BiLSTM[14]網(wǎng)絡(luò)的基礎(chǔ)上提出了BiMPM文本相似模型GRU（gated recurrent unit）[15]比LSTM訓(xùn)練參數(shù)更少，同時(shí)還保持效果不變，受到很多研究學(xué)者的喜愛，趙琪等[16]基于BiGRU和膠囊網(wǎng)絡(luò)（capsule）提出了capsule-BiGRU的文本相似度模型，方炯焜等[17]結(jié)合GRU和Glove[18]提出了一種文本分類模型。注意力機(jī)制可以提取相似文本的某些重要特征，提高模型對(duì)相似文本的判別能力，Yin等[19]綜合了CNN和注意力Attention[20]機(jī)制提出了ABCNN文本相似模型，Chen等[21]綜合BiLSTM和注意力機(jī)制提出了ESIM文本相似模型。

傳統(tǒng)的文本相似方法采用的是one-hot、TF-IDF等詞向量方法，這些詞向量存在著不能考慮文本中不同詞之間的聯(lián)系，同時(shí)還有詞向量特征維度爆炸等缺陷，后來，隨著深度學(xué)習(xí)的預(yù)訓(xùn)練詞向量得到快速發(fā)展，詞向量的維度可以被處理成從高維降到低維，避免了高維爆炸，同時(shí)也保留了更多的語義信息。2013年Mikolov等[22]提出了word2vec詞向量表示模型，實(shí)現(xiàn)了詞向量由高維到低維的轉(zhuǎn)換，Pennington等[18]通過語料庫構(gòu)建單詞的共現(xiàn)矩陣提出了Glove模型，上面這些模型的詞向量都為靜態(tài)詞向量，詞向量始終是固定的，無法解決一詞多義問題。后來Peters等[23]提出了ELMO模型，Radford等[24]提出了GPT模型，Devlin等[25]提出了BERT模型，這些模型生成的詞向量是動(dòng)態(tài)的詞向量，而且效果越來越好，很好地解決了一詞多義問題。

本文改進(jìn)了Siamese-LSTM文本相似模型，在Siamese-LSTM模型引入注意力機(jī)制和BERT模型，提出了一種混合文本匹配模型（BSLA模型），BERT模型作為BSLA模型的最低端，用來對(duì)輸入的文本詞向量編碼處理，從而加強(qiáng)文本中不同詞之間的交互能力，注意力機(jī)制位于整個(gè)模型的輸出端，對(duì)語義相關(guān)的詞向量特征分配更高的分值，從而對(duì)相似文本提高識(shí)別能力。

1 相關(guān)理論

1.1 自注意力機(jī)制

注意力機(jī)制是一種查詢機(jī)制，即通過查詢query搜索鍵值對(duì)＜key，value＞，其計(jì)算公式為：

為了防止在計(jì)算過程中向量維度過高致使點(diǎn)乘結(jié)果過大而形成的梯度過小問題，在自注意力機(jī)制中增加了縮放因子其計(jì)算公式為：

其中Q、K、V為上述query、key、value向量對(duì)應(yīng)構(gòu)成的矩陣，key和value的維度分別用dk和dv表示。

1.2 多頭注意力

圖1所示為多頭注意力（multi-headed attention）框架圖[26]，首先對(duì)三個(gè)矩陣Q、K、V進(jìn)行線性變換，然后送入到縮放點(diǎn)積注意力中進(jìn)行h次運(yùn)算，最后將運(yùn)算結(jié)果做拼接操作和線性變換操作得到最終結(jié)果，計(jì)算公式表示如下：

圖1 多頭注意力框架Fig.1 Multi-head attention architecture

1.3 LSTM網(wǎng)絡(luò)

長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM[11]是循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）的一種變體，能夠提取長間隔的文本序列特征，還可以避免RNN網(wǎng)絡(luò)出現(xiàn)的梯度消失問題。LSTM單元結(jié)構(gòu)如圖2所示，LSTM由遺忘門ft、輸入門it和輸出門ot三個(gè)門組成，通過門結(jié)構(gòu)控制信息的刪除與添加。其中ft決定從上一時(shí)刻的細(xì)胞狀態(tài)ct-1丟棄哪些信息，it用來更新細(xì)胞狀態(tài)ct，ot用來控制信息的輸出，一個(gè)LSTM單元的計(jì)算過程表示如下：

圖2 LSTM單元內(nèi)部結(jié)構(gòu)示意圖Fig.2 Schematic diagram of internal structure of LSTM unit

其中，σ表示sigmoid函數(shù)，xt表示t時(shí)刻的輸入，c?t表示候選更新狀態(tài)，ft、it、ct、ot分別表示遺忘門、輸入門、記憶門、輸出門，Wf、Wi、Wc、Wo、Uf、Ui、Uc、Uo分別表示不同門對(duì)應(yīng)的權(quán)重，bf、bi、bc、bo分別表示不同門對(duì)應(yīng)的偏置，⊙表示Haddamard積，tanh指激活函數(shù)，ht-1、ht分別表示LSTM單元t-1的隱藏層狀態(tài)和t時(shí)刻的隱藏層狀態(tài)。

2 BSLA模型

BSLA模型如圖3所示，該模型主要有輸入層、BERT編碼層、BiLSTM層、Attention層和輸出層組成。

圖3 BSLA模型圖Fig.3 BSLA model figure

2.1 輸入層

輸入層有兩個(gè)句子p和q，根據(jù)BERT模型輸入的詞向量特點(diǎn)，采用WordPiece進(jìn)行分詞，將每個(gè)句子的每個(gè)詞處理成詞向量（token embeddings）、段向量（segment embeddings）和位置向量（position embeddings）三個(gè)向量，并將這三個(gè)向量相加輸入到Bert的編碼層，如圖4所示，句子p“手機(jī)看漫畫用什么軟件”被切分成了若干個(gè)字，變成了“手”“機(jī)”“看”“漫”“畫”“用”“什”“么”“軟”“件”，每個(gè)字都有其對(duì)應(yīng)位置信息、令牌token信息和所處哪個(gè)句子的信息，因?yàn)檩斎氲紹ERT模型中只有一個(gè)句子，所以對(duì)于句子p或句子q中的每一個(gè)字所處的某個(gè)句子信息是一樣的。BERT編碼層輸入的句子序列長度為25，其中[CLS]和[SEP]分隔符占用的2個(gè)長度，對(duì)輸入到BERT編碼層的句子長度超過23切分掉保留前面的字，句子長度不足的話后面用＜padding＞進(jìn)行補(bǔ)充。其中[CLS]表示分類輸出的特殊符號(hào)，[SEP]表示分隔非連續(xù)token序列的特殊符號(hào)，標(biāo)志著一個(gè)句子的結(jié)束。輸入層的計(jì)算公式如下：

圖4 輸入層表示Fig.4 Input layer representation

2.2 BERT編碼層

BERT模型如圖5所示，它的核心模塊是由Transformer組成的。Transformer采用了多頭注意力機(jī)制，具有很好的并行性，對(duì)句子中的所有詞的信息編碼都不用考慮方向和距離，可以學(xué)習(xí)到不同語義場(chǎng)景下的信息。BERT采用雙向Transformer編碼器作為特征提取器，來提取特征信息。輸入到BERT模型每個(gè)字向量，經(jīng)過其編碼運(yùn)算后，每個(gè)字向量都包含了豐富的語義信息，與其他字向量之間雙向交互，字與字之間關(guān)聯(lián)度更高。如“漫”字經(jīng)過BERT編碼層運(yùn)算輸出后，與句子“手機(jī)看漫畫用什么軟件”中的其他字具有動(dòng)態(tài)語義關(guān)聯(lián)關(guān)系。BERT模型采用的是12層的Transformer編碼器，輸出的隱藏層維度為768，編碼層的計(jì)算公式如下：

圖5 BERT模型圖Fig.5 BERT model figure

Trm是一個(gè)轉(zhuǎn)換塊，包括自注意力層，全連接層，和輸出層，hi、hi-1分別表示當(dāng)前層和上一層的輸出結(jié)果。

2.3 BiLSTM層

BiLSTM采用雙向的LSTM提取上下文信息。句子p和句子q經(jīng)過BERT編碼層輸出的信息分別為P={p1,p2,…,pm}和Q={q1,q2,…,qn}，這些信息分別輸入到BiLSTM層，其中矩陣P和矩陣Q對(duì)應(yīng)的維度都為batch_size×seq_len×hidden_size，本文中數(shù)值大小為64×25×768，BiLSTM網(wǎng)絡(luò)中LSTM隱藏層維度為768。

BiLSTM對(duì)P和Q的編碼后，輸出的每個(gè)字向量包含了上下文全局特征信息，單向LSTM輸出的字向量維度大小為batch_size×seq_len×hidden_size，本文中的數(shù)值大小為64×25×768，雙向LSTM輸出的字向量維度數(shù)值大小為64×25×1 536。

2.4 Attention層

在BiLSTM層后面引入注意力機(jī)制，目的是對(duì)BiLSTM層輸出的詞向量分配不同的權(quán)值，通過自動(dòng)加權(quán)變換后生成具有注意力概率分布的特征向量，以此來突出文本中的關(guān)鍵信息。這里采用注意力機(jī)制來使得對(duì)相似結(jié)果影響高的詞向量占比更高，為了方便說明，這里采用一個(gè)詞向量來解釋一下注意力機(jī)制的原理，例如句子p“手機(jī)看漫畫用什么軟件”中在某時(shí)刻經(jīng)過注意力機(jī)制運(yùn)算后輸出的詞向量中，“漫畫”向量對(duì)文本相似影響權(quán)重高于其他詞向量，所以輸出的詞向量中“漫畫”向量占的權(quán)重更大，在經(jīng)過本文模型不斷訓(xùn)練后，相對(duì)應(yīng)的另一個(gè)句子q“用手機(jī)什么軟件能看漫畫”在該時(shí)刻輸出的詞向量“漫畫”對(duì)文本相似的影響也會(huì)高于其他詞向量，在輸出的詞向量中占的權(quán)重更大，所以句子p和句子q經(jīng)過注意力機(jī)制在相同時(shí)刻輸出每個(gè)詞向量對(duì)相似結(jié)果的影響存在一定的相互關(guān)聯(lián)。

注意力的計(jì)算公式表示如下：

ht表示BiLSTM在t時(shí)刻輸出的特征向量，wt表示ht的權(quán)重矩陣，αt表示通過softmax函數(shù)得到的權(quán)重，o表示經(jīng)過加權(quán)運(yùn)算后的特征向量。

2.5 輸出層

經(jīng)過注意力機(jī)制層對(duì)BiLSTM層輸出詞向量加權(quán)運(yùn)算后，句子p和q分別得到了不同的特征向量，分別為和oq的維度大小為batch_size×seq_len×2×hidden_size，本文中大小數(shù)值為64×25×1 536，采用曼哈頓距離（Manhadun）計(jì)算句子p和q的相似度，損失函數(shù)為：

計(jì)算完相似度之后，得到相似度矩陣，維度為batch_size×1×2×hidden_size，本文中數(shù)值大小為64×1×1 536，將相似度矩陣維度進(jìn)行拉平操作，保留batch_size和2×hidden_size兩個(gè)維度，然后輸入到全連接層，最后通過sigmoid函數(shù)進(jìn)行二分類判斷兩個(gè)文本是否相似。

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 數(shù)據(jù)集的采集與處理

本文采用的數(shù)據(jù)集為中文數(shù)據(jù)集LCQMC語義匹配數(shù)據(jù)集和英文數(shù)據(jù)集Quora Question Pairs。數(shù)據(jù)集由兩個(gè)問題和一個(gè)標(biāo)簽組成，標(biāo)簽為1則表示兩個(gè)問題語義相同，為0則表示語義不同。LCQMC語義匹配數(shù)據(jù)集有238 766條訓(xùn)練集，8 802條驗(yàn)證集，12 500條測(cè)試集組成。Quora Question Pairs數(shù)據(jù)集有404 000條句子對(duì)組成，本文將其劃分成9∶1∶1的訓(xùn)練集、測(cè)試集和驗(yàn)證集，其中驗(yàn)證集和測(cè)試集中標(biāo)簽為0和標(biāo)簽為1的數(shù)據(jù)各占一半。本文所使用的數(shù)據(jù)集的部分樣本如表1所示。

表1 部分?jǐn)?shù)據(jù)集樣本示例Table 1 Examples of partial dataset samples

3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

3.2.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)所使用的深度學(xué)習(xí)框架是pytorch，所有模型的訓(xùn)練、驗(yàn)證和測(cè)試都是基于pytorch框架上完成的，具體的實(shí)驗(yàn)環(huán)境如表2所示。

表2 實(shí)驗(yàn)環(huán)境配置Table 2 Experimental environment configuration

3.2.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文實(shí)驗(yàn)中使用BERT作為編碼層構(gòu)建的模型，其hidden_size為768，其他參數(shù)由該模型組建之前的單個(gè)模型參數(shù)保持一致，其他模型中文數(shù)據(jù)集使用搜狗新聞的Word+Character預(yù)訓(xùn)練詞向量，英文數(shù)據(jù)集采用谷歌的word2vec預(yù)訓(xùn)練模型，維度為300d。本文模型及一些對(duì)比模型的實(shí)驗(yàn)參數(shù)如表3所示，表格中模型相同的參數(shù)合并在一起，在表格中居中表示，沒有某個(gè)參數(shù)的用“—”表示，每個(gè)句子的最大長度為25。

表3 主要模型的重要實(shí)驗(yàn)參數(shù)Table 3 Important experimental parameters of main model

3.3 評(píng)價(jià)指標(biāo)

本文兩個(gè)句子語義相同為1，語義不同為0，是一個(gè)二分類問題，為了公平地評(píng)價(jià)各種模型的性能，以準(zhǔn)確率（accuracy）、精準(zhǔn)率（precision）、召回率（recall）和F1值來評(píng)價(jià)模型，它們的定義如下所示：

其中，TP表示在正類樣本里預(yù)測(cè)也為正類的樣本數(shù)量，F(xiàn)P表示在負(fù)類樣本里預(yù)測(cè)為正類的樣本數(shù)量，F(xiàn)N表示在正類樣本里預(yù)測(cè)為負(fù)類的樣本數(shù)量，TN表示在負(fù)類樣本里預(yù)測(cè)也為負(fù)類的樣本數(shù)量。

3.4 對(duì)比模型

為了驗(yàn)證本文混合模型的有效性，進(jìn)行了如下的對(duì)比實(shí)驗(yàn)：（1）將本文模型與當(dāng)前流行的文本匹配模型比較。（2）探究注意力機(jī)制對(duì)本文模型的影響。（3）探究BERT模型作為編碼層對(duì)本文模型的影響。（4）對(duì)比了不同模型花費(fèi)的時(shí)間成本。

比較的模型如下所示：

（1）ABCNN[20]：基于CNN和attention機(jī)制構(gòu)建的文本匹配模型。

（2）Siamese-LSTM[12]：基于BiLSTM的文本匹配模型。

（3）Siamese-LSTM+Attention（SLA）：在Siamese-LSTM模型中引入Attention機(jī)制的文本匹配模型。

（4）ESIM[21]：基于BiLSTM和treeLSTM的混合神經(jīng)推理模型。

（5）BIMPM[13]：基于BiLSTM的雙邊多角度匹配模型。

（6）BERT+Siamese-LSTM（BSL）：BERT模型為編碼層，其隱藏層的輸出結(jié)果輸入到Siamese-LSTM模型中的混合文本匹配模型。

（7）capsule-BiGRU[16]：結(jié)合capsule和BiGRU網(wǎng)絡(luò)，同時(shí)引入互注意力機(jī)制的文本匹配模型。

3.5 實(shí)驗(yàn)結(jié)果及分析

本文選取ABCNN、Siamese-LSTM、SLA、ESIM、BIMPM、BSL和BSLA等模型在兩個(gè)數(shù)據(jù)集上做了訓(xùn)練、驗(yàn)證和測(cè)試，各個(gè)模型在兩個(gè)數(shù)據(jù)集訓(xùn)練的loss值變化圖和accuracy值變化圖分別如圖6～圖9所示，驗(yàn)證的accuracy值變化圖如圖10和圖11所示，測(cè)試結(jié)果如表4所示，其中capsule-BiGRU的測(cè)試結(jié)果來自文獻(xiàn)[16]。

表4 不同模型的測(cè)試結(jié)果Table 4 Test results of different models單位：%

圖6 LCQMC數(shù)據(jù)集上訓(xùn)練的loss值變化圖Fig.6 Variation diagram of loss values trained on LCQMC dataset

圖9 Quora Question Pairs數(shù)據(jù)集上訓(xùn)練的accuracy值變化圖Fig.9 Variation diagram of accuracy values trained on Quora Question Pairs dataset

圖10 LCQMC數(shù)據(jù)集上驗(yàn)證的accuracy值變化圖Fig.10 Variation diagram of accuracy values validated on LCQMC dataset

圖11 Quora Question Pairs數(shù)據(jù)集上驗(yàn)證的accuracy值變化圖Fig.11 Variation diagram of accuracy values validated on Quora Question Pairs dataset

3.5.1 與當(dāng)前流行的文本匹配模型對(duì)比

圖7 Quora Question Pairs數(shù)據(jù)集上訓(xùn)練的loss值變化圖Fig.7 Variation diagram of loss values trained on Quora Question Pairs dataset

圖8 LCQMC數(shù)據(jù)集上訓(xùn)練的accuracy值變化圖Fig.8 Variation diagram of accuracy values trained on LCQMC dataset

從圖6～圖11中可以看出，雖然由于本文使用的中英文數(shù)據(jù)集存在差異，導(dǎo)致BSLA模型在訓(xùn)練和驗(yàn)證過程中數(shù)值變化存在不同，但是無論是在中文LCQMC數(shù)據(jù)集對(duì)應(yīng)的訓(xùn)練和驗(yàn)證圖，還是在英文Quora Question Pairs數(shù)據(jù)集對(duì)應(yīng)的訓(xùn)練和驗(yàn)證圖，BSLA模型相對(duì)當(dāng)前流行的ABCNN、Siamese-LSTM、ESIM和BIMPM等網(wǎng)絡(luò)模型進(jìn)行對(duì)比，在訓(xùn)練過程中l(wèi)oss初始值更小，收斂速度更快，變化浮動(dòng)更小，同樣在訓(xùn)練和驗(yàn)證過程中的accuracy值初始值更大，收斂速度更快，值變化浮動(dòng)更小。從表4的測(cè)試結(jié)果中可以看出，在LCQMC數(shù)據(jù)集上，BSLA模型相對(duì)當(dāng)前流行的ABCNN、Siamese-LSTM、ESIM和BIMPM中表現(xiàn)最好的BIMPM模型相比，BSLA模型在precision、recall和F1值上分別高出BIMPM模型1.32、1.45和1.39個(gè)百分點(diǎn)，同樣在Quora Question Pairs數(shù)據(jù)集上也高出了BIMPM模型2.40、2.42和2.41個(gè)百分點(diǎn)。與capsule-BiGRU模型的測(cè)試結(jié)果相比，雖然BSLA模型在recall值低于capsule-BiGRU模型2.03個(gè)百分點(diǎn)，但是precision和F1值分別高出2.52和0.31個(gè)百分點(diǎn)，BSLA模型與capsule-BiGRU模型在recall值上存在差異的原因可能是文獻(xiàn)[16]中采用的Quora Question Pairs數(shù)據(jù)集的測(cè)試集標(biāo)簽0和標(biāo)簽1的數(shù)量不一致的原因。綜合上面的對(duì)比結(jié)果，可以看出本文BSLA模型在precision、recall和F1值基本上都優(yōu)于當(dāng)前流行的文本匹配模型。

3.5.2 注意力機(jī)制對(duì)本文模型的影響

在表4的測(cè)試結(jié)果中，本文從Siamese-LSTM模型中引入注意力機(jī)制形成的SLA模型測(cè)試結(jié)果中看出，SLA模型在LCQMC和Quora Question Pairs數(shù)據(jù)集上precision、recall和F1值都高于沒有加入注意力機(jī)制的Siamese-LSTM模型，所以本文考慮在本文模型中引入注意力機(jī)制。本文模型在加入注意力機(jī)制后，與沒有引入注意力機(jī)制的BSL模型相比，BSLA模型在訓(xùn)練和驗(yàn)證過程loss、accuracy值收斂速度更快，BSLA模型相對(duì)于BSL模型測(cè)試結(jié)果中，在LCQMC數(shù)據(jù)集上precision、recall和F1值分別高出0.31、0.27和0.29個(gè)百分點(diǎn)，在Quora Question Pairs數(shù)據(jù)集上precision、recall和F1值分別高出0.25、0.26和0.26個(gè)百分點(diǎn)。綜上，可以看出本文模型引入注意力機(jī)制后，本文模型可以關(guān)注對(duì)相似識(shí)別做出貢獻(xiàn)較大的詞向量，可以在一定程度上增加對(duì)相似文本的識(shí)別能力。

3.5.3 BERT模型對(duì)本文模型的影響

從圖6～圖11中可以看出本文BSLA模型在引入BERT動(dòng)態(tài)詞向量作為本文模型的編碼層后，訓(xùn)練過程中模型的loss值明顯降低，訓(xùn)練過程和測(cè)試過程的accuracy值都明顯升高了不少。同樣，從表4的測(cè)試結(jié)果中可以看出，BSLA模型相對(duì)于沒有引入BERT模型的SLA模型，在LCQMC數(shù)據(jù)集上precision、recall和F1值分別高出1.59、1.46和1.53個(gè)百分點(diǎn)，在Quora Question Pairs數(shù)據(jù)集上precision、recall和F1值分別高出3.78、7.78和3.78個(gè)百分點(diǎn)。綜上，可以看出BERT模型作為BSLA模型的編碼層，對(duì)輸入的上下文中詞向量編碼運(yùn)算后再輸入到后面的BiLSTM-Attention后進(jìn)行相似度計(jì)算效果更好。

3.5.4 不同模型花費(fèi)的時(shí)間成本

不同模型在20個(gè)epoch總的訓(xùn)練時(shí)間結(jié)果如表5，變化圖如圖12所示，從表5和圖12中可以看出，本文模型在引入注意力機(jī)制后，總的模型訓(xùn)練時(shí)間有所增加，在LCQMC和Quora Question Pairs數(shù)據(jù)集上分別增加了235 s和1 198 s，但是在引入BERT模型作為本文模型的編碼層后，本文BSLA模型總的訓(xùn)練時(shí)間呈大幅度增長，總的訓(xùn)練時(shí)間在LCQMC和Quora Question Pairs數(shù)據(jù)集上分別增加了32 473 s和95 397 s。所以，總的來說本文BSLA模型存在訓(xùn)練時(shí)間過長的缺陷。

表5 不同模型總的訓(xùn)練時(shí)間Table 5 Total training time of different models單位：s

圖12 不同模型總的訓(xùn)練時(shí)間Fig.12 Total training time of different models

4 結(jié)束語

針對(duì)Siamese-LSTM模型對(duì)相似文本特征提取能力差，準(zhǔn)確率偏低，本文對(duì)其進(jìn)行了改進(jìn)，加入了注意力機(jī)制和BERT編碼模型，有效地增強(qiáng)了模型的性能。本文通過將不同模型在LCQMC數(shù)據(jù)集和Quora Question Pairs數(shù)據(jù)集進(jìn)行了訓(xùn)練、驗(yàn)證和測(cè)試，證明了Siamese-LSTM和BSL模型在引入注意力機(jī)制后提升了模型的效果，同樣也證明了SLA模型引入BERT模型后有效地提升了模型的效果，最終證明融合了注意力機(jī)制和BERT編碼模型的本文模型在精確率、召回率和F1值三個(gè)評(píng)價(jià)指標(biāo)上表現(xiàn)出效果基本上都是最佳的，但是針對(duì)本文模型的訓(xùn)練時(shí)間來說，存在著訓(xùn)練耗費(fèi)時(shí)間長的缺陷。