基于深度交互的文本匹配模型研究

2021-10-26 05:41:26余傳明薛浩東江一帆

情報學(xué)報 2021年10期

余傳明，薛浩東，江一帆

（中南財經(jīng)政法大學(xué)信息與安全工程學(xué)院，武漢 430073）

1 引言

文本匹配是指將兩個文本作為輸入，通過理解各自的語義預(yù)測其關(guān)系類別或相關(guān)性分?jǐn)?shù)[1]，作為自然語言處理的重要任務(wù)，文本匹配在信息檢索和文本挖掘等領(lǐng)域受到了廣泛關(guān)注。從應(yīng)用角度來看，文本匹配可分為相關(guān)性匹配和語義匹配。相關(guān)性匹配主要應(yīng)用于信息檢索任務(wù)，用來評估用戶查詢和文檔之間的相關(guān)性，并對文檔進(jìn)行排序[2]。語義匹配強(qiáng)調(diào)文本對之間本體意義上的對應(yīng)，通過對文本的深度表示、理解和推理來計算語句之間的語義相似度，其實現(xiàn)路徑包括對文本上下文進(jìn)行建模、加入注意力機(jī)制和引入外部知識庫等。語義匹配任務(wù)包括釋義識別[3]、自然語言推理[4]和答案挑選[5]等。釋義識別任務(wù)是判斷兩個文本是否具有相同的含義；自然語言推理是判斷輸入的兩個句子是否存在語義蘊含關(guān)系，即能否基于前提句推理出假設(shè)句；答案挑選任務(wù)是指給定一個問題，根據(jù)問題與各個候選答案的匹配分?jǐn)?shù)對所有候選答案進(jìn)行排序。從輸入的兩個文本長度來看，文本匹配任務(wù)可分為短文本-短文本匹配、短文本-長文本匹配和長文本-長文本匹配。短文本-短文本匹配常用于計算用戶檢索項與網(wǎng)頁標(biāo)題的相似度[6]，短文本-長文本匹配可用于文檔關(guān)鍵詞抽取[7]，長文本-長文本匹配可應(yīng)用于個性化推薦[8]。

隨著應(yīng)用場景的擴(kuò)展，文本匹配任務(wù)對于語義理解的要求逐漸升高，傳統(tǒng)的文本匹配模型逐漸暴露其局限性，其主要面臨以下挑戰(zhàn)：①現(xiàn)有的文本匹配模型在對句子進(jìn)行編碼時，由于長距離依賴、一詞多義等問題，不能有效地表示句子的上下文信息和隱含語義信息；②句間交互信息對文本匹配效果起著關(guān)鍵作用，而現(xiàn)有的文本匹配模型不能夠有效地提取并利用兩個句子的交互信息；③現(xiàn)有的模型缺乏泛化能力，在應(yīng)用到不同的領(lǐng)域或場景時，不能同時擁有較好的結(jié)果。為了解決上述挑戰(zhàn)，本文嘗試提出基于深度交互的文本匹配（deep interac‐tion text matching，DITM）模型，并開展實證分析，以期為相關(guān)研究提供借鑒。

2 相關(guān)研究

文本匹配模型在許多領(lǐng)域均得到了應(yīng)用，并取得了較好效果。在醫(yī)學(xué)領(lǐng)域，沈思等[9]將孿生神經(jīng)網(wǎng)絡(luò)應(yīng)用到醫(yī)學(xué)文本的相似度計算中；在電商領(lǐng)域，文本匹配模型可用于產(chǎn)品評論情感分析[10]、購物車個性化推薦[11]和產(chǎn)品特征詞典構(gòu)建[12]。此外，章成志等[13]將雙向長短期記憶網(wǎng)絡(luò)應(yīng)用到實體識別任務(wù)中，林德明等[14]將文本深度表示模型應(yīng)用到政策工具選擇研究中。值得說明的是，現(xiàn)有研究對于文本匹配模型的選擇并無明確的準(zhǔn)則和依據(jù)，對文本匹配模型缺乏系統(tǒng)化的研究。鑒于此，本文對大量相關(guān)文獻(xiàn)進(jìn)行梳理，從基于表示和基于交互的文本匹配模型的角度分別展開系統(tǒng)性論述。

2.1 基于表示的文本匹配模型

基于表示的文本匹配模型注重構(gòu)建文本的表示向量，在表示向量的基礎(chǔ)上預(yù)測兩段文本的關(guān)系或相關(guān)分?jǐn)?shù)。從研究方法上來看，基于表示的文本匹配模型可分為傳統(tǒng)的文本匹配模型、基于深度表示的文本匹配模型和基于預(yù)訓(xùn)練的文本匹配模型。

傳統(tǒng)的文本匹配模型依靠人工定義的特征，計算特征之間的相似度。傳統(tǒng)文本匹配模型，如TFIDF （term frequency-inverse document frequency）和BM25 等算法，得到的是大維度稀疏矩陣，對潛在特征提取能力不足；基于Gibbs 采樣的LDA （latent Dirichlet allocation）近似推斷算法，能將句子映射到隱式空間，并獲取潛在語義表達(dá)[15]，但只是達(dá)到了詞匯層面的匹配，沒有考慮詞序和深層語義信息，面對大規(guī)模的數(shù)據(jù)集和多樣化的任務(wù)，不能夠表現(xiàn)出較好的效果。

近年來，涌現(xiàn)了許多基于深度學(xué)習(xí)的文本匹配模型，并表現(xiàn)出較好的性能?；谏疃缺硎镜奈谋酒ヅ淠Ｐ褪褂镁矸e神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等方法自動捕捉文本特征，分別獲取兩段文本的表示向量。深層結(jié)構(gòu)語義模型（deep structured semantic models，DSSM）[16]將兩個文本分別經(jīng)過相同的深度神經(jīng)網(wǎng)絡(luò)計算各自的表示向量，但忽視了句子的詞序和上下文信息，無法有效地表示文本的語義信息。Hu 等[17]提出ACRI （architecture-I）模型，使用卷積神經(jīng)網(wǎng)絡(luò)融合句子中相鄰詞的語義信息，考慮了有限的上下文信息，但依舊無法捕捉長距離依賴詞的信息。IBM Watson 實驗室提出了結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[18]，并提出了兩種基于LSTM （long short-term memory）模型的改進(jìn)方法，一種是結(jié)合CNN （convolutional neural networks）與LSTM 模型的混合結(jié)構(gòu)，另一種是在LSTM 模型中加入注意力機(jī)制。樹狀結(jié)構(gòu)長短期記憶網(wǎng)絡(luò)（tree-structured long short-term memory networks，Tree-LSTM）[19]模型將長短期記憶網(wǎng)絡(luò)擴(kuò)展到樹形拓?fù)浣Y(jié)構(gòu)上，Tree-LSTM 單元中門向量和儲存單元的更新與其子單元的狀態(tài)有關(guān)，令每個單元能夠接收多個子單元的信息，可以解決循環(huán)神經(jīng)網(wǎng)絡(luò)只允許順序信息的傳播的缺點。層次編碼模型（hierarchical encoding model，HEM）[20]，通過分層編碼模塊和層次匹配機(jī)制，充分利用了文本的語義特征捕獲多視角交互信息進(jìn)行文本匹配。上述模型的結(jié)構(gòu)相對簡單，具有較高的效率，但未能解決一詞多義問題。

為了解決多義詞的問題，學(xué)者們提出了ELMo（embedding from language models）[21]、 GPT （gere‐rate pre-training）[22]和BERT （bidirectional encoder representation from transformer）[23]等預(yù)訓(xùn)練模型。ELMo 使用了雙層的雙向長短期記憶網(wǎng)絡(luò)，利用上下文信息動態(tài)調(diào)整單詞語義；與ELMo 相比，GPT使用Transformer[24]作為特征提取器，規(guī)避了普通的循環(huán)神經(jīng)網(wǎng)絡(luò)不能并行計算的缺點，但GPT 的單向語言模型只利用了上文信息，而忽略了下文信息；BERT 模型與ELMo 和GPT 相似，采用Transformer作為特征提取器，使用了雙向語言模型，兼顧了ELMo 和GPT 兩者的優(yōu)點，對各類下游任務(wù)具有普適性。RoBERTa[25]在BERT 基礎(chǔ)上，使用動態(tài)掩蓋機(jī)制代替靜態(tài)掩蓋機(jī)制和移除NSP （next sentence prediction）等手段，改進(jìn)了BERT 預(yù)訓(xùn)練的方式。上述預(yù)訓(xùn)練模型可代替先前模型中卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)結(jié)構(gòu)編碼句子的表示向量。例如，SBERT （sentence-BERT）[26]基于BERT 分別獲取兩個句子的語義表示，取得了較好的效果。預(yù)訓(xùn)練模型較好地解決了一詞多義問題，但只是提取文本句子級別的表示向量，未能考慮文本對之間在詞級別的交互信息。

2.2 基于交互的文本匹配模型

基于交互的文本匹配模型注重獲取文本對之間的復(fù)雜交互信息，從研究方法上來看，下文從基于交互矩陣的文本匹配模型和基于匹配-聚合框架的文本匹配模型來論述。

基于交互矩陣的文本匹配模型，是基于余弦相似度、識別函數(shù)等方法，計算兩個句子的交互矩陣，然后從交互矩陣中提取關(guān)鍵的交互特征作為是否匹配的依據(jù)。例如，Hu 等[17]提出的ACRII （ar‐chitecture-II）模型先使用1D 卷積神經(jīng)網(wǎng)絡(luò)獲取文本對之間詞級別的交互矩陣，再使用2D 卷積和最大池化提取特征。Wan 等[27]針對答案挑選任務(wù)，提出MV-LSTM （multiple positional sentence representa‐tions）模型，通過設(shè)計張量從多個維度獲取兩個句子的交互信息，然后使用K-Max 池化提取交互張量的關(guān)鍵信息。 MatchPyramid[28]模型借鑒圖像識別的方法，使用多層卷積神經(jīng)網(wǎng)絡(luò)對相似度矩陣進(jìn)行特征提取，獲取到了文本對不同粒度上的交互特征。基于注意力機(jī)制的神經(jīng)匹配模型（at‐tention-based neural matching odel，aNMM）[29]使用類似ARCII[17]的設(shè)計，但采用的是基于值共享的卷積神經(jīng)網(wǎng)絡(luò)，并引入注意力機(jī)制進(jìn)行對齊，解決了模型無法獲取足夠匹配信號的問題。密集交互推理網(wǎng)絡(luò)（densely interactive inference network，DIIN）[30]提出了密集交互推理網(wǎng)絡(luò)模型，它基于多頭注意力機(jī)制，將文本對進(jìn)行詞級別的維度對齊，以得到交互張量，再采用DenseNet 提取豐富的語義特征。與基于表示的文本匹配模型相比，基于交互矩陣的方法考慮了文本對之間的交互信息，在多種文本匹配任務(wù)上可以取得更好的效果。但這類模型只是從交互矩陣或交互張量中提取關(guān)鍵特征，可能會丟失文本的原始語義信息，從而降低文本匹配效果。

基于匹配-聚合框架的文本匹配模型將交互矩陣作為注意力權(quán)重，得到兩段文本各自的交互表示，然后將文本的編碼信息和交互信息進(jìn)行聚合，以預(yù)測兩段文本的關(guān)系或相關(guān)分?jǐn)?shù)。例如，Wang等[31]提出了一種通用的匹配聚合框架，并對六種不同的比較函數(shù)進(jìn)行測試分析。為了捕捉更多層級上的交互信息，雙向多視角匹配模型（bilateral multiperspective matching，BiMPM）[32]設(shè)計了一個雙向多視角的匹配算法進(jìn)行相似度計算，可以從多個角度獲取文本對的交互信息，在釋義識別、答案挑選等多項任務(wù)上取得了較好的效果。增強(qiáng)的序列推理模型（enhanced sequential inference model，ES‐IM）[33]首先使用雙向長短期記憶網(wǎng)絡(luò)編碼文本的語義信息，然后使用另一個雙向長短期記憶網(wǎng)絡(luò)聚合文本的語義信息和基于注意力的對齊信息，在自然語言推理任務(wù)上取得較好的效果。相較于ESIM 使用維數(shù)較大的拼接向量，壓縮對齊分解編碼器（ComProp （compare, compress and propagate） align‐ment-factorized encoders，CAFE）[34]提出了對齊因子分解層，壓縮了交互特征向量將其增強(qiáng)為單詞表示，并實現(xiàn)了輕量級模型。匹配-聚合框架可以基于注意力機(jī)制獲取文本對之間的交互對齊信息，并通過融合文本的語義和交互信息更好地捕捉關(guān)鍵匹配特征。然而，單次的匹配-聚合僅能捕捉文本淺層的語義和交互信息，且需要設(shè)計復(fù)雜的函數(shù)進(jìn)行融合。為了提取深層次的交互特征，Kim等[35]和Yang 等[1]通過殘差連接多次循環(huán)編碼和交互模塊，既可以捕捉豐富的深度交互信息，又可以避免模型過深導(dǎo)致的梯度消失/爆炸的問題。對于基于匹配-聚合框架的文本匹配模型，如何在算力有限的條件下提升推理效果成為一個緊迫的研究問題。

上述的文本匹配模型在特定的任務(wù)上取得了較好的效果，但這些模型大多只能在一種或兩種文本匹配任務(wù)上表現(xiàn)良好，其泛化能力尚缺乏系統(tǒng)性的驗證。在此背景下，本文提出了基于深度交互的文本匹配模型，在多個數(shù)據(jù)集上與基線方法進(jìn)行比較，驗證本文所提出模型的有效性和普適性，并探究基于表示的文本匹配模型和基于交互的文本匹配模型的效果差異，在擴(kuò)展實驗部分將進(jìn)一步探討網(wǎng)絡(luò)結(jié)構(gòu)對模型效果的影響。

3 研究框架與方法

3.1 研究問題

對于文本匹配任務(wù)，從形式化定義來看，即給定文本A 和文本B 作為輸入，通過機(jī)器學(xué)習(xí)算法或者深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)理解文本對的語義和關(guān)系，得到預(yù)測結(jié)果?。對于排序任務(wù)，?表示文本對之間的相關(guān)性分?jǐn)?shù)；對于分類任務(wù)，?表示文本對的關(guān)系類別?；诖耍疚牡难芯繂栴}是：針對不同的文本匹配任務(wù)，如何以較低的計算成本獲取文本豐富的上下文信息和文本對之間的交互信息，以在多種文本匹配任務(wù)上取得較好的效果。本文嘗試提出一個基于深度交互的文本匹配模型，在該模型的基礎(chǔ)上探討：①相較于傳統(tǒng)的模型，基于深度學(xué)習(xí)的文本匹配模型是否具有更好的效果？②在基于深度學(xué)習(xí)的文本匹配模型中，基于交互的方法性能是否優(yōu)于基于表示方法？③在基于深度學(xué)習(xí)的文本匹配模型中，網(wǎng)絡(luò)結(jié)構(gòu)對模型效果存在怎樣的影響？具體而言，①交互模塊的循環(huán)次數(shù)對模型效果是否存在影響？②卷積層后加入多頭注意力是否能有效地提升模型的效果？③本文提出的多角度池化是否有更好的效果？

3.2 DITM模型

本文基于匹配-聚合框架提出了一種深度交互的文本匹配（DITM）模型。DITM 模型的總體結(jié)構(gòu)如圖1 所示。

由圖1 可以看出，DITM 由嵌入層、編碼層（1D 卷積和多頭注意力）、共注意力層、融合層、池化層以及預(yù)測層組成。首先，將文本A 和文本B輸入詞嵌入層和編碼層獲取各自的語義表示信息。然后經(jīng)過共注意力層捕捉文本對之間的交互信息，并基于門控機(jī)制將語義表示和交互信息融合。此外，受Kim 等[35]與Yang 等[1]提出的模型啟發(fā)，將編碼層、共注意力層和融合層視為一個交互模塊，該交互模塊循環(huán)N次，以獲取文本對之間深度的語義特征和交互信息。最后，通過池化層提取關(guān)鍵匹配特征并進(jìn)行預(yù)測。

圖1 DITM總體結(jié)構(gòu)圖

3.2.1 詞表示層

詞表示層是將句子中的詞轉(zhuǎn)換為表示向量，本文參照Gong 等[30]的方法，將詞嵌入特征、字符特征以及精確匹配特征拼接表示單詞的嵌入信息。其中，詞嵌入特征是預(yù)訓(xùn)練的詞嵌入向量；字符特征是將句子中的每個詞輸入1D 卷積和最大池化層，得到其特征表示向量，字符特征可以有效地表示詞典外（out of vocabulary，OOV）的詞；精確匹配特征是判定兩個句子中是否包含相同的詞。經(jīng)過詞表示層，兩個句子會得到各自的表示矩陣，分別用A∈Rla×d和B∈Rlb×d表示，其中，la和lb分別表示文本A 和文本B 的長度，d表示詞向量維數(shù)。

3.2.2 編碼層

編碼層旨在通過神經(jīng)網(wǎng)絡(luò)獲取文本具有上下文信息的語義表示，常用的網(wǎng)絡(luò)結(jié)構(gòu)有1D 卷積、長短期記憶網(wǎng)絡(luò)等。DITM 模型的編碼層使用了1D 卷積對相鄰上下文進(jìn)行建模，并通過加入多頭注意力來消除語義歧義，具體表示為

其中，Ac、Am分別表示卷積層和多頭注意層的輸出；[Ac;A]、[Ac;Am]表示括號內(nèi)兩個矩陣的拼接；h表示編碼層的輸出維度，即1D 卷積與多頭注意力的輸出維度相加。DITM 模型將卷積層Ac和多頭注意層Ae的輸出拼接作為下一層的輸入，既可以融合文本中相鄰詞的語義信息，又減少了長距離依賴詞的信息損失，因此可以更好地表示文本的語義。

3.2.3 共注意力層

借鑒Parikh 等[36]的方法，基于注意力機(jī)制的思想，首先計算兩個句子的交互矩陣E，然后將交互矩陣E中每一行用softmax 函數(shù)進(jìn)行歸一化，作為文本B 中每一個詞的注意力權(quán)重；同理，對矩陣E中每一列用softmax 函數(shù)進(jìn)行歸一化，作為文本A每一個詞的注意力權(quán)重，具體表示為

其中，softmaxrow(?)、softmaxcol(?) 分別表示對每一行、每一列進(jìn)行softmax，這樣得到的Am和Bm包含文本A 和文本B 在詞級別的交互信息。

3.2.4 融合層

融合層通過設(shè)計一個融合門的結(jié)構(gòu)將編碼層的語義信息表示Ae和共注意力層的包含另一個句子注意力權(quán)重的交互信息表示Am進(jìn)行融合。具體而言，將Ae、Am以及兩者的對應(yīng)元素相乘矩陣進(jìn)行拼接，然后輸入三個不同的前饋神經(jīng)網(wǎng)絡(luò)中。其中，一個前饋神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為tanh，作為融合信息表示；另外兩個前饋神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為sigmoid，可以將輸出的值限定在0～1 之間，作為門控。公式為

其中，[Ae;Am;Ae?Am] 表示三個矩陣的拼接；Wi∈R3h×h,bi∈Rh,i= 1,2,3；?代表對應(yīng)元素相乘。

3.2.5 池化層

池化層是要將融合表示的關(guān)鍵信息提取出來。與其他模型常采用最大池化或平均池化方法不同，本文先使用多個不同大小卷積核的卷積核函數(shù)，同時處理上一層得到的融合表示信息；然后再進(jìn)行池化，這樣可以從多個角度上提取關(guān)鍵信息；最后將所有角度的池化向量拼接。其公式為

其中，Convi(?) 表示卷積核大小為i的1D 卷積；n表示角度的個數(shù)；分別表示文本A 和文本B第i個角度的池化向量；k表示濾波器的個數(shù)，即卷積神經(jīng)網(wǎng)絡(luò)輸出的維數(shù)。

3.2.6 預(yù)測層

在預(yù)測層，DITM 模型通過兩層前饋神經(jīng)網(wǎng)絡(luò)得出文本A 和文本B 的匹配結(jié)果：

對于排序任務(wù)，F(xiàn)的激活函數(shù)為tanh，輸出維度為1，返回的是兩個句子的匹配分?jǐn)?shù)；對于分類任務(wù)，F(xiàn)的激活函數(shù)為softmax，輸出維度為數(shù)據(jù)集對應(yīng)的類別個數(shù)。

3.2.7 損失函數(shù)

對于排序任務(wù)，DITM 模型使用排序?qū)W習(xí)中pairwise 的訓(xùn)練方式，即輸入的是一個三元組(A,B+,B-)，損失函數(shù)是Hinge Loss，即l(A,B+,B-) = Max (0, 1 -f(A,B+) +f(A,B-)) (15)其中，B+、B-分別表示與A相關(guān)/無關(guān)的樣本；f(A,B*) 表示A和B*經(jīng)過模型得到的匹配分?jǐn)?shù)。對于分類任務(wù)，損失函數(shù)為交叉熵。

4 實驗結(jié)果與分析

4.1 數(shù)據(jù)集

為了驗證基于深度交互的文本匹配模型在觀點檢索、答案挑選、釋義識別和自然語言推理任務(wù)上的效果，本文分別在四個公開的數(shù)據(jù)集上進(jìn)行實驗，四個數(shù)據(jù)集分別為SOCC （SFU Opinion and Comments Corpus）[37]、 WikiQA[38]、 Quora[32]和SciTail[39]。其中，SOCC 是一個大型的觀點評論語料庫，包含10339篇觀點新聞和663173條評論的相關(guān)信息[37]，在這個數(shù)據(jù)集上用到的評價指標(biāo)為NDCG@3、NDCG@5和MAP （mean average precision）。 WikiQA 是基于維基百科的問答數(shù)據(jù)集，包含1200 余個具有正確答案的問題，任務(wù)是以問題為查詢，從候選答案中檢索出正確的答案，該數(shù)據(jù)集用到的評價指標(biāo)是MAP和MRR （mean reciprocal rank）。Quora 是一個釋義識別的數(shù)據(jù)集，包含40 萬對問題，任務(wù)是判斷樣本中的問題對是否具有相同含義，評價指標(biāo)是Ac‐curacy。SciTail 是一個科學(xué)領(lǐng)域的自然語言推理數(shù)據(jù)集，包含2 萬余組訓(xùn)練樣本，前提和假說句子的關(guān)系包括蘊含和中立兩種類別，其評價指標(biāo)也是Ac‐curacy。訓(xùn)練時，SOCC 與WikiQA 數(shù)據(jù)集作為排序任務(wù)，使用pairwise 損失函數(shù)；Quora 與SciTail 數(shù)據(jù)集作為分類任務(wù)，損失函數(shù)為交叉熵。

由于SOCC 數(shù)據(jù)集中沒有標(biāo)注信息，本文對其原始數(shù)據(jù)進(jìn)行預(yù)處理，生成一個包含新聞標(biāo)題、相關(guān)評論和無關(guān)評論的數(shù)據(jù)集，任務(wù)是以新聞標(biāo)題為查詢語句，在此基礎(chǔ)上檢索與新聞相關(guān)的評論。其處理過程為：①鑒于過短的新聞標(biāo)題或評論不能完整地表達(dá)語義，過長的評論可能包含大量的冗余信息，在處理中首先刪除新聞標(biāo)題單詞數(shù)小于5 的新聞和單詞數(shù)大于80 或小于10 的評論。此外，為了確保新聞包含足夠多的相關(guān)評論，刪除一級評論數(shù)小于10 的新聞。②采集與新聞相關(guān)的評論。本文將子評論數(shù)大于等于3 條的一級評論作為對應(yīng)新聞的正樣本，即與新聞相關(guān)的評論。③采集與新聞無關(guān)的評論。具體而言，首先將篩除后的新聞和評論轉(zhuǎn)化為對應(yīng)的詞向量再取平均，然后計算新聞的表示向量與所有評論（除去該新聞的原始評論）表示向量的余弦相似度，最后取余弦相似度最大的前k條評論作為負(fù)樣本，其中k等于該新聞?wù)龢颖镜臄?shù)量的5 倍。由于原始數(shù)據(jù)集中的新聞和評論較多，且無關(guān)評論只需與新聞具有一定的語義相似即可，綜合考慮抽取無關(guān)評論的效率與數(shù)據(jù)集質(zhì)量，本文實驗中采用300 維的GloVe[40]詞向量。

處理后的數(shù)據(jù)包括3885 篇新聞和132366 條評論，隨機(jī)抽取200 篇新聞及每篇新聞下的所有評論作為驗證、測試集。劃分好的數(shù)據(jù)集詳細(xì)信息如表1 所示。

表1 SOCC數(shù)據(jù)集信息

此外，本文從測試集中抽取了一組樣本，標(biāo)簽為1 表示評論與新聞相關(guān)，而0 則表示為評論與新聞無關(guān)。數(shù)據(jù)樣本如表2 所示。

表2 SOCC數(shù)據(jù)樣例

4.2 基線方法與參數(shù)設(shè)置

在SOCC 數(shù)據(jù)集上，本文采用了九種基線方法，包括傳統(tǒng)的文本匹配算法TF-IDF 和BM25，基于表示的文本匹配模型DSSM[16]和ARCI[17]，基于交互的模型ARCII[17]、MV-LSTM[27]、BiMPM[32]和ESIM[33]，以及基于預(yù)訓(xùn)練的模型BERT[23]。

在參數(shù)設(shè)置中，本文盡可能保證參數(shù)在各種模型中的一致性；在不能保證一致性的情況下，盡量保證和原始文獻(xiàn)相同。具體而言，針對本文提出的DITM 模型，詞嵌入使用預(yù)訓(xùn)練的300 維GloVe 詞向量，字符特征的維數(shù)設(shè)置為147；在編碼層，卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小設(shè)置為3，濾波器個數(shù)設(shè)為128，多頭注意力的頭數(shù)為4，每一個注意力頭的維數(shù)設(shè)為64；交互模塊的循環(huán)次數(shù)N設(shè)為2～3；在池化層角度數(shù)n設(shè)為3～4，每一個角度的卷積神經(jīng)網(wǎng)絡(luò)的濾波器個數(shù)是128。

對于DSSM，本文使用三層的前饋神經(jīng)網(wǎng)絡(luò)，每一層的隱藏單元都設(shè)為256；對于ARCI 和AR‐CII，均使用兩層的卷積和最大池化，其中卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小設(shè)為3，濾波器的個數(shù)設(shè)為256；對于MV-LSTM、 ESIM 和BiMPM，本文將BiLSTM 和前饋神經(jīng)網(wǎng)絡(luò)的隱藏單元設(shè)為256，MV‐LSTM 的最大池化的k值設(shè)為256，BiMPM 的匹配函數(shù)的視角數(shù)設(shè)為5。此外，以上基線方法和本文提出的方法相同，均使用Dropout （統(tǒng)一設(shè)為0.4）減少過擬合問題，訓(xùn)練時使用學(xué)習(xí)率為0.0001 的Adam 優(yōu)化器。對于BERT，本文先將樣本中的文本對用SEP 標(biāo)記分隔，然后輸入BERT-Base 模型中，取其頭部CLS 標(biāo)記的向量作為兩個句子的匹配向量，再輸入到前饋神經(jīng)網(wǎng)絡(luò)得到兩個句子的匹配結(jié)果，由于學(xué)習(xí)率太高，BERT 模型無法收斂，因此，本文將學(xué)習(xí)率設(shè)為0.00001。

4.3 基礎(chǔ)實驗

在SOCC 數(shù)據(jù)集上，基線方法以及DITM 的實驗結(jié)果如表3 所示。可以看出，在傳統(tǒng)的文本匹配算法中，BM25 的三個指標(biāo)（即NDCG@3、NDCG@5 和MAP）分別為0.400、 0.370 和0.364，優(yōu)于TF-IDF的三個指標(biāo)（分別為0.186、0.196 和0.241）。在基于表示的基線方法中，ARCI 的三個指標(biāo)分別為0.502、0.473 和0.470，優(yōu)于DSSM 的三個指標(biāo)（分別為0.486、0.470 和0.447）。在基于交互的基線方法中，ESIM 的三個指標(biāo)分別為0.908、0.845 和0.801，優(yōu)于ARCII （0.529、 0.509 和0.500）、 MV-LSTM （0.786、0.734 和0.682）和BiMPM （0.860、0.811 和0.750）。對比傳統(tǒng)的匹配算法和基于深度學(xué)習(xí)的文本匹配模型，可以看出，在SOCC 數(shù)據(jù)集上，基于深度學(xué)習(xí)的文本匹配模型可以取得更好的效果；在基于深度學(xué)習(xí)的文本匹配模型中，對比基于表示和基于交互的方法，可以看出，后者的效果均優(yōu)于前者。

表3 SOCC數(shù)據(jù)集實驗結(jié)果

相比于基線方法，本文提出的DITM 模型的三個指標(biāo)分別為0.954、0.905 和0.849，優(yōu)于兩種傳統(tǒng)的文本匹配算法（TF-IDF 和BM25）、兩種基于表示的基線方法（DSSM 和ARCI）和四種基于交互的基線方法（ARCII、MV-LSTM、BIMPM 和ESIM）。相比于傳統(tǒng)匹配算法中表現(xiàn)最好的BM25，DITM 模型的NDCG@3、NDCG@5 以及MAP 值分別提高了0.554、0.535 和0.485；相比于基于表示的模型中表現(xiàn)較好的ARCI，DITM 模型的NDCG@3、NDCG@5以及MAP 值分別提高了0.452、0.432 與0.379，均取得了較大幅度的提升；相比于基于交互的模型中表現(xiàn)最好的ESIM，DITM 模型的NDCG@3、NDCG@5以及MAP 值分別提高了0.046、0.060 與0.048。

鑒于BERT 模型在自然語言處理相關(guān)應(yīng)用中的重要性，本文進(jìn)一步將DITM 與BERT 模型的效果進(jìn)行了比較。 DITM 模型的NDCG@3 和NDCG@5值優(yōu)于BERT，而MAP 值低于BERT，總體而言兩者效果相當(dāng)接近。從模型的適用性來看，BERT 需要在大型語料庫中預(yù)先訓(xùn)練其網(wǎng)絡(luò)參數(shù)，并在針對特定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)，因此，在后者（即特定任務(wù)數(shù)據(jù)集）數(shù)據(jù)量較小的情況下也能取得較好的實驗效果。在數(shù)據(jù)量達(dá)到一定規(guī)模的情況下，BERT 相較于DITM 的優(yōu)勢有所減弱。例如，針對本文實驗數(shù)據(jù)集，從參數(shù)數(shù)量來看，BERT 作為預(yù)訓(xùn)練模型，具有更多的參數(shù)（110M），DITM 僅有7.2M 左右的參數(shù)；從計算速度上看，在針對特定任務(wù)的微調(diào)過程中，BERT 仍需要較大的計算量，相比之下，DITM 能節(jié)省一定的時間成本。

為了進(jìn)一步探究本文提出的模型與先前文本匹配模型的效果差異，本文在WikiQA、Quora 和Sci‐Tail 數(shù)據(jù)集上與六種效果較好的基線方法（包括單次交互的文本匹配模型DecAtt、 ESIM、 BiMPM、DIIN 和HCRN，以及多次交互的文本匹配模型RE2）進(jìn)行比較，研究結(jié)果如表4 所示。

表4 WikiQA、Quora、SciTail數(shù)據(jù)集實驗結(jié)果

由表4 可以看出，在WikiQA 數(shù)據(jù)集上，DITM取得了最好的效果（MAP 和MRR 值分別為0.752 和0.770）。相比于在SOCC 數(shù)據(jù)集上表現(xiàn)較好的ES‐IM，其MAP 和MRR 值分別提高了0.100 和0.106；相比于單次交互的基線方法中表現(xiàn)最好的HCRN，其MAP 和MRR 值分別提高了0.009 和0.014；相比于多次交互的RE2 模型，其MAP 和MRR 值分別提高了0.007 和0.008。在Quora 數(shù)據(jù) 集上，DITM 的Accuracy 與RE2 相同，均達(dá)到了0.892，且優(yōu)于其他的基線方法。在SciTail 數(shù)據(jù)集上，DITM 的Accura‐cy 達(dá)到了0.861，并且優(yōu)于所有的基線方法。

4.4 擴(kuò)展實驗

為了進(jìn)一步探究在基于深度交互的文本匹配模型中，網(wǎng)絡(luò)結(jié)構(gòu)對模型效果是否具有顯著影響，本文在SOCC 與WikiQA 數(shù)據(jù)集上進(jìn)行了三組擴(kuò)展實驗，以檢驗多頭注意力及其頭數(shù)、池化層角度數(shù)和交互模塊的循環(huán)次數(shù)對模型效果的影響。

4.4.1 多頭注意力及其頭數(shù)對模型效果的影響

從理論上看，1D 卷積可以融合句子中相鄰詞的語義信息，但忽視了長距離詞的影響；自注意力可以有效地解決長距離依賴問題，多頭注意力在自注意力的基礎(chǔ)上，從多個子空間學(xué)習(xí)相關(guān)的信息。因此，將1D 卷積與多頭注意力結(jié)合起來可以更好地表示句子的語義信息。為了探究多頭注意力及其頭數(shù)對模型效果的影響，在實驗中，保持其他參數(shù)不變，將多頭注意力層的輸出維數(shù)固定為256，改變注意力頭數(shù)以及每一頭的維數(shù)。其中，注意力頭數(shù)等于0 表示編碼層中去除多頭注意力，只保留1D卷積神經(jīng)網(wǎng)絡(luò)。為了公平比較，當(dāng)注意力頭數(shù)等于0 時，將1D 卷積神經(jīng)網(wǎng)絡(luò)的濾波器個數(shù)增加到與原始模型編碼層的輸出維數(shù)保持一致。在SOCC 和WikiQA 數(shù)據(jù)集實驗結(jié)果如圖2 和圖3 所示。

圖2 注意力頭數(shù)對SOCC數(shù)據(jù)集的影響

圖3 注意力頭數(shù)對WikiQA數(shù)據(jù)集的影響

由圖2 和圖3 可以看出，當(dāng)去除多頭注意力層時，相比于DITM 原模型（注意力頭數(shù)為4）的結(jié)果，在兩個數(shù)據(jù)集上的效果均顯著下降。具體而言，在SOCC 數(shù)據(jù)集上，NDCG@3、 NDCG@5 和MAP值分別下降了0.028、 0.041 和0.035；在WikiQA 數(shù)據(jù)集上，MAP 和MRR 值分別下降了0.033 和0.039。當(dāng)保留多頭注意力層時，并且注意力頭數(shù)為2、4、8 或者16 時，模型能夠取得更好的效果，在該區(qū)間中模型效果沒有顯著差異。當(dāng)注意力頭數(shù)為1 時，相比于DITM 原模型（注意力頭數(shù)為4）的結(jié)果，在SOCC 數(shù)據(jù)集上，NDCG@3、NDCG@5 和MAP值降低了0.003、 0.007 和0.006；在WikiQA 數(shù)據(jù)集上，MAP 和MRR 值分別降低了0.011 和0.015，這是因為僅在一個子空間學(xué)習(xí)信息，不能完全體現(xiàn)多頭注意力的優(yōu)越性。

4.4.2 池化層角度數(shù)對模型效果的影響

為了探究池化角度數(shù)對模型效果的影響，在實驗中，保持其余參數(shù)不變，只改變池化的角度數(shù)n。其中，角度數(shù)n等于0 表示不使用卷積神經(jīng)網(wǎng)絡(luò)，直接對融合層的結(jié)果進(jìn)行池化。由于n過大時會導(dǎo)致池化層提取的特征向量維數(shù)過大，既增加了參數(shù)數(shù)量，也容易導(dǎo)致過擬合的問題。因此，本文實驗中將n的最大值設(shè)為4。在SOCC 和WikiQA 數(shù)據(jù)集的實驗結(jié)果分別如圖4 和圖5 所示。

圖4 池化角度數(shù)對SOCC數(shù)據(jù)集的影響

圖5 池化角度數(shù)對WikiQA數(shù)據(jù)集的影響

由圖4 和圖5 可以看出，當(dāng)模型僅從一個角度進(jìn)行池化時，其效果與直接池化的方法相近。將n增加到2 時，相比于直接池化，在兩個數(shù)據(jù)集上能夠取得更好的結(jié)果。具體而言，在SOCC 數(shù)據(jù)集上，NDCG@3、 NDCG@5 和MAP 值分別提高了0.007、0.004 和0.002；在WikiQA 數(shù)據(jù)集上，MAP和MRR 值分別提高了0.004 和0.005。當(dāng)n從2 持續(xù)增加到4 時，模型效果進(jìn)一步提升。具體而言，在SOCC 數(shù)據(jù)集上，NDCG@3、 NDCG@5 和MAP 值分別提高了0.004、0.004 和0.001；在WikiQA 數(shù)據(jù)集上，MAP 和MRR 值分別提高了0.008 和0.004。

4.4.3 交互模塊的循環(huán)次數(shù)對模型效果的影響

從理論上來看，一方面，交互模塊的多次循環(huán)，能夠更好地提取兩段文本深層次語義特征以及兩者之間的交互信息，進(jìn)而有效地提升模型的效果；另一方面，若交互模塊循環(huán)次數(shù)過多，則會導(dǎo)致模型的網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜，既增加模型訓(xùn)練參數(shù)、加長推理時間，又容易丟失底層的特征，增大訓(xùn)練難度，從而導(dǎo)致效果有所下降。為探究循環(huán)次數(shù)N對模型效果的影響，在實驗中，保持其他參數(shù)不變，將N的取值范圍設(shè)為1～5，在SOCC 和WikiQA 數(shù)據(jù)集的實驗結(jié)果分別如圖6 和圖7 所示。

圖6 交互模塊循環(huán)次數(shù)對SOCC數(shù)據(jù)集的影響

圖7 交互模塊循環(huán)次數(shù)對WikiQA數(shù)據(jù)集的影響

由圖6 和圖7 可以看出，當(dāng)N從1 加到3 時，模型在兩個數(shù)據(jù)集的結(jié)果均能得到顯著的提升。具體而言，在SOCC 數(shù)據(jù)集上，NDCG@3、NDCG@5 和MAP值分別提升了0.012、 0.009 和0.008；在WikiQA 數(shù)據(jù)集上，MAP 和MRR 值分別提升了0.024 和0.028。當(dāng)N從3 加到5 時，模型效果有所下降。具體而言，在SOCC數(shù)據(jù)集上，NDCG@3、NDCG@5 和MAP值分別下降了0.011、 0.009 和0.006；在WikiQA 數(shù)據(jù)集上，MAP 和MRR 值分別下降了0.013 和0.015。這表明相對于單次交互而言，多次交互可以更全面地捕捉語義特征和句間交互信息，但當(dāng)模型過深、過復(fù)雜時，容易丟失底層特征，從而導(dǎo)致模型效果反而有所下降。從本文的數(shù)據(jù)集來看，當(dāng)交互模塊循環(huán)的次數(shù)為3 時，模型取得了最好的效果。

4.5 文本匹配效果實證分析

本文對比了DITM 和ESIM 在數(shù)據(jù)集SOCC、WikiQA 和SciTail 中的預(yù)測結(jié)果，在每個數(shù)據(jù)集中各隨機(jī)抽取一條樣本，如表5 所示?？梢钥闯?，在SOCC 數(shù)據(jù)集的樣本中，雖然兩個句子僅有一個相同詞 “smoking”，但DITM 可以很好地理解兩個句子的語義，并正確地判斷兩個句子的相關(guān)性，而ESIM 錯誤地理解句子的語義，并做出相反的判斷；在WikiQA 數(shù)據(jù)集的樣本中，相較于ESIM，DITM模型可以更好地理解問題和答案的語義，從而做出更合理的預(yù)測；在SciTail 數(shù)據(jù)集的樣本中，相較于ESIM，DITM 模型可以準(zhǔn)確地理解前提句子和假說句子的邏輯關(guān)系。

表5 文本匹配效果實證分析對比

4.6 討論

本文提出了一個基于深度交互的文本匹配模型DITM，在此基礎(chǔ)上針對三個研究問題進(jìn)行探討。針對第一個研究問題（相較于傳統(tǒng)的模型，基于深度學(xué)習(xí)的文本匹配模型是否具有更好的效果），在SOCC 數(shù)據(jù)集上的實驗結(jié)果表明，相較于傳統(tǒng)的文本匹配算法，基于深度學(xué)習(xí)的文本匹配模型能取得更好的效果。針對第二個研究問題（在基于深度學(xué)習(xí)的文本匹配模型中，基于交互的方法性能是否優(yōu)于基于表示方法），在基于深度學(xué)習(xí)的文本匹配模型中，基于交互的文本匹配模型的效果均顯著優(yōu)于基于表示的文本匹配模型。這是因為基于交互的文本匹配模型考慮到了文本對之間復(fù)雜的交互信息，能夠更好地把握語義焦點。針對第三個研究問題（在基于深度學(xué)習(xí)的文本匹配模型中，網(wǎng)絡(luò)結(jié)構(gòu)對模型效果存在怎樣的影響），在擴(kuò)展實驗部分中，本文探究了網(wǎng)絡(luò)結(jié)構(gòu)對模型效果是否具有顯著影響，從多頭注意力及其頭數(shù)、池化角度數(shù)和交互模塊的循環(huán)次數(shù)三個方面進(jìn)行實驗，實驗結(jié)果表明：①卷積層后加入多頭注意力可以有效地提升模型的效果；②多角度池化能為模型帶來更好的效果；③交互模塊多次循環(huán)能夠有效地提升模型的效果，但若循環(huán)次數(shù)過多，則會導(dǎo)致模型的網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜，會降低模型效率和效果。

從模型總體實驗效果來看，DITM 在WikiQA、Quora 和SciTail 數(shù)據(jù)集上均取得了最優(yōu)效果，在SOCC 數(shù)據(jù)集上與表現(xiàn)最優(yōu)的BERT 模型效果相近，證明了DITM 的有效性和普適性。從模型的計算成本和效率來看，DITM 模型擁有較快的運行速度和適中的參數(shù)量，在計算能力有限的情況下，面對不同場景和任務(wù)都能夠取得良好的效果，證明其具有較好的普適性。從模型的可解釋性來看，DITM 充分考慮了文本上下文信息和文本對之間的交互信息，在編碼層使用1D 卷積和多頭注意力機(jī)制對句子表示進(jìn)行編碼，既能保留句子中相鄰詞的融合信息，又能捕捉到遠(yuǎn)距離的詞信息；在共注意力層，基于注意力機(jī)制為兩段文本分別生成交互信息矩陣；最后經(jīng)過池化層，從多個角度提取信息并作為預(yù)測的依據(jù)。

從模型的推廣來看，相較于應(yīng)用在單一場景下的文本匹配模型，DITM 模型能夠在多種場景下應(yīng)用并取得了良好的效果。本文的實驗結(jié)果表明，DITM 在觀點檢索、答案挑選、釋義識別和自然語言推理四種文本匹配任務(wù)上的表現(xiàn)優(yōu)越，具有較好的競爭力。除了實驗中用到的四種任務(wù)，DITM 模型還可以推廣到其他自然語言處理任務(wù)中，如閱讀理解、機(jī)器翻譯和信息抽取等。此外，從理論上看，DITM 模型的實質(zhì)是計算文本對之間的語義相似度，當(dāng)研究對象是醫(yī)學(xué)領(lǐng)域的文本信息時，該模型可推廣到針對醫(yī)學(xué)問題的答案推薦中；當(dāng)研究對象是法律文書時，可推廣到針對法律案例的條款推薦中；當(dāng)研究對象是電子商務(wù)領(lǐng)域的產(chǎn)品評論或?qū)傩詴r，可推廣到評論情感分析或個性化推薦研究中。除此之外，DITM 模型在學(xué)術(shù)論文、地理信息系統(tǒng)或社交平臺等領(lǐng)域的研究中也具有重要的使用價值。

5 結(jié) 語

文本匹配是許多自然語言處理任務(wù)的核心部分，其要解決的問題是如何判斷兩段文本句子的關(guān)系。針對文本匹配中長距離依賴、交互信息不充足和泛化能力弱等問題，本文提出了一種基于深度交互的文本匹配模型。該模型以1D 卷積和多頭注意力作為編碼器，既注重鄰近詞的信息，又兼顧遠(yuǎn)距離詞的作用；通過多次循環(huán)以編碼層、共注意力層和融合層組成的交互模塊，充分獲取兩個句子間的交互信息；通過使用多角度池化提取關(guān)鍵信息，從而可以更好地預(yù)測兩個句子的關(guān)系。研究結(jié)果表明，DITM 在觀點檢索（SOCC）、答案挑選（WikiQA）、釋義識別（Quora）以及自然語言推理（SciTail）這四個文本匹配任務(wù)上，均取得了最好的效果，并且具有較好的泛化能力。

在后續(xù)的研究中，我們將進(jìn)一步探究基于深度交互的文本匹配模型在閱讀理解、對話等更多任務(wù)，以及醫(yī)療、電商等更多應(yīng)用場景的效果。此外，我們將在深度交互的基礎(chǔ)上，進(jìn)一步引入外部知識庫信息以增強(qiáng)對文本的語義理解，從而提升文本匹配效果。