• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多模型加權(quán)組合的文本相似度計(jì)算模型

      2023-10-17 05:49:56劉棟楊輝姬少培曹揚(yáng)
      計(jì)算機(jī)工程 2023年10期
      關(guān)鍵詞:計(jì)算結(jié)果語義向量

      劉棟,楊輝,姬少培,曹揚(yáng)

      (1.中國電子科技集團(tuán)公司第三十研究所,成都 610041;2.中電科大數(shù)據(jù)研究院有限公司,貴陽 550022;3.提升政府治理能力大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,貴陽 550022)

      0 概述

      計(jì)算2 篇短文的語義相似度在各種語言處理任務(wù)(如剽竊檢測、問題回答、機(jī)器翻譯等)中起著重要作用。語言表達(dá)的多樣性給語義文本相似度(Semantic Text Similarity,STS)任務(wù)帶來一定挑戰(zhàn),如2 個(gè)帶有不同詞匯的句子可能有相似的含義[1]。

      文獻(xiàn)[2]設(shè)計(jì)了一個(gè)依賴樹結(jié)構(gòu)的LSTM 來進(jìn)行文本建模,該模型在STS 任務(wù)中取得的性能優(yōu)于線性鏈LSTM。文獻(xiàn)[3]提出了一種用于文本建模的分層CNN-LSTM 架構(gòu),該架構(gòu)使用CNN 作為編碼器將句子編碼為連續(xù)表示,并使用LSTM 作為解碼器。為了增強(qiáng)傳統(tǒng)的捕獲上下文信息的單詞嵌入表示,文獻(xiàn)[4]提出了一種基于卷積濾波器的N-gram 詞嵌入方法,該方法在多語言情緒分析中取得了穩(wěn)健的性能。文獻(xiàn)[5]為了降低中文文本相似度計(jì)算的復(fù)雜度,同時(shí)提高文本聚類的準(zhǔn)確度,提出了一種基于DF_LDA 的文本相似度計(jì)算算法。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效減少文本特征向量維數(shù),節(jié)省文本相似度計(jì)算時(shí)間,提高文本聚類速度。文獻(xiàn)[6]提出關(guān)于語義、語句的短文本相似度分析方案,結(jié)合知識、語料庫表達(dá)術(shù)語等分析多義問題,隨后通過選區(qū)分析樹掌握短文本句法結(jié)構(gòu)信息。文獻(xiàn)[7]針對大多數(shù)NLP 神經(jīng)網(wǎng)絡(luò)模型都是以細(xì)粒度的方式提取文本,不利于從全局角度把握文本含義的問題,將傳統(tǒng)統(tǒng)計(jì)方法與深度學(xué)習(xí)模型相結(jié)合,提出了一種基于多模型非線性融合的新模型。該模型使用基于詞性的Jaccard 系數(shù)、術(shù)語頻率反向文檔頻率(TF-IDF)和Word2Vec-CNN 算法分別測量句子的相似度,根據(jù)各模型的計(jì)算精度得到歸一化權(quán)重系數(shù),并對計(jì)算結(jié)果進(jìn)行比較,然后將加權(quán)向量輸入全連接神經(jīng)網(wǎng)絡(luò)中,給出最終的分類結(jié)果。文獻(xiàn)[8]提出結(jié)合語義和中心詞管理機(jī)制的相似度計(jì)算方案。首先使用Bi-GRU 模型提取上下文信息,在獲得中心詞集后通過注意力機(jī)制和字符拼接獲得2 個(gè)句子的語義增強(qiáng)表示,最后使用一維卷積神經(jīng)網(wǎng)絡(luò)將單詞嵌入信息與上下文信息相融合。文 獻(xiàn)[9]使用語篇表征結(jié)構(gòu)(Discourse Representation Structure,DRS)用于衡量相似度,雖然該方法可以捕獲句子的結(jié)構(gòu)和語義信息,但是無法適用于句子深層語義解釋。文獻(xiàn)[10]系統(tǒng)地分析了不同層次的句法信息和語義信息對文本情感識別準(zhǔn)確性的影響,使用樹核函數(shù)作為一種直觀有效的方法,根據(jù)輸入數(shù)據(jù)的結(jié)構(gòu)化表示生成不同的特征空間。實(shí)驗(yàn)結(jié)果表明,該方法能保持語義特征和句法特征的高度融合。

      已有研究大多關(guān)注單一的文本特征或語義特征。本文在考慮次序、主題、語義等內(nèi)容的基礎(chǔ)上,結(jié)合文本的結(jié)構(gòu)化信息等,分別提出基于多詞嵌入與多層次比較以及基于Tree-GRU 的文本相似度計(jì)算模型。結(jié)合上述2 種模型構(gòu)建一種基于多模型加權(quán)組合的文本相似度計(jì)算模型。

      1 基于多詞嵌入與多層次比較的文本相似度計(jì)算模型

      本節(jié)提出一種基于多詞嵌入與多層次比較的文本相似度計(jì)算(MMTSC)模型,模型結(jié)構(gòu)如圖1 所示。MMTSC 模型的組成結(jié)構(gòu)包括3 個(gè)部分:

      圖1 MMTSC 模型架構(gòu)Fig.1 The architecture of MMTSC model

      1)多詞嵌入。輸入句子轉(zhuǎn)換為多個(gè)單詞向量,其中單個(gè)單詞包括多個(gè)嵌入向量。

      2)句子序列建模。通過最大池化操作[11]和GRU 神經(jīng)網(wǎng)絡(luò)[12]提取單詞向量的最佳詞特征,并進(jìn)行句子表示。

      3)多層次比較。針對2 個(gè)句子,從字詞比較、句子比較、詞句比較3 個(gè)方面進(jìn)行分析,通過加權(quán)計(jì)算得到最終的相似度計(jì)算結(jié)果。

      1.1 多詞嵌入

      在給定單詞w后,可結(jié)合K個(gè)預(yù)先訓(xùn)練的單詞嵌入得到 單詞向量ew,concat:

      其中:⊕是連接算子;ew,i是第i個(gè)嵌入向量。

      將單詞向量ew,concat輸入H 卷積濾波器即可得到關(guān)于單詞w的多層次嵌入表示ew,mutil,具體計(jì)算過程如下:

      其中:σ為Logistic Sigmoid函數(shù);fi表示第i個(gè)濾波器;bfi表示偏置向量。fi的轉(zhuǎn)置向量與ew,concat、bfi維度一致。

      1.2 句子序列建模

      給定輸入句子序列s=[w1,w2,…,wn],根據(jù)式(1)~式(3)得到序列的多詞嵌入表示smutil=[ew1,mutil,ew2,mutil,…,ewn,mutil]。本節(jié)通過最大池化操作和Bi-GRU 神經(jīng)網(wǎng)絡(luò)提取每個(gè)單詞向量中的最佳詞特征序列smutil,用于句子序列建模。具體過程如下:

      1)最大池化操作。為了構(gòu)造一個(gè)最大池句子嵌入es,max,從句子序列嵌入表示smutil中提取最大可能的特征表示:

      其中:ewk,mutil[i]是ewk,mutil的第i個(gè)元素。

      2)GRU 神經(jīng)網(wǎng)絡(luò)。由于基于最大池化操作提取的嵌入特征忽略了詞序的性質(zhì),因此本節(jié)基于GRU 神經(jīng)網(wǎng)絡(luò)提取句子嵌入es,GRU來補(bǔ)充句子嵌入es,max。句子嵌入smutil中的每個(gè)元素ewi,mutil被作為單個(gè)GRU 單元中前一時(shí)刻的ht-1。GRU 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練公式如下:

      其中:⊙是元素乘積操作;Wz、Wr、Ws是權(quán)重矩陣;xt是輸入數(shù)據(jù)分別是隱藏狀態(tài)、輸出狀態(tài)bz均為常數(shù);σsig和φtanh分別為Sigmoid 函數(shù)和tanh 激活函數(shù),分別用來激活控制門和隱藏狀態(tài)。

      hn是基于GRU 神經(jīng)網(wǎng)絡(luò)得到的句子嵌入es,GRU,通過將2 個(gè)句子嵌入es,max和es,GRU連接起來,得到句子嵌入es:

      1.3 多層次比較

      1.3.1 詞與詞比較

      給定2 個(gè)輸入單詞w1和w2,2 個(gè)單詞的嵌入序列表示分別為ew1,mutil[i]和ew2,mutil[i],2 個(gè)單詞的相似度向量Sdc的計(jì)算公式如下:

      其中:g()函數(shù)用于將矩陣調(diào)整為向量;ωdc、bdc分別為權(quán)重矩陣、偏差參數(shù)。

      1.3.2 句子與句子比較

      給定2 個(gè)輸入句子s1和s2,編碼處理后獲取2 個(gè)句子嵌入es1和es2,利用如下指標(biāo)計(jì)算2 個(gè)句子的相似度向量:

      1)余弦相似性εcos,計(jì)算公式如下:

      2)乘法矢量εmul和絕對值εabs,計(jì)算公式如下:

      3)神經(jīng)差異εnd,計(jì)算公式如下:

      其中:ωnd、bnd分別為權(quán)重和偏差參數(shù)矩陣。

      句子與句子的相似度向量Ssent的計(jì)算公式如下:

      其中:ωsent、bsent分別為權(quán)重和偏差參數(shù)矩陣。

      1.3.3 詞與句比較

      給定句子s1的嵌入表示序列es1和句子s2的多詞嵌入表示序列es2,multi,基于式(15)得到句子s2中第i個(gè)單詞與句子s1的相似度矩陣Ss1,ws=[Ss1,ws[1],Ss1,ws[2],…,Ss1,ws[n]]。

      其中:es2,multi[i]為單詞s2第i個(gè)單詞的多詞嵌入表示;ωws和bws分別為權(quán)重矩陣和偏差矩陣。

      基于相似度矩陣得到相似度向量的計(jì)算過程如下:

      其中:Ss2,ws為利用式(15)、式(16)計(jì)算得到的句子s1中單詞與句子s2的相似度矩陣;ωws′和bws′分別為權(quán)重和偏差矩陣。

      1.3.4 相似度計(jì)算

      針對任意2 個(gè)句子對的文本相似度分?jǐn)?shù),可以通過式(18)~式(20)計(jì)算得到:

      其中:ωl,1、ωl,2和bl,1、bl,2為模型相關(guān)參數(shù)為文本對的相似度計(jì)算結(jié)果。

      2 基于Tree-GRU 的文本相似度計(jì)算模型

      LSTM 可以在序列模型任務(wù)中很好地應(yīng)對任意長度的序列。文獻(xiàn)[13]提出了LSTM 模型對應(yīng)的變種模型,其具有較強(qiáng)的表示能力,能獲取更多的長期信息,在預(yù)測和分析不同的序列目標(biāo)時(shí)取得了良好效果。文獻(xiàn)[14]針對性地提出以GRU 為主題的Tree-GRU 模型——Child-Sum Tree-GRU。在Tree-GRU 內(nèi)存在多個(gè)GRU 單元,能從中掌握Child 的個(gè)人信息,以此合理使用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)并保持結(jié)構(gòu)的豐富性?;诖?,本節(jié)提出以Tree-GRU 模型為基礎(chǔ)的文本語義相似度計(jì)算模型。該模型首先將文本以淺層語法樹結(jié)構(gòu)的形式進(jìn)行呈現(xiàn),然后通過Tree-GRU 模型進(jìn)行文本相似度分析。

      2.1 基于短語的淺層語法樹結(jié)構(gòu)化特征

      淺層句法樹(Shallow Tree,ST)屬于簡單化的結(jié)構(gòu)信息,但是通過ST 能觀察復(fù)雜結(jié)構(gòu)的變化[15]。Severyn[16]在創(chuàng)建問答句子時(shí),關(guān)系模型選擇淺層句法樹進(jìn)行特征呈現(xiàn),取得了較為理想的實(shí)驗(yàn)結(jié)果?;赟T 結(jié)構(gòu)的句子表示如圖2 所示,ST 基本形式是深度為3 的樹,最底層(葉子節(jié)點(diǎn))用于表示單詞原型,中間部分屬于單詞的詞性,最上層能綜合多個(gè)詞匯內(nèi)容。通過處理文中的單詞信息,可以促進(jìn)文本單詞匹配概率的提升。淺層句法樹可以通過簡單化的結(jié)構(gòu)將樹核函數(shù)作用在淺層句法樹中,從而獲得多樣化的詞性信息,如詞性N-gram 特征。

      圖2 基于ST 結(jié)構(gòu)的句子表示Fig.2 Sentence representation based on ST structure

      由于淺層句法樹中可供選擇的句法信息并不多,因此本節(jié)進(jìn)行更深層次的句法信息分析。首先將相同短語成分的單詞節(jié)點(diǎn)、詞性節(jié)點(diǎn)統(tǒng)籌在相同節(jié)點(diǎn)中,隨后組織串聯(lián)多個(gè)節(jié)點(diǎn),以此建立短語淺層句法樹PST。這些相同節(jié)點(diǎn)能直接將文本中的詞匯組合成不同的句法成分,并不需要關(guān)注句法內(nèi)部結(jié)構(gòu)。如圖3 所示,文本“A man is riding a horse”中的單詞節(jié)點(diǎn)可以劃分為VP(is)、NP(A man)、PP(riding)和NP(a horse)。

      圖3 基于PST 結(jié)構(gòu)的句子表示Fig.3 Sentence representation based on PST structure

      2.2 文本相似度計(jì)算模型

      Tree-GRU 模型架構(gòu)如圖4 所示,其相似度計(jì)算過程為:首先直接將文本1、文本2 中的單詞轉(zhuǎn)換為語義實(shí)數(shù)向量;然后將文本轉(zhuǎn)換為第2.1 節(jié)中的PST結(jié)構(gòu)并進(jìn)行特征提取,使用對應(yīng)的Tree-GRU 模型進(jìn)行計(jì)算,獲得根節(jié)點(diǎn)的隱藏狀態(tài)hL和hR;最后通過hL和hR進(jìn)行文本相似度計(jì)算,獲得相似度計(jì)算結(jié)果。

      圖4 Tree-GRU 模型架構(gòu)Fig.4 The architecture of Tree-GRU model

      在使用PST時(shí),hL和hR分別表示左、右2 個(gè)文本轉(zhuǎn)換后Tree-GRU 中根節(jié)點(diǎn)o的隱藏狀態(tài)ho。ho的計(jì)算公式如下:

      利用神經(jīng)網(wǎng)絡(luò)對hL和hR進(jìn)行計(jì)算,可以得到2 個(gè)文本的相似度計(jì)算得分y∧,具體計(jì)算公式如下:

      其中:rT=[1,2,3,4,5]。

      3 基于多模型加權(quán)組合的文本相似度計(jì)算

      為了更好地強(qiáng)化模型的特征,同時(shí)保證最終文本相似度計(jì)算的準(zhǔn)確性,本節(jié)將MMTSC 模型與Tree-GRU 模型進(jìn)行加權(quán)組合,構(gòu)建一種基于多模型加權(quán)組合的文本相似度計(jì)算(WMMTSC)模型。WMMTSC 模型的計(jì)算結(jié)果如式(31)所示:

      其中:MMMTSCsim是MMTSC 模型的計(jì)算結(jié)果;MTree-GRUsim是Tree-GRU 模型的計(jì)算結(jié)果。

      WMMTSC 模型具體實(shí)現(xiàn)流程如圖5 所示。

      圖5 WMMTSC 模型架構(gòu)Fig.5 The architecture of WMMTSC model

      4 實(shí)驗(yàn)驗(yàn)證

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      采用STSB、SICK、MRPC 等3 個(gè)數(shù)據(jù)集進(jìn)行文本相似度對比實(shí)驗(yàn)。3 個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示。

      表1 數(shù)據(jù)集信息Table 1 Datasets information

      4.2 評價(jià)指標(biāo)

      選擇精確率μprecision、召回率μrecall、F1 值作為模型性能評價(jià)指標(biāo)。其中:μprecision主要面向預(yù)測結(jié)果,用于分析實(shí)際正樣本在預(yù)測正樣本中所占的比例;μrecall主要面向?qū)嶋H樣本,用于分析被預(yù)測為正的樣本在總樣本中的占比;F1 值用于綜合分析精確率和召回率,判斷結(jié)果的整體狀況,計(jì)算中用F1表示。3 個(gè)評價(jià)指標(biāo)計(jì)算公式分別如下:

      其中:NTP是正例預(yù)測為正例的個(gè)數(shù);NFP是負(fù)例預(yù)測為正例的個(gè)數(shù);NFN是正例預(yù)測為負(fù)例的個(gè)數(shù)。

      4.3 實(shí)驗(yàn)結(jié)果分析

      4.3.1 不同預(yù)訓(xùn)練單詞嵌入方法的對比

      針對不同的預(yù)訓(xùn)練單詞嵌入方法進(jìn)行對比,采用相似性得分z和預(yù)先訓(xùn)練單詞嵌入時(shí)可使用的比例p作為評價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表2 所示,最優(yōu)結(jié)果加粗標(biāo)注。從表2 可以看出,集合5 種預(yù)訓(xùn)練單詞嵌入方法相比其他數(shù)量的單詞嵌入方法效果更好,將5 種預(yù)訓(xùn)練單詞嵌入方法結(jié)合起來進(jìn)行處理,在p值提高的同時(shí)文本相似度計(jì)算結(jié)果也得到了提升。在數(shù)據(jù)集方面:SICK 數(shù)據(jù)集由于存在較少的多詞表達(dá)式和慣用詞,使得其p值較高;對于STSB 和MRPC數(shù)據(jù)集,由于MRPC 中數(shù)據(jù)無法轉(zhuǎn)換為語法樹,而STSB 中數(shù)據(jù)雖然可以轉(zhuǎn)換為語法樹,但是生成的語法樹結(jié)構(gòu)復(fù)雜,從而使得實(shí)驗(yàn)結(jié)果存在較大的偏差。

      表2 不同預(yù)訓(xùn)練單詞嵌入方法的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different pre-trained word embedding methods

      4.3.2 加權(quán)因子設(shè)置

      加權(quán)因子的設(shè)置對于WMMTSC 模型的計(jì)算結(jié)果有著重要影響。針對不同的加權(quán)因子組合進(jìn)行對比實(shí)驗(yàn),所用的數(shù)據(jù)源自STSB 數(shù)據(jù)集部分內(nèi)容,實(shí)驗(yàn)結(jié)果如表3 所示。從表3 可以看出:通過調(diào)整MMTSC 和Tree-GRU 2 種模型的權(quán)重,可以提高組合模型的文本相似度計(jì)算準(zhǔn)確性;通過組合方式能確保計(jì)算結(jié)果的精準(zhǔn)度,使文本特點(diǎn)更為多樣化;當(dāng)C1=0.6、C2=0.4 時(shí)模型性能最佳,因此,將WMMTSC模型權(quán)重參數(shù)C1和C2分別取值為0.6 和0.4。

      表3 不同C1和C2取值下的實(shí)驗(yàn)結(jié)果Table 3 Experimental results under different C1 and C2 values

      4.3.3 文本相似度實(shí)例分析

      利用WMMTSC 模型在SICK 數(shù)據(jù)集上進(jìn)行文本相似度分析實(shí)驗(yàn),結(jié)果如表4 所示。從表4 可以看出:句子對1 的主語有多個(gè)表達(dá)方式,但是意思一致,因此,相似度達(dá)到了6.7;句子對2 和句子對3分別是肯定句和否定句,相似度都保持在較低水平;在句子對4中,名詞所在位置有所不同,但是意思相同,WMMTSC 模型能客觀判斷語義關(guān)系,因此,取得了較高的相似度計(jì)算結(jié)果。通過觀察SICK 數(shù)據(jù)集中的相似度計(jì)算結(jié)果可知,模型計(jì)算結(jié)果與實(shí)際情況基本吻合,從而驗(yàn)證了WMMTSC模型的準(zhǔn)確性。

      表4 文本相似度分析結(jié)果Table 4 Results of the text similarthity analysis

      4.3.4 組合模型對比

      為客觀判斷組合模型WMMTSC 的有效性,選擇μprecision、μrecall、F1作為 評價(jià)指標(biāo),將WMMTSC 模型與MMTSC 模型、Tree-GRU 模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表5 所示。從表5 可以看出,在3 個(gè)數(shù)據(jù)集上WMMTSC 模型在3 個(gè)評價(jià)指標(biāo)上均取得了較高的數(shù)值(評價(jià)指標(biāo)數(shù)值越高,對應(yīng)的模型效果越好),這主要是因?yàn)閃MMTSC 模型結(jié)合了MMTSC、Tree-GRU 這2 種模型的優(yōu)點(diǎn),能夠更有效地實(shí)現(xiàn)句法、語義等多種信息的采集和處理。

      表5 組合模型實(shí)驗(yàn)結(jié)果對比Table 5 Comparison of experimental results of the combined models %

      4.3.5 不同句長下的相似度計(jì)算結(jié)果

      將STSB 數(shù)據(jù)集中的部分文本按句子長度進(jìn)行分類,分別統(tǒng)計(jì)不同模型的相似度計(jì)算性能。當(dāng)句長在20~90時(shí),文本將保持稀疏化,由此計(jì)算得到的結(jié)果無法具備代表性。為此,將WMMTSC 模型、M-MaxLSTM-CNN模型[16]、Tree-LSTM模型[17]分別在長度為20~90 的STSB 文本數(shù)據(jù)上進(jìn)行對比實(shí)驗(yàn),結(jié)果如表6 所示。從表6 可以看出:當(dāng)文本長度擴(kuò)增時(shí),3 種模型的計(jì)算結(jié)果均有所降低,特別是句長從20 增加到40 時(shí)尤為顯著,但是WMMTSC 模型的實(shí)驗(yàn)結(jié)果仍優(yōu)于其他模型;當(dāng)句長大于40 小于50時(shí),3 種模型的性能又會(huì)得到提升;當(dāng)句長大于50時(shí),M-MaxLSTM-CNN 模型與Tree-LSTM 模型的計(jì)算性能基本相同,Tree-LSTM 模型則在句子長度較長時(shí)相似度計(jì)算性能大幅降低。

      表6 不同句長下3 種模型的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of three models under different sentence lengths

      4.3.6 與已有模型的對比

      為驗(yàn)證WMMTSC 模型在3 個(gè)數(shù)據(jù)集上的有效性,將DT-TEAM[18]、ECNU[19]、BIT[20]、TF-KLD[21]、NNM[22]、MPCNN[23]、Tree-LSTM[16]、HCTI[24]、S-LSTM[25]、MGNC-CNN[26]、MVCNN[27]、S-MaxCNN[28]、M-MAXCNN[29]、M-MaxLSTM-CNN[17]作為對比模型,分 別在3 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表7 所示。從表7可以看出,WMMTSC 模型在3 個(gè)數(shù)據(jù)集上的文本相似度計(jì)算性能相較于其他模型具有明顯優(yōu)勢,這主要是因?yàn)槠渌P屯ǔJ褂没旌鲜止ぬ卣鳎▎卧~對齊、句法特征、N-gram 重疊)和神經(jīng)句子表示的集成方法,而WMMTSC 模型一方面使用多個(gè)預(yù)訓(xùn)練單詞嵌入方法,保持更大的詞匯嵌入比例,進(jìn)而提升相似度計(jì)算效率,另一方面則通過結(jié)構(gòu)化特征來表示句子級文本的句法、語義等信息,解決了句子級文本相似度計(jì)算方法中平面特征表征性弱的問題。

      表7 不同模型在3 個(gè)數(shù)據(jù)集上的計(jì)算結(jié)果Table 7 Computing results of different models on three datasets %

      5 結(jié)束語

      本文提出一種基于多模型加權(quán)組合的文本相似度計(jì)算模型WMMTSC。該模型首先基于多個(gè)預(yù)訓(xùn)練單詞嵌入和多層次比較來測量語義文本相似關(guān)系;然后基于淺層語法樹方法和Tree-GRU 模型進(jìn)行文本相似度計(jì)算,解決文本平面特征表征性弱的問題;最后通過對上述2 個(gè)相似度計(jì)算結(jié)果進(jìn)行加權(quán)組合,以得到文本相似度的最終計(jì)算結(jié)果。實(shí)驗(yàn)結(jié)果表明,相對于DT-TEAM、ECNU 等模型,WMMTSC 模型的文本相似度計(jì)算性能有顯著提高,能取得更好的計(jì)算分析結(jié)果。下一步將利用依存關(guān)系樹進(jìn)行文本的結(jié)構(gòu)化處理,并結(jié)合多詞嵌入方法來完成遷移學(xué)習(xí)任務(wù)。

      猜你喜歡
      計(jì)算結(jié)果語義向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      不等高軟橫跨橫向承力索計(jì)算及計(jì)算結(jié)果判斷研究
      甘肅科技(2020年20期)2020-04-13 00:30:40
      語言與語義
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      認(rèn)知范疇模糊與語義模糊
      超壓測試方法對炸藥TNT當(dāng)量計(jì)算結(jié)果的影響
      噪聲對介質(zhì)損耗角正切計(jì)算結(jié)果的影響
      营山县| 潢川县| 永登县| 宝鸡市| 临泽县| 澎湖县| 墨竹工卡县| 澄迈县| 通州市| 永州市| 阜平县| 桦甸市| 文成县| 金阳县| 马鞍山市| 乌拉特前旗| 洛宁县| 汉阴县| 沙洋县| 宜章县| 镇安县| 富蕴县| 西林县| 阜康市| 华安县| 邮箱| 临清市| 红河县| 进贤县| 兴仁县| 景东| 永修县| 沙湾县| 四川省| 宜兰县| 原平市| 奉贤区| 益阳市| 郧西县| 阜阳市| 湖南省|