• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于孿生網(wǎng)絡(luò)和字詞向量結(jié)合的文本相似度匹配①

    2022-11-07 09:08:10李奕霖周艷平
    關(guān)鍵詞:語義文本模型

    李奕霖,周艷平

    (青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,青島 266061)

    計(jì)算文本語義相似度是在考慮自然語言表達(dá)的可變性和模糊性的同時,確定句子在語義上是否等價(jià),它是自然語言處理領(lǐng)域的一個挑戰(zhàn)性問題,也是智能問答[1,2]、信息檢索[3]、文檔聚類[4]、機(jī)器翻譯[5]、簡答評分[6]等任務(wù)的重要組成部分.

    傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行相似度計(jì)算時,可以解決在詞匯層面上文本之間的匹配,但忽略了前后單詞之間所具有的語義關(guān)聯(lián)以及文本蘊(yùn)含的語法信息.例如,基于詞袋模型[7]的TF-IDF,把句子作為一個長向量,以詞為單位分開,每一維代表一個詞,對應(yīng)的權(quán)重代表這個詞在文本中的重要程度.但這種方法只能反應(yīng)字面上的重要程度,詞之間各自獨(dú)立,無法反映序列信息和語義信息; Hofmann[8]提出的PLSA 模型引入了主題層,采用期望最大化算法訓(xùn)練主題,在訓(xùn)練到不同主題的情況下,避免了同義詞和多義詞對相似度的影響,在一定程度上考慮到了語義問題.

    基于深度學(xué)習(xí)模型的文本相似度計(jì)算方法進(jìn)一步關(guān)注到了文本語義層.CNN 和RNN 通過對文本信息進(jìn)行深層卷積,使模型可以關(guān)注到文本的整體信息,相比傳統(tǒng)機(jī)器學(xué)習(xí)模型對文本的語義建模能力更強(qiáng).

    近年來,Transformer 模型[9]因強(qiáng)大的語義建模能力被廣泛應(yīng)用于NLP 領(lǐng)域,其全局自注意力機(jī)制的運(yùn)用使模型對文本特征的提取更加準(zhǔn)確.Google 提出的BERT (bidirectional encoder representations from Transformer)模型[10]在只保留encoder 部分的前提下使用雙向Transformer,這種模型對語境的理解比單向的語言模型更深刻.BERT 模型中每個隱藏層都對應(yīng)著不同抽象層次的特征,用來提取多維度特征,獨(dú)特的相對位置編碼方法使得建模能力更強(qiáng),可以更準(zhǔn)確地把握文本真實(shí)語義.

    2020年,蘇劍林[11]在BRET 模型的基礎(chǔ)上開源了以詞為單位的中文 WoBERT 模型,基于詞提取文本句向量,相比字義能更好地對文本語義進(jìn)行整體表達(dá),但是單純的以詞為單位存在一定的稀疏性,會存在有未登錄詞出現(xiàn)的現(xiàn)象,對于未登錄詞能否做到正確的語義理解具有不確定性.Reimers 等基于孿生網(wǎng)絡(luò)(Siamese network)和BERT 模型提出了SBERT 模型[12],沿用了孿生網(wǎng)絡(luò)的結(jié)構(gòu),將不同的英文文本輸入到兩個BERT 模型中,這兩個BERT 模型參數(shù)共享,獲取到每個句子的表征向量,之后再做分類目標(biāo)和回歸目標(biāo).SBERT 在文本語義相似度匹配任務(wù)上明顯優(yōu)于BERT模型.雖然SBERT 提高了運(yùn)算效率,但在本質(zhì)上還是基于表示的BERT 方法,即通過基于字的方法來提取句子表征向量,而且句子的特征交互只在網(wǎng)絡(luò)頂層進(jìn)行,將其運(yùn)用到語義復(fù)雜度高的中文文本中仍會出現(xiàn)語義理解不充分的問題.

    本文針對中文文本相似度匹配任務(wù),提出了一種基于孿生網(wǎng)絡(luò)和字詞向量結(jié)合的文本相似度匹配方法.本文整體框架采用孿生網(wǎng)絡(luò)模型,對匹配的兩段文本采用同樣的編碼器和預(yù)訓(xùn)練模型.首先通過BERT 和WoBERT 模型分別獲取字級和詞級的句向量,在字詞向量表示層采用向量并聯(lián)的方式得到融合特征向量,BERT+WoBERT 的句向量表征方法改變了僅基于BERT 的表示方法,通過聯(lián)合WoBERT 模型基于詞的句向量表征方法,讓句子轉(zhuǎn)換為具有充分語義信息的高維向量; 其次,將得到的特征向量送入特征信息整合層,得到復(fù)雜但富含充分語義信息的文本向量.針對孿生網(wǎng)絡(luò)整合過程出現(xiàn)的維度過高的問題,使用PCA 算法壓縮數(shù)據(jù)空間,將高維數(shù)據(jù)的特征映射到低維空間,實(shí)現(xiàn)對特征向量的降維降噪.通過這種計(jì)算方法使模型更有效的關(guān)注到文本的深層語義特征,解決了中文數(shù)據(jù)集中出現(xiàn)的字詞模糊性和差異性問題,提高了文本相似度匹配的準(zhǔn)確率.

    1 基礎(chǔ)模型

    1.1 BERT 預(yù)訓(xùn)練模型

    Google 提出的BERT 是一個預(yù)訓(xùn)練的語言表征模型,將文本中無法直接計(jì)算的字轉(zhuǎn)變?yōu)榭捎?jì)算的向量形式,這些向量能夠更好地反映出字在句子中的含義.

    BERT 模型使用兩個無監(jiān)督預(yù)訓(xùn)練任務(wù).

    (1)遮蔽語言模型: 隨機(jī)選擇句子15%的詞用于預(yù)測,其中80%的詞用[MASK]替換,10%的被隨機(jī)換掉,剩下的10%保持不變.

    (2)下一句預(yù)測: 判斷兩句話是否為前后句關(guān)系,選擇訓(xùn)練集里的句子 A 和 B 時,句子B 有 50% 幾率是 A 的下一句,50%是隨機(jī)選擇的句子.

    BERT 模型的編碼層通過聯(lián)合調(diào)節(jié)所有層中的雙向Transformer 來訓(xùn)練,使模型能夠充分提取輸入文本的語義信息.圖1 為BERT 模型的結(jié)構(gòu)圖,Trm 為Transformer 編碼器,E1,E2,…,En為模型的輸入向量,T1,T2,…,Tn為輸出向量,經(jīng)過計(jì)算得到句子seq_A的特征向量表示f(seq_A).

    圖1 BERT 模型結(jié)構(gòu)圖

    BERT 模型只使用了Transformer 架構(gòu)中的encoder模塊,棄用了decoder 模塊.其中,encoder 模塊的多頭自注意力機(jī)制可以從多個維度準(zhǔn)確提取文本語義特征,其主要運(yùn)算過程如下: 首先進(jìn)行自注意力的計(jì)算,將輸入向量E1,E2,…,En與給定的權(quán)重矩陣WQ、WK、WV相乘得到向量Q、K、V.Q表示與這個單詞相匹配單詞的屬性,K表示這個單詞本身的屬性,V表示這個單詞所包含的信息本身.

    通過attention 計(jì)算得到自注意力值:

    其中,dk為向量K的維度.將Q、K、V通過線性映射的方式分為n份,對每一份分別進(jìn)行自注意力的計(jì)算,最后通過并聯(lián)的方式將n個自注意力模塊結(jié)合起來,然后通過左乘權(quán)重矩陣的線性映射方法得到最終輸出,完成整個多頭注意力模塊的計(jì)算,計(jì)算如下:

    其中,

    1.2 WoBERT 預(yù)訓(xùn)練模型

    WoBERT 是以詞為單位的中文預(yù)訓(xùn)練模型,讓序列變短,處理速度變快,語義更明確.

    WoBERT 模型相對BERT 模型做出了如下改進(jìn):

    (1)加入前分詞操作,進(jìn)行中文分詞.

    (2)使用動態(tài)的Mask 操作,將訓(xùn)練數(shù)據(jù)重復(fù)10次,使得每輪訓(xùn)練的Mask 的位置不同.

    (3)學(xué)習(xí)任務(wù)只有遮蔽語言模型,取消了下一句預(yù)測任務(wù).

    (4)batch size 從256 擴(kuò)大為8k.

    (5)刪除了BERT 模型自帶詞匯表的中文冗余部分,比如帶##的中文字詞,將結(jié)巴分詞自帶的詞匯表中詞頻最高的兩萬個加入詞匯表,減少了未登錄詞的出現(xiàn)概率,最終詞匯表規(guī)模為33 586.

    1.3 孿生網(wǎng)絡(luò)

    孿生網(wǎng)絡(luò)定義兩個網(wǎng)絡(luò)結(jié)構(gòu)分別表征對應(yīng)的輸入內(nèi)容,分為孿生網(wǎng)絡(luò)和偽孿生網(wǎng)絡(luò).孿生網(wǎng)絡(luò)中的兩個網(wǎng)絡(luò)結(jié)構(gòu)相同且共享參數(shù),當(dāng)兩個句子來自同一領(lǐng)域且在結(jié)構(gòu)上有很大的相似度時可選擇孿生網(wǎng)絡(luò); 偽孿生網(wǎng)絡(luò)可以是不同結(jié)構(gòu)的網(wǎng)絡(luò)或不共享參數(shù)的同結(jié)構(gòu)網(wǎng)絡(luò),計(jì)算兩個不同領(lǐng)域的句子相似度時可以選擇偽孿生網(wǎng)絡(luò).本文研究兩個文本的相似度,采用兩個網(wǎng)絡(luò)結(jié)構(gòu)相同且共享參數(shù)的孿生網(wǎng)絡(luò)模型.其模型基礎(chǔ)結(jié)構(gòu)如圖2 所示,孿生網(wǎng)絡(luò)結(jié)構(gòu)簡單,訓(xùn)練穩(wěn)定,以兩個樣本input1 和input2 為輸入,其兩個子網(wǎng)絡(luò)各自接收一個輸入,子網(wǎng)共享權(quán)重使得訓(xùn)練需要更少的參數(shù),這意味著需要更少的數(shù)據(jù)并且不容易過擬合.

    圖2 孿生網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)

    2 模型和方法

    本文提出的基于孿生網(wǎng)絡(luò)和字詞向量結(jié)合的文本相似度匹配模型結(jié)構(gòu)如圖3 所示,主要分為4 層: 輸入層、字詞向量表示層、特征信息整合層、輸出層.

    圖3 本文模型結(jié)構(gòu)圖

    2.1 輸入層

    BERT 模型的輸入是將字向量(tokening embeddings)、文本向量(segment embeddings)和位置向量(position embeddings)拼接得到Eci作為模型輸入.如圖4 所示.

    圖4 BERT 模型輸入層

    由于以字為單位的建模方法在處理中文數(shù)據(jù)集時存在語義確定性不高的問題,模型往往難以對文本中重復(fù)出現(xiàn)的字準(zhǔn)確提取真實(shí)語義特征.本文引入WoBERT模型,輸入向量用Ewj表示,此模型與BERT 模型建模形式不同的地方在于tokenize 為了分出中文單詞在BERT模型的tokenize 中加入了一個前分詞操作.WoBERT模型的tokenize 方法流程如圖5 所示.

    圖5 WoBERT 模型的tokenize 流程圖

    對“從青島北站怎么去棧橋”這句話,token embeddings 通過詞匯表使用WordPiece 嵌入,用Etoken表示;字的位置向量用Eposition表示; 由于模型中只有一個輸入句子,所以每一個字所處的某個句子信息是一樣的Esegment.輸入向量的計(jì)算公式如下:

    經(jīng)過WoBERT 的tokenize 方法處理之后為[‘[CLS]’,‘從’,‘青島’,‘北站’,‘怎么’,‘去’,‘棧橋’,‘[SEP]’].

    使用孿生網(wǎng)絡(luò)訓(xùn)練時的輸入形式為:

    [CLS]seq_A[SEP] [CLS]seq_B[SEP]

    由于模型運(yùn)行過程中,內(nèi)存占用率與輸入模型句子長度l成平方增長,但batch 增加只略微影響到訓(xùn)練時間,采用孿生網(wǎng)絡(luò)的訓(xùn)練方式可以縮短模型的訓(xùn)練時間.

    2.2 字詞向量表示層

    采用BERT 和WoBERT 模型分別獲取句子的字向量和詞向量表示,最終得到一個句子的兩種表達(dá)方式.

    具體步驟如下:

    (1)通過BERT 模型在LCQMC 數(shù)據(jù)集上訓(xùn)練得到對應(yīng)文本x的句向量表達(dá).每個句子得到一個二維矩陣chari,行數(shù)為文本中字的個數(shù)Ci,列數(shù)為768 維.

    (2)通過WoEBRT 模型在LCQMC 數(shù)據(jù)集上訓(xùn)練得到對應(yīng)文本x的句向量表達(dá).每個句子得到一個二維矩陣wordj,行數(shù)為文本中詞的個數(shù)Wj,列數(shù)為768 維.

    (3)對得到的Ci×768 和Wj×768 維度的文本向量分別進(jìn)行歸一化,對所有特征向量按行取平均作為最終向量f(x)、g(x),維度均為1×768.

    (4)對得到的基于字詞級別的文本向量f(x)、g(x)進(jìn)行并聯(lián)操作,得到基于字詞向量結(jié)合的文本向量s(x):

    2.3 特征信息整合層

    降低向量維數(shù)會損失原始數(shù)據(jù)中具有可變性的一些特征向量,但也會帶來一些積極作用,例如減少計(jì)算時間、避免過擬合、去除噪聲等.PCA 算法(principal component analysis)是流行的線性降維算法之一,它將一組相關(guān)變量(P)轉(zhuǎn)換為較小的K(K<P)個特征子空間,同時盡可能多地保留原始文本的主要特征.

    Su 等人[13]提出,在處理相似度匹配任務(wù)時,對BERT模型進(jìn)行降維操作可以有效去除數(shù)據(jù)噪聲,提高模型準(zhǔn)確率的同時降低計(jì)算復(fù)雜度.BERT 模型輸出維度為768,在特征信息整合層,并聯(lián)組合會使輸出的向量維度達(dá)到上千維,冗余信息多且占用內(nèi)存大.本文用PCA算法對字詞向量結(jié)合后的輸出向量進(jìn)行降維處理:

    (1)對輸入的特征向量進(jìn)行歸一化.

    (2)計(jì)算輸入樣本特征向量的協(xié)方差矩陣.

    (3)計(jì)算協(xié)方差矩陣的特征值和特征向量.

    (4)選取協(xié)方差矩陣前K列作為降維矩陣.

    (5)降維矩陣映射到低維空間完成降維計(jì)算.

    本文將融合后的向量S(seq_A)、S(seq_B)維度降為384 維,得到兩個輸入句子的特征向量u和v.去除文本噪聲的同時降低模型的整體建模難度,提高了模型的靈活性和準(zhǔn)確率.

    本文探索了不同的特征整合方式對實(shí)驗(yàn)結(jié)果的影響,采用通過字詞向量結(jié)合并進(jìn)行向量降維后得到向量u、v、兩個向量差的絕對值|u-v|和兩個向量乘積的絕對值|u×v|做并聯(lián)的整合策略作為最終實(shí)驗(yàn)方案.

    2.4 輸出層

    Softmax 函數(shù)在進(jìn)行二分類任務(wù)時使用二項(xiàng)分布的計(jì)算方法,相對于Sigmoid 函數(shù)的單一建模方法,它可以對兩個類別進(jìn)行建模,得到兩個相加為1 的概率預(yù)測結(jié)果.

    本文通過Softmax 函數(shù)對輸出的文本向量進(jìn)行訓(xùn)練,損失函數(shù)采用交叉熵?fù)p失.最終輸出結(jié)果為0 和1,0 表示進(jìn)行匹配的兩段文本不相似,1 表示相似.

    3 實(shí)驗(yàn)及分析

    3.1 數(shù)據(jù)集

    本文使用的數(shù)據(jù)集LCQMC 是一個大規(guī)模的中文問答數(shù)據(jù)集,側(cè)重于語義匹配而不是簡單的復(fù)述,要求模型能夠深度挖掘文本的高層語義信息.語料庫由兩個問題和一個標(biāo)簽組成,標(biāo)簽是0 和1 兩種形式,0 表示不相似,1 表示相似.數(shù)據(jù)集共有260 068 對句子對,其中訓(xùn)練集238 766,驗(yàn)證集8 802,測試集12 500.部分?jǐn)?shù)據(jù)集樣例如表1 所示.

    表1 部分?jǐn)?shù)據(jù)集樣例

    3.2 評價(jià)指標(biāo)

    為驗(yàn)證本文方法的效果,采用準(zhǔn)確率、召回率、精確率、F1 值的評價(jià)指標(biāo)來驗(yàn)證算法的有效性.

    (1)準(zhǔn)確率(accuracy),表示預(yù)測結(jié)果預(yù)測正確的比率.

    (2)召回率(recall),衡量檢索文本相似度的查全率.

    (3)精確率(precision),衡量檢索文本相似度的查準(zhǔn)率.

    (4)F1 值,對精確率和召回率的整體評價(jià).F1 值越大,說明精確率和召回率更均衡.

    3.3 實(shí)驗(yàn)環(huán)境配置和參數(shù)說明

    本文實(shí)驗(yàn)環(huán)境如表2.

    表2 實(shí)驗(yàn)環(huán)境配置信息

    選用BERT 預(yù)訓(xùn)練模型為BERT-Base-Chinese,最大序列長度為128,訓(xùn)練批次為8,學(xué)習(xí)率為2E-5,共訓(xùn)練5 輪.選用WoBERT 預(yù)訓(xùn)練模型為蘇劍林等[11]以RoBERTa-wwm-ext 模型為基礎(chǔ)訓(xùn)練得到的WoBERT模型,最大序列長度為128,訓(xùn)練批次為16,學(xué)習(xí)率為5E-6.

    訓(xùn)練Softmax 分類器時,選用交叉熵?fù)p失函數(shù),訓(xùn)練批次為100,訓(xùn)練輪數(shù)為1 000,學(xué)習(xí)率為0.01.

    3.4 實(shí)驗(yàn)結(jié)果及分析

    在LCQMC 數(shù)據(jù)集上進(jìn)行了如下4 組對比實(shí)驗(yàn):

    (1)將字詞向量結(jié)合生成句向量的文本相似度計(jì)算方法,與單一字向量和單一詞向量生成句向量的方法進(jìn)行了性能比較.

    (2)使用PCA 算法對特征向量降至不同維度對模型性能的影響.

    (3)不同的特征向量融合方式對模型性能的影響.

    (4)將本文模型與已發(fā)表的方法進(jìn)行性能比較.

    在文本句向量表達(dá)模塊中,使用如下3 種方法提取文本句向量:

    (1)使用BERT 得到基于字級別的句向量表示.

    (2)使用WoBERT 得到基于詞級別的句向量表示.

    (3)使用BERT+WoBERT 得到基于字詞向量結(jié)合的句向量表示.

    在分別得到兩個句向量表示之后,通過并聯(lián)操作進(jìn)行特征向量融合然后輸入Softmax 分類器進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果如表3 所示.

    表3 字詞向量結(jié)合方法(%)

    由表3 可見,盡管字詞向量結(jié)合的文本句向量提取方法在召回率上稍低,但在準(zhǔn)確率、精確率和F1 值上較BERT 和WoBERT 模型都有所提升,證明了字詞向量結(jié)合方法的語義表征能力.

    為了對BERT 及WoBERT 模型進(jìn)行評估,繪制了兩種模型在數(shù)據(jù)集上訓(xùn)練過程中的loss 變化以及驗(yàn)證集的準(zhǔn)確率曲線,如圖6-圖8.從圖中可見,BERT 模型相對WoBERT收斂更快,雖然兩個模型單次訓(xùn)練時輸入網(wǎng)絡(luò)的數(shù)據(jù)量不同,但WoBERT 模型最終loss 值更低,且在驗(yàn)證集上的最高準(zhǔn)確率值優(yōu)于BERT 模型.

    圖6 LCQMC 數(shù)據(jù)集上BERT 模型訓(xùn)練的loss 曲線

    圖7 LCQMC 數(shù)據(jù)集上WoBERT 模型訓(xùn)練的loss 曲線

    圖8 LCQMC 數(shù)據(jù)集上驗(yàn)證的 accuracy 值變化圖

    孿生網(wǎng)絡(luò)在進(jìn)行相似度計(jì)算時,將兩段文本分為兩個batch 分別提取句向量,需要對兩段特征向量進(jìn)行融合.本文對不同特征融合方法進(jìn)行了對比實(shí)驗(yàn),經(jīng)過BERT+WoBERT 字詞向量結(jié)合方法得到的兩個輸入文本的特征向量u、v,采用如下多種方式進(jìn)行實(shí)驗(yàn):

    (1)向量相加:

    (2)向量相乘:

    (3)向量并聯(lián):

    (4)向量并聯(lián)組合1:

    (5)向量并聯(lián)組合2:

    本文針對不同向量融合方式進(jìn)行了5 組實(shí)驗(yàn),由表4 可見,u+v的融合方式較(u,v)方法準(zhǔn)確率提高了0.28%,而u×v融合方式的實(shí)驗(yàn)效果不佳.當(dāng)采用(u,v,|u-v|,|u×v|)的融合方式時,準(zhǔn)確率和F1 值分別達(dá)到了88.86%和88.42%,有著不錯的匹配效果.

    表4 不同向量融合方式實(shí)驗(yàn)結(jié)果(%)

    為證明采用PCA 算法進(jìn)行適當(dāng)降維操作可以有效去除數(shù)據(jù)噪聲,提高模型的識別準(zhǔn)確率且加快訓(xùn)練速度,本文以BERT 模型作為baseline 在LCQMC 數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),指定PCA 的n_components 參數(shù)也就是主成分分別為整數(shù)384、256 和100,求得對應(yīng)的貢獻(xiàn)率,實(shí)驗(yàn)如下:

    由表5 可見,將BERT 輸出的768 維向量降至384 維使得輸入Softmax 的向量維度由1 536 降至原來一半,模型識別準(zhǔn)確率達(dá)到最高.再降至256 維會損失一些特征值,導(dǎo)致準(zhǔn)確率降低.說明在輸入分類器的向量維度較高時,使用PCA 算法降維降噪的有效性.

    表5 不同向量維度的對比實(shí)驗(yàn)(%)

    將本文方法在LCQMC 數(shù)據(jù)集上與已發(fā)表的方法在準(zhǔn)確率、精確率、召回率和F1 值上做了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6 所示.

    表6 不同方法的測試結(jié)果(%)

    本文的對比模型如下.

    (1)BiLSTM-char: 以字向量作為輸入的雙向LSTM文本相似度匹配模型.

    (2)BiLSTM-word: 以詞向量作為輸入的雙向LSTM文本相似度匹配模型.

    (3)BiMPM-char: 以字向量作為輸入,基于 BiLSTM的雙邊多角度文本相似度匹配模型.

    (4)BiMPM-word: 以詞向量作為輸入,基于 BiLSTM的雙邊多角度文本相似度匹配模型.

    (5)MSEM: 結(jié)合文本編碼模型和近似最近鄰搜索技術(shù)的通用語義檢索框架.

    (6)Siamese- LSTM[14]: 基于孿生網(wǎng)絡(luò)和雙層雙向LSTM 的文本相似度匹配模型.

    (7)BERT: 以字為單位的預(yù)訓(xùn)練模型,可以完成適用于文本匹配的下游任務(wù).

    (8)SBERT[15]: 基于孿生網(wǎng)絡(luò)和BERT 的文本相似度匹配模型.

    (9)WoBERT: 以詞為單位的中文預(yù)訓(xùn)練模型,可以完成適用于文本匹配的下游任務(wù).

    從表6 的結(jié)果可見,BiLSTM 和BiMPM 只使用字或詞單粒度下的特征提取方法,不足以充分捕獲中文文本的特征信息.MSEM 考慮詞和字嵌入到一起作為文本表示,準(zhǔn)確率相對之前方法有所提高,但沒有捕捉不同粒度之間的相關(guān)特征,表達(dá)能力仍然有限.BERT模型憑借強(qiáng)大的建模能力相對之前方法取得了較大提升.SBERT 模型使用了最大池化和全連接層的Siamese-BERT 模型,在LCQMC 數(shù)據(jù)集上的準(zhǔn)確率與BERT模型相當(dāng),驗(yàn)證了基于BERT 的孿生網(wǎng)絡(luò)模型的有效性.WoBERT 模型較BERT 模型在準(zhǔn)確度上有所提高,說明以中文文本為基礎(chǔ)的基于詞粒度的預(yù)訓(xùn)練語言模型能更充分的理解中文語義.本文在孿生網(wǎng)絡(luò)的基礎(chǔ)上,基于字粒度和詞粒度融合特征對文本進(jìn)行建模,解決了只使用BERT 模型或WoBERT 模型提取句子特征向量表達(dá)單一的問題,驗(yàn)證了多角度獲取文本特征信息方法的有效性,進(jìn)一步提高模型性能,在LCQMC 數(shù)據(jù)集上通過與其他模型的對比實(shí)驗(yàn)證明了本文模型在文本相似度匹配任務(wù)上的有效性.

    4 結(jié)論與展望

    本文提出了一種基于孿生網(wǎng)絡(luò)和字詞向量結(jié)合的文本相似度匹配方法,采用字詞向量結(jié)合的BERTWoBERT 模型解決了傳統(tǒng)模型難以關(guān)注到中文文本語義語法信息的問題,通過孿生網(wǎng)絡(luò)和PCA 算法探索多種融合方式以及降維降噪對相似度匹配結(jié)果的影響,然后通過Softmax 分類器進(jìn)行二分類,最終在LCQMC數(shù)據(jù)集上取得了不錯的相似度匹配結(jié)果.

    然而本文模型存在參數(shù)量過大,計(jì)算時間復(fù)雜度過高的缺點(diǎn),下一步嘗試將預(yù)訓(xùn)練模型進(jìn)行知識蒸餾,在不降低準(zhǔn)確率的前提下加快模型速度,解決資源占用率較大的問題.

    猜你喜歡
    語義文本模型
    一半模型
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
    語言與語義
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    3D打印中的模型分割與打包
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    認(rèn)知范疇模糊與語義模糊
    免费高清在线观看日韩| 精品久久久精品久久久| 欧美精品人与动牲交sv欧美| 欧美 日韩 精品 国产| 午夜老司机福利剧场| av.在线天堂| 久久久久久久大尺度免费视频| 97超视频在线观看视频| 日韩av在线免费看完整版不卡| 国产一区二区三区综合在线观看 | 亚洲av男天堂| 狠狠婷婷综合久久久久久88av| 久久毛片免费看一区二区三区| 国产成人a∨麻豆精品| 日韩伦理黄色片| 亚洲成人av在线免费| 午夜免费观看性视频| 久久久久久久大尺度免费视频| 美女cb高潮喷水在线观看| 九色成人免费人妻av| 亚洲一区二区三区欧美精品| 久久鲁丝午夜福利片| 国产日韩欧美亚洲二区| 最近手机中文字幕大全| 欧美另类一区| 久久久久精品久久久久真实原创| 久久热精品热| 欧美人与性动交α欧美精品济南到 | 狠狠婷婷综合久久久久久88av| 欧美精品一区二区大全| 成人手机av| 777米奇影视久久| 国产高清国产精品国产三级| 免费av中文字幕在线| 各种免费的搞黄视频| 婷婷色麻豆天堂久久| 男女免费视频国产| 国产精品人妻久久久久久| 91成人精品电影| 女的被弄到高潮叫床怎么办| 免费日韩欧美在线观看| 亚洲成人手机| 天堂8中文在线网| 国产精品欧美亚洲77777| 最黄视频免费看| 亚洲精品日韩在线中文字幕| www.av在线官网国产| 黄色欧美视频在线观看| 欧美3d第一页| 中文字幕精品免费在线观看视频 | 欧美日韩成人在线一区二区| 插逼视频在线观看| 久久亚洲国产成人精品v| h视频一区二区三区| 亚洲精品久久成人aⅴ小说 | 99久久精品一区二区三区| 亚洲少妇的诱惑av| 亚洲av综合色区一区| 少妇熟女欧美另类| 2021少妇久久久久久久久久久| 91精品国产国语对白视频| 夫妻午夜视频| 日本猛色少妇xxxxx猛交久久| 看非洲黑人一级黄片| 永久免费av网站大全| 岛国毛片在线播放| 精品视频人人做人人爽| 一级毛片aaaaaa免费看小| 国产精品国产av在线观看| 久久久久久久亚洲中文字幕| 亚洲精品456在线播放app| 亚洲欧美中文字幕日韩二区| 亚洲高清免费不卡视频| 成人影院久久| 桃花免费在线播放| 五月伊人婷婷丁香| 亚洲精品日韩在线中文字幕| 天堂中文最新版在线下载| 成人亚洲欧美一区二区av| 国产午夜精品一二区理论片| 伊人久久国产一区二区| 啦啦啦视频在线资源免费观看| 自拍欧美九色日韩亚洲蝌蚪91| 国产一区二区在线观看日韩| 亚洲一区二区三区欧美精品| 欧美日韩一区二区视频在线观看视频在线| 伊人久久精品亚洲午夜| 午夜免费观看性视频| 在线观看人妻少妇| 晚上一个人看的免费电影| 在线免费观看不下载黄p国产| 国产精品久久久久成人av| 日本爱情动作片www.在线观看| 国产视频首页在线观看| xxx大片免费视频| 亚洲欧洲国产日韩| 久久99一区二区三区| 色网站视频免费| 久久久久国产网址| 久久久精品免费免费高清| 日产精品乱码卡一卡2卡三| 精品国产一区二区三区久久久樱花| 黄色欧美视频在线观看| 乱码一卡2卡4卡精品| 中文字幕免费在线视频6| 国产精品国产三级国产专区5o| 我要看黄色一级片免费的| 亚洲婷婷狠狠爱综合网| 久久精品久久精品一区二区三区| a级毛片免费高清观看在线播放| 免费不卡的大黄色大毛片视频在线观看| 日韩伦理黄色片| 亚洲美女黄色视频免费看| av网站免费在线观看视频| 精品国产露脸久久av麻豆| 五月开心婷婷网| 少妇高潮的动态图| 免费看不卡的av| 亚洲精品久久成人aⅴ小说 | 美女中出高潮动态图| 国产av一区二区精品久久| 欧美人与善性xxx| 久久久亚洲精品成人影院| 人人妻人人澡人人爽人人夜夜| 五月开心婷婷网| 你懂的网址亚洲精品在线观看| 亚洲激情五月婷婷啪啪| 91aial.com中文字幕在线观看| 九九久久精品国产亚洲av麻豆| 久久久久久伊人网av| 免费久久久久久久精品成人欧美视频 | 亚洲五月色婷婷综合| 中文字幕亚洲精品专区| 久久精品国产亚洲av天美| 亚洲av成人精品一区久久| 久久这里有精品视频免费| 国产午夜精品一二区理论片| 久久这里有精品视频免费| 赤兔流量卡办理| 国产一区二区三区综合在线观看 | 国产又色又爽无遮挡免| 成人午夜精彩视频在线观看| 亚洲精品乱码久久久v下载方式| 999精品在线视频| 亚洲不卡免费看| av黄色大香蕉| videos熟女内射| h视频一区二区三区| 日日摸夜夜添夜夜添av毛片| 欧美日本中文国产一区发布| 五月开心婷婷网| 免费av不卡在线播放| 成人亚洲精品一区在线观看| 中文字幕人妻丝袜制服| 亚洲欧美一区二区三区黑人 | 亚洲精品国产色婷婷电影| 多毛熟女@视频| 在线观看美女被高潮喷水网站| 9色porny在线观看| xxxhd国产人妻xxx| 一本大道久久a久久精品| av不卡在线播放| 国产黄色视频一区二区在线观看| 韩国av在线不卡| 国产色婷婷99| 色5月婷婷丁香| 久久久亚洲精品成人影院| 色婷婷av一区二区三区视频| 多毛熟女@视频| 欧美 亚洲 国产 日韩一| 乱码一卡2卡4卡精品| 夫妻性生交免费视频一级片| 久久久久久久久大av| 91精品伊人久久大香线蕉| 内地一区二区视频在线| 看免费成人av毛片| 久久久久精品久久久久真实原创| 亚洲精品国产色婷婷电影| 午夜91福利影院| 热re99久久精品国产66热6| 91精品国产九色| 黑人巨大精品欧美一区二区蜜桃 | 老司机亚洲免费影院| 热99国产精品久久久久久7| av国产精品久久久久影院| 国产精品国产三级国产av玫瑰| 精品久久久久久久久av| 男女高潮啪啪啪动态图| 久久久久久久精品精品| 2021少妇久久久久久久久久久| 久久久久精品性色| 少妇 在线观看| 成年av动漫网址| 免费人成在线观看视频色| .国产精品久久| 人成视频在线观看免费观看| 精品国产乱码久久久久久小说| 国产伦精品一区二区三区视频9| 亚洲av电影在线观看一区二区三区| 亚洲高清免费不卡视频| 国产免费视频播放在线视频| 热99国产精品久久久久久7| 啦啦啦啦在线视频资源| 一级爰片在线观看| 精品视频人人做人人爽| 国产成人freesex在线| 男女免费视频国产| 欧美日韩在线观看h| 18禁裸乳无遮挡动漫免费视频| 一级毛片电影观看| 男男h啪啪无遮挡| 亚洲四区av| 超碰97精品在线观看| 极品少妇高潮喷水抽搐| 欧美97在线视频| 亚洲,欧美,日韩| 黄色一级大片看看| 永久网站在线| av播播在线观看一区| 国国产精品蜜臀av免费| 国模一区二区三区四区视频| 99热这里只有精品一区| 考比视频在线观看| 亚洲成色77777| 中文天堂在线官网| 精品久久久久久久久亚洲| 成人国语在线视频| 成人漫画全彩无遮挡| 亚洲精品国产av成人精品| 少妇 在线观看| 国产爽快片一区二区三区| 少妇精品久久久久久久| 赤兔流量卡办理| 国产欧美亚洲国产| 夜夜看夜夜爽夜夜摸| 中文天堂在线官网| 视频在线观看一区二区三区| 久久精品久久久久久噜噜老黄| 国产成人精品婷婷| av一本久久久久| 日本爱情动作片www.在线观看| 插阴视频在线观看视频| 少妇人妻精品综合一区二区| 婷婷成人精品国产| 国产深夜福利视频在线观看| 国产精品麻豆人妻色哟哟久久| 久久久久久久久久久丰满| av专区在线播放| 在线精品无人区一区二区三| 久久精品人人爽人人爽视色| 在线天堂最新版资源| 大陆偷拍与自拍| 国产熟女欧美一区二区| 天天躁夜夜躁狠狠久久av| 欧美人与性动交α欧美精品济南到 | 亚洲国产欧美日韩在线播放| 中文字幕亚洲精品专区| 免费少妇av软件| 日韩一区二区视频免费看| 伊人久久精品亚洲午夜| 国产熟女欧美一区二区| 日本色播在线视频| 欧美精品国产亚洲| 亚洲成人手机| 一边摸一边做爽爽视频免费| 国产成人aa在线观看| 熟妇人妻不卡中文字幕| 在线观看免费视频网站a站| videosex国产| 日产精品乱码卡一卡2卡三| 少妇丰满av| 亚洲国产av新网站| 国产精品人妻久久久影院| 久久人人爽人人爽人人片va| 中文字幕最新亚洲高清| 好男人视频免费观看在线| 99热这里只有是精品在线观看| 老女人水多毛片| 人妻一区二区av| 亚洲成色77777| 成人毛片60女人毛片免费| 亚洲精品日韩av片在线观看| 五月玫瑰六月丁香| 91久久精品国产一区二区成人| 春色校园在线视频观看| 亚洲五月色婷婷综合| 18禁观看日本| 午夜免费男女啪啪视频观看| 国产精品.久久久| 亚洲精品乱码久久久久久按摩| 精品人妻偷拍中文字幕| 欧美精品一区二区大全| 国产国语露脸激情在线看| 中国国产av一级| 狂野欧美激情性xxxx在线观看| 国产精品久久久久久av不卡| 久久青草综合色| 成年人午夜在线观看视频| 亚洲av在线观看美女高潮| 91精品一卡2卡3卡4卡| 国产免费一级a男人的天堂| 日韩不卡一区二区三区视频在线| 在线观看国产h片| 男人爽女人下面视频在线观看| 99热这里只有精品一区| 国产一区二区三区综合在线观看 | 乱人伦中国视频| 免费看不卡的av| 久久久久久久久久久久大奶| 国产精品女同一区二区软件| 亚洲精品一区蜜桃| 欧美人与善性xxx| 18在线观看网站| 男女边吃奶边做爰视频| 国产在视频线精品| av黄色大香蕉| 在线看a的网站| 成人影院久久| 中文字幕制服av| 日韩成人伦理影院| 纵有疾风起免费观看全集完整版| 99热网站在线观看| 观看美女的网站| 在线免费观看不下载黄p国产| 国产成人精品一,二区| 亚洲av二区三区四区| 亚洲美女黄色视频免费看| 伦理电影免费视频| 亚洲国产精品成人久久小说| 日本91视频免费播放| 人人妻人人澡人人爽人人夜夜| 婷婷色综合大香蕉| 久久99热这里只频精品6学生| 欧美xxxx性猛交bbbb| 免费看不卡的av| 少妇被粗大猛烈的视频| 免费观看性生交大片5| 国产一级毛片在线| 国产欧美亚洲国产| 国产极品粉嫩免费观看在线 | 亚洲精品国产av成人精品| 久久久精品免费免费高清| 只有这里有精品99| 黑人欧美特级aaaaaa片| 国产乱来视频区| 麻豆成人av视频| av免费观看日本| 精品少妇久久久久久888优播| 中文字幕免费在线视频6| 国产在线视频一区二区| av免费观看日本| 国产av国产精品国产| 久久久久久久大尺度免费视频| 九草在线视频观看| 精品久久久久久电影网| 性色avwww在线观看| 国产一区有黄有色的免费视频| 久久人妻熟女aⅴ| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲国产色片| 国产精品人妻久久久久久| 国产 一区精品| 一区二区三区四区激情视频| 高清毛片免费看| .国产精品久久| 亚洲国产av影院在线观看| 99九九在线精品视频| av在线app专区| 精品熟女少妇av免费看| 国产欧美另类精品又又久久亚洲欧美| 午夜福利影视在线免费观看| 一个人免费看片子| 国产永久视频网站| 久久午夜综合久久蜜桃| 久久久精品区二区三区| 尾随美女入室| 哪个播放器可以免费观看大片| 欧美 亚洲 国产 日韩一| 亚洲精品一二三| 国产极品粉嫩免费观看在线 | 国产精品久久久久久精品电影小说| 蜜桃在线观看..| 国产熟女午夜一区二区三区 | 亚洲久久久国产精品| 免费播放大片免费观看视频在线观看| 91久久精品国产一区二区成人| 久久精品国产a三级三级三级| 99视频精品全部免费 在线| 黑人高潮一二区| 免费黄色在线免费观看| 91精品三级在线观看| 一区在线观看完整版| 99九九线精品视频在线观看视频| 一级黄片播放器| 高清视频免费观看一区二区| 日本vs欧美在线观看视频| 我要看黄色一级片免费的| 另类亚洲欧美激情| 欧美日韩成人在线一区二区| 18禁在线播放成人免费| 免费看av在线观看网站| 18+在线观看网站| 日韩精品有码人妻一区| 丰满少妇做爰视频| 欧美精品高潮呻吟av久久| 夜夜看夜夜爽夜夜摸| 日本wwww免费看| 嫩草影院入口| 亚洲av在线观看美女高潮| 99精国产麻豆久久婷婷| 一级毛片 在线播放| 婷婷色综合www| 免费少妇av软件| 中文字幕人妻丝袜制服| av又黄又爽大尺度在线免费看| 一区二区三区免费毛片| 国产亚洲av片在线观看秒播厂| 九九在线视频观看精品| 少妇人妻久久综合中文| 久久ye,这里只有精品| 婷婷色av中文字幕| 日韩,欧美,国产一区二区三区| 国产一区二区在线观看日韩| 亚洲欧美日韩卡通动漫| 亚洲第一av免费看| 亚洲精品乱码久久久久久按摩| av在线播放精品| 亚洲成人一二三区av| 黑丝袜美女国产一区| 国产精品免费大片| 在线观看www视频免费| 亚洲经典国产精华液单| 日韩中文字幕视频在线看片| 九色亚洲精品在线播放| 91精品三级在线观看| 亚洲综合色惰| 亚洲av福利一区| 老司机亚洲免费影院| 久久久久国产网址| 亚洲av.av天堂| 亚洲欧美日韩另类电影网站| www.av在线官网国产| 各种免费的搞黄视频| 久久人人爽人人片av| 亚洲中文av在线| 亚洲av福利一区| 久久精品久久久久久久性| 亚洲经典国产精华液单| 黑人高潮一二区| 日本黄色片子视频| 精品国产一区二区三区久久久樱花| av一本久久久久| 中文乱码字字幕精品一区二区三区| 麻豆成人av视频| 国产亚洲欧美精品永久| 纯流量卡能插随身wifi吗| 午夜福利网站1000一区二区三区| 黄色怎么调成土黄色| 中国国产av一级| 国产成人精品无人区| 久久久精品94久久精品| 飞空精品影院首页| 国产成人精品无人区| 日日摸夜夜添夜夜爱| 成年女人在线观看亚洲视频| 菩萨蛮人人尽说江南好唐韦庄| 精品人妻熟女av久视频| 人人妻人人澡人人爽人人夜夜| 男女国产视频网站| 91成人精品电影| 91国产中文字幕| 免费观看的影片在线观看| 欧美人与善性xxx| 国产精品人妻久久久影院| 性色av一级| 欧美三级亚洲精品| 久久人人爽av亚洲精品天堂| av在线app专区| 最新的欧美精品一区二区| 一区二区三区免费毛片| 午夜免费男女啪啪视频观看| 搡女人真爽免费视频火全软件| 一级黄片播放器| 成人亚洲精品一区在线观看| 多毛熟女@视频| 极品少妇高潮喷水抽搐| 亚洲天堂av无毛| 亚洲人与动物交配视频| av.在线天堂| 午夜免费鲁丝| 赤兔流量卡办理| 我的女老师完整版在线观看| 99热这里只有是精品在线观看| 天堂中文最新版在线下载| 久久 成人 亚洲| 蜜桃在线观看..| 日韩中文字幕视频在线看片| 蜜桃久久精品国产亚洲av| 亚洲精品乱码久久久久久按摩| 国产免费一区二区三区四区乱码| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 大香蕉久久成人网| 热99国产精品久久久久久7| 黄色配什么色好看| a级毛片免费高清观看在线播放| 91成人精品电影| 日本wwww免费看| 嘟嘟电影网在线观看| 最新的欧美精品一区二区| 亚洲四区av| 久久久久久久久久久免费av| 成人18禁高潮啪啪吃奶动态图 | 色94色欧美一区二区| 国产日韩一区二区三区精品不卡 | 满18在线观看网站| 一区二区三区乱码不卡18| 国产欧美亚洲国产| 久久综合国产亚洲精品| 国产精品国产av在线观看| 九色成人免费人妻av| 精品亚洲成国产av| 日韩精品有码人妻一区| 丝袜在线中文字幕| av在线观看视频网站免费| 亚洲人与动物交配视频| 国产成人精品久久久久久| 好男人视频免费观看在线| 国产探花极品一区二区| 久久久久人妻精品一区果冻| 亚洲丝袜综合中文字幕| 中文精品一卡2卡3卡4更新| 精品亚洲乱码少妇综合久久| 少妇被粗大猛烈的视频| 飞空精品影院首页| 久久99蜜桃精品久久| 久久人人爽人人片av| 国产永久视频网站| 中文乱码字字幕精品一区二区三区| 肉色欧美久久久久久久蜜桃| 精品少妇内射三级| 亚洲中文av在线| xxxhd国产人妻xxx| 亚洲性久久影院| 国产精品女同一区二区软件| 亚洲欧美成人精品一区二区| 亚洲欧洲精品一区二区精品久久久 | 国产成人精品婷婷| 在线观看一区二区三区激情| 日韩av免费高清视频| 久久久欧美国产精品| 人人妻人人添人人爽欧美一区卜| 不卡视频在线观看欧美| 91久久精品国产一区二区三区| 在线观看免费视频网站a站| 一区二区三区乱码不卡18| 我的老师免费观看完整版| 中文字幕精品免费在线观看视频 | 制服诱惑二区| 亚洲精品一区蜜桃| 国产成人精品婷婷| 熟女av电影| 卡戴珊不雅视频在线播放| 亚洲第一区二区三区不卡| 久久精品夜色国产| 欧美人与性动交α欧美精品济南到 | 九九在线视频观看精品| 亚洲国产色片| 街头女战士在线观看网站| 久久精品国产亚洲av天美| 五月玫瑰六月丁香| 欧美老熟妇乱子伦牲交| 亚洲欧美日韩卡通动漫| 免费高清在线观看日韩| 99久国产av精品国产电影| 大陆偷拍与自拍| 色婷婷久久久亚洲欧美| 中文天堂在线官网| 欧美日韩av久久| freevideosex欧美| a级毛色黄片| 成人黄色视频免费在线看| 999精品在线视频| 美女主播在线视频| 欧美3d第一页| 国产精品无大码| 91精品国产九色| 久久精品国产自在天天线| 99热这里只有精品一区| 国产伦精品一区二区三区视频9| 久久精品国产a三级三级三级| 日韩制服骚丝袜av| 丝袜喷水一区| 国产亚洲欧美精品永久| 秋霞伦理黄片| 成人18禁高潮啪啪吃奶动态图 | av播播在线观看一区| 国产精品蜜桃在线观看| 亚洲精品日韩av片在线观看| 狠狠精品人妻久久久久久综合| 日韩不卡一区二区三区视频在线| 黑人巨大精品欧美一区二区蜜桃 | 亚洲天堂av无毛| 纯流量卡能插随身wifi吗| 日韩精品有码人妻一区| 精品亚洲成a人片在线观看| 亚州av有码| 久久狼人影院| 国产精品一区二区在线不卡| 色5月婷婷丁香| 高清不卡的av网站| 国产男女超爽视频在线观看| 亚洲欧美清纯卡通| 男的添女的下面高潮视频| 国产无遮挡羞羞视频在线观看| 亚洲av成人精品一二三区|