• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RBBLA混合模型的文本相似度計(jì)算方法

      2024-01-01 00:00:00任喜偉杜豐怡向啟懷李兆允趙杉
      關(guān)鍵詞:注意力機(jī)制

      摘 要:文本相似度計(jì)算是兩個(gè)或多個(gè)文本之間相似程度的度量,它被廣泛用于多個(gè)場(chǎng)景.針對(duì)現(xiàn)有研究存在的缺乏上下文交互特征捕獲、語義結(jié)構(gòu)信息表示不足等問題,提出一種基于RBBLA(RoBERTa-BiLSTM-Attention)混合模型的文本相似度計(jì)算方法,該模型基于RoBERTa模型預(yù)訓(xùn)練,獲得詞語的向量化表示,并提取句子中的語義特征;接著使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)及注意力機(jī)制提取上下文依賴關(guān)系;最后將兩句子的文本特征經(jīng)聚合操作后由Softmax函數(shù)處理得到相似度評(píng)分結(jié)果.將RBBLA模型與RoBERTa等基準(zhǔn)模型在LCQMC數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,與最優(yōu)模型相比,RBBLA模型在準(zhǔn)確率、精確率等指標(biāo)上分別提升了2.9、2.1個(gè)百分點(diǎn).

      關(guān)鍵詞:文本相似度; RoBERTa; 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM); 注意力機(jī)制

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)志碼: A

      A method for calculating text similarity based on RBBLA hybrid model

      REN Xi-wei1, DU Feng-yi1, XIANG Qi-huai2, LI Zhao-yun1, ZHAO Shan1

      (1.School of Electronic Information and Artificial Intelligence, Shaanxi Provincial Artificial Intelligence Joint Laboratory, Shaanxi University of Science amp; Technology," Xi′an 710021, China; 2.Xi′an Branch, Datang Mobile Communication Equipment Co., Ltd., Xi′an 710061, China)

      Abstract:Text similarity calculation is a measure of the degree of similarity between two or more texts,which is widely used in multiple scenarios.A text similarity calculation method based on RBBLA (RoBERTa BiLSTM Attention) hybrid model is proposed to address the issues of lack of contextual interaction feature capture and insufficient representation of semantic structure information in existing research.The model is pre trained based on the RoBERTa model to obtain the vectorized representation of words and extract semantic features in sentences; Then,a bidirectional short-term memory network and attention mechanism are used to extract contextual dependencies; Finally,the text features of the two sentences are aggregated and processed by the Softmax function to obtain a similarity score result.Comparing the RBBLA model with benchmark models such as RoBERTA on the LCQMC dataset,the results showed that compared with the optimal model,the RBBLA model improved accuracy and accuracy by 2.9 and 2.1 percentage points,respectively.

      Key words:text similarity; RoBERTa; bidirectional long short-term memory network (BiLSTM); attention mechanism

      0 引言

      文本相似度計(jì)算是自然語言處理中的重要任務(wù)之一,一般指求解兩個(gè)文本間的語義相似度(Semantic Textual Similarity,STS),通過將文本轉(zhuǎn)換為特征向量,以向量的相似度值來量化兩文本的相似度值[1].文本相似度計(jì)算有諸多應(yīng)用,在文本分類中,可依據(jù)兩句子的相似度值判斷其是否屬于同一類別,從而進(jìn)行文本分類檢索、匹配[2];在問答系統(tǒng)中,文本相似度可用來衡量提出的問題與候選答案的匹配度[3];在推薦系統(tǒng)中,文本相似度可刻畫用戶喜好,從而精準(zhǔn)推薦[4].

      早期針對(duì)文本相似度計(jì)算的研究主要集中在長(zhǎng)文本領(lǐng)域,而隨著網(wǎng)絡(luò)的發(fā)展短文本迅速普及.但短文本卻存在著上下文信息不充分、缺乏背景知識(shí)等問題[5,6].目前基于短文本相似度的研究有以下兩類:一類是基于統(tǒng)計(jì)的文本相似度計(jì)算方法[7],這種方法源于一種上下文相似單詞具有相似語義的假設(shè),主要有何丹丹等[8]使用的向量空間模型和覃俊等[9]使用的主題模型;但這類方法缺乏上下文的交互性,語義信息提取不準(zhǔn)確;接著是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,這類方法過于依賴人工提取特征,模型無法很好泛化[10,11].另一類是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,該方法自動(dòng)提取文本特征并進(jìn)行相似度計(jì)算,在語義提取上表現(xiàn)優(yōu)秀,應(yīng)用較多.獲取分布式詞向量是該方法的第一步.Word2vec模型[12]、Glove模型[13]、FastText模型[14]首先被提出,但這三種模型生成的詞向量都是靜態(tài)的,無法很好地處理詞語多義性問題.因此,動(dòng)態(tài)詞向量被提出,如ELMO模型[15]、GPT模型[16]、BERT模型[17]、以及本文用到的RoBERTa模型[18,19].張巖等[20]提出一種基于孿生BERT網(wǎng)絡(luò)并添加注意力池化的相似度計(jì)算方法,注重整體語義表達(dá),對(duì)于石油鉆井文獻(xiàn)的相似度度量效果較好;馮月春等[21]提出一種改進(jìn)的BiLSTM網(wǎng)絡(luò)提取詞特征,多層相似加權(quán)的文本相似度計(jì)算方法,在長(zhǎng)文本上效果顯著;徐菲菲等[22]提出了將注意力機(jī)制引入孿生網(wǎng)絡(luò)(Siamese Network),并融合BiLSTM網(wǎng)絡(luò)的文本相似度計(jì)算方法,在Quora語句對(duì)集和螞蟻金服句對(duì)集上效果有明顯提升,但其使用的是靜態(tài)詞向量模型Word2vec,未結(jié)合動(dòng)態(tài)詞向量模型.

      鑒于此,本文提出了一種基于深度學(xué)習(xí)模型來計(jì)算文本相似度的方法.該模型首先使用RoBERTa模型對(duì)輸入文本預(yù)訓(xùn)練,得到詞語的向量化表示并提取其中語義特征;然后將其輸出再輸入到BiLSTM網(wǎng)絡(luò)中,進(jìn)一步捕獲上下文信息;接著融合Attention機(jī)制,對(duì)輸入文本中的信息進(jìn)行權(quán)重計(jì)算;最后將兩句子的文本特征經(jīng)全連接層聚合操作后由Softmax函數(shù)處理得出最終的評(píng)分結(jié)果.

      1 本文模型

      1.1 模型結(jié)構(gòu)

      針對(duì)傳統(tǒng)文本相似度計(jì)算模型存在的一詞多義、語義特征捕獲不足等問題,本文提出了一種混合深度學(xué)習(xí)模型:RBBLA模型.其架構(gòu)如圖1所示.該模型包括輸入預(yù)處理層、動(dòng)態(tài)詞向量轉(zhuǎn)換層、上下文語義信息提取層、注意力機(jī)制層、語義相似度計(jì)算層.

      1.2 輸入預(yù)處理層

      本文使用的RoBERTa預(yù)訓(xùn)練模型接受經(jīng)預(yù)處理后轉(zhuǎn)換為數(shù)字化的Token序列,預(yù)處理過程包括分詞、編碼、填充三個(gè)步驟.

      首先RoBERTa模型采用BPE分詞算法.該算法將單詞拆分為更小的子詞,然后遞歸地合并出現(xiàn)頻率最高的一對(duì)相鄰字符或子詞,直到達(dá)到預(yù)定的詞匯表大小,以便模型無需先驗(yàn)知識(shí)就能更好的處理未見過的單詞.

      其次是編碼.RoBERTa模型將每個(gè)詞或者子詞映射到一個(gè)唯一的整數(shù)編號(hào):TokenID,然后將每個(gè)TokenID通過對(duì)應(yīng)的嵌入矩陣得到該Token的嵌入向量.接著計(jì)算該Token在輸入序列中的位置編碼序列,并為每個(gè)序列的開頭添加”[CLS]” 標(biāo)記、結(jié)尾添加”[SEP]” 標(biāo)記.然后,將Token的嵌入向量和位置編碼向量相加,得到最終的輸入向量.

      最后一個(gè)步驟是填充.RoBERTa模型能夠接受的輸入序列最大長(zhǎng)度為512個(gè)Token.如果輸入的序列長(zhǎng)度小于512,需要使用“[PAD]”標(biāo)記將其填充至512;如果輸入序列大于512,需要對(duì)序列進(jìn)行截?cái)?,只保留?12個(gè)Token.

      如圖2所示,將原始文本輸入后先分詞并轉(zhuǎn)換為固定維度表示,接著對(duì)不同句子區(qū)分并結(jié)合位置編碼來得到預(yù)處理后的詞嵌入向量.

      1.3 動(dòng)態(tài)詞向量轉(zhuǎn)換層

      本模型的RoBERTa層使用了共計(jì)12層Transformer模型的Encoder部分來初步提取輸入文本的上下文信息并生成詞向量,該邏輯結(jié)構(gòu)如圖3所示.

      模型中的多頭注意力模塊將輸入的詞向量分別進(jìn)行不同的線性變換后再進(jìn)行注意力計(jì)算,可以讓每個(gè)注意力機(jī)制去優(yōu)化輸入詞向量的不同特征部分,提取多樣化特征的同時(shí)均衡由同一種注意力機(jī)制帶來的偏差.通過計(jì)算注意力權(quán)重,模型可以確定每個(gè)子詞在上下文中的重要性,并將這些重要性信息融合到詞向量中.

      在自注意力機(jī)制后,RoBERTa模型通過前饋神經(jīng)網(wǎng)絡(luò)對(duì)子詞的表示進(jìn)行非線性轉(zhuǎn)換,增強(qiáng)特征表達(dá).在每個(gè)Transformer編碼器層中,RoBERTa模型使用層標(biāo)準(zhǔn)化來規(guī)范化子詞的表示.它可以使模型在訓(xùn)練過程中更加穩(wěn)定.

      經(jīng)多層Transformer編碼器堆疊后,最后一個(gè)編碼器層的輸出被用作模型的最終表示,獲得動(dòng)態(tài)詞向量,建立起詞嵌入向量之間的聯(lián)系,使模型學(xué)習(xí)到在不同語境下詞嵌入向量的語義特征.

      1.4 上下文語義信息提取層

      長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,它通過引入門控機(jī)制來解決傳統(tǒng)RNN中存在的梯度消失和梯度爆炸問題,從而更好處理具有長(zhǎng)期依賴的數(shù)據(jù).

      LSTM網(wǎng)絡(luò)的核心是 “LSTM單元”模塊,其邏輯架構(gòu)如圖4所示.其中,ft表示遺忘門,控制歷史信息的保留程度;it表示輸入門,控制輸入信息的更新程度;ot表示輸出門,決定隱藏層信息中有多少量會(huì)被傳遞到輸出層;ht表示t時(shí)刻隱藏層狀態(tài),用來存儲(chǔ)和傳遞長(zhǎng)短期網(wǎng)絡(luò)信息.

      與LSTM網(wǎng)絡(luò)相比,BiLSTM網(wǎng)絡(luò)將兩個(gè)方向相反、并行運(yùn)行的LSTM網(wǎng)絡(luò)結(jié)合,通過隱藏狀態(tài)存儲(chǔ)上下文信息,從而更好的捕捉時(shí)序數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系,其邏輯架構(gòu)如圖1中的“BiLSTM”模塊所示.

      在BiLSTM網(wǎng)絡(luò)的正向運(yùn)算中,網(wǎng)絡(luò)利用當(dāng)前時(shí)刻t的輸入信息和上一時(shí)刻t-1的隱藏狀態(tài)計(jì)算得到t時(shí)刻的正向隱藏狀態(tài)St;在反向運(yùn)算中,網(wǎng)絡(luò)對(duì)當(dāng)前時(shí)刻t的輸入信息和下一時(shí)刻t+1的隱藏狀態(tài)來計(jì)算得到t時(shí)刻的反向隱藏狀態(tài)Yt,其計(jì)算公式分別如式(1)、(2)所示;最后通過將正向和反向的LSTM網(wǎng)絡(luò)隱藏狀態(tài)進(jìn)行拼接,可以得到一個(gè)包含上下文信息的特征向量St,其計(jì)算公式如式(3)所示:

      St=f(Uxt+WSt-1)

      (1)

      Yt=f(U′xt+W′Yt+1)

      (2)

      Vt=g(VSt+V′Yt)

      (3)

      式(1)~(3)中:W、U、V代表正向計(jì)算時(shí)的權(quán)重矩陣,U′、W′、V′代表反向計(jì)算時(shí)的權(quán)重矩陣.

      1.5 注意力機(jī)制層

      盡管BiLSTM網(wǎng)絡(luò)能夠較好地捕獲上下文依賴關(guān)系,但是無法檢測(cè)到句子中不同詞語對(duì)句子的整體貢獻(xiàn),因此本文提出的RBBLA模型融合了Attention機(jī)制,對(duì)BiLSTM網(wǎng)絡(luò)層的輸出詞向量加權(quán).這種方法有選擇性地關(guān)注相關(guān)性強(qiáng)的信息,可減少預(yù)測(cè)所需要的可學(xué)習(xí)權(quán)重?cái)?shù)量,更高效地提取關(guān)鍵詞.

      Attention層首先對(duì)BiLSTM網(wǎng)絡(luò)層輸出的文本上下文包含的關(guān)鍵信息Xc進(jìn)行計(jì)算并將其映射為特征向量,通過縮放點(diǎn)積的方式計(jì)算輸入的特征向量與查詢特征向量的相似度,其計(jì)算如公式(4)所示;然后將相似函數(shù)的計(jì)算結(jié)果用Softmax函數(shù)進(jìn)行歸一化,得到注意力分布向量α,其計(jì)算如公式(5)所示;最后將注意力分布向量αT與BiLSTM網(wǎng)絡(luò)層輸出的上下文關(guān)鍵信息Xc相乘得到輸出Y,Y即是進(jìn)一步捕獲到的文本中的關(guān)鍵詞信息,其計(jì)算如公式(6)所示.

      H=(XcT·Q)dk

      (4)

      α=softmax(H)

      (5)

      Y=Xc·αT

      (6)

      式(4)~(6)中:Q表示查詢向量,dk表示注意力機(jī)制層的調(diào)整因子.

      1.6 語義相似度計(jì)算層

      本模型先利用全連接層將兩文本語義相似的特征表示轉(zhuǎn)化為預(yù)測(cè)實(shí)例標(biāo)簽的輸出,將來自前一層的輸入連接到后續(xù)層中的激活單元,通過全連層的輸出進(jìn)行壓縮,將模型的高維度特征轉(zhuǎn)換為低維度向量.具體來說,將Attention層得到的關(guān)鍵詞輸出Y與全連接層的權(quán)重矩陣Wd計(jì)算后得到輸出M,其計(jì)算如公式(7)所示:

      M=tanh(Wd·Y+bd)

      (7)

      式(7)中:bd表示全連接層的偏置參數(shù).

      接著采用SoftMax函數(shù)對(duì)全連接層的輸出向量運(yùn)算,并將所有指數(shù)相加再除以總和,從而得到兩個(gè)樣本相似程度的概率分布,此概率分布即可看作兩文本的相似度分布.其計(jì)算過程如公式(8)所示:

      probability=soft max(Wx·M+b)

      (8)

      式(8)中:Wx為輸出層的權(quán)重矩陣,M為全連接層的輸出向量,b為輸出層的偏置參數(shù).

      對(duì)于相似的分布,通過對(duì)相似度得分進(jìn)行Softmax歸一化操作,將相似度得分轉(zhuǎn)化為概率分布,使相似度較高的樣本具有較高的概率值.對(duì)于不相似的分布,同樣使用Softmax函數(shù)進(jìn)行歸一化,將不相似度的得分轉(zhuǎn)化為概率分布,使不相似度較高的樣本具有較低的概率值,從而實(shí)現(xiàn)兩文本的相似度計(jì)算.

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

      實(shí)驗(yàn)采用Python3.8和Pytorch1.8.1訓(xùn)練框架,BERT的版本是bert-base,RoBERTa的版本是chinese-roberta-wwm-ext.其都是基于12層堆疊的雙向Transformer架構(gòu).硬件設(shè)置CPU為E5-2686v4(128G),GPU為Tesla K80(24 G).

      實(shí)驗(yàn)采用LCQMC數(shù)據(jù)集[23]來進(jìn)行文本相似度計(jì)算任務(wù),LCQMC是一個(gè)大規(guī)模中文問答匹配語料庫,全稱為L(zhǎng)arge-scale Chinese Question Matching Corpus.該數(shù)據(jù)集由哈工大社會(huì)計(jì)算與信息檢索研究中心發(fā)布,包含了超過400,000對(duì)中文問答對(duì),涵蓋各種主題和語言現(xiàn)象.其每個(gè)句子對(duì)都使用“0”和“1”標(biāo)注是否具有語義上的相似性.其具體劃分如表1所示.

      2.2 模型參數(shù)分析

      為了進(jìn)一步提高文本相似度計(jì)算的準(zhǔn)確率,本實(shí)驗(yàn)采用了學(xué)習(xí)率衰減的策略.學(xué)習(xí)率用來控制模型參數(shù)更新的步長(zhǎng),通過驗(yàn)證準(zhǔn)確率的變化調(diào)整學(xué)習(xí)率,可以使模型在訓(xùn)練過程中更加穩(wěn)定地接近全局最優(yōu)解.同時(shí)實(shí)驗(yàn)探究了不同的BatchSize和Dropout值對(duì)模型準(zhǔn)確率的影響.BatchSize的大小影響著訓(xùn)練過程中完成每個(gè)Epoch的所需時(shí)間和每次迭代之間梯度的平滑程度.Dropout通過反向傳播的過程中讓一定比例的神經(jīng)元不更新來緩解模型過擬合現(xiàn)象.

      如圖5所示,本實(shí)驗(yàn)設(shè)置了BatchSize在32、64、128、256以及Dropout在0.1、0.2、0.3、0.4、0.5、0.7、0.8時(shí)各方面指標(biāo)的變化,可以看出BatchSize被設(shè)置為64和128時(shí)各項(xiàng)指標(biāo)相差不大,但考慮到效率及避免陷入局部最優(yōu),選擇BatchSize為64;而Dropout取0.3時(shí),模型效果最優(yōu),提高了模型的泛化能力.

      2.3 超參數(shù)設(shè)置

      經(jīng)反復(fù)實(shí)驗(yàn)證明,使用表2所示的超參數(shù)設(shè)置,模型可達(dá)到最佳效果.本實(shí)驗(yàn)中,使用BatchSize表示每個(gè)批次中訓(xùn)練樣本的數(shù)量.為構(gòu)建BiLSTM網(wǎng)絡(luò),設(shè)置兩層LSTM網(wǎng)絡(luò)結(jié)構(gòu),并將兩層LSTM結(jié)構(gòu)設(shè)置相同隱藏層單元數(shù).Epoch表示訓(xùn)練迭代次數(shù),即整個(gè)訓(xùn)練數(shù)據(jù)集被遍歷的次數(shù).LR表示學(xué)習(xí)率的初始值,Patience表示當(dāng)模型在驗(yàn)證集上的準(zhǔn)確率連續(xù)低于最高點(diǎn)N次后停止訓(xùn)練.

      2.4 對(duì)比模型

      為驗(yàn)證RBBLA模型在文本相似度分析任務(wù)中的有效性,本文將RBBLA模型與現(xiàn)有的幾種典型的文本分類模型進(jìn)行比較.本文實(shí)驗(yàn)共與以下七種文本相似度模型進(jìn)行了對(duì)比.

      (1) ABCNN模型:通過加入Attention機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)文本相似度計(jì)算;

      (2) BERT模型:通過BERT預(yù)訓(xùn)練模型實(shí)現(xiàn)文本相似度計(jì)算;

      (3) RoBERTa模型:通過RoBERTa預(yù)訓(xùn)練模型實(shí)現(xiàn)文本相似度計(jì)算;

      (4) BiLSTM模型:通過學(xué)習(xí)句子上下文語義信息實(shí)現(xiàn)文本相似度計(jì)算;

      (5) BiLSTM-Attention模型[24]:通過在BiLSTM網(wǎng)絡(luò)中加Attention機(jī)制實(shí)現(xiàn)文本相似度計(jì)算;

      (6) 基于BERT的孿生網(wǎng)絡(luò)模型[25]:通過BERT預(yù)訓(xùn)練模型獲取詞嵌入向量作為輸入向量,然后再輸入到孿生網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)文本相似度計(jì)算;

      (7) BSLA模型[26]:通過BERT預(yù)訓(xùn)練模型得到字級(jí)別詞嵌入向量,再引入Attention機(jī)制,對(duì)相似詞分配更大的權(quán)重,增強(qiáng)了對(duì)文本中相似詞的識(shí)別能力,實(shí)現(xiàn)文本相似度計(jì)算.

      2.5 評(píng)價(jià)標(biāo)準(zhǔn)

      本實(shí)驗(yàn)采用準(zhǔn)確率ACC、精確率P、召回率R、以及F1值等4個(gè)指標(biāo)來評(píng)價(jià)模型性能,其計(jì)算公式分別如式(9)~(12)所示:

      ACC=TP+TNTP+FP+TN+FN

      (9)

      P=TPTP+FP

      (10)

      R=TPTP+FN

      (11)

      F1=2PRP+R

      (12)

      式(9)~(12)中:TP表示正樣本預(yù)測(cè)為正樣本的數(shù)量;TN表示負(fù)樣本預(yù)測(cè)為負(fù)樣本的數(shù)量;FN表示正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量;FP表示負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量.

      2.6 本文模型對(duì)比實(shí)驗(yàn)分析

      為評(píng)估RBBLA模型在文本相似度計(jì)算任務(wù)中的性能,將本模型在LCQMC數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并將其與上述七種模型進(jìn)行實(shí)驗(yàn)對(duì)比,以準(zhǔn)確率、精確率等指標(biāo)作為比較標(biāo)準(zhǔn).

      從表3所示的結(jié)果可以觀察到,RBBLA模型在準(zhǔn)確率、精確率、召回率和F1值等指標(biāo)上表現(xiàn)優(yōu)于ABCNN、BERT等基線模型,并且分別超過性能最好的RoBERTa模型2.9%、2.1%、2.9%、3.0%.這說明相較于基于卷積神經(jīng)網(wǎng)絡(luò)的ABCNN模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的BiLSTM模型以及其他的典型基線模型,本文提出的RBBLA融合模型結(jié)合了RoBERTa的詞向量生成能力、BiLSTM網(wǎng)絡(luò)的上下文關(guān)系捕獲能力以及注意力機(jī)制的重要權(quán)重學(xué)習(xí)能力,在文本相似度計(jì)算上有更好的性能.

      與同類型論文中提出的BERT-孿生網(wǎng)絡(luò)、BSLA模型相比,RBBLA比效果較好的BSLA模型在準(zhǔn)確率、精確率、召回率、F1值上分別高出了3.0%、4.2%、3.9%、3.6%.這說明相比較于其他論文中的模型,本模型在融合了BiLSTM網(wǎng)絡(luò)和Attention機(jī)制后,更加精準(zhǔn)的捕捉到了上下文的語義信息及影響兩文本相似度判別的關(guān)鍵詞語,對(duì)文本相似度的計(jì)算效果有了比較明顯的提升.

      同時(shí)為了進(jìn)一步研究本文提出的RBBLA模型的性能,在測(cè)試集上首先對(duì)模型的整體損失率進(jìn)行了動(dòng)態(tài)刻畫,變化如圖6所示,由于Patience值的存在,本次實(shí)驗(yàn)進(jìn)行了4個(gè)Epoch便下降到0.101的最佳效果.同時(shí)經(jīng)4個(gè)Epoch訓(xùn)練后在訓(xùn)練集上準(zhǔn)確率達(dá)到了0.898,可以說明本模型在文本相似度計(jì)算任務(wù)中的優(yōu)勢(shì).

      2.7 引入預(yù)訓(xùn)練模型及注意力機(jī)制實(shí)驗(yàn)分析

      本模型主要使用預(yù)訓(xùn)練模型進(jìn)行詞向量的獲取,為探究本文模型方法中預(yù)訓(xùn)練模型對(duì)文本相似度計(jì)算的影響,對(duì)RBBLA模型和使用BERT預(yù)訓(xùn)練模型的BBLA(BERT-BiLSTM-Attention)模型進(jìn)行了文本相似度計(jì)算性能對(duì)比,其實(shí)驗(yàn)結(jié)果如表4所示.

      從表4可以看出,相比較與BBLA模型,RBBLA模型在準(zhǔn)確率、精確率、召回率、F1值上分別高出了4.0%、2.9%、4.0%、4.1%.結(jié)合表3數(shù)據(jù),說明RoBERTa模型不僅擁有更高的準(zhǔn)確率,也更適合中文文本,它不僅在單個(gè)模型中表現(xiàn)好于BERT模型,在融合了BiLSTM以及注意力機(jī)制后性能依舊優(yōu)于BBLA模型.

      同時(shí)為了探究RBBLA模型中注意力機(jī)制對(duì)文本相似度計(jì)算的影響,對(duì)RBBLA模型和去掉注意力機(jī)制的RoBERTa-BiLSTM模型進(jìn)行了性能對(duì)比.從表4可以看出,本文提出的RBBLA模型在準(zhǔn)確率、精確率、召回率、F1值上相較于RBBL模型分別高出了4.0%、2.8%、4.0%、4.1%,說明注意力機(jī)制在文本相似度計(jì)算的任務(wù)中起到了關(guān)鍵的作用.

      3 結(jié)論

      在大數(shù)據(jù)時(shí)代,構(gòu)建一個(gè)準(zhǔn)確度高的文本相似度計(jì)算模型必不可少.現(xiàn)有的文本相似度研究主要集中于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),但存在著一詞多義、上下文語義信息捕獲不足等問題.基于此,本文提出了一種基于Transformer和遞歸神經(jīng)網(wǎng)絡(luò),并添加注意力機(jī)制的混合模型,稱為RoBERTa-BiLSTM-Attention模型.

      首先使用RoBERTa模型進(jìn)行預(yù)訓(xùn)練,得到詞嵌入向量和語義特征,再將其結(jié)果輸入到BiLSTM中捕獲長(zhǎng)距離的依賴關(guān)系,對(duì)句子上下文進(jìn)行深層次的特征提取,最后使用Attention機(jī)制提取句中關(guān)鍵詞并進(jìn)行權(quán)重計(jì)算,進(jìn)一步提升文本的匹配概率.RBBLA模型結(jié)合了RoBERTa的語義理解能力、BiLSTM網(wǎng)絡(luò)的上下文建模能力以及注意力機(jī)制的重要性權(quán)重學(xué)習(xí)能力,能夠?qū)ξ谋鞠嗨贫冗M(jìn)行準(zhǔn)確的度量和判斷.從實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有幾種文本相似度計(jì)算模型相比,本文提出的RBBLA模型在LCQMC數(shù)據(jù)集上性能得到了提升.

      參考文獻(xiàn)

      [1] Wang J,Dong Y.Measurement of text similarity:A survey[J].Information,2020,11(9):1-17.

      [2] Abdalla H I,Amer A A.On the integration of similarity measures with machine learning models to enhance text classification performance[J].Information Sciences,2022,614:263-288.

      [3] Qu C,Yang L,Qiu M,et al.BERT with history answer embedding for conversationalquestion answering[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval.Paris,F(xiàn)rance:SIGIR,2019:1 133-1 136.

      [4] Ai J,Cai Y,Su Z,et al.Predicting user-item links in recommender systems based on similarity-network resource allocation[J].Chaos,Solitons amp; Fractals,2022,158:1-13.

      [5] 蔚佳璇,張起貴.融合注意力及句法的短文本相似度計(jì)算方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(11):3 127-3 134.

      [6] 石彩霞,李書琴,劉 斌.多重檢驗(yàn)加權(quán)融合的短文本相似度計(jì)算方法[J].計(jì)算機(jī)工程,2021,47(2):95-102.

      [7] Alami N,Mallahi M E,Amakdouf H,et al.Hybrid method for text summarization based on statistical and semantic treatment[J].Multimedia Tools and Applications,2021,80:19 567-19 600.

      [8] 何丹丹,吳樹芳,徐建民.基于文檔關(guān)系改進(jìn)的向量空間模型[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(3):322-327.

      [9] 覃 俊,劉 璐,劉 晶,等.基于BERT與主題模型聯(lián)合增強(qiáng)的長(zhǎng)文檔檢索模型[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,42(4):469-476.

      [10] 孟晨晨,肖建于,羅 蘭.基于相似系數(shù)和Jaccard系數(shù)矩陣的證據(jù)沖突度量方法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,29(3):421-426.

      [11] Jinshu S U ,Bofeng Z ,Xin X U ,et al.Advances in machine learning based text categorization[J].Journal of Software,2006,17(9):1 848-1 859.

      [12] 鐘桂鳳,龐雄文,隋 棟.基于Word2Vec和改進(jìn)注意力機(jī)制AlexNet-2的文本分類方法[J].計(jì)算機(jī)科學(xué),2022,49(4):288-293.

      [13] 黎秋艷,劉佳祎,王 鵬,等.基于GloVe-CNN算法的英語在線考試主觀題自動(dòng)評(píng)分模型[J].桂林理工大學(xué)學(xué)報(bào),2023,43(1):155-160.

      [14] 張焱博,郭 凱.基于Fasttext和多融合特征的文本分類模型[J].計(jì)算機(jī)仿真,2021,38(7):461-466.

      [15] 羅 凌,楊志豪,宋雅文,等.基于筆畫ELMo和多任務(wù)學(xué)習(xí)的中文電子病歷命名實(shí)體識(shí)別研究[J].計(jì)算機(jī)學(xué)報(bào),2020,43(10):1 943-1 957.

      [16] 余同瑞,金 冉,韓曉臻,等.自然語言處理預(yù)訓(xùn)練模型的研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(23):12-22.

      [17] Malkiel I,Ginzburg D,Barkan O,et al.Interpreting BER T-based text similarity via activation and saliency maps[C] //Proceedings of the ACM Web Conference 2022.Lyon,F(xiàn)rance:SIGWEB,2022:3 259-3 268.

      [18] 張 軍,張 麗,沈凡凡,等.RoBERTa融合BiLSTM及注意力機(jī)制的隱式情感分析[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(23):142-150.

      [19] Jianqin L,Daichao L,Yiting L,et al.Named entity recognitionof chinese crop diseases and pests based on RoBERTa-wwm with adversarial training\.Agronomy,2023,13(3):941-941.

      [20] 張 巖,王 斌,楊慶川,等.改進(jìn)孿生BERT的石油鉆井文獻(xiàn)相似度分析研究[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2022,40(2):188-197.

      [21] 馮月春,陳惠娟.改進(jìn)Bi-LSTM的文本相似度計(jì)算方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(5):1 397-1 403.

      [22] 徐菲菲,馮東升.基于注意力機(jī)制的Siamese-BILSTM短文本相似度算法[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(4):281-286,325.

      [23] Liu X ,Chen Q ,Deng C ,et al.LCQMC:A large-scale chinese question matching corpus[C]//International Conference on Computational Linguistics.Association for Computational Linguistics.Santa Fe,New Mexico,USA:Association for Computational Linguistics,2018:1 952-1 962.

      [24] 彭偉樂,武 浩,徐 立.基于注意力機(jī)制面向短文本多分類的關(guān)鍵詞權(quán)重優(yōu)化[J].計(jì)算機(jī)應(yīng)用,2021,41(S2):19-24.

      [25] 李景玉.基于BERT的孿生網(wǎng)絡(luò)計(jì)算句子語義相似度[J].科技資訊,2021,19(32):1-4.

      [26] 孟金旭,單鴻濤,萬俊杰,等.BSLA:改進(jìn)Siamese-LSTM的文本相似模型[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(23):178-185.

      【責(zé)任編輯:蔣亞儒】

      猜你喜歡
      注意力機(jī)制
      基于注意力機(jī)制的行人軌跡預(yù)測(cè)生成模型
      基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
      多特征融合的中文實(shí)體關(guān)系抽取研究
      基于序列到序列模型的文本到信息框生成的研究
      基于深度學(xué)習(xí)的手分割算法研究
      從餐館評(píng)論中提取方面術(shù)語
      面向短文本的網(wǎng)絡(luò)輿情話題
      基于自注意力與動(dòng)態(tài)路由的文本建模方法
      基于深度學(xué)習(xí)的問題回答技術(shù)研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      五峰| 峨山| 长丰县| 赫章县| 子长县| 嘉禾县| 茂名市| 诸暨市| 黄冈市| 股票| 娱乐| 南和县| 浮梁县| 安阳市| 沈阳市| 晋中市| 平湖市| 玉屏| 乡城县| 南通市| 南充市| 兰坪| 临夏市| 梁平县| 沙雅县| 陆良县| 剑阁县| 日照市| 平阳县| 获嘉县| 郓城县| 东至县| 奎屯市| 巴东县| 新兴县| 嵩明县| 睢宁县| 绿春县| 抚宁县| 北京市| 南木林县|