• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于關(guān)鍵詞的長文本機(jī)器閱讀理解循環(huán)分塊模型

    2023-10-25 02:11:58婕,嚴(yán)
    中文信息學(xué)報(bào) 2023年8期
    關(guān)鍵詞:分塊知識(shí)庫步長

    胡 婕,嚴(yán) 亮

    (湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢 430062)

    0 引言

    讓機(jī)器像人一樣能夠閱讀文本,并在理解其意思后給出正確答案是機(jī)器閱讀理解任務(wù)所追求的目標(biāo)。隨著Transformer模型[1]的提出,自然語言處理任務(wù)的性能獲得了極大的提升。因此,近年來提出的模型多使用預(yù)先訓(xùn)練過的Transformer模型如BERT模型[2]來編碼文檔和問題的聯(lián)合上下文信息然后從中提取答案。然而,這些基于Transformer的模型[3-4]每次能接收文本的長度有限。它們?cè)谔幚黹L文本時(shí)的性能不夠理想。

    Gong等[5]在傳統(tǒng)分塊模型的基礎(chǔ)上提出了可變長度的循環(huán)分塊模型。該模型在分塊時(shí)使用基于強(qiáng)化學(xué)習(xí)[6]的分塊策略,從一組步長空間中選擇合適步長,使答案處于分塊的中間位置,提高分塊內(nèi)部答案提取的準(zhǔn)確性,并且使用循環(huán)網(wǎng)絡(luò)使信息能夠在分塊之間流通,最后提取各分塊信息為每個(gè)分塊算出一個(gè)平衡參數(shù),并以此來平衡各個(gè)分塊答案的得分,使各分塊得分能夠進(jìn)行比較。循環(huán)分塊模型解決了固定長度分塊模型無法包含完整答案、各分塊答案無法比較的問題,與傳統(tǒng)模型相比有較大進(jìn)步。

    隨著對(duì)分塊模型研究的深入,循環(huán)分塊模型暴露了其對(duì)分塊內(nèi)部和分塊間的處理不夠細(xì)致的缺點(diǎn)。循環(huán)分塊模型在分塊內(nèi)部提取分塊信息時(shí)只關(guān)注到了答案關(guān)鍵詞,未考慮其余關(guān)鍵詞的影響,這使模型的性能不能達(dá)到最優(yōu)。另外,在分塊間的信息流通部分,循環(huán)分塊模型采用的循環(huán)網(wǎng)絡(luò)[7-8]只能讓信息在分塊間單向流通,前面的分塊接收不到后面分塊的信息,導(dǎo)致分塊間信息流通不充分。

    針對(duì)循環(huán)分塊模型存在的不足,本文在提升分塊內(nèi)部答案提取準(zhǔn)確率與加強(qiáng)各分塊之間信息交流兩個(gè)方面對(duì)其進(jìn)行改進(jìn)。在提升分塊內(nèi)部答案提取成功率方面,主要任務(wù)是建立文章與問題間更深的上下文聯(lián)系。受Yang[9]與Guan等[10]將外部知識(shí)庫引入機(jī)器閱讀理解任務(wù)并獲得較好效果的啟發(fā),本文引入WordNet[11]與NELL[12]兩個(gè)知識(shí)庫,在文章各詞語間建立深層次的語義關(guān)聯(lián),幫助提升分塊內(nèi)部答案提取的成功率。在加強(qiáng)各分塊之間信息交流方面,首先在提取分塊內(nèi)部信息時(shí)利用分塊位置權(quán)重向分塊信息中融入更多關(guān)鍵詞信息,使分塊信息和答案信息有更高的相似性,從而消除非關(guān)鍵信息的影響,得到更準(zhǔn)確的分塊內(nèi)部信息。再將全篇文章信息輸入分塊循環(huán)神經(jīng)網(wǎng)絡(luò),加強(qiáng)各分塊信息之間交流。由于BERT模型對(duì)長度的限制導(dǎo)致模型提取整篇文章信息困難,所以本文用關(guān)鍵詞中的信息代表整篇文章信息,通過BERT模型融合關(guān)鍵詞中信息,并將其輸入到分塊循環(huán)網(wǎng)絡(luò)的起始部分。前面的分塊通過輸入網(wǎng)絡(luò)中的關(guān)鍵詞信息得到后面分塊的信息,從而提升模型長距離語義傳輸?shù)哪芰?最后得到更加精準(zhǔn)的平衡參數(shù),并根據(jù)平衡參數(shù)尋找出最佳答案。本文在CoQA[13],QuAC[14]和TriviaQA[15]三個(gè)數(shù)據(jù)集上對(duì)提出的模型進(jìn)行驗(yàn)證和分析,F1值較BERT-LARGE模型[2]分別提高了5.1、3.9和3.9個(gè)百分點(diǎn),較循環(huán)分塊模型[5]F1值分別提高了4.5、3.3和2.9 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文模型在長文本機(jī)器閱讀理解任務(wù)上的效果較對(duì)比模型[16-19]性能更好。

    1 本文模型

    循環(huán)分塊模型使用強(qiáng)化學(xué)習(xí)的分塊策略劃分分塊并用BERT模型對(duì)分塊中文章和問題進(jìn)行詞嵌入,然后提取出各分塊的答案,并用分塊信息找到各分塊的平衡參數(shù),然后根據(jù)平衡參數(shù)得到最終答案。本文模型的主要?jiǎng)?chuàng)新點(diǎn)是在BERT模型的基礎(chǔ)上引入外部知識(shí)庫對(duì)文章和問題進(jìn)行詞嵌入和知識(shí)嵌入,得到含有上下文信息和外部知識(shí)信息的詞向量,并通過詞向量提升分塊答案提取成功率。同時(shí),給分塊每個(gè)位置新增位置權(quán)重,通過位置矩陣得到更準(zhǔn)確的分塊內(nèi)部信息,然后經(jīng)由文章打分模塊向各分塊輸入關(guān)鍵詞信息,得到語義連接更緊密的分塊信息,最后得到更加精準(zhǔn)的平衡參數(shù)并以此篩選出最終答案。模型整體結(jié)構(gòu)如圖1所示。

    圖1 模型整體結(jié)構(gòu)圖

    由圖1可知,模型主要分為文本處理和答案獲取兩個(gè)部分。在文本處理部分使用信息激活模型引入外部知識(shí)庫對(duì)分塊中每個(gè)單詞的詞嵌入進(jìn)行了擴(kuò)展,得到文章深層次的語義信息,建立每個(gè)單詞間的深層語義關(guān)聯(lián),以便后續(xù)在分塊內(nèi)部進(jìn)行答案提取。同時(shí),將整個(gè)文章的詞向量輸入到一個(gè)全連接神經(jīng)網(wǎng)絡(luò),得到每個(gè)單詞的得分,將這些詞中得分高的詞作為關(guān)鍵詞。答案獲取部分是在文本處理的基礎(chǔ)上進(jìn)行的。首先根據(jù)分塊策略完成對(duì)文章的分塊,然后對(duì)每個(gè)分塊進(jìn)行答案提取,得到多個(gè)分塊答案跨度并從中篩選出最佳答案。為了使各分塊跨度能夠比較,用關(guān)鍵詞信息和循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)各分塊信息進(jìn)行語義連接后,從各分塊語義信息中提取平衡參數(shù),根據(jù)該平衡參數(shù)找出所有分塊答案中的最佳答案。

    1.1 文本處理

    本文使用BERT預(yù)訓(xùn)練模型對(duì)文章和問題進(jìn)行詞嵌入,雖然BERT能夠提取各種復(fù)雜的語言信息,但是對(duì)于有大量背景知識(shí)的文章引入外部知識(shí)能夠進(jìn)一步提升機(jī)器閱讀理解的效果。本節(jié)使用WordNet和NELL兩個(gè)外部知識(shí)庫激活文章中每個(gè)單詞間深層的語義關(guān)聯(lián)??紤]到文章長度以及性能等因素,本文采用一維的 CNN對(duì)文章的每個(gè)詞進(jìn)行初步特征融合,然后再經(jīng)過非線性變化對(duì)每個(gè)單詞打分。信息激活模型的結(jié)構(gòu)如圖2所示。

    1.1.1 信息激活

    首先對(duì)文章和問題中的每個(gè)單詞使用BERT預(yù)訓(xùn)練模型對(duì)其進(jìn)行編碼,如式(1)所示。

    其中,P和Q分別表示該任務(wù)的文章和問題,H是把文章和問題輸入BERT模型后得到的輸出矩陣。用h表示H中每個(gè)單詞的詞向量,由于BERT模型對(duì)于接收序列長度有限制,本文設(shè)置一個(gè)最大序列長度限制輸入BERT模型單詞的數(shù)量。進(jìn)行知識(shí)嵌入時(shí),為每個(gè)單詞分配一個(gè)與其對(duì)應(yīng)的知識(shí)集合E,E中存放該單詞在外部知識(shí)庫中所對(duì)應(yīng)實(shí)體的知識(shí)向量,對(duì)應(yīng)實(shí)體的匹配方式為簡單的字符串匹配。由于WordNet和NELL都是以三元組(Subject,Relation,Object)的形式存儲(chǔ),本文用雙線性模型對(duì)知識(shí)庫中的所有實(shí)體進(jìn)行訓(xùn)練,將其轉(zhuǎn)換成向量表示,模型訓(xùn)練如式(2)所示。

    s、r、o分別對(duì)應(yīng)知識(shí)庫中的三元組所對(duì)應(yīng)向量,初始向量值隨機(jī)生成,f是一個(gè)雙線性打分函數(shù),用來表示三元組之間的相關(guān)性,通過該打分函數(shù)來對(duì)三元組對(duì)應(yīng)向量進(jìn)行訓(xùn)練,訓(xùn)練后得到兩個(gè)知識(shí)庫中所有知識(shí)的向量表示。按照在知識(shí)庫中對(duì)應(yīng)關(guān)系最終得到每個(gè)單詞知識(shí)集合E中知識(shí)的向量表示e。

    在知識(shí)引入部分對(duì)數(shù)據(jù)集的文章和答案部分都進(jìn)行了知識(shí)編碼。對(duì)于文章和問題中的詞hi及其對(duì)應(yīng)的知識(shí)集合E(hi),本文用自注意力機(jī)制對(duì)要融合的知識(shí)進(jìn)行選擇,αij表示文章第i個(gè)詞向量hi和其集合E(hi)中第j個(gè)知識(shí)向量ej的相似度α,計(jì)算方法如式(3)所示。

    所需要檢索的外部知識(shí)ki為各個(gè)向量按其相似度作為權(quán)重的向量和,ki的計(jì)算如式(5)所示。

    1.1.2 文章打分

    打分模塊需對(duì)每篇文章的詞進(jìn)行打分并找出其中關(guān)鍵詞,由于文章原始詞向量x取自預(yù)訓(xùn)練模型,在進(jìn)行文章打分之前我們需要對(duì)其中詞向量信息進(jìn)行初步融合和局部特征提取,如式(7)所示。

    1.2 答案獲取

    本文使用靈活的步長對(duì)文章分塊,然后從中提取答案。由上一節(jié)可得到每個(gè)詞的關(guān)鍵詞分?jǐn)?shù),答案獲取部分在通過分塊策略使答案處于文本中間部分保證提取正確率的同時(shí),對(duì)分塊內(nèi)部的關(guān)鍵詞做處理,使每次提取分塊信息時(shí)關(guān)鍵詞信息量盡可能大。由于當(dāng)答案處于分塊的不同位置時(shí)對(duì)答案預(yù)測(cè)影響不同,本文用可訓(xùn)練的向量p來表示分塊各位置的重要性,p中存放的是分塊各位置所對(duì)應(yīng)的位置權(quán)重,提取分塊信息時(shí)通過位置權(quán)重對(duì)分塊中詞向量進(jìn)行融合。因此訓(xùn)練后p是一個(gè)中間大兩頭小的向量,當(dāng)盡可能最大化分片中的關(guān)鍵詞得分的時(shí)候,p會(huì)把信息大的詞集中到所取文章的中部位置,提升模型預(yù)測(cè)答案的效果。此外,由于p兩側(cè)的值較小,用p中權(quán)重提取分塊信息能減弱兩側(cè)關(guān)鍵信息的干擾。答案獲取部分包含答案提取、價(jià)值判定、步長選擇三個(gè)任務(wù)。

    1.2.1 答案提取

    本節(jié)直接對(duì)信息激活后的文章和問題做答案提取,當(dāng)將最大問題長度設(shè)置為一個(gè)固定值時(shí),每個(gè)分塊片段segment的長度L隨設(shè)置的最大序列長度而變化,當(dāng)最大序列長度為512時(shí),L的取值為450,模型效果最好,其余部分用來存放標(biāo)識(shí)符和問題向量。文章的第一個(gè)分塊固定以第一個(gè)詞作為起點(diǎn),第L個(gè)詞作為終點(diǎn)。根據(jù)分塊策略得到接下來的分塊后,分別為每個(gè)分塊提取答案跨度。

    對(duì)分塊內(nèi)部做答案提取時(shí),分塊中每一個(gè)詞的向量表示為uc,i,c表示第c個(gè)輸入塊,i表示這個(gè)塊的第i個(gè)單詞。經(jīng)過一個(gè)全連接層得到該詞的開始得分和結(jié)束得分,W是模型的參數(shù),計(jì)算如式(10)、式(11)所示。

    1.2.2 價(jià)值判定

    首先把各個(gè)塊中文本和問題輸入信息激活模型,將每個(gè)分塊的CLS詞向量vc1作為該分塊答案提取時(shí)文章和問題所含有信息,由于引入外部知識(shí)庫后分塊中的信息過于龐大,應(yīng)該向分塊總信息vc中融入更多的答案信息,凸顯答案在該分塊中的重要性,以此來避免其他關(guān)鍵信息的干擾。建立一個(gè)長度和分塊長度等長的向量p,用于存儲(chǔ)分塊各個(gè)位置的權(quán)重,位置權(quán)重越大表示該位置的信息越重要,所以經(jīng)過訓(xùn)練后該向量為中間大兩頭小的分布。把經(jīng)過Softmax變換后的各位置權(quán)重與對(duì)應(yīng)位置向量相乘相加得到答案信息充足且干擾信息較少的向量vc2,其計(jì)算如式(14)所示。

    其中,pi是p中第i個(gè)位置的權(quán)重,ui是塊中第i個(gè)詞的詞向量,把vc1和vc2相加得到vc即為該塊中所有信息,下一步在vc中融入其他分塊的信息,本文使用LSTM模型實(shí)現(xiàn)各分塊信息之間的語義傳輸,如式(15)所示。

    其中,Wc是矩陣參數(shù),bc是偏置,σ是Sigmoid函數(shù),價(jià)值分?jǐn)?shù)qc作為平衡參數(shù)幫助挑選出最終答案。

    1.2.3 步長選擇

    本文模型在閱讀文檔時(shí)自主靈活地選擇步長大小,使得每個(gè)分塊的答案部分盡可能處于中間部分來提高答案預(yù)測(cè)的正確率。由于已知第一個(gè)分塊的所有信息,本文模型通過前一個(gè)分塊的信息得到步長,然后根據(jù)步長得到后續(xù)的分塊,依次循環(huán)得到每個(gè)分塊。再根據(jù)當(dāng)前分塊和后續(xù)分塊中的信息得到損失函數(shù)訓(xùn)練模型,使每次選擇的步長最優(yōu)。這和強(qiáng)化學(xué)習(xí)的特點(diǎn)相吻合,于是使用一個(gè)基于強(qiáng)化學(xué)習(xí)的模型來實(shí)現(xiàn)步長的選擇。在強(qiáng)化學(xué)習(xí)的策略下,首先將模型的狀態(tài)定義為模型處理到當(dāng)前塊c的信息集合,即s=Hc。 動(dòng)作a是模型選擇移動(dòng)到下一個(gè)文檔段的步長大小和方向,設(shè)定動(dòng)作空間A={-16,16,32,48,64},空間中各動(dòng)作的符號(hào)表示分塊開始位置移動(dòng)的方向,數(shù)字的大小表示移動(dòng)步長的大小,即動(dòng)作為-16時(shí),表示下一個(gè)分塊在文章中的開始位置由當(dāng)前分塊的開始位置向左移動(dòng)16個(gè)位置(即下標(biāo)減少16),符號(hào)為正則向右移動(dòng)。將s輸入到神經(jīng)網(wǎng)絡(luò)得到五個(gè)輸出。在訓(xùn)練階段采取隨機(jī)采樣的方法得到采樣序號(hào),該序號(hào)對(duì)應(yīng)動(dòng)作空間的長度即為所得步長。根據(jù)該步長依次得到接下來的分塊,完成循環(huán)分塊任務(wù)。本文通過設(shè)置最大分塊次數(shù)m來調(diào)節(jié)循環(huán)分塊的次數(shù),每次任務(wù)固定產(chǎn)生m個(gè)分塊。

    1.3 模型訓(xùn)練

    模型訓(xùn)練階段有三個(gè)損失函數(shù)。第一個(gè)為分塊內(nèi)答案抽取時(shí)的損失Lans,如式(17)所示。

    第二個(gè)為價(jià)值判定的損失Lcs,如式(18)所示。

    (18)

    其中,qc是第c個(gè)分塊的平衡參數(shù),yc表示第c個(gè)分塊中是否存在正確答案,存在為1,不存在則為0,所以該損失函數(shù)為一個(gè)二分類問題的交叉熵?fù)p失函數(shù)。

    第三個(gè)為步長選擇的損失函數(shù),由于步長選擇是基于強(qiáng)化學(xué)習(xí)的方法,所以首先要確定每一次分塊行為所獲得的收益R,如式(19)所示。

    R(s,a)表示在狀態(tài)s下做出行為a所產(chǎn)生的收益,該收益由本分塊中收益和下一個(gè)分塊中的收益兩部分組成。rc表示當(dāng)前塊答案提取成功產(chǎn)生的收益,qcrc表示當(dāng)前塊中存在答案且答案提取成功的收益,后面部分表示下一個(gè)分塊存在答案且答案提取成功的收益,R(s′,a′)表示下一個(gè)分塊的收益,因?yàn)樽詈笠粋€(gè)分塊的R(s′,a′)為0,所以可從后往前計(jì)算出每一個(gè)分塊的收益R,R中rc的計(jì)算如式(20)所示。

    通過策略梯度算法最大化預(yù)期累積收益來訓(xùn)練分塊策略網(wǎng)絡(luò),完成一輪分塊任務(wù)得到總收益J,如式(21)所示。

    其中,pact表示分塊動(dòng)作的概率分布,E表示執(zhí)行分塊動(dòng)作中的數(shù)學(xué)期望,為了與答案提取和價(jià)值判定模塊中的符號(hào)保持一致,將分塊策略的損失函數(shù)表示為收益的相反數(shù),對(duì)損失函數(shù)求導(dǎo)得到步長選擇損失▽Lcp,▽表示對(duì)公式求導(dǎo),計(jì)算如式(22)所示。

    由式(22)可知只需用每次執(zhí)行分塊行為a的概率和該次分塊的收益R即可求出總的分塊損失函數(shù),由該損失函數(shù)訓(xùn)練后最優(yōu)步長對(duì)應(yīng)的采樣概率會(huì)逐漸增大,使每次分塊采樣時(shí)能更大概率得到最優(yōu)步長。

    1.4 模型測(cè)試

    在模型測(cè)試階段,在第一個(gè)分塊確定的情況下,由前一個(gè)分塊產(chǎn)生采樣空間后,采用貪心策略,每次選擇當(dāng)前狀態(tài)下采樣空間概率最大序號(hào)作為所選序號(hào),然后在動(dòng)作空間中找到所選序號(hào)對(duì)應(yīng)的步長作為所選步長來依次生成分塊,如式(23)所示。

    其中,a是當(dāng)前環(huán)境s所產(chǎn)生的最終步長,pact為環(huán)境s所對(duì)應(yīng)步長空間的概率分布。根據(jù)貪心策略產(chǎn)生的步長完成對(duì)文章的分塊后,依次從每個(gè)分塊內(nèi)部提取答案跨度,最后從中選擇答案得分最高的作為最終答案。為了使相對(duì)獨(dú)立的每個(gè)分塊中的答案提取概率能夠比較,用式(19)所示的平衡參數(shù)q對(duì)其進(jìn)行平衡,最后得到每個(gè)分塊的答案得分,如式(24)所示。

    2 實(shí)驗(yàn)結(jié)果與分析

    2.1 數(shù)據(jù)集

    為了驗(yàn)證模型的有效性,本文在三個(gè)公開的數(shù)據(jù)集CoQA[13]、QuAC[14]和TriviaQA[15]上做了對(duì)比實(shí)驗(yàn),采用綜合了準(zhǔn)確率和召回率的F1值作為評(píng)價(jià)指標(biāo)。

    CoQA是一個(gè)大型對(duì)話問答數(shù)據(jù)集,由來自不同領(lǐng)域一系列文章中的對(duì)話問題組成。數(shù)據(jù)來自童話故事、文學(xué)作品、初中高中英語測(cè)試、新聞、Wikipedia、Reddit 和科學(xué)七個(gè)不同的領(lǐng)域。

    QuAC的文章主要來自于Wikipedia,為了保證文章段落容易閱讀和理解,作者選擇了介紹人物、動(dòng)物、節(jié)日、地理、健康實(shí)體的文章,且以點(diǎn)擊率作為標(biāo)準(zhǔn),保證所選文本的可讀性。

    TriviaQA是一個(gè)大型MRC(Machine reading comprehension)數(shù)據(jù)集,包含來自維基百科和Web域的數(shù)據(jù)。本文使用它的維基百科子集TriviaQA(Wiki)。該數(shù)據(jù)集對(duì)跨句推理有很高的要求。TriviaQA(Wiki) 中的文檔平均包含2 000多個(gè)單詞,適用于評(píng)估模型處理長文檔的能力。

    數(shù)據(jù)集的詳細(xì)信息如表1所示。

    表1 數(shù)據(jù)集描述

    2.2 對(duì)比模型

    實(shí)驗(yàn)的起始基線模型有兩個(gè):BERT-LARGE模型和循環(huán)分塊模型。

    BERT-LARGE[2]:采用滑動(dòng)窗口分塊策略從左到右以固定步長移動(dòng)到下一個(gè)文檔段劃分各個(gè)分塊,然后對(duì)各分塊分別提取答案,最后在分塊答案中篩選出最佳答案。

    循環(huán)分塊模型[5]:在BERT-LARGE模型的基礎(chǔ)上把固定步長改為可選擇的步長,分塊的方式更為靈活,且通過構(gòu)建不同分塊間的信息關(guān)聯(lián)得到平衡參數(shù)幫助篩選最終答案。本文模型主要針對(duì)循環(huán)分塊模型的不足進(jìn)行改進(jìn),主要參數(shù)中Batchsize大小為8,最大序列長度為512,最大問題長度為60,優(yōu)化器采用Adam優(yōu)化器,學(xué)習(xí)率為1E-5,最大分塊次數(shù)為6次。

    2.3 實(shí)驗(yàn)分析

    由于CoQA和QuAC都是會(huì)話數(shù)據(jù)集且長度相近,實(shí)驗(yàn)結(jié)果具有一致性,所以將這兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果放在一起分析。對(duì)于機(jī)器閱讀理解任務(wù)來說,CoQA和QuAC數(shù)據(jù)集長度分布均勻,更具通用性。故在CoQA和QuAC數(shù)據(jù)集上驗(yàn)證模型改進(jìn)的可行性和模型對(duì)比效果;在TriviaQA數(shù)據(jù)集上驗(yàn)證各模型處理長文本的效果。

    對(duì)于本文模型所要對(duì)比的兩個(gè)模型,BERT- LARGE模型是基礎(chǔ),其采用固定步長分塊并提取答案,循環(huán)分塊在BERT-LARGE模型的基礎(chǔ)上采用了靈活分塊策略,本模型在循環(huán)分塊模型上引入外部知識(shí)庫對(duì)各詞進(jìn)行知識(shí)拓展,并向各分塊中加入關(guān)鍵詞信息和位置信息。為了驗(yàn)證模型改進(jìn)思路的可行性,分別對(duì)原模型及其改進(jìn)模型進(jìn)行了實(shí)驗(yàn)對(duì)比。由于循環(huán)分塊模型和本文模型都是采用靈活步長,實(shí)驗(yàn)首先分析對(duì)BERT-LARGE模型采用靈活步長進(jìn)行改進(jìn)的可行性。

    將單次答案提取文本的最大長度設(shè)置為BERT能接收的最大長度512,分別采用不同的固定步長對(duì)模型進(jìn)行分塊,得到BERT-LARGE模型中不同固定步長下答案提取成功的F1值,結(jié)果如表2所示。

    表2 BERT-LARGE模型在不同固定步長下的 F1值 (單位:%)

    從表2可以看出,當(dāng)文本最大長度固定時(shí),BERT-LARGE模型的F1值不一定隨著步長的增大而一直增大或一直減小。當(dāng)步長較小時(shí),存在更多分塊,而答案為長句時(shí)(甚至超出步長),導(dǎo)致分塊更難以包含完整的答案。當(dāng)步長為64時(shí),模型的F1值最大,但是仍然會(huì)出現(xiàn)答案不完整和答案評(píng)估不一致的問題。因此循環(huán)分塊模型和本文模型在BERT-LARGE模型的基礎(chǔ)上使用更靈活的步長來劃分分塊,同時(shí)加強(qiáng)分塊間信息交流,以改進(jìn)BERT-LARGE的效果。采用靈活步長分塊的效果如表3所示,將在后面進(jìn)行實(shí)驗(yàn)分析。

    表3 不同最大序列長度下各模型的F1值 (單位:%)

    接下來分析引入外部知識(shí)庫的可行性。由于知識(shí)拓展對(duì)三個(gè)模型皆適用且BERT-LARGE模型分塊后所有分塊相互獨(dú)立,外部知識(shí)庫的效果在BERT-LARGE模型中能得到更直觀的體現(xiàn)。所以實(shí)驗(yàn)分析外部知識(shí)庫對(duì)BERT-LARGE模型的影響來驗(yàn)證對(duì)循環(huán)分塊模型引入外部知識(shí)庫的可行性。對(duì)最大文本長度為512,固定分塊步長為64的BERT-LARGE模型中的詞用WordNet和NELL這兩個(gè)知識(shí)庫進(jìn)行外部知識(shí)的融合,分別得到融合后模型的F1值,結(jié)果如表4所示。

    由表4可知,在引入單個(gè)知識(shí)庫時(shí)BERT-LARGE模型在CoQA數(shù)據(jù)集下最多提升0.3個(gè)百分點(diǎn),在QuAC數(shù)據(jù)集下最多提升0.2個(gè)百分點(diǎn)。同時(shí)引入外部知識(shí)庫WordNet和NELL后,BERT-LARGE模型在CoQA數(shù)據(jù)集下的F1值提升了0.5個(gè)百分點(diǎn),在QuAC數(shù)據(jù)集下提升了0.9個(gè)百分點(diǎn),可見外部知識(shí)庫對(duì)機(jī)器閱讀理解模型效果的提高有正面作用。由表2和表4所得出的結(jié)論可知,本文在循環(huán)分塊模型靈活分塊的基礎(chǔ)上引入外部知識(shí)庫是可行的。

    最后,分析加入關(guān)鍵詞信息和位置信息的可行性。由于循環(huán)分塊模型存在分塊信息提取不準(zhǔn)確、分塊信息交流不充分的缺點(diǎn),本文模型向循環(huán)分塊模型各分塊中加入關(guān)鍵詞信息和位置信息對(duì)循環(huán)分塊模型加以改進(jìn)。為了找出分塊數(shù)量和分塊長度對(duì)各模型的影響,分別在不同的最大序列長度下比較各模型的F1值。其中,BERT-LARGE的步長固定為64,外部知識(shí)庫同時(shí)引入WordNet和NELL。實(shí)驗(yàn)結(jié)果如表3所示。

    由表3可知,采用相同最大序列長度時(shí),循環(huán)分塊模型的F1值在CoQA數(shù)據(jù)集下相較于BERT-LARGE模型分別提升了1.8、0.9、0.1和0.6個(gè)百分點(diǎn),在QuAC數(shù)據(jù)集下相較于BERT-LARGE模型分別提升了9.3、3.6、2.2和0.6個(gè)百分點(diǎn),驗(yàn)證了采用靈活步長比固定步長進(jìn)行分塊更有效。BERT-LARGE模型和循環(huán)分塊模型分別在引入外部知識(shí)庫后,相較于原模型F1值也都有提升,驗(yàn)證了機(jī)器閱讀理解任務(wù)中引入外部知識(shí)庫的有效性。為了驗(yàn)證關(guān)鍵詞信息和位置信息對(duì)循環(huán)分塊模型的影響,將循環(huán)分塊模型+外部知識(shí)庫與本文模型進(jìn)行對(duì)比,發(fā)現(xiàn)在使用相同最大序列長度時(shí)本文模型的F1值在CoQA數(shù)據(jù)集下相較于循環(huán)分塊模型+外部知識(shí)庫分別提升了1.4、2.2、3.3和4.3個(gè)百分點(diǎn),在QuAC數(shù)據(jù)集下相較于循環(huán)分塊模型+外部知識(shí)庫分別提升了1.9、1.8、2.8和2.6個(gè)百分點(diǎn),驗(yàn)證了關(guān)鍵詞信息和位置信息可以提高循環(huán)分塊模型的性能。綜上所述,在循環(huán)分塊模型的基礎(chǔ)上引入外部知識(shí)庫和關(guān)鍵詞信息以及位置信息的模型即本文模型取得最好實(shí)驗(yàn)效果。

    上述分析了在相同最大序列長度下不同模型的性能對(duì)比。從表3可知,對(duì)同一模型使用不同的最大序列長度進(jìn)行分塊,實(shí)驗(yàn)效果不同。當(dāng)最大序列長度增加時(shí),各個(gè)模型的F1值也隨之增加,在最大序列長度為512時(shí)獲得最大值。這是因?yàn)楫?dāng)最大序列長度增大時(shí),每個(gè)分塊中包含文本長度隨之增大,分塊中包含更多的文本信息,使得問題可以得到充足的上下文進(jìn)行訓(xùn)練,從而提升了答案提取的成功率。這表明在機(jī)器閱讀理解任務(wù)中模型各分塊中所包含的文本信息越多答案提取成功率就越高,驗(yàn)證了本文模型通過打分模塊加強(qiáng)分塊間信息交流的有效性。

    最后,為了驗(yàn)證本模型處理長文本機(jī)器閱讀理解任務(wù)的效果,在數(shù)據(jù)長度更長的TriviaQA(wiki)數(shù)據(jù)集下對(duì)各模型進(jìn)行實(shí)驗(yàn)對(duì)比。表5是在TriviaQA(wiki)數(shù)據(jù)集下最大序列長度設(shè)置為512時(shí)各模型的F1值。

    表5 TriviaQA(wiki)數(shù)據(jù)集下各模型的F1值

    由表5可知,在平均長度為2 622的TriviaQA(wiki)數(shù)據(jù)集下,采用靈活步長分塊的循環(huán)分塊模型較采用固定步長分塊的BERT-LARGE模型提升了1個(gè)百分點(diǎn),這說明長文本下靈活步長比固定步長有更好的效果。引入外部知識(shí)庫后,BERT-LARGE模型和循環(huán)分塊模型較各自原有模型的F1值分別提升了0.4和0.6個(gè)百分點(diǎn),說明外部知識(shí)庫對(duì)提升長文本機(jī)器閱讀理解任務(wù)的正確率有正面作用。本文模型比引入外部知識(shí)庫的循環(huán)分塊模型F1值提升了2.3個(gè)百分點(diǎn),提升效果更明顯,說明在采用靈活步長和引入外部知識(shí)庫的基礎(chǔ)上融合關(guān)鍵詞信息和位置信息對(duì)提升長文本機(jī)器閱讀理解任務(wù)正確率的正面作用更明顯。

    綜合表3和表5,本文模型采用最大序列長度512,在CoQA、QuAC、TriviaQA三個(gè)文本長度不同的數(shù)據(jù)集上較BERT-LARGE模型的F1值分別提高了5.1、3.9和3.9個(gè)百分點(diǎn),較循環(huán)分塊模型的F1值分別提高了4.5、3.3和2.9個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)思路可行,對(duì)長文本機(jī)器閱讀理解任務(wù)的效果更好。

    最后,為了驗(yàn)證模型整體的有效性,本文把改進(jìn)后模型與現(xiàn)有的多種機(jī)器閱讀理解模型進(jìn)行了比較,由于現(xiàn)有模型大多在TriviaQA數(shù)據(jù)集上取得了最佳效果,所以最后進(jìn)行多模型比較時(shí)采用TriviaQA數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如表6所示。

    由表6可知,本文模型的實(shí)驗(yàn)效果比RECONSIDERlarge模型高4.5個(gè)百分點(diǎn),比RAGlarge模型高9.1個(gè)百分點(diǎn),比FID模型高0.2個(gè)百分點(diǎn),比Top-K模型高0.4個(gè)百分點(diǎn),在當(dāng)前眾多機(jī)器閱讀理解模型中處于領(lǐng)先水平,證明了本文將知識(shí)庫和強(qiáng)化學(xué)習(xí)一同用于機(jī)器閱讀理解任務(wù)的思路對(duì)提高機(jī)器閱讀理解性能具有正面意義。

    3 結(jié)束語

    對(duì)于長文本機(jī)器閱讀理解任務(wù),本文在循環(huán)分塊模型的基礎(chǔ)上引入外部知識(shí)庫建立文本中單詞深層次的聯(lián)系,同時(shí)強(qiáng)化各個(gè)分塊間信息的長距離語義關(guān)聯(lián),在分塊內(nèi)部用位置矩陣有效篩選出包含答案的關(guān)鍵信息用于最終答案提取。實(shí)驗(yàn)結(jié)果表明,本文模型相較于BERT-LARGE和循環(huán)分塊模型有更強(qiáng)的抗干擾能力和更高的F1值。但是面對(duì)數(shù)量眾多的分塊,LSTM模型在信息跨分塊交流時(shí)只能按順序單向傳輸,對(duì)于分塊間的長距離語義傳播仍有改進(jìn)的空間,這也是本文下一步的工作。

    猜你喜歡
    分塊知識(shí)庫步長
    基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
    分塊矩陣在線性代數(shù)中的應(yīng)用
    基于TRIZ與知識(shí)庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    反三角分塊矩陣Drazin逆新的表示
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫的建立和應(yīng)用
    基于自適應(yīng)中值濾波的分塊壓縮感知人臉識(shí)別
    基于Drupal發(fā)布學(xué)者知識(shí)庫關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    基于多分辨率半邊的分塊LOD模型無縫表達(dá)
    基于逐維改進(jìn)的自適應(yīng)步長布谷鳥搜索算法
    一種新型光伏系統(tǒng)MPPT變步長滯環(huán)比較P&O法
    永康市| 凉山| 鞍山市| 贡嘎县| 大埔区| 广昌县| 五华县| 县级市| 环江| 监利县| 离岛区| 邻水| 米林县| 莱芜市| 西和县| 平果县| 革吉县| 阿巴嘎旗| 米脂县| 奉节县| 子洲县| 张家口市| 鹤峰县| 临泉县| 麻江县| 长泰县| 巴南区| 喀喇沁旗| 宿州市| 唐海县| 金塔县| 界首市| 阆中市| 英山县| 洛阳市| 崇信县| 北碚区| 吉隆县| 长寿区| 凤城市| 密云县|