武鈺智,向 偉,史娜維
(1.西南民族大學(xué)電子信息工程國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,四川 成都 610041;2.西南民族大學(xué)電氣工程學(xué)院,四川 成都 610041)
機(jī)器閱讀理解(Machine Reading Comprehension, MRC) 是自然語(yǔ)言處理中一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù),它通過要求機(jī)器根據(jù)給定上下文回答問題來測(cè)試機(jī)器對(duì)自然語(yǔ)言的理解[1-2]. 目前,隨著遷移學(xué)習(xí)的不斷發(fā)展,基于預(yù)訓(xùn)練的語(yǔ)言模型[3-4]在機(jī)器閱讀理解領(lǐng)域的許多基準(zhǔn)數(shù)據(jù)集[5]上取得了顯著的性能提升并在該領(lǐng)域占據(jù)了主導(dǎo)地位,明顯優(yōu)于以前基于CNN 和RNN 的方法.然而這些預(yù)訓(xùn)練語(yǔ)言模型的輸入長(zhǎng)度是有限的,在某些情況下,數(shù)據(jù)集的通道長(zhǎng)度會(huì)超過這些模型的最大限制長(zhǎng)度.例如,TriviaQA[6]數(shù)據(jù)集的平均長(zhǎng)度為2 622.
當(dāng)數(shù)據(jù)集的序列長(zhǎng)度超過BERT 模型的最大限制長(zhǎng)度時(shí),一種常用的方法是將這些文本等間距地切割成若干個(gè)片段,訓(xùn)練的時(shí)候?qū)γ總€(gè)片段單獨(dú)處理,各個(gè)片段之間沒有聯(lián)系,并根據(jù)每個(gè)片段獨(dú)立進(jìn)行預(yù)測(cè),最終將來自多個(gè)段的答案集合起來[4]. 然而這種方法存在兩個(gè)問題,第一由于片段之間是獨(dú)立訓(xùn)練的,所以不同的token 之間最長(zhǎng)的依賴關(guān)系取決于片段的長(zhǎng)度;第二出于模型效率的考慮,在切割片段時(shí)往往不會(huì)考慮句子的自然邊界,僵硬地按照固定長(zhǎng)度切割片段,切割出來的片段大多都存在語(yǔ)義不完整的問題,這就可能會(huì)導(dǎo)致正確答案跨度被分成不同的部分,或者無(wú)法在正確答案跨度周圍保留足夠的上下文信息,如圖1 所示.
圖1 原始方法Fig.1 Original method
針對(duì)上述問題,本文通過添加重疊窗口層以更靈活的方式切割輸入文本,防止正確的答案跨度被分成不同的部分,使用兩個(gè)BERT 模型獨(dú)立編碼問題和文檔,并且在模型中添加遞歸層來傳遞不同片段之間的信息,賦予模型建立更長(zhǎng)期依賴的能力.最后在TriviaQA 和 CoQA[7]兩個(gè)機(jī)器閱讀理解數(shù)據(jù)集上驗(yàn)證BERT-FRM 模型的有效性. 實(shí)驗(yàn)結(jié)果表明,本文提出的BERT-FRM 模型與基線模型相比在基準(zhǔn)數(shù)據(jù)集上性能有顯著提升.
本文主要研究如下:
1)提出一種結(jié)合重疊窗口的雙BERT 編碼層,重疊窗口層用來將輸入序列切割成具有重疊的固定大小的片段,編碼層采用將問題和文本分別送到不同的BERT 模型的方法來獲得問題和文本的編碼表示.
2)添加了遞歸層,采用融合LSTM 層的方法允許信息跨段流動(dòng),保證BERT 模型在進(jìn)行答案選擇時(shí)可以借鑒當(dāng)前段以外的信息.
3)本文復(fù)現(xiàn)了三種具有代表性的基于預(yù)訓(xùn)練的機(jī)器閱讀理解模型,將其作為基準(zhǔn)模型與提出的BERT-FRM 模型進(jìn)行實(shí)驗(yàn)對(duì)照,并進(jìn)行了消融性分析.
隨著TriviaQA 和CoQA 等大規(guī)模機(jī)器閱讀數(shù)據(jù)集的引入,出現(xiàn)了越來越多的以注意力為導(dǎo)向、需要理解問題和推理文檔內(nèi)容的機(jī)器閱讀理解任務(wù)[8-10].在類似于TriviaQA 這樣的抽取式機(jī)器閱讀理解數(shù)據(jù)集中,機(jī)器需要根據(jù)給定的文檔和問題從文檔中提取一個(gè)連續(xù)的片段作為答案.對(duì)于機(jī)器閱讀任務(wù)中長(zhǎng)文本的處理,Choi Eunsol 等人[11]首次將文檔的層次性質(zhì)用于問答,并為長(zhǎng)文本的機(jī)器閱讀理解提供了一個(gè)由粗到細(xì)的框架.Min Sewon 等人[12]使用基于給定內(nèi)容選擇一組句子作為一些問題的輸入的方法來處理機(jī)器閱讀理解中的長(zhǎng)文本問題.然而這些方法都不適用于需要跨段進(jìn)行答案提取或深度推理的復(fù)雜任務(wù).相比之下,本文提出的BERT-FRM 模型在處理長(zhǎng)文本的同時(shí),允許模型采用更簡(jiǎn)單的方法在不同段之間傳遞信息.
近年來,為了捕捉自然語(yǔ)言中的遠(yuǎn)距離上下文,一些模型探索了在Transformer 中使用局部+全局注意力的方式,并對(duì)其進(jìn)行預(yù)訓(xùn)練以用于長(zhǎng)文本自然語(yǔ)言任務(wù).戴子航等人[13]提出了一種新型的網(wǎng)絡(luò)結(jié)構(gòu)Transformer-XL,它結(jié)合了片段級(jí)遞歸機(jī)制和位置編碼的創(chuàng)新方法.而Longformer[14]則通過引入一個(gè)基于局部滑動(dòng)窗口的掩碼來代替全局掩碼的方法來減少模型計(jì)算量,從而解決了Transformer 由于計(jì)算量而無(wú)法捕獲長(zhǎng)距離信息的問題,并將BERT 擴(kuò)展到更長(zhǎng)的基于序列的任務(wù). 隨著預(yù)訓(xùn)練語(yǔ)言模型的進(jìn)步,目前已經(jīng)提出了幾種 BERT 變體來處理任務(wù)中的長(zhǎng)文本并取得了重大進(jìn)展. Raghavendra P 等人[15]提出了一種基于級(jí)聯(lián)思想的方法,將文檔切割成多個(gè)片段用于解決文本分類任務(wù)中的長(zhǎng)文本問題. 龔宏宇等人[16]基于強(qiáng)化學(xué)習(xí)提出了一種分割策略網(wǎng)絡(luò),該網(wǎng)絡(luò)使模型能夠通過強(qiáng)化學(xué)習(xí)更準(zhǔn)確地對(duì)長(zhǎng)文本進(jìn)行分割處理.
在本項(xiàng)工作中,本文遵循與Raghavendra P 和戴子航等人類似的做法,基于BERT-Base 模型提出了支持長(zhǎng)文本處理的BERT-FRM 模型.本文工作表明,使用遞歸層傳輸跨段信息可以有效緩解機(jī)器閱讀理解任務(wù)中的長(zhǎng)文本問題并提升原模型的性能.
本節(jié)將詳細(xì)描述所提出的BERT-FRM 模型,該模型建立在預(yù)訓(xùn)練的BERT 模型之上. BERT-FRM 模型的整體架構(gòu)如圖2 所示,由重疊窗口層、雙 BERT 編碼層和用于傳輸不同片段信息的遞歸層組成.
圖2 BERT-FRM 的架構(gòu)概覽Fig.2 Overview architecture of BERT-FRM
模型在重疊窗口層使用滑動(dòng)窗口的方法,通過將窗口大小和重疊步長(zhǎng)大小設(shè)置成固定值,把數(shù)據(jù)集中的文檔切割成具有重疊部分的若干個(gè)片段輸入到BERT 編碼層中,以解決正確的答案跨度可能會(huì)被切割成不同的部分的問題.編碼層為每個(gè)問題和文檔片段生成統(tǒng)一編碼表示.其次模型在BERT 編碼層后添加了遞歸層,用來積累每個(gè)片段中的有用信息,為模型建立長(zhǎng)距離依賴能力提供保證.最后答案提取器采用最大池化的方法集成來自多個(gè)片段的候選答案,并選擇概率最高的一個(gè)作為最終答案.
由于BERT 模型的最大輸入長(zhǎng)度為512,當(dāng)面對(duì)超過這個(gè)長(zhǎng)度的文本輸入時(shí),一種常用的解決方法是將這段文本等間距地切割成若干個(gè)片段,再獨(dú)立地根據(jù)每個(gè)片段進(jìn)行預(yù)測(cè).但這種方法可能會(huì)導(dǎo)致正確答案跨度會(huì)被切割成不同的片段,或者正確答案跨度周圍無(wú)法保留足夠的上下文信息,如圖1 所示(紅色部分為正確的答案跨度).
針對(duì)這個(gè)問題,本文實(shí)現(xiàn)了一種基于級(jí)聯(lián)(HIERARCHICAL)思想的做法,設(shè)計(jì)了重疊窗口層.級(jí)聯(lián)思想本質(zhì)上就是對(duì)數(shù)據(jù)進(jìn)行有重疊地分割,這樣切割出的每個(gè)片段之間都保留了一定的關(guān)聯(lián)信息,如圖3所示.本文通過設(shè)置滑動(dòng)窗口層將數(shù)據(jù)集文檔有重疊地切割成若干個(gè)片段,然后將它們輸入到BERT 模型中.本次實(shí)驗(yàn)里將窗口大小設(shè)置為200 個(gè)單詞長(zhǎng)度,重疊步長(zhǎng)設(shè)置為100 個(gè)單詞長(zhǎng)度(窗口大小的一半).
圖3 重疊窗口層的方法Fig.3 Method for overlapping window layers
BERT 模型近年來得到了長(zhǎng)足的發(fā)展,并在絕大多數(shù)機(jī)器閱讀理解數(shù)據(jù)集上展示了最前沿的性能.在抽取式機(jī)器閱讀理解數(shù)據(jù)集中,通常給出一個(gè)問題Q和文檔D 的一段,任務(wù)是從文檔中找到一個(gè)連續(xù)的片段作為答案.因此,BERT 模型需要預(yù)測(cè)答案在文檔D中的開始和結(jié)束位置. BERT 模型的輸入是問題和文檔的串聯(lián),公式如下:
[CLS]Question[SEP]Document, (1)其中[CLS]用于每個(gè)文檔段的開頭,[SEP]用于分隔問題和文檔. BERT 模型的輸出是與每個(gè)token 對(duì)應(yīng)的編碼向量,由于答案是由文檔中連續(xù)的token 組成,所以預(yù)測(cè)答案的過程本質(zhì)上就是確定token 在答案開頭和結(jié)尾的位置的過程. 為獲得問題和文檔的編碼,本文將BERT 作為編碼層.考慮到直接做問題和文檔的編碼,只使用一個(gè)BERT 模型的一個(gè)[CLS]向量是不足以充分并完全表示較長(zhǎng)的文本的.因此本文提出了一種結(jié)合重疊窗口層的雙BERT 編碼層,將問題和文本分別送到不同的BERT 模型來獲得問題和文本的編碼表示.鑒于BERT 僅限于特定的輸入長(zhǎng)度,本文將輸入序列切割成具有重疊的固定大小的片段,然后分別送入BERT 模型當(dāng)中.
在抽取式機(jī)器閱讀理解任務(wù)中,當(dāng)數(shù)據(jù)集的序列長(zhǎng)度超過BERT 模型的最大限制長(zhǎng)度時(shí),BERT 模型會(huì)獨(dú)立地根據(jù)每個(gè)片段進(jìn)行預(yù)測(cè)答案,這種分段式的數(shù)據(jù)提供方式存在信息并不能在片段與片段之間傳遞的問題,因此BERT 模型能夠捕捉長(zhǎng)距離依賴的上限就是片段的長(zhǎng)度,這在高度依賴模型捕捉數(shù)據(jù)長(zhǎng)距離依賴能力的機(jī)器閱讀理解任務(wù)中無(wú)疑是很大的短板.并且由于BERT 模型在進(jìn)行片段切割時(shí),不考慮片段與片段之間的關(guān)系,各個(gè)片段之間缺乏上下文信息,這可能會(huì)導(dǎo)致跨段提取答案時(shí)出現(xiàn)偏差,這就會(huì)對(duì)模型的性能產(chǎn)生很大的影響.而重疊窗口層的方法本質(zhì)上是將文檔進(jìn)行重疊分割,每段之間只保留了一定的關(guān)聯(lián)信息,不能保證模型具備捕獲長(zhǎng)距離依賴的能力.為解決長(zhǎng)距離依賴問題,本文在模型中融合了遞歸層,即將多個(gè)BERT 層的輸出用一個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Time Memory,LSTM)[17]建立連接,從而實(shí)現(xiàn)一個(gè)“長(zhǎng)”BERT.
與BERT 模型不同,BERT-FRM 在訓(xùn)練時(shí)是將具有重疊的固定大小的片段形式作為輸入,并且BERTFRM 的上一個(gè)片段的狀態(tài)會(huì)被緩存下來,然后在計(jì)算當(dāng)前段時(shí)再重復(fù)使用上一個(gè)片段的隱藏層狀態(tài),由于對(duì)上一個(gè)片段的隱藏層狀態(tài)進(jìn)行了重復(fù)使用,這就賦予了BERT-FRM 建立更長(zhǎng)期的依賴能力.
在圖2 中,本文通過雙BERT 組件獲得問題編碼EQ和片段編碼ES,將編碼拼接在一起以獲得包含問題和片段的句子表示,并通過遞歸層進(jìn)一步豐富句子表示.在BERT 模型中,[CLS]的最終隱藏狀態(tài)聚合了整個(gè)序列的表示.因此,利用[CLS]的隱藏狀態(tài),通過一層單向的LSTM 來達(dá)到遞歸的目的. 具體來說,就是將上一個(gè)片段的LSTM 輸出作為當(dāng)前片段LSTM的隱藏狀態(tài),將當(dāng)前片段的[CLS]表示作為L(zhǎng)STM 的輸入,然后將當(dāng)前LSTM 的輸出作為該片段下一時(shí)刻的隱藏狀態(tài),并且上一個(gè)片段的所有隱藏狀態(tài)只參與前向計(jì)算,不再進(jìn)行反向傳播,這就形成了遞歸層.例如將包含當(dāng)前段a 的片段表示為Ra,由遞歸層豐富后的片段表示為
其中 f 是遞歸函數(shù),使用 LSTM 遞歸,Ra是當(dāng)前輸入是之前的隱藏狀態(tài). 本文在 LSTM 遞歸中使用LSTM 單元作為遞歸函數(shù):
最后,用softmax 來計(jì)算片段中每個(gè)詞是答案的起始位置的概率和結(jié)束位置的概率:
其中,W1W2 是模型的可訓(xùn)練參數(shù).
答案提取器通過監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,損失函數(shù)使用交叉熵?fù)p失,該損失函數(shù)可以根據(jù)真實(shí)答案yn和預(yù)測(cè)概率xn進(jìn)行計(jì)算:
本文在實(shí)驗(yàn)中使用了兩個(gè)機(jī)器閱讀理解數(shù)據(jù)集來評(píng)估基線模型和BERT-FRM 的性能.
①TriviaQA,該數(shù)據(jù)集具有以下特點(diǎn):文本語(yǔ)法復(fù)雜,需要大量的復(fù)合信息;有用的信息往往跨越多個(gè)句子,需要多層次的推理才能得到答案.此外,數(shù)據(jù)集中的每個(gè)文檔平均包含2 622 個(gè)單詞,非常適合本文的長(zhǎng)文本實(shí)驗(yàn). 在實(shí)驗(yàn)中,主要使用 TriviaQA 中的Wikipedia 子集.
②CoQA,該數(shù)據(jù)集是用于建立對(duì)話問答系統(tǒng)的大型數(shù)據(jù)集,該數(shù)據(jù)集是用于建立對(duì)話問答系統(tǒng)的大型數(shù)據(jù)集,通過真人問答的方法收集了8 000 多個(gè)對(duì)話,從中提取出了127 000 個(gè)問答.該數(shù)據(jù)集的特點(diǎn)在于答案能夠從對(duì)話段落中找到原因,且形式更自然.
表1 匯總了本實(shí)驗(yàn)中使用的數(shù)據(jù)集的部分?jǐn)?shù)據(jù),包括問題數(shù)量、平均文檔長(zhǎng)度和最大文檔長(zhǎng)度.
表1 數(shù)據(jù)集特征統(tǒng)計(jì)Table 1 Dataset characteristics statistics
本文復(fù)現(xiàn)了三種基線模型與BERT-FRM 進(jìn)行了實(shí)驗(yàn)對(duì)比.
①BERT-Base 是一個(gè)性能非常強(qiáng)大的基線模型,是抽取式機(jī)器閱讀理解任務(wù)中具有先進(jìn)性能的代表性模型. 類似地,它采用固定滑動(dòng)窗口分割方法——以固定步長(zhǎng)從左向右移動(dòng)到下一段. 本文分析了在TriviaQA 和CoQA 兩個(gè)數(shù)據(jù)集中不同步長(zhǎng)大小下的Bert-Base 模型的性能,由表2 可以得出:最大輸入長(zhǎng)度設(shè)置為512 時(shí),BERT-Base 模型分別在 TriviaQA 和CoQA 中獲得了最佳性能.
②段落選擇器[18]是一個(gè)結(jié)合了信息檢索的機(jī)器閱讀理解模型,主要用于解決開放領(lǐng)域的QA 問題.段落選擇器是通過直接訓(xùn)練一個(gè)排序模型,然后給定一個(gè)問題,對(duì)檢索到的段落或文檔進(jìn)行排序,將更相關(guān)的文檔輸入BERT-base 模型來提取答案的方法,從而提高模型的準(zhǔn)確性.由于段落選擇器中排序模型的輸入會(huì)涉及到數(shù)據(jù)集中的會(huì)話歷史問題,對(duì)于不涉及會(huì)話歷史的TriviaQA 數(shù)據(jù)集,本文將段落選擇器的輸入設(shè)置為只與當(dāng)前問題有關(guān),對(duì)于CoQA 也進(jìn)行同樣的操作.
③RCM 模型是2020 年ACL 會(huì)議中新提出的一種用于長(zhǎng)文本機(jī)器閱讀理解的分塊策略模型,通過強(qiáng)化學(xué)習(xí)方法以更靈活的方式對(duì)長(zhǎng)文本進(jìn)行切割學(xué)習(xí).RCM 模型的主要特征在于它可以讓模型通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)如何在閱讀長(zhǎng)文檔時(shí)智能地選擇步長(zhǎng)大小,從而有助于在答案周圍保留足夠的上下文,防止從片段中提取不完整的答案. 由于RCM 模型建立在BERTLarge 模型之上,為保證實(shí)驗(yàn)公平性,本文將BERTLarge 更換為BERT-Base 重新進(jìn)行實(shí)驗(yàn)復(fù)現(xiàn).
本文采用的評(píng)價(jià)指標(biāo)為抽取式機(jī)器閱讀理解任務(wù)中常用的模糊匹配度F1,用來計(jì)算預(yù)測(cè)結(jié)果與標(biāo)準(zhǔn)答案之間的匹配程度.
對(duì)于BERT-Base 模型,本文嘗試了在192、256 和512 三種不同的步長(zhǎng)大小下模型的性能實(shí)驗(yàn). 對(duì)于段落選擇器,在實(shí)驗(yàn)中使用的是由Htut 提出的選擇器,并且對(duì)每個(gè)問題,都使用排序模型將檢索到的前五個(gè)段落輸入到Bert-Base 模型,以產(chǎn)生一個(gè)答案. 對(duì)于RCM 模型,采用與BERT-FRM 模型相同的實(shí)驗(yàn)參數(shù)進(jìn)行復(fù)現(xiàn).對(duì)于 BERT-FRM 模型,也采用了與BERTBase 模型相同的三種不同大小的步長(zhǎng)進(jìn)行實(shí)驗(yàn),并且將窗口大小設(shè)置為200 個(gè)單詞長(zhǎng)度,將重疊步長(zhǎng)設(shè)置為100 個(gè)單詞長(zhǎng)度.對(duì)于BERT-SLI,模型的訓(xùn)練使用四顆 GeForce GTX 1080Ti 11GB GPU,默認(rèn) BERT 版本的Adam 優(yōu)化器,學(xué)習(xí)率為3e-5,訓(xùn)練的epoch 為3,每個(gè)epoch 耗時(shí)約為20 小時(shí). 本文在 TriviaQA 和CoQA 的訓(xùn)練集上對(duì)模型進(jìn)行了多次訓(xùn)練,并選擇其中一個(gè)性能最好的來計(jì)算測(cè)試集的準(zhǔn)確率.
本文分別在 BERT-Base、段落選擇器、RCM 和BERT-FRM 上進(jìn)行了實(shí)驗(yàn),BERT-FRM 模型性能始終優(yōu)于BERT-Base 和段落選擇器兩個(gè)基線模型,實(shí)驗(yàn)結(jié)果如表2 所示.在 CoQA 數(shù)據(jù)集上,可以發(fā)現(xiàn)隨著最大序列長(zhǎng)度的減少,BERT-Base 和段落選擇器的性能有明顯下降. 隨著最大序列長(zhǎng)度從512 減少到192,BERT-Base 和段落選擇器的 F1 值分別下降了7.5%和20.9%. 在最大序列長(zhǎng)度分別為192、256 和512的情況下,BERT-FRM 的性能比 BERT-Base 提高了2.3%、3. 1% 和 0. 8%,比段落選擇器提高了 17.1%、13.2% 和 2.2%. 由于 TriviaQA (wiki) 數(shù)據(jù)集中的文檔長(zhǎng)度較長(zhǎng),本文直接將最大序列長(zhǎng)度設(shè)置為512, 從表 2 可以得出,與 BERT-Base 相比,BERTFRM 的性能提高了0.8%,與段落選擇器相比,性能提升1.7%.在CoQA 數(shù)據(jù)集中,可以發(fā)現(xiàn)當(dāng)最大序列長(zhǎng)度為192 時(shí),BERT-SLI 的性能比 RCM 提高了0.3%,當(dāng)最大序列長(zhǎng)度為256 和512 時(shí),BERT-FRM 性能雖略有遜色,但基本與RCM 模型成績(jī)持平,也證實(shí)了本文提出的模型具備一定的性能優(yōu)勢(shì).
表2 實(shí)驗(yàn)結(jié)果Table 2 Experimental results
為探究遞歸機(jī)制對(duì)模型的貢獻(xiàn),本文進(jìn)一步設(shè)計(jì)消融實(shí)驗(yàn)進(jìn)行分析:在沒有重疊窗口層的情況下,單獨(dú)使用 LSTM 遞歸的效果. 如表 3 所示,在CoQA 數(shù)據(jù)集上,當(dāng)最大序列長(zhǎng)度為 192 和256 時(shí),僅使用LSTM 遞歸可以將F1 值提高 1.1%、1.9%,在TriviaQA(wiki) 數(shù)據(jù)集上,可以將F1 值提高0.2%.
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results
結(jié)果表明使用遞歸機(jī)制能夠幫助模型建立長(zhǎng)距離依賴的能力,通過將上一個(gè)片段的狀態(tài)會(huì)被緩存下來,然后在計(jì)算當(dāng)前段時(shí)再重復(fù)使用上一個(gè)片段的隱藏層狀態(tài),由于對(duì)上一個(gè)片段的隱藏層狀態(tài)進(jìn)行了重復(fù)使用,由此可以保證模型在進(jìn)行答案選擇時(shí)借鑒當(dāng)前段以外的信息,可以有效解決模型無(wú)法回答跨段信息的問題,進(jìn)一步提升了模型性能.
本文提出了一種基于遞歸機(jī)制的長(zhǎng)文本機(jī)器閱讀理解模型BERT-FRM.未經(jīng)修改的 BERT 模型在機(jī)器閱讀理解任務(wù)上就可以取得不錯(cuò)的效果,在此基礎(chǔ)上,本文使用重疊窗口層解決了正確的答案跨度可能會(huì)被切割成不同部分的問題,雙BERT 組件對(duì)問題和文檔進(jìn)行獨(dú)立編碼,遞歸機(jī)制可以使模型具備建立更長(zhǎng)期依賴的能力,并在兩個(gè)公開數(shù)據(jù)集 TriviaQA 和CoQA 上進(jìn)行了實(shí)驗(yàn),結(jié)果證明了提出的 BERT-FRM模型的有效性. 在未來的工作中,更有效地解決BERT 模型中的輸入長(zhǎng)度限制問題仍然是一個(gè)挑戰(zhàn),在下一階段可以考慮結(jié)合全局注意力機(jī)制以加深文本理解實(shí)現(xiàn)更好的性能.