仇亞進,奚雪峰,3*,崔志明,盛勝利,周悅堯
(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000;2.蘇州市虛擬現(xiàn)實智能交互及應(yīng)用重點實驗室,江蘇 蘇州 215000;3.蘇州智慧城市研究院,江蘇 蘇州 215000;4.德州理工大學(xué),德克薩斯州 盧伯克市 79401)
機器閱讀理解(Machine Reading Comprehension,MRC)任務(wù)主要是指通過利用現(xiàn)代人工智能等信息技術(shù),使機器在閱讀并掌握理解人類自然語言的基礎(chǔ)上,從非結(jié)構(gòu)化文檔中尋找合適的答案,回答來自文本內(nèi)容的相關(guān)問題,以此度量機器對自然文本的理解能力。近年來,MRC因其開放性和交互性在學(xué)術(shù)界和工業(yè)界受到越來越多的重視和研究,已經(jīng)發(fā)展成為NLP領(lǐng)域重要的研究熱點方向。
機器閱讀理解有著悠久的歷史,圖靈早在20世紀50年代,就曾提出通過人機交互衡量機器的智能水平[1]。然后Terry Winograd提出構(gòu)想,認為實現(xiàn)閱讀理解的三大要素是:語法、語義和推理[2]。Hirschman等人于1999 年開始探索MRC技術(shù)的研究,設(shè)計出第一個以小學(xué)年級故事為語料庫的自動閱讀理解基線系統(tǒng)Deep Reed[3]。Riloff等人[4]根據(jù)人工制定規(guī)則,對問題與文章中候選語句的匹配度打分,然后選擇最高分的候選語句當作答案。基于傳統(tǒng)特征的MRC大都采用模式匹配來提取特征,其魯棒性差、耗時長、早期發(fā)展比較慢。直到Hermann等人[5]于2015年提出使用神經(jīng)網(wǎng)絡(luò)模型,該領(lǐng)域才逐漸得到發(fā)展。Liu等人[6]于2019年發(fā)表一篇關(guān)于神經(jīng)機器閱讀理解方法的綜述,重點歸納了基于深度學(xué)習(xí)的MRC方法。Zhang等人[7]于2019年列出并比較了各種MRC數(shù)據(jù)集的具體特征,并描述一些典型的MRC模型的主要思想。Dzendzik等人[8]于2021年發(fā)表一篇關(guān)于MRC英文數(shù)據(jù)集的綜述,其詳細介紹了數(shù)據(jù)集的數(shù)據(jù)收集以及創(chuàng)建過程,并對各個數(shù)據(jù)集從多維度進行分析對比。
在陳丹琦博士的學(xué)位論文中,根據(jù)答案形式將MRC任務(wù)分為完形填空式、多選式、片段抽取式、自由生成式四種類型,這四類見證了MRC技術(shù)的發(fā)展[9]。近年來,隨著數(shù)據(jù)集的不斷豐富,問題從簡單的單詢問問題轉(zhuǎn)向更復(fù)雜的綜合性問題,文本中的答案分布也隨之變化,由單段落單片段答案到多片段多答案,從而對MRC的研究也面向更為復(fù)雜的多跳式閱讀理解領(lǐng)域探索。
面對多種多樣閱讀理解任務(wù)的出現(xiàn),近年國內(nèi)學(xué)者包玥等人[10]對抽取式MRC任務(wù)作了總結(jié);隨著深度學(xué)習(xí)的較快發(fā)展,李舟軍等人[11]對基于深度學(xué)習(xí)的MRC任務(wù)作了總結(jié),認為高質(zhì)量的詞向量表示仍是MRC任務(wù)的研究重點;張超然等人[12]對基于預(yù)訓(xùn)練模型的MRC任務(wù)作了總結(jié),總結(jié)了使用預(yù)訓(xùn)練模型的閱讀理解模型在相關(guān)數(shù)據(jù)集上的表現(xiàn);徐霄玲等人[13]對MRC任務(wù)的研究技術(shù)作了總結(jié),比較了采用不同技術(shù)的MRC模型在不同類型數(shù)據(jù)集上的表現(xiàn)。但目前還沒有學(xué)者對多跳式MRC任務(wù)進行系統(tǒng)地介紹,因此,該文對多跳式閱讀理解的典型代表數(shù)據(jù)集進行介紹分析,對相關(guān)模型方法進行分類總結(jié),希望能夠?qū)Χ嗵介喿x理解任務(wù)的研究起到一定的推動作用。
多跳式機器閱讀理解(Multi-Hop Machine Reading Comprehension,MHMRC)是指由機器閱讀理解與多跳式推理回答交叉形成的新領(lǐng)域,即在傳統(tǒng)MRC抽取答案的基礎(chǔ)上引入多跳式問答,是MRC任務(wù)中重要的一類。多跳推理式閱讀理解中的問題一般都是人工提出的復(fù)雜的綜合問題,在文中不易直接找到答案。面對復(fù)雜問題,有可能需要從文本中多次推理才能對答案實現(xiàn)精準定位。具體來說,給定一個問題,系統(tǒng)只通過一個文檔或段落是無法正確回答問題的,需要系統(tǒng)逐步結(jié)合多處信息來回答,所以需要多跳推理,如圖1所示[14]。
圖1 多跳閱讀理解認知
對于上例問題,由于問題是復(fù)雜的組合問題,給出的信息都是一些間接的信息,因此沒有辦法直接抽取到答案。對于此類復(fù)雜問題,需要經(jīng)歷多次“跳轉(zhuǎn)”才能找到答案,所以被稱為MHMRC問題,可以看出,多跳問題比一般的單跳問題要復(fù)雜得多。
數(shù)據(jù)集是支撐神經(jīng)網(wǎng)絡(luò)模型得以快速發(fā)展的基礎(chǔ),大規(guī)模MRC數(shù)據(jù)集的出現(xiàn)促進了神經(jīng)機器閱讀模型更好地發(fā)展。傳統(tǒng)的單跳式閱讀理解數(shù)據(jù)集中一直聚焦于“文章段落-問題-答案”三者之間的聯(lián)系,從而忽略了真實情況中多跳問答具有的承前啟后、逐步推理的性質(zhì)。隨著研究者不斷深入探索多跳式MRC,各種具有挑戰(zhàn)性的數(shù)據(jù)集被提出,其數(shù)據(jù)集規(guī)模不斷增加并且答案類型不斷豐富,越來越接近真實場景。多跳式數(shù)據(jù)集中的問題,系統(tǒng)需要根據(jù)多篇文檔來回答,即需要多跳推理來鎖定答案。目前,具有代表性的多跳式MRC數(shù)據(jù)集主要包括QAngaroo[15]、HotpotQA[16]等。QAngaroo與HotpotQA的發(fā)布,不僅推動了該類問題的研究,也推動了MRC的發(fā)展。
QAngaroo是2017年倫敦大學(xué)學(xué)院推出的多文檔推理閱讀理解數(shù)據(jù)集。它由兩個數(shù)據(jù)集組成:WikiHop和MedHop,它需要多個推理步驟,將來自多個文檔的事實結(jié)合起來。
WikiHop是開放域,來源于維基百科文章,是一個多跳問答數(shù)據(jù)集。WikiHop的查詢由來自WikiData[17]的實體和關(guān)系構(gòu)成,而支持文檔來自WikiReading[18]。與WikiHop格式相同,MedHop數(shù)據(jù)集基于醫(yī)療庫PubMed的研究論文摘要,查詢是關(guān)于藥物對之間的相互作用。必須通過結(jié)合來自藥物和蛋白質(zhì)的一系列反應(yīng)的信息來推斷出正確的答案。
根據(jù)不同類型的任務(wù)以及所使用的數(shù)據(jù)集,對模型的推理能力要求各不一樣。QAngaroo最大的特點是要從多篇文章中找相關(guān)文檔,結(jié)合多個文檔的多個推斷步驟,聯(lián)合文本多處進行綜合推理,問題的答案不能從一個段落中單獨得出。隨著推理跳數(shù)的增加,統(tǒng)計距離逐漸變遠,與問題的相關(guān)性逐漸變小,因此,QAngaroo對于算法設(shè)計和分析多段落的能力提出了很高的要求。
2018年由卡耐基·梅隆大學(xué)、斯坦福大學(xué)、蒙特利爾大學(xué)和Google公司等聯(lián)合推出多段落推理閱讀理解數(shù)據(jù)集HotpotQA[16]。HotpotQA擁有11萬個基于維基百科問答對段落,是一個以自然的、多跳的問題為特征的問答數(shù)據(jù)集。HotpotQA不僅要將模型需要讀的文本范圍從單段落擴展到多段落或多篇章段落,還要求模型可以對支持答案的證據(jù)之間的邏輯關(guān)系構(gòu)建至少兩步的推理鏈,這比單跳式MRC更有挑戰(zhàn)性。
HotpotQA包含比較問題和是/否問題,涵蓋了圍繞實體、位置、事件、日期和數(shù)值的各種問題。HotpotQA作者從數(shù)據(jù)集中抽取了100個例子,發(fā)現(xiàn)HotpotQA涵蓋了廣泛的答案類型,這與筆者對問題類型的初步分析相匹配,其中大多數(shù)問題都是關(guān)于文章中的實體(68%)和包括各種屬性(如日期(9%))以及其他描述性屬性(如數(shù)字(8%)和形容詞(4%))的不可忽略的問題。
與QAngaroo數(shù)據(jù)集相比,HotpotQA數(shù)據(jù)集無論是在訓(xùn)練集還是在測試集的數(shù)據(jù)量上都有成倍的增加,且增加了帶干擾設(shè)置的數(shù)據(jù)集,更為復(fù)雜,如表1所示。
另外,為了證明模型的確有利用原文中的相關(guān)證據(jù)進行推理并提升模型的可解釋性,HotpotQA不僅要求模型給出最終答案,還要給出推理所用到的支持性事實。
表1 數(shù)據(jù)集對比
不同的MRC任務(wù)有不同的評估指標,可信的評估標準是衡量模型理解自然語言能力的關(guān)鍵參考指標。對于MHMRC任務(wù),需要模型對比預(yù)測所得答案和真實答案。通常使用精確匹配(EM值)和模糊匹配(F1值)進行評價。
EM值指的是模型的預(yù)測答案和給出的正確答案完全相同的比例。F1值指的是模型的預(yù)測答案和正確答案的覆蓋率,通過計算準確率(Precision)與召回率(Recall)得到,即使模型的預(yù)測答案和正確答案不完全相同也可得分,是一種模糊匹配計算。其計算公式如下:
(1)EM值。
(1)
其中,Npa表示模型的預(yù)測答案和真實答案完全匹配的數(shù)量,Nta表示真實答案的總數(shù)量。
(2)F1值。
(2)
(3)
(4)
其中,Nptw表示預(yù)測正確的單詞/字符數(shù)目,Npaw表示所預(yù)測答案的所有單詞/字符數(shù)目,Ntaw表示真實答案的所有單詞/字符數(shù)目。
傳統(tǒng)的基于機器學(xué)習(xí)的MRC模型采用模式匹配進行特征提取,性能提升有限,已不能滿足多文檔多答案以及復(fù)雜問題的需求。隨著深度學(xué)習(xí)的研究發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的MRC模型發(fā)展很快。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、注意力機制等深度學(xué)習(xí)方法和圖神經(jīng)網(wǎng)絡(luò)的出現(xiàn)大大推動了MRC的發(fā)展。近年來有很多學(xué)者基于注意力機制來研究MHMRC,與此同時,隨著圖神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,也有學(xué)者就此展開對MHMRC的研究,考慮到有些復(fù)雜的問題其實可以拆分成簡單子問題,而問題的答案就在這些子問題中,也有學(xué)者提出將復(fù)雜問題分解成若干子問題來解決MHMRC問題。
因此,目前對于MHMRC任務(wù)的解決方案根據(jù)方法主要分為基于注意力機制方法、基于圖神經(jīng)網(wǎng)絡(luò)方法以及基于問題分解方法三種。
由于受到人類視覺神經(jīng)系統(tǒng)可以快速發(fā)現(xiàn)較遠處視野中的重點關(guān)注區(qū)域的啟發(fā),計算機視覺領(lǐng)域早在2000年就提出注意力機制概念[19]。自然語言處理模型在讀取文本時也可以效仿圖像處理,重點關(guān)注和任務(wù)相關(guān)的文本內(nèi)容?;诖?,Bahdanau等人[20]于2014年在機器翻譯(NMT)任務(wù)上應(yīng)用注意力機制,同時進行翻譯和對齊工作,顯著提升了譯文質(zhì)量,這是首次在NLP領(lǐng)域中使用注意力機制。Hermann等人[5]將注意力機制應(yīng)用于MRC模型中,大大的提升了模型準確率。自此,注意力機制很快被推廣應(yīng)用到各種自然語言處理任務(wù)中。
MRC中最核心的任務(wù)就是上下文的語義推理,一般是將單層網(wǎng)絡(luò)模型經(jīng)過多次迭代計算語義從而包含更多相關(guān)語義信息,在每一層的更新詞語計算中加入注意力機制,注意力機制應(yīng)用在MRC模型中讀取文本時重點關(guān)注與問題相關(guān)的文本部分。面對使用注意力機制的MRC模型無法充分利用上下文與問題之間的關(guān)聯(lián)信息,只是單向的應(yīng)用以及只應(yīng)用于文本中部分內(nèi)容,Seo等人[21]提出雙向注意力流網(wǎng)絡(luò)結(jié)構(gòu)BiDAF,這是一個根據(jù)不同粒度分成多階段來獲得問題感知的上下文表示結(jié)構(gòu)。在此基礎(chǔ)上,Liu等人[22]提出一種新的基于注意力的機器理解任務(wù)神經(jīng)網(wǎng)絡(luò)模型—雙重交互模型(DIM Reader),用于研究文本的理解能力,該模型構(gòu)建了多跳的雙重迭代交替注意力機制。Li等人[23]提出一種基于雙向注意流(BiDAF)模型和詞向量結(jié)合的方法,該模型使用雙向注意流機制來捕捉上下文和問題之間的注意力。Xu等人[24]提出一個由粗到細的注意力網(wǎng)絡(luò),設(shè)計了一個多階段分層模型BiDMF,其上下文和問題由雙向LSTM RNN編碼;然后通過注意力機制的多次迭代,得到更準確的交互信息。
自注意力(Self-Attention)[25]是注意力機制的一種改進,即查詢來自源文本序列自身,用于建模源文本序列內(nèi)部元素間的依賴關(guān)系,以加強對源文本語義的理解。Wang等人[26]提出了門控自匹配網(wǎng)絡(luò)R-Net,首次將自注意力機制應(yīng)用于MRC模型。MHMRC需要結(jié)合多篇文章的信息和推理來推斷答案的能力。Zhuang等人[27]引入動態(tài)自注意力網(wǎng)絡(luò)DynSAN來完成多篇文章的閱讀理解任務(wù),它在標記級處理跨篇文章的信息,同時避免大量的計算開銷。針對現(xiàn)實生活中很多問題的答案往往由多個片段組成,蘇立新等人[28]提出面向多片段答案抽取的閱讀理解模型BertBoundary,該模型采用預(yù)訓(xùn)練Bert作為底層結(jié)構(gòu)來理解問題和文本,再利用序列標注建模多個答案片段。面對具有挑戰(zhàn)性的多跳生成任務(wù)(敘事任務(wù)),Bauer等人[29]提出多跳指針生成器模型MHPGM,如圖2所示。
圖2 多跳指針生成器模型框架
MHPGM編碼器使用雙向注意力結(jié)合自注意力的混合注意力機制來執(zhí)行多跳推理,并使用指針生成解碼器來有效地讀取和推理長文章,合成與問題一致的答案。MHPGM模型框架由Embedding Layer、Reasoning Layer、Self-Attention Layer、Pointer-Generator Decoding Layer四部分組成。各部分功能結(jié)構(gòu)列舉如下:
?嵌入層:用一個學(xué)習(xí)過的d維嵌入空間嵌入上下文和問題中的每個單詞,通過來自語言模型(ELMo)的預(yù)嵌入獲得每個單詞的上下文感知嵌入。
?推理層:推理層由k個推理單元組成,使嵌入的上下文通過k個推理單元傳遞,使用BiDAF模擬多跳推理過程中的單個推理步驟。
?自注意力層:作為答案生成之前的最后一層,利用剩余靜態(tài)自我注意機制來幫助模型處理具有長期依賴性的長上下文。
?指針生成器解碼層:使用一個注意力指針生成解碼器并從上下文中復(fù)制來創(chuàng)建答案。
隨著注意力機制的快速發(fā)展,Song等人[30]提出一種新的全局注意力推理(GAI)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它通過動態(tài)終止的多跳推理機制從結(jié)構(gòu)知識中學(xué)習(xí)有用的線索來回答完形填空式的問題。Duan等人[31]提出一種端到端的深度學(xué)習(xí)模型來回答多選題。該模型采用雙GRU對文章和問題進行上下文編碼,并通過六種注意力函數(shù)對給定文章和問題之間的復(fù)雜交互進行建模,然后利用多層次的注意力轉(zhuǎn)移推理機制,進一步獲得更準確的綜合語義。針對現(xiàn)實生活中的問題多樣性,譚紅葉等人[32]對此展開研究,提出一種基于Bert的多任務(wù)閱讀理解模型,該模型先對問題分類預(yù)測,然后利用雙向注意力機制來捕獲問題和篇章的關(guān)系,從而回答多樣性問題。Zhong等人[33]提出一種新的問答模型—粗粒度細粒度知識網(wǎng)絡(luò)(CFC),CFC應(yīng)用協(xié)同注意力和自我注意力來學(xué)習(xí)候選、文檔和實體的查詢感知節(jié)點表示。由于RNN的順序性,基于注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)閱讀理解模型在訓(xùn)練和推理方面較慢,Zheng等人[34]提出一個新的多粒度MRC模型,該模型利用圖注意網(wǎng)絡(luò)來獲得不同層次的表示,對兩個粒度答案之間的依賴關(guān)系進行建模,從而為彼此提供證據(jù)。最近,Wu等人[35]利用選擇引導(dǎo)策略(S2G)以由粗到細的方式精確檢索證據(jù)段落,并結(jié)合兩種新穎的注意機制,設(shè)計出符合多跳推理本質(zhì)的MRC模型。
綜上所述,可知在MRC任務(wù)中結(jié)合注意力機制的模型層出不窮,表2以時間順序梳理了近五年來不同注意力機制應(yīng)用在MRC中的典型模型方法及主要貢獻。
表2 基于注意力機制方法的典型MRC模型及主要貢獻
圖神經(jīng)網(wǎng)絡(luò)的概念最初由Gori等人[36]于2005年提出,并在Scarselli[37]等人的文章中進一步闡述。最近幾年,深度學(xué)習(xí)方法在圖上得到了廣泛的探索與研究。在CNN、RNN和深度自動編碼器的基礎(chǔ)上,衍生出很多處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即圖神經(jīng)網(wǎng)絡(luò)(GNN)。按照其建模方式的不同,將圖神經(jīng)網(wǎng)絡(luò)劃分為圖卷積網(wǎng)絡(luò)(GCN)、圖注意力網(wǎng)絡(luò)(GAN)、圖自編碼器(Graph Auto-encoders)、圖生成網(wǎng)絡(luò)(GGN)和圖時空網(wǎng)絡(luò)五大類別。
目前,圖的深度學(xué)習(xí)和NLP的交叉研究浪潮影響著很多NLP任務(wù),人們應(yīng)用和開發(fā)不同的GNNs變體并在諸多NLP任務(wù)中取得相當大的成功。陳雨龍等人[38]對圖神經(jīng)網(wǎng)絡(luò)在自然語言處理中的不同應(yīng)用進行系統(tǒng)論述,認為如何用圖來建模不同任務(wù)中的關(guān)鍵信息是未來工作中的重點。Song等人[39]探索過基于圖結(jié)構(gòu)的MRC任務(wù),主要解決MRC中的多跳語義關(guān)聯(lián)問題。Su等人[40]提出用于問題生成的多跳編碼融合網(wǎng)絡(luò)(MulQG),MulQG使用圖卷積網(wǎng)絡(luò)在多跳中進行上下文編碼,并通過編碼器推理門進行編碼融合。受人類推理過程的啟發(fā),Tang等人[41]從支持文檔中構(gòu)建了基于路徑的推理圖,該圖結(jié)合基于圖的方法和基于路徑的方法,更適合多跳推理。
對于需要通過多次跳轉(zhuǎn)一組文檔才能得到正確答案的問題,模型需要:(1)選出和問題相關(guān)的段落;(2)找出段落中有力的支持證據(jù);(3)根據(jù)收集到的證據(jù)推理出正確答案。基于圖神經(jīng)網(wǎng)絡(luò)其固有的消息傳遞機制,可以通過圖傳播多跳信息,F(xiàn)ang等人[42]提出一種用于多跳問題回答的層次圖網(wǎng)絡(luò)(HGN),該模型通過層次框架中的多級細粒度圖來支持聯(lián)合回答/證據(jù)預(yù)測,對每個問題,HGN不是只使用實體作為節(jié)點,而是構(gòu)建一個層次圖來從不同粒度級別(問題、段落、句子、實體)中獲取線索,HGN模型各部分如圖3所示。
圖3 HGN模型架構(gòu)
HGN主要由四部分組成,圖構(gòu)造模塊:用于構(gòu)造分層圖以連接不同粒度信息,其中分層圖需要分兩步構(gòu)建,首先要識別出和問題相關(guān)聯(lián)的各段落,然后再添加所選段落中各級實體(句子/實體)之間聯(lián)系的邊;上下文編碼模塊:也就是通過基于RoBERTa的模型編碼器得到圖中各個圖節(jié)點的初始表示;圖推理模塊:在上下文編碼完成后,HGN對分成圖推理,通過圖神經(jīng)網(wǎng)絡(luò)將上下文表示的圖節(jié)點轉(zhuǎn)換成更高級的特征,并利用基于圖注意力的方法完成節(jié)點的表示更新;多任務(wù)預(yù)測模塊:圖推理完成后,更新的節(jié)點表示被用于不同的子任務(wù)(選擇段落+尋找支持證據(jù)+實體預(yù)測+提取答案),完成這些子任務(wù)后才得到答案。
由于層次圖可以應(yīng)用于不同的多跳問答數(shù)據(jù)集,為了推廣到其他需要使用較長文檔的數(shù)據(jù)集,可使用基于滑動窗口的方法將長序列分成短序列,或者用能夠處理長序列的其他基于變壓器的模型代替基于Bert的主干。Song等人[39]基于共同參考全局信息或滑動窗口構(gòu)建實體圖,提出一種新的模型MHQA-GRN來更好地連接全局證據(jù),形成了更復(fù)雜的圖。Tu等人[43]通過添加文檔節(jié)點以及在文檔、實體和候選答案之間創(chuàng)建交互來豐富實體圖中的信息,引入一種具有不同類型節(jié)點和邊的異構(gòu)圖,稱為異構(gòu)文檔實體圖(HDE),HDE使用基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的消息傳遞算法來積累證據(jù)。
可解釋的多跳問題回答需要對多個文檔進行逐步推理,并找到分散的支持事實來回答問題。已有工作提出用實體圖方法來聚合實體信息,提高推理能力。然而,實體圖有時也會丟失一些對理解語義也很重要的非實體信息。此外,分布在噪聲句子中的實體可能會誤導(dǎo)推理過程。為此,Zhang等人[44]提出一種粗粒度和細粒度圖網(wǎng)絡(luò)(CFGGN),CFGGN是一種結(jié)合句子信息和實體信息來回答多跳問題的新的可解釋模型,由執(zhí)行句子級推理的粗粒度模塊和進行實體級引用的細粒度模塊組成。為解決多跳問答模型在沒有正確推理的情況下反而得到正確答案的偏差問題,Lee等人[45]提出一種學(xué)習(xí)證據(jù)的新方法,決定答案預(yù)測是否得到正確證據(jù)的支持。為處理動態(tài)和復(fù)雜的問題,Xu等人[46]提出一種新的方法,通過動態(tài)地構(gòu)建語義圖并對其進行推理,在為多跳問答提供可解釋性證據(jù)的同時,發(fā)掘更多的有效事實。
通過上述分析可知,近年來基于圖神經(jīng)網(wǎng)絡(luò)方法來研究MRC任務(wù)逐漸興起,其相關(guān)典型模型方法及主要貢獻如表3所示。
MHMRC具有挑戰(zhàn)性,因為它需要跨多個段落收集證據(jù)來回答一個問題,并且需要對兩個證據(jù)如何相互關(guān)聯(lián)進行更復(fù)雜的推理。多跳問題大都為復(fù)雜的問題,然而復(fù)雜問題可以分解為若干單跳問題。在單跳MRC中,系統(tǒng)可以使用單個句子獲得良好的性能?;诖耍琈in等人[47]于2019年提出一個用于多跳RC的系統(tǒng)DECOMPRC,其學(xué)會使用原始問題的跨度將組合多跳問題分解成簡單的單跳子問題。此外,他們還提出一種重排序方法,從不同的可能分解中獲得答案,并用答案重排序每個分解,以決定最終答案,而不是一開始就決定分解。同年,Min等人[48]認為問題組合性不是多跳推理的充分條件,即使是高度復(fù)合的問題,如果這些問題針對的是特定實體類型,或者回答這些問題所需的事實是多余的,也可以用一跳來回答。為此,他們提出一個基于單跳Bert的閱讀理解模型,如圖4所示。
圖4 單段落Bert模型
單段落Bert模型分別對每段進行評分和回答,然后從yempty得分最低的段落中得到答案。其中yspan、yyes、yno和yempty分別表示答案是有跨度區(qū)間、是類型、非類型或沒有答案類型。如表4所示,與代表性模型相比單段落Bert模型在多跳數(shù)據(jù)集HotpotQA上F1值達到67.08%。這表明大多數(shù)HotpotQA問題都可以使用單跳模型加干擾物設(shè)置來回答。最后,他們還設(shè)計一個評估環(huán)境,在這個環(huán)境中,人類沒有看到預(yù)期的多跳推理所需的所有段落,但仍然可以回答80%以上的問題,同樣表明大多數(shù)組合問題都可以分解成單跳問題。
通過研究多跳問題的最佳表現(xiàn)模型是否像人類一樣理解潛在的子問題。2020年,Tang等人[50]采用神經(jīng)分解模型為多跳復(fù)雜問題生成子問題,然后提取相應(yīng)的子答案。此外還提出一個新的模型來提高回答子問題的性能,這項工作朝著構(gòu)建一個更易于解釋的多跳質(zhì)量保證系統(tǒng)邁出了重要一步。2021年,Cao等人[51]引入粗粒度復(fù)雜問題分解(CGDe)策略,在沒有任何附加注釋的情況下將復(fù)雜問題分解為簡單問題,并結(jié)合細粒度交互(FGIn)策略,以更好地表示文檔中的每個單詞,提取與推理路徑相關(guān)的更全面準確的句子。
該文歸納總結(jié)了目前多跳式機器閱讀理解的概念和多跳領(lǐng)域的數(shù)據(jù)集,以及常用的模型方法,即基于注意力機制、圖神經(jīng)網(wǎng)絡(luò)、問題分解的三種多跳式MRC模型。
針對當前多跳式MRC任務(wù)發(fā)展中存在的難點和挑戰(zhàn),提出以下幾點未來研究方向:
(1)目前針對多跳式MRC中文數(shù)據(jù)集很少,中文數(shù)據(jù)集與英文數(shù)據(jù)集在語法結(jié)構(gòu)、語義分析、語序等多方面存在較大差異,如何構(gòu)建一個好的面向多跳領(lǐng)域的中文數(shù)據(jù)集仍然是一個巨大的挑戰(zhàn)。另外,面向各專業(yè)領(lǐng)域數(shù)據(jù)集相對較少,各行各業(yè)如何結(jié)合行業(yè)發(fā)展趨勢,推出各自領(lǐng)域的相關(guān)數(shù)據(jù)集,這也是NLP各任務(wù)未來必不可少的研究。
(2)從上述研究方法中,不難發(fā)現(xiàn)能否設(shè)計出高效準確的推理方法至關(guān)重要,如何結(jié)合注意力機制以及圖神經(jīng)網(wǎng)絡(luò)設(shè)計出合理高效的推理方法仍是研究熱點之一。
(3)在實際情況下MRC模型的輸入是很復(fù)雜的,對于一些夾雜著噪聲的輸入常常影響模型的泛化性能,因此如何增強模型魯棒性的研究也是一個巨大的挑戰(zhàn)。
(4)人類在解答問題時通常會聯(lián)想到問題的相關(guān)背景以及有關(guān)聯(lián)的信息等,而閱讀理解模型在尋找答案時所考慮的信息都來自于給定文檔,沒有融合外部知識來理解文章,可想而知,效率以及準確度大大下降。因此,如何引入外部知識并與MRC模型相結(jié)合來提升模型準確率,也需要深入探討研究。