杜永萍,趙以梁,閻婧雅,郭文陽(yáng)
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
認(rèn)知智能是人工智能發(fā)展的最高階段,其目標(biāo)是讓機(jī)器掌握人類(lèi)的語(yǔ)言和知識(shí)體系,并真正理解其內(nèi)在邏輯,這意味著機(jī)器開(kāi)始具備分析和思考的能力。自然語(yǔ)言是認(rèn)知科學(xué)的一項(xiàng)重要研究?jī)?nèi)容,用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,意味著要使計(jì)算機(jī)能夠理解自然語(yǔ)言文本的意義,以自然語(yǔ)言理解為核心技術(shù)的自動(dòng)問(wèn)答、人機(jī)對(duì)話(huà)、聊天機(jī)器人已經(jīng)成為產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注熱點(diǎn)。
自動(dòng)問(wèn)答是語(yǔ)言理解的重要應(yīng)用領(lǐng)域,特別是機(jī)器閱讀理解,賦予了計(jì)算機(jī)從文本數(shù)據(jù)中獲取知識(shí)和回答問(wèn)題的能力,它是人工智能中一項(xiàng)挑戰(zhàn)性的任務(wù),需要深度理解自然語(yǔ)言并具備一定推理能力。
近年來(lái),機(jī)器閱讀理解領(lǐng)域的研究進(jìn)入快速發(fā)展時(shí)期,一方面得益于大規(guī)模高質(zhì)量數(shù)據(jù)集的發(fā)布:包括Facebook Children’s Books Test[1]、SQuAD[2]以及TriviaQA[3]等高質(zhì)量數(shù)據(jù)集;另一方面,基于深度學(xué)習(xí)技術(shù)的模型在獲取上下文交互信息方面明顯優(yōu)于傳統(tǒng)模型,例如基于雙向注意力機(jī)制的BiDAF 模型[4]、Transformer[5]和基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)R-Net[6]。中文問(wèn)答任務(wù)上,基于注意力機(jī)制的模型如N-Reader[7]在中文數(shù)據(jù)集DuReader[8]上取得了較好的成績(jī)。
近期,預(yù)訓(xùn)練模型[9-10]與知識(shí)推理技術(shù)[11-12]在復(fù)雜問(wèn)答任務(wù)上取得了優(yōu)異的表現(xiàn),特別在多跳問(wèn)答任務(wù)中,問(wèn)題的答案需要從多個(gè)篇章中獲取,模型需要通過(guò)推理才能得出答案,圖神經(jīng)網(wǎng)絡(luò)在該類(lèi)任務(wù)上具有較好的適用性,Ding 等[11]使用認(rèn)知圖譜與圖神經(jīng)網(wǎng)絡(luò)解決復(fù)雜數(shù)據(jù)集的推理任務(wù)并取得當(dāng)時(shí)SOTA 的結(jié)果。
機(jī)器閱讀理解任務(wù),從輸入信息的角度,可分為兩種類(lèi)型:基于多模態(tài)的閱讀理解任務(wù)和基于文本的閱讀理解任務(wù)。
基于多模態(tài)的閱讀理解任務(wù)是指使機(jī)器能夠?qū)ξ谋尽D片以及視頻等多種來(lái)源的信息進(jìn)行學(xué)習(xí),該研究任務(wù)更貼近于人類(lèi)對(duì)信息獲取的綜合感知的學(xué)習(xí)方式,它是新興的具有挑戰(zhàn)性的研究方向。目前已有一些基于多模態(tài)的閱讀理解任務(wù)的評(píng)測(cè)任務(wù)和數(shù)據(jù)集,如RecipeQA[13]和TQA[14]等。
本文主要針對(duì)基于文本的閱讀理解任務(wù)進(jìn)行分析,主要分為四類(lèi):完形填空式任務(wù)、選擇式任務(wù)、片段抽取式任務(wù)和自由作答式任務(wù)。
1)完形填空式任務(wù):對(duì)于給定的篇章P,從P中刪去詞語(yǔ)A。任務(wù)要求機(jī)器學(xué)習(xí)到函數(shù)F,從Q=P-{A} 中對(duì)P中缺少的詞語(yǔ)或?qū)嶓w進(jìn)行補(bǔ)全,即A=F(Q)=F(P-{A})。
完形填空式任務(wù)的難點(diǎn)在于,機(jī)器需要從不完整的文本中學(xué)習(xí)上下文語(yǔ)義關(guān)系,并且不僅需要對(duì)篇章所表達(dá)的內(nèi)容進(jìn)行理解,還需要把握篇章的語(yǔ)言表達(dá)、詞語(yǔ)運(yùn)用的習(xí)慣,從而正確地對(duì)被刪去的內(nèi)容進(jìn)行預(yù)測(cè)。該任務(wù)代表性數(shù)據(jù)集有CNN/DailyMail[15]、Facebook Children’sBooks Test[1]等。
2)選擇式任務(wù):對(duì)于給定的篇章P和問(wèn)題Q,以及問(wèn)題Q的候選答案集合A={A1,A2,···,An},要求機(jī)器學(xué)習(xí)到函數(shù)F,根據(jù)P、Q、A從A中選擇對(duì)Q回答正確的一項(xiàng),即Ai=F(P,Q,A)。
選擇式任務(wù)的特點(diǎn)在于要求數(shù)據(jù)集提供問(wèn)題的候選答案集合。機(jī)器在完成選擇式任務(wù)時(shí),需要對(duì)篇章、問(wèn)題、候選答案之間的語(yǔ)義關(guān)系進(jìn)行理解和分析,給出正確的判斷。該任務(wù)的代表性數(shù)據(jù)集有WikiHop[16]、CommonsenseQA[17]等。
3)片段抽取式任務(wù):對(duì)于給定的篇章P={w1,w2,···,wn}和 問(wèn)題Q,機(jī)器學(xué)習(xí)到函數(shù)F,根據(jù)對(duì)P和Q的理解,從P中選取連續(xù)片段A作為Q的答案,即A=F(P,Q),A={wi,wi+1,···,wj},A∈P。
片段抽取式任務(wù)的特點(diǎn)在于問(wèn)題的答案可以在篇章中找到,且答案可以是詞語(yǔ)、實(shí)體或句子等形式。構(gòu)建數(shù)據(jù)集時(shí)對(duì)問(wèn)題的選取有一定要求,該任務(wù)的代表性數(shù)據(jù)集有SQuAD[2]、NewsQA[18]等。
4)自由作答式任務(wù):對(duì)于給定的篇章P和問(wèn)題Q,機(jī)器學(xué)習(xí)到函數(shù)F,根據(jù)對(duì)P和Q的理解得出答案A,且A不一定在P中出現(xiàn),可以為任意形式,即A=F(P,Q)。
自由作答式任務(wù)在答案的選取上最為靈活,答案的形式也無(wú)限制,且答案范圍不局限于給定篇章。這類(lèi)任務(wù)往往要求機(jī)器具有一定的分析、推理能力。該任務(wù)的代表性數(shù)據(jù)集有DuReader[8]、DROP[19]等。
傳統(tǒng)的機(jī)器閱讀理解方法通常是基于規(guī)則或者統(tǒng)計(jì)學(xué)規(guī)律,但隨著該任務(wù)數(shù)據(jù)集的規(guī)模和質(zhì)量的提升,深度學(xué)習(xí)方法表現(xiàn)出了良好的性能。如今機(jī)器閱讀理解模型的構(gòu)建大多采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)問(wèn)題和篇章進(jìn)行編碼,并在問(wèn)題-篇章交互層中使用注意力機(jī)制。
機(jī)器閱讀理解模型的輸入通常為問(wèn)題和篇章,最終的輸出是問(wèn)題的答案。常見(jiàn)的基于深度學(xué)習(xí)的機(jī)器閱讀理解模型主要包括4 個(gè)層次:詞嵌入層、編碼層、問(wèn)題-篇章交互層以及答案預(yù)測(cè)層,如圖1 所示。
圖1 基于深度學(xué)習(xí)方法的機(jī)器閱讀理解通用模型結(jié)構(gòu)Fig.1 Generic architecture of machine reading comprehension model based on deep learning
1)詞嵌入層:?jiǎn)栴}和篇章輸入模型后,將輸入的自然語(yǔ)言文字轉(zhuǎn)換為定長(zhǎng)向量。可以通過(guò)獨(dú)熱編碼、分布式詞向量表示等多種方式分別得到問(wèn)題和篇章的嵌入表示。采用大規(guī)模語(yǔ)料庫(kù)預(yù)訓(xùn)練得到的詞表示會(huì)包含豐富的上下文信息。例如QANet[20]中使用預(yù)訓(xùn)練詞表GloVe[21]作為詞的初始化表示,為后續(xù)模型正確預(yù)測(cè)答案提供支撐。
2)編碼層:詞嵌入層的輸出作為編碼層的輸入,分別對(duì)問(wèn)題和篇章進(jìn)行建模。一些典型的深度神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò),具有能夠處理時(shí)間序列預(yù)測(cè)問(wèn)題的特性,它通常被應(yīng)用在編碼層來(lái)挖掘問(wèn)題和篇章的上下文信息。R-Net[6]采用多層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,并利用自注意力機(jī)制進(jìn)一步捕獲更加豐富的上下文信息。循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是隱藏層的神經(jīng)元之間可以進(jìn)行交互,使得信息具有傳遞性。Attentive Reader[15]中的編碼層部分由雙向循環(huán)神經(jīng)網(wǎng)絡(luò)正向和反向的輸出拼接得到篇章中第t個(gè)位置詞的表示,并計(jì)算該位置詞的權(quán)重。
3)問(wèn)題-篇章交互層:?jiǎn)栴}和篇章之間的關(guān)聯(lián)對(duì)答案的預(yù)測(cè)有著重要的作用。注意力機(jī)制被廣泛應(yīng)用于問(wèn)題-篇章交互層中,包括單向注意力機(jī)制、雙向注意力機(jī)制以及自注意力機(jī)制,用于增強(qiáng)與問(wèn)題相關(guān)的篇章部分的表示。如圖2 所示,將問(wèn)題Q={x1,x2,x3,x4,x5} 融入到篇章C中,若要得到C中的詞y的表示,首先計(jì)算Q中每個(gè)詞的權(quán)重w1,w2,w3,w4,w5=softmax(QT,y),由y與Q中每個(gè)詞點(diǎn)乘并使用行向 softmax進(jìn)行歸一化得到;然后對(duì)Q中每個(gè)詞進(jìn)行加權(quán)求和得到融入問(wèn)題信息的詞y的表示,即=w1x1+w2x2+w3x3+w4x4+w5x5。以此類(lèi)推,計(jì)算得到篇章C中每個(gè)詞的新的表示,記作A(Q,C)。
圖2 注意力機(jī)制的原理示意Fig.2 Structure of attention mechanism
BiDAF[4]提出的雙向注意力機(jī)制不僅計(jì)算融入問(wèn)題信息的篇章表示,也計(jì)算了融入篇章信息的問(wèn)題表示,從而進(jìn)一步提高了模型對(duì)問(wèn)題和篇章的理解能力。注意力機(jī)制相比于循環(huán)神經(jīng)網(wǎng)絡(luò),其復(fù)雜度更小,參數(shù)量也更少,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)不能并行計(jì)算和短期記憶的問(wèn)題。自注意力機(jī)制在機(jī)器閱讀理解任務(wù)中常被用來(lái)關(guān)注篇章自身的內(nèi)容,即 Att(C,C),目的是計(jì)算篇章中各個(gè)詞的相似度,以學(xué)習(xí)到篇章自身詞與詞之間的關(guān)系,R-Net[6]、T-Reader[22]、HQACL[23]模型均采用自注意力機(jī)制提高了模型對(duì)篇章的理解能力。
4)答案預(yù)測(cè)層:答案預(yù)測(cè)層用于輸出問(wèn)題的答案。機(jī)器閱讀理解的任務(wù)類(lèi)型不同,答案形式也不同。完形填空式任務(wù)的輸出是篇章中的一個(gè)單詞或?qū)嶓w;選擇式任務(wù)的輸出是從候選答案中選出正確答案;片段抽取式任務(wù)需要從篇章中抽取連續(xù)子序列作為輸出;對(duì)于自由作答式的任務(wù),文本生成技術(shù)通常被用于該層來(lái)生成問(wèn)題的答案。
預(yù)訓(xùn)練模型已經(jīng)在自然語(yǔ)言處理的多項(xiàng)下游任務(wù)中取得了優(yōu)秀的性能,包括OpenAI GPT[24]、BERT[9]、XLNet[10]等,可以有效獲取句法和語(yǔ)義信息,并進(jìn)行文本表示。預(yù)訓(xùn)練方法通常用于機(jī)器閱讀理解任務(wù)的詞嵌入層,將自然語(yǔ)言文本編碼成固定長(zhǎng)度的向量。詞的表示方法中,獨(dú)熱編碼無(wú)法體現(xiàn)詞與詞之間的關(guān)系;分布式詞向量表示方法雖然可以在低維空間中編碼并通過(guò)距離度量詞與詞之間的相關(guān)性,但并沒(méi)有包含上下文信息,為了解決這個(gè)問(wèn)題,基于預(yù)訓(xùn)練的詞表示方法被提出并應(yīng)用。
Transformer[5]是第一個(gè)完全基于注意力機(jī)制的序列生成模型,BERT[9]提出利用雙向Transformer 預(yù)訓(xùn)練得到上下文級(jí)別的詞表示。XLNet[10]以自回歸語(yǔ)言模型為基礎(chǔ)融合自編碼語(yǔ)言模型的優(yōu)點(diǎn),克服了自回歸語(yǔ)言模型無(wú)法對(duì)雙向上下文信息進(jìn)行建模的缺點(diǎn)。XLNet[10]引入雙流自注意力機(jī)制以解決目標(biāo)位置信息融入的問(wèn)題,同時(shí)使得模型能夠處理更長(zhǎng)的輸出長(zhǎng)度。但是,常規(guī)的預(yù)訓(xùn)練方法無(wú)法對(duì)文本中的實(shí)體及關(guān)系建模,ERICA[25]框架被提出用于解決該問(wèn)題,實(shí)現(xiàn)深度理解,它可以提升典型的預(yù)訓(xùn)練模型BERT[9]與RoBERTa[26]在多個(gè)自然語(yǔ)言理解任務(wù)上的性能,包括機(jī)器閱讀理解。
此外,在面向中文的預(yù)訓(xùn)練語(yǔ)言模型中,ChineseBERT[27]將具有中文特性的字形和拼音融入預(yù)訓(xùn)練過(guò)程中,在機(jī)器閱讀理解等多項(xiàng)中文自然語(yǔ)言處理任務(wù)中達(dá)到了SOTA,該模型在訓(xùn)練數(shù)據(jù)較少的情況下優(yōu)于常規(guī)的預(yù)訓(xùn)練模型。
盡管預(yù)訓(xùn)練語(yǔ)言模型的上下文表示已經(jīng)包含了句法、語(yǔ)義等知識(shí),但挖掘上下文表示所蘊(yùn)含的常識(shí)的工作較少,它對(duì)于機(jī)器閱讀理解是非常重要的。Zhou 等[28]在不同具有挑戰(zhàn)性的測(cè)試中檢驗(yàn)GPT[24]、BERT[9]、XLNet[10]和RoBERTa[26]的常識(shí)獲取能力,發(fā)現(xiàn)模型在需要更多深入推理的任務(wù)上表現(xiàn)不佳,這也表明常識(shí)獲取依然是一個(gè)巨大挑戰(zhàn)。
如何提高系統(tǒng)的可解釋性是人工智能領(lǐng)域一項(xiàng)重要挑戰(zhàn),對(duì)于機(jī)器閱讀理解等自動(dòng)問(wèn)答任務(wù),特別是復(fù)雜問(wèn)題回答,機(jī)器需要具備通過(guò)推理來(lái)獲取答案的能力,而目前的深度學(xué)習(xí)方法可解釋性較差是一個(gè)普遍現(xiàn)象,無(wú)法將推理過(guò)程進(jìn)行顯示地表達(dá)。常見(jiàn)的基于知識(shí)推理的機(jī)器閱讀理解技術(shù)包括語(yǔ)義蘊(yùn)含推理、知識(shí)圖譜推理以及基于檢索的多跳推理,如圖3 所示。
圖3 基于知識(shí)推理的機(jī)器閱讀理解技術(shù)Fig.3 Technologies of machine reading comprehension model based on knowledge inference
基于語(yǔ)義蘊(yùn)涵推理的問(wèn)答方法:?jiǎn)栴}回答可轉(zhuǎn)換為文本蘊(yùn)涵任務(wù),將問(wèn)題和候選答案組成假設(shè),系統(tǒng)決定候選知識(shí)庫(kù)是否能推出假設(shè)。Shi等[29]研究一種神經(jīng)符號(hào)問(wèn)答方法,將自然邏輯推理集成到深度學(xué)習(xí)體系結(jié)構(gòu)中,建立推理路徑,計(jì)算中間假設(shè)和候選前提的蘊(yùn)含分值,提升模型性能并具有可解釋性。Dalvi 等[30]以語(yǔ)義蘊(yùn)涵樹(shù)的方式來(lái)生成解釋?zhuān)?chuàng)建了首個(gè)包含多階蘊(yùn)涵樹(shù)的數(shù)據(jù)集EntailmentBank,逐步從已知事實(shí)逼近由問(wèn)題和答案構(gòu)成的最終假設(shè),為自動(dòng)問(wèn)答任務(wù)生成更加豐富的和系統(tǒng)的解釋?zhuān)ㄟ^(guò)一系列的推理鏈來(lái)支撐正確答案的獲取。同時(shí),也出現(xiàn)了無(wú)效蘊(yùn)涵推理等問(wèn)題,有待優(yōu)化,但該方法在進(jìn)一步提高模型的可解釋性方面進(jìn)行了有效嘗試。
基于知識(shí)推理的問(wèn)答方法:知識(shí)圖譜是一種以關(guān)系有向圖形式存儲(chǔ)人類(lèi)知識(shí)的資源,與無(wú)結(jié)構(gòu)的文本數(shù)據(jù)相比,結(jié)構(gòu)化的知識(shí)圖譜以一種更加清晰準(zhǔn)確的方式表示人類(lèi)知識(shí),從而為高質(zhì)量問(wèn)答系統(tǒng)的構(gòu)建帶來(lái)了前所未有的發(fā)展機(jī)遇,有代表性的大規(guī)模知識(shí)圖譜包括ConceptNet[31]、DBpedia[32]、YAGO[33]等。常識(shí)問(wèn)答數(shù)據(jù)集CommonsenseQA[17]是通過(guò)從ConceptNet[31]中抽取出具有相同語(yǔ)義關(guān)系的知識(shí),構(gòu)建問(wèn)題和答案。
基于知識(shí)增強(qiáng)的常識(shí)類(lèi)問(wèn)題回答中,首先面臨的問(wèn)題是,知識(shí)圖譜與自然語(yǔ)言文本表達(dá)的異構(gòu)性。Bian 等[34]提出一種將知識(shí)轉(zhuǎn)化為文本的框架,用于為常識(shí)問(wèn)答提供評(píng)測(cè)基準(zhǔn),在CommonsenseQA[17]上取得最優(yōu)性能,同時(shí)也表明知識(shí)的潛力在常識(shí)問(wèn)答任務(wù)上未得到充分利用,在上下文相關(guān)的高質(zhì)量知識(shí)選擇、異構(gòu)知識(shí)的利用等方面有待繼續(xù)深入。知識(shí)表達(dá)通常采用基于圖的方法,但該方法關(guān)注于拓?fù)浣Y(jié)構(gòu),忽略了節(jié)點(diǎn)和邊所蘊(yùn)含的文本信息。Yan 等[35]提出基于BERT[9]的關(guān)系學(xué)習(xí)任務(wù),將自然語(yǔ)言文本與知識(shí)庫(kù)對(duì)齊進(jìn)行推理,并證明了關(guān)系學(xué)習(xí)方法的有效性。
更進(jìn)一步,針對(duì)生成式常識(shí)推理這一更具有挑戰(zhàn)性的任務(wù),現(xiàn)有模型很難生成正確的句子,其中一個(gè)重要原因是沒(méi)有有效結(jié)合知識(shí)圖譜中常識(shí)知識(shí)之間的關(guān)系信息。Liu 等[36]研究知識(shí)圖譜增強(qiáng)的KG-BART 模型,結(jié)合知識(shí)圖譜生成更有邏輯性更自然的句子表達(dá),通過(guò)圖注意力聚合概念語(yǔ)義,增強(qiáng)對(duì)新概念集的泛化能力。該方法的實(shí)驗(yàn)結(jié)果證明,結(jié)合知識(shí)圖譜后,模型可以生成質(zhì)量更高的語(yǔ)句。KG-BART 模型可以遷移到常識(shí)問(wèn)答等以常識(shí)為中心的下游任務(wù)。
基于檢索與知識(shí)融合的多跳推理方法:多跳問(wèn)答是一項(xiàng)需要多層推理的挑戰(zhàn)性任務(wù),在實(shí)際應(yīng)用中十分普遍。該任務(wù)需要從大規(guī)模語(yǔ)料庫(kù)中發(fā)現(xiàn)回答問(wèn)題的支撐證據(jù),分析分散的證據(jù)片段,進(jìn)行多跳推理實(shí)現(xiàn)對(duì)問(wèn)題的回答。多跳問(wèn)答通常使用實(shí)體關(guān)系進(jìn)行分步推理,已有方法通過(guò)預(yù)測(cè)序列關(guān)系路徑(較難優(yōu)化)或匯聚隱藏的圖特征進(jìn)行答案推理(可解釋性差)。Shi 等[37]提出了TransferNet,TransferNet 使用同一框架支持實(shí)體標(biāo)簽和文本關(guān)系的表示,推理的每一環(huán)節(jié)關(guān)注問(wèn)題的不同部分,傳遞實(shí)體信息,取得優(yōu)秀性能表現(xiàn)。Li 等[38]提出新的檢索目標(biāo)“hop”來(lái)發(fā)現(xiàn)維基百科中的隱藏證據(jù),將hop 定義為含有超鏈接的文本和鏈接到的文檔,檢索維基百科回答復(fù)雜問(wèn)題。
針對(duì)現(xiàn)有基于單跳的圖推理方法會(huì)遺漏部分重要的非連續(xù)依賴(lài)關(guān)系的難題,Jiang 等[39]定義高階動(dòng)態(tài)切比雪夫近似圖卷積網(wǎng)絡(luò),將直接依賴(lài)和長(zhǎng)期依賴(lài)的信息融合到一個(gè)卷積層來(lái)增強(qiáng)多跳圖推理,在文本分類(lèi)、多跳圖推理等多個(gè)任務(wù)上進(jìn)行實(shí)驗(yàn),取得了最優(yōu)性能。Feng 等[40]提出一種適合多跳關(guān)系推理的模型MHGRN,結(jié)合圖神經(jīng)網(wǎng)絡(luò)和關(guān)系網(wǎng)絡(luò),通過(guò)多跳信息傳遞,在長(zhǎng)度最多為k的關(guān)系路徑上傳遞信息,賦予圖神經(jīng)網(wǎng)絡(luò)直接建模路徑的能力。
大規(guī)模高質(zhì)量數(shù)據(jù)集的發(fā)布是推動(dòng)機(jī)器閱讀理解快速發(fā)展的重要因素,根據(jù)不同任務(wù)類(lèi)型,代表性數(shù)據(jù)集如表1 所示,發(fā)布時(shí)間軸如圖4 所示。其中,完形填空式問(wèn)答任務(wù)數(shù)據(jù)集中Book-Test[14]的問(wèn)題規(guī)模最大,在2015 年以后片段抽取式的數(shù)據(jù)集規(guī)模均在萬(wàn)級(jí)以上。
圖4 機(jī)器閱讀理解數(shù)據(jù)集發(fā)布時(shí)間軸Fig.4 Time axis of machine reading comprehension datasets
表1 機(jī)器閱讀理解主要數(shù)據(jù)集統(tǒng)計(jì)Table 1 Statistics of machine reading comprehension datasets
續(xù)表 1
其中,規(guī)模較大的數(shù)據(jù)集如SQuAD 2.0[46]、BookTest[14]和NewsQA[18],推動(dòng)了BiDAF[4]、RNet[6]等經(jīng)典模型的發(fā)展。
在片段抽取式數(shù)據(jù)集中應(yīng)用廣泛的數(shù)據(jù)集有SQuAD[2],模型QANet[20]與BERT[9]在該數(shù)據(jù)集上表現(xiàn)尚佳,且BERT[9]在兩個(gè)評(píng)測(cè)指標(biāo)上首次超越了人類(lèi)水平,在此基礎(chǔ)上預(yù)訓(xùn)練語(yǔ)言模型與微調(diào)的方法成為主流。在自由式問(wèn)答數(shù)據(jù)集DROP[19]中,仍然與人類(lèi)F1值為0.964 2 的水平存在一定距離。在需要推理的任務(wù)中,在選擇式數(shù)據(jù)集CommonsenseQA[17]性能表現(xiàn)優(yōu)異的模型中用到了知識(shí)圖譜和圖神經(jīng)網(wǎng)絡(luò),評(píng)測(cè)排名第一的DEKCOR[54]模型還引入了輔助的篇章信息,但與人類(lèi)水平仍有差距。
3.2.1 準(zhǔn)確率
準(zhǔn)確率是最常用的評(píng)價(jià)指標(biāo),它表示機(jī)器閱讀理解模型正確回答的問(wèn)題占所有問(wèn)題的百分比。設(shè)機(jī)器閱讀理解任務(wù)包含n個(gè)問(wèn)題,其中模型正確回答了m個(gè)問(wèn)題[55],則準(zhǔn)確率a的計(jì)算為
準(zhǔn)確率一般用于評(píng)價(jià)完形填空式和選擇式問(wèn)答任務(wù),例如Facebook Children’s Books Test[1]、CommonsenseQA[17]等。片段抽取式問(wèn)答數(shù)據(jù)集中的SearchQA[45]和自由式問(wèn)答數(shù)據(jù)集中的DROP[19]也使用了該指標(biāo)。
EM(exact match)值與準(zhǔn)確率的計(jì)算相同,EM 值要求式(1)中的m為所有問(wèn)題中模型輸出答案與正確答案完全相同的個(gè)數(shù),即模型輸出答案與正確答案中的每個(gè)單詞和位置都必須相同。在片段抽取式問(wèn)答任務(wù)中,EM 值與準(zhǔn)確度相同,且使用EM 值作為它們的評(píng)價(jià)指標(biāo),例如SQuAD[2]、TriviaQA[3]、HotpotQA[49]等。
3.2.2F1值
F1值評(píng)價(jià)指標(biāo),表示數(shù)據(jù)集中標(biāo)準(zhǔn)答案與模型預(yù)測(cè)的答案之間平均單詞的覆蓋率,將精確率P(precision)和召回率R(recall)折中。其中,精確率為預(yù)測(cè)正確的答案占所有預(yù)測(cè)答案的百分比,召回率則是預(yù)測(cè)正確的答案占所有標(biāo)準(zhǔn)答案的百分比,而F1值是將這兩個(gè)指標(biāo)綜合在一起,即
F1值通常是片段抽取式問(wèn)答任務(wù)采用的評(píng)價(jià)指標(biāo),例如SQuAD[2]、HotpotQA[49]等。自由式問(wèn)答任務(wù)中的Natural Questions-Short[53]也使用了F1值。相比于EM,F(xiàn)1值允許模型預(yù)測(cè)答案和正確答案之間有一定范圍偏差,因此,數(shù)據(jù)的類(lèi)別分布不平衡時(shí),F(xiàn)1值更適用。
3.2.3 其他評(píng)價(jià)指標(biāo)
ROUGE-L[56]相比于EM 值和F1值更靈活,其值用于評(píng)價(jià)預(yù)測(cè)答案和真實(shí)答案之間的相似度,但候選答案的長(zhǎng)度會(huì)影響ROUGE-L 的值;BLEU[57]最初用于機(jī)器翻譯任務(wù)中,不僅可以評(píng)價(jià)預(yù)測(cè)答案和真實(shí)答案之間的相似度,還可以考察候選答案語(yǔ)言表達(dá)流暢性,但BLEU 對(duì)詞重復(fù)和短句現(xiàn)象不利。因此這兩個(gè)指標(biāo)通常用于不受原語(yǔ)境限制的任務(wù)中。一般在自由式問(wèn)答中使用ROUGE-L[56]和BLEU[57]作為評(píng)價(jià)指標(biāo),例如DuReader[8]、DROP[19]等。
目前,在大規(guī)模高質(zhì)量數(shù)據(jù)集的推動(dòng)下,機(jī)器閱讀理解領(lǐng)域的研究取得了快速發(fā)展,甚至在部分評(píng)測(cè)任務(wù)上已經(jīng)超過(guò)了人類(lèi)的表現(xiàn)。但是,在一些新提出的任務(wù)或研究方向上,機(jī)器目前的性能遠(yuǎn)未達(dá)到人類(lèi)的理解水平。該領(lǐng)域目前的主要挑戰(zhàn)和發(fā)展趨勢(shì)概括如下。
知識(shí)驅(qū)動(dòng)與推理技術(shù)提升可解釋性:將知識(shí)融入機(jī)器閱讀理解任務(wù)中來(lái)實(shí)現(xiàn)復(fù)雜的問(wèn)題回答是基于人類(lèi)的思考方式提出的一種策略[58]。知識(shí)驅(qū)動(dòng)的閱讀理解模型通過(guò)引入外部知識(shí),輔助理解篇章內(nèi)容并回答問(wèn)題。大規(guī)模知識(shí)庫(kù)的構(gòu)建也需要考慮知識(shí)的獲取方式、多模態(tài)資源中知識(shí)的獲取、不同來(lái)源的知識(shí)的融合。同時(shí),知識(shí)驅(qū)動(dòng)與推理技術(shù)的運(yùn)用可以較好地解決基于神經(jīng)網(wǎng)絡(luò)模型可解釋性差的問(wèn)題。
對(duì)話(huà)式問(wèn)答任務(wù)中的語(yǔ)義理解:對(duì)話(huà)式問(wèn)答同樣是根據(jù)人類(lèi)獲取知識(shí)的習(xí)慣而提出的任務(wù),讓機(jī)器根據(jù)已有的一系列問(wèn)答序列,對(duì)當(dāng)前問(wèn)題進(jìn)行回答。其中,問(wèn)答序列具有時(shí)序性和前后關(guān)聯(lián)性,如何理解當(dāng)前問(wèn)題與歷史問(wèn)答記錄的關(guān)系是該任務(wù)的一大難點(diǎn)。此外,指代消解技術(shù)在該任務(wù)中非常重要,機(jī)器需要根據(jù)歷史問(wèn)答記錄,準(zhǔn)確理解篇章、問(wèn)題中的指代實(shí)體,進(jìn)行補(bǔ)全。
機(jī)器閱讀理解模型的健壯性:目前的機(jī)器閱讀理解模型往往過(guò)于依賴(lài)文本表面的信息,而缺乏深入的理解。在篇章中引入干擾數(shù)據(jù),生成對(duì)抗樣本,結(jié)果表明,多數(shù)現(xiàn)有模型性能明顯下降。如何生成有效的對(duì)抗樣本,通過(guò)對(duì)抗訓(xùn)練提升模型的健壯性成為研究的重點(diǎn)。
機(jī)器閱讀理解是自然語(yǔ)言處理領(lǐng)域的難點(diǎn)問(wèn)題,它是評(píng)價(jià)和度量機(jī)器理解自然語(yǔ)言程度的重要任務(wù)。近年來(lái)基于深度學(xué)習(xí)技術(shù)的機(jī)器閱讀理解模型研究發(fā)展迅速。本文介紹了機(jī)器閱讀理解任務(wù)劃分,對(duì)機(jī)器閱讀理解相關(guān)技術(shù)進(jìn)行了分析,包括端到端的神經(jīng)網(wǎng)絡(luò)模型、預(yù)訓(xùn)練語(yǔ)言模型以及知識(shí)推理等方法,并選取了各個(gè)任務(wù)中有代表性的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,介紹了不同機(jī)器閱讀理解任務(wù)中常用的評(píng)價(jià)指標(biāo)。目前機(jī)器的語(yǔ)言理解能力距離人類(lèi)的理解水平還有較大差距,我們對(duì)該領(lǐng)域面臨的挑戰(zhàn)和發(fā)展趨勢(shì)進(jìn)行了分析。