宋澤宇 王笑月 張 虎* 李 茹,2
1(山西大學(xué)計算機與信息技術(shù)學(xué)院 山西 太原 030006)2(山西大學(xué)計算智能與中文信息處理教育部重點實驗室 山西 太原 030006)
機器閱讀理解是自然語言處理領(lǐng)域中一項重要研究任務(wù),目標是通過機器理解給定的相關(guān)材料和問題實現(xiàn)自動作答。機器閱讀理解任務(wù)主要有四種類型:完形填空、多項選擇、片段抽取和自由作答,其中選擇型閱讀理解由于其易構(gòu)建和易評價的特點受到越來越多學(xué)者的關(guān)注和研究。選擇型閱讀理解任務(wù)旨在結(jié)合相關(guān)材料和問題從若干選項中選出正確的答案。
高質(zhì)量的機器閱讀理解任務(wù)對于評估機器理解人類語言的綜合水平具有重要的參考意義。在一些閱讀理解任務(wù)中,通過使用深度學(xué)習(xí)技術(shù),機器的答題效果已接近了可以與人類相媲美的程度,如MCTest[1]使用DCMN模型作答正確率達到了86.5%[2],SQuAD[3]數(shù)據(jù)集使用BERT模型F1值已達到93.2%[4]。其原因主要有三點:① 解答難度設(shè)置較低。在某些閱讀理解任務(wù)中候選選項或答案的設(shè)置大多是從材料中直接截取相關(guān)實體或者文本片段,這導(dǎo)致大多數(shù)問題僅僅以詞匹配或者文段匹配的方式就可以實現(xiàn)解答,無需深層的語義理解。② 數(shù)據(jù)質(zhì)量不高。有些數(shù)據(jù)集是通過眾包或者機器自動生成的方式形成的,重復(fù)較多且局限性大。③ 文本主題類型單一。有些數(shù)據(jù)集僅涉及特定的領(lǐng)域文本,可應(yīng)用場景有限。然而,很多其他閱讀理解任務(wù)的實驗表明機器仍不具備真正的語言理解能力,高考閱讀理解題作為我國普通高等院校招生考試語文科目中的一項測試內(nèi)容,旨在衡量考生中文閱讀理解綜合能力,涉及考察的文本主題范圍較廣,包括科技、歷史、生物、醫(yī)學(xué)和經(jīng)濟等領(lǐng)域,同時所有問題和候選答案均由專家結(jié)合材料內(nèi)容精心設(shè)計,因此在作答過程中對文本內(nèi)容的細節(jié)分析、歸納、總結(jié)和推理等能力均有較高的要求,對于評估現(xiàn)有模型的閱讀理解能力具有較高的參考價值。
在高考閱讀理解選擇題任務(wù)中,題干信息作為答案選擇的重要依據(jù),決定著答案與材料信息之間的語義關(guān)系,如圖1所示,示例一中的問題要求選出與材料內(nèi)容語義保持一致的選項,而示例二中的問題則要求選出與材料內(nèi)容表述不符的選項,題干要求會限定材料與正確答案的語義聯(lián)系,進而影響答案的選擇,因此理解題干要求對于作答至關(guān)重要?,F(xiàn)有高考閱讀理解任務(wù)作答方法研究大多仍在使用傳統(tǒng)機器學(xué)習(xí)方法,且更關(guān)注于選項和材料內(nèi)容之間的語義關(guān)聯(lián),而對問題信息的關(guān)注度較低,同時研究范圍集中在數(shù)量較少的單一問題類型高考數(shù)據(jù)中,方法普適性較差,如李茹等[5]針對高考真題中的觀點支持類選擇題提出的一種基于題干與選項一致性判別模型,郭少茹等[6]針對高考真題中的科技文類選擇題提出的基于多維度投票算法的句子語義相關(guān)度計算方法,關(guān)勇等[7]針對高考真題中的標題選擇類問題提出的標題與篇章要點相關(guān)性分析模型。常見的基于深度學(xué)習(xí)技術(shù)的閱讀理解方法通常直接將材料、題干和選項輸入深度學(xué)習(xí)模型,期望模型不僅能理解題干要求,還能分析選項與材料的語義相關(guān)性并進一步選出最佳答案,這對深度學(xué)習(xí)模型的閱讀理解能力提出了較高的要求。
圖1 題干信息對答案選擇的影響示例
為進一步探索高考閱讀理解選擇題任務(wù),本文搜集了近15年中國各省市高考語文真題和模擬試卷,經(jīng)過整理和篩查其中現(xiàn)代文閱讀理解的單項選擇題,最終形成了包含7 886個問題的高考數(shù)據(jù)集,并結(jié)合問題對材料和選項間語義關(guān)聯(lián)的不同要求,提出一種基于BERT和題干要素語義增強的高考閱讀理解自動答題方法。該方法通過構(gòu)建問題模板獲取題干中的關(guān)鍵要素信息,按照不同的題干要求劃分問題類型并生成問題標簽,然后通過改寫題干內(nèi)容使問題統(tǒng)一為選擇與材料信息語義最為接近的選項,之后使用BERT模型對材料、題干和選項信息的語義一致性進行分析,最終結(jié)合問題標簽信息挑選出答案。通過在高考數(shù)據(jù)集中的實驗,本文模型得到了有效驗證。
早期比較著名的閱讀理解數(shù)據(jù)集如Who did what[8]、MCTest[1]、CNN/DailyMail[9]、SQuAD[3]和NewsQA[10]等受到了諸多研究者的關(guān)注,在一定程度上推動了機器閱讀理解技術(shù)的發(fā)展,但是這些數(shù)據(jù)集中大多數(shù)問題的答案通常是材料中的某個詞組或一段連續(xù)文本,其問題難度相對較低,依靠簡單的語義匹配方法即可得到很好的解答效果。近年來,語義推理成為閱讀理解研究中的研究熱點,出現(xiàn)了大量相關(guān)推理任務(wù)的數(shù)據(jù)集。這些數(shù)據(jù)集的提出代表著機器閱讀理解任務(wù)開始不斷向真實場景下的復(fù)雜推理問題方向發(fā)展,但其與真正復(fù)雜的綜合推理任務(wù)還有一定的差距。如TriviaQA數(shù)據(jù)集[11]的答案常常需要跨越多句獲取,而且問題和相關(guān)的答案句子添加了一些句子結(jié)構(gòu)和詞匯的變化,使得問答形式更貼近于真實生活,提升了作答難度,但其實并未涉及較多推理問題。針對英語試卷閱讀理解題的大型數(shù)據(jù)集RACE[12]盡管包含有多步推理和全文總結(jié)等類型的復(fù)雜問題,但由于大量簡單的問題的存在,無法準確衡量現(xiàn)有模型在復(fù)雜語義理解場景下的真實閱讀理解水平。WikiHop[13]和Hotpot QA[14]數(shù)據(jù)集都是結(jié)合多文檔信息實現(xiàn)多步推理的任務(wù),在這兩種數(shù)據(jù)集中幾乎所有問題的解答均需要推理能力,但大多數(shù)問題僅在較少的推理步數(shù)內(nèi)即可完成作答,并未實現(xiàn)真正的多步推理。還有源自中國司法考試的JEC-QA數(shù)據(jù)集[15],數(shù)據(jù)內(nèi)容僅涉及法律領(lǐng)域的推理問題,解答過程依賴于大量專業(yè)知識的理解和常識知識的運用,這為推理問題的研究帶來了新的挑戰(zhàn),但同時也限制了推理形式的多樣性。
關(guān)于機器閱讀理解的方法在國內(nèi)外已有較多研究。Richardson等[1]提出一種啟發(fā)式滑動窗口和詞信息距離算法結(jié)合的方法在MCTest數(shù)據(jù)集中作答,通過簡單的詞位置信息分析材料與選項的語義聯(lián)系。Narasimhan等[16]通過在聯(lián)合概率模型中加入篇章關(guān)系特征實現(xiàn)作答,實驗結(jié)果得到有效提升。Mrinmaya等[17]使用文本蘊含系統(tǒng),將問題、選項和文章三者之間的關(guān)系轉(zhuǎn)換為文本蘊含結(jié)構(gòu),從而實現(xiàn)答案的選取。Yin等[18]提出一種基于Attention[19]機制的CNN模型對問題與選項的拼接序列和文章信息進行語義匹配,進而判斷答案。Wang等[20]結(jié)合雙向LSTM[21]和Attention機制對文章、問題和選項三者信息進行協(xié)同語義匹配,在RACE數(shù)據(jù)集中取得較好的效果。Jacob等[4]提出BERT預(yù)訓(xùn)練語言模型,通過使用大規(guī)模文本語料庫進行預(yù)訓(xùn)練,然后再對特定任務(wù)的小數(shù)據(jù)集微調(diào),從而降低了單個NLP任務(wù)的難度,在語言表征方面產(chǎn)生了深遠的影響,在多項機器閱讀理解任務(wù)中取得了顯著的進步。Yang等[22]針對BERT預(yù)訓(xùn)練模型無法同時引入上下文信息和處理長文本的問題進行改進,提出了XLNet預(yù)訓(xùn)練模型,在多項機器閱讀理解任務(wù)中的作答效果超越了BERT模型。Lan等[23]提出一種輕量級的BERT預(yù)訓(xùn)練模型,即ALBERT,通過簡化原版BERT模型的參數(shù)量,縮減預(yù)訓(xùn)練過程的時間,同時增大預(yù)訓(xùn)練數(shù)據(jù)量,在機器閱讀理解任務(wù)中得到了非常優(yōu)異的實驗效果。
盡管深度學(xué)習(xí)技術(shù)在機器閱讀理解領(lǐng)域已取得長足的進展,但面向高考閱讀理解的相關(guān)研究技術(shù)仍相對落后,多數(shù)研究仍在使用傳統(tǒng)的自然語言處理和機器學(xué)習(xí)方法。李茹等[5]提出一種基于題干與選項語義一致性的判別模型,通過結(jié)合篇章對題干的相關(guān)度和對選項的支持度,定義了聯(lián)合打分機制,并加入句子相似度特征、反義匹配特征和否定特征三個語義特征來對篇章、問題和選項三者的關(guān)系進行建模,進而判斷三者語義一致性,最終完成作答。郭少茹等[6]提出一種基于多維度投票算法的句子語義相關(guān)度計算方法,該方法采用投票算法的思想,將詞袋模型、HowNet、Word2Vector及漢語框架網(wǎng)(Chinese Frame Net,CFN)語義場景四種不同的語義相關(guān)性度量方法集成,對材料和選項進行語義相關(guān)度分析,采用投票算法的思想進行集成,最終選取到相關(guān)問題的最佳選項,所使用的數(shù)據(jù)為全國各省語文真題中的192道科技文類選擇題。關(guān)勇等[7]重點關(guān)注高考閱讀理解中標題選擇類問題,通過結(jié)合雙向LSTM模型構(gòu)建標題與篇章要點的相關(guān)度矩陣,同時融入標題結(jié)構(gòu)特征,最終選出與篇章最相關(guān)的標題。
為進一步探索深度學(xué)習(xí)技術(shù)在高考閱讀理解任務(wù)中的應(yīng)用情況,本文使用多種深度學(xué)習(xí)的方法解答高考閱讀理解選擇題,并通過分析高考閱讀理解選擇題數(shù)據(jù)的特點,提出一種基于BERT和題干要素語義增強的高考閱讀理解自動答題方法。
本文提出的基于BERT和題干要素語義增強的高考閱讀理解自動答題方法(BQS)的模型整體架構(gòu)如圖2所示,主要包括三個部分:題干要素分析、材料與選項的語義一致性分析和答案選擇。首先在題干分析階段對題干內(nèi)容進行分析,依據(jù)問題中包含的關(guān)鍵要素信息生成問題類型標簽并通過改寫題干信息統(tǒng)一題干要求;然后在語義一致性分析階段結(jié)合BERT模型計算材料、問題和選項三者之間的語義相關(guān)度;最終在答案選擇階段依據(jù)得到問題標簽和四個選項的語義相關(guān)度選擇最合適的選項作為答案。
圖2 基于BERT和題干要素語義增強的高考閱讀理解自動答題方法的模型架構(gòu)
本文方法是一種基于BERT模型的深度學(xué)習(xí)方法,因此作答前需要對模型進行訓(xùn)練。模型使用一個四元組Gi代表一組輸入,Ar表示模型的輸出,即模型最終預(yù)測的答案選項序號,具體公式如式(1)和式(2)所示。
Gi=(P,Q,Oi,L)
(1)
Ar=Max(f(G1),f(G2),…,f(Gk))
(2)
式(1)中:P表示輸入的材料信息,Q表示相關(guān)問題,Oi(i∈{1,2,…,k})表示選項信息,L(初始值為0)表示問題類型標簽。式(2)中:f(·)表示模型預(yù)測選項為正確答案的概率值,Max(·)表示選取最大值的序號。
在高考閱讀理解選擇題中,通過題干內(nèi)容中的一些關(guān)鍵要素信息可以直接分析出問題考查的主題范圍以及正確答案與材料之間的語義關(guān)聯(lián)。以表1所示的問題六為例,根據(jù)問題描述,可以看出考查內(nèi)容主要圍繞材料中“生物多樣性危機”這一相關(guān)主題,同時依據(jù)題干中關(guān)鍵詞“不屬于”分析得出正確選項應(yīng)與材料中“生物多樣性危機”這一主題內(nèi)容的語義一致性關(guān)聯(lián)程度最低。
表1 高考閱讀理解問題類別示例
按照題干內(nèi)容要求的不同,本文將正確答案與材料的語義聯(lián)系簡單地劃分為兩類:一致和不一致,并以此定義問題類別,具體問題類別樣例如表1所示。對于不一致類問題,本文整理如“不符合文意的一項”“不正確的一項是”“不屬于…的一項是”等包含否定詞的問題形式模板來判斷,除此之外,均定義為一致類問題。
在劃分問題類型的同時生成問題標簽信息,并將不一致類問題通過反義詞替換等操作改寫為一致類問題,具體改寫示例如圖3所示。
圖3 問題改寫示例
在題干要素分析階段,得到改寫后的新問題和問題標簽信息,其形式化分析過程如式(3)所示。
(P,Q′,Oi,L′)=R(G)
(3)
式中:R(G)表示對原始輸入經(jīng)過題干要素分析處理后的操作;Q′表示經(jīng)過改寫后的新問題;L′表示問題標簽,取值為1或-1,當(dāng)問題為一致類問題時,L′=1,否則L′=-1。
本文模型以BERT模型結(jié)構(gòu)為基礎(chǔ),網(wǎng)上公開的BERT-base預(yù)訓(xùn)練模型參數(shù)為模型初始化參數(shù),使用高考數(shù)據(jù)集進行模型訓(xùn)練,最后通過訓(xùn)練好的模型計算得到材料與選項的語義相關(guān)度分數(shù),完成語義一致性分析。在訓(xùn)練過程中,首先將改寫后的問題Q′和選項Oi直接拼接,形成新的文本拼接序列C,然后將文章P和拼接序列C按照“[CLS]P[SEP]C[SEP]”的形式作為BERT模型的輸入序列,獲得BERT模型最后一層隱狀態(tài)序列的第一個Token即“[CLS]”的向量作為該選項與材料的語義一致性特征表示,最后經(jīng)過一個線性映射函數(shù)得到選項與材料的語義相關(guān)度分數(shù),具體如式(4)-式(6)所示。
C=concat(Q′,Oi)
(4)
Bi=BERT(P,C)
(5)
Ri=WBi+b
(6)
式(5)中:Bi表示選項Oi與材料P語義一致性特征表示。式(6)中:Ri(i∈{1,2,…,k})表示選項Oi與材料P的語義相關(guān)度分數(shù),W和b分別為模型訓(xùn)練時需要學(xué)習(xí)的權(quán)重和偏差參數(shù)。
由于在題干要素分析階段,不一致類問題被統(tǒng)一改寫為一致類問題,因此在模型訓(xùn)練過程中,不一致類問題的答案也相應(yīng)由一個改為多個?;诖?本文將模型每條數(shù)據(jù)的損失值的計算當(dāng)作多標簽任務(wù)損失值的計算。對于同一問題下每個選項,采用二元交叉熵函數(shù)計算選項的損失值,最終將所有選項的損失值求和計算平均值,作為每條數(shù)據(jù)的損失值,計算公式如式(7)和式(8)所示。
Si=sigmoid(Ri)
(7)
(8)
式(7)中:Si表示選項Oi是改寫后新問題Q′對應(yīng)答案的概率值大小。式(8)中:yi取值為0或1,yi=0表示選項Oi不是問題Q′的答案,yi=1表示選項Oi是問題Q′的答案,L(Oi|P,Q′)表示選項Oi是問題Q′正確答案的損失值。式(9)中:L(Ar|P,Q′)表示對于問題Q′預(yù)測結(jié)果的整體損失值,是其對應(yīng)的多個選項的平均損失值。
選擇與材料語義相關(guān)性最大的選項還是最小的選項是由題干信息決定的,因此在得到同一個問題下每個選項對材料的語義相關(guān)度分數(shù)Ri后,需要結(jié)合題干要素分析階段得到的問題標簽L′,對語義相關(guān)度分數(shù)進行更新,強化對題干信息的理解,即對其大小順序進行重排序。本文采用語義相關(guān)度分數(shù)Ri與問題標簽L′相乘的方式進行重排序,當(dāng)L′=1時,原有一致性程度分數(shù)大小不變,大小順序保持不變,當(dāng)L′=-1時,原有一致性程度分數(shù)均取反,大小順序?qū)崿F(xiàn)逆排序。具體如式(10)所示。
重排序后,選項Oi是正確答案的概率計算公式如式(11)所示。
在測試階段,本文選取概率值P(i|Q,P,Oi)最大的選項作為預(yù)測的答案。
現(xiàn)有的一些高考閱讀理解選擇題研究工作所使用測試數(shù)據(jù)較少且題型單一,難以準確地評估當(dāng)前高考閱讀理解任務(wù)整體的研究進展。因此,本文搜集了近15年中國各省市高考語文真題和模擬題,挑選其中的現(xiàn)代文閱讀理解單項選擇題,經(jīng)整理和篩選質(zhì)量較高的數(shù)據(jù),最終形成高考語文閱讀理解單項選擇題數(shù)據(jù)集,簡稱高考數(shù)據(jù)集。同時在本文實驗中,使用高考數(shù)據(jù)集完成模型的訓(xùn)練和測試。
高考數(shù)據(jù)集由7 886個問題和3 179篇相關(guān)材料組成,每篇材料可能包含多個問題,材料的主題內(nèi)容涉及科技、社會、生物、醫(yī)學(xué)、歷史、藝術(shù)和文化等多個領(lǐng)域,同時每個問題有四個選項,其中僅有一項為正確答案。本文設(shè)置每條數(shù)據(jù)由一篇材料、一個問題、四個選項和一個正確答案組成,具體數(shù)據(jù)形式如圖4所示。
【2019年北京卷·高考真題】材料三:……多倫多、波士頓等城市里的白車軸草,為提高抗寒性而舍棄了釋放氰化物的能力。釋放氰化物可抵御來自食草動物的威脅,但抗寒性會降低。而在市中心,城市高溫使得積雪極易消融,沒有了積雪的覆蓋,植物就難以抵御夜間冰凍?!瓎栴}:根據(jù)材料三,下列理解不符合文意的一項是A、 白車軸草為抵御積雪的覆蓋而舍棄了釋放氰化物的能力,這與城市高溫有關(guān)。B、 哺乳動物因夜行性增強而改變了習(xí)性,繁殖能力降低,這與人類的活動有關(guān)。C、 城市白足鼠可能因為吃了比薩餅等食物,涉及消化的某種基因出現(xiàn)過度表達。D、 路燈吸引并聚集了大量的大型昆蟲,家蝠或因捕食它們而顱骨體積不斷增大。答案:A
本文按照約8∶1∶1的數(shù)據(jù)數(shù)量比例將高考數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,具體數(shù)量如表2所示。同時為了避免答案分布不均勻,本文通過調(diào)整選項位置,將訓(xùn)練集、驗證集和測試集中的A、B、C、D四種不同答案類型比例均設(shè)置為1∶1∶1∶1。
表2 高考數(shù)據(jù)集數(shù)量劃分情況
為了驗證本文方法的有效性,本文設(shè)置了一些較為常見的閱讀理解基線模型進行對比,具體包括:
1) Co-Matching[20]使用雙向LSTM編碼器對文章、問題和選項的詞向量表示分別進行語義編碼,然后針對文章中每一句話的語義編碼,通過注意力機制使其分別與問題、選項編碼進行語義編碼交互并拼接起來。隨后,將每句話的拼接編碼按照在文章中的順序進一步拼接,通過一層雙向LSTM解碼器,得到文章對選項支持度,最終選取支持度最高的一項作為正確答案。本文的模型實驗使用網(wǎng)上預(yù)訓(xùn)練好的微博中文詞向量作為文章、問題和選項的詞向量表示。
2) BERT[4]的核心是由多個雙向的Transformer[19]編碼器堆疊而成的,其優(yōu)勢在于獲取豐富的文本特征表示。本文結(jié)合其模型結(jié)構(gòu),使用網(wǎng)上公開的BERT-base版本中文預(yù)訓(xùn)練模型參數(shù)為初始化參數(shù),通過高考數(shù)據(jù)集進一步微調(diào),得到最終的BERT模型。
3) DCMN[2]通過使用BERT模型分別獲取材料、問題和選項相關(guān)上下文的編碼表示,然后結(jié)合注意力機制,使材料、問題和選項三者兩兩間進行雙向的語義編碼交互,從而實現(xiàn)雙向匹配的閱讀理解策略,并且在多個閱讀理解任務(wù)中有一定的提升效果。本文實驗中的DCMN模型是基于本實驗的BERT模型進行的復(fù)現(xiàn)。
4) BERT-wwm[24]考慮到中文和英文的差異性實現(xiàn)了對原始BERT模型的改進,在預(yù)訓(xùn)練階段通過全詞掩碼操作替代了原有的基于WordPiece的分詞方式,使得模型更適用于中文文本的處理。本文對該模型的實驗初始化參數(shù)采用網(wǎng)上公開的中文base版本。
5) XLNet[22]是一種自回歸語言模型,通過引入排列語言模型和Two-Stream自注意力機制,不僅解決了BERT模型在預(yù)訓(xùn)練和微調(diào)階段不一致的問題同時實現(xiàn)了雙向上下文的建模。除此之外,模型還引入Transformer-XL[25]機制,解決了Bert模型輸入文本最大截斷長度限制的問題。本文對該模型的實驗初始化參數(shù)采用網(wǎng)上公開的中文base版本。
6) ALBERT[23]是BERT預(yù)訓(xùn)練模型的一種精簡改良版本,它通過兩種參數(shù)削減技術(shù)解決了BERT模型參數(shù)過大、訓(xùn)練過慢的問題,同時提出一種句間連貫性預(yù)測任務(wù),使模型在語言層面學(xué)習(xí)到更細粒度的區(qū)分。本文對該模型的實驗初始化參數(shù)采用網(wǎng)上公開的中文tiny版本。
本文方法將Google官方公開的中文BERT-base預(yù)訓(xùn)練模型作為初始化模型,使用高考訓(xùn)練集進行模型的微調(diào),最終使用微調(diào)后的模型進行答案的選擇。在微調(diào)過程中,epoch設(shè)置為6,學(xué)習(xí)率設(shè)為0.000 01,輸入的文本序列最大截斷長度設(shè)為450,batch size設(shè)為40。
3.4.1對比模型實驗
本文分別使用Co-Matching、BERT、DCMN、BERT-wwm、XLNet、ALBERT和BQS(本文方法)在高考數(shù)據(jù)集上進行訓(xùn)練和測試,以答題準確率作為模型的評價指標,具體的實驗結(jié)果如表3所示。
表3 各模型在高考數(shù)據(jù)集的實驗情況(%)
從表3可以看出,本文方法在驗證集和測試集中的答題準確率都是最高的,其中驗證集準確率達到了42.13%,測試集準確率達到了42.38%。與其他基線模型相比,作答準確率提升了約10%。
同時,依據(jù)表3數(shù)據(jù)可以發(fā)現(xiàn),對比實驗中的幾種深度學(xué)習(xí)作答模型在高考閱讀理解任務(wù)中作答效果普遍較差,答題準確率基本在30%左右,這表明現(xiàn)有的一些基于深度學(xué)習(xí)方法的閱讀理解模型在高考閱讀理解任務(wù)中的適用性較差。
3.4.2不同問題類型的作答情況
為了探究本文方法在不同問題類型中作答效果提升的具體情況,按照上述題干要素分析部分中定義的一致類問題和不一致類問題,將測試集劃分成兩部分,并分別使用本文模型作答,同時與BERT模型的作答情況進行對比,其具體實驗結(jié)果如表4所示。
表4 BERT與本文方法在測試集不同類問題中的作答情況(%)
可以看出本文方法相比BERT模型在兩類問題中的作答準確率均有不同程度的提升,其中一致類問題的準確率提升了將近18百分點,而不一致類問題僅提升了約5百分點。本文方法將不一致類問題全部改寫成一致類問題,使模型在訓(xùn)練過程中更關(guān)注與材料語義相關(guān)度較高的選項,更易于分析一致類問題,因此一致類問題的作答效果提升相對明顯。
顯然,盡管兩類問題的作答效果均有所提升,但準確率仍偏低。通過分析答題錯誤的樣例,我們了解到本文方法僅從題干內(nèi)容的角度增強了材料與答案之間的語義一致性判斷,還有較多涉及語義推理和常識知識的問題尚未得到有效解決。
3.4.3模型不同實驗參數(shù)的影響
為進一步驗證本文方法的有效性,觀察不同實驗參數(shù)對實驗結(jié)果的影響。本文分別選取模型輸入文本的最大截斷長度和訓(xùn)練輪數(shù)為主要影響參數(shù),在其他參數(shù)相同的情況下進行訓(xùn)練,并分別在驗證集和測試集中進行實驗,實驗結(jié)果如圖5和圖6所示。
圖5 不同截斷長度對實驗結(jié)果的影響
圖6 不同訓(xùn)練輪數(shù)對實驗結(jié)果的影響
可以看出,不同參數(shù)確實會對實驗結(jié)果造成一定的影響,但總體來說,作答效果趨于穩(wěn)定,在驗證集和測試集上的作答準確率均在39%~43%之間,已遠遠超過其他對比實驗?zāi)P偷淖鞔饻蚀_率,進一步驗證了本文方法在高考閱讀理解選擇題任務(wù)中的有效性。
3.4.4使用EDA方法增強高考數(shù)據(jù)的實驗
為探索高考數(shù)據(jù)量對模型的影響,本文使用EDA方法[26]進一步擴充數(shù)據(jù),即通過同義詞替換、隨機插入、隨機替換和隨機刪除四種操作對訓(xùn)練集中的材料和選項進行數(shù)據(jù)增強。最終,訓(xùn)練集由原先的6 310條數(shù)據(jù)增加至11 517條,之后使用本文方法重新訓(xùn)練模型并進行測試。具體實驗結(jié)果如表5所示。
表5 使用EDA方法增強數(shù)據(jù)的實驗情況(%)
由表5可以看出,通過結(jié)合EDA數(shù)據(jù)增強方法,盡管訓(xùn)練數(shù)據(jù)增加將近一倍,但實驗準確率卻未能提高。由此分析可知高考數(shù)據(jù)集作答準確率無法通過簡單的數(shù)據(jù)增強方法得到有效提升,需要進一步考慮擴充后數(shù)據(jù)的質(zhì)量。
本文針對高考閱讀理解選擇題任務(wù),構(gòu)建了高考語文現(xiàn)代文閱讀理解單項選擇題數(shù)據(jù)集,并結(jié)合深度學(xué)習(xí)方法,提出了一種基于BERT和題干要素語義增強的高考閱讀理解自動答題方法。該方法對高考數(shù)據(jù)題干信息采用模板匹配的方式進行分析,獲取題干內(nèi)容的關(guān)鍵語義要素信息,并依據(jù)關(guān)鍵信息生成問題標簽,同時以改寫題干信息的方式統(tǒng)一題干要求,降低后續(xù)BERT模型在語義一致性分析階段的理解難度,使BERT模型在語義一致性分析階段更專注于材料與選項信息語義相關(guān)性程度的判斷,不需要關(guān)注題干對答案選擇的影響。實驗結(jié)果表明,在作答高考閱讀理解選擇題任務(wù)時,本文方法相比其他常見深度學(xué)習(xí)方法的作答準確率更高,適用性更強。
盡管本文提出的模型在高考閱讀理解任務(wù)中取得了較好的作答效果,但是距離實現(xiàn)真實人類的作答效果仍有很大的差距。在高考閱讀理解數(shù)據(jù)中,答案信息不僅會涉及材料局部內(nèi)容,也可能需要從材料整體內(nèi)容的角度考慮,并且需要結(jié)合邏輯推理的方法和常識知識進行解答。因此在未來的高考閱讀理解研究工作中,需要深入挖掘復(fù)雜的語義推理關(guān)系,并結(jié)合常識知識強化材料、題干與選項的深層語義表示,這是目前機器閱讀理解研究的難點,也是我們下一步要重點研究的內(nèi)容。