黃振亞, 劉 淇, 陳恩紅, 林 鑫, 何理?yè)P(yáng), 劉嘉聿, 王士進(jìn)
(1. 中國(guó)科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230027;2. 認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230088;3. 訊飛華中人工智能研究院,湖北 武漢 430058)
讓機(jī)器模擬人類解決問(wèn)題的過(guò)程,從而掌握知識(shí)、培養(yǎng)技能,是人工智能研究的目標(biāo)之一[1]。其中,理解各類學(xué)科題目(如英語(yǔ)題、數(shù)學(xué)題、作文題等),并解答相應(yīng)題目,是一類代表性的研究任務(wù)。相關(guān)研究涉及教育心理測(cè)量、人工智能、自然語(yǔ)言處理等多個(gè)交叉領(lǐng)域,長(zhǎng)期吸引著眾多來(lái)自教育學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)、腦科學(xué)等方向的研究者[2]。
解答學(xué)科題目的基礎(chǔ)是充分分析題目數(shù)據(jù)的特點(diǎn),理解各類學(xué)科題目文本的含義,并評(píng)估題目質(zhì)量。在早期研究中,受限于課堂學(xué)習(xí)場(chǎng)景,研究者大多設(shè)計(jì)標(biāo)準(zhǔn)化測(cè)試進(jìn)行實(shí)證研究[3-4],如通過(guò)測(cè)試結(jié)果計(jì)算題目的難度等,從而評(píng)價(jià)學(xué)科題目的質(zhì)量。這種研究過(guò)程具有相對(duì)嚴(yán)謹(jǐn)?shù)牧鞒?,但其效率低,相關(guān)結(jié)論受到組織過(guò)程中多種因素的干擾(如受試者的偏差等)[3],難以形成能夠評(píng)估和解答各類問(wèn)題的有效模型。近年來(lái),伴隨人工智能和自然語(yǔ)言處理等技術(shù)的快速發(fā)展,研究者設(shè)計(jì)模型直接閱讀學(xué)科題目,評(píng)價(jià)題目質(zhì)量,且通過(guò)模擬學(xué)習(xí)者解決問(wèn)題的過(guò)程,可以有效地自動(dòng)求解答案,具有更好的可擴(kuò)展性。相關(guān)研究對(duì)探索人工智能在閱讀理解、語(yǔ)義分析、知識(shí)推理和自主評(píng)測(cè)等方面復(fù)雜的類人認(rèn)知能力具有重要意義[5-7]。本文重點(diǎn)探討和總結(jié)相應(yīng)代表性研究任務(wù),包括題目質(zhì)量分析[8]、機(jī)器閱讀理解[5]、數(shù)學(xué)題問(wèn)答[6]、文章自主評(píng)分[7]四類任務(wù)。
相比于傳統(tǒng)領(lǐng)域的常見(jiàn)文本數(shù)據(jù),如新聞數(shù)據(jù)、用戶評(píng)論等[9-10],學(xué)科題目的文本數(shù)據(jù)具有許多獨(dú)特特點(diǎn),給理解學(xué)科題目的含義帶來(lái)眾多挑戰(zhàn)。首先,學(xué)科題目的編寫(xiě)通常具有明確的知識(shí)內(nèi)涵[11]。其次,學(xué)科題目具有獨(dú)特的教學(xué)質(zhì)量屬性,如難度、區(qū)分度等[12]。最后,學(xué)科題目之間的知識(shí)含義關(guān)聯(lián)更為重要[13]。因此,題目質(zhì)量分析是相關(guān)研究的基礎(chǔ),需要提出針對(duì)性的方法對(duì)學(xué)科題目進(jìn)行深入理解和分析。圍繞這一研究目標(biāo),研究者針對(duì)題目難度評(píng)估[8,14-16]、知識(shí)點(diǎn)預(yù)測(cè)[11]、題目表征[17]、相似度分析[12,18-20]等任務(wù)開(kāi)展了大量研究,形成了一系列研究成果。
機(jī)器閱讀理解任務(wù)要求模型閱讀英語(yǔ)文章材料,依據(jù)材料內(nèi)容抽取答案,回答相關(guān)問(wèn)題。要解答機(jī)器閱讀理解任務(wù),需要機(jī)器閱讀問(wèn)題和材料,理解文本內(nèi)容的語(yǔ)義,并從中抽取相關(guān)信息,這是研究類人語(yǔ)義理解能力的基礎(chǔ)任務(wù)之一。
數(shù)學(xué)題問(wèn)答任務(wù)要求模型分析數(shù)學(xué)題目,模擬人類進(jìn)行必要的數(shù)學(xué)推理和計(jì)算(如數(shù)學(xué)表達(dá)式),給出答案。數(shù)學(xué)題問(wèn)答任務(wù)需要機(jī)器在語(yǔ)義理解的基礎(chǔ)上,應(yīng)用一定的數(shù)學(xué)知識(shí)進(jìn)行形式化推理,從而進(jìn)一步探索類人知識(shí)運(yùn)用和邏輯推理等能力。
文章自主評(píng)分任務(wù)要求模型模仿人類專家的評(píng)測(cè)標(biāo)準(zhǔn),對(duì)給定文章進(jìn)行自動(dòng)打分。文章自動(dòng)評(píng)分任務(wù)需要機(jī)器能夠?qū)ξ恼逻M(jìn)行自主綜合評(píng)價(jià),例如從語(yǔ)法正確性、文章表達(dá)結(jié)構(gòu)與內(nèi)容扣題程度等多個(gè)不同的維度對(duì)文章進(jìn)行評(píng)估,對(duì)智能算法有更高的要求。
上述代表性研究具有重要的實(shí)際應(yīng)用價(jià)值。首先,通過(guò)對(duì)學(xué)科題目進(jìn)行分析,可以幫助各類智能教育系統(tǒng)為學(xué)習(xí)者提供眾多學(xué)習(xí)服務(wù),例如個(gè)性化推薦等[21]。其次,研究成果對(duì)于多個(gè)教育領(lǐng)域的傳統(tǒng)研究(如認(rèn)知診斷等)產(chǎn)生了積極作用[22]。此外,上述研究任務(wù)也是當(dāng)前“人工智能+教育”亟需解決的重要問(wèn)題,有望推動(dòng)交叉領(lǐng)域技術(shù)的發(fā)展。
下文中,首先介紹典型學(xué)科題目數(shù)據(jù);接著分節(jié)總結(jié)題目質(zhì)量分析、機(jī)器閱讀理解、數(shù)學(xué)題問(wèn)答和文章自主評(píng)分等四個(gè)代表性研究任務(wù)的研究進(jìn)展;然后介紹相關(guān)任務(wù)的開(kāi)源工具包;最后對(duì)未來(lái)研究方向進(jìn)行展望。
智能教育系統(tǒng)收集并積累了大量的學(xué)科題目數(shù)據(jù),為相關(guān)研究提供了數(shù)據(jù)基礎(chǔ)。目前,代表性的公開(kāi)數(shù)據(jù)集主要包括三類學(xué)科題目,即英語(yǔ)閱讀題、數(shù)學(xué)問(wèn)答題、文章寫(xiě)作題。
英語(yǔ)閱讀題是一類基礎(chǔ)的學(xué)科題目,可以支持多個(gè)研究與應(yīng)用任務(wù)。按題型劃分,英語(yǔ)題目主要包括兩大類: 完型填空(Cloze)和閱讀理解(Reading Comprehension)。公開(kāi)的完型填空數(shù)據(jù)集主要包括CNN & Daily Mail[23]、CBT(Children’s Book Test)[24]和CliCR[25]等。
在閱讀理解問(wèn)答題數(shù)據(jù)集中,根據(jù)獲取答案的方式,可以劃分為: 多項(xiàng)選擇、片段抽取和自由回答三種類型。其中,代表性的多項(xiàng)選擇型數(shù)據(jù)集主要包括MCTest[26]和 RACE[27],片段抽取型數(shù)據(jù)集主要包括 SQuAD[28]、NewsQA[29]、TriviaQA[30]、DuoRC[31]和CMRC2018[32]等,自由回答型數(shù)據(jù)集主要包括MS MARCO[33]、NarrativeQA[34]、SearchQA[35]、DuReader[36]。目前,應(yīng)用最為廣泛的是SQuAD,數(shù)據(jù)示例如圖1(a)所示,主要包含三個(gè)部分: 一段上下文文章(Context),一個(gè)問(wèn)題(Question),以及一個(gè)來(lái)自文章中某個(gè)片段的答案(Answer)。三類數(shù)據(jù)集具有相近的數(shù)據(jù)結(jié)構(gòu),僅答案來(lái)源有所區(qū)別。其中,多項(xiàng)選擇題要求從多個(gè)候選項(xiàng)中選取正確答案;片段抽取題要求抽取文章中一段文本(單詞或詞組)以回答問(wèn)題;自由回答型問(wèn)題的答案根據(jù)詞匯表生成,包含不在文章中出現(xiàn)的單詞或詞組。
圖1 代表性數(shù)據(jù)集樣例 (a)英語(yǔ)閱讀題;(b)、(c)數(shù)學(xué)問(wèn)答題;(d)文章寫(xiě)作題
常見(jiàn)的數(shù)學(xué)問(wèn)答題主要包括兩類,即數(shù)學(xué)應(yīng)用題和數(shù)學(xué)簡(jiǎn)答題。其中,數(shù)學(xué)應(yīng)用題(Math Word Problem,MWP)通常面向小學(xué)基礎(chǔ)教育學(xué)習(xí),是一類最為基礎(chǔ)的題目。目前,應(yīng)用較為廣泛的數(shù)學(xué)應(yīng)用題數(shù)據(jù)集包括Dolphin[6,37]、Math23K[38]、MAWPS[39]、MathQA[40]和ASDiv[41]。其中,Dolphin、MAWPS、MathQA和ASDiv是英語(yǔ)數(shù)據(jù)集,Math23K為中文數(shù)據(jù)集。圖1(b)展示了Math23K中的數(shù)據(jù)樣例,包含三個(gè)部分: 題目問(wèn)題描述(Question),數(shù)學(xué)表達(dá)式(Expression)和答案(Answer)。其中,數(shù)學(xué)表達(dá)式是用于回答該問(wèn)題的數(shù)學(xué)運(yùn)算式,通常由數(shù)字和6個(gè)基本運(yùn)算符號(hào)(加、減、乘、除、求余、冪)組成。
數(shù)學(xué)簡(jiǎn)答題是一類面向初高中學(xué)生的數(shù)學(xué)問(wèn)答題。相較于數(shù)學(xué)應(yīng)用題,數(shù)學(xué)簡(jiǎn)答題較為復(fù)雜,題目描述不再局限于自然語(yǔ)言文本,還包括明確的數(shù)學(xué)公式等。據(jù)筆者所知,目前開(kāi)源的唯一大規(guī)模數(shù)學(xué)簡(jiǎn)答題數(shù)據(jù)集由DeepMind團(tuán)隊(duì)發(fā)布[42],涉及8個(gè)數(shù)學(xué)知識(shí)領(lǐng)域(如Algebra、Arithmetic、Calculus等)。圖1(c)展示了Calculus領(lǐng)域問(wèn)答題樣例,包含: 問(wèn)題(Question)和答案(Answer)。詳細(xì)描述可參考文獻(xiàn)[42]。
文章(Essay)寫(xiě)作題數(shù)據(jù)在機(jī)器自動(dòng)評(píng)分任務(wù)中使用較多。目前,代表性數(shù)據(jù)集主要包括CLC-FCE[43],ASPS(1)https://www.kaggle.com/c/asap-aes,SemEval-2013[44]。圖1(d)展示了ASPS中的數(shù)據(jù)樣例,包括題目要求(Prompt)、一篇文章(Response)、評(píng)分(Score)。其中,文章由學(xué)生根據(jù)要求撰寫(xiě),評(píng)分是一位或者多位專家教師對(duì)文章的打分總和。另外有一些數(shù)據(jù)的打分用等級(jí)表示,例如,TOEFL11[45]數(shù)據(jù)中使用低、中、高三個(gè)等級(jí)。
高質(zhì)量的學(xué)科題目對(duì)于保證教學(xué)活動(dòng)和算法研究的效果至關(guān)重要。因此,精準(zhǔn)評(píng)價(jià)題目質(zhì)量具有重要意義。首先,學(xué)習(xí)者閱讀題目?jī)?nèi)容,理解題目含義是其學(xué)習(xí)掌握知識(shí)、運(yùn)用知識(shí)解決問(wèn)題的前提。因此,模擬學(xué)習(xí)者分析、理解題目的能力是智能應(yīng)用(如機(jī)器閱讀理解、數(shù)學(xué)題問(wèn)答、文章自主評(píng)分等)的基礎(chǔ)[46]。其次,精準(zhǔn)分析題目可以幫助高效構(gòu)建并管理智能教育系統(tǒng)的資源庫(kù),減少人工管理工作量,提供眾多智能服務(wù)(如個(gè)性化推薦等),提高學(xué)習(xí)者的學(xué)習(xí)效率[17]。
相比于傳統(tǒng)領(lǐng)域的常見(jiàn)文本數(shù)據(jù),如新聞數(shù)據(jù)、用戶評(píng)論、商品描述等,學(xué)科題目數(shù)據(jù)具有以下特點(diǎn)。首先,學(xué)科題目的編寫(xiě)具有嚴(yán)謹(jǐn)?shù)闹R(shí)邏輯和明確的知識(shí)內(nèi)涵[11],例如計(jì)算題與代數(shù)知識(shí)相關(guān),幾何證明題更關(guān)注幾何圖形知識(shí)等。此外,教育心理學(xué)研究[12]表明學(xué)科題目具有重要的屬性,如難度、區(qū)分度、信度、效度等。這些屬性對(duì)于衡量一個(gè)題目的質(zhì)量具有重要意義。針對(duì)這些特點(diǎn),研究題目質(zhì)量評(píng)估任務(wù)是一個(gè)重要的方向。圍繞這一目標(biāo),研究者提出了面向?qū)W科題目的分析方法,在難度評(píng)估[14-16]、知識(shí)點(diǎn)預(yù)測(cè)[11]、題目表征[17]、相似度分析[12,19-20]等具體任務(wù)中取得了階段性成果。本節(jié)將對(duì)相關(guān)研究進(jìn)展進(jìn)行介紹。
在教育心理學(xué)研究中,學(xué)科題目的難度評(píng)估是對(duì)于保證教育公平性和教育質(zhì)量具有重要意義,已有較長(zhǎng)研究歷史[3,14-16,47-50]。早期的研究基于標(biāo)準(zhǔn)化測(cè)試,提出經(jīng)典測(cè)量理論 (Classic Test Theory, CTT)[47],定義題目難度表示為測(cè)試題目的通過(guò)率,即通過(guò)題目的人數(shù)與總?cè)藬?shù)的比例,通過(guò)率越高,測(cè)試題目的難度越低。與此同時(shí),用相關(guān)分析工作探索與題目難度相關(guān)的可能因素。例如,文獻(xiàn)[50]發(fā)現(xiàn)包括題目類別、知識(shí)結(jié)構(gòu)深度等因素與其難度屬性相關(guān)。因此,有經(jīng)驗(yàn)的專家教師可以依賴專業(yè)知識(shí)背景對(duì)學(xué)科題目的難度進(jìn)行標(biāo)注[3]。此外,在一些重要的標(biāo)準(zhǔn)化測(cè)試(如TOEFL,GRE等)中,基于項(xiàng)目反應(yīng)理論(Item Response Theory, IRT),可以利用測(cè)試結(jié)果評(píng)估題目的難度。IRT的相關(guān)介紹可以參考文獻(xiàn)[48]。然而,上述方案需要花費(fèi)大量的時(shí)間和人力成本,且對(duì)參與人員(如標(biāo)注教師,測(cè)試組織者)的專業(yè)知識(shí)經(jīng)驗(yàn)要求較高。此外,其評(píng)估方式較為主觀,難度標(biāo)準(zhǔn)難以統(tǒng)一,因此,難度評(píng)估結(jié)果容易出現(xiàn)不一致的現(xiàn)象[14],難以大規(guī)模使用。為此,近期的研究工作希望能夠直接分析學(xué)科題目的文本,自動(dòng)預(yù)測(cè)題目的難度。
2017年,Huang等人[14]針對(duì)英語(yǔ)閱讀理解題目,首次提出一種數(shù)據(jù)驅(qū)動(dòng)的解決方案,即TACNN(Test-aware Attention-based Convolutional Neural Network)模型,利用歷史的測(cè)試結(jié)果和閱讀問(wèn)答題的文本,自動(dòng)預(yù)測(cè)題目的難度屬性。圖2顯示了該模型的框架,包含四個(gè)部分,即輸入層、語(yǔ)句理解層、語(yǔ)義關(guān)聯(lián)層和難度預(yù)測(cè)層。
圖2 TACNN難度預(yù)測(cè)模型圖片引自文獻(xiàn)[14]
其中,輸入層將英語(yǔ)閱讀題文本,包括閱讀篇章(圖2中TD)、問(wèn)題(TQ)和選項(xiàng)(TQ),劃分成一組語(yǔ)句序列,利用詞表征將語(yǔ)句中的單詞映射到嵌入向量的空間中。接著,語(yǔ)句理解層利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從局部到全局逐步學(xué)習(xí)題目語(yǔ)句的語(yǔ)義信息。然后,語(yǔ)義關(guān)聯(lián)層用注意力網(wǎng)絡(luò)衡量問(wèn)題對(duì)閱讀材料和選項(xiàng)內(nèi)容的關(guān)聯(lián)程度,捕獲關(guān)鍵的語(yǔ)義信息。最后,在難度預(yù)測(cè)層中,考慮到歷史記錄中不同測(cè)試群體的差異性,設(shè)計(jì)了測(cè)試依賴的模型訓(xùn)練方式,消除了不同測(cè)試結(jié)果帶來(lái)的誤差,預(yù)測(cè)題目難度。該模型充分學(xué)習(xí)歷史數(shù)據(jù)的經(jīng)驗(yàn),可以直接基于題目的文本內(nèi)容自動(dòng)預(yù)測(cè)難度。文獻(xiàn)[14]中的實(shí)驗(yàn)表明,該模型的預(yù)測(cè)精準(zhǔn)度和穩(wěn)定性均取得了領(lǐng)先結(jié)果。此后,Qiu等人[15]面向多選題,進(jìn)一步考慮英語(yǔ)閱讀題中選項(xiàng)之間的關(guān)聯(lián)信息,改進(jìn)模型難度預(yù)測(cè)的效果。借鑒上述研究經(jīng)驗(yàn),大量研究者開(kāi)展針對(duì)學(xué)科題目中不同質(zhì)量屬性的分析研究。文獻(xiàn)[11]利用知識(shí)點(diǎn)標(biāo)簽之間的層級(jí)結(jié)構(gòu),提出層次依賴網(wǎng)絡(luò)自頂向下預(yù)測(cè)題目的知識(shí)點(diǎn)。Liu等人[12]結(jié)合學(xué)科題目的異構(gòu)信息(含題目文本、幾何圖形、知識(shí)點(diǎn)標(biāo)簽等),設(shè)計(jì)了多模態(tài)注意力網(wǎng)絡(luò)捕捉題目中“語(yǔ)義-知識(shí)”和“語(yǔ)義-圖形”中的語(yǔ)義關(guān)聯(lián),預(yù)測(cè)題目對(duì)之間的相似度??梢钥闯?,題目質(zhì)量分析的基礎(chǔ)是從題目?jī)?nèi)容中捕獲盡可能多的語(yǔ)義知識(shí)與邏輯信息。
在上述研究中,研究方案大多基于端到端的有監(jiān)督模型,其結(jié)果依賴題目屬性的標(biāo)注(即難度、知識(shí)點(diǎn)、相似度等)質(zhì)量。然而,獲得高質(zhì)量的題目標(biāo)注是困難的,依賴于標(biāo)注者的專業(yè)知識(shí)。因此,智能教育系統(tǒng)中收集的數(shù)據(jù)存在大量屬性標(biāo)注缺失的現(xiàn)象。為此,預(yù)訓(xùn)練方法是解決屬性缺失問(wèn)題的一種有效方法,它通過(guò)在大規(guī)模題目語(yǔ)料上預(yù)訓(xùn)練優(yōu)化語(yǔ)言模型參數(shù),使模型能夠有效建模文本語(yǔ)義,再在少量標(biāo)簽數(shù)據(jù)上微調(diào)即可達(dá)到較好的效果。然而,現(xiàn)有預(yù)訓(xùn)練語(yǔ)言模型主要面向通用語(yǔ)料,旨在捕獲文本中的語(yǔ)義信息,而學(xué)科題目文本的建模則更側(cè)重題目的知識(shí)與邏輯含義,因此現(xiàn)有預(yù)訓(xùn)練方法難以直接應(yīng)用于題目文本分析。為此,Yin等人[17]提出面向?qū)W科題目(以數(shù)學(xué)選擇題為例)的預(yù)訓(xùn)練模型QuesNet。相較于經(jīng)典的預(yù)訓(xùn)練模型,如BERT[51]等,該模型基于學(xué)科題目自身特點(diǎn),從語(yǔ)義理解邏輯和知識(shí)推理邏輯兩個(gè)層面分別設(shè)計(jì)了自監(jiān)督訓(xùn)練目標(biāo),提高題目表征效果,具體方式如圖3所示。
圖3 QuesNet的自監(jiān)督學(xué)習(xí)策略左: 基于語(yǔ)義理解邏輯的學(xué)習(xí)目標(biāo) 右: 基于知識(shí)推理邏輯的學(xué)習(xí)目標(biāo)(圖片引自文獻(xiàn)[17])
首先,語(yǔ)義邏輯的目標(biāo)是讓模型能夠基于學(xué)習(xí)到的內(nèi)容語(yǔ)義信息(即每一步題目字詞)預(yù)測(cè)下一步出現(xiàn)的題目?jī)?nèi)容(兩個(gè)學(xué)習(xí)方向),該內(nèi)容不止包括題目字詞,還包括特有的題目元素(如數(shù)學(xué)公式等)。其次,知識(shí)邏輯的目標(biāo)是利用模型學(xué)習(xí)的題目表征直接預(yù)測(cè)題目選項(xiàng)是否為正確答案。該學(xué)習(xí)過(guò)程關(guān)注題目與選項(xiàng)在知識(shí)層面的關(guān)聯(lián)。文獻(xiàn)[17]在難度評(píng)估和知識(shí)點(diǎn)預(yù)測(cè)等多個(gè)題目分析任務(wù)中取得了進(jìn)步。進(jìn)一步,Huang等人[52]提出解耦的無(wú)監(jiān)督題目表征模型DisenQNet,在大規(guī)模題目語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,將題目的知識(shí)點(diǎn)等共性信息與難度等個(gè)性信息解耦分離并分別建模其表征向量,再通過(guò)最大化互信息等方式將預(yù)訓(xùn)練得到的表征模型應(yīng)用于下游任務(wù),有效提高了難度估計(jì)、相似性分析等下游任務(wù)的效果。
通過(guò)題目質(zhì)量分析任務(wù),模型可以模擬學(xué)習(xí)者的閱讀和分析能力,可以在更復(fù)雜的應(yīng)用任務(wù)中探索眾多更為高級(jí)的類人認(rèn)知能力。在接下來(lái)的各節(jié)中,本文將介紹機(jī)器閱讀理解、數(shù)學(xué)題問(wèn)答和文章自主評(píng)分等代表性智能應(yīng)用研究。
機(jī)器閱讀理解(Machine Reading Comprehension, MRC)是“人工智能+教育”研究中利用自然語(yǔ)言處理等技術(shù)解決學(xué)科問(wèn)答題的重要課題之一,旨在模擬學(xué)習(xí)者語(yǔ)言理解和語(yǔ)義分析等認(rèn)知能力。相關(guān)研究可以追溯到20世紀(jì)70年代[53]。近年來(lái),隨著大型數(shù)據(jù)集的發(fā)布和自然語(yǔ)言處理技術(shù)的成熟,MRC研究快速發(fā)展。尤其是斯坦福大學(xué)發(fā)布的SQuAD[28]數(shù)據(jù)集,為MRC研究提供了一個(gè)優(yōu)秀的研究和評(píng)測(cè)平臺(tái)。2018年1月阿里巴巴和MSRA的研究團(tuán)隊(duì)在SQuAD 1.1數(shù)據(jù)集上首次在EM指標(biāo)上超過(guò)人類。2019年3月哈工大訊飛聯(lián)合實(shí)驗(yàn)室在SQuAD 2.0數(shù)據(jù)集上首次在精準(zhǔn)匹配率(Exact Match,EM)和F1值兩個(gè)指標(biāo)上都超過(guò)人類。截止目前,機(jī)器模型的效果已經(jīng)大大超越人類結(jié)果(2)https://rajpurkar.github.io/SQuAD-explorer/。
基于1.1節(jié)的介紹,MRC任務(wù)可以分為四個(gè)類型: 完型填空,多項(xiàng)選擇,片段抽取和自由回答[5]。通常來(lái)說(shuō),MRC任務(wù)要求模型閱讀英語(yǔ)問(wèn)答題上下文(輸入),對(duì)提出的問(wèn)題(輸入)做出回答(輸出)。其中,完型填空要求從候選單詞表中選取問(wèn)題中缺失的正確單詞;多項(xiàng)選擇要求判斷每個(gè)候選項(xiàng)是否是問(wèn)題的正確回答;片段抽取要求模型從文章中抽取一個(gè)連續(xù)的片段(即詞組、短語(yǔ)等);自由回答要求模型根據(jù)詞匯表生成片段作為問(wèn)題回答。目前,相關(guān)的研究工作可以大致分為四類: 基于規(guī)則的方法[26,53-54]、基于機(jī)器學(xué)習(xí)的方法[55-58]、基于深度學(xué)習(xí)的端到端方法[23,59-64]和預(yù)訓(xùn)練方法[51,65]。
基于規(guī)則的方法基于文本的語(yǔ)言學(xué)特征,人工設(shè)計(jì)大量規(guī)則解決英語(yǔ)問(wèn)答題。例如,文獻(xiàn)[53]設(shè)計(jì)了QUALM系統(tǒng),考慮上下文語(yǔ)境,基于規(guī)則腳本與計(jì)劃模擬人類理解故事的方式。文獻(xiàn)[54]設(shè)計(jì)了Deep Read系統(tǒng),基于傳統(tǒng)自然語(yǔ)言處理技術(shù)(詞干提取、詞性識(shí)別、指代消解、詞袋模型)的語(yǔ)言學(xué)特征設(shè)計(jì)規(guī)則檢索文章中包含問(wèn)題正確答案的句子。Richardson等人[26]在MCTest數(shù)據(jù)集上設(shè)計(jì)了兩種基于規(guī)則的基線方法,即啟發(fā)式滑動(dòng)窗口方法和基于文本蘊(yùn)涵系統(tǒng)的方法?;跈C(jī)器學(xué)習(xí)的方法將MRC任務(wù)建模為監(jiān)督學(xué)習(xí)問(wèn)題,將題目的上下文文章和問(wèn)題作為輸入、答案作為標(biāo)簽,希望模型學(xué)習(xí)從文章和問(wèn)題到答案的映射關(guān)系。研究者基于手工設(shè)計(jì)的語(yǔ)言學(xué)特征(如詞性標(biāo)簽、指代關(guān)系、句法依賴等),在簡(jiǎn)單的最大間隔監(jiān)督學(xué)習(xí)框架上建立模型[55-57]。Berant等人[58]將問(wèn)題映射為一種正式查詢,并使用大量人工設(shè)計(jì)的特征設(shè)計(jì)機(jī)器學(xué)習(xí)模型預(yù)測(cè)流程結(jié)構(gòu)執(zhí)行查詢。
SQuAD等大型英語(yǔ)閱讀數(shù)據(jù)集的出現(xiàn)滿足了深度學(xué)習(xí)算法對(duì)數(shù)據(jù)的需求,促使大量基于深度學(xué)習(xí)的模型應(yīng)用于MRC任務(wù)中[5]。此類方法不依賴已有工具或人工設(shè)計(jì)的特征,具有更高的準(zhǔn)確性和泛化能力。目前,相關(guān)工作大致包括端到端方法[23,59-64]和預(yù)訓(xùn)練方法[51,65]。
端到端方法接收題目文章和問(wèn)題作為輸入,預(yù)測(cè)所有候選項(xiàng)上的概率分布或生成文本片段作為輸出。例如,Hermann等人[23]發(fā)布大規(guī)模監(jiān)督數(shù)據(jù)集CNN & Daily Mail,并在該數(shù)據(jù)集上設(shè)計(jì)基于注意力機(jī)制的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)模型Attentive Reader,其性能相較傳統(tǒng)方案有較大提升。Chen等人[59]在SQuAD數(shù)據(jù)集上設(shè)計(jì)了Stanford Attentive Reader,結(jié)合雙向LSTM和注意力機(jī)制,基于題目中單詞間的相似性預(yù)測(cè)答案位置,并將其擴(kuò)展到其余三類MRC任務(wù)中。此后,BiDAF[60]從問(wèn)題和文章的兩個(gè)映射方向query-to-context和context-to-query上提高效果。AoA Reader[61]在雙向注意力機(jī)制的基礎(chǔ)上,建模注意力權(quán)重的重要性。R-Net[62]結(jié)合文章和問(wèn)題間的注意力匹配和文章內(nèi)的自注意力匹配對(duì)英語(yǔ)問(wèn)答題進(jìn)行建模,預(yù)測(cè)答案位置。MEMEN[63]利用記憶網(wǎng)絡(luò)改善循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)距離依賴上的缺陷。文獻(xiàn)[64]提出了一個(gè)多粒度框架來(lái)建模文檔的結(jié)構(gòu)特征。
預(yù)訓(xùn)練方法[51,65]首先通過(guò)掩碼語(yǔ)言模型等預(yù)訓(xùn)練任務(wù)在大規(guī)模語(yǔ)料上訓(xùn)練一個(gè)表達(dá)能力強(qiáng)的語(yǔ)言模型,學(xué)習(xí)題目語(yǔ)義,再根據(jù)特定任務(wù)在規(guī)模較小的數(shù)據(jù)集上微調(diào),提高模型在多任務(wù)上的效果。GPT[65]和BERT[51]是代表性預(yù)訓(xùn)練模型。其中,GPT是一個(gè)生成式預(yù)訓(xùn)練模型,使用Transformer模型[66]的解碼器建模輸入的前文信息。BERT使用Transformer模型的編碼器建模輸入的前后文信息。經(jīng)過(guò)微調(diào),GPT和BERT可以直接應(yīng)用于MRC任務(wù),顯著提高效果。此后,Li等人[67]通過(guò)多任務(wù)學(xué)習(xí)的方法將領(lǐng)域掩碼語(yǔ)言模型、自然語(yǔ)言推斷和段落排序任務(wù)作為機(jī)器閱讀理解的輔助任務(wù)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào),并集成多個(gè)預(yù)訓(xùn)練語(yǔ)言模型提高方法在機(jī)器閱讀任務(wù)上的效果。為了解決跨語(yǔ)言的MRC任務(wù),Cui[68]等提出了Dual BERT建模源數(shù)據(jù)和目標(biāo)語(yǔ)言之間的關(guān)系。圍繞長(zhǎng)文本機(jī)器閱讀理解問(wèn)題,針對(duì)預(yù)訓(xùn)練語(yǔ)言模型只能接收固定長(zhǎng)度輸入的缺陷,Gong等人[69]提出一種基于強(qiáng)化學(xué)習(xí)的方法將文本動(dòng)態(tài)分段,將每一段文本依次輸入BERT模型獲得答案。進(jìn)一步,Luo等人[70]基于預(yù)訓(xùn)練語(yǔ)言模型,提出了一種問(wèn)題生成與問(wèn)題回答的協(xié)同學(xué)習(xí)框架,在少量標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練模型之后,在大規(guī)模無(wú)標(biāo)簽文本語(yǔ)料上自動(dòng)生成問(wèn)題和回答問(wèn)題,進(jìn)一步提高模型的性能。
表1總結(jié)了部分代表性機(jī)器閱讀理解模型的性能??偨Y(jié)而言,基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法具有較強(qiáng)的可解釋性,但這些方法依賴大量人工設(shè)計(jì)規(guī)則和特征工程,依賴已有語(yǔ)言處理工具,模型的準(zhǔn)確率有限,且難以泛化到大規(guī)模數(shù)據(jù)集中[78]。此外,如何從語(yǔ)言學(xué)特征中人工構(gòu)建對(duì)MRC任務(wù)有效的規(guī)則或特征是一個(gè)巨大的挑戰(zhàn)。基于深度學(xué)習(xí)的方法解決了模型準(zhǔn)確性和泛化能力不足的問(wèn)題,是目前常用的機(jī)器閱讀理解方法,但基于深度學(xué)習(xí)的方法可解釋性較低,且需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,在SQuAD等大型數(shù)據(jù)集出現(xiàn)之后才逐漸興起。預(yù)訓(xùn)練方法使用大規(guī)模無(wú)標(biāo)簽語(yǔ)料預(yù)訓(xùn)練,對(duì)標(biāo)注數(shù)據(jù)的需求大大降低,且方法的準(zhǔn)確率和泛化能力進(jìn)一步提高,預(yù)訓(xùn)練語(yǔ)言模型能夠捕獲語(yǔ)料中的一些常識(shí)和領(lǐng)域知識(shí),提高機(jī)器閱讀理解任務(wù)的效果,目前已經(jīng)成為機(jī)器閱讀理解的主流方法之一。
表1 部分代表性MRC模型的性能對(duì)比
除此之外,近期研究基于現(xiàn)實(shí)場(chǎng)景擴(kuò)展MRC任務(wù)需求,模擬學(xué)習(xí)者更為復(fù)雜的語(yǔ)義分析能力,相關(guān)工作可以參考文獻(xiàn)[5]。
數(shù)學(xué)題問(wèn)答任務(wù)是“人工智能+教育”融合研究的重要任務(wù)之一,相較于第3節(jié)介紹的MRC任務(wù),要求模型進(jìn)一步模擬學(xué)習(xí)者知識(shí)表達(dá)和邏輯推理等方面的認(rèn)知能力,運(yùn)用已掌握的知識(shí)推理出正確的答案[6]。
在相關(guān)研究中,數(shù)學(xué)應(yīng)用題問(wèn)答 (Math Word Problem,MWP)是關(guān)注度最高的一類任務(wù)。該任務(wù)基于1.2節(jié)介紹的數(shù)學(xué)應(yīng)用題數(shù)據(jù)集,要求模型閱讀數(shù)學(xué)應(yīng)用題題目文本(輸入),推理生成相應(yīng)的數(shù)學(xué)表達(dá)式(輸出),計(jì)算答案。這個(gè)過(guò)程要求建立人類能夠理解的自然文本與計(jì)算機(jī)能夠理解的邏輯符號(hào)表達(dá)式的關(guān)聯(lián),需要模型具備(文本)語(yǔ)義理解、(數(shù)字)信息抽取、(符號(hào))邏輯推導(dǎo)和(表達(dá)式)生成等方面的性能。數(shù)學(xué)應(yīng)用題問(wèn)答任務(wù)的研究歷史較長(zhǎng),最早可以追溯到20世紀(jì)60年代。目前,相關(guān)研究方法可以大致分為三類: 基于規(guī)則的方法[79-81]、基于語(yǔ)義解析的方法[82-85]和基于深度學(xué)習(xí)的方法[38,46,86-90]。
基于規(guī)則的方法是早期的研究方法。該方法依賴人工定義的模板匹配問(wèn)題文本,并根據(jù)人工設(shè)計(jì)的規(guī)則通過(guò)簡(jiǎn)單的計(jì)算獲得問(wèn)題答案[79-80]。基于語(yǔ)義解析的方法將原始題目文本映射為特定的結(jié)構(gòu)化邏輯形式,如語(yǔ)義解析樹(shù),再通過(guò)傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法從邏輯形式中抽取數(shù)值變量并推理答案[82-84]。例如,Roy等[84]提出表達(dá)式樹(shù)的方法,將求解表達(dá)式的逐步推導(dǎo)轉(zhuǎn)換為等價(jià)樹(shù)結(jié)構(gòu)的自底向上構(gòu)建。
近年來(lái),研究者借鑒深度學(xué)習(xí)在多個(gè)自然語(yǔ)言處理研究上的經(jīng)驗(yàn),將數(shù)學(xué)應(yīng)用題問(wèn)答表示為一類特殊的翻譯任務(wù)。由于seq2seq (Sequence-to-Sequence)方法具有很強(qiáng)的推理與生成新模板的能力,2017年,騰訊公司的研究者[38]在EMNLP 2017會(huì)議上提出DNS模型,將seq2seq方法應(yīng)用于MWP任務(wù)上。模型包括編碼器與解碼器兩個(gè)模塊,編碼器通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)將應(yīng)用題文本自動(dòng)編碼為一個(gè)特征向量,解碼器逐步將特征向量自動(dòng)解碼為數(shù)學(xué)表達(dá)式求解題目。在此基礎(chǔ)上,最新的研究主要從增強(qiáng)問(wèn)題理解能力(編碼器模塊)與表達(dá)式推理能力(解碼器模塊)兩個(gè)方向進(jìn)行改進(jìn)。
在問(wèn)題理解方面,為挖掘數(shù)學(xué)應(yīng)用題文本的深層次信息,如數(shù)值語(yǔ)義、句子結(jié)構(gòu)等,相關(guān)研究設(shè)計(jì)大量改進(jìn)的方法。例如,文獻(xiàn)[87]通過(guò)多種注意力模型從題目文本中抽取不同類型的上下文信息,建模問(wèn)題文本中不同句子間的關(guān)系。文獻(xiàn)[89]提出的Graph2Tree模型挖掘問(wèn)題文本中數(shù)值與詞語(yǔ)、數(shù)值之間大小等關(guān)系,豐富對(duì)數(shù)值信息的理解??紤]到學(xué)習(xí)者閱讀題目遵循逐句分析的層次化閱讀習(xí)慣,文獻(xiàn)[46]提出層次化模型HMS,在編碼階段將應(yīng)用題劃分成“字詞—分句—問(wèn)題”層次進(jìn)行理解,并基于應(yīng)用題的語(yǔ)法依賴結(jié)構(gòu)增強(qiáng)語(yǔ)義。文獻(xiàn)[90]額外引入常識(shí)知識(shí)圖譜,挖掘融合知識(shí)的文本表征。為了融合不同編碼器的優(yōu)勢(shì),文獻(xiàn)[91]提出了Multi-E/D模型,將通過(guò)基于序列的編碼器挖掘得到的文本序列特征與通過(guò)基于圖的編碼器挖掘得到的語(yǔ)義結(jié)構(gòu)特征進(jìn)行結(jié)合,進(jìn)而提高對(duì)問(wèn)題的理解能力。
在表達(dá)式推理方面,文獻(xiàn)[86]提出的T-RNN模型將表達(dá)式的解碼分為兩個(gè)階段,第一階段通過(guò)seq2seq方法生成僅包含數(shù)值的表達(dá)式框架,并轉(zhuǎn)換為等價(jià)的表達(dá)式樹(shù)。第二階段根據(jù)每個(gè)缺失運(yùn)算符的運(yùn)算數(shù),通過(guò)樹(shù)結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò),生成每個(gè)缺失的運(yùn)算符。文獻(xiàn)[88]模擬學(xué)習(xí)者求解數(shù)學(xué)應(yīng)用題過(guò)程中的目標(biāo)分解過(guò)程,提出基于目標(biāo)驅(qū)動(dòng)的樹(shù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型GTS,根據(jù)目標(biāo)分解的過(guò)程自頂向下構(gòu)造表達(dá)式樹(shù),在保證推理表達(dá)式合理性的同時(shí)具有較好的可解釋性。文獻(xiàn)[46]則在解碼階段設(shè)計(jì)了層次化樹(shù)結(jié)構(gòu)的指針網(wǎng)絡(luò),區(qū)分了數(shù)學(xué)表達(dá)式中不同類型符號(hào)的推理過(guò)程。與GTS不同,文獻(xiàn)[92]提出的Seq2DAG模型采用自底向上的表達(dá)式樹(shù)構(gòu)建順序,能夠有效利用推理過(guò)程的中間步驟與子表達(dá)式,并實(shí)現(xiàn)滿足交換律的運(yùn)算過(guò)程。此外,為了增強(qiáng)模型對(duì)符號(hào)約束、對(duì)數(shù)值信息的利用,文獻(xiàn)[93]和文獻(xiàn)[94]引入了預(yù)測(cè)問(wèn)題文本數(shù)值個(gè)數(shù)、數(shù)值位置、數(shù)值大小關(guān)系等額外任務(wù),提高解題模型的推理能力。
此外,隨著大規(guī)模預(yù)訓(xùn)練模型的發(fā)展,研究者將BERT[95-96]、RoBERTa[97]、BART[98]等預(yù)訓(xùn)練語(yǔ)言模型用于加強(qiáng)對(duì)應(yīng)用題文本的理解能力。Huang等人[95]使用BERT初始化問(wèn)題表征與問(wèn)題類比模塊中Transformer層的參數(shù)。Kim等[97]基于預(yù)訓(xùn)練的RoBERTa模型獲得問(wèn)題中詞語(yǔ)的表征。Shen等[98]先將問(wèn)題文本輸入基于文本去噪任務(wù)預(yù)訓(xùn)練的BART模型獲得表達(dá)式,再基于該模型對(duì)表達(dá)式的合理性進(jìn)行評(píng)估,從而在這兩種任務(wù)上對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。
表2總結(jié)了部分代表性MWP方法的性能對(duì)比??偨Y(jié)而言,早期的基于規(guī)則與基于語(yǔ)義解析的方法的答案生成過(guò)程具有更好的可解釋性,但是需要大量人工構(gòu)建的模板、規(guī)則、形式語(yǔ)言等,泛化能力不佳,應(yīng)用范圍有限。而深度學(xué)習(xí)模型具有較好的文本特征自動(dòng)抽取能力與復(fù)雜表達(dá)式推理生成能力,但其求解過(guò)程難以解釋,且缺乏對(duì)數(shù)理邏輯規(guī)則的運(yùn)用。
表2 部分代表性MWP模型的性能對(duì)比
盡管MWP任務(wù)已經(jīng)得到了長(zhǎng)足的進(jìn)展,但研究指出其任務(wù)的復(fù)雜程度仍處于初級(jí)階段,僅符合小學(xué)基礎(chǔ)教育的數(shù)學(xué)推理要求。2019年,DeepMind團(tuán)隊(duì)發(fā)布了一個(gè)數(shù)據(jù)集[42],記錄了大量數(shù)學(xué)簡(jiǎn)答題數(shù)據(jù)(如1.2節(jié)介紹),開(kāi)始研究模型在更為高級(jí)和復(fù)雜的數(shù)學(xué)問(wèn)答題上的求解能力。在這個(gè)任務(wù)中,除了傳統(tǒng)MWP任務(wù)需要的能力之外,模型還需要具備(公式)理解、(變量)關(guān)聯(lián)、(過(guò)程)記憶等復(fù)雜認(rèn)知能力。目前該任務(wù)的研究進(jìn)展較少, DeepMind團(tuán)隊(duì)嘗試了多個(gè)基礎(chǔ)的seq2seq模型。除此之外,Huang等人[100]考慮了簡(jiǎn)答題中多個(gè)公式的結(jié)構(gòu)依賴關(guān)系,提出了融合圖神經(jīng)網(wǎng)絡(luò)的求解模型,做出了一定的嘗試。目前的研究證明求解該數(shù)學(xué)簡(jiǎn)答題是一個(gè)更為困難的任務(wù)。
文章自主評(píng)分(Automated Essay Scoring, AES) 任務(wù)是智能教育研究的另一個(gè)重要任務(wù),旨在模擬專家教師對(duì)文章進(jìn)行打分,從而模擬人類對(duì)長(zhǎng)篇文章的自主評(píng)測(cè)等認(rèn)知能力。相較于上述研究任務(wù),AES對(duì)模型具有更高的要求。本節(jié)重點(diǎn)介紹針對(duì)主觀題作文文章的自動(dòng)評(píng)分。
基于1.3中介紹的相關(guān)數(shù)據(jù)集,該任務(wù)要求模型閱讀題目要求和給定的文章,通過(guò)分析文章在整體或多個(gè)維度上的情況,給出相應(yīng)的評(píng)分[7]。這個(gè)過(guò)程包括多個(gè)重要挑戰(zhàn),首先需要對(duì)詞匯和語(yǔ)法等語(yǔ)句正確性進(jìn)行檢查;其次,需要對(duì)文章表達(dá)在連貫性、清晰度和說(shuō)服力等維度進(jìn)行評(píng)估。此外,還需要對(duì)文章在是否緊扣題目要求等相關(guān)度上進(jìn)行檢測(cè)。因此,AES要求模型具備類人綜合評(píng)價(jià)的復(fù)雜認(rèn)知能力,吸引了國(guó)內(nèi)外大量研究人員[7,101-102]。文章自主評(píng)分研究最早可以追溯到20世紀(jì)60年代[103]。近期的研究主要分為兩類: 基于特征構(gòu)造的方法[104-106]和基于深度學(xué)習(xí)的模型設(shè)計(jì)[107-111]。
在AES中,大量研究關(guān)注如何構(gòu)造有效的評(píng)測(cè)特征。主要想法是根據(jù)文章特點(diǎn)提取出對(duì)于分?jǐn)?shù)評(píng)估有利的特征。例如,考慮到對(duì)復(fù)雜單詞類別的運(yùn)用可以體現(xiàn)出文章寫(xiě)作水平,文獻(xiàn)[104]和文獻(xiàn)[105]使用單詞列表或字典將不同的單詞分配到具體的詞匯、句法或語(yǔ)義類別來(lái)構(gòu)造單詞分類特征。文獻(xiàn)[106]使用語(yǔ)法樹(shù)的深度來(lái)進(jìn)行特征構(gòu)造,從而評(píng)估句法的復(fù)雜程度。
近年來(lái),研究者更加關(guān)注基于深度學(xué)習(xí)的AES方法。據(jù)筆者所知,文獻(xiàn)[107]首次將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到AES任務(wù)。模型首先將文章單詞的獨(dú)熱碼向量作為輸入,使用一個(gè)卷積層來(lái)獲得n元語(yǔ)法層級(jí)的特征,然后將這些特征輸入LSTM中,最后拼接每一個(gè)語(yǔ)義特征向量,輸出作文的評(píng)分。進(jìn)一步,Dong等[108]考慮到文章在詞匯級(jí)和句子級(jí)上的層級(jí)結(jié)構(gòu)特征,使用兩個(gè)卷積-池化網(wǎng)絡(luò)依次對(duì)不同級(jí)別的特征進(jìn)行處理。考慮到在一個(gè)文章中不同的單詞或者句子的重要性不同,Dong等[109]對(duì)前期工作[108]進(jìn)行了改進(jìn),使用注意力池化層代替最大池化層或平均池化層,增強(qiáng)語(yǔ)義關(guān)聯(lián),提高打分結(jié)果。此外,Tay等[110]認(rèn)為文章的連貫性和文章的整體分?jǐn)?shù)有比較重要的相關(guān)性,從直覺(jué)上來(lái)說(shuō),連貫的句子間應(yīng)該有比較強(qiáng)的相似性,因此,該文中使用一個(gè)全連接層網(wǎng)絡(luò),將從不同時(shí)間步長(zhǎng)收集的LSTM兩個(gè)位置的輸出作為輸入,并計(jì)算每對(duì)這樣的位置輸出的相似性。另外,考慮到數(shù)據(jù)集的限制,Lun等[111]提出了一種數(shù)據(jù)增強(qiáng)的文章自主評(píng)分策略。此外,目前在AES研究中的一個(gè)趨勢(shì)是使用BERT[51]等預(yù)訓(xùn)練模型在相關(guān)的任務(wù)中進(jìn)行微調(diào)。Liu等[112]提出了兩階段的自動(dòng)評(píng)分方式。在第一個(gè)階段使用BERT模型獲得語(yǔ)句的表征,并輸入到一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)中,在第二階段加入手工特征增強(qiáng)效果??紤]到文章中語(yǔ)句的結(jié)構(gòu)和通順性的問(wèn)題,Nadeem等[113]設(shè)計(jì)了基于語(yǔ)句感知的輔助預(yù)訓(xùn)練任務(wù)。進(jìn)一步,Yang等[114]提出的R2BERT模型針對(duì)AES系統(tǒng)中的場(chǎng)景,采用多任務(wù)損失的方式來(lái)對(duì)BERT模型進(jìn)行微調(diào)。近期,Wang等人[115]認(rèn)為在真實(shí)的評(píng)估場(chǎng)景中,教師通常會(huì)從多個(gè)角度來(lái)對(duì)文章進(jìn)行評(píng)估,因此作者基于BERT模型學(xué)習(xí)多尺度特征;其次,考慮到訓(xùn)練數(shù)據(jù)稀少的問(wèn)題,作者使用遷移學(xué)習(xí)的策略從非當(dāng)前領(lǐng)域的文章中學(xué)習(xí)領(lǐng)域相關(guān)的知識(shí)。
表3總結(jié)了部分代表性AES模型的性能對(duì)比??偟膩?lái)說(shuō),基于特征構(gòu)造的方法具有更強(qiáng)的可解釋性,但是需要對(duì)手工特征進(jìn)行精心設(shè)計(jì)來(lái)獲得較好的表現(xiàn)。而與之相對(duì)的,基于深度學(xué)習(xí)的模型設(shè)計(jì)能緩解手工特征構(gòu)造時(shí)的困難,但是缺乏對(duì)結(jié)果的可解釋性。
表3 部分代表性AES模型的性能對(duì)比
目前,AES研究正逐漸從對(duì)文章的整體評(píng)測(cè)轉(zhuǎn)向?qū)δ承┨囟ňS度的評(píng)測(cè),例如連貫性、說(shuō)服力或者是否符合主旨等,以及研究如何解決數(shù)據(jù)標(biāo)注稀缺問(wèn)題帶來(lái)的挑戰(zhàn),具有廣闊的前景。
本節(jié)將對(duì)上述四類研究任務(wù)涉及的重要開(kāi)源工具或代表性模型代碼進(jìn)行介紹,如表4所示。
表4 代表性開(kāi)源工具簡(jiǎn)介
首先,EduNLP(3)https://github.com/bigdata-ustc/EduNLP是題目質(zhì)量分析基礎(chǔ)任務(wù)的工具包,專注于學(xué)科題目的語(yǔ)法語(yǔ)義分析,包含題目結(jié)構(gòu)識(shí)別、題目分詞、公式解析、語(yǔ)義向量化等功能,并提供多種預(yù)訓(xùn)練模型。
在MRC任務(wù)中,代表性的開(kāi)源代碼包括Attentive Reader[23]、BiDAF[60]、RCM[69]、文獻(xiàn)[64]等。此外,MRC任務(wù)的常用工具包之一是SogouMRCToolkit[116]。該工具包提供BiDAF、R-Net等多種已發(fā)布的經(jīng)典MRC模型,及其在三個(gè)數(shù)據(jù)集(SQuAD 1.0,SQuAD 2.0,CoQA)上的測(cè)評(píng)結(jié)果。此外,該工具包提供讀取數(shù)據(jù)集、處理數(shù)據(jù)、構(gòu)造模型的相關(guān)接口,方便開(kāi)發(fā)者快速有效地開(kāi)發(fā)機(jī)器閱讀模型。
在MWP任務(wù)中,代表性開(kāi)源代碼包括GROUP-ATT[87]、GTS[88]、HMS[46]、Graph2Tree[89]、KA-S2T[90]、NS-Solver[93]、NumS2T[94]、Multi-E/D[91]、REAL[95]、Generate & Rank[98]。此外,MWPToolkit[117]是MWP任務(wù)的開(kāi)源工具庫(kù),其包含了經(jīng)典的DNS、Seq2Tree、Graph2Tree,以及基于預(yù)訓(xùn)練的BERTGen、GPT-2等共17個(gè)模型,并測(cè)試了它們?cè)?個(gè)常見(jiàn)數(shù)據(jù)集上的結(jié)果。MWPToolkit將現(xiàn)有MWP求解模型解耦為高度可重用的模塊,從而能夠支持開(kāi)發(fā)者進(jìn)行數(shù)據(jù)讀取、數(shù)據(jù)處理、模型構(gòu)造、超參數(shù)搜索、模型評(píng)估等操作。
針對(duì)AES任務(wù),文獻(xiàn)[107]、文獻(xiàn)[109]、文獻(xiàn)[113]、文獻(xiàn)[115]等提供了文章自主評(píng)分方法的開(kāi)源實(shí)現(xiàn)。此外,EASE(4)https://github.com/edx/ease是AES任務(wù)中常見(jiàn)的開(kāi)源系統(tǒng)之一,提供多種手工特征構(gòu)造的方法以及多個(gè)回歸函數(shù)的選擇,例如支持向量回歸(Support Vector Regression, SVR)和貝葉斯線性嶺回歸(Bayesian Linear Ridge Regression, BLRR)。開(kāi)發(fā)者可以在此基礎(chǔ)上實(shí)現(xiàn)自己的AES模型。此外,ESCRITO[118]是一個(gè)評(píng)測(cè)學(xué)生寫(xiě)作能力的NLP工具包,包含了供教師使用的高層封裝API以及供開(kāi)發(fā)者使用的基礎(chǔ)開(kāi)發(fā)API。
利用自然語(yǔ)言處理技術(shù)模擬人類學(xué)習(xí)過(guò)程,是“人工智能+教育”的重要研究方向。目前,通過(guò)研究題目質(zhì)量分析、機(jī)器閱讀理解、數(shù)學(xué)題問(wèn)答和文章自主評(píng)分等智能應(yīng)用任務(wù),模型在題目理解、語(yǔ)義分析、知識(shí)推理和自主評(píng)測(cè)等認(rèn)知能力上取得了重要進(jìn)展。然而,相比于人類的教育學(xué)習(xí)過(guò)程,現(xiàn)有研究的類人學(xué)習(xí)過(guò)程仍較為簡(jiǎn)單,性能仍有待改進(jìn)。本節(jié)將對(duì)未來(lái)可行的研究方向進(jìn)行簡(jiǎn)單介紹。
學(xué)科題目數(shù)據(jù)是一種多模態(tài)數(shù)據(jù),大部分學(xué)科題目中除自然語(yǔ)言文本外,還包含圖像等多模態(tài)數(shù)據(jù)和公式、表格等異構(gòu)數(shù)據(jù),例如數(shù)學(xué)幾何題目包括題目文本、幾何圖形等異構(gòu)信息,這些數(shù)據(jù)需要利用多模態(tài)分析技術(shù)進(jìn)行處理。此外,智能教育系統(tǒng)提供了大量與學(xué)科題目相關(guān)的課程視頻等教育資源,有助于對(duì)學(xué)科題目的準(zhǔn)確分析和理解。因此,結(jié)合圖像、公式、課程視頻等多模態(tài)數(shù)據(jù),融合相關(guān)的課程知識(shí),可以對(duì)學(xué)科題目資源和學(xué)習(xí)者的教育學(xué)習(xí)活動(dòng)做更加完整的分析。目前,已有研究針對(duì)多模態(tài)題目數(shù)據(jù)進(jìn)行了初步探索。例如,文獻(xiàn)[119]融合課程分析與題目分析結(jié)果,為學(xué)科題目尋找匹配的課程片段內(nèi)容。然而,現(xiàn)有研究尚未直接探索人工智能算法在學(xué)習(xí)課程和解決問(wèn)題等視覺(jué)與思維能力融合方面的機(jī)理。
教育學(xué)習(xí)過(guò)程離不開(kāi)對(duì)知識(shí)的分析、記憶、歸納和推理。在這個(gè)過(guò)程中,學(xué)習(xí)者可以形成一個(gè)屬于自己的知識(shí)庫(kù),為運(yùn)用知識(shí)解決相關(guān)問(wèn)題提供了基礎(chǔ)。因此,如何從課程、課本、題目等教育資源中構(gòu)造教育知識(shí)圖譜,具有重要的學(xué)術(shù)和應(yīng)用價(jià)值。首先,教育知識(shí)圖譜可以幫助計(jì)算機(jī)有效管理知識(shí),可以提高多個(gè)智能教育任務(wù)(如機(jī)器閱讀、智能問(wèn)答等)的效果[120]。其次,教育知識(shí)圖譜的構(gòu)造對(duì)于模擬人類知識(shí)庫(kù)的形成、研究類人知識(shí)推理能力具有積極意義。目前已有研究[121-122]分別從課程資源和多源文本資源(課本、題目和網(wǎng)頁(yè)百科等)構(gòu)造了包含先序關(guān)系和相關(guān)關(guān)系等多關(guān)系教育知識(shí)圖譜。然而,相關(guān)研究仍處于初級(jí)階段,具有研究前景。
本文介紹的相關(guān)研究?jī)?nèi)容大多關(guān)注于提升具體任務(wù)的效果,例如,在機(jī)器閱讀理解任務(wù)中,模型在EM和F1值兩個(gè)指標(biāo)上的效果已經(jīng)超過(guò)人類。然而,研究仍表明相關(guān)模型對(duì)結(jié)果的解釋性較差。當(dāng)前,研究模型的可解釋性已經(jīng)成為相關(guān)研究的重點(diǎn)。其中,融合教育學(xué)理論,探索人類學(xué)習(xí)規(guī)律,指導(dǎo)模型學(xué)習(xí)過(guò)程,對(duì)模型結(jié)果進(jìn)行因果分析,是現(xiàn)有研究有待突破的難點(diǎn)和重要的研究方向。
智能教育系統(tǒng)積累了大量學(xué)科題目數(shù)據(jù),為“人工智能+教育”融合方向的研究提供了可能,相關(guān)研究對(duì)于探索為模型賦能人類復(fù)雜智慧有積極意義。本文介紹了面向?qū)W科題目的文本分析方法與應(yīng)用,重點(diǎn)對(duì)題目質(zhì)量分析、機(jī)器閱讀理解、數(shù)學(xué)題問(wèn)答和文章自主評(píng)分等任務(wù)的研究進(jìn)展進(jìn)行簡(jiǎn)述。此外,本文還對(duì)相關(guān)數(shù)據(jù)集和開(kāi)源工具等進(jìn)行了介紹。最后,本文展望了未來(lái)研究方向。