摘 要:針對現(xiàn)有數(shù)學(xué)應(yīng)用題機(jī)器解答方法不能自適應(yīng)理解語義多變的問題文本、求解精度提升受限,提出基于語義理解增強(qiáng)的機(jī)器解答方法。首先,設(shè)計語義增強(qiáng)的預(yù)訓(xùn)練語言模型SeBERT,通過多粒度知識建模策略和連續(xù)語義融入策略以實現(xiàn)對題目的精確理解;其次,構(gòu)建求解模型SeBERT-PT,其采用語言模型-池化-樹的求解結(jié)構(gòu),有效改善了應(yīng)用題的語義理解偏差并且提高了解題的精確度;最后,引入基于置信度的判斷機(jī)制,對于不值得信任的預(yù)測直接判定求解失敗,確保解答精度的同時,提升求解模型訓(xùn)練效率。實驗結(jié)果表明,該方法在中文和英文數(shù)據(jù)集上的解題精度分別達(dá)到了85.7%和77.9%,均優(yōu)于其他基線方法,特別是在涉及復(fù)雜語義理解和邏輯推理的題目上,表現(xiàn)尤為突出。證明了該方法在提升數(shù)學(xué)應(yīng)用題解答精度方面的有效性,也展示了其在跨語言環(huán)境下的廣泛適用性。
關(guān)鍵詞:數(shù)學(xué)應(yīng)用題求解;預(yù)訓(xùn)練語言模型;語義增強(qiáng);池化;置信度
中圖分類號:TP391.1"" 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2025)01-029-0214-08
doi: 10.19734/j.issn.1001-3695.2024.06.0208
Machine solving method for math word problem based on semantic understanding enhancement
Abstract:Since the existing machine solving methods of math word problems cannot adaptively understand the text of the problem with changing semantics, and have a limit in the improvement of solving accuracy, this paper proposed a machine solving method based on semantic understanding enhancement. Firstly, this method designed a semantically enhanced pre-training language model SeBERT to accurately understand the topic through a multi-granularity knowledge modeling strategy and con-tinuous semantic integration strategy. Secondly, this method constructed the solution model SeBERT-PT, which adopted the solution structure of language model-pool-tree to effectively improve the semantic understanding deviation of word problems and the accuracy of understanding problems. Finally, it introduced a confidence-based judgment mechanism to directly determine the failure of solving untrustworthy predictions, ensure the accuracy of the solution, and improve the training efficiency of solving models. The experimental results show that the accuracy results on Chinese and English datasets are 85.7% and 77.9% respectively, which is superior to other baseline methods, especially on problems involving complex semantic understanding and logical reasoning. It has proved the effectiveness of the method in improving the accuracy of solving math word problems and demonstrates its wide applicability in cross-language environments.
Key words:math word problem solution; pre-trained language model; semantic enhancement; pooling; confidence
0 引言
近年來,科技的飛速發(fā)展推動了機(jī)器解答在教育領(lǐng)域的應(yīng)用。作為人工智能的一個重要方面,機(jī)器解答以其高效、準(zhǔn)確和個性化的特點,正深刻地改變著學(xué)生的學(xué)習(xí)方法和教師的教學(xué)方式[1,2]。本文專注于研究小學(xué)數(shù)學(xué)應(yīng)用題(math word problem,MWP)求解,這是機(jī)器解答中基礎(chǔ)且具有挑戰(zhàn)性的子問題[3]。設(shè)想一下,如果機(jī)器能夠自動解題,給出求解方程和答案,那么這將極大地減輕學(xué)生的負(fù)擔(dān),給他們提供解題思路,提高學(xué)習(xí)效率。同時,機(jī)器現(xiàn)在已經(jīng)具備了從大量數(shù)據(jù)中學(xué)習(xí)和解決問題的能力,這不僅為數(shù)學(xué)應(yīng)用題的自動解答提供了強(qiáng)有力的技術(shù)支持,更為未來教育領(lǐng)域的智能化發(fā)展開辟了新的道路。
作為機(jī)器解答的重要分支,MWP的求解經(jīng)歷了基于規(guī)則的方法[4]、統(tǒng)計學(xué)習(xí)方法[5,6]和語義分析方法[7]。早期,Huang等人[8]提出基于方程模板映射的方法,構(gòu)建細(xì)粒度表達(dá)式解答代數(shù)應(yīng)用問題,提高了方程模板檢索效率。2016年,Liang等人[9]提出標(biāo)簽統(tǒng)計的機(jī)器求解方法,通過標(biāo)簽將主題信息轉(zhuǎn)換為邏輯結(jié)構(gòu),推動語義標(biāo)注。然而以上方法需要大量繁瑣的人工操作,并且求解精度不高,已逐漸被新技術(shù)所取代。
目前MWP的求解主要利用深度學(xué)習(xí)方法,概括地分為基于傳統(tǒng)語言模型和基于預(yù)訓(xùn)練語言模型的方法兩類。
a)基于傳統(tǒng)語言模型的方法。RNN、LSTM等序列模型和DRL(deep reinforcement learning)等增強(qiáng)學(xué)習(xí)模型是傳統(tǒng)的自然語言模型,旨在利用神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行向量表示,實現(xiàn)對題目的理解、推理和答案生成[10]。例如,DNS[11]第一次將基于RNN的seq2seq模型應(yīng)用到MWP中,解決了傳統(tǒng)方法需要手動捕獲特征的難題。RecursiveNN[12]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模板求解方法,并結(jié)合雙向LSTM和自注意力機(jī)制推導(dǎo)出表達(dá)式。MathDQN[13]利用DRL的獎勵機(jī)制來預(yù)測答案。
b)基于預(yù)訓(xùn)練語言模型的方法。預(yù)訓(xùn)練的自然語言模型(pretrained language model, PLM)是近幾年的研究熱點,其主要思想是先讓模型進(jìn)行大規(guī)模的無監(jiān)督學(xué)習(xí),再在各項下游任務(wù)上微調(diào)。其中最為著名的是BERT[14]、GPT[15]、XLNet[16]等模型,它們的優(yōu)秀不僅體現(xiàn)在文本分類、情感分析[17]等任務(wù)中,還能用于生成式任務(wù),如對話、摘要等[10,18]。因此,PLM也被啟發(fā)用于數(shù)學(xué)求解。例如,Li等人[19]通過語義編碼器BERT將具有相似原型方程的問題聚合在一起,提高了解決問題的效率。MWP-BERT[20]提出了一套考慮邏輯推理和數(shù)值性質(zhì)的算術(shù)增強(qiáng)預(yù)訓(xùn)練任務(wù),有效提高了模型的性能。EPT[21]采用由BERT改造而來的輕量ALBERT模型作為其編碼器。mBERT-LSTM[22]將多語言的BERT作為語義編碼器來研究交叉語言和多語言表示的數(shù)學(xué)問題。REAL[23]第一個將類比學(xué)習(xí)和預(yù)訓(xùn)練模型結(jié)合在一起,它強(qiáng)調(diào)類比學(xué)習(xí)而不是通常的基于模板學(xué)習(xí)。
機(jī)器解答MWP可以分為題目理解、推理預(yù)測和答案生成三個部分。其中,題目理解是后續(xù)兩個步驟的根基。PLM被廣泛用來實現(xiàn)題目文本的理解。但是,不同于其他語言任務(wù),應(yīng)用題的表達(dá)方式多樣且復(fù)雜,包含大量的現(xiàn)實場景信息,語言模型需要具備更強(qiáng)的語義分析能力和更多的背景知識才能正確地理解題目文本。目前的預(yù)訓(xùn)練模型比如BERT等,對文本的處理還停留在字與詞之間,不能對短語、實體和句子之間的隱含關(guān)系以及上下文的背景聯(lián)系進(jìn)行深入挖掘,可能會造成題目中某些重要語義的丟失。如表1所示,當(dāng)題目語義較為復(fù)雜時,現(xiàn)有模型由于無法準(zhǔn)確理解題目的含義,往往預(yù)測出錯誤的方程和答案。對比設(shè)計了語義增強(qiáng)的新型預(yù)訓(xùn)練模型SeBERT(semantics-BERT)[24],其多粒度知識建模策略通過“字-短語-實體”三階段的掩碼來訓(xùn)練模型對于題目中的特殊短語、實體以及之間關(guān)系的理解;連續(xù)語義融入策略通過設(shè)計詞語、結(jié)構(gòu)、語義三方面的預(yù)訓(xùn)練任務(wù),深度訓(xùn)練模型挖掘題目中詞法、語法、語義等信息的能力。最終模型通過這些任務(wù),能夠充分理解題目上下文間的隱含關(guān)系、背景常識,以實現(xiàn)對MWP題目的精確理解。
當(dāng)前的自然語言技術(shù)在提升語義理解上面臨著不小的挑戰(zhàn)。受遷移學(xué)習(xí)思想的啟發(fā),創(chuàng)新性地探索了NLP中池化技術(shù)的潛在應(yīng)用價值,特別是在MWP求解任務(wù)中的潛力。雖然池化技術(shù)(如最大池化、平均池化等)在圖像處理和自然語言處理的其他任務(wù)(如文本分類、情感分析等)中已有廣泛應(yīng)用,但在數(shù)學(xué)領(lǐng)域還沒有得到有效驗證。因此,在MWP求解中,通過精心設(shè)計的池化策略,對池化窗口的平均值進(jìn)行計算,捕捉題目描述中的關(guān)鍵信息,保留其重要的背景知識,同時減少噪聲和冗余,在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)一步增強(qiáng)對題目語義的理解。這種跨領(lǐng)域的技術(shù)遷移與創(chuàng)新應(yīng)用,旨在提升模型在復(fù)雜文本理解任務(wù)中的表現(xiàn),有助于更精確地解答各類數(shù)學(xué)問題。
MWP求解廣泛采用經(jīng)典的seq2seq(序列到序列)模型[25],經(jīng)過神經(jīng)網(wǎng)絡(luò)的內(nèi)部推理,模型能夠預(yù)測出求解方程,最終計算得到答案。但是該序列模型在生成預(yù)測表達(dá)式時可能會出現(xiàn)無效的token序列,導(dǎo)致最終生成無效的方程,比如“13+21)*2”;并且依賴固定長度的隱藏狀態(tài)向量,無法逐層地利用上下文信息。有學(xué)者針對這些問題提出seq2tree模型[26],通過將非終結(jié)符轉(zhuǎn)換為token,并逐層進(jìn)行解碼,確保了最終生成的表達(dá)式是有效的;并且樹結(jié)構(gòu)的解碼器在解碼過程中可以逐層地利用上下文信息,有助于模型更準(zhǔn)確地理解輸入數(shù)據(jù),并生成更準(zhǔn)確的輸出。因此,選用seq2tree結(jié)構(gòu)來構(gòu)造應(yīng)用題求解模型SeBERT-PT (SeBERT-pooling-tree decoder)。區(qū)別于普通的編碼過程,將SeBERT預(yù)訓(xùn)練模型作為語義編碼器,更準(zhǔn)確地捕捉題目中的關(guān)鍵信息;在編碼器和解碼器之間融入池化層,進(jìn)一步增強(qiáng)對題目的理解;經(jīng)過神經(jīng)網(wǎng)絡(luò)的內(nèi)部推理,解碼器預(yù)測出求解二叉樹,并對其前序遍歷得到求解方程,編譯器計算出最終的結(jié)果。
由于神經(jīng)網(wǎng)絡(luò)的本質(zhì)還是機(jī)器,不可避免地會產(chǎn)生有缺陷、錯誤的推理,所以在求解之外提出一種基于置信度的判斷機(jī)制,以此完善整個求解過程。該機(jī)制在解碼器預(yù)測出樹型表達(dá)式后,先將其置信度與設(shè)置的臨界值進(jìn)行比較,若低于臨界值,則表示此次解答是不值得信任的,不再進(jìn)行后續(xù)遍歷和計算操作,直接判定解答失敗。該機(jī)制在保證解答精度的前提下,顯著提高了模型的訓(xùn)練效率,使整個求解過程更加完善和高效。
本研究的貢獻(xiàn)總結(jié)如下:a)設(shè)計了語義增強(qiáng)的新型預(yù)訓(xùn)練模型SeBERT(semantics-BERT),通過多粒度知識建模策略和連續(xù)語義融入策略以實現(xiàn)對MWP題目的精確理解;b)引入了池化技術(shù),通過計算每個池化窗口的平均值,將區(qū)域內(nèi)的語義信息全部匯集在一起,進(jìn)一步增強(qiáng)了對題目的理解;c)構(gòu)建了MWP求解模型SeBERT-PT (SeBERT-pooling-tree decoder),有效改善了MWP的語義理解偏差并且提高了解題的精確度;d)提出了一種基于置信度的判斷機(jī)制,該機(jī)制在保證解答精度的前提下,顯著提高了模型的訓(xùn)練效率。
1 方法論
1.1 SeBERT預(yù)訓(xùn)練模型
對于語義復(fù)雜的數(shù)學(xué)應(yīng)用題,現(xiàn)有的語言模型常因理解偏差而預(yù)測出錯誤的方程和答案。為改善此問題,設(shè)計出語義增強(qiáng)的預(yù)訓(xùn)練語言模型SeBERT。該模型以BERT結(jié)構(gòu)為基礎(chǔ),設(shè)置“字-短語-實體”三階段的多粒度知識建模策略和連續(xù)語義融入策略,深度挖掘題目上下文間的隱含關(guān)系、背景常識以及詞法、語法、語義等信息,從而實現(xiàn)對題目的精確理解。
1.1.1 多粒度知識建模策略
BERT通過對文本中的單詞進(jìn)行隨機(jī)掩碼和預(yù)測來學(xué)習(xí)上下文之間的語義關(guān)聯(lián)。然而,這種基礎(chǔ)的掩碼策略雖能讓模型判斷語句的通順性,但會造成應(yīng)用題某些語義的丟失。為了彌補這一不足,SeBERT在BERT的基礎(chǔ)上設(shè)計了創(chuàng)新的多粒度知識建模策略,利用“基礎(chǔ)-短語-實體”三階段的掩碼巧妙地將短語和實體知識融入語言表示中,使模型能夠隱式地學(xué)習(xí)諸如實體關(guān)系、實體屬性等深層次的語義信息。圖1展示了三個階段的掩碼策略。
1)針對短語的掩碼phrase-level masking
SeBERT的第一階段采用與BERT相似的基礎(chǔ)掩碼策略,故不再贅述。進(jìn)入第二階段,SeBERT開始聚焦于句子中的短語掩碼。短語是由單詞或漢字組合而成的概念單元,在英文文本中通過詞性標(biāo)注和句法分析來界定其邊界,而中文文本則依賴語言特定的分割和識別工具來提取短語信息。在這一階段,SeBERT不僅以基礎(chǔ)語言單元為訓(xùn)練輸入,還創(chuàng)新地對句子中的某些短語進(jìn)行隨機(jī)掩碼和預(yù)測,進(jìn)而將所獲得的短語知識整合到文本詞嵌入中。
2)針對實體的掩碼entity-level masking
進(jìn)入第三階段,SeBERT聚焦于實體的掩碼處理。命名實體如人名、機(jī)構(gòu)名、地名以及其他以名稱為標(biāo)識的實體,在此階段成為重點。這些實體往往承載著句子中變量的關(guān)系信息,對于提取句子隱含關(guān)系至關(guān)重要。與第二階段類似,模型首先識別并分析句子中的命名實體[27],隨后對其進(jìn)行掩碼和預(yù)測。通過將前兩個階段獲得的短語知識與實體知識相結(jié)合,并融入詞嵌入中,再經(jīng)過編碼器的精心處理,最終生成富含語義信息的文本表示。
1.1.2 連續(xù)語義融入策略
SeBERT建立了詞語、結(jié)構(gòu)和語義三種不同類型的預(yù)訓(xùn)練任務(wù),分別捕獲題目中的詞法、語法和語義信息,將一系列的語義融入到文本表示當(dāng)中。具體任務(wù)如下:
1)詞語相關(guān)的預(yù)訓(xùn)練任務(wù)
a)大寫預(yù)測(capitalization prediction, CP)。主要針對英文題目設(shè)計,鑒于大寫單詞[28]在英文中的特殊含義,結(jié)合BERT的分支模型優(yōu)勢,通過此任務(wù)發(fā)現(xiàn)特殊詞語間的語義聯(lián)系。
b)關(guān)鍵詞預(yù)測(keyword prediction, KP)。針對句子中頻繁出現(xiàn)的關(guān)鍵詞[29]進(jìn)行識別,提高模型捕捉關(guān)鍵信息的能力,從而加深對文本內(nèi)容的理解。
2)結(jié)構(gòu)相關(guān)的預(yù)訓(xùn)練任務(wù)
a)句子重新排序(sentence reordering, SR)。將問題文本隨機(jī)分成若干子句,打亂順序后重新排列,生成新的問題文本。此任務(wù)旨在提升模型對子句間關(guān)系的把握能力。
b)句子位置判斷(sentence position judge, SPJ)。數(shù)字 “0”和“1”分別表示在一個問題文本中兩個句子的位置是相鄰和不相鄰,“2”則表示兩個句子在不同的問題文本中。距離近的句子之間相關(guān)性大,距離遠(yuǎn)的句子之間聯(lián)系較小。模型根據(jù)句子之間距離的遠(yuǎn)近判斷它們的相關(guān)程度,深化對文本結(jié)構(gòu)的理解。
3)語義相關(guān)的預(yù)訓(xùn)練任務(wù)
話語關(guān)系預(yù)測(discourse relation prediction,DRP)。利用Sileo等人[30]提供的數(shù)據(jù)集訓(xùn)練模型,通過標(biāo)記句子間的話語關(guān)系并發(fā)現(xiàn)具有強(qiáng)語義相關(guān)性的句子對,增強(qiáng)模型在語義理解方面的能力。同時,也為中文數(shù)據(jù)準(zhǔn)備了相應(yīng)訓(xùn)練資源,確保模型的跨語言性能。
1.2 SeBERT-PT求解模型
MWP求解時,通常把問題描述作為模型輸入,生成的表達(dá)式作為模型輸出[31]。因此,本文采用Transformer的編碼器-解碼器結(jié)構(gòu)來構(gòu)建求解模型。其中SeBERT充當(dāng)語義編碼器,通過不斷地知識學(xué)習(xí)和知識合并,提取到語義豐富的題目隱藏狀態(tài)向量 。其次,在編碼器之后加入平均池化層,對隱藏向量逐層求平均,得到包含題目全部語義特征的平均表示向量。考慮到seq2seq結(jié)構(gòu)會生成不能計算的無效表達(dá)式,比如“13+21)*2”,出現(xiàn)的方程重復(fù)性問題(x=3+9+2-1和x=9+2-1+3),以及依賴固定長度的隱藏狀態(tài)向量,無法逐層地利用上下文信息等缺陷,采用樹型結(jié)構(gòu)作為解碼器對節(jié)點的生成概率進(jìn)行預(yù)測,得到唯一的表達(dá)式樹,再通過先序遍歷得到唯一的求解方程。最后經(jīng)過編譯器的計算,就可以得到最終的答案。圖2展示了SeBERT-PT的完整結(jié)構(gòu)。
1.2.1 編碼器
最后,將上下文兩個方向的隱藏狀態(tài)合并在一起就能得到s時刻的隱藏狀態(tài)hs:
1.2.2 平均池化層
卷積神經(jīng)網(wǎng)絡(luò)通過引入池化機(jī)制能夠縮小參數(shù)矩陣,減少連接層參數(shù),提高計算效率[32]。將池化應(yīng)用于MWP求解,可帶來兩大優(yōu)勢:a)通過降維處理,減少了模型工作量,加快了計算速度,同時能夠保留數(shù)據(jù)特征;b)通過池化窗口內(nèi)平均值的計算,能夠有效地聚合區(qū)域內(nèi)的語義信息,并保留其重要的背景知識,增強(qiáng)模型的語義理解能力。在MWP中,最大池化可能會造成部分語義信息的丟失,而平均池化則計算每個池化窗口的平均值,有助于保留背景信息,突顯題目特征,因此更適合用來處理隱藏狀態(tài)向量。
在上節(jié)中,通過編碼器得到了題目的隱藏狀態(tài)序列H={h1,h2,…,hn},即一系列的特征向量。這些特征向量代表了序列中不同時間步長的信息。接著,平均池化層沿著時間維度對這些特征向量進(jìn)行平均,從而得到一個固定長度的特征向量。這個特征向量可以看做是一個特征圖,因為它同樣代表了序列數(shù)據(jù)的抽象表示,只是形式上更接近于圖像特征圖(盡管維度上有所不同)。關(guān)于每個特征圖的大小,如式(4)所示。在假設(shè)所有初始特征圖的高度和寬度都相同的情況下,第k個特征圖包含的元素個數(shù)Nx等于其高度H乘以寬度W再乘以通道數(shù)Cx。
Nx=H×W×Cx(4)
其中:Cx表示第k個特征圖的通道數(shù),將每個詞向量的維度視為“特征通道”(類似于圖像中的顏色通道),它需要模型通過額外的信息或上下文來確定。而每個題目對應(yīng)的特征向量(即特征圖)的個數(shù)k主要由編碼器輸出的序列長度,也就是序列中特征向量的數(shù)量決定。
由于每個特征圖的形態(tài)是不確定的,為了直觀地描述出池化過程,在此假設(shè)每個題目的狀態(tài)序列都被轉(zhuǎn)換為若干個4×4的特征圖,用一個2×2的過濾器,以步長為2進(jìn)行“掃描”,詳細(xì)過程見圖3。對區(qū)域內(nèi)的向量值取平均,將平均值輸出到下一個池化層,依此類推,最終得到包含題目所有語義信息的平均表示向量。平均池化的計算公式為
其中:ykij表示與第k個特征圖有關(guān)的矩形區(qū)域Rij的平均池化輸出值;xkpq表示矩形區(qū)域Rij中位于(p, q)處的元素;Rij表示矩形區(qū)域Rij中的元素個數(shù)。
1.2.3 樹解碼器
平均表示向量和單詞嵌入狀態(tài)序列作為解碼器的輸入,由此可以得到一個上下文向量 ,根據(jù)這個上下文向量去計算不同時刻解碼器的狀態(tài)。在s時刻解碼器狀態(tài)的計算公式如下:
當(dāng)前生成的節(jié)點是運算符還是數(shù)字需要通過概率計算來判斷。經(jīng)過上述操作得到不同時刻的解碼狀態(tài)之后,就可以計算相應(yīng)時刻節(jié)點的生成概率:
其中:Wop和Wnum是權(quán)重矩陣;βt∈[0,1]是決定生成運算符節(jié)點還是數(shù)字節(jié)點的門控值;ylt;s表示在s時刻之前生成的節(jié)點;最終的生成概率P(ys|ylt;s,X)由門控值與運算符概率Pop(ys)和數(shù)字概率Pnum(ys)共同決定。通過概率對節(jié)點逐個預(yù)測,當(dāng)所有的節(jié)點生成之后,模型就可以將表達(dá)式樹轉(zhuǎn)換為對應(yīng)的方程來求解答案。圖4展示了求解方程的生成過程。
1.3 判斷機(jī)制
盡管模型已經(jīng)經(jīng)過大量的訓(xùn)練,但其本質(zhì)上仍是機(jī)器,不可避免地會產(chǎn)生有缺陷的推理[33]。理想情況下,可以讓模型直接學(xué)習(xí)每個預(yù)測結(jié)果的置信度度量,但這被證明是一項艱巨的任務(wù)。因為在大多數(shù)機(jī)器學(xué)習(xí)任務(wù)中,沒有可用于置信度估計的基礎(chǔ)真值標(biāo)簽[34]。本文沒有直接從傳統(tǒng)標(biāo)簽中學(xué)習(xí)置信度,而是設(shè)計了一種方法,在訓(xùn)練過程中激勵神經(jīng)網(wǎng)絡(luò)模型產(chǎn)生置信度估計。
1.3.1 置信度估計
在考試場景中,學(xué)生為了優(yōu)化成績,一個好的策略是在不使用提示的情況下回答所有自己有信心的問題,然后對不確定的問題要求進(jìn)行提示,以提高正確率。在測試結(jié)束時,提示次數(shù)可視為它們對每個問題自信程度的近似指標(biāo)。將此策略應(yīng)用于機(jī)器學(xué)習(xí)模型,則無須依賴真實標(biāo)簽,即可學(xué)習(xí)并估計模型的置信度。
為了賦予神經(jīng)網(wǎng)絡(luò)模型請求提示的能力,首先在前饋架構(gòu)中添加一個與預(yù)測分支并行的置信度分支,如圖5所示。置信分支包含一個或多個全連接層,最后一層輸出0~1的單個標(biāo)量(參數(shù)化為sigmoid)。這個置信度值c代表了模型在給定題目輸入的情況下,能夠生成正確預(yù)測的置信度。如果模型確信它可以生成正確的表達(dá)式,它輸出的c值應(yīng)該接近于1。相反,則輸出接近于0的c值。
在歸一化之前,模型接受題目輸入X,產(chǎn)生預(yù)測logit以及置信度logit。對于預(yù)測logit,使用softmax函數(shù)來獲得二叉樹各個節(jié)點的預(yù)測概率p。而置信度logit則通過sigmoid傳遞來獲得置信度估計c。
為了在訓(xùn)練過程中給模型“提示”,通過在原始二叉樹預(yù)測和目標(biāo)概率分布Y之間進(jìn)行插值來調(diào)整softmax的預(yù)測概率,其中插值的程度由網(wǎng)絡(luò)的置信度表示:
圖4直觀地展示了這一點。現(xiàn)在使用修改后的預(yù)測概率像往常一樣計算表達(dá)式損失,對于損失的計算,本文使用負(fù)對數(shù)似然函數(shù):
為了防止模型始終選擇c=0并且接收整個基礎(chǔ)真值來最小化表達(dá)式損失,在損失函數(shù)中添加了一個對數(shù)懲罰,稱之為置信度損失:
因此,求解模型最終的損失簡單說就是表達(dá)式損失和置信度損失的總和。置信度損失通過一個超參數(shù)λ加權(quán),平衡了表達(dá)式損失和置信度損失:
1.3.2 置信度判斷
當(dāng)置信度估計c小于或等于臨界值δ時,模型預(yù)測的表達(dá)式被認(rèn)為是可信賴的。為了選擇合適的臨界值,在預(yù)訓(xùn)練階段估計出每道題目的置信度,通過回歸分析繪制出置信度分布的散點圖,如圖6所示??梢钥闯鲇?xùn)練初期模型的置信度普遍不高,并且生成的錯誤預(yù)測較多。隨著學(xué)習(xí)過程的深入,正確預(yù)測逐漸增多,正確預(yù)測和錯誤預(yù)測的置信度都趨于各自的區(qū)間范圍。通過評估不同δ的檢測誤差,選擇誤差最小的圖7橫坐標(biāo)變量作為最終臨界值。對于解碼器預(yù)測出的表達(dá)式,先不對其進(jìn)行求解操作,而是將該表達(dá)式的置信度與臨界值進(jìn)行比較,若低于臨界值,則不再進(jìn)行后續(xù)求解操作,直接判定解答失敗。此策略在確保精度的同時,顯著提升了模型訓(xùn)練效率。
為了更好地展示置信度估計的有效性,選取幾個誤差較小的臨界值構(gòu)成結(jié)果置信區(qū)間,觀察在不同臨界值下模型求解結(jié)果的正確性,如圖7所示。從圖中可以看到,當(dāng)臨界值為置信區(qū)間里的值時,模型求解的正確率達(dá)到最大。
2 實驗
在中英文數(shù)據(jù)集上對比了SeBERT-PT與其他基線模型的精確度。為了驗證各項策略的有效性,還開展了消融實驗。通過逐一移除模型中的特定策略,觀察到了模型性能的相應(yīng)變化。這也證明了模型在處理中英文數(shù)學(xué)問題時,各項策略之間的協(xié)同作用對于提高整體性能的重要性。這些實驗結(jié)果為進(jìn)一步優(yōu)化模型提供了有力的依據(jù)。
2.1 預(yù)訓(xùn)練
在訓(xùn)練策略上,對于英文數(shù)據(jù),本文遵循了標(biāo)準(zhǔn)的BERT訓(xùn)練流程,包括使用英文維基百科和英文數(shù)據(jù)集MathQA的訓(xùn)練集部分來進(jìn)行預(yù)訓(xùn)練,并在目標(biāo)任務(wù)上進(jìn)行微調(diào)。MathQA[35]是一個涉及超多運算符的英文數(shù)據(jù)集,其中包含了幾何、概率等較難解決的數(shù)學(xué)問題。而對于中文數(shù)據(jù),本文嘗試了在預(yù)訓(xùn)練階段融入特定領(lǐng)域的中文語料,也就是使用Ape210k數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練,以更好地適應(yīng)本文任務(wù)需求。Ape210k[36]是一個超大型的中文數(shù)學(xué)數(shù)據(jù)集,不僅需要對自然語言的理解,而且需要常識知識。
此外,本文還調(diào)整了學(xué)習(xí)率調(diào)度策略和正則化技術(shù)。學(xué)習(xí)率(learning rate)是一個關(guān)鍵的超參數(shù),它控制著在每次迭代中對模型權(quán)重的調(diào)整幅度,使用線性衰減策略來調(diào)整。這種策略有助于模型在訓(xùn)練的后期更精細(xì)地調(diào)整權(quán)重,避免陷入局部最小值,并提高模型的泛化能力。dropout是一種常用的正則化技術(shù),用于防止過擬合,通過在訓(xùn)練過程中隨機(jī)將一些網(wǎng)絡(luò)層的輸出置為零來實現(xiàn)。由于在每次迭代中都會隨機(jī)丟棄,從而迫使網(wǎng)絡(luò)學(xué)習(xí)到更加魯棒的特征表示。
2.2 參數(shù)設(shè)置
實驗代碼基于PyTorch實現(xiàn)。模型的預(yù)訓(xùn)練輪數(shù)設(shè)置為150,正式訓(xùn)練(微調(diào))輪數(shù)為125。其中中文數(shù)據(jù)的batch size為64,英文為16。Adam優(yōu)化器用來進(jìn)行模型優(yōu)化,它的初始學(xué)習(xí)率在中英文中分別設(shè)置為3E-5和0.000 1。另外,dropout為0.5和0.1,解碼過程中beam size被指定為5。
2.3 基線
1)基于傳統(tǒng)語言模型的經(jīng)典基線
a)DNS:第一次將基于RNN的seq2seq(序列到序列)模型應(yīng)用到MWP中,經(jīng)過神經(jīng)網(wǎng)絡(luò)的推理輸出其求解方程,解決了傳統(tǒng)方法需要手動捕獲特征的難題。
b)Math-EN[37]:通過計算三種模型的生成概率,最高概率的模型輸出將作為最終的答案,并提出歸一化方法來解決方程重復(fù)性問題。
c)GTS:在樹解碼器的基礎(chǔ)上提出了目標(biāo)驅(qū)動方法,通過一層層目標(biāo)分解來生成表達(dá)式樹。
d)Graph2Tree[38]:設(shè)計了數(shù)量單位圖和數(shù)量比較圖,來捕獲題目中數(shù)值之間的關(guān)系和順序,從而使求解更加準(zhǔn)確。
2)基于預(yù)訓(xùn)練語言模型的基線
a)BERT-CL:將預(yù)訓(xùn)練模型BERT與對比學(xué)習(xí)進(jìn)行結(jié)合構(gòu)造了BERT-CL,通過語義編碼器BERT將具有相似原型方程的問題聚合在一起、不相似的分開,以此提高解決問題的效率。
b)REAL:第一個將類比學(xué)習(xí)應(yīng)用到MWP中,它強(qiáng)調(diào)類比學(xué)習(xí)而不是基于模板學(xué)習(xí)。
c)BERTGen和RoBERTaGen:Lan等人[39]在不同數(shù)據(jù)集中對BERT和 RoBERTa模型的解題能力進(jìn)行測試,發(fā)現(xiàn)精確度高于大部分沒有使用PLM的模型。
2.4 主要結(jié)果
實驗結(jié)果如表2所示,將精確度(accuracy)作為評價指標(biāo)來衡量模型預(yù)測正確的題目數(shù)量占總題目數(shù)量的比例,它反映了模型預(yù)測正確的準(zhǔn)確程度。SeBERT-PT在各個數(shù)據(jù)集上都取得了最高精確度。
由此可以總結(jié)出如下結(jié)論:
a)基于深度學(xué)習(xí)的方法優(yōu)于基于規(guī)則的方法。從表2可以看到,利用基于規(guī)則的方法解得的精確度明顯不如深度學(xué)習(xí)方法。這是因為基于規(guī)則的方法需要人工構(gòu)建大量的規(guī)則和模板匹配來處理題目。但是應(yīng)用題的表述方式多樣且可能包含復(fù)雜的邏輯關(guān)系和語義信息,規(guī)則構(gòu)建和模板匹配時難免存在遺漏和錯誤。而深度學(xué)習(xí)方法能夠自動從大量數(shù)據(jù)中學(xué)習(xí)特征表示和推理規(guī)則,有強(qiáng)大的語義理解能力,并且具有更強(qiáng)的泛化性,因此更適合于MWP機(jī)器求解任務(wù)。
b)樹型解碼器提升模型性能。在第一類基線中,除了DNS和Math-EN,其他都采用了樹解碼器,并且精度都達(dá)到70%以上。在第二類基線中,BERT-CL利用樹結(jié)構(gòu)進(jìn)行解碼,精度也高于非樹的REAL、BERTGen和RoBERTaGen。
c)預(yù)訓(xùn)練語言模型有出色的執(zhí)行下游任務(wù)能力。與經(jīng)典基線相比,基于PLM的求解模型精確度普遍更高,能夠達(dá)到80%以上。這是因為PLM具有一定的普適性,可以根據(jù)下游任務(wù)不斷進(jìn)行參數(shù)更新,更好地學(xué)習(xí)文本特征和特定知識。REAL和BERT-CL利用預(yù)訓(xùn)練取得了巨大的成功,答案精度分別達(dá)到了82.3%和83.2%。其中BERTGen和RoBERTaGen的實驗結(jié)果不太令人滿意,是因為其將BERT和RoBERTa直接放在數(shù)據(jù)集上訓(xùn)練,沒有針對具體任務(wù)做任何改進(jìn)和調(diào)整,因此效果甚至不如一些經(jīng)過精心設(shè)計的經(jīng)典基線。
d)本文提出的語義理解增強(qiáng)求解方法有效解決了MWP的語義理解偏差,提高了模型的解題精度。不論中文還是英文,與所有的基線模型相比,SeBERT-PT的精確度都達(dá)到最高。
2.5 消融實驗
本節(jié)通過消融實驗全面探究預(yù)訓(xùn)練、掩碼策略以及預(yù)訓(xùn)練任務(wù)對模型求解精度的影響,并評估判斷機(jī)制對訓(xùn)練效率的提升作用。鑒于模型在中文MWP任務(wù)上展現(xiàn)出的卓越性能,將主要在中文數(shù)據(jù)集Math23K上開展這些實驗,僅在2.5.1節(jié)中涉及中英文數(shù)據(jù)集的對比研究。
2.5.1 預(yù)訓(xùn)練
在2.1節(jié)深入探討了預(yù)訓(xùn)練(pre-trained, PT)對MWP求解的關(guān)鍵作用。如表3所示,未經(jīng)預(yù)訓(xùn)練的模型與經(jīng)過預(yù)訓(xùn)練的模型在精度上存在顯著的差距。這一結(jié)果充分證明了預(yù)訓(xùn)練對于提高模型在MWP求解任務(wù)上的性能至關(guān)重要。
2.5.2 多粒度的知識掩碼策略
如表4所示,在預(yù)訓(xùn)練的基礎(chǔ)上,依次向模型中加入三種掩碼策略,并與BERT進(jìn)行比較,觀察到短語掩碼和實體掩碼均對模型性能產(chǎn)生了積極的影響。特別值得一提的是,實體掩碼的作用尤為顯著。這是因為實體之間的隱含關(guān)系對模型理解題目至關(guān)重要,這些信息顯著提升了模型對題目的理解深度和廣度,進(jìn)一步增強(qiáng)了模型的求解能力。
2.5.3 連續(xù)語義融入策略
如表5所示,在連續(xù)語義融入策略設(shè)置的三種預(yù)訓(xùn)練任務(wù)中,語義任務(wù)對模型的影響最為顯著。這可能是因為語義任務(wù)中的話語關(guān)系預(yù)測能夠更有效地捕捉上下文之間的語義聯(lián)系,從而幫助模型更深入地理解文本內(nèi)容。此外,隨著每個預(yù)訓(xùn)練任務(wù)的逐步學(xué)習(xí),模型的精確度也在不斷提升,這充分證明了預(yù)訓(xùn)練任務(wù)在提升模型理解能力方面的語義有效性。
2.5.4 平均池化
將保持其他實驗設(shè)置不變,僅改變池化層的策略,分別使用最大池化和平均池化來提取文本表示。如表6所示,通過對比這兩種策略下的實驗結(jié)果,可以清晰地看到平均池化在MWP求解任務(wù)上的表現(xiàn)更好。這將為模型選擇提供更豐富的依據(jù),并幫助讀者更好地理解池化層在模型中的作用。
2.5.5 判斷機(jī)制
如表7所示,判斷機(jī)制有效縮短了模型的訓(xùn)練時間并提升了求解精度。這是因為模型在預(yù)測出表達(dá)式之后,先篩選出值得信任的推理,再進(jìn)行表達(dá)式的求解。避免了在錯誤或不確定的問題上浪費計算資源,從而有效減少了不必要的計算量,顯著提升了模型效果和訓(xùn)練效率。
3 實際案例
盡管深度學(xué)習(xí)模型在處理各類語言任務(wù)時表現(xiàn)出色,但其內(nèi)部的工作機(jī)制往往被視為一個黑盒過程,難以被人類直觀理解,這限制了模型的可解釋性。因此,列舉了一個簡單的應(yīng)用題實例,直觀地展示了該求解方法的流程。
1)問題輸入與預(yù)處理
輸入:小明買了5個蘋果,每個蘋果2元,他還買了3個橙子,每個橙子3元,問小明一共花了多少錢?
預(yù)處理:將文本輸入轉(zhuǎn)換為機(jī)器可處理的格式,包括分詞、詞性標(biāo)注、命名實體識別等。例如,識別出“蘋果”“橙子”為物品名詞,“5個”“2元”為數(shù)量與價格描述。
2)語義分析
深度語義理解:利用語言模型SeBERT理解句子中的語義關(guān)系,識別出關(guān)鍵信息(如物品、數(shù)量、單價)及其之間的關(guān)系。
特征提?。簩⑽谋拘畔⑥D(zhuǎn)換為向量表示,為后續(xù)處理提供基礎(chǔ)。
3)數(shù)量關(guān)系提取與推理
直陳數(shù)量關(guān)系:蘋果數(shù)量5個,單價2元;橙子數(shù)量3個,單價3元。
隱含數(shù)量關(guān)系:需要計算總價,即蘋果總價+橙子總價。
表達(dá)式樹如圖8所示。
遍歷樹:表達(dá)式為總價=5×2+3×3。
4)表達(dá)式評估與求解
判斷表達(dá)式:置信度gt;臨界值,表達(dá)式值得信任,進(jìn)行后續(xù)計算。
解答生成:輸出最終答案“小明一共花了19元”。
4 結(jié)束語
本文提出了一種基于語義理解增強(qiáng)的數(shù)學(xué)應(yīng)用題機(jī)器解答方法。設(shè)計語義增強(qiáng)的預(yù)訓(xùn)練語言模型,多粒度的知識建模和連續(xù)語義融合策略使其能夠深入理解題目背景知識和語義信息。池化技術(shù)進(jìn)一步增強(qiáng)了模型對題目的理解。在此基礎(chǔ)上,構(gòu)建求解模型SeBERT-PT,預(yù)訓(xùn)練模型作為語義編碼器與樹結(jié)構(gòu)解碼器的結(jié)合,有效減少了語義理解偏差,提高了求解精度。此外,還引入了一種判斷機(jī)制,顯著提升了模型的訓(xùn)練效率,同時保證了解答精度。實驗結(jié)果顯示,SeBERT-PT在中英文任務(wù)上均展現(xiàn)出卓越的求解性能,顯著優(yōu)于現(xiàn)有方法。消融實驗也驗證了優(yōu)化措施和判斷機(jī)制的有效性。盡管本文取得了一定的成果,但仍面臨一些挑戰(zhàn)。由于神經(jīng)網(wǎng)絡(luò)的推理過程通常是黑盒的,輸出的結(jié)果難以直觀解釋,所以未來將致力于提升模型的可解釋性,例如通過探索基于注意力機(jī)制的解釋方法或構(gòu)建可解釋的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以進(jìn)一步推動數(shù)學(xué)應(yīng)用題機(jī)器解答技術(shù)的發(fā)展。
參考文獻(xiàn):
[1]崔金貴, 馬瑩瑩. 我國人工智能教育研究進(jìn)展與展望[J]. 高校教育管理, 2023, 17(6): 31-39. (Cui Jingui, Ma Yingying. The research progress and future prospect of artificial intelligence education in China[J]. University Education Administration, 2023, 17(6): 31-39.)
[2]高婷婷, 郭炯. 人工智能教育應(yīng)用研究綜述[J]. 現(xiàn)代教育技術(shù), 2019, 29(1): 11-17. (Gao Tingting, Guo Jiong. Review on the application of artificial intelligence in education[J].Modern Educational Technology," 2019, 29(1): 11-17.)
[3]王明書. 機(jī)器解答小學(xué)數(shù)學(xué)應(yīng)用題研究[D]. 武漢: 華中師范大學(xué), 2020. (Wang Mingshu. Research on machine solution to primary school mathematics word problems[D]. Wuhan: Central China Normal University, 2020.)
[4]Bakman Y. Robust understanding of word problems with extraneous information[EB/OL]. (2007-01-14). https://arxiv.org/abs/math/0701393.
[5]Kushman N, Artzi Y, Zettlemoyer L,et al. Learning to automatically solve algebra word problems[C]// Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 271-281.
[6]唐發(fā)明. 基于統(tǒng)計學(xué)理論的支持向量機(jī)算法研究[D].武漢: 華中科技大學(xué), 2005. (Tang Faming. Research on support vector machine algorithm based on statistical theory[D].Wuhan: Huazhong University of Science and Technology, 2005.)
[7]Shi Shuming, Wang Yuehui, Lin C Y, et al. Automatically solving number word problems by semantic parsing and reasoning[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1132-1142.
[8]Huang Danqing, Liu Jing, Lin C Y, et al. Neural math word problem solver with reinforcement learning[C]// Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 213-223.
[9]Liang Zhenwen, Zhang Xiangliang. Solving math word problems with teacher supervision[C]// Proc of the 30th International Joint Confe-rence on Artificial Intelligence. [S.l.]: International Joint Confe-rences on Artificial Intelligence Organization, 2021: 3522-3528.
[10]Khashabi D, Min S, Khot T, et al.UnifiedQA: crossing format boundaries with a single QA system[EB/OL]. (2020-10-07). https://arxiv.org/abs/2005.00700.
[11]Wang Yan, Liu Xiaojiang, Shi Shuming. Deep neural solver for math word problems[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 845-854.
[12]Wang Lei, Zhang Dongxiang, Zhang Jipeng,et al. Template-based math word problem solvers with recursive neural networks[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 7144-7151.
[13]Wang Lei, Zhang Dongxiang, Gao Lianli,et al. MathDQN: solving arithmetic word problems via deep reinforcement learning[C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 5545-5552.
[14]Devlin J, Chang M W, Lee K, et al.BERT: pre-training of deep bidirectional Transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.
[15]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training [EB/OL]. (2018). https://paperswithcode.com/paper/improving-language-understanding-by.
[16]Yang Zhilin, Dai Zihang, Yang Yiming,et al. XLNet: generalized autoregressive pretraining for language understanding[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: article No. 517.
[17]Minaee S, Kalchbrenner N, Cambria E,et al. Deep learning-based text classification: a comprehensive review[J].ACM Computing Surveys" 2021, 54(3): artice No. 62.
[18]Zhang Yizhe, Sun Siqi, Galley M, et al. DialoGPT: large-scale gene-rative pre-training for conversational response generation [EB/OL]. (2020-05-02). https://arxiv.org/abs/1911.00536.
[19]Li Zhongli, Zhang Wenxuan, Yan Chao, et al.Seeking patterns, not just memorizing procedures: contrastive learning for solving math word problems [EB/OL]. (2022-03-10). https://arxiv.org/abs/2110.08464.
[20]Liang Zhenwen, Zhang Jipeng, Wang Lei, et al.MWP-BERT: numeracy-augmented pre-training for math word problem solving[EB/OL]. (2022-05-11). https://arxiv.org/abs/2107.13435.
[21]Kim B, Ki K S, Lee D,et al. Point to the expression: solving algebraic word problems using the expression-pointer transformer model[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 3768-3779.
[22]Tan Minghuan, Wang Lei, Jiang Lingxiao,et al. Investigating math word problems using pretrained multilingual language models[C]// Proc of the 1st Workshop on Mathematical Natural Language Proces-sing. 2022: 7-16.
[23]Huang Shifeng, Wang Jiawei, Xu Jiao, et al.Recall and learn: a memory-augmented solver for math word problems [EB/OL]. (2021-09-27). https://arxiv.org/abs/2109.13112.
[24]Zhang Zhengyan, Han Xu, Liu Zhiyuan, et al.Ernie: enhanced language representation with informative entities [EB/OL]. (2019-06-04). https://arxiv.org/abs/1905.07129.
[25]Cho K, Van Merrienboer B, Gulcehre C, et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL]. (2014-09-03). https://arxiv.org/abs/1406.1078.
[26]Xie Zhipeng, Sun Shichao. A goal-driven tree-structured neural mo-del for math word problems[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. [S.l.]: International Joint Conferences on Artificial Intelligence Organization, 2019: 5299-5305.
[27]張海橢, 伍大勇, 劉悅, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實體識別[J].中文信息學(xué)報, 2017, 31(4): 28-35. (Zhang Haituo, Wu Dayong, Liu Yue, et al. Chinese-named entity recognition based on deep neural networks [J].Journal of Chinese Information Processing," 2017, 31(4): 28-35.)
[28]Zhang Hao, Cheng Youchi, Kumar S,et al. Capitalization normalization for language modeling with an accurate and efficient hierarchical RNN model[C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 6097-6101.
[29]Hong J, Fang M. Keyword extraction and semantic tag prediction[EB/OL].(2017-09-23). https://cs229.stanford.edu/proj2013/FangHong-Keyword%20Extraction%20and%20Semantic%20Tag%20Prediction.pdf.
[30]Sileo D, Van-De-Cruys T, Pradel C, et al.Mining discourse markers for unsupervised sentence representation learning [EB/OL]. (2019-03-28). https://arxiv.org/abs/1903.11850.
[31]姜貴松. 基于深度自適應(yīng)圖卷積網(wǎng)絡(luò)的數(shù)學(xué)應(yīng)用題求解器[D]. 天津: 天津師范大學(xué), 2023. (Jang Guisong. Math word problem solver based on deep adaptive graph convolutional network[D]. Tianjin: Tianjin Normal University, 2023.)
[32]袁銘陽, 周長勝, 黃宏博, 等. 卷積神經(jīng)網(wǎng)絡(luò)池化方法綜述[J]. 軟件工程與應(yīng)用, 2020, 9(5): 360-372. (Yuan Mingyang, Zhou Changsheng, Huang Hongbo, et al. Review of pooling methods for convolutional neural networks[J]. Software Engineering and Applications, 2020, 9(5): 360-372.)
[33]Lu Pan, Qiu Liang, Yu Wenhao, et al.A survey of deep learning for mathematical reasoning [EB/OL]. (2023-06-22). https://arxiv.org/abs/2212.10535.
[34]Devries T, Taylor G W. Learning confidence for out-of-distribution detection in neural networks [EB/OL]. (2018-02-13). https://arxiv.org/abs/1802.04865.
[35]Amini A, Gabriel S, Lin P, et al. MathQA: towards interpretable math word problem solving with operation-based formalisms[EB/OL]. (2019-05-30). https://arxiv.org/abs/1905.13319.
[36]Zhao Wei, Shang Mingyue, Liu Yang, et al.Ape210k: a large-scale and template-rich dataset of math word problems [EB/OL]. (2020-10-09). https://arxiv.org/abs/2009.11506.
[37]Wang Lei, Wang Yan, Cai Deng, et al. Translating a math word problem to an expression tree [EB/OL]. (2018-11-15). https://arxiv.org/abs/1811.05632.
[38]Zhang Jipeng, Wang Lei, Lee R K W,et al. Graph-to-tree learning for solving math word problems[C]// Proc of the 58th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 3928-3937.
[39]Lan Yihuai, Wang Lei, Zhang Qiyuan, et al. MWPToolkit: an open-source framework for deep learning-based math word problem" solvers[C]//Proc of AAAI Conference on Artificial Intelligent.Palo Alto, CA:AAAI Press,2022: 13188-13190.