喬亞男,胡名凱,薄鈞戈
(西安交通大學(xué) 計算機學(xué)院,陜西 西安 710049)
近年來,計算機教學(xué)在教育行業(yè)占據(jù)了舉足輕重的地位,很多在線學(xué)習(xí)平臺如雨后春筍般不斷涌現(xiàn)。而隨著在線學(xué)習(xí)平臺學(xué)生數(shù)量的與日俱增,主觀試題的提交量也在迅猛增長,傳統(tǒng)人工閱卷的缺點愈發(fā)凸顯。一個有效的主觀題智能閱卷系統(tǒng)不僅可以有效地解放教師的勞動力、提高學(xué)生的學(xué)習(xí)效率、調(diào)動學(xué)生學(xué)習(xí)的積極性,而且還可以保證閱卷的公正性。但是,中國對主觀題智能閱卷算法的研究起步較晚,并且中文和英文各自有自己獨特的語言環(huán)境,研究者無法直接借鑒國外相關(guān)領(lǐng)域的研究成果。因此對中文主觀題智能閱卷算法的研究是現(xiàn)代教育發(fā)展的當(dāng)務(wù)之急。
張均勝等[1]提出了一種結(jié)合人工制定文本相似度標(biāo)準(zhǔn)、詞語集合及詞語次序和同義詞的短文本相似度計算方法,設(shè)計并實現(xiàn)了相應(yīng)的文本主觀題閱卷系統(tǒng),并建立試題人工評分標(biāo)準(zhǔn)庫。實驗結(jié)果顯示,文本試題自動閱卷結(jié)果與人工閱卷結(jié)果相比,相同評分達58%左右,但是其需要大量的人工干預(yù)。為了解決歐氏距離在解決高位問題時的缺陷,李翠霞等[2]提出了一種基于馬氏距離的文本聚類算法,該算法可發(fā)現(xiàn)非球形結(jié)構(gòu)的類簇,在不需要先驗知識的情況下,僅通過數(shù)學(xué)迭代即可得到聚類結(jié)果,并將該算法應(yīng)用到主觀題自動閱卷系統(tǒng)中。實驗表明該算法在準(zhǔn)確性和收斂速度方面都取得了不錯的效果,但是這種算法并不適合維度較高的文本聚類。LIU Jiao等[3]基于潛在語義分析方法,提出了一種基于文本匹配的中文試卷自動閱卷算法。首先,充分考慮術(shù)語之間的相關(guān)性,在低維空間中表示考生答案和標(biāo)準(zhǔn)答案的文本,并采用奇異值分解的方法對模型進行改進。其次,利用LSA,以考生答案與標(biāo)準(zhǔn)答案文本之間的余弦相似度作為答案相似性計算的標(biāo)準(zhǔn),確定每個學(xué)生答案的最終得分。該算法考慮了文本的語義信息,取得了滿意的評分結(jié)果,為實現(xiàn)基于語義的自動評分系統(tǒng)進行了有益的探索。劉逸雪等[4]根據(jù)數(shù)學(xué)主觀題的特點,提出了一種將人工制定評分標(biāo)準(zhǔn)和雙向長短時記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合的數(shù)學(xué)主觀題自動閱卷方法,在高二年級數(shù)學(xué)真實考題上進行實驗,準(zhǔn)確率達到83.17%,其研究使用了LSTM網(wǎng)絡(luò),但是僅僅數(shù)學(xué)對數(shù)學(xué)科目進行研究,沒有嘗試其他科目的實驗。陳賢武等[5]提出了一種改進語句多特征相似度的計算方法,有效提高智能閱卷系統(tǒng)中主觀試題自動閱卷的準(zhǔn)確性,具有較好的應(yīng)用前景,但在計算句子語義相似度時,僅僅使用傳統(tǒng)的基于句子長度的語義相似度算法,并且沒有考慮科目和題型等特征值對各個相似度權(quán)重的影響。
本文研究主要針對某在線學(xué)習(xí)系統(tǒng)中的智能閱卷功能進行完善,致力于研究基于中文語義相似度的主觀題智能閱卷方法,其主觀題主要包括考試中的中文簡答題和論述題。這些主觀題開放程度不高,其正確答案受標(biāo)準(zhǔn)答案的約束程度很大,學(xué)生的答案必須和標(biāo)準(zhǔn)答案語義相近才能拿到得分點,所以使用答案相似性分析對主觀題的自動評分是可以實現(xiàn)的[6]。本文研究內(nèi)容主要包括中文主觀題答案數(shù)據(jù)集的構(gòu)建、答案相似度分析以及主觀題智能閱卷的實現(xiàn)。
對于主觀題智能閱卷的實現(xiàn),主要參考教師對主觀題閱卷時的思維方式:首先,觀察答案文本中的關(guān)鍵詞、答案長度;然后,理解答案文本的大致含義;最后,結(jié)合科目信息和題型信息綜合評估給出最終的答案評分。針對這兩個步驟,本文研究分別采用文本關(guān)鍵詞相似度分析、中文語義相似度分析以及特征融合三種算法,因此文本關(guān)鍵詞相似度分析、中文語義相似度分析和特征融合是本次研究的重點。
主觀題智能閱卷的實現(xiàn)框架如圖1所示,分為如下幾個步驟:
圖1 主觀題智能閱卷實現(xiàn)框架
(1)對考生答案與標(biāo)準(zhǔn)答案進行預(yù)處理,去掉亂碼以及其他無效信息,并進行中文分詞;
(2)分別使用文本關(guān)鍵詞相似度分析和中文語義相似度分析兩種算法,計算考生答案與標(biāo)準(zhǔn)答案之間的文本關(guān)鍵詞相似度和語義相似度;
(3)將文本關(guān)鍵詞相似度、語義相似度、題型和科目作為特征值,使用線性回歸算法計算學(xué)生答案得分百分比;
(4)根據(jù)學(xué)生答案得分百分比和題目的總分值,計算學(xué)生答案的最終得分。
目前針對中文文本關(guān)鍵詞相似度算法的研究并不多,因此本節(jié)結(jié)合主觀題閱卷的特點,通過融合已存在的關(guān)鍵詞提取和詞移距離兩種算法,提出了一種TR-WMD算法用于計算文本間的關(guān)鍵詞相似度,并通過實驗,驗證了該方法在主觀題智能閱卷領(lǐng)域的有效性。
由于WMD(Word Mover's Distance)算法[7]是在對文本進行簡單分詞之后計算兩文本之間的最短距離,無法計算兩文本之間的關(guān)鍵詞相似度,因此本文結(jié)合主觀題智能閱卷的應(yīng)用特點,在原算法的基礎(chǔ)上,設(shè)計一個用于計算文本關(guān)鍵詞相似度的算法TR-WMD,該算法的主要思想是:①利用TextRank算法思想提取文本中的關(guān)鍵詞;②通過WMD算法計算步驟1所提取關(guān)鍵詞之間的最短詞移距離;③對距離進行歸一化處理,得到一個區(qū)間為[0,1]的數(shù)值即為文本關(guān)鍵詞相似度。該算法的計算流程如圖2所示。
圖2 TR-WMD算法模型
如圖2所示,為了使關(guān)鍵詞相似度的取值范圍能夠和3.2中的語義相似度的取值范圍保持一致,因此本文定義一個歸一化公式,用以計算兩文本之間的關(guān)鍵詞相似度。
(1)
其中δ為調(diào)節(jié)因子,通常取值為1。
但是,由于傳統(tǒng)的TextRank算法中,關(guān)鍵詞圖中的節(jié)點Vi的詞權(quán)重是平均分配給與它有邊相連的所有節(jié)點的,因此導(dǎo)致最終抽取出來的關(guān)鍵詞很容易都是詞頻較高的詞語,然而,在很多情況下,關(guān)鍵詞不僅僅只是那些詞頻較高的詞語,也可能是一些詞頻較低的詞語,造成這種現(xiàn)象的原因是沒有考慮各個詞語的含義對整個文本的貢獻度。針對這一問題,夏天提出了一個詞向量聚類加權(quán)算法,取得了相當(dāng)優(yōu)秀效果[8]。該算法的基本原理為:根據(jù)詞向量對文本中的詞語進行聚類處理,并根據(jù)詞語的詞向量在整個聚類的簇中的位置確定該詞的重要程度,并對其進行加權(quán)處理;然后,根據(jù)詞語之間轉(zhuǎn)移概率構(gòu)建一個矩陣,并通過不斷迭代,計算出文本中各個詞語的重要程度;最后,根據(jù)各詞語的重要程度獲取文本中的關(guān)鍵詞。
原文通過計算節(jié)點之間的覆蓋影響力、位置影響力和聚類加權(quán)影響力的值,并以加權(quán)的方式對以上三種影響力進行計算節(jié)點之間的跳轉(zhuǎn)概率。由于主觀題自動評分沒有標(biāo)題不適合計算位置影響力,所以本文將原文中的位置影響力進行了舍棄。令矩陣M表示詞圖節(jié)點之間的概率轉(zhuǎn)移矩陣,計算公式如公式(2)所示:
(2)
式中第j行為由詞語j到其他的詞語的跳轉(zhuǎn)概率。Puv為由詞語u跳轉(zhuǎn)到詞語v的概率,即puv=p(u→v)。
計算詞語u在其所隸屬的簇Cu中的投票重要性,如公式(3)所示:
(3)
計算節(jié)點之間的聚類影響力轉(zhuǎn)移概率,計算公式如(4)所示:
(4)
其中,adj[u]={v|(v→u)∈E}表示節(jié)點u的相鄰節(jié)點集。
計算覆蓋影響力的公式與傳統(tǒng)TextRank算法的均勻跳轉(zhuǎn)策略相同,計算公式如(5)所示:
(5)
其中,deg(u)為節(jié)點u的出度。
最終,節(jié)點u→v之間的跳轉(zhuǎn)概率計算公式如下:
(6)
(7)
式中e表示一個n維向量,其所有的分量都為1;Bi表示在第i次迭代之后所有節(jié)點所對應(yīng)的重要程度分值。
當(dāng)兩次迭代運算結(jié)果Bi與Bi-1之差趨零時,即可停止迭代,訓(xùn)練結(jié)束時,每個節(jié)點的得分值即表示該節(jié)點在圖中的重要程度,然后根據(jù)節(jié)點的重要程度以降序的方式對這些節(jié)點進行排序,選取TopN個節(jié)點作為最終關(guān)鍵詞抽取結(jié)果,實現(xiàn)關(guān)鍵詞抽取。
TR-WMD算法首先利用詞向量聚類加權(quán)的TextRank算法對兩文本進行關(guān)鍵詞提取之后,然后利用WMD算法計算這些關(guān)鍵詞最短詞移距離。TR-WMD具體算法如表1所示:
表1 TR-WMD算法
BERT[9]是基于Transformer算法[10]實現(xiàn)對句子的深度雙向編碼并且自動捕捉上下文關(guān)系無需標(biāo)注的預(yù)訓(xùn)練模型,因此,其無需針對某特定任務(wù)進行大量修改,只需要額外的輸出層,就可以對與訓(xùn)練的BERT模型進行調(diào)整,即可實現(xiàn)問題問答和語言推理等任務(wù)。
BERT的輸入為一個句子或者一對句子,其中每一個句子并不是實際意義上的語言句子,而是任意一段連續(xù)的文本。在輸入序列的第一個位置設(shè)置一個特殊分類標(biāo)記CLS,作為分類任務(wù)的聚合序列表示,SEP則是用與區(qū)分前后兩個句子的特殊標(biāo)記。
BERT共設(shè)有3個嵌入層,分別是詞嵌入層、段嵌入層和位置嵌入層,使用三種嵌入方式,將這三種嵌入按元素相加,得到一個新的嵌入即是BERT編碼層的輸入。其中文語義相似度模型如圖3所示。
圖3 BERT模型圖
BERT算法的實現(xiàn)需要兩個步驟:預(yù)訓(xùn)練和微調(diào)。預(yù)訓(xùn)練是對不同任務(wù)的未標(biāo)注數(shù)據(jù)集進行訓(xùn)練,訓(xùn)練出初始的語言模型;微調(diào)是使用預(yù)訓(xùn)練的參數(shù)初始化BERT模型,然后使用來自下游任務(wù)的數(shù)據(jù)標(biāo)注對所有參數(shù)進行微調(diào),對于不同的下游任務(wù)將會產(chǎn)生不同的微調(diào)模型。并且,相較于其他模型,BERT在預(yù)訓(xùn)練的模型結(jié)構(gòu)和最終解決下游問題的結(jié)構(gòu)之間存在的差異很小,這一特點表示BERT可以跨不同任務(wù)使用統(tǒng)一模型。
但是,BERT在處理語義相似度問題時,很容易出現(xiàn)某些句子需要多次重復(fù)輸入(比如本次實驗涉及到的標(biāo)準(zhǔn)答案文本)進行相互比較,造成大量的計算開銷,針對這一問題,我們將在BERT的基礎(chǔ)上進行適當(dāng)改進,減少算法的計算開銷,同時進一步提高模型關(guān)于語義相似度問題的預(yù)測準(zhǔn)確性。
BERT模型中的[CLS]為一個特殊標(biāo)記,主要用于下游的分類任務(wù),例如單文本分類和語句對分類任務(wù)等。在語句對分類任務(wù)中,[CLS]值一般用于表示兩文本之間的邏輯關(guān)系,比如問題和答案、上句和下句、兩個語義相關(guān)的句子等。但是,在處理文本語義相似度任務(wù)時,[CLS]值無法直觀地體現(xiàn)出兩文本之間的相似度,同時也沒有一個很好的可解釋性,所以本文引入暹羅思想對BERT模型進行改進。
暹羅網(wǎng)絡(luò)是具有相同參數(shù)的雙分支網(wǎng)絡(luò),它包含兩個結(jié)構(gòu)完全相同的網(wǎng)絡(luò),并通過一個能量函數(shù)將這兩個相同的網(wǎng)絡(luò)合并而成。暹羅網(wǎng)絡(luò)常用來學(xué)習(xí)兩個文本之間的相似性特征,通過暹羅網(wǎng)絡(luò)學(xué)習(xí)到的相似信息的特征屬性具有不變性和可選擇性。
能量函數(shù)用于計算兩文本之間的相似度,計算公式如(8)所示:
EW(X1,X2)=‖GW(X1)-GW(X2)‖2
(8)
基于上述思想,本文對BERT中的輸入層和輸出層做一些改進,提出一個新的模型Sim-BERT,如圖4所示。從整體上看,新的Sim-BERT模型主要分為四個模塊:嵌入層、網(wǎng)絡(luò)編碼層、池化層和相似度計算層。
圖4 Sim-BERT中文語義相似度模型圖
嵌入層包括詞嵌入和位置嵌入,由于段嵌入的作用是當(dāng)BERT模型輸入兩個句子時用于辨別兩個句子的,在Sim-BERT模型中每個BERT只需要輸入一個句子,所以刪除了原模型中的段嵌入。
網(wǎng)絡(luò)編碼層包含兩個網(wǎng)絡(luò):BERTa和BERTb,每個網(wǎng)絡(luò)分別處理句子對中的一個句子,對句子中的詞向量進行雙向編碼。在處理文本語義相似度的任務(wù)時,模型預(yù)測的對稱性尤其重要,所以我們將兩個BERT網(wǎng)絡(luò)的權(quán)值進行綁定,兩個BERT網(wǎng)絡(luò)的權(quán)值在訓(xùn)練的過程中進行同步迭代更新,即BERTa=BERTb,使模型對文本語義相似度的預(yù)測結(jié)果不會因為兩句子的輸入順序改變而變化。
Sim-BERT模型在BERT網(wǎng)絡(luò)的輸出層后面加一個池化層,主要為獲得一個固定大小的文本向量,以便計算標(biāo)準(zhǔn)答案文本向量和學(xué)生答案文本向量間的距離。在Sim-BERT池化層(Pooling)對多個向量進行處理時,一般采用三種池化策略[11],分別為CLS池化、最大池化和平均池化。其中CLS池化表示直接使用BERT模型的[CLS]輸出值;最大池化是指分別取出BERT所輸出除[CLS]外的所有向量對應(yīng)維數(shù)數(shù)值的最大值,并將這些最大值重新組成一個新的向量作為BERT模型的最終輸出值;平均池化是指分別取出BERT所輸出除[CLS]外的所有向量對應(yīng)維數(shù)數(shù)值的平均值,并將這些平均值重新組成一個新的向量作為BERT模型的最終輸出值。通過池化操作后,將得到兩個文本向量,在計算這兩文本向量相似度時,采用余弦相似度方法。計算公式如(9)所示:
(9)
在訓(xùn)練過程中,采用均方差MSE(Mean Square Error)作為整個模型的損失函數(shù),計算公式如(10)所示:
(10)
其中Yi表示第i個文本對中的文本語義相似度的標(biāo)簽值;Sim_semi表示Sim-BERT模型對第i個文本對的預(yù)測結(jié)果。
目前在主觀題智能閱卷領(lǐng)域,特征融合算法通常以分配固定權(quán)重為主[5],這種方法雖然能夠綜合多個特征對最終評分進行綜合評分,但是對于不同的科目和題型各個特征所占的權(quán)重肯定不是完全相同的,使用固定的權(quán)值的對不同題目和題型進行自動評分也一定存在很多誤差的,因此本文提出了一個新的特征融合算法,根據(jù)題目的科目和題型進行動態(tài)計算各個特征值的權(quán)重,能有效避免不同科目和題型對自動評分正確性的干擾。
由于各科目和題型對關(guān)鍵詞相似度和語義相似度的權(quán)重要求不同,因此本次研究引入了科目和題型兩個特征來控制關(guān)鍵詞和語義的權(quán)重,用于計算學(xué)生答案的最終得分比,具體計算公式如式(11)所示:
(11)
其中α為關(guān)鍵詞相似度的權(quán)重,β為語義相似度的權(quán)重;α、β大小將有科目特征和題型特征共同控制。
為了能使科目和題型特征能以數(shù)學(xué)的方式表示,本文將對不同的科目和題型進行One-Hot編碼,以向量的方式進行表示。One-Hot編碼的基本原理主要是采用N位狀態(tài)寄存器對N個不同的狀態(tài)進行編碼,每種狀態(tài)都有其獨立的寄存器位,并且無論任何時候僅有一位有效。例如本次研究中的HSA-STS數(shù)據(jù)集,一共包含三種科目:語文、歷史和思想品德,分別用向量[1, 0, 0]、[0, 1, 0]和[0, 0, 1]表示,兩種題型:簡答題和論述題,分別用向量[1, 0]和[0, 1]并滿足公式(12)和公式(13):
(12)
β=1-α
(13)
其中W1和W2為需要訓(xùn)練的矩陣變量;A、B分別表示科目和題型的One-Hot編碼。
為了計算上式中W1和W2的數(shù)值,本次研究搭建了一個單層神經(jīng)網(wǎng)絡(luò)。定義損失函數(shù)如下,通過反向傳播對W1和W2的數(shù)值進行多次迭代,計算適合HSA-STS數(shù)據(jù)集的W1,W1和W2數(shù)值。
(14)
其中yi表示第i個學(xué)生答案的真實得分的百分比。
通過迭代,最終可以得出一個固定的W1和W2,使 能無限接近最小值,利用迭代出的W1和W2計算出學(xué)生答案的最終得分比,最終可以得出學(xué)生答案的最終得分。計算公式如(15)所示:
Score=Sim(S1,S2)*Score0
(15)
其中Score表示學(xué)生答案的最終得分,Score0表示該題目的總分值。
由于上文提出的多特征融合的智能閱卷算法需要用到文本語義相似度算法和文本關(guān)鍵詞相似度算法,所以必須使用上文3.1和3.2中已經(jīng)訓(xùn)練完成的兩種算法Sim-BERT和TR-WMD,利用兩種模型預(yù)測文本語義相似度和文本關(guān)鍵詞相似度作為多特征融合算法的輸入。首先,利用Sim-BERT算法計算HSA-STS數(shù)據(jù)集中學(xué)生答案和標(biāo)準(zhǔn)答案文本間的文本語義相似度;然后,利用TR-WMD算法計算HSA-STS數(shù)據(jù)集中學(xué)生答案和標(biāo)準(zhǔn)答案文本間的文本關(guān)鍵詞相似度;最后,使用動態(tài)加權(quán)的多特征融合算法對文本語義相似度、文本關(guān)鍵詞相似度以及HSA-STS數(shù)據(jù)集中的科目和題型進行特征融合,計算出學(xué)生答案的得分百分比。
本文研究是對某在線學(xué)習(xí)系統(tǒng)的功能補充與擴展,并基于原系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)對本次研究所提出的主觀題智能閱卷模型進行訓(xùn)練與實驗。
本次實驗選擇了某校歷年的學(xué)生考試答案和標(biāo)準(zhǔn)答案作為數(shù)據(jù)集,經(jīng)過數(shù)據(jù)預(yù)處理一共保留2 485條學(xué)生考試答案,每條學(xué)生答案數(shù)據(jù)都有相應(yīng)的教師評分,并根據(jù)學(xué)生答案的教師評分和題目總分,求學(xué)生答案的得分百分比,對數(shù)據(jù)集進行標(biāo)注;然后根據(jù)得分百分比,將數(shù)據(jù)分為五類:分別為0.0,0.25,0.5,0.75,1.0,分別表示兩文本的相似程度,并以此訓(xùn)練關(guān)鍵詞相似度模型和語義相似度模型。
本次實驗將通過比較智能閱卷算法的評分分數(shù)與人工閱卷的評分分數(shù)的相近程度來評價該算法的評分效果。因此,對于一個學(xué)生答案而言,需要給出智能閱卷算法的評分分數(shù)和人工閱卷的分數(shù)之間的相對誤差,計算公式如(16)所示:
(16)
其中AS表示智能閱卷算法的評分分數(shù);MS表示人工閱卷的評分分數(shù);RE表示AS與MS之間誤差的絕對值相對于MS的百分比(簡稱相對誤差百分比)。
根據(jù)上式中計算的每個學(xué)生的相對誤差百分比RE,可以計算出所有學(xué)生在某一道題中的平均相對誤差百分比,計算公式如(17)所示:
(17)
其中N表示一道試題的學(xué)生答案數(shù)。進而計算全部題目K道試題的總平均相對誤差百分比,計算公式如(18)所示:
(18)
由于算法總是存在一些不可避免的誤差,通常情況下,倘若誤差的大小是在可接受的范圍之內(nèi),則可以判定該算法達到了預(yù)期的效果。通過對該校教師的意見調(diào)查,大多數(shù)教師認為一道10分的題目誤差在2分以內(nèi)是可以接受的[12],即當(dāng) 時則可以認定智能閱卷算法對該道題的學(xué)生答案判定是正確的,當(dāng) 時則可以認定智能閱卷算法對該道題的學(xué)生答案判定是錯誤的。根據(jù)此種規(guī)則可以計算出智能閱卷算法的判定正確率,計算公式如(19)所示:
(19)
其中N表示學(xué)生答案的總數(shù);Na為智能閱卷算法判定為正確(RE<0.2)的學(xué)生答案總數(shù)。
在對多特征融合模型訓(xùn)練時,訓(xùn)練集和測試集損失值的大小會隨訓(xùn)練次數(shù)增加不斷變化,如圖5所示。
如圖5所示,將訓(xùn)練次數(shù)設(shè)置為2000,發(fā)現(xiàn)隨著訓(xùn)練的次數(shù)不斷增加,訓(xùn)練集和測試集的損失值不斷減小,并未出現(xiàn)過擬合的現(xiàn)象。然后,將訓(xùn)練次數(shù)設(shè)置為5 000次時,訓(xùn)練集和測試集的損失值并沒有明顯的下降。因此,本文最終決定選用訓(xùn)練2000次的模型作為最終模型,該模型在測試集的損失值為0.0654。將預(yù)測值與題目總分相乘的值進行取整(當(dāng)預(yù)測值為負數(shù)時取值為0)即為學(xué)生答案的最終得分,最終該主觀題智能閱卷模型預(yù)測的平均相對誤差百分比TARE為0.0872,相對誤差百分比按題型和科目分布如表2所示。
圖5 多特征融合模型損失值
依據(jù)上述評價指標(biāo)將模型預(yù)測的相對誤差百分比RE小于等于0.2的樣本判定為預(yù)測正確,反之則判定為預(yù)測錯誤,則主觀題智能閱卷模型的預(yù)測的正確率分布如圖6所示。根據(jù)表2中的數(shù)據(jù)計算,簡答題和論述題的正確率分別為0.916 9和0.868 2,總體正確率為0.897 9。
表2 模型預(yù)測相對誤差百分比RE的分布
圖6 主觀題智能閱卷模型的預(yù)測的正確率分布
由實驗結(jié)果可知,本文所提出的主觀題智能閱卷算法在對簡答題進行評判效果普遍比論述題的評判效果好,尤其思想品德的簡答題正確率高達0.947 9,遠高于思想品德論述題的正確率0.851 1,造成這種現(xiàn)象的可能原因是簡答題的答案開放程度相對較低,關(guān)鍵詞也相對較為集中;另外,通過對精確誤差值的分析發(fā)現(xiàn),論述題的評分誤差的標(biāo)準(zhǔn)差0.110 5高于簡答題的評分誤差標(biāo)準(zhǔn)差0.099 1,可以看出該算法在對論述題評分時的穩(wěn)定性小于簡答題,因此可以斷定本次研究所提出的算法對簡答題的評分效果比論述題的評分效果更準(zhǔn)確和穩(wěn)定。由上述現(xiàn)象推測,該算法的正確率和穩(wěn)定性可能在一定程度上受題目開放程度的影響,隨著題目開放程度的提升,該算法的評分準(zhǔn)確性和穩(wěn)定性會出現(xiàn)些許的下降。即便如此,該算法預(yù)測的平均相對誤差百分比TARE僅為0.087 2,遠遠小于上文所述的閾值0.2,因此,本文所提出的主觀題智能閱卷算法可以被大多數(shù)教師所接受,也將會有很大的應(yīng)用空間。
本次研究為某在線學(xué)習(xí)平臺系統(tǒng)拓展了主觀題智能閱卷新的功能模塊,并通過對歷年考試的數(shù)據(jù)進行實驗發(fā)現(xiàn)本次研究所提出的算法取得了非常好的效果,并驗證了基于多特征融合的智能閱卷算法具有很好的應(yīng)用前景。
本次研究所提出的智能閱卷算法還有待進一步研究,以提高其準(zhǔn)確性和泛化性。首先,大規(guī)模應(yīng)用時該算法能否與人工閱卷媲美;其次,該算法是否能應(yīng)用于更高年級的考試場景,都有待進一步地研究和試驗。