張帥
(廣州工商學(xué)院計(jì)算機(jī)科學(xué)與工程系,佛山528138)
智能閱卷是指通過計(jì)算機(jī)對(duì)學(xué)生作答的試題答案進(jìn)行自動(dòng)閱卷。智能閱卷能大大減輕老師人工閱卷的工作量,在一定程度上提高了評(píng)卷的公平性。當(dāng)前國內(nèi)的信息化考試系統(tǒng)只能完成客觀題的自動(dòng)評(píng)分,還不能實(shí)現(xiàn)主觀題的自動(dòng)評(píng)閱。主觀題的答案是學(xué)生通過自然語言書寫,不存在標(biāo)準(zhǔn)、唯一的答案,人工評(píng)閱也是閱卷人參考評(píng)分標(biāo)準(zhǔn),根據(jù)自身經(jīng)驗(yàn)完成的。主觀題答案中不同種語言、字符、語言模式差異所導(dǎo)致相似度計(jì)算中的復(fù)雜性和準(zhǔn)確性問題,所以對(duì)于主觀題的自動(dòng)閱卷是一個(gè)很大的技術(shù)難題。
主觀題的自動(dòng)閱卷涉及到自然語言處理技術(shù)。自然語言是指人類特有的語言,例如中文、英文等各種語言,形式包括有文本、語音等。自然語言處理是對(duì)自然語言進(jìn)行理解、分析,將其轉(zhuǎn)換成計(jì)算機(jī)可理解的、結(jié)構(gòu)化的信息的方法和技術(shù)。
雖然國外在智能閱卷這一方面的研究遠(yuǎn)遠(yuǎn)早于國內(nèi),但是由于中文與西文在本質(zhì)上的差別,很多在西文上取得的研究成果無法應(yīng)用于中文。漢語是一個(gè)復(fù)雜開放的體系,存在大量的近義詞、同義詞以及非標(biāo)準(zhǔn)用語,因此中文主觀題自動(dòng)評(píng)分系統(tǒng)的研究的難道遠(yuǎn)遠(yuǎn)大于英文文章評(píng)分系統(tǒng)。國內(nèi)學(xué)者專家也投入了大量的精力,并在基礎(chǔ)理論方面取得了一些突破,但距離自動(dòng)評(píng)分系統(tǒng)的大規(guī)模推廣還有很長的一段距離[1-2]。
主觀題評(píng)分模型最主要的問題是如何計(jì)算標(biāo)準(zhǔn)答案和考生答案的相似度。通過字?jǐn)?shù)相似度、詞數(shù)相似度這些指標(biāo)來評(píng)價(jià)兩個(gè)文本間的相似度。這種基于句子表面特征的相似度計(jì)算方法僅考慮在字符串層面的相似度計(jì)算,因此準(zhǔn)確度相當(dāng)?shù)蚚3]。
國內(nèi)有針對(duì)作文自動(dòng)評(píng)分的研究,通過分析文本連貫性評(píng)價(jià)作文。但是不同于長文本的作文,問答題的文本是短文本,增加語篇連貫性的指標(biāo)并不能有效地提升準(zhǔn)確度[4]。
我們首先對(duì)文本進(jìn)行預(yù)處理,分詞、去除標(biāo)點(diǎn)、去除空白字符、去除停用詞等。然后提取幾個(gè)詞法特征,如錯(cuò)別字?jǐn)?shù)量、字?jǐn)?shù)總和、去除停用詞和重復(fù)詞之后的字?jǐn)?shù)。
為了解決主觀題自動(dòng)閱卷評(píng)分精確度不高的問題,我們?cè)谝陨显~法特征的基礎(chǔ)上加入了孿生神經(jīng)網(wǎng)絡(luò)模型,判斷學(xué)生答案和參考答案的相似度從而對(duì)學(xué)生答案作出評(píng)分。
孿生神經(jīng)網(wǎng)絡(luò)是一種人工神經(jīng)網(wǎng)絡(luò),也就是一種數(shù)學(xué)模型。與其他神經(jīng)網(wǎng)絡(luò)模型相比,它的特別之處在于同時(shí)輸入兩個(gè)子網(wǎng)絡(luò),并且這兩個(gè)子網(wǎng)絡(luò)共享權(quán)重。孿生神經(jīng)網(wǎng)絡(luò)的特點(diǎn)使得它在衡量相似度這方面有很好的效果。
孿生神經(jīng)網(wǎng)絡(luò)應(yīng)用在主觀題閱卷,是將題目的參考答案和學(xué)生答案同時(shí)輸入孿生神經(jīng)網(wǎng)絡(luò)模型里,輸出的是兩者之間的距離。我們用這個(gè)距離來衡量兩者的相似度。要計(jì)算二者的距離,也就是說從A 到B 應(yīng)該和從B 到A 的距離是一樣的,共享權(quán)重可以控制距離的一致性。即使我們調(diào)換A 和B,距離不會(huì)發(fā)生改變。
上述的孿生神經(jīng)網(wǎng)絡(luò)是一個(gè)模型框架,在同時(shí)輸入?yún)⒖即鸢负蛯W(xué)生答案后,兩個(gè)子網(wǎng)絡(luò)還分別需要用LSTM 模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。LSTM,Long Short-Term Memory,長短期記憶神經(jīng)網(wǎng)絡(luò)是一種循環(huán)神經(jīng)網(wǎng)絡(luò),適合于處理和預(yù)測時(shí)間序列中間隔和延遲非常長的事件。我們可以把文本看作一個(gè)時(shí)間序列,例如句子“我吃蘋果”,時(shí)間0 對(duì)應(yīng)“我”,時(shí)間1 對(duì)應(yīng)“吃”,時(shí)間2 對(duì)應(yīng)“蘋”,時(shí)間3 對(duì)應(yīng)“果”。也就是說LSTM 可以解決相隔較遠(yuǎn)的兩句話還存在著聯(lián)系這種情況。
在兩個(gè)子網(wǎng)絡(luò)用LSTM 模型訓(xùn)練后,需要計(jì)算二者的距離,這時(shí)我們用曼哈頓距離(Manhattan Dis?tance)來度量。曼哈頓距離,是歐幾里得幾何度量空間的幾何學(xué)用語,用以標(biāo)明兩個(gè)點(diǎn)上在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距之總和。
如圖1 所示,d1 線、d2 線和d4 線都表示的是曼哈頓距離。而采用曼哈頓距離計(jì)算兩個(gè)LSTM 子網(wǎng)絡(luò)距離的模型,我們簡稱為MaLSTM。
圖2 展示的就是基于MaLSTM 的孿生神經(jīng)網(wǎng)絡(luò)模型的算法過程。我們輸入兩句話“他很帥”和“他很英俊”,分別對(duì)這兩句話訓(xùn)練兩個(gè)子網(wǎng)絡(luò)LSTMa 和LST?Mb,然后通過曼哈頓距離衡量二者的相似度。
最后我們?cè)谠~法特征的基礎(chǔ)上結(jié)合答案的相似度,算出學(xué)生答案的得分。
圖1
圖2
應(yīng)用孿生神經(jīng)網(wǎng)絡(luò)模型,同時(shí)輸入學(xué)生答案和參考答案進(jìn)行相似度計(jì)算,從而估計(jì)學(xué)生答案的得分,改善了單單基于句子表面特征的相似度計(jì)算方法,提高了準(zhǔn)確度。