蔡 黎,彭星源,趙 軍
(中國(guó)科學(xué)院 自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
考試作為考查學(xué)生學(xué)習(xí)和掌握知識(shí)的程度及評(píng)估學(xué)校教學(xué)水平的手段由來已久,并且還會(huì)在今后相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)存在下去[1]。
通過作文可以檢測(cè)應(yīng)試者綜合運(yùn)用語言的能力。然而,大規(guī)模作文閱卷面臨兩大難題: 其一,閱卷需要耗費(fèi)大量人力、物力等資源;其二,評(píng)判作文質(zhì)量具有很強(qiáng)的主觀性,閱卷的信度和效度不強(qiáng)[2]。
輔助作文評(píng)分是計(jì)算機(jī)技術(shù)在語言測(cè)試方面的最新應(yīng)用,也是語言技術(shù)發(fā)展的必然趨勢(shì)。近幾十年來,隨著計(jì)算機(jī)硬件和軟件性能快速提高,自然語言處理等技術(shù)獲得了長(zhǎng)足的發(fā)展,國(guó)外一批作文輔助評(píng)分系統(tǒng)相繼問世,這兩個(gè)長(zhǎng)期困擾大規(guī)模作文閱卷的難題有望得到解決。
輔助作文評(píng)分中核心的問題是:
(1) 機(jī)器可用的、高信度的評(píng)分特征的選取[2];
(2) 如何最大限度利用訓(xùn)練語料特征,建立有效的模型。
本文針對(duì)這兩個(gè)問題,提出了自己的創(chuàng)新:
(1) 一篇作文從文本挖掘,提供的主要信息是詞和詞序。李亞男[3]提取了一些淺層特征,利用多元回歸進(jìn)行預(yù)測(cè)。但是淺表特征的相關(guān)度不高,而且非常不穩(wěn)定。本文利用自然語言處理和信息檢索技術(shù),從作文寫作水平和主題相關(guān)兩個(gè)方面,通過詞和詞序的信息提取了穩(wěn)定、有效的特征。
(2) 在利用特征回歸建模中,本文提出利用訓(xùn)練樣本分?jǐn)?shù)分布和一位評(píng)卷員的評(píng)分,作為特征,提出分段回歸和三重分段回歸。利用有效的信息建模,在節(jié)省一半閱卷量的情況下,達(dá)到精度在97%以上(圖1)。
圖1 中文輔助評(píng)分系統(tǒng)流程圖
本文按如下方式進(jìn)行組織: 第2節(jié)介紹了幾個(gè)著名的輔助評(píng)分系統(tǒng)以及分析了它們的優(yōu)缺點(diǎn),第3節(jié)介紹了利用自然語言處理技術(shù)和信息檢索技術(shù),提取作文文本主題和寫作水平的特征,第4節(jié)介紹和分析了實(shí)驗(yàn)設(shè)計(jì)以及實(shí)驗(yàn)的結(jié)果,第5節(jié)對(duì)本文以及已有工作的問題進(jìn)行了總結(jié),同時(shí)展望了進(jìn)一步的工作的方向。
一個(gè)優(yōu)秀的作文輔助評(píng)分系統(tǒng)最重要就是能從作文文本中,挖掘出反映作文質(zhì)量的、機(jī)器可用的特征。
PEG[4-5]是在1966年EllisPage應(yīng)美國(guó)大學(xué)委員會(huì)的要求而研發(fā)的。和李亞男[3]提取的特征相似PEG主要依靠對(duì)文章的淺層語言學(xué)特征的分析(例如,作文長(zhǎng)度、介詞、關(guān)系代詞等、詞長(zhǎng)的變化等等),然后對(duì)作文進(jìn)行評(píng)分。基本上,沒有涉及寫作水平、句子結(jié)構(gòu)、文章內(nèi)容、文章措辭等高級(jí)特征。最后該系統(tǒng)無法給出對(duì)學(xué)生有意義的指導(dǎo)意見。
IEA[6-7]是20世紀(jì)90年代末由Pearson Knowledge Analysis Technology公司利用潛在語義分析[2](Latent Semantic Analysis)技術(shù)開發(fā)的。潛在語義分析,是1988年S.T. Dumais等人提出的一種新的信息檢索代數(shù)模型,是用于知識(shí)獲取和展示的計(jì)算理論和方法,它使用統(tǒng)計(jì)計(jì)算的方法對(duì)大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語義結(jié)構(gòu),并用這種潛在的語義結(jié)構(gòu),來表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡(jiǎn)化文本向量實(shí)現(xiàn)降維的目的。潛在語義分析的基本觀點(diǎn)是: 把高維的向量空間模型表示中的文檔映射到低維的潛在語義空間中。這個(gè)映射是通過對(duì)項(xiàng)/文檔矩陣的奇異值分解(SVD)來實(shí)現(xiàn)的。
IEA使用潛在語義分析技術(shù)將作文按照它所包含的詞投射成能夠代表作文意義的數(shù)學(xué)形式,然后從概念相關(guān)度和內(nèi)容相關(guān)的含量?jī)蓚€(gè)方面與已知寫作質(zhì)量的作文進(jìn)行比較,從而得出作文的評(píng)分。
E-rater[8-9]是由Educational Testing Service(ETS)的Burstein等人在20世紀(jì)90年代末開發(fā)的。據(jù)我們了解,E-rater也是目前商用效果最好的輔助評(píng)分系統(tǒng),已經(jīng)在GMAT,TOEFL考試中商用。E-rater系統(tǒng)主要有5個(gè)模塊組成,其中3個(gè)模塊用來抽取特征,一共67個(gè)特征,這些特征包括: 句法、篇章、主題等。其中的自然語言處理技術(shù)采用的是微軟自然語言處理的工具包來完成。第4個(gè)模塊,是用來構(gòu)建模型,對(duì)67個(gè)變量進(jìn)行篩選,建立回歸方程。第5個(gè)模塊是用來計(jì)算待評(píng)分文章的最后得分,即提取作文顯著特征的特征值,代入回歸方程計(jì)算最后得分。
IntelliMetricTM[10-11]是第一套基于人工智能(AI)的作文評(píng)分系統(tǒng)。它的開發(fā)商Vantage Learning應(yīng)用了人工智能、自然語言處理和統(tǒng)計(jì)技術(shù),使得IntelliMetricTM能夠模仿人工閱卷,對(duì)作文的內(nèi)容、形式、組織和寫作習(xí)慣進(jìn)行分別進(jìn)行評(píng)分。IntelliMetricTM需要對(duì)已經(jīng)評(píng)好分?jǐn)?shù)的作文集進(jìn)行訓(xùn)練,構(gòu)建模型。對(duì)于要評(píng)閱的作文,IntelliMetricTM提取了作文中包括語義、句法、篇章3個(gè)方面的300多項(xiàng)特征,代入模型評(píng)分。其效果與評(píng)卷員的一致率達(dá)到了97%至99%。
另外,IntelliMetricTM能夠評(píng)閱多種語言的作文,如英語、西班牙語、以色列語和印度尼西亞語等等。
一個(gè)優(yōu)秀的作文輔助評(píng)分系統(tǒng)最重要就是,能從作文文本中,挖掘出反映作文質(zhì)量的,機(jī)器可用的特征。從E-rater的文獻(xiàn)[8-9]中,我們知道E-rater使用了微軟自然語言處理的工具包來提取比較深層次的特征,如句法識(shí)別句子的復(fù)雜度等。同樣,我們利用哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室*http://ir.hit.edu.cn/提供的自然語言處理包,也做了相關(guān)實(shí)驗(yàn),但是實(shí)驗(yàn)的效果都不理想。原因可能主要是訓(xùn)練語料和測(cè)試語料的領(lǐng)域不相關(guān)引起的。
本文利用自然語言處理和信息檢索技術(shù),從作文寫作水平和作文主題兩個(gè)方面,創(chuàng)造性地通過詞和詞序的信息提取了穩(wěn)定、有效的特征。在建模時(shí),利用樣本分?jǐn)?shù)分布的特征和一位評(píng)分員的評(píng)分的信息,創(chuàng)造性的提出三重分段回歸模型。
作文寫作水平特征,反映的是考生使用語言的能力。
衡量一個(gè)作文的寫作水平有多個(gè)方面,最重要的就是遣詞造句?,F(xiàn)在的中文自然語言處理技術(shù)還不能以很高的精度提取句式特征,不能精確判斷句中詞語搭配的好壞等,我們就主要從詞方面入手,本文提取的作文寫作水平特征是基于以下的常理: 越常見的詞,越是易用詞;越不常見的詞,越是難用詞。下面是作文寫作水平特征提取的算法。
算法:作文寫作水平特征提取
輸入: 分詞后的大語料L,分詞后的作文E,詞頻閾值limit。
輸出: 作文E的寫作水平特征值S。
方法:
1. 對(duì)大語料L進(jìn)行詞頻統(tǒng)計(jì),詞Wi的詞頻記為fwi。
2. 對(duì)于每個(gè)Wi∈L,如果fwi 3. 對(duì)于每個(gè)Wi∈L,計(jì)算Wi的使用難度系數(shù)λwi=1/logfwi。 4. 作文E的寫作水平特征為該篇文章所有詞的使用難度系數(shù)之和: 為文章的詞數(shù) 5.返回S。 作文主題特征,反映的是考生作文內(nèi)容的扣題程度。主題在作文評(píng)分中的重要性不言而喻。因?yàn)槲覀儨y(cè)試的對(duì)象是漢語作為第二語言學(xué)習(xí)者,所以作為文不對(duì)題, 背范文的現(xiàn)象還是很嚴(yán)重的。我們請(qǐng)兩位經(jīng)驗(yàn)豐富的評(píng)卷員對(duì)隨機(jī)抽取的500篇作文,進(jìn)行跑題作文和非跑題作文的分類。分類結(jié)果如表1所示。 表1 評(píng)卷員對(duì)作文跑題的分類結(jié)果 從表1中可以看出跑題作文的比例還是較大的。用現(xiàn)在的自然語言處理技術(shù),提取整篇文章的語義基本上很難做到的。在這個(gè)情況下,主題特征就成為了衡量文章內(nèi)容很重要的特征。 作文主題特征提取,Burstein[4]利用作文內(nèi)容向量和預(yù)測(cè)作文的內(nèi)容向量的相似度作為判別作文是否跑題的標(biāo)準(zhǔn)。 這樣做的問題是: (1) 現(xiàn)代考試的作文題目是多樣的,不是所有作文題目都是文字的,比如看圖說話就沒法用以上的算法; (2) 沒有利用詞序的信息。 為了解決以上兩個(gè)問題,我們利用信息檢索里面兩個(gè)成熟的技術(shù): (1) TF: TF(Term Frequency)是一種用于信息搜索和信息挖掘的常用加權(quán)技術(shù)。TF的主要思想是,如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF詞頻指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。 (2) PageRank: PageRank的發(fā)明者通過對(duì)網(wǎng)絡(luò)超鏈接結(jié)構(gòu)和文獻(xiàn)引文機(jī)制的相似性進(jìn)行研究,把引文分析的思想借鑒到網(wǎng)絡(luò)文檔重要性的計(jì)算中來,利用網(wǎng)絡(luò)自身的超鏈接結(jié)構(gòu)給所有的網(wǎng)頁確定一個(gè)重要性的等級(jí)數(shù),當(dāng)從網(wǎng)頁A鏈接到網(wǎng)頁B時(shí),就認(rèn)為“網(wǎng)頁A投了網(wǎng)頁B一票”,增加了網(wǎng)頁B的重要性,最后根據(jù)網(wǎng)頁的得票數(shù)評(píng)定其重要性,以此來幫助實(shí)現(xiàn)排序算法的優(yōu)化,而這個(gè)重要性的量化指標(biāo)即PageRank值。在實(shí)際計(jì)算PageRank值時(shí),除了考慮網(wǎng)頁得票數(shù)(即鏈接的純數(shù)量)之外,還要分析為其投票的網(wǎng)頁的重要性,重要的網(wǎng)頁所投之票有助于增強(qiáng)其他網(wǎng)頁的重要性。簡(jiǎn)單的說,PageRank就是要從鏈接結(jié)構(gòu)中獲取網(wǎng)頁的重要性,而網(wǎng)頁的重要性決定著同時(shí)也依賴于其他網(wǎng)頁的重要性。 PageRank的基本思想主要基于“從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁,有很大可能還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系,來判定所有網(wǎng)頁的重要性。 我們把這兩項(xiàng)技術(shù)背后的思想應(yīng)用到作文輔助評(píng)分中: (1) 一個(gè)詞的TF值越大,表明該詞越是主題相關(guān)的詞; (2) 詞序的信息,即詞語搭配是很難利用的,因?yàn)樵~序的變化太多了。我們轉(zhuǎn)化PageRank的思想,來利用起詞序的信息。我們可以把PageRank的思想轉(zhuǎn)換為,越重要的詞出現(xiàn)在越重要的詞語搭配中,越重要詞語搭配中的詞越重要。 圖2 詞與詞聯(lián)系的網(wǎng)絡(luò)示意圖 第一點(diǎn)很好理解。我們重點(diǎn)講第二點(diǎn),如有兩個(gè)詞,我們就把這兩個(gè)詞比作網(wǎng)頁A和網(wǎng)頁B。如果兩個(gè)在一起共現(xiàn),我們就比作網(wǎng)頁A和網(wǎng)頁B有鏈接。如圖2所示,詞的權(quán)重為詞的TF值,詞與詞的鏈接權(quán)重為詞與詞的共現(xiàn)次數(shù)。這樣我們就可以利用PageRank算法。 算法:作文主題特征提取 輸入: 分詞和詞性標(biāo)注后的N篇作文樣本語料,分詞后的預(yù)測(cè)作文E,PageRank算法的迭代次數(shù)D,共現(xiàn)窗口大小M。 輸出: 作文E的主題特征值S。 方法: 1. 計(jì)算語料中,詞Wi主題權(quán)值fwi: 上式中tfi是第i個(gè)詞的詞頻。 2. 去掉輔助功能的詞,只保留名詞、動(dòng)詞、形容詞。 3. 以M為窗口,統(tǒng)計(jì)語料中,兩個(gè)詞的共現(xiàn)次數(shù)lij。 4. 過濾,共現(xiàn)次數(shù)小于5的詞對(duì),統(tǒng)計(jì)余下共現(xiàn)次數(shù)的總和Sum。 5. 計(jì)算共現(xiàn)的權(quán)重lij=lij/Sum。 5. 利用PageRank算法,迭代D次。 fwi=fwi+lij×fwj 7. 返回S。 下面作文主題特征提取的算法。 由于現(xiàn)在自然語言處理技術(shù),并不能從作文文本中挖掘出體現(xiàn)作文質(zhì)量的所有特征, 挖掘出的特征相關(guān)度也不是很高。所以我們希望從其他方面挖掘一些能夠提高預(yù)測(cè)精度的特征。 我們從18 000篇作文中,隨機(jī)挑選出994篇。我們可以從表2中看出作文分?jǐn)?shù)的分布,大約有80%的作文集中在2.5~4.5分?jǐn)?shù)段。我們利用分?jǐn)?shù)分布的這個(gè)特征,來提高我們的預(yù)測(cè)精度。我們提出利用分段回歸的思想進(jìn)行建模,下面是分段回歸的算法。 表2 作文分?jǐn)?shù)分布 算法:分段回歸 輸入: 訓(xùn)練作文的特征和分?jǐn)?shù),預(yù)測(cè)作文的特征,分段閾值T。 輸出: 預(yù)測(cè)作文的分?jǐn)?shù)。 方法: 1. 對(duì)所有的訓(xùn)練作文進(jìn)行回歸,得到回歸系數(shù)fall。 2. 對(duì)大于分段閾值T的所有訓(xùn)練作文進(jìn)行回歸,得到回歸系數(shù)fhigh。 3. 對(duì)小于分段閾值T的所有訓(xùn)練作文進(jìn)行回歸,得到回歸系數(shù)flow。 4. 把要預(yù)測(cè)的作文特征值輸入到回歸系數(shù)fall,得到預(yù)測(cè)的分?jǐn)?shù)。 5. 如果預(yù)測(cè)分?jǐn)?shù)大于T,把要預(yù)測(cè)的作文特征值輸入到回歸系數(shù)fhigh;如果預(yù)測(cè)分?jǐn)?shù)小于T,把要預(yù)測(cè)的作文特征值輸入到回歸系數(shù)flow,這樣得到的分?jǐn)?shù)為最后預(yù)測(cè)的分?jǐn)?shù)S。 6. 返回S。 后面的實(shí)驗(yàn)表明,輔助評(píng)分系統(tǒng)的評(píng)分精度,還不能達(dá)到實(shí)用的要求。那我們能否利用輔助評(píng)分系統(tǒng)來減輕閱卷的工作量呢? 我們的思路是借用E-rater的做法,試卷的最終得分由輔助評(píng)分系統(tǒng)的評(píng)分和一名評(píng)卷員決定。同先前有兩名評(píng)卷員的做法一樣,如果輔助評(píng)分系統(tǒng)跟評(píng)卷員的評(píng)分相差大于1分,就請(qǐng)第二名評(píng)卷員評(píng)分?,F(xiàn)在,問題就變成了如何使得輔助評(píng)分系統(tǒng)的評(píng)分和評(píng)閱員的評(píng)分相差大于1分的比例最?。?/p> 我們的思路是更好的利用訓(xùn)練語料,訓(xùn)練語料中的每篇作文,其實(shí)有三個(gè)分?jǐn)?shù),兩個(gè)評(píng)分員的評(píng)分,和最終的分?jǐn)?shù)。我們就是充分的利用這三個(gè)分?jǐn)?shù),訓(xùn)練三個(gè)分段回歸模型,我們稱之為三重分段回歸模型。這樣的話,一個(gè)測(cè)試作文提取特征,代入到這個(gè)三重分段回歸模型中,就會(huì)得到三個(gè)分?jǐn)?shù)。如果這三個(gè)預(yù)測(cè)分?jǐn)?shù)中,有一個(gè)分?jǐn)?shù)和評(píng)閱員的評(píng)分小于1分,就取兩個(gè)分?jǐn)?shù)的中間值作為最終得分,不用再請(qǐng)?jiān)u閱員評(píng)分了。否則,就請(qǐng)另外評(píng)閱員評(píng)閱。 實(shí)驗(yàn)中,我們使用的語料來自2008年5月在內(nèi)蒙古舉行的少數(shù)民族漢語考試。我們從18 000篇真實(shí)考生作文中, 隨機(jī)挑選了968篇錄入。作文總分為6分??荚囎魑牡念}目是讀一段短文, 然后寫 感想。這種半開放的考試題目在漢語考試中很常見。我們用772篇用作訓(xùn)練,196篇用作測(cè)試。訓(xùn)練試卷的分?jǐn)?shù),我們用的是作文的最終評(píng)分,即有兩個(gè)評(píng)卷員評(píng)分,如果兩個(gè)評(píng)卷員的評(píng)分相差大于1分,就請(qǐng)一個(gè)資深評(píng)卷員評(píng)分,最終分?jǐn)?shù)是以資深評(píng)卷員評(píng)分為主,綜合前面兩個(gè)評(píng)卷員的評(píng)分。如果兩個(gè)評(píng)卷員的評(píng)分相差小于或等于1分,就取兩個(gè)評(píng)閱員評(píng)分的中間值作為最終分?jǐn)?shù)。 實(shí)驗(yàn)中,評(píng)測(cè)中采用了傳統(tǒng)的精確度。我們定義精確度為,預(yù)測(cè)分?jǐn)?shù)與實(shí)際分?jǐn)?shù)相差在0.5分以內(nèi)的比例。我們對(duì)語料進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),兩個(gè)評(píng)卷員評(píng)分完全相同的只有不到40%,就是說,有大于60%的作文,兩個(gè)人評(píng)分的相差是超過0.5分的。因此,我們把預(yù)測(cè)分?jǐn)?shù)和實(shí)際分?jǐn)?shù)的誤差定義為0.5分,這個(gè)值是完全可以接受的。 此外,我們還考慮了相關(guān)度,在提取特征后,建模手段是回歸分析?;貧w分析是要分析現(xiàn)象之間相關(guān)的具體形式,確定其因果關(guān)系,并用數(shù)學(xué)模型來表現(xiàn)其具體關(guān)系。相關(guān)度代表的是現(xiàn)象之間是否相關(guān)、相關(guān)的方向和密切程度,一般不區(qū)別自變量或因變量。相關(guān)度的計(jì)算方法和數(shù)學(xué)的協(xié)方差一樣。 實(shí)驗(yàn)中,我們首先做了特征有效性實(shí)驗(yàn),然后是建模實(shí)驗(yàn)。實(shí)驗(yàn)中,對(duì)作文文本進(jìn)行分詞和詞性標(biāo)注,我們使用的是哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室*http://ir.hit.edu.cn/提供的自然語言處理包。 4.3.1 作文寫作水平特征實(shí)驗(yàn) 在進(jìn)行作文寫作水平特征抽取實(shí)驗(yàn)時(shí),我們采用《人民日?qǐng)?bào)》(1998年1~6月)的語料作為大語料庫(kù)。測(cè)試語料是772篇作文語料,772篇這個(gè)數(shù)量,足夠能保證,我們特征相關(guān)度的穩(wěn)定性和有效性。為了防止稀疏性的詞頻閾值,我們通過實(shí)驗(yàn)來選取,表3反映了特征相關(guān)度隨著詞頻閾值變化的情況。 表3 作文寫作水平特征測(cè)試結(jié)果 從表3可以看出,閾值對(duì)作文寫作水平特征相關(guān)度的影響不是特別明顯, 作文寫作水平特征相關(guān)度在不同閾值下還是比較穩(wěn)定的。從圖中可以看出,作文寫作水平特征在閾值50~70時(shí),達(dá)到相對(duì)比較高的階段。本文就取閾值處于50時(shí)的作文寫作水平特征值,用作后面建模。 4.3.2 作文主題特征實(shí)驗(yàn) 在進(jìn)行作文主題特征的抽取實(shí)驗(yàn)時(shí),我們用上一節(jié)的500篇語料,利用作文主題特征提取算法來獲得主題特征。實(shí)驗(yàn)中,我們的共現(xiàn)窗口的取值為5。我們通過實(shí)驗(yàn)來選取利用詞序關(guān)系的PageRank算法的迭代次數(shù),表4反映了特征相關(guān)度隨著迭代次數(shù)變化的情況。 表4 PageRank迭代次數(shù)對(duì)作文主題特征測(cè)試結(jié)果 從表4中可以看出,作文主題特征的相關(guān)度隨著迭代次數(shù)的增加而減小?;谝陨戏治?,本文就取迭代次數(shù)為1的作文主題的特征值,用作后面建模。 4.3.3 建模 為了驗(yàn)證分段回歸算法的有效性,在建模實(shí)驗(yàn)中,我們同時(shí)實(shí)驗(yàn)了線性不分段回歸和線性分段回歸算法。分段回歸的閾值,我們?nèi)?.5,因?yàn)?.5正好可以把樣本語料分為差不多對(duì)等的兩份。用772篇訓(xùn)練語料所抽取的特征和最終的評(píng)分,訓(xùn)練回歸參數(shù),196篇作測(cè)試。 表5 回歸和分段回歸的測(cè)試結(jié)果 從表5中可以看出線性分段回歸比線性不分段回歸在相關(guān)度和精確度上都有了明顯的提高,相關(guān)度提高約0.05,精度提高約3%。但是,即使這樣,輔助評(píng)分系統(tǒng)達(dá)到的最好精度為46.11%。這樣的精度,顯然僅靠輔助評(píng)分系統(tǒng)不能達(dá)到實(shí)用的要求。 接下來的我們通過一個(gè)實(shí)驗(yàn),驗(yàn)證三重分段回歸模型的有效性。在196篇測(cè)試語料上,分別用分段回歸和三重分段回歸。實(shí)驗(yàn)結(jié)果見表6。 表6 分段回歸和三重分段回歸的測(cè)試結(jié)果 從表6中可以看出通過三重分段回歸模型,可以使輔助評(píng)分系統(tǒng)與評(píng)閱員的評(píng)分小于1分的比例,提升7%,達(dá)到84%以上。這樣,只有16%的試卷,需要評(píng)分員重新進(jìn)行評(píng)分。 表7 三重分段回歸的測(cè)試結(jié)果 最后,為了驗(yàn)證我們系統(tǒng)的精度,我們就把輔助評(píng)分系統(tǒng)的評(píng)分當(dāng)作一個(gè)評(píng)閱員的評(píng)分,結(jié)合一個(gè)真實(shí)評(píng)分員的評(píng)分進(jìn)行預(yù)測(cè)。如果輔助評(píng)分系統(tǒng)的評(píng)分和一名評(píng)卷員相差小于1分,就取和評(píng)卷員評(píng)分最接近分?jǐn)?shù)取平均分作為最后得分。如果相差大于1分,就請(qǐng)第二名評(píng)卷員評(píng)分,我們實(shí)驗(yàn)中取測(cè)試試卷的真實(shí)最終得分。我們通過實(shí)驗(yàn)得到最后預(yù)測(cè)分?jǐn)?shù)的精確度和相關(guān)度。 從表7中可以看出分?jǐn)?shù)的精確度已經(jīng)達(dá)到97%以上,這個(gè)精度完全可以使用。我們計(jì)算一下,在達(dá)到完全可以實(shí)用的精度下,我們的作文輔助評(píng)分系統(tǒng)所能夠節(jié)省的勞動(dòng)力? 我們就假設(shè)100份試卷,如果不用我們的系統(tǒng),兩個(gè)評(píng)閱員首先評(píng)閱的閱卷量為100×2=200(人×卷)。根據(jù)我們的統(tǒng)計(jì),大約有13.5%試卷需要資深評(píng)分員評(píng)閱,資深評(píng)分員評(píng)卷的薪酬是普通評(píng)分員的3倍,那么100份試卷需要付出的閱卷量為200+13.5×3=240(人×卷)。如果利用我們的系統(tǒng),一個(gè)評(píng)分員首先評(píng)分的閱卷量為100×1=100(人×卷)。根據(jù)表6的數(shù)據(jù),大約有16%的試卷,需要評(píng)分員重新進(jìn)行評(píng)分,這16%中又有 13.5% 要資深評(píng)分員評(píng)分,那么100份試卷需要付出的閱卷量為100+16+0.135×16×3=122.3(人×卷)。從上面的分析中我們可以看出,利用我們的輔助評(píng)分系統(tǒng),在只用大約一半閱卷工作量的情況下,精確度達(dá)到97%以上。這足以說明輔助評(píng)分系統(tǒng)的價(jià)值。 作文輔助作文評(píng)分是一個(gè)復(fù)雜的過程,需要總結(jié)前人的經(jīng)驗(yàn)并不斷汲取新的理念、利用最新的技術(shù)。這樣才能不斷地提高機(jī)器的精度。 本文利用統(tǒng)計(jì)自然語言處理和信息檢索的技術(shù)和思想提取特征,建模時(shí)利用樣本作文分?jǐn)?shù)的分布,提出三重分段回歸模型。在節(jié)省大約一半閱卷量的情況下,達(dá)到97%以上的精確度。 相對(duì)英文作文輔助評(píng)分系統(tǒng),中文作文輔助評(píng)分系統(tǒng)還處于起步階段,未來還有很多的工作需要完善。我們就提出以下幾個(gè)方向: (1) 利用更高級(jí)的自然語言處理和信息檢索技術(shù),從作文文本中挖掘出更多跟作文質(zhì)量好壞相關(guān)的特征; (2) 防作弊技術(shù),中文作文輔助評(píng)分如果要想在商業(yè)應(yīng)用上取得成功,很完善的防作弊技術(shù)是必不可少的; (3) 在更大規(guī)模的語料上進(jìn)行測(cè)試,現(xiàn)在我們的測(cè)試語料只是100篇級(jí)的,要真正達(dá)到商用,必須在更大規(guī)模的語料上測(cè)試。 [1] 李莉,張?zhí)t. LSA在中文短文自動(dòng)判分系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,43(20):177-180,2007. [2] 梁茂成,文秋芳. 國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語電話教學(xué),No.117,2007. [3] 李亞男. 漢語作為第二語言測(cè)試的作文自動(dòng)評(píng)分研究[M].,北京語言大學(xué),碩士論文,2006. [4] Page E. B. Project Essay Grade: PEG. In M. D. Shermis & J. Burstein (Eds.) [J]. Automated essay scoring: A cross-disciplinary perspective (pp. 43-54). Mahwah, NJ: Lawrence Erlbaum Associates,2003. [5] Page E. B. Computer Grading of Student Prose, Using Modern Concepts and Software[J]. Journal of Experimental Education, 2004, 62, 127-14. [6] Landauer, T. K., Laham, D., Foltz, P. W.. The intelligent essay assessor: Putting knowledge to the test. [C]//Paper presented at the Association of Test Publishers Computer-Based Testing: Emerging Technologies and Opportunities for Diverse Applications conference, Tucson, AZ.2001. [7] Landauer, T. K., Laham, D., Foltz, P. W.. Automated scoring and annotation of essays with the Intelligent Essay Assessor[J]. In M. D. Shermis & J. Burstein (Eds.), Automated essay scoring: A cross-disciplinary perspective (pp. 87-112). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.2003. [8] Burstein, J. The e-rater scoring engine: Automated Essay Scoring with natural language processing[J]. In M. D. Shermis and J. C. Burstein (Eds.), Automated Essay Scoring: A cross disciplinary approach (pp. 113-121). Mahwah, NJ: Lawrence Erlbaum Associates, 2003. [9] J. Burstein, K. Kukich, S. Wolff, C. Lu, et al. Braden-Harder, and M. D. Harris. Automated scoring using a hybrid feature identification technique[C]//In Proceedings of the 17th international conference on Computational linguistics, pages 206-210, Morristown,NJ, USA, 1998. Association for Computational Linguistics. [10] Elliot. IntelliMetric: from here to validity[J]. In Mark D. Shermis and Jill C. Burstein (Eds.). Automated essay scoring: a cross disciplinary approach. Mahwah, NJ: Lawrence Erlbaum Associates,2003. [11] Elliot, S. M. IntelliMetric: From here to validity[C]//Paper presented at the annual meeting of the American Educational Research Association, Seattle, WA,2001.3.2 作文主題特征
3.3 分段回歸
3.4 三重分段回歸
4 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集簡(jiǎn)介
4.2 評(píng)測(cè)指標(biāo)
4.3 實(shí)驗(yàn)及分析
5 結(jié)語