吳曉萍
(閩江學(xué)院,福建 福州 350108)
網(wǎng)絡(luò)作文自動(dòng)評分系統(tǒng)的評述和發(fā)展
吳曉萍
(閩江學(xué)院,福建 福州 350108)
基于計(jì)算機(jī)網(wǎng)絡(luò)的作文自動(dòng)評分系統(tǒng)能夠在一定程度上解決教師作文評閱負(fù)擔(dān)重和人工評分存在主觀影響的問題。本文對國內(nèi)外出現(xiàn)的作文自動(dòng)評分系統(tǒng)及相關(guān)研究現(xiàn)狀做了評述,認(rèn)為依靠計(jì)算機(jī)系統(tǒng)評閱作文的信度和效度還有待進(jìn)一步證實(shí)。
作文自動(dòng)評分系統(tǒng) 英語寫作 作文自動(dòng)評閱 人工評分
寫作是語言學(xué)習(xí)的四大技能之一。在語言測試中,作文常常作為檢測學(xué)習(xí)者綜合應(yīng)用能力的手段。英語寫作和評閱是我國高校英語寫作教學(xué)中的重要環(huán)節(jié),然而,大量英語教師反映作文評閱是最費(fèi)時(shí)費(fèi)力的工作。另外,由于作文評閱帶有極大的主觀性,即在作文評閱過程中分?jǐn)?shù)的給定依靠評閱人的主觀判斷。而大規(guī)模評閱過程中評閱人個(gè)人因素可能會(huì)影響對作文質(zhì)量的客觀評價(jià),從而影響作文得分。近幾十年來,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,自然語言處理技術(shù)得到了很好的發(fā)展,國內(nèi)外相繼開發(fā)出了一些作文自動(dòng)評分系統(tǒng),使長期困擾英語教師的作文評閱難題有望得到解決。
作文自動(dòng)評價(jià)系統(tǒng) (AEAS,Automated Essay Assessment System)是一個(gè)通過計(jì)算機(jī)和網(wǎng)絡(luò)實(shí)現(xiàn)對書面作文進(jìn)行評估打分并提出改善建議的應(yīng)用軟件,主要應(yīng)用于大規(guī)模作文測試評分。該系統(tǒng)的應(yīng)用大大改善了教師批改作文耗時(shí)耗力的狀況,具有快捷、省力等優(yōu)勢。而且,計(jì)算機(jī)評分不存在人為因素的干擾,評閱結(jié)果更具客觀性。近年來,國外許多考試研發(fā)機(jī)構(gòu)均已將計(jì)算機(jī)自動(dòng)評閱系統(tǒng)應(yīng)用于作文評分過程。一些大規(guī)模國際化英語考試,如托福、GMAT等也已開始廣泛應(yīng)用計(jì)算機(jī)自動(dòng)作文評閱系統(tǒng)。目前,國內(nèi)出現(xiàn)了一些依托網(wǎng)絡(luò)的英語作文自動(dòng)評閱系統(tǒng),比較知名的有“冰果智能作文評閱系統(tǒng)”和“句酷批改網(wǎng)”等。這些系統(tǒng)不僅可以為學(xué)生的作文評分,還能利用計(jì)算機(jī)智能識別技術(shù),快速找出作文中的錯(cuò)誤,并通過網(wǎng)絡(luò)實(shí)時(shí)反饋給學(xué)生。
3.1 國外研究現(xiàn)狀
自動(dòng)作文評價(jià)系統(tǒng)在上個(gè)世紀(jì)60年代就已經(jīng)在國外開始研發(fā)。目前國外已經(jīng)成功研發(fā)出了如PEG,IEA,E-rater,IntelliMetric,Jess等多種作文自動(dòng)評分系統(tǒng)。梁茂成和文秋芳對國外最具代表性的三種作文自動(dòng)評分系統(tǒng):PEG(Pmjeet Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater進(jìn)行了述評。PEG是資格最老的作文自動(dòng)評分軟件,PEG基于淺層的語法特征,主要對作文形式進(jìn)行分析,其不足在于只衡量作文的語言質(zhì)量,并未涉及作文內(nèi)容和篇章結(jié)構(gòu)。而IEA注重對作文內(nèi)容的分析,能合理客觀地分析作文內(nèi)容的質(zhì)量,不足的是其未顧及作文的語言質(zhì)量,對文章的篇章結(jié)構(gòu)也不做分析。在用GMAT作文所做的一次試驗(yàn)中,IEA與人工閱卷的基本一致性在85%到91%之間[1]。然而,對作文進(jìn)行評分一般要從語言、內(nèi)容和篇章結(jié)構(gòu)三個(gè)主要方面對作文的整體質(zhì)量加以衡量。以上兩種系統(tǒng)的評分效度受到較多質(zhì)疑。E-rater是ETS(Educational Testing Service)開發(fā)的一套作文自動(dòng)評分系統(tǒng),從1999年開始已被應(yīng)用于GMAT的作文評分環(huán)節(jié)。E-rater采用的是整體評分方式,而非傳統(tǒng)的分析性評分方式。由于綜合使用了統(tǒng)計(jì)方法和自然語言處理技術(shù),E-rater提取的反映作文質(zhì)量的語言特征更符合人工評分標(biāo)準(zhǔn)。據(jù)稱,E-rater應(yīng)用于GMAT的寫作評分時(shí),與人工評分的一致性高于97%[2]。相對于PEG和IEA,E-later既注重形式又注重內(nèi)容,考慮到了更多的作文評分要素,因而更符合寫作測試的要求。梁茂成、文秋芳認(rèn)為雖然這些評分系統(tǒng)在訓(xùn)練及作文人工評分方法和機(jī)器評分效度等方面存在一些問題,但不可否認(rèn)的是這些作文自動(dòng)評分系統(tǒng)為我國自主開發(fā)作文自動(dòng)評分系統(tǒng)提供了借鑒[3]。
3.2 國內(nèi)研究現(xiàn)狀
我國對基于計(jì)算機(jī)的自動(dòng)作文評價(jià)系統(tǒng)的研究起步較晚。最早涉足自動(dòng)作文評分領(lǐng)域的是梁茂成。他開發(fā)的“大規(guī)模考試英語作文自動(dòng)評分系統(tǒng)”已于2005年申請了國家專利,并得到了很多知名學(xué)者的肯定。他的研究采用220篇已評分的作文樣本,以其中120篇樣本作文為基礎(chǔ)得到評分模型后,再通過另外100篇作文樣本對該模型的可信度進(jìn)行了交叉驗(yàn)證[4]。梁茂成的建模方法兼顧了PEG和lEA的長處,取得了較高的評分準(zhǔn)確率,與人工評分相關(guān)系數(shù)高。但由于作文樣本來源數(shù)量少,范圍窄,且提取的特征主要是文本淺層特征,未涉及文章的句法結(jié)構(gòu)及搭配和詞塊的使用,因而有待于進(jìn)一步驗(yàn)證與加強(qiáng)。
國內(nèi)一些企業(yè)開發(fā)了適用于高校的英語作文自動(dòng)評分系統(tǒng)。2009年,浙江大學(xué)外語學(xué)院與杭州一家網(wǎng)絡(luò)科技公司聯(lián)合開發(fā)了一款名為“冰果英語智能作文評閱系統(tǒng)”的計(jì)算機(jī)自動(dòng)評閱系統(tǒng)。據(jù)稱該智能評閱系統(tǒng)的準(zhǔn)確率可達(dá)到95%。但部分使用該系統(tǒng)的老師表示電腦打分與人工打分有出入,而學(xué)生則反映電腦無法指出作文錯(cuò)誤所在。由于該系統(tǒng)側(cè)重作文整體評分,只給出總體得分和評語,而沒有指出單詞拼寫、語法和篇章結(jié)構(gòu)等方面的錯(cuò)誤,因此該系統(tǒng)還需進(jìn)一步改進(jìn)。
目前各高校正在推廣的另一款作文自動(dòng)評閱系統(tǒng)叫句酷批改網(wǎng)(www.pigai.org),是一項(xiàng)基于語料庫和云計(jì)算的在線英語作文自動(dòng)評改系統(tǒng)。該系統(tǒng)的原理是比較學(xué)生作文和標(biāo)準(zhǔn)語料庫之間的差距,并通過固定的算法得出分?jǐn)?shù)和評語。對于每篇作文,該系統(tǒng)除了生成總分外,還可得出詞匯、句子、篇章和內(nèi)容四個(gè)方面的分?jǐn)?shù)。同時(shí),對文章生成總體的評語,還能通過比對語料庫生成信息,對拼寫錯(cuò)誤、語法錯(cuò)誤、中式英語、高分句型和易混詞匯等做出點(diǎn)評和提出修改建議。學(xué)生可以根據(jù)這些反饋信息對自己的作文進(jìn)行多次修改,在不斷修改的過程中提高作文水平。因此,該系統(tǒng)在減輕教師批改英語作文工作量的同時(shí)還能提高學(xué)生的英語寫作能力。此外,教師還可以在自動(dòng)評閱的基礎(chǔ)上對機(jī)器生成的分?jǐn)?shù)和評語進(jìn)行人工修改和補(bǔ)充,做到機(jī)器智能和人工智能互補(bǔ)。
目前,對以句酷網(wǎng)為代表的在線寫作自動(dòng)評分系統(tǒng)的使用,國內(nèi)一些語言研究者如石曉玲、顧成華等做了相關(guān)實(shí)證研究,通過實(shí)驗(yàn)和問卷調(diào)查發(fā)現(xiàn)該系統(tǒng)在使用過程中的一些問題。例如,石曉玲認(rèn)為,在線寫作自動(dòng)評改系統(tǒng)的實(shí)時(shí)反饋能力有效激發(fā)了學(xué)生的寫作興趣,增加了作文的修改頻次,達(dá)到了以評促學(xué)的目的。但由于系統(tǒng)自身的技術(shù)特點(diǎn),僅在詞匯和語法層面給予學(xué)生幫助,在篇章結(jié)構(gòu)、內(nèi)容邏輯性和連貫性層面的優(yōu)勢并不明顯[5]。顧成華認(rèn)為,為了降低網(wǎng)上批改不恰當(dāng)?shù)狞c(diǎn)評對學(xué)生帶來的不良影響,教師必須添加人工批閱意見,需要花費(fèi)很多時(shí)間在電腦上錄入,反而增加了教師的工作量[6]。
基于計(jì)算機(jī)網(wǎng)絡(luò)的作文自動(dòng)評閱系統(tǒng)雖然對減輕教師評估作文負(fù)擔(dān)和避免人工評分的主觀性有很大幫助,然而,短時(shí)內(nèi)在線自動(dòng)評閱仍無法完全替代人工評閱。目前,自動(dòng)評分系統(tǒng)只能針對學(xué)生的語法、詞匯難度及句法進(jìn)行基本評價(jià)考核,而對學(xué)生作文的語義、內(nèi)容與主題的關(guān)聯(lián)度,以及作文是否符合任務(wù)要求等卻無法判斷。因此,作文自動(dòng)評閱系統(tǒng)的評分只是對作文語言質(zhì)量的一個(gè)大概評估,無法全面評估學(xué)生的英文寫作水平。
梁茂成等認(rèn)為,作文自動(dòng)評分系統(tǒng)在對評分模型進(jìn)行訓(xùn)練時(shí),應(yīng)該最大限度地模擬人工評分過程,使用分析型評分方法以提高作文評分信度。分析型評分雖然耗時(shí)費(fèi)力,但若組織為數(shù)不多的幾名資深評分員采用分析型評分方法對訓(xùn)練集作文進(jìn)行精細(xì)評分,考慮作文的語言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量等評分要素,以相對較小的投入對計(jì)算機(jī)評分模型加以訓(xùn)練,換取大規(guī)模考試中較高的評分信度,理所當(dāng)然是值得的[3]。
盡管現(xiàn)行開發(fā)的電子評閱系統(tǒng)與人工評分已有較高的相關(guān)系數(shù),但依靠計(jì)算機(jī)系統(tǒng)評閱作文的信度和效度還有待進(jìn)一步證實(shí)。如何將計(jì)算機(jī)客觀評價(jià)學(xué)生作文與教師主觀評價(jià)巧妙結(jié)合起來,在省時(shí)省力的同時(shí)兼顧作文評分的信度和效度,是未來語言教育者需要解決的問題。
[1]Valenti,S.,F(xiàn).Neri&A.Cucchiarelli.An Overview of Current Research on Automated Essay Scoring[J].Journal of Information Technology Education,2003(2):319-330.
[2]Burstein,J.The E-rater scoring engine:Automated essay scoring with natural language processing[C].M.D.Shermis &J.Burstein.Automated Essay Scoring:A Cross-disciplinary Perspective.Mahwah,NJ:Lawrence Edbaum Associates,2003:113-122.
[3]梁茂成,文秋芳.國外作文自動(dòng)評分系統(tǒng)評述及啟示[J].外語電化教學(xué),2007(5):18-24.
[4]梁茂成.中國學(xué)生英語作文自動(dòng)評分模型的構(gòu)建[D].南京:南京大學(xué)博士論文,2005.
[5]石曉玲.在線寫作自動(dòng)評改系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代教育技術(shù),2012(10):67-71.
[6]顧成華.基于句酷批改網(wǎng)的大學(xué)英語寫作教學(xué)實(shí)證研究[J].云南社會(huì)主義學(xué)院學(xué)報(bào),2012(3):213-214.