周志蓮
(桂林電子科技大學(xué) 外國(guó)語(yǔ)學(xué)院,廣西 桂林541004)
美國(guó)的埃利斯·巴滕·佩吉(Ellis Batten Page)在60 年代提出了使用計(jì)算機(jī)批改作文的想法,1997 年后PEG,IEA,E -Rater,Intellimetric,BETSY 等多個(gè)英語(yǔ)作文自動(dòng)評(píng)分(Automated English Scoring,簡(jiǎn)稱AES)系統(tǒng)相繼在美國(guó)的大規(guī)??荚囍械玫綉?yīng)用。我國(guó)已經(jīng)自主研發(fā)了一些AES 系統(tǒng),如梁茂成的計(jì)算機(jī)輔助評(píng)分系統(tǒng)、句酷批改網(wǎng)、冰果、東方批改網(wǎng),但是就信度、效度和應(yīng)用范圍來(lái)說(shuō),遠(yuǎn)遠(yuǎn)不如美國(guó)的AES 系統(tǒng),而且無(wú)一系統(tǒng)能在我國(guó)大規(guī)??荚囍械玫綉?yīng)用,與之相關(guān)的學(xué)術(shù)介紹和研究也是鮮見(jiàn)。目前國(guó)內(nèi)外關(guān)于AES的研究主要體現(xiàn)在三個(gè)方面:英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng)的總體介紹、基于各種自動(dòng)評(píng)分系統(tǒng)的效度和信度研究和自動(dòng)評(píng)分系統(tǒng)的技術(shù)介紹。本文將從AES 產(chǎn)生的教育背景和研究團(tuán)隊(duì)來(lái)介紹國(guó)外作文自動(dòng)評(píng)分的發(fā)展歷程,以期對(duì)我國(guó)AES 系統(tǒng)的研發(fā)與應(yīng)用提供具有參考價(jià)值的研究資料。
作文自動(dòng)評(píng)分是利用計(jì)算機(jī)技術(shù)在短時(shí)間內(nèi)對(duì)大規(guī)模的學(xué)生作文進(jìn)行自動(dòng)批改,提供分?jǐn)?shù)、甚至評(píng)語(yǔ)和改錯(cuò)建議等功能的機(jī)器批改行為。作文自動(dòng)評(píng)分技術(shù)從探索到應(yīng)用已經(jīng)經(jīng)歷了四十個(gè)春秋。它的起源離不開(kāi)測(cè)試和計(jì)算機(jī)輔助教學(xué)(Computer Aided Instruction,以下簡(jiǎn)稱CIA)的發(fā)展。
(1)作文評(píng)估浪潮。教學(xué)理論往往影響測(cè)試題型。傳統(tǒng)的外語(yǔ)教學(xué)方法主要是語(yǔ)法翻譯法,因此傳統(tǒng)的測(cè)試方法十分重視考察學(xué)生的語(yǔ)法、詞匯、閱讀、翻譯和寫(xiě)作,但是當(dāng)時(shí)的命題人因缺乏理論知識(shí),常常忽略測(cè)試的可信性、客觀性和科學(xué)性。對(duì)于現(xiàn)代的寫(xiě)作測(cè)試,Yancey 提出三次作文評(píng)估浪潮,第一次是1950 -1970 年的客觀題測(cè)試,第二次是1970 -1986 年的作文全面評(píng)估(holistical writing assessment),第三次是1986 至今的porftolio 評(píng)估。三個(gè)浪潮是重疊的,第二個(gè)浪潮時(shí)期,寫(xiě)作的客觀題測(cè)試題仍然存在,第三個(gè)浪潮時(shí)期,作文全面評(píng)估和客觀題測(cè)試題依然用于寫(xiě)作評(píng)估的方式。
以選擇題形式進(jìn)行的寫(xiě)作測(cè)試在當(dāng)時(shí)頗受歡迎,成為Yancey 描述的第一次寫(xiě)作評(píng)估浪潮的基石。例如,托福考試在相當(dāng)一段長(zhǎng)時(shí)間內(nèi)只有客觀性試題,直到1986 年7 月開(kāi)始加試作文。1970-1986 年的作文全面評(píng)分(holistical writing assessment)主要指為保證測(cè)試的效度,模仿教室的寫(xiě)作教學(xué)進(jìn)行主觀題測(cè)試。同時(shí)為了提高測(cè)試的信度,設(shè)計(jì)了寫(xiě)作提示、評(píng)分導(dǎo)向以及計(jì)算評(píng)分的措施。第三次寫(xiě)作評(píng)估浪潮是1986 年至今的porftolio 評(píng)估,即指通過(guò)布置不同的多次作文進(jìn)行評(píng)估,例如在教室環(huán)境下完成多次不同體裁的作文、比一次評(píng)估更有效。只要能解決測(cè)試成本、提高評(píng)估效度,這種常規(guī)評(píng)估是最合適的。porftolio評(píng)估目前已成為形成性評(píng)估或者一種學(xué)習(xí)方式。我國(guó)大學(xué)英語(yǔ)教學(xué)中,一般都采用porftolio 評(píng)估,一個(gè)學(xué)期布置四到五次寫(xiě)作作業(yè)來(lái)評(píng)估學(xué)生的平時(shí)學(xué)習(xí)成績(jī)。
(2)AES 思想的形成。美國(guó)率先開(kāi)展對(duì)自動(dòng)評(píng)分系統(tǒng)的研發(fā)主要是源于中學(xué)生的作文量太多,無(wú)法及時(shí)批改,其次,聘人批改作文的成本高??傮w而言,美國(guó)寫(xiě)作測(cè)試逐漸增多,不僅為教師增加了評(píng)分負(fù)擔(dān),而且人工評(píng)分耗時(shí)、耗錢,評(píng)分者還存在固有的主觀性。因此,這個(gè)國(guó)家不得不通過(guò)技術(shù)解決這一難題,開(kāi)發(fā)作文自動(dòng)評(píng)分系統(tǒng)。
如果說(shuō)現(xiàn)代英語(yǔ)作文評(píng)估有四次評(píng)估浪潮,那么第四次就是作文自動(dòng)評(píng)分。AES 的核心技術(shù)是計(jì)算語(yǔ)言學(xué),它的實(shí)現(xiàn)離不開(kāi)計(jì)算機(jī)技術(shù)的發(fā)展。埃利斯·佩吉和迪特爾·保盧斯1968 年出版的《計(jì)算機(jī)的作文分析》是研究作文自動(dòng)評(píng)分的最早文章。但是以當(dāng)時(shí)的技術(shù),計(jì)算機(jī)作文評(píng)分的成本高、信度較低,遭到許多人的質(zhì)疑,因此他們的AES 系統(tǒng)研發(fā)進(jìn)度在后來(lái)的二十年里相當(dāng)緩慢。
20 世紀(jì)90 年代以后,CAI 發(fā)展到新的階段,主要表現(xiàn)在建構(gòu)主義(constructivism)學(xué)習(xí)理論的應(yīng)用和多媒體、計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用。在這一時(shí)期,虛擬現(xiàn)實(shí)在教育中得到應(yīng)用,它允許學(xué)生與虛擬環(huán)境中的各種信息進(jìn)行交互,學(xué)生在學(xué)習(xí)中的主動(dòng)性、創(chuàng)造力得到較好的發(fā)揮,因此許多國(guó)家如美國(guó)、加拿大、澳大利亞等國(guó)都在學(xué)校中進(jìn)行虛擬現(xiàn)實(shí)應(yīng)用的實(shí)驗(yàn),并取得引人注目的效果。90年代后,各國(guó)在發(fā)展計(jì)算語(yǔ)言學(xué)技術(shù)的同時(shí),發(fā)展作文自動(dòng)評(píng)分技術(shù),其目的不完全在于解決學(xué)校批改作文的負(fù)擔(dān),有時(shí)是技術(shù)發(fā)展和競(jìng)爭(zhēng)的結(jié)果。
佩吉(1924 - 2005)被普遍認(rèn)為是自動(dòng)作文評(píng)分之父。1962 年佩吉到康涅狄格州大學(xué)擔(dān)任教育心理學(xué)教授和教育研究局主任時(shí),受到計(jì)算語(yǔ)言學(xué),人工智能技術(shù)的啟發(fā),于是結(jié)合他的高中英語(yǔ)教學(xué)經(jīng)驗(yàn),從1964 年下半年開(kāi)始研發(fā)PEG(Project Essay Grade )軟件,主要使用代理量度標(biāo)準(zhǔn)(proxy measures)和最佳模擬人工評(píng)分的回歸系數(shù)進(jìn)行作文自動(dòng)評(píng)分。1966 年應(yīng)美國(guó)大學(xué)委員會(huì)的請(qǐng)求在康涅狄格大學(xué)與同事們創(chuàng)建初始版本,1973 年獲得成功。1979 年到2002 年,佩吉到杜克大學(xué)任教,更新了PEG,直到1993 年,成立Tru-Judge 公司,挖掘此軟件潛在的商業(yè)應(yīng)用價(jià)值。該系統(tǒng)修改后的版本發(fā)布于20 世紀(jì)90 年代,通過(guò)使用自然語(yǔ)言處理工具增強(qiáng)了評(píng)分模型,如側(cè)重語(yǔ)法檢查器和語(yǔ)音終端標(biāo)注(part of speech tagging)的句法分析。1997 年用于GRE 測(cè)試評(píng)估。
自動(dòng)作文評(píng)分是探索計(jì)算機(jī)評(píng)估和學(xué)生寫(xiě)作,尤其是作文得分的一個(gè)多學(xué)科領(lǐng)域。自1966年佩吉提出計(jì)算機(jī)作文評(píng)分的可能性和出版相關(guān)的著作和介紹PEG 的程序,他發(fā)表了大量關(guān)于教育心理和教育評(píng)估的文章。佩吉在60 年代中期開(kāi)發(fā)PEG 軟件的開(kāi)創(chuàng)性工作為緊隨其后的20 世紀(jì)90 年代電腦作文評(píng)分技術(shù)的實(shí)際應(yīng)用奠定了基礎(chǔ)。
IEA(Intelligent Essay Assessor)系統(tǒng)由商業(yè)公司皮爾遜的知識(shí)技術(shù)集團(tuán)(Pearson Knowledge Technologies)開(kāi)發(fā),使用托馬斯·蘭道爾開(kāi)發(fā)的“知識(shí)分析技術(shù)”評(píng)分引擎,于1997 年首次投入GMAT 的評(píng)分使用。2004 年皮爾遜購(gòu)買知識(shí)分析科技公司(Knowledge Analysis Technologies)后,成立皮爾遜知識(shí)技術(shù)集團(tuán)。這家公司于2008 年收購(gòu)了Ordinate Corporation,2011 年收購(gòu)INTEGRE。知識(shí)分析科技公司由三位大學(xué)教授托馬斯·蘭道爾,彼得·福爾茲和達(dá)雷爾·拉罕姆1998年成立。當(dāng)他們意識(shí)到需要改進(jìn)測(cè)試評(píng)分,于是創(chuàng)造了唯一的自動(dòng)文本分析技術(shù),用于評(píng)估書(shū)面段落。統(tǒng)籌公司Ordinate Corporation 由兩名斯坦福大學(xué)的教授賈里德·伯恩斯坦和布倫特·湯森于1996 年成立。他們認(rèn)為有必要使用語(yǔ)音處理技術(shù)、計(jì)算語(yǔ)言學(xué)和心理縮放來(lái)開(kāi)發(fā)口語(yǔ)測(cè)試系統(tǒng)并申請(qǐng)此專利。INTEGRE 由唐納德·迪蘭與山姆·杜利于1991 年創(chuàng)建。唐納德是MathQuery的原創(chuàng)者,MathQuery 是構(gòu)建- 響應(yīng)數(shù)學(xué)的一個(gè)以標(biāo)準(zhǔn)為基礎(chǔ)的自動(dòng)化評(píng)分技術(shù)。山姆·杜利是W3C 數(shù)學(xué)組中的“特邀專家”。MathQuery 可以實(shí)現(xiàn)局部的信用評(píng)分,提供詳細(xì)的分析和報(bào)告,并為學(xué)生提供糾正反饋。
皮爾遜知識(shí)技術(shù)集團(tuán)綜合了三家公司的實(shí)力,成為教育評(píng)估領(lǐng)域的佼佼者,具備了聽(tīng)說(shuō)讀寫(xiě)四種技能的測(cè)試評(píng)估系統(tǒng)。除了IEA,還擁有幫助提高和評(píng)估讀寫(xiě)技能的WriteToLearn 系統(tǒng)、提高和評(píng)估閱讀總結(jié)技能的Summary Street 系統(tǒng)、口語(yǔ)測(cè)試系統(tǒng)Versant 和漢語(yǔ)口語(yǔ)測(cè)試系統(tǒng)Spoken Chinese Tests。IEA 是基于潛在語(yǔ)義分析(LSA)技術(shù)基礎(chǔ)上開(kāi)發(fā),利用線性代數(shù)模型分析作文的深層意義。該系統(tǒng)非常適合科技、社會(huì)研究、歷史、醫(yī)藥或商業(yè)說(shuō)明文的分析與評(píng)分,雖然主要在于評(píng)價(jià)文章內(nèi)容方面的質(zhì)量,但也包含了對(duì)語(yǔ)法、文體以及操作細(xì)節(jié)方面的評(píng)分與反饋。
Intellimetric 是華帝學(xué)習(xí)公司(Vantage Learning')的AES 引擎,一個(gè)投資超過(guò)千萬(wàn)美元的商用系統(tǒng),于1996 年開(kāi)發(fā)和1998 年用于商業(yè)用途?;谌斯ぶ悄軇?chuàng)建的Intellimetric,被世界各地領(lǐng)先的評(píng)估機(jī)構(gòu)利用于高風(fēng)險(xiǎn)及進(jìn)展性評(píng)估。Intellimetric 采用AI 和NLP 技術(shù)評(píng)估作文中的語(yǔ)義、句法、篇章三個(gè)層次的300 多項(xiàng)特征。Intellimetric 需要采用專家級(jí)評(píng)卷員已經(jīng)評(píng)好分?jǐn)?shù)的作文集進(jìn)行訓(xùn)練,構(gòu)建模型,然后用小點(diǎn)的測(cè)試集檢測(cè)模型的效度和概括度。兩項(xiàng)得到確認(rèn)后,便用于作文自動(dòng)評(píng)分。
自1990 年以來(lái),華帝學(xué)習(xí)公司為學(xué)生成績(jī)和學(xué)校改進(jìn)提供了問(wèn)責(zé)制的解決方案(accountability solutions)后,就以滿足教育行業(yè)的需求為目標(biāo),不斷提供成熟的技術(shù)和開(kāi)發(fā)專業(yè)的資源來(lái)培養(yǎng)學(xué)生、家長(zhǎng)和教師之間的有意義互動(dòng)。憑借如人工智能,自然語(yǔ)言理解和基于Web 的學(xué)習(xí)對(duì)象、在線評(píng)估、教學(xué)計(jì)劃和可定制的數(shù)據(jù)管理系統(tǒng)領(lǐng)域等技術(shù),華帝學(xué)習(xí)公司被公認(rèn)為教育行業(yè)的領(lǐng)導(dǎo)者。
教育考試服務(wù)中心(ETS)提供的電子評(píng)價(jià)者是一個(gè)自動(dòng)作文評(píng)分程序E -Rater,于1999 年2月第一次用于商業(yè)。ETS 的CriterionSM 在線寫(xiě)作評(píng)估服務(wù)使用電子評(píng)價(jià)者引擎E -Rater 提供分?jǐn)?shù)和有針對(duì)性的反饋。E-rater 采用NLP 工具包分析所有的句子,包括詞性標(biāo)注器、句法分析器、篇章分析器、詞匯相似度量器。E -rater 采用語(yǔ)料庫(kù)方法建模,使用統(tǒng)計(jì)和自然語(yǔ)言處理技術(shù)來(lái)提取待評(píng)分文章的語(yǔ)言學(xué)特征,然后對(duì)照人工閱卷的標(biāo)準(zhǔn)作文集進(jìn)行評(píng)分。E - rater 從1999年開(kāi)始,已評(píng)閱超過(guò)750,000GMAT 作文,也被用于托??荚囎魑牡脑u(píng)分。
吉爾·伯斯坦(Jill Burstein)是團(tuán)隊(duì)的領(lǐng)隊(duì),具有深厚的語(yǔ)言學(xué)學(xué)術(shù)背景,專業(yè)研究涉及計(jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理、語(yǔ)料庫(kù)語(yǔ)言學(xué)、文本分析、教育技術(shù)、教師培訓(xùn)等多個(gè)方面。她的產(chǎn)品和發(fā)明包括:E -rater 自動(dòng)作文評(píng)分系統(tǒng)和ETS 的基于Web 的自動(dòng)作文評(píng)價(jià)體系Criterion。
BETSY(Bayesian Essay Test Scoring Ystem)由美國(guó)教育部投資、馬里蘭大學(xué)的勞倫斯·拉德納(Lawrence M. Rudner)基于訓(xùn)練語(yǔ)料對(duì)文本進(jìn)行分類而開(kāi)發(fā)的程序,可以免費(fèi)在線使用。文本分類采用的是樸素貝葉斯模型,系統(tǒng)也因此得名。
勞倫斯·拉德納于1971 年獲雪城大學(xué)(Syracuse University)的數(shù)學(xué)以及初級(jí)教育學(xué)士專業(yè)的理學(xué)學(xué)士,1973 年獲西康涅狄格州立大學(xué)得教育理學(xué)碩士學(xué)位,1977 年獲美國(guó)天主教大學(xué)的教育心理學(xué)博士學(xué)位,1991 年獲馬里蘭大學(xué)的工商管理金融與創(chuàng)業(yè)專業(yè)的碩士。勞倫斯·拉德納擔(dān)任研究生入學(xué)管理委員會(huì)研究和發(fā)展會(huì)(GMAC)的副會(huì)長(zhǎng),工作包括測(cè)試驗(yàn)證,適應(yīng)性測(cè)試,專業(yè)水準(zhǔn),QTI 規(guī)范,測(cè)試安全,數(shù)據(jù)取證,以及GMAT考試的監(jiān)督合同。
從以上五個(gè)系統(tǒng)和研究團(tuán)隊(duì)的介紹,我們可以發(fā)現(xiàn)美國(guó)的AES 系統(tǒng)具有強(qiáng)大的團(tuán)隊(duì)、長(zhǎng)久的高額投資,學(xué)術(shù)研究型的領(lǐng)軍人物,并且獲得廣泛的應(yīng)用,如表一。
美國(guó)的作文自動(dòng)評(píng)分仍然在如火如荼地發(fā)展。2012 年,休利特基金會(huì)資助一個(gè)叫做學(xué)生自動(dòng)評(píng)估獎(jiǎng)(Automated Student Assessment Prize ,簡(jiǎn)稱ASAP)的Kaggle 在線競(jìng)賽,目的在于表明AES是可靠的或者比人工評(píng)分更可靠。201 名挑戰(zhàn)者參加比賽,被要求使用AES 系統(tǒng)預(yù)測(cè)評(píng)委打出的作文分?jǐn)?shù)。在這場(chǎng)比賽中,9 個(gè)供應(yīng)商的AES 系統(tǒng)對(duì)ASAP 數(shù)據(jù)進(jìn)行獨(dú)立的演示,結(jié)果表明自動(dòng)作文評(píng)分能像人工評(píng)分一樣可靠。美國(guó)教育部資助兩個(gè)跨州聯(lián)盟PARCC (artnership for Assessment of Readiness for College and Careers)和SBAC (Smarter Balanced Assessment Consortium)開(kāi)發(fā)下一代的評(píng)估,這兩個(gè)評(píng)估體系正在努力鉆研,爭(zhēng)取在2014 -2015 年學(xué)年實(shí)現(xiàn)基于計(jì)算機(jī)的測(cè)試。美國(guó)的作文自動(dòng)評(píng)分正在有條不紊地進(jìn)行,扎扎實(shí)實(shí)地邁向更高水平。
表1
美國(guó)的PEG,IEA,E - Rater,Intellimetric,BETSY 系統(tǒng)擁有強(qiáng)大的團(tuán)隊(duì),堅(jiān)強(qiáng)的后盾和跨學(xué)科知識(shí),并且不段更新系統(tǒng),追求技術(shù)的成熟和應(yīng)用的價(jià)值。然而,這些國(guó)外系統(tǒng)在評(píng)估中國(guó)學(xué)生的英語(yǔ)作文時(shí),其評(píng)分結(jié)果與教師的人工評(píng)分結(jié)果存在著明顯差異,并且它們也無(wú)法很好地檢查與糾正中國(guó)學(xué)生英語(yǔ)作文中的常見(jiàn)英語(yǔ)單詞錯(cuò)誤與常見(jiàn)英語(yǔ)語(yǔ)法錯(cuò)誤。如果我國(guó)對(duì)英語(yǔ)作文測(cè)試的信度和效度要求越來(lái)越高的話,作文自動(dòng)評(píng)分將會(huì)成為我國(guó)大規(guī)模作文測(cè)試的主流方式。國(guó)外各種智能評(píng)分系統(tǒng)的技術(shù)涉及專利問(wèn)題,雖然還未完全公開(kāi),但是豐富的理論研究對(duì)我國(guó)的研究團(tuán)隊(duì)不無(wú)裨益。只要我國(guó)繼續(xù)在技術(shù)、人力和資金等方面加大對(duì)AES 研發(fā)的投入,同時(shí)教育部門(mén)提供相應(yīng)的支持,我國(guó)的AES 將會(huì)擁有更加美好的前景。
[1] Herrington,Anne,and Charles Moran. “What Happens When Machines Read Our Students’Writing?”College English 63.4 (March 2004):480 -499.
[2]Semire Dikli. (2006). An Overview of Automated Scoring of Essays. The Journal of Technology,Learning and Assessment. Volume 5,Number 1.
[3]Semire Dikli,(2006)Automated Essay Scoring.Turkish Online Journal of Distance Education-TOJDE,ISSN 1302 -6488 Volume:7 Number:1 Article:5.
[4]Shermis,M. D.,Burstein,J.,Higgins,D.,&Zechner,K. (in press). (2010). Automated essay scoring:Writing assessment and instruction. In E. Baker,B. McGaw& N. S. Petersen (Eds.),International encyclopedia of education (3 ed.). Oxford,UK:Elsevier.
[5]Shermis,M. D. & Burstein,J. (2003). Automated Essay Scoring:A Cross Disciplinary Perspective. Mahwah,NJ:Lawrence Erlbaum Associates.
[6]Yancey,Kathleen Blake. “Looking Back as We Look Forward:Historicizing Writing Assessment.”CCC 50:3(Feb 1999):483 -503.
[7]陳瀟瀟,葛詩(shī)利. 自動(dòng)作文評(píng)分研究綜述[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2008,(9).
[8]葛詩(shī)利.面向大學(xué)英語(yǔ)教學(xué)的通用計(jì)算機(jī)作文評(píng)分和反饋方法研究[D].北京語(yǔ)言大學(xué),2008.
[9]梁茂成,文秋芳.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語(yǔ)電化教學(xué),2007,(10).
[10]梁茂成.中國(guó)學(xué)生英語(yǔ)作文自動(dòng)評(píng)分模型的構(gòu)建[M].北京:語(yǔ)教學(xué)與研究出版社,2011.
[11]梁茂成.大規(guī)??荚囉⒄Z(yǔ)作文自動(dòng)評(píng)分系統(tǒng)的研制[M].北京:高等教育出版社,2012.
[12]何旭良.句酷批改網(wǎng)英語(yǔ)作文評(píng)分的信度和效度研究[J].現(xiàn)代教育技術(shù),2003,(5).
[13]張梅,印勇.英語(yǔ)作文計(jì)算機(jī)評(píng)分技術(shù)綜述[J].外語(yǔ)電化教學(xué),2010,(11).
[14]張仲德,李雅萍.基于文本基礎(chǔ)上冰果智能英語(yǔ)作文的分析與研究[J].長(zhǎng)春大學(xué)學(xué)報(bào),2013,(8).
武漢冶金管理干部學(xué)院學(xué)報(bào)2015年1期