◎王 建 張?zhí)僖?/p>
寫作是英語學(xué)習(xí)的重要組成部分。但寫作評估費時費力,尤其在中國EFL(English as a Foreign Language)教學(xué)環(huán)境下,大學(xué)公共外語教師一學(xué)期所教學(xué)生數(shù)量可多達(dá)數(shù)百名。限于時間和精力,教師們不得不減少學(xué)生的寫作練習(xí),以減輕作文評閱的繁重工作,結(jié)果導(dǎo)致學(xué)生寫作訓(xùn)練機會減少,獲得及時和詳細(xì)反饋的機會減少,學(xué)生的英語寫作水平不能得到實質(zhì)性的提高。近年來,為解決這一棘手的問題,教育技術(shù)開發(fā)商基于文本分類技術(shù)、自然語言處理、人工智能和潛在語義分析的,在自動作文評分(Automated Essay Scoring, 如 PEGTM,Intelligent Essay Assessor,IntelliMetric,Electronic Essay Rater等)引擎發(fā)展的基礎(chǔ)上,研發(fā)出作文自動評價(Automated Writing Evaluation,簡稱AWE)系統(tǒng)(Deane,2013)。國外著名的AWE系統(tǒng)如Criterion, MY Access! 及WriteToLearn已被廣泛運用于寫作教學(xué)中,不但增加了學(xué)生練習(xí)的機會,而且還在內(nèi)容、組織結(jié)構(gòu)、詞匯和語法等方面提供及時、詳細(xì)的反饋和指導(dǎo),從而將系統(tǒng)的功用從純粹的評分引擎轉(zhuǎn)變?yōu)橛嬎銠C輔助語言教學(xué)工具(Ranalli,2018;Sarré et al.,2019)。
中國AWE系統(tǒng)的研發(fā)相對較晚,但是近十年來,商業(yè)性的系統(tǒng)如批改網(wǎng)、iWrite、冰果智能評閱系統(tǒng)等已廣泛運用在中國大學(xué)英語寫作教學(xué)中。如開發(fā)商所言,機器評閱在及時性、高效性和客觀性等方面具有優(yōu)勢,學(xué)生可利用系統(tǒng)提供的“支架性(scaffolding)”反饋激活相關(guān)的英語知識,從而促進學(xué)生二語的發(fā)展,教師亦可在最近發(fā)展區(qū)(Zone of Proximal Development)理論指導(dǎo)下,引導(dǎo)學(xué)生進行同伴反饋。(張珊珊、徐錦芬,2019)但值得一提的是,在機器評分的有效性和真實性仍然撲朔迷離的情況下,一些教師完全依賴系統(tǒng)對學(xué)生的書面產(chǎn)品進行評分,并將機器分?jǐn)?shù)直接納入形成性評估中,這極有可能導(dǎo)致公平性問題。此外,為了獲取高的分?jǐn)?shù),學(xué)生傾向于迎合機器的評價標(biāo)準(zhǔn)欺騙系統(tǒng),然而這些標(biāo)準(zhǔn)可能與人工評閱者的標(biāo)準(zhǔn)大相徑庭,或與寫作構(gòu)念(writing construct)毫無關(guān)聯(lián)。(Powers et al. 2002)
盡管國內(nèi)開發(fā)者高度評價系統(tǒng)的可靠性,聲稱自動寫作評閱系統(tǒng)能夠?qū)崿F(xiàn)語言、內(nèi)容、篇章結(jié)構(gòu)及技術(shù)規(guī)范四個維度的智能評閱,但這些系統(tǒng)打出的分?jǐn)?shù)是否真實有效,機器分?jǐn)?shù)與人工分?jǐn)?shù)是否高度一致,尚未廣泛引起研究者及英語教師的注意。因此,本研究對國內(nèi)某寫作評閱系統(tǒng)的評分有效性進行初步研究,并探討相關(guān)的教學(xué)啟示。
效度是心理測量學(xué)中的一個廣義術(shù)語。效度最早反映的是測試所要測量的構(gòu)念是否被測到一定的程度(Kelly 1927),后來該術(shù)語指測量工具或手段的有效性,即能夠準(zhǔn)確測出所需要測量的事物的程度。目前國內(nèi)有關(guān)AWE系統(tǒng)的研究更多關(guān)注的是自動系統(tǒng)對課堂教學(xué)輔助作用,如自動反饋對提高學(xué)生寫作水平的作用、學(xué)生利用系統(tǒng)反饋的情況或?qū)W生對系統(tǒng)使用的認(rèn)知,鮮有研究者從事AWE的效度研究,這是國內(nèi)研究不足之處,因為在投入使用任何工具之前,使用者一般都希望知悉該工具的可靠性及有效性。相比,國外對AWE系統(tǒng)的效度研究較多,涉及的范圍也較全面。影響較大的是Kane構(gòu)建的自動評分系統(tǒng)效度論證(validity argument)框架,包括四個維度:評分(scoring)、泛化(generalization)、外推(extrapolation) 和 影 響(implication)。(Kane,2013;Elliot and Williamson,2013)效度論證的具體方面較廣,從人機評分的一致性、機器評分的穩(wěn)定性、機器分?jǐn)?shù)帶來的影響到機器評分帶來的后撥效應(yīng)(wash-back effect)不等,詳細(xì)的論證框架見表1。
表1 AWE系統(tǒng)效度論證框架
表1中的效度論證框架較為全面地概括了國外自動作文評分系統(tǒng)效度研究領(lǐng)域的主要研究方向,總體來說,系統(tǒng)的評分效度受到研究人員更多的關(guān)注。
有關(guān)AWE的評分效度研究始于20世紀(jì)末,至今依舊受到國外研究人員廣泛關(guān)注。國外研究者對于該領(lǐng)域的研究大多集中討論人機評分是否相匹配。例如,Deane(2013)報告稱,AWE系統(tǒng)注重文章的結(jié)構(gòu)、語言結(jié)構(gòu)等淺層特征,鮮有提供關(guān)于文章論證或修辭有效性的直接證據(jù),這與人工評閱者差異很大。在現(xiàn)有文獻中,研究者檢驗AWE評分有效性最直接的方式就是比較自動評分和人工評分是否一致,且普遍采用量化指標(biāo),如相鄰吻合一致率(exact-plus-adjacent agreement rate)以及皮爾遜相關(guān)系數(shù)r。不同于國內(nèi)寫作考試(如全國大學(xué)英語四、六級考試),國外寫作考試(如雅思、托??荚嚕懽鞣?jǐn)?shù)一般低于10分,人機評分相差1分則相差一個等級,因此相鄰吻合一致率主要計算系統(tǒng)評分和人工評分的分?jǐn)?shù)差小于等于1分的文章比例。皮爾遜相關(guān)系數(shù)用于統(tǒng)計人機評分的相關(guān)程度,系數(shù)越大說明兩者的分?jǐn)?shù)越趨向一致。由于分制的原因,國外研究報道的相鄰吻合一致率和相關(guān)系數(shù)普遍較高,如有研究報道IntelliMetric的相鄰吻合一致率高達(dá)97%,相關(guān)系數(shù)為0.83。(Rudner et al.,2006)
盡管國外研究大多報道AWE系統(tǒng)效度、信度均較高,但由于多數(shù)結(jié)果由開發(fā)者提供,鮮有獨立的學(xué)者給出,因此結(jié)果的真實性不得而知。國內(nèi)某系統(tǒng)開發(fā)者也驗證了其開發(fā)的AWE系統(tǒng)的評分效度,比較了1456篇15分制作文的機器分和人工分的結(jié)果,發(fā)現(xiàn)92.03%的作文的分?jǐn)?shù)差在3分以內(nèi),換言之,其相鄰吻合一致性在90%以上。但這一結(jié)果亦是由開發(fā)者提供,真實情況如何,有待獨立研究的進一步證實。
國內(nèi)大型考試中作文模塊的評閱工作仍由人工評閱者完成,因此大多數(shù)研究者對系統(tǒng)的評分效度關(guān)注不多,更多探討系統(tǒng)反饋對提高學(xué)生寫作水平的作用。國內(nèi)文獻中只有為數(shù)不多的獨立研究人員進行了此領(lǐng)域的探索。萬鵬杰(2005)對某AWE系統(tǒng)的研究結(jié)果顯示人機間的相關(guān)系數(shù)為0.324,遠(yuǎn)遠(yuǎn)低于開發(fā)者提供的系數(shù)。何旭良(2013)對句酷批改網(wǎng)的評分效度進行了研究,結(jié)果顯示系統(tǒng)分?jǐn)?shù)顯著高于人工分?jǐn)?shù)。另外值得一提的是,兩個研究的樣本均太小,前者為85篇文章,后者僅為30篇,研究結(jié)果的可靠性難以保證。此外,隨著自然語言處理等技術(shù)日積月累地發(fā)展,AWE系統(tǒng)的評分效度也有可能隨之提高,萬鵬杰及何旭良的研究可能會低估機器的能力。而且兩項研究都沒有揭示人機評分差異的分布情況及相鄰吻合一致性,因而在研究廣度和深度上存在不足。李艷玲、田夏春(2018)以“國際人才英語考試”的 645 篇實考作文為研究樣本對 iWrite 2.0的評分進行了研究,結(jié)果顯示皮爾遜相關(guān)系數(shù)(五分打分公式人機分?jǐn)?shù)r=0.566)、克隆巴赫系數(shù)(Cronbach’s Alpha=0.721)、完全吻合率(38.45%)、完全及相鄰吻合率(97.98%)和卡帕系數(shù)(0.3518)都較高,據(jù)此得出結(jié)論iWrite 2.0評分較為理想。然而,白麗芳、王建(2018)對某作文評分系統(tǒng)的評分有效性進行了詳細(xì)研究,除了收集人機相關(guān)系數(shù)、完全及相鄰吻合一致性,還使用了最大分?jǐn)?shù)差,指出系統(tǒng)無法可靠地評閱大學(xué)英語考試作文,容易誤判人工高分作文。為解釋人機評分差異成因,該研究還收集了研究語料在詞匯、句法、篇章及錯誤等方面的量化特征并分別對人工、機器分?jǐn)?shù)建立回歸模型,結(jié)果表明系統(tǒng)評分效度低可能是因其內(nèi)部缺陷所致,機器評分主要依據(jù)淺層文本特征,不能像人工評閱那樣分析深層文本特征,機器無法真正閱讀、欣賞和判斷文章,并且在分析深層句型結(jié)構(gòu)或詞匯搭配方面的能力不足。
國內(nèi)AWE系統(tǒng)開發(fā)者在不同場合多次提到系統(tǒng)在英語作文評閱方面十分可靠,因此大部分高校都將此類系統(tǒng)融入寫作教學(xué)中。但是,一個不容忽視的問題是:這些自動系統(tǒng)打出的分?jǐn)?shù)與人工評閱者給出的分?jǐn)?shù)是否真的高度一致?現(xiàn)有的研究結(jié)果并不一致。因此本研究將對國內(nèi)某AWE系統(tǒng)的評分效度進行驗證,以豐富該領(lǐng)域的研究,并探討研究結(jié)果對大學(xué)英語寫作教學(xué)的啟示。
本文旨在回答:
(1)作文機器評分與人工評分是否一致;
(2)AWE系統(tǒng)是否會誤判特定類型的作文。
本研究通過分層取樣的方法,從“中國學(xué)習(xí)者英語語料庫(Chinese Learner English Corpus)”中抽取150篇大學(xué)英語四級作文作為研究樣本,所有作文均有人工原始分,分?jǐn)?shù)從6分至15分不等。因語料庫中1到5分作文量較少,本研究不予抽取,選取的各分?jǐn)?shù)段的作文數(shù)量比例與整個語料庫相當(dāng)(表2)。抽取四級作文為研究樣本的另一個原因是,大學(xué)英語四級考試為高風(fēng)險考試,人工評閱者在閱卷前須詳細(xì)解讀評分標(biāo)準(zhǔn)并接受打分訓(xùn)練,評分過程會受到監(jiān)督,因此人工分?jǐn)?shù)相對客觀、權(quán)威。四級作文評分標(biāo)準(zhǔn)將考生作文劃分為5個檔次:2分檔、5分檔、8分檔、11分檔、14分檔,每檔之間相差三分。
表2 四級樣本作文各分?jǐn)?shù)段分布
將從語料庫中抽取的150篇文章按序排列(4001至4150),并提交系統(tǒng)進行自動打分。目前該AWE系統(tǒng)的打分公式可人為選擇,為充分保證人機評分的可比性,本研究選擇四級打分公式(即滿分為15分)作為該系統(tǒng)的評分依據(jù)。然后將機器打出的分?jǐn)?shù)輸入excel表格,利用excel及SPSS18.0計算三大指標(biāo):最大分?jǐn)?shù)差指人機分?jǐn)?shù)差絕對值的最大值;相鄰吻合一致率指人機評分差絕對值小于等于3的文章數(shù)量與文章總量之比(四級作文每個檔次相差三分);皮爾遜相關(guān)系數(shù)檢驗人機評分的相關(guān)性。前者值越大,機器評分效度越低;后兩者值越高,機器評分效度越高。有關(guān)人工、機器評分的描述性統(tǒng)計數(shù)據(jù)也由SPSS18.0算出,顯著性設(shè)為p<.05。
表3顯示,該自動評閱系統(tǒng)給出的最高分和最低分均低于人工分。配對樣本T檢驗表明機器分顯著低于人工分(p=.000<.01)。150篇樣本作文的機器平均分為8.049,顯著低于人工平均分8.77分(p=.000<.01)。
表3 人機平均分比較 (n=150)
表4列出了人機分?jǐn)?shù)差及相鄰吻合一致率的分布。所有作文樣本中,人機分?jǐn)?shù)差為零的作文數(shù)量只有3篇,即完全一致率僅為2%,人機分?jǐn)?shù)完全匹配度(exact agreement)較低;117篇文章的人機分?jǐn)?shù)差小于等于3分,即人機評分相鄰吻合一致率為78%。國外研究指出自動評分系統(tǒng)與人工評閱間的相鄰吻合一致性基本上要達(dá)到75%~80%這個水平(Burstein et al.,2004),按照這一標(biāo)準(zhǔn),機器評分滿足了這一要求。其余33篇的人機分?jǐn)?shù)差均超過3分,這些文章極有可能被機器誤判。國外大部分研究結(jié)果的相鄰吻合一致率較高,甚至高達(dá)90%,完全一致性在48%到58%甚至達(dá)到80%(Ramineni and Williamson,2013),而本研究得出的結(jié)果偏低,究其原因,可能是由于樣本量或者作文分?jǐn)?shù)檔存在一定差異,國外研究的樣本量更大,而且作文通常為1分一檔,而四級作文為3分一檔。研究表明,分制的不同可能會導(dǎo)致這一差異,分制越低,相鄰吻合一致性往往會越高。(Ramineni and Williamson,2013)比如以3分制進行評分時,若人工評閱者給出的分?jǐn)?shù)為2分,機器給的1分、2分和3分都與人工分相鄰吻合,所以人機間理論上可以達(dá)到100%一致。
此外,本研究與國內(nèi)多數(shù)AWE系統(tǒng)的人機一致性研究結(jié)果也存在很大的差異,這有可能是由于樣本的差異以及所研究的系統(tǒng)之間存在的不同導(dǎo)致的。比如目前各個系統(tǒng)具體的評分過程、評分標(biāo)準(zhǔn)并不透明,也未見詳細(xì)說明,各個系統(tǒng)是否采用同樣的評分方式不得而知,這些方面需要得到進一步的澄清。
表4 人機分?jǐn)?shù)差及相鄰吻合一致率分布
人機分?jǐn)?shù)差異較大的是編號為4048、4110和4127三篇人工高分作文,分?jǐn)?shù)差分別為6.4分、7分和4.6分。值得一提的是,四級作文的滿分為15分,最大分?jǐn)?shù)差如此之大,可見該自動評閱系統(tǒng)評分可信度需要引起使用者的注意。
本研究利用SPSS18.0對人機分?jǐn)?shù)進行了相關(guān)分析,結(jié)果顯示人機分?jǐn)?shù)不顯著相關(guān),相關(guān)系數(shù)僅為0.122(p=.136>.05,見表5),而國外相關(guān)領(lǐng)域研究通常將相關(guān)系數(shù)設(shè)為0.7(Ramineni and Williamson,2013),本研究結(jié)果遠(yuǎn)未達(dá)到這一起點值。研究結(jié)果的差異同樣可能受分制的影響,也有研究表明不同分制的情況下,皮爾遜相關(guān)系數(shù)存在差異,分制越低,r值越高。(Shermis,2014)然而,分制與系數(shù)的關(guān)系尚不明確,需要更多的研究證明。
表5 人機分?jǐn)?shù)相關(guān)性
總的來說,該AWE系統(tǒng)的評分效度不盡如人意。描述性統(tǒng)計數(shù)據(jù)及三大效度指標(biāo)都表明人機評分之間存在巨大差異,這就警示AWE系統(tǒng)開發(fā)者應(yīng)著力提高機器的評分效度,同時教師應(yīng)謹(jǐn)慎使用機器分?jǐn)?shù)作為學(xué)業(yè)評估的一部分。
為進一步分析分?jǐn)?shù)差的分布情況,本研究按照樣本作文的人工分?jǐn)?shù)將作文分為低(1~6分)、中(7~9分)、高(10~15分)三類,統(tǒng)計分析顯示三類作文平均分存在顯著差異(p<.01),然后分別比較其相鄰吻合一致性和平均分?jǐn)?shù)差(見表6)。結(jié)果表明,人機分?jǐn)?shù)相鄰吻合一致性在6~8分?jǐn)?shù)段較高,為92.85%;在9~11分?jǐn)?shù)段為中等,為81.37%;12~15分?jǐn)?shù)段較低,僅為36.95%。人機分?jǐn)?shù)差的均值也隨分?jǐn)?shù)段的上升而上升,單因素方差(One-way ANOVA)分析顯示,三類作文的分?jǐn)?shù)差存在顯著差異(p=.000)。事后多重比較分析(Post hoc Turkey’s test)表明:低、中檔作文的分?jǐn)?shù)差不存在顯著差異(p>.05),但均與高分檔作文存在顯著差異(p<.05)。不同等級作文平均分?jǐn)?shù)差分布情況表明,該作文評閱系統(tǒng)有可能誤判了人工判定的高分作文。
表6 作文各分?jǐn)?shù)段評分的一致性
國內(nèi)外文獻得出過類似的結(jié)論。如有研究比較了E-rater(以6分制評分)和人工評分的一致性,發(fā)現(xiàn)在5分和6分兩個高分檔自動評分與人工評分的差異最大。(Burstein et al.,1998)也有研究指出Criterion(以6分制評分)打出的低分比較可靠,打出的高分問題較大,并不能反映學(xué)生寫作的真實水平。(Li et al.,2014)同樣的現(xiàn)象在葛詩利、陳瀟瀟(2007)的研究中也有提及。
AWE系統(tǒng)能夠較為準(zhǔn)確評價人工低分作文,可能主要是因為這類文章的語言和內(nèi)容質(zhì)量都較差。機器可以基于淺層的可量化的特征或語言錯誤給出客觀的分?jǐn)?shù)。在評價低質(zhì)量的文章時,評分過程可以依靠可量化的特征或錯誤,但是在評分高質(zhì)量的文章時,必須考慮文章的內(nèi)容。由于機器無法理解一篇文章,它無法對文章的邏輯和思想做出任何判斷,只能依靠一些可量化的特征來評估文章質(zhì)量,而這些特征可能與一篇好文章毫無關(guān)聯(lián)。(Condon,2013)因此這些量化特征可能不利于機器評分,進而導(dǎo)致對人工高分作文的誤判。本研究語料來自大學(xué)英語四級考試作文,大學(xué)四級考試為高風(fēng)險考試,在構(gòu)建篇章時考生通常會選擇簡單的單詞或常見的表達(dá)方式,少使用低頻詞或表達(dá)以避免出現(xiàn)錯誤,而這類文章有雖在詞匯的復(fù)雜性方面較低,但文章的結(jié)構(gòu)、邏輯、思想表達(dá)、語言的流暢度等方面可能做得很到位,人工評閱者在評閱作文時考慮的因素可能更為全面,不僅看詞匯等淺層指標(biāo),還要考慮邏輯、內(nèi)容等,但這些都是機器無法欣賞的,故有可能誤判此類文章。限于文章篇幅,本研究并未對文章的量化特征進行統(tǒng)計分析,未來的研究可以利用語料分析軟件收集樣本作文在詞匯、句法、篇章、錯誤等方面的量化特征,深入分析文本量化特征對人工評分及機器評分的影響及解釋二者存在的差異。
不可否認(rèn)的是,自動評閱系統(tǒng)可以為廣大師生帶來諸多便利。教師不用將大量時間用于評閱學(xué)生習(xí)作,而用于精心備課。AWE系統(tǒng)打破了時空的限制,學(xué)生可以獲得及時的寫作反饋,學(xué)習(xí)自主性也可以提高。但是,本文通過定量分析的方法發(fā)現(xiàn)人機評分差異較大:機器分顯著低于人工分,所有定量指標(biāo)都不盡如人意;在無法理解文章內(nèi)容的情況下,機器極有可能誤判人工高分作文。這與之前白麗芳、王建(2018)報道的系統(tǒng)評分效度存在的問題如出一轍。究其原因,目前用于機器評分的技術(shù)無法完全欣賞文章的邏輯、結(jié)構(gòu)及修辭特征等方面。此外,目前機器仍無法與人工評閱者相比,人機評分所關(guān)注的方面可能存在差異,且評閱的方式也不盡相同,但存在何種差異需要更多的研究證明。因此,大學(xué)英語教師在使用機器分?jǐn)?shù)時需要考慮到系統(tǒng)目前仍存在的種種缺陷。
必須指出的是,多數(shù)大學(xué)英語教師限于寫作評估的壓力將平時作文僅交由機器評閱,將機器分納入學(xué)生最終的成績中,但此時學(xué)生可能會質(zhì)疑:機器分?jǐn)?shù)是否真的可靠?僅利用自動反饋(缺乏教師反饋)是否真的有利于寫作水平的提升? 若學(xué)生作文僅由機器評閱,學(xué)生的寫作熱情無疑會受到影響。眾所周知,目前機器還無法從真正意義上理解人的思維,還無法真正實現(xiàn)人機互動。最重要的是,目前自動系統(tǒng)評分的效度尚不明確,也并未引起廣泛關(guān)注。如果機器分被納入期末成績中,有可能導(dǎo)致公平性的問題,因為機器可能會低估學(xué)生的寫作能力,甚至誤判高質(zhì)量的作文。在英語寫作教學(xué)中,各教師應(yīng)合理運用機器評閱,可以采用人機結(jié)合的評閱方式,吸收二者評閱作文的優(yōu)勢。比如,限于技術(shù)的限制,目前機器評閱可以僅限于拼寫、標(biāo)點、大小寫等技術(shù)規(guī)范方面,識別基本的語法錯誤(如主謂一致、冠詞使用等);教師應(yīng)將寫作視為真正意義上的互動交流,需要閱讀學(xué)生寫作的內(nèi)容、結(jié)構(gòu)、搭配、修辭等機器不太擅長的方面,給予學(xué)生寫作建設(shè)性的反饋,給出適當(dāng)合理的分?jǐn)?shù);教師還可以利用寫作平臺分配同儕協(xié)作的寫作任務(wù),相互給予深層次的交流與反饋,提高學(xué)生的寫作積極性及寫作興趣。
總之,大學(xué)英語教師應(yīng)順應(yīng)時代潮流突破傳統(tǒng)的教學(xué)模式,但又不可完全依賴現(xiàn)代教育技術(shù),不可完全忽視傳統(tǒng)寫作教學(xué)的作用,應(yīng)在二者間尋求平衡。
本研究報道了國內(nèi)某AWE系統(tǒng)的評分效度,結(jié)果表明該系統(tǒng)的評分效度相對較低,可能需要開發(fā)者進一步驗證并不斷提高。我們建議教育技術(shù)人員應(yīng)與大學(xué)英語教師通力合作,進一步完善系統(tǒng)的評分機制,因為由于目前技術(shù)等方面的局限,教師還無法完全依賴機器。我們認(rèn)為該領(lǐng)域需要引起國內(nèi)更多獨立研究者和使用者的注意。
本研究只是初步探討了該系統(tǒng)的評分效度,還存在一些不可避免的缺陷。首先,較之國外同類研究,本研究樣本數(shù)量相對較??;其次,未探討人機在不同文本特征方面(詞匯、句法、篇章等)對文章的評閱是否存在差異,因此對人機評分差異的解釋深度不夠;最后,未分析人機分?jǐn)?shù)差大于三分的文章的特征,也未進一步研究可能被機器誤判的人工高分作文在詞匯、句法、篇章、錯誤等方面的特征。這些問題是未來AWE系統(tǒng)開發(fā)者和研究人員可以關(guān)注和解決的方向。但值得肯定的是,本研究對于寫作教學(xué)融入AWE系統(tǒng)以及將機器分?jǐn)?shù)納入學(xué)生最終成績起到了一定的警示作用,對大學(xué)英語寫作教學(xué)有一定的參考價值。