【編者按】主持人:榮維東西南大學(xué)教授、博士生導(dǎo)師西南大學(xué)語文教育研究所所長
智能作文評價(jià)的研究進(jìn)展與實(shí)踐探索
目前,人工智能技術(shù)正深刻重塑教育評價(jià)模式,智能作文評價(jià)作為其重要分支,憑借高效批改與精準(zhǔn)反饋的優(yōu)勢,正成為推動寫作教學(xué)轉(zhuǎn)型的關(guān)鍵力量。本期聚焦“智能作文評價(jià)”,從技術(shù)綜述、工具對比到教學(xué)實(shí)踐,多維度呈現(xiàn)該領(lǐng)域的研究進(jìn)展與應(yīng)用探索,為教育工作者、研究者及技術(shù)開發(fā)者提供多維的觀察視角。
、和在《智能作文評價(jià):研究進(jìn)展、局限與展望》一文中,全面梳理了智能作文評價(jià)的研究進(jìn)展,指出了當(dāng)前研究的核心議題,包括智能作文評價(jià)的技術(shù)與原理探索、效果評估以及應(yīng)用策略。論文指出,盡管智能作文評價(jià)在減輕教師負(fù)擔(dān)、提高評價(jià)效率方面展現(xiàn)出顯著優(yōu)勢,但仍面臨諸多技術(shù)難題亟待突破、實(shí)際效果待檢驗(yàn)以及應(yīng)用策略尚需細(xì)化等問題。未來需突破篇章結(jié)構(gòu)分析、情感誤判等技術(shù)瓶頸,并提高實(shí)證研究驗(yàn)證工具效能。該文以宏闊視野勾畫領(lǐng)域發(fā)展脈絡(luò),既為研究者提供了理論啟示,也為政策制定者提供了一定參考。
羅文雅和劉雄平在《語文作文智能評分工具的對比研究和優(yōu)化策略》中,運(yùn)用IN課堂、筆神作文和光速寫作等三個主要智能評分工具,通過34篇作文的評分?jǐn)?shù)據(jù)對比,揭示了它們在評分準(zhǔn)確性、穩(wěn)定性和一致性方面的差異。研究發(fā)現(xiàn),IN課堂與筆神作文在均值上接近人工評分,光速寫作則偏差顯著,但所有工具在區(qū)分作文質(zhì)量優(yōu)劣方面仍有待提升?;诖?,文章提出了構(gòu)建文本框架、引入預(yù)訓(xùn)練模型、優(yōu)化手寫識別及注重系統(tǒng)優(yōu)化與跨學(xué)科合作等策略,以期提升智能評分工具的效能和準(zhǔn)確性。
陳麗娜在《基于AIGC的初中記敘文寫作發(fā)展性評價(jià)初探》中,探討了AIGC技術(shù)在初中記敘文寫作發(fā)展性評價(jià)中的應(yīng)用。文章構(gòu)建了基于知識深度等級體系的縱向發(fā)展性評價(jià)體系,涵蓋基礎(chǔ)技能、創(chuàng)新表達(dá)與遷移能力三階段,并融入自評、互評、AI評等多維反饋。通過《我終于找回了誠信》等案例,展示了AI如何提供精準(zhǔn)診斷與支架賦能。該研究不僅為初中記敘文寫作評價(jià)提供了新的路徑,也為智能作文評價(jià)在基礎(chǔ)教育中的應(yīng)用提供了有益嘗試。
對于一般讀者而言,本期專題不僅提供了智能作文評價(jià)領(lǐng)域的最新研究成果,還展示了智能作文評價(jià)工具在實(shí)際教學(xué)中的應(yīng)用潛力。通過閱讀這些論文,讀者可以了解智能作文評價(jià)的基本原理、技術(shù)挑戰(zhàn)及優(yōu)化策略,同時(shí)認(rèn)識到其在提升教學(xué)效率和促進(jìn)學(xué)生個性化發(fā)展方面的重要作用。我們期待,隨著人工智能技術(shù)的不斷進(jìn)步,智能作文評價(jià)將在教育領(lǐng)域發(fā)揮越來越重要的作用。
摘要隨著人工智能技術(shù)的發(fā)展,智能作文評價(jià)也成為教育領(lǐng)域研究的熱點(diǎn)問題。為明晰我國智能作文評價(jià)研究的進(jìn)展,研究對相關(guān)文獻(xiàn)進(jìn)行了梳理和分析,結(jié)果發(fā)現(xiàn),智能作文評價(jià)研究的核心議題主要集中在智能作文評價(jià)的技術(shù)與原理探索、智能作文評價(jià)的效果以及智能作文評價(jià)工具的應(yīng)用策略等三個方面。雖然相關(guān)研究取得了一定的成果,但也存在一些局限,主要體現(xiàn)為諸多技術(shù)難題亟待突破、智能作文評價(jià)的實(shí)際效果有待全面檢驗(yàn)以及智能作文評價(jià)工具的應(yīng)用策略尚需進(jìn)一步細(xì)化等。對此,未來智能作文評價(jià)的研究應(yīng)重點(diǎn)加強(qiáng)智能作文評價(jià)的關(guān)鍵技術(shù)研發(fā),大力開展智能作文評價(jià)效果的實(shí)證研究,并全面開發(fā)智能作文評價(jià)工具的應(yīng)用策略。
關(guān)鍵詞人工智能智能作文評價(jià)自然語言處理作文評價(jià)體系簡單來說,作文評價(jià)就是通過對學(xué)生作文能 力和水平的綜合判斷、評議鑒定,使學(xué)生明了每
次作文的得失,從而促進(jìn)學(xué)生作文能力的發(fā)展[1]。作文評價(jià)具有引導(dǎo)、診斷、反饋和激勵等多重功能,是寫作教學(xué)的重要環(huán)節(jié)。但是,在傳統(tǒng)的寫作教學(xué)中,由于作文評價(jià)的工作量繁重,需要教師花費(fèi)大量的時(shí)間和精力,導(dǎo)致評價(jià)結(jié)果的反饋滯后,效率低下,甚至一些教師為快速完成評價(jià)任務(wù),只給學(xué)生評定等級和分?jǐn)?shù),而未對學(xué)生的作文進(jìn)行細(xì)致反饋,致使作文評價(jià)流于形式,缺乏針對性。對此,有研究提出了同伴互評、網(wǎng)絡(luò)評價(jià)、檔案袋評價(jià)等多樣化的評價(jià)形式,但并未從根本上解決這些問題,作文評價(jià)也成了困擾廣大語文教師的“頑疾”。而人工智能(ArtificialIntelligence,AI)的出現(xiàn)和發(fā)展則為解決這一問題提供了一條可行性路徑。
人工智能的概念最早由約翰·麥卡錫(JohnMcCarthy)等人在1956年召開的達(dá)特茅斯會議(DartmouthConference)上正式提出,它通常指“以信息科技為基礎(chǔ),以基于大數(shù)據(jù)的復(fù)雜算法為核心,以對人類智能的模擬、延伸和超越為目標(biāo)的高新科學(xué)技術(shù)”[2]。隨著人工智能技術(shù)的發(fā)展,其應(yīng)用范圍逐漸擴(kuò)大到作文評價(jià)領(lǐng)域,研究者據(jù)此設(shè)計(jì)和開發(fā)出各種作文自動化評估和分析工具,并將其應(yīng)用到教學(xué)實(shí)踐中。人們認(rèn)為,智能作文評價(jià)工具的快速批閱與反饋的優(yōu)勢對于解決傳統(tǒng)作文評價(jià)中的問題具有一定的積極作用。由此,智能作文評價(jià)也成了教育研究領(lǐng)域的重要問題,研究者們從不同的角度對其進(jìn)行了探討。及時(shí)梳理相關(guān)研究成果,不僅有利于對優(yōu)秀成果進(jìn)行總結(jié),而且可以發(fā)現(xiàn)已有研究的不足,并為未來的智能作文評價(jià)的發(fā)展提供參考。
一、智能作文評價(jià)的研究進(jìn)展
作文評價(jià)是人工智能技術(shù)應(yīng)用的重要領(lǐng)域,自20世紀(jì)60年代起,國外就開始了自動作文評價(jià)技術(shù)(AutomatedEssayScoring,AES)的研發(fā)。1966年,美國學(xué)者埃利斯·佩奇(EllisPage)研制出世界上第一款智能作文評價(jià)系統(tǒng)PEG(ProjectEssayGrader)。如今,自動作文評價(jià)技術(shù)已經(jīng)發(fā)展得相對成熟,并得到了廣泛應(yīng)用。而隨著生成式人工智能(AIGeneratedContent,AIGC)的快速發(fā)展,人工智能對作文評價(jià)的影響也更加深化,并引發(fā)新一輪的研究熱潮。通過梳理可以發(fā)現(xiàn),相關(guān)研究探討的核心議題主要集中在智能作文評價(jià)的技術(shù)與原理探索、效果以及應(yīng)用策略等三個方面。
1.智能作文評價(jià)的技術(shù)與原理探索
與國外相比,我國對智能作文評價(jià)的研究起步較晚,因此早期研究多偏重于對國外作文自動評價(jià)工具的技術(shù)與原理的介紹。如國外教育考試領(lǐng)域常用的PEG、IEA(Intelligent EssayAssessor)、E-rater、BETSY(Bayesian Essay TestScoringSystem)等[3]。雖然對這些工具的技術(shù)和原理的研究能為國內(nèi)智能作文評價(jià)系統(tǒng)的研發(fā)提供借鑒和啟發(fā),但其更多的還是適用于英語文本。對此,相關(guān)研究開展了一系列的探索,主要集中在兩個方面:一是對漢語智能作文評價(jià)所需的技術(shù)和原理進(jìn)行宏觀層面的探討,二是對某些特定技術(shù)開展探索性的研究和實(shí)驗(yàn)。
“智能作文評價(jià)的原理主要是基于自然語言處理(Natural LanguageProcessing,NLP)”。目前,自然語言處理技術(shù)已經(jīng)從傳統(tǒng)的機(jī)器學(xué)習(xí)走向深度學(xué)習(xí),在深度學(xué)習(xí)的自然語言處理中,漢語語料與英語語料有不同的處理流程,漢語語料的處理流程是分詞、詞性標(biāo)注、命名實(shí)體識別、去除停用詞、設(shè)計(jì)模型、訓(xùn)練模型,最后還要對建模后的效果進(jìn)行評價(jià)[4,這其中涉及的技術(shù)有關(guān)鍵詞句提取、基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型建構(gòu)、語料庫開發(fā)等[5。但是,漢語的語義和語法比較靈活,詞語之間也沒有明確的分隔符,這導(dǎo)致漢語作文智能評價(jià)在自然語言處理和模型建構(gòu)上還面臨著諸多困難[。針對這些問題,一些研究開始對某些特定技術(shù)開展探索性的研究和實(shí)驗(yàn)。例如,有研究提出了一種基于文本語義離散度的智能作文評價(jià)方法并設(shè)計(jì)了相關(guān)實(shí)驗(yàn),結(jié)果表明,加入了文本語義離散度特征后,預(yù)測分?jǐn)?shù)和真實(shí)分?jǐn)?shù)之間均方根差最大降低了 10.99% ,皮爾遜相關(guān)系數(shù)最高提升了2.7倍,表明該方法具有一定的有效性[。還有研究基于漢語特點(diǎn),開發(fā)了一種融合句法特征和語義特征的作文自動評分方法一—ISSF,該模型采用Parser提取作文句法特征,采用BERT和適配器的訓(xùn)練方式提取作文的深層語義特征,并采用自注意力機(jī)制提取作文主題特征以用于句法特征和深層語義特征深化,結(jié)果證明,ISSF在評分范圍較大、評分標(biāo)準(zhǔn)復(fù)雜的情況下具有一定的性能優(yōu)勢[8]。此外,也有研究在智能作文評價(jià)系統(tǒng)中嵌入語言深度感知或引人潛語義分析技術(shù)(LatentSemantic Analysis,LSA)[0],并開展了相關(guān)實(shí)驗(yàn)。這些工作對漢語作文智能評價(jià)系統(tǒng)的研發(fā)起到了重要的推動作用。
2.智能作文評價(jià)的效果
智能作文評價(jià)的實(shí)際效果究竟如何是研究者和教師最為關(guān)注的問題。對此,針對各種智能作文評價(jià)工具,如上文提及的PEG、IEA等,相關(guān)學(xué)者對其與人工評價(jià)進(jìn)行了比較研究,數(shù)據(jù)表明,這些系統(tǒng)與人工評價(jià)的結(jié)果具有較高一致性[]而對于當(dāng)前比較流行的ChatGPT,研究發(fā)現(xiàn),將其作為智能作文評價(jià)工具,自動評分能力比較有限;而將ChatGPT的評價(jià)結(jié)果與經(jīng)驗(yàn)豐富的人類的評價(jià)結(jié)果進(jìn)行相關(guān)性分析,發(fā)現(xiàn)二者之間也沒有呈現(xiàn)出比較強(qiáng)的相關(guān)性(即弱相關(guān)到中度相關(guān))[2]。除此之外,國外對智能作文評價(jià)效果的研究還表現(xiàn)在對學(xué)生寫作成績的影響[13、反饋生成內(nèi)容的質(zhì)量[14]、對教師教學(xué)的支持[15]等方面。
國外已有研究大多是對英語智能作文評價(jià)效果的考察,近年來,隨著國內(nèi)智能作文評價(jià)的興起,相關(guān)學(xué)者開始了對漢語智能作文評價(jià)效果的研究。劉淑君等人使用IN課堂作文智能批改系統(tǒng)(以下簡稱“IN課堂”)作為評價(jià)工具,以149篇中學(xué)生作文為樣本,從評分有效性、反饋類型與層次和反饋精準(zhǔn)度等方面進(jìn)行實(shí)證分析,結(jié)果發(fā)現(xiàn),智能作文評價(jià)與教師作文評分有較高的一致性和顯著相關(guān)性,且表揚(yáng)型反饋占比較高[16]。他們在另一項(xiàng)研究中,同樣使用IN課堂作為評價(jià)反饋工具,對28名學(xué)生進(jìn)行了為期十周的準(zhǔn)實(shí)驗(yàn)研究,重點(diǎn)分析學(xué)生的修改和作文質(zhì)量提升情況,同時(shí)探究學(xué)生的寫作動機(jī)和寫作信念的發(fā)展,結(jié)果顯示,學(xué)生的作文成績提升顯著,文章長度也大幅增加,并且寫作動機(jī)和寫作修改信念也明顯提高,由此得出,智能作文反饋能支持學(xué)生寫作修改過程,提升作文修改質(zhì)量[17]。吳軍其等人對AIGC輔助教師作文評價(jià)的效果進(jìn)行了研究。他們首先選擇“文心一言”作為評價(jià)工具,并為其專門設(shè)計(jì)了提示語,又為其提供了詳細(xì)的《湖北省中文作文評價(jià)標(biāo)準(zhǔn)》,在此基礎(chǔ)上使用“文心一言”對湖北省52名九年級學(xué)生的104篇作文展開評價(jià),并將其與四名教師的評價(jià)進(jìn)行對比,結(jié)果發(fā)現(xiàn),AIGC更關(guān)注內(nèi)容和語言維度,對結(jié)構(gòu)維度評價(jià)數(shù)量相對較少,教師則更關(guān)注內(nèi)容維度,對語言和結(jié)構(gòu)維度的評價(jià)數(shù)量相對較少;在各維度評價(jià)類型的比較上,AIGC常呈現(xiàn)出“概述 + 建議”和“表揚(yáng) + 概述”的類型組合,教師常表現(xiàn)出“表揚(yáng) + 診斷”的類型組合;在評價(jià)準(zhǔn)確度方面,AIGC評價(jià)精準(zhǔn)度低于教師的評價(jià)精準(zhǔn)度。可見,AIGC在作文評價(jià)上可以與教師達(dá)成策略互補(bǔ)[18]??傊?,國內(nèi)現(xiàn)有研究證實(shí),智能作文評價(jià)工具對于提升學(xué)生的作文質(zhì)量具有明顯的效果,是教師寫作教學(xué)的重要輔助。
3.智能作文評價(jià)工具的應(yīng)用策略
2023年教育部辦公廳印發(fā)的《基礎(chǔ)教育課程教學(xué)改革深化行動方案》特別指出,要“充分利用人工智能和大數(shù)據(jù)技術(shù),加強(qiáng)過程性與增值性評價(jià),注重發(fā)揮教學(xué)評價(jià)的引導(dǎo)、診斷、改進(jìn)與激勵作用”[19]。隨著人工智能技術(shù)的快速發(fā)展和國家相關(guān)政策的推動,各種漢語智能作文評價(jià)工具和系統(tǒng)層出不窮,并走進(jìn)了一線語文教學(xué)實(shí)踐中。據(jù)報(bào)道,南京鼓樓區(qū)在完成DeepSeek-R1模型本地化部署的基礎(chǔ)上,還上線了多款A(yù)I應(yīng)用,為全區(qū)師生提供更高效、更智能的作文批改服務(wù)[20]。由此觀之,人工智能與基礎(chǔ)教育融合的大潮已經(jīng)勢不可擋,各類智能作文評價(jià)工具也勢必會成為語文教師日常教學(xué)中的必備工具。那么,如何幫助教師更好地運(yùn)用這些工具也成為人們關(guān)注的重要問題。對此,相關(guān)研究主要從使用準(zhǔn)備和教學(xué)實(shí)施兩個方面展開了討論和探索。
在使用前的準(zhǔn)備上,智能作文評價(jià)工具的應(yīng)用首先要做好前提性工作,主要包括建立系統(tǒng)性和序列性相結(jié)合的作文評價(jià)體系;擬定詳細(xì)的作文評價(jià)細(xì)則,這些細(xì)則可以結(jié)合課程標(biāo)準(zhǔn)和教材來確定,然后將其數(shù)字化,通過互聯(lián)網(wǎng)平臺實(shí)現(xiàn)班與班之間、校與校之間的數(shù)據(jù)共享[2;同時(shí),作文命題形式上還要凸顯特征值,以提升智能批閱的精準(zhǔn)度,這些特征值包括明確的寫作對象、有一定限制的寫作內(nèi)容和可操作性強(qiáng)的寫作要求等[22]。在教學(xué)實(shí)施方面,相關(guān)研究主要探討了教師在課堂教學(xué)中具體如何使用智能作文評價(jià)工具。宏觀來看,教師借助語文智能評價(jià)工具可以完成三項(xiàng)工作:一是借助其自動批改,快速為學(xué)生的作文水平分級;二是查看系統(tǒng)對錯誤的識別,把握批改的細(xì)節(jié);三是根據(jù)系統(tǒng)給出的評語,拓展評價(jià)作文的思路[23]。而在實(shí)際的作文講評課中,教師首先需要清晰定位作文訓(xùn)練目標(biāo),根據(jù)目標(biāo)來理解各項(xiàng)數(shù)據(jù);在此基礎(chǔ)上,從評測的各項(xiàng)數(shù)據(jù)入手,引導(dǎo)學(xué)生定位自己的作文水平,發(fā)現(xiàn)優(yōu)點(diǎn)和不足;然后為學(xué)生出示例文和范文,并結(jié)合智能測評的建議討論交流,進(jìn)行修改;教師再基于數(shù)據(jù)和目標(biāo),選擇個別問題進(jìn)行重點(diǎn)指導(dǎo),最后和學(xué)生一起進(jìn)行總結(jié)和反思[24]。此外,還有研究結(jié)合具體的評價(jià)類型,如增值評價(jià)[25]、檔案袋評價(jià)[2等,探索其與智能作文評價(jià)工具相結(jié)合的可行性路徑,或就某一款特定的智能作文評價(jià)工具,分享其使用經(jīng)驗(yàn)[2]。這些研究為教師更好地在寫作教學(xué)中運(yùn)用智能作文評價(jià)系統(tǒng)提供了寶貴的經(jīng)驗(yàn)。
二、智能作文評價(jià)研究的局限
通過梳理智能作文評價(jià)研究的進(jìn)展可以發(fā)現(xiàn),一些學(xué)者已經(jīng)在智能作文評價(jià)的技術(shù)、效果和應(yīng)用策略等方面進(jìn)行了一系列的探索,但智能作文評價(jià)技術(shù)在我國仍處于起步階段,相關(guān)研究整體來說還比較薄弱,不可避免地存在著一些局限。
1.智能作文評價(jià)的諸多技術(shù)難題亟待突破
從世界范圍來看,智能作文評價(jià)技術(shù)已有近六十年的歷史,并且隨著人工智能技術(shù)的發(fā)展,智能作文評價(jià)的信度和效度也在不斷提升,但正如前文所述,其早期研發(fā)和應(yīng)用的場域多為英語世界,對于和英語分屬不同語言體系的漢語來說,其適用性并不強(qiáng)。漢語在詞匯、語法、修辭、語義等方面的特殊性是自然語言處理的難點(diǎn),這也成為制約漢語智能作文評價(jià)技術(shù)發(fā)展的瓶頸。其突破口在于篇章結(jié)構(gòu)分析技術(shù)、深度學(xué)習(xí)技術(shù)等的發(fā)展。雖然相關(guān)學(xué)者對此展開了攻關(guān),并取得了一定的成果,但是還存在一些局限。以篇章結(jié)構(gòu)分析技術(shù)為例,目前漢語篇章語料庫的標(biāo)注規(guī)模都還較小,體裁單一,尤其是在目前有監(jiān)督的深度學(xué)習(xí)方法需要依賴大量的標(biāo)注語料的情況下,篇章語料庫的標(biāo)注規(guī)模和多樣性都有待提升[28]。這些技術(shù)的限制導(dǎo)致現(xiàn)今國內(nèi)的智能作文評價(jià)工具都或多或少地存在一些不足,從而進(jìn)一步限制了其應(yīng)用場景和范圍。此外,寫作是語文課程的重要領(lǐng)域,而語文又是一門工具性與人文性相統(tǒng)一的學(xué)科,所以,作文不僅具有工具價(jià)值,還強(qiáng)調(diào)人文思想、情感傾向、價(jià)值判斷與文化審美,因此,智能作文評價(jià)在設(shè)計(jì)時(shí)還必須思考語文的學(xué)科特性,體現(xiàn)人文內(nèi)涵[29。但是,目前的文本情感分析技術(shù)在結(jié)構(gòu)不良文本、諷刺文本上難以捕捉其隱含情感,可能會導(dǎo)致情感誤判;粗粒度的情感分析也只能將情感簡單地劃分為積極、消極和中性;并且,該技術(shù)還缺乏一定的文化意識,導(dǎo)致在處理不同文化或地域文本時(shí),可能因未全面考慮特定文化背景而導(dǎo)致情感判斷誤差[30]??傊悄茏魑脑u價(jià)的進(jìn)一步發(fā)展還需要克服諸多的技術(shù)難題。
2.智能作文評價(jià)的實(shí)際效果有待全面檢驗(yàn)
隨著各類智能作文評價(jià)工具在我國的流行和普及,相關(guān)學(xué)者也對其效果展開了實(shí)證研究,從總體上來看,雖然智能作文評價(jià)工具在實(shí)證研究中取得了良好的表現(xiàn),但是其中也存在著一些不足。首先,從研究內(nèi)容上來說,國內(nèi)研究與國外研究相比還不夠全面。從目前掌握的文獻(xiàn)來看,國內(nèi)對漢語智能作文評價(jià)效果的規(guī)范性的實(shí)證研究十分匱乏,只有4篇論文發(fā)表,并且僅涉及評價(jià)的質(zhì)量和對寫作教學(xué)效果的影響兩個方面內(nèi)容。而國外的相關(guān)研究文獻(xiàn)眾多,除了包含上述研究內(nèi)容之外,還涉及反饋生成內(nèi)容的質(zhì)量、對教師教學(xué)的支持等諸多方面。其次,不同的研究結(jié)果之間還存在分歧。比如上文中,吳軍其等人使用文心一言來檢驗(yàn)AIGC輔助教師作文評價(jià)的效果,結(jié)果發(fā)現(xiàn)AIGC可以在作文評價(jià)中與教師達(dá)成評價(jià)策略互補(bǔ),有效提高評價(jià)效率;而國外研究者使用同為AIGC的ChatGPT進(jìn)行實(shí)證研究,卻發(fā)現(xiàn)其自動評分能力比較有限。這其中的分歧是人們應(yīng)該關(guān)注的重點(diǎn)。最后,研究工具相對比較單一。國內(nèi)已有研究中使用較多的評價(jià)工具是IN課堂和文心一言,但除此之外,國內(nèi)的漢語智能作文評價(jià)工具還有愛語文APP、筆神作文、閱神AI等,不同的工具有不同的優(yōu)點(diǎn)和不足,目前的研究僅涉及其中的兩款工具,相對來說還比較單一,削弱了研究結(jié)果的代表性和普適性??傊悄茏魑脑u價(jià)的效果還有待更為全面的檢驗(yàn),只有這樣,才能為智能作文評價(jià)技術(shù)的發(fā)展提出更具建設(shè)性和針對性的建議,同時(shí),也為教師使用智能作文評價(jià)工具提供有效參考。
3.智能作文評價(jià)工具的應(yīng)用策略尚需進(jìn)一步細(xì)化
由于智能作文評價(jià)工具的特殊性,使得其應(yīng)用需要考慮兩個方面的內(nèi)容,分別是使用前的準(zhǔn)備工作和教師在課堂教學(xué)中的具體應(yīng)用策略。從現(xiàn)有研究來看,雖然有諸多成果都涉及這兩方面的問題,但由于各類條件的制約,已有成果的探討仍比較粗略。這主要體現(xiàn)在兩個方面。首先是在使用前的準(zhǔn)備上,相關(guān)前提性工作不夠完善。例如,已有成果雖然論及了需要建立系統(tǒng)性和序列性的評價(jià)體系,擬定詳細(xì)的作文評價(jià)細(xì)則等,并意識到這是開展智能作文評價(jià)的先導(dǎo)性工作,但我國目前還缺乏基礎(chǔ)的、通用的作文評價(jià)標(biāo)準(zhǔn)。為此,相關(guān)研究者只能基于語文課程標(biāo)準(zhǔn)自行開發(fā)寫作評價(jià)體系,然而,我國語文課程標(biāo)準(zhǔn)中并無系統(tǒng)的作文評價(jià)指標(biāo)的內(nèi)容,并且有關(guān)描述也存在著籠統(tǒng)模糊的弊端,這導(dǎo)致研究者開發(fā)的作文評價(jià)體系容易與智能作文評價(jià)工具的評價(jià)標(biāo)準(zhǔn)產(chǎn)生不一致的現(xiàn)象,從而難以保證評價(jià)的信度和效度。其次是在具體的實(shí)施策略中,相關(guān)研究多是從教師的角度來闡發(fā)其是如何在教學(xué)中使用智能作文評價(jià)工具的,而學(xué)生作為教學(xué)的重要主體,在各類智能化工具大規(guī)模涌入課堂教學(xué)的背景下,其主體性本身就存在著異化或喪失的風(fēng)險(xiǎn)[3]。在這一前提下,僅在智能作文評價(jià)工具的使用中提倡教師的活動,而忽視了對學(xué)生角色和學(xué)習(xí)策略的研究,不得不說是一種缺失。
三、智能作文評價(jià)研究的展望
隨著人工智能技術(shù)的發(fā)展,智能作文評價(jià)工具將在寫作教學(xué)中扮演著越來越重要的角色。展望未來,智能作文評價(jià)的研究只有不斷克服自身的局限,才能更好地服務(wù)于寫作測評與教學(xué)。
1.重點(diǎn)加強(qiáng)智能作文評價(jià)的關(guān)鍵技術(shù)研發(fā)
智能作文評價(jià)涉及自然語言處理、深度學(xué)習(xí)等多項(xiàng)技術(shù),但由于目前相關(guān)技術(shù)的發(fā)展還不成熟,導(dǎo)致智能作文評價(jià)工具在識別漢語作文時(shí)還存在一些缺陷和不足,而克服這些缺陷和不足是一項(xiàng)重大工程,不僅需要技術(shù)上的攻關(guān),還需要相關(guān)部門的支持。首先,國家相關(guān)部門應(yīng)對這一問題予以高度的重視,制定鼓勵支持漢語智能作文評價(jià)技術(shù)發(fā)展的政策和法律法規(guī),并加大資金投入,組建并給予相關(guān)科研機(jī)構(gòu)以充分的課題和經(jīng)費(fèi)支持。比如,國務(wù)院2017年印發(fā)的《新一代人工智能發(fā)展規(guī)劃》指出,我國人工智能發(fā)展的重點(diǎn)任務(wù)之一就是要建立新一代人工智能關(guān)鍵共性技術(shù)體系,其中就包含了自然語言處理技術(shù)[32]。這就為相關(guān)技術(shù)的研發(fā)提供了政策保障。其次,積極開展實(shí)驗(yàn)研究和關(guān)鍵技術(shù)的攻關(guān)工作。除了政策和經(jīng)費(fèi)的支持外,還需要專業(yè)的研究人員開展技術(shù)攻關(guān)工作,如漢語篇章結(jié)構(gòu)分析技術(shù)、語義結(jié)構(gòu)分析技術(shù)、文本情感風(fēng)格分析技術(shù)等。這需要大力培養(yǎng)和引進(jìn)擁有相關(guān)專業(yè)知識的高端人才,并積極開展實(shí)驗(yàn)研究??傊枰獜恼吆涂蒲袃煞矫嫒胧?,來實(shí)現(xiàn)對漢語智能作文評價(jià)技術(shù)的突破。
2.大力開展智能作文評價(jià)效果的實(shí)證研究
從一線語文教師的使用體驗(yàn)和國內(nèi)已有的研究來看,智能作文評價(jià)在減輕教師工作負(fù)擔(dān),提升作文評價(jià)效率方面具有明顯的正向效果,并且也有助于提升學(xué)生的作文成績。但總體來說,目前有關(guān)智能作文評價(jià)效果的實(shí)證研究依然有限。實(shí)證研究是國際教育研究領(lǐng)域中運(yùn)用非常廣泛的研究方法,它的基本特征是用“事實(shí)”而不是“邏輯思辨”的方式論證[3],在測評智能作文評價(jià)的效果中具有較強(qiáng)的說服力。因此,未來應(yīng)鼓勵研究者大力開展智能作文評價(jià)效果的實(shí)證研究。具體可以從以下幾個方面展開:首先,擴(kuò)大研究內(nèi)容,對智能作文評價(jià)所能涉及和影響到的寫作教學(xué)的各個方面,如對學(xué)生動機(jī)的影響、對教師寫作教學(xué)的支持等進(jìn)行系統(tǒng)研究。其次,針對不同研究之間具有分歧的結(jié)果,需要反復(fù)驗(yàn)證,嚴(yán)格做好實(shí)驗(yàn)設(shè)計(jì)、控制好各類變量,審慎對待各種不同的結(jié)果。并且,涉及結(jié)論有分歧的智能作文評價(jià)工具或功能,需要在教學(xué)實(shí)踐中暫時(shí)擱置,以待有足夠的證據(jù)證明其實(shí)際效果。最后,擴(kuò)大研究工具的選用范圍,對實(shí)踐中常見的智能作文評價(jià)工具進(jìn)行全面的實(shí)證研究,而非局限于其中的一種或幾種。并且,也可以選用不同的評價(jià)工具進(jìn)行比較研究,以比較不同工具的評價(jià)效果,總結(jié)其優(yōu)缺點(diǎn),以供教師進(jìn)行有選擇地使用。
3.全面開發(fā)智能作文評價(jià)工具的應(yīng)用策略
智能作文評價(jià)工具現(xiàn)今已經(jīng)開始進(jìn)入到中小學(xué)語文課堂教學(xué)中,關(guān)于如何應(yīng)用智能作文評價(jià)工具,一些教師和研究者也進(jìn)行了初步的探索,并提出了一些切實(shí)可行的策略。未來,相關(guān)研究還需要從以下幾個方面進(jìn)行細(xì)化。首先,系統(tǒng)、科學(xué)、通用的作文評價(jià)指標(biāo)體系是智能作文評價(jià)的基礎(chǔ),面對當(dāng)前評價(jià)指標(biāo)體系缺失的現(xiàn)狀,需要開發(fā)和設(shè)計(jì)出分文體、分層級、可循證的作文評價(jià)指標(biāo)體系,并將其作為程序或提示語輸入到智能作文評價(jià)工具中,以確保教師與評價(jià)工具的評價(jià)標(biāo)準(zhǔn)保持一致性。開發(fā)這一指標(biāo)體系的路徑主要有兩條,一是確定中小學(xué)寫作的不同類型,二是基于文本類型進(jìn)行細(xì)致的表現(xiàn)型評價(jià)指標(biāo)研發(fā)。這方面可以借鑒美國寫作標(biāo)準(zhǔn)的做法,即“先進(jìn)行通用文章的基礎(chǔ)等級表現(xiàn)指標(biāo)的描述,然后基于文學(xué)類和實(shí)用類文本進(jìn)行不同大類特征的描述,接下來再進(jìn)行各種特殊文體的具體表現(xiàn)性評價(jià)指標(biāo)的描述”[34]。其次,在應(yīng)用策略方面,當(dāng)前關(guān)于學(xué)生在智能作文評價(jià)工具應(yīng)用中的角色和學(xué)習(xí)策略方面的研究是比較缺失的,今后需要加強(qiáng),如學(xué)生在應(yīng)用智能作文評價(jià)工具時(shí)所面臨的風(fēng)險(xiǎn)及應(yīng)對、影響學(xué)生使用智能作文評價(jià)工具的因素、智能作文評價(jià)工具應(yīng)用的方式與程序、對智能作文評價(jià)工具功能的批判性認(rèn)識、基于智能作文評價(jià)開展自我反思與改進(jìn)等。
綜上所述,智能作文評價(jià)是寫作教學(xué)的重要輔助,隨著人工智能技術(shù)的快速發(fā)展,會有越來越多的智能作文評價(jià)工具涌現(xiàn),其對寫作教學(xué)的影響也將更為全面和深刻,這意味相關(guān)研究也要隨之走向深化。本文既是對智能作文評價(jià)研究的階段性總結(jié),也是對已有成果的檢視。未來,智能作文評價(jià)研究需要及時(shí)回應(yīng)技術(shù)的發(fā)展與革新,并嚴(yán)格遵循教育和學(xué)生的發(fā)展規(guī)律,以保證研究的時(shí)代性和科學(xué)性。
[本文系2023年國家社會科學(xué)基金重大項(xiàng)目“世界創(chuàng)意寫作前沿理論文獻(xiàn)的翻譯、整理與研究”(編號:23amp;ZD294)、2024年研究生科研創(chuàng)新項(xiàng)目“基于生成式人工智能的寫作課程知識生產(chǎn)與循證實(shí)踐(編號:SWUB24060)研究成果]
參考文獻(xiàn)
[1]劉正偉.語文教育現(xiàn)代性探索[M].北京:商務(wù)印書館,2014:343
[2]孫偉平.人工智能與人的“新異化”[J].中國社會科學(xué),2020(12).
[3]韓寧,幾個英語作文自動評分系統(tǒng)的原理與評述[J].中國考試(研究版),2009(3).
[4]吳一凡,李艷.智能作文評價(jià)推動寫作教學(xué)變革[J].上海教育,2023(26).
[5]榮維東,李自然.智能寫作評價(jià)及其技術(shù)發(fā)展[J].中小學(xué)數(shù)字化教學(xué),2021(9).
[6]吳恩慈,田俊華,漢語作文自動評價(jià)及其關(guān)鍵技術(shù)一一來自作文自動評價(jià)(AEE)的經(jīng)驗(yàn)[J].教育測量與評價(jià),2019(8).
[7]王耀華,李舟軍,何躍鷹,等.基于文本語義離散度的自動作文評分關(guān)鍵技術(shù)研究[J].中文信息學(xué)報(bào),2016(6).
[8]陳宇航,楊勇,帕力旦·吐爾遜,等.融合句法特征與語義特征的作文自動評分方法[J].計(jì)算機(jī)與現(xiàn)
新寫作教學(xué)/中學(xué)語文/2025年5月/上025
代化,2024(11).
[9]鐘啟東,張景祥,嵌入語言深度感知的漢語作文評分算法[J].計(jì)算機(jī)工程與應(yīng)用,2020(8).
[10]曹亦薇,楊晨,使用潛語義分析的漢語作文自動評分研究[J].考試研究,2007(1).
[11]陳瀟瀟,葛詩利.自動作文評分研究綜述[J]解放軍外國語學(xué)院學(xué)報(bào),2008(5)
[12]N.M.Bui,J.S.Barrot.ChatGPT as an Automated Essay Scoring Tool in the Writing Classrooms:How It Compares with Human Scoring[J]. Educational and Information Technologies,2025(2).
[13]A.Potter,J.Wilson.Statewide Implementation ofAutomatedWriting Evaluation: Analyzing Usage and Associations with State Test Performance in Grades4-11[J].Etramp;D-Educational Technology Researchand Development,2021(3).
[14]H.Misgna,B.W.On,I.Lee,G.S.Choi. ASurvey on Deep Learning-based Automated Essay Scoring and Feedback Generation[J].Artificial Intelligence Review,2024(2).
[15]l.lvanovic.Can Al-assisted Essay Assessment Support Teachers ? A Crosssectional Mixed-methods Research Conducted at theUniversityof Montenegro[J].Annales-Anali za Istrske in Mediteranske Studije-Series Historiaet Sociologia,2023(3).
[16]劉淑君,李艷,楊普光,等.智能作文評價(jià)的效果研究[J].開放教育研究,2021(3).
[17]劉淑君,李艷,何躍偉,等.智能作文反饋能提升中學(xué)寫作教學(xué)效果嗎?[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2022(9).
[18]吳軍其,劉萌,王嘉桐,等.AIGC輔助教師作文評價(jià)的效果研究一一以九年級語文作文為例[J].現(xiàn)代教育技術(shù),2024(10).
[19]中華人民共和國教育部.基礎(chǔ)教育課程教學(xué)改革深化行動方案[EB/OL].(2023-05-26)[2025-02-23].http://www.moe.gov.cn/srcsite/A26/jcj_kcjcgh/202306/t20230601_1062380.html.
[20]上觀新聞.當(dāng)DeepSeek成為“教育新基建”,“教學(xué)生產(chǎn)力”將得到怎樣的釋放?[EB/OL].(2025-02-23)[2025-02-24].https://sghexport.shobserver.com/html/baijiahao/2025/02/23/1518540.html.
[21]劉兵.系統(tǒng)構(gòu)建·精準(zhǔn)反饋·個性提升一大數(shù)據(jù)時(shí)代作文網(wǎng)絡(luò)智能評價(jià)的探索與實(shí)踐[J].湖南教育(D版),2020(11).
[22]劉兵,易海華.中文寫作智能批閱的精準(zhǔn)實(shí)施與結(jié)果的有效運(yùn)用[J].中小學(xué)數(shù)字化教學(xué),2021(9).
[23]張悅,魏順平.數(shù)智時(shí)代語文作文評價(jià)工具的比較和選用一一基于5款作文批改App的分析研究[J].中小學(xué)信息技術(shù)教育,2024(Z1).
[24]鐘傳袆.基于智能評測的作文課堂講評范式[J]語文教學(xué)通訊,2024(15).
[25]鐘傳祎.基于智能批閱平臺的作文增值評價(jià)[J]小學(xué)語文教師,2024(10).
[26]鐘傳祎.基于智能批閱平臺的作文檔案袋評價(jià)探索[J].語文教學(xué)通訊,2023(36).
[27]張正文.合理利用AI技術(shù),助力學(xué)生作文評改[J].語文教學(xué)通訊,2025(2).
[28]蔣峰,范亞鑫,褚曉敏,等,英漢篇章結(jié)構(gòu)分析研究綜述[J].軟件學(xué)報(bào),2023(9).
[29]龔志民,要理性認(rèn)識中文寫作智能批閱技術(shù)的運(yùn)用[J].中小學(xué)數(shù)字化教學(xué),2021(9).
[30]王欽煬,施水才,王洪俊.文本情感分析綜述[J]軟件導(dǎo)刊,2025(1).
[31]鄒佳叡,榮維東,我國生成式人工智能賦能教育的研究現(xiàn)狀與展望[J].成都師范學(xué)院學(xué)報(bào),2024(6)
[32]中華人民共和國國務(wù)院.新一代人工智能發(fā)展規(guī)劃[EB/OL].(2017-07-20)[2025-02-27].https://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[33]劉良華.教育研究方法[M].上海:華東師范大學(xué)出版社,2014:12.
[34]榮維東.研制分類分級可循證的寫作評價(jià)指標(biāo)體系[J].語文建設(shè),2021(1).