一、問題提出
長期以來,傳統(tǒng)人工評價在教育評價中占據(jù)主導地位。然而,隨著教育規(guī)模擴張和評價需求復雜化,人工評價的局限性日益顯現(xiàn)。1]人工評價不僅耗時費力、成本高昂,且易受評價者主觀因素影響,難以保證評價的客觀性、公正性和一致性,制約了教育評價的整體效能。
近年來,以ChatGPT為代表的生成式人工智能技術(shù)對各行各業(yè)產(chǎn)生了深遠影響,教育領(lǐng)域也不例外。[2]自然語言處理(NLP)、機器學習(ML)等人工智能技術(shù)在文本分析、模式識別等方面取得了顯著進展,為教育評價的自動化、智能化提供了技術(shù)支撐。3]其中,智能評分作為一種新興的教育評價手段,受到了越來越多的關(guān)注[4]它利用計算機程序?qū)ξ谋具M行自動分析和評估,能夠快速、客觀地給出評分結(jié)果,具有高效、經(jīng)濟、可擴展等優(yōu)勢,為解決傳統(tǒng)人工評價面臨的困境提供了新的解決方案。2025年政府工作報告提出“持續(xù)推進‘人工智能’ + 行動”,并將“支持大模型廣泛應(yīng)用”首次寫入報告。5]這表明國家層面高度重視人工智能技術(shù)的發(fā)展和應(yīng)用,也為本研究提供了重要的政策背景和發(fā)展機遇。
在眾多大語言模型中,DeepSeek作為國內(nèi)自主研發(fā)的大規(guī)模語言模型,具有多項技術(shù)優(yōu)勢。Deep-Seek-R1在后訓練階段大規(guī)模使用了強化學習技術(shù),在極少標注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學、代碼、自然語言推理等任務(wù)上,性能比肩OpenAIo1正式版。[6DeepSeek-R1與o1定位相似,但其開源屬性和低成本API提供了更高性價比,較低的技術(shù)門檻便于社區(qū)二次開發(fā),特別是完整公開的“推理鏈”機制,為科研人員理解模型邏輯提供了獨特優(yōu)勢。7]與國際主流模型相比,Deep-Seek在中文語義理解、學術(shù)文本評估和教育場景適應(yīng)性方面具有獨特優(yōu)勢,且支持本地化部署,有助于保護數(shù)據(jù)安全和隱私。[8]本研究選擇DeepSeek 作為研究對象,旨在通過將DeepSeek的評分結(jié)果與專家評分進行系統(tǒng)對比分析,深入考察DeepSeek在教學創(chuàng)新報告評價中的效度、信度及應(yīng)用價值,全面揭示其在文本評分方面的優(yōu)勢與局限性,為智能評分技術(shù)在高等教育領(lǐng)域的科學應(yīng)用提供實證參考和理論依據(jù),并深入探索國產(chǎn)大語言模型在教育評價領(lǐng)域的應(yīng)用潛力,為“人工智能+”教育提供本土化解決方案。
二、文獻回顧
智能評分作為一種新興的教育評價手段,其研究歷史可以追溯到上世紀六十年代。早期的智能評分系統(tǒng)主要基于簡單的詞匯統(tǒng)計和語法規(guī)則,對文本進行淺層分析和評估。9隨著計算機技術(shù)的不斷發(fā)展,機器學習技術(shù)逐漸被引入到智能評分領(lǐng)域?;跈C器學習的智能評分系統(tǒng)能夠自動學習文本的特征,并建立評分模型,從而提高評分的準確性和可靠性。近年來,深度學習技術(shù)的突破性進展為智能評分帶來了新的機遇?;谏疃葘W習的智能評分系統(tǒng)能夠自動學習文本的深層語義特征,從而更加準確地評估文本的質(zhì)量。
在國外,智能評分的研究和應(yīng)用已經(jīng)相對成熟。Shermis和Burstein(2016)對智能評分領(lǐng)域的研究進行了元分析,結(jié)果表明智能評分在整體上具有較高的效度和信度,能夠有效地輔助人工評價。[0]Zhai和Ma(2023)通過元分析發(fā)現(xiàn),自動化寫作評估對寫作質(zhì)量具有顯著的積極影響,尤其對非英語母語學習者和議論文寫作效果更佳。[1]許多商業(yè)化的智能評分系統(tǒng),如e-rater、Criterion等,已經(jīng)被廣泛應(yīng)用于各種教育考試和寫作教學中。這些系統(tǒng)不僅能夠提供評分結(jié)果,還能夠為學生提供個性化的寫作反饋,幫助他們提高寫作水平。
在國內(nèi),智能評分的研究和應(yīng)用起步較晚,但近年來也取得了顯著進展。江進林和陳丹丹(2021)對國內(nèi)外英語作文、英/漢翻譯和英語口語自動評分研究的發(fā)展脈絡(luò)進行了回顧,并對各項技術(shù)的優(yōu)勢和不足之處進行了評價。他們指出,當前智能評分研究面臨的困難和挑戰(zhàn)包括:如何提高智能評分的準確性和可靠性,如何應(yīng)對智能評分在應(yīng)用過程中可能出現(xiàn)的倫理和社會問題等。[12]隨著人工智能技術(shù)的不斷發(fā)展,智能評分的應(yīng)用范圍也日益擴大。王冠和魏蘭(2024)探討了人工智能大模型技術(shù)在教育考試全題型閱卷中的應(yīng)用,結(jié)果表明人工智能大模型技術(shù)在閱卷速度、輔助定標成效、AI評分質(zhì)量等方面均得到有效驗證。[13]宛平等(2024)構(gòu)建了一個生成式人工智能支持的人機協(xié)同評價實踐模式,并以上海市H大學開展的基于問題解決的主觀作業(yè)評價活動為例,解釋了如何應(yīng)用生成式人工智能支持人機協(xié)同評價。[14]
盡管智能評分具有諸多優(yōu)勢,但其信度問題仍然備受關(guān)注。白麗芳和王建(2018)以“中國學習者英語語料庫”中的大學英語四、六級考試作文為研究樣本,比較了專家評分和國內(nèi)某自動評分系統(tǒng)結(jié)果的差異,結(jié)果顯示自動批改系統(tǒng)整體評分效度有待提高,機器所依賴的語言類量化特征在人工批改中的作用有限,評分依據(jù)的不同造成兩者結(jié)果的差異。[15]何屹松等(2018)通過實驗探索了人工智能評測技術(shù)在人工網(wǎng)上評卷質(zhì)量監(jiān)控中的應(yīng)用及其他相關(guān)應(yīng)用。實驗結(jié)果表明,智能閱卷基本上達到了與評卷教師相當?shù)乃?,且始終采用統(tǒng)一的評分標準,更具客觀公正性,能為人工網(wǎng)上評卷提供有效的質(zhì)量監(jiān)控[16]孫海洋和張敏(2020)對比了訊飛口語自動評分系統(tǒng)和專家評分員對學生的口試任務(wù)錄音的評分結(jié)果,發(fā)現(xiàn)機器對不同類型的口試任務(wù)的評分存在顯著的偏差,機評和人評以及專家評分員之間的嚴厲度均有顯著的差異。17]陸俊花(2022)以英語學習者故事復述評分為例,比較了人工智能背景下智能評分與專家評分的效度,結(jié)果表明人工評閱得分均值和機器評閱得分高度一致且無顯著差異。[18]王偉和趙英華(2023)基于多次CET-SET模擬考試智能評分技術(shù)實驗數(shù)據(jù),探討了智能評分技術(shù)與專家評分相結(jié)合的人機協(xié)同評分質(zhì)量控制方法的可行性。研究發(fā)現(xiàn),不同定標方式下,計算機評分結(jié)果穩(wěn)定、可靠;整卷評分方式下,計算機智能評分可作為一評或第三評質(zhì)檢;在不同任務(wù)維度上,對不同題型任務(wù)可靈活選擇不同評分方式。[19]
為了提高智能評分的效度,研究者們不斷探索新的技術(shù)和方法。楊麗萍和辛濤(2021)從能力測量視角出發(fā),探討了寫作自動化評分研究的核心問題。他們認為,寫作自動化評分體系的建構(gòu)需要以寫作評價標準為依據(jù),建立具備解釋性的特征體系,突破擬合專家評分的局限,從分數(shù)預測模型拓展到能力測量模型,探索寫作各能力維度的評估模型。[20]肖國亮等(2023)提出了智能評分的研究和應(yīng)用框架,在文獻分析和實踐經(jīng)驗基礎(chǔ)上提出面向機器學習專家和面向領(lǐng)域評分專家的評價指標,形成一套智能評分應(yīng)用效果綜合評價方案。[21]
綜上所述,智能評分作為一種新興的教育評價手段,具有廣闊的應(yīng)用前景和巨大的發(fā)展?jié)摿?。然而,智能評分在實際應(yīng)用中仍然面臨諸多挑戰(zhàn),例如如何提高評分的準確性和可靠性,如何應(yīng)對智能評分在應(yīng)用過程中可能出現(xiàn)的倫理和社會問題等。因此,需要對智能評分的效度、信度和可行性進行系統(tǒng)而深入的研究,為智能評分在教育領(lǐng)域的應(yīng)用提供科學的依據(jù)和指導。
三、研究設(shè)計
(一)研究方法
本研究主要采用量化研究方法,側(cè)重于對評分數(shù)據(jù)進行精確測量和統(tǒng)計分析。我們將運用相關(guān)性分析、t檢驗、分位數(shù)比較等統(tǒng)計方法,采用SPSS28.0統(tǒng)計軟件進行數(shù)據(jù)分析,量化DeepSeek評分與專家評分之間的關(guān)聯(lián)程度和差異程度。這種量化分析的手段有助于我們更準確地評估DeepSeek的評分表現(xiàn)。
為了充分發(fā)揮智能評分在教育評價中的積極作用,并最大限度地減少其潛在風險,需要對智能評分的效度、信度和可行性進行系統(tǒng)而深人的研究。效度是衡量智能評分是否能夠準確反映被評價對象真實水平的關(guān)鍵指標。信度則關(guān)注智能評分結(jié)果的穩(wěn)定性和一致性??尚行詣t需要綜合考慮智能評分在實際應(yīng)用中的效率、成本、公平性等因素。只有在充分了解智能評分的效度、信度和可行性的基礎(chǔ)上,才能合理地將其應(yīng)用于教育評價實踐,從而提升教育評價的整體質(zhì)量和效率。
(二)研究樣本
研究選取了某高校教學創(chuàng)新大賽中提交的240份創(chuàng)新報告(以下簡稱“報告”)作為研究樣本,覆蓋醫(yī)藥( 42% 、理工( 33% )、人文社科( 25% )的不同教學主題,具有一定的代表性和多樣性。該賽事對報告有非常規(guī)范嚴格的要求,并附有成熟科學的評價指標,具有標準、穩(wěn)定的特征,作為研究對象是非常理想的研究材料。
為了確保研究的客觀性和公正性,所有報告均已匿名處理,以避免任何潛在的偏見。報告文本以電子文檔的形式保存,并按照統(tǒng)一的命名規(guī)則進行管理,以便后續(xù)的數(shù)據(jù)處理和分析。報告文本的內(nèi)容質(zhì)量直接影響DeepSeek模型的評分效果,同時,為了方便DeepSeek模型進行學習和評分,需要對報告文本進行預處理,仔細檢查和校對每一份報告,例如去除格式標記、糾正拼寫錯誤、確保其內(nèi)容完整、表達清晰等。
(三)數(shù)據(jù)收集
本研究進行了全面而嚴謹?shù)臄?shù)據(jù)收集與整理工作。數(shù)據(jù)來源于兩個方面:專家評審的分數(shù)和DeepSeek評審的分數(shù)。
本研究的報告分為三組,每組邀請了七位全國高校遴選的具有豐富教學經(jīng)驗和評審經(jīng)驗的專家進行線上評分。專家熟悉大賽的評分標準,獨立閱讀和評估每一份報告,給出相應(yīng)的分數(shù)。為了減少主觀因素的影響,研究采用了“去除最高分和最低分后取平均值”的方法,計算每份報告的專家平均分。這種方法可以有效降低個別專家評分偏差對最終結(jié)果的影響,提高評分的客觀性和準確性。
本研究采用DeepSeek提供的應(yīng)用程序編程接口(API)實現(xiàn)對報告的自動評分。首先,需要注冊并獲取DeepSeekAPI的訪問密鑰。然后,編寫Python腳本,利用requests庫構(gòu)建HTTP請求,將大賽的通知、評價指標和240份報告作為請求參數(shù)發(fā)送至DeepSeekAPI端點。程序?qū)⒀h(huán)遍歷所有報告,并解析 API返回的 JSON 格式數(shù)據(jù),從中提取 Deep-Seek給出的評分結(jié)果,并將評分結(jié)果與對應(yīng)的報告編號存儲,以便后續(xù)的數(shù)據(jù)分析。
獲得兩組分數(shù)后,研究者認真檢查了數(shù)據(jù),并將兩組數(shù)據(jù)以表格的形式保存,內(nèi)容報告:編號、報告名稱、評分、排名等,可以確保本研究的數(shù)據(jù)具有較高的質(zhì)量和可靠性。
四、研究結(jié)果
(一)效度分析
效度指的是測量工具是否準確地測量了它應(yīng)測量的內(nèi)容,換句話說,它反映了測量的結(jié)果與實際目標之間的吻合程度。在這組數(shù)據(jù)中,以下指標與效度相關(guān):
1.相關(guān)系數(shù)(r):相關(guān)系數(shù)反映了專家評分和智能評分之間的關(guān)系。它衡量了兩者之間的線性相關(guān)程度,因此可以用來評估智能評分系統(tǒng)是否能夠有效地模仿專家評分系統(tǒng)。根據(jù)對數(shù)據(jù)進行的統(tǒng)計分析,得到專家評分和智能評分兩組的描述性統(tǒng)計
經(jīng)過計算,本研究的相關(guān)系數(shù) r=0.848 ,該值表示智能評分和專家評分之間有較強的正相關(guān)關(guān)系,表明智能評分在一定程度上具有較高的效度。
2.評分差異的分布:評分差異的分析也可以部分反映效度。如果智能評分和專家評分之間的差異較?。ń咏悖?,這意味著智能評分系統(tǒng)能夠準確地反映專家評分的標準,進一步支持智能評分的效度。
圖1展示了智能評分與專家評分之間的差異分布:評分差異在0到1區(qū)間內(nèi)的柱子較高,這表示大多數(shù)評分的差異值都落在這個區(qū)間,表明智能評分與專家評分非常接近。評分差異的絕大部分在-4到3范圍內(nèi),差異較大的情況較少。這種分布表明智能評分和專家評分之間具有很高的一致性,差異較小,且沒有顯著的偏倚。
3.評分一致性。按比賽規(guī)定,本研究將組內(nèi)排名前 30% 的報告標記為優(yōu)秀報告。專家評分識別出優(yōu)秀作品70件,智能評分識別出優(yōu)秀作品65件,其中兩者一致評為優(yōu)秀作品的有58件。那么,智能評分與專家評分在優(yōu)秀作品識別上的準確率達到了(58/65)=89% 。這意味著,智能評分系統(tǒng)在識別優(yōu)秀作品時,有 89% 的準確率與專家評分一致。
(二)信度分析
信度指的是測量工具在重復測量時的一致性或穩(wěn)定性。信度高的測量工具能夠在不同時間、地點或不同評估者之間得到一致的結(jié)果。在這組數(shù)據(jù)中,以下指標與信度相關(guān):
從表2看,在所有分位數(shù)( 25% 、 50% 、 75% ))上智能評分和專家評分之間的差異是負值,表示智能評分普遍高于專家評分。一致為負的評分差異可能表明智能評分系統(tǒng)中存在系統(tǒng)性偏差,即它傾向于略微高估評分。而且智能評分和專家評分的差異在 50% 和 75% 的分位數(shù)下,差異進一步減小,表示對于較高質(zhì)量或表現(xiàn)較好的項目(即位于較高分位數(shù)段的項目),智能評分更接近專家評分。這進一步說明智能評分和專家評分之間的差異較為微小,且不會對總體評分分布產(chǎn)生顯著影響。
2.t值與p值:配對樣本t檢驗的結(jié)果(例如t值和p值)主要用于評估評分差異是否顯著。如果p值較大(如 p= 0.035 ),說明智能評分與專家評分之間存在一定的顯著差異,可能意味著智能評分的信度較低。若t值接近零且 p 值較大,則表明評分系統(tǒng)在不同時間或不同評估者間的一致性較高。
本研究 t=0.57 , p=0.23 ,且 pgt;0.05 ,意味著智能評分和專家評分之間不存在統(tǒng)計學意義上的顯著差異。
3.重測信度:本研究對DeepSeek進行了重測信度評估,以檢驗其評分結(jié)果的穩(wěn)定性。研究者間隔一周后,使用同一DeepSeek 模型再次對240份文本進行評分,并計算兩次評分間的相關(guān)系數(shù)。結(jié)果顯示,重測信度 r=0.893 ,這表明DeepSeek的評分結(jié)果具有較高的穩(wěn)定性,不受時間因素的顯著影響。
(三)可行性分析
本研究對DeepSeek自動評分系統(tǒng)的可行性進行了多維度評估,主要考察了其在效率、成本、公平性及用戶反饋等方面的表現(xiàn)。通過深人分析這些關(guān)鍵要素,旨在全面評估該系統(tǒng)在實際應(yīng)用中的潛力和優(yōu)勢。
1.效率分析。比較DeepSeek自動評分系統(tǒng)與專家評分所需的時間差異是至關(guān)重要的。結(jié)果表明,專家完成全部的評審任務(wù)用了10天時間(因其中兩位專家在規(guī)定的7天內(nèi)未能完成評審任務(wù),故延長3天完成),DeepSeek完成一輪評審的時間不到兩個小時,表明其在處理評分任務(wù)時具有更高的效率和顯著的時間節(jié)約優(yōu)勢。這種效率優(yōu)勢使其適用于需要快速批量評分的場景,例如大規(guī)模教育考試或內(nèi)容審核。
2.成本分析。DeepSeek自動評分系統(tǒng)的使用能夠顯著降低評分成本。傳統(tǒng)的專家評分不僅需要支付專家的勞動報酬,還需要考慮到專家的時間消耗和勞動強度,而DeepSeek的評分系統(tǒng)則需要支付計算資源、算法開發(fā)及維護成本。但一旦系統(tǒng)投入運行,它能夠通過大規(guī)模的自動化評分降低整體評分成本,且隨著使用次數(shù)的增加,單次評分成本顯著低于專家評分。因此,從長遠來看,DeepSeek不僅提高了評分效率,還能夠節(jié)省人力成本,是一個經(jīng)濟高效的評分解決方案。
3.公平性分析。公平性是評估評分系統(tǒng)可行性的重要維度,尤其是在多樣化背景下。為考察DeepSeek的評分公正性,本研究設(shè)計了專門的測試,重點檢查系統(tǒng)是否存在對不同類型報告或作者的系統(tǒng)性偏差。結(jié)果顯示,DeepSeek在多個類別報告上的評分標準一致,未表現(xiàn)出顯著偏倚。這表明 Deep-Seek在評分過程中能夠保持較高的公正性,有效避免人工評分中可能存在的主觀偏差。
4.專家反饋。我們通過對參與評審的專家進行問卷調(diào)查,收集了他們對DeepSeek評分系統(tǒng)的看法和意見。調(diào)查結(jié)果表明,大多數(shù)專家對DeepSeek的評分效果表示認可,認為其能夠減輕他們的工作負擔,提高評分效率,使得他們能夠?qū)⒏嗟臅r間投入到其他關(guān)鍵任務(wù)中,并且肯定評分結(jié)果與專家評分相近。此外,專家們也普遍支持以后使用Deep-Seek協(xié)助開展評審。然而,也有部分專家提出了一些技術(shù)上的建議,主要集中在系統(tǒng)的易用性和某些特殊情況下的評分準確度問題。這些反饋為我們進一步改進系統(tǒng)提供了寶貴的參考。
5.技術(shù)易用性。技術(shù)易用性是評估DeepSeek系統(tǒng)實際可操作性的關(guān)鍵因素。盡管DeepSeek系統(tǒng)的開發(fā)和運行依賴于人工智能、自然語言處理及大數(shù)據(jù)分析等領(lǐng)域的專業(yè)知識,但隨著技術(shù)成熟,系統(tǒng)已提供簡化的用戶界面,降低了非專業(yè)用戶的操作難度。同時,DeepSeek的部署和使用過程相對簡便,用戶可通過網(wǎng)絡(luò)平臺直接訪問評分功能,無需復雜的技術(shù)安裝和維護。
綜上所述,通過對效率、成本、可行性的全面分析,DeepSeek自動評分系統(tǒng)在多個維度上展現(xiàn)了較強的可行性。其不僅能夠提高評分效率,降低成本,還能確保評分的公平性和準確性。同時,通過專家反饋,我們能夠發(fā)現(xiàn)并改進其在實際應(yīng)用中的問題,從而進一步提升系統(tǒng)的實用性和可靠性。
五、結(jié)論與展望
(一)結(jié)論
本研究旨在評估基于DeepSeek的智能評分系統(tǒng)在文本評價中的應(yīng)用效果,重點分析其效度、信度與可行性。通過與專家評分進行對比,本研究發(fā)現(xiàn)DeepSeek系統(tǒng)在評分的準確性和一致性方面表現(xiàn)出較高的效度,并且在評分過程中的信度也得到了較好的驗證。具體而言,DeepSeek的評分結(jié)果與專家評分之間呈現(xiàn)出較高的相關(guān)性,評分差異較小,且識別優(yōu)秀作品的準確率達到了 89% 。特別是在中國高校教學創(chuàng)新這一特定語境下,DeepSeek表現(xiàn)出優(yōu)秀的領(lǐng)域適應(yīng)性和文化敏感性,能夠準確理解中國教育背景下的創(chuàng)新理念和教學實踐。評分結(jié)果在學科多樣化背景下表現(xiàn)出較高的公平性,有效避免了人為偏倚。此外,該系統(tǒng)顯著提高了評分效率,為大規(guī)模評估節(jié)省了大量時間,并大幅降低了評分成本,經(jīng)濟效益顯著。專家反饋也證實,DeepSeek能夠有效減輕評審工作負擔。這表明,DeepSeek作為國產(chǎn)大語言模型在模擬專家評分方面具有較強的能力,為教育評價提供一種更客觀、高效的輔助手段,同時在支持國產(chǎn)大模型應(yīng)用創(chuàng)新方面具有示范意義。
(二)展望
盡管DeepSeek表現(xiàn)良好,但在實際應(yīng)用中仍然存在一些局限性。首先,DeepSeek系統(tǒng)的本地部署投入成本較高,尤其是在開發(fā)與維護階段。其次,DeepSeek在面對特殊情況或復雜文本時的表現(xiàn)可能會受到一定的限制,如無法推理圖片的內(nèi)容并做出判斷,且難以捕捉評分標準的細微差異,表明系統(tǒng)在某些任務(wù)或文本類型的評分上可能存在一定的誤差。最后,對于組織者和評審者而言,無差別熟練掌握人工智能技術(shù)本身也是一個挑戰(zhàn)。
未來研究應(yīng)致力于以下幾個方向:一是優(yōu)化DeepSeek的評分算法,提高其對復雜文本和特殊情境的識別能力,特別是加強多模態(tài)理解能力,使其能夠綜合分析文本與圖表內(nèi)容;二是開發(fā)更加友好的用戶界面和操作流程,降低技術(shù)使用門檻,使教育工作者能夠便捷地應(yīng)用智能評分工具;三是探索DeepSeek在更多元化教育評價場景的適應(yīng)性,如實驗報告、創(chuàng)新設(shè)計、跨學科項目等領(lǐng)域;四是建立健全的人機協(xié)同評價機制,充分發(fā)揮人工專家與智能系統(tǒng)各自優(yōu)勢,實現(xiàn)評價質(zhì)量與效率的雙重提升;五是加強數(shù)據(jù)安全與倫理規(guī)范研究,確保在推進智能評價普及過程中保護學生隱私和維護評價公平。通過這些努力,將有助于推動“人工智能 + ”在教育評價領(lǐng)域的深度融合與創(chuàng)新發(fā)展,為構(gòu)建更加科學、高效的教育評價體系提供有力支持。
參考文獻:
[1]SADLER D R. Indigestion and Regulation: AssigningMarks in Degree-Level Assessment[J].Assessmentamp; Evaluationin Higher Education,2009(5):481-497.
[2]石秀選,李均.生成式人工智能技術(shù)賦能大 學學術(shù)評價:機遇、挑戰(zhàn)及應(yīng)對[J].高教探索,2024 (4):5-13.
[3][9]PAGE EB.The Imminence ofGradingEssaysby Computer[J].The Phi Delta Kappan,1966 (6):238-243.
[4][1O]SHERMIS M D,BURSTEIN J.Automated Essay Scoring:A Meta-Analysis and Synthesis of Recent Research[J].Journal of Educational Measurement,2016(3) :249-274.
[5]https://www. gov. cn/yaowen/liebiao/202503/ content_7010168.htm.
[6][8]GUOD,YANGD,ZHANGH,etal. Deepseek -rl: Incentivizing Reasoning Capability in Llms Via Reinforcement Learning[J].Arxiv Preprint Arxiv:2501.12948,2025.
[7]GIBNEY E.What are the Best AI Tools forResearch? Nature’s Guide.Nature.2025 Feb 17.doi:10. 1038/d41586-025 -00437-0. Epub ahead of print. PMID:39962251.
[11]ZHAI N,MA X. The Effectiveness of AutomatedWritingEvaluation on WritingQuality:A Meta-Analysis[J]. Journal of Educational Computing Research, 2023(4):875-900.
[12]江進林,陳丹丹.主觀題自動評分研究:回顧、反思與展望[J].中國外語,2021,18(6):58-64.
[13]王冠,魏蘭.人工智能大模型技術(shù)在教育考試全題型閱卷中的應(yīng)用[J].教育測量與評價,2024,(3):3-18.
[14]宛平,顧小清.生成式人工智能支持的人機協(xié)同評價:實踐模式與解釋案例[J].現(xiàn)代遠距離教育,2024(2):33-41.
[15]白麗芳,王建.人工和機器評分差異比較及成因分析[J].外語測試與教學,2018(3):44-54.
[16]何屹松,孫媛媛,汪張龍,竺博.人工智能評測技術(shù)在大規(guī)模中英文作文閱卷中的應(yīng)用探索[J].中國考試,2018(6):63-71.
[17]孫海洋,張敏.英語口語機器評分和人工評分的對比研究[J].外語研究,2020,37(4):57-62.
[18]陸俊花.人工智能背景下機器評分與人工評分的效度比較:以英語學習者故事復述評分為例[J].成都師范學院學報,2022,38(3):84-92.
[19]王偉,趙英華.人機協(xié)同評分質(zhì)量控制方法[J].外語學刊,2023(4):97-104.
[20]楊麗萍,辛濤.人工智能輔助能力測量:寫作自動化評分研究的核心問題[J].現(xiàn)代遠程教育研究,2021,33(4):51-62.
[21]胡國平,竺博,盛志超,嚴峻.人工智能在教育評測領(lǐng)域的實踐[J].信息技術(shù)與標準化,2017,(11) :27-29.
(責任編輯 劉第紅)