中圖分類號:TP39;G434 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2025)12-0050-09
Comparative Study of Large Language Models and Student Performance in Exams -Taking Qwen asan Example
LING Dalian, FENG Shiying, CHEN Sinan, PAN Weiquan (SchoolofMathematicsandStatistics,YulinNormalUniversity,Yulin537ooo,China)
Abstract: The research focuses on the application potential of Qwen,anAI chatbot driven byLLM,ineducational assessment.Basedon2190fnalexaminationquestionsof“ProbabilityandMathematical Statistics”inauniversityfrom2019 to 2023,eighteachersdouble-blindscoretheQwen Model,theoptimized modelandthestudents'answers.Theresultsshowthat the performanceofQwen isstable in multiplechoicequestions,but thereis muchroomfor improvement intheanswerquestions. EspeciallyafterPromptEngineeringoptimization,theperformanceoftheanswerquestionsissignificantlyimproved.Teachers' scoresonAI-generatedcontentaremorestringent,andthescoresaresignificantlyaffectedbythequestiontypeandtheanswer subject.ThisstudyprovidesempiricalevidenceforAI-assistededucationalassssment,emphasizingtheimportanceofupdating standards and exploring new models.
Keywords:LLM; Qwen; educational assessment; AI-assisted learning
0 引言
隨著信息技術(shù)的迅猛發(fā)展,人工智能(AI)聊天機器人的應(yīng)用在教育領(lǐng)域正逐漸普及。特別是生成式人工智能(GenerativeAI,GAI),它通過各種機器學(xué)習(xí)方法從大量數(shù)據(jù)中學(xué)習(xí)并生成新內(nèi)容,正在改變傳統(tǒng)的教育模式[1]。大型語言模型(LargeLanguageModel,LLM)的進(jìn)步為AI聊天機器人提供了堅實的技術(shù)基礎(chǔ),使其能夠理解和生成自然語言,進(jìn)一步促進(jìn)了教育應(yīng)用的創(chuàng)新與發(fā)展[。
本研究依托于大數(shù)據(jù)背景下地方高校統(tǒng)計類課程實踐能力培養(yǎng)的教學(xué)改革項目(桂教高教[2023]24號,項目編號:2023JGB329)。該項目旨在通過引入先進(jìn)的教育技術(shù)手段,提升學(xué)生的實踐能力和綜合素質(zhì)。作為該項目的一部分,我們選擇了阿里云開發(fā)的大型語言模型—通義千問(Qwen),來探索其在高等教育評估中的應(yīng)用潛力。
Rumjau的社會學(xué)習(xí)理論(SLT)常被視為行為主義(傳統(tǒng)學(xué)習(xí)理論)和認(rèn)知理論之間的中介。Nabavi等人后面提煉出該理論的三個核心概念:觀察學(xué)習(xí)(通過觀察,人們可以學(xué)習(xí))、內(nèi)在強化(心理狀態(tài)是學(xué)習(xí)的重要因素)、建模過程(學(xué)習(xí)不一定導(dǎo)致行為的改變)。Morgan[4指出,如果教師持續(xù)根據(jù)學(xué)生們在智力上的弱點來教授他們,學(xué)生會感到笨拙。Morgan[5的理論表明,如果教師的教學(xué)方法和學(xué)生的技能之間存在不匹配,很可能會發(fā)生負(fù)面結(jié)果。多元智能理論強調(diào)每個學(xué)生都有獨特的智能類型,AI聊天機器人可以根據(jù)個體差異提供定制化的學(xué)習(xí)支持[4]。
這些原則表明,AI聊天機器人可以通過模擬教師反饋和同伴學(xué)習(xí)經(jīng)歷,幫助學(xué)生獲得不同的視角和解答策略,從而促進(jìn)合作學(xué)習(xí)和知識共享。近年來,盡管教育領(lǐng)域?qū)I聊天機器人的研究逐漸增多,但這些研究大多仍處于早期階段,特別是在高等教育評估方面的實證研究較為缺乏[。特別是在K-12教育領(lǐng)域中,已有研究表明AI聊天機器人在教學(xué)中的應(yīng)用前景廣闊,但仍需更多實證研究來驗證其效果[]。因此,亟須更多實證數(shù)據(jù)來探討AI聊天機器人在教育環(huán)境中的影響、挑戰(zhàn)和風(fēng)險。
IDC發(fā)布的《AI大模型技術(shù)能力評估報告2023》[8]顯示,阿里通義千問、百度文心一言、科大訊飛星火等AI在多項技術(shù)指標(biāo)上表現(xiàn)優(yōu)異,這標(biāo)志著AI技術(shù)的發(fā)展已經(jīng)達(dá)到了一個新的高度,能夠為教育領(lǐng)域帶來前所未有的機遇。其中,阿里通義千問以其廣泛的知識、強大的中文理解能力和出色的對話連貫性脫穎而出,能夠處理復(fù)雜的成語、俚語及文化背景問題,提供符合中文習(xí)慣的回答。
PromptEngineering是一門相對較新的學(xué)科,指的是開發(fā)和優(yōu)化提示(prompts)的實踐,以有效利用大型語言模型,尤其是在自然語言處理任務(wù)中[
基于通義千問在中文語言理解和處理方面的優(yōu)勢,以及其在教育場景中的廣泛應(yīng)用潛力,本研究選擇以阿里通義千問(版本號:Qwen2.5,發(fā)布日期:2024年9月19日)為研究對象,系統(tǒng)考察人工智能(AI)聊天機器人在高等教育評估中的應(yīng)用效果及其對教師評估實踐的影響。
具體而言,本研究聚焦以下4個核心問題:
1)教師在評估不同答題主體(學(xué)生、AI)的不同題型答案時,其評分標(biāo)準(zhǔn)和評估行為是否存在顯著差異?2)通義千問在經(jīng)過prompts后,其答題表現(xiàn)是否發(fā)生顯著變化?這種變化在不同題型中是否表現(xiàn)出差異性?3)在相同題型和評分標(biāo)準(zhǔn)下,學(xué)生答案與AI生成答案的得分是否存在系統(tǒng)性差異?這種差異的具體表現(xiàn)和可能原因是什么?4)題型特征(選擇題、填空題、解答題)和答題主體(學(xué)生、AI學(xué)習(xí)前、AI學(xué)習(xí)后)這兩個因素如何交互影響最終的評分結(jié)果?
通過對這些問題的系統(tǒng)研究,本研究旨在為AI技術(shù)在教育評估中的應(yīng)用提供堅實的實證依據(jù),為教育實踐者提供有價值的參考和建議,以共同推動教育領(lǐng)域的創(chuàng)新與發(fā)展。同時,希望通過這種綜合性的探索,更好地理解AI聊天機器人在教育評估中的角色和潛力,指導(dǎo)未來教育技術(shù)的發(fā)展方向,促進(jìn)更加個性化、高效的教學(xué)方法的形成。
1理論框架與技術(shù)基礎(chǔ)
1.1生成式人工智能概述
生成式人工智能是通過各種機器學(xué)習(xí)方法從數(shù)據(jù)中學(xué)習(xí)對象的特征,進(jìn)而生成全新的、完全原創(chuàng)的內(nèi)容(如文字、圖片、視頻)的人工智能[10]。
大型語言模型是一種基于深度學(xué)習(xí)算法的自然語言處理模型,LLM通常在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,從而能夠理解、生成和處理人類語言[1]。
2022年11月上線的ChatGPT(ChatGenerativePretrainedTransformer)是由美國人工智能實驗室OpenAI開發(fā)的人工智能聊天機器人應(yīng)用[1],迅速引發(fā)了關(guān)于其對教育潛在影響的廣泛討論。ChatGPT的優(yōu)勢在于其能夠生成合理的答案,并具備自我改進(jìn)能力,提供個性化和實時的響應(yīng)。這些特點提升了信息獲取的便利性,促進(jìn)了個性化學(xué)習(xí),減輕了教師的工作負(fù)擔(dān),提高了教育效率。然而,它也存在一些劣勢,如缺乏深層理解、難以評估回應(yīng)質(zhì)量、存在偏見風(fēng)險,以及缺乏較高階的思維技能等[12]。
1.2AI聊天機器人在教育中的應(yīng)用
Pradana和Elisa通過文獻(xiàn)計量分析和系統(tǒng)文獻(xiàn)綜述,評估了關(guān)于OpenAIChatGPT在教育中使用的現(xiàn)有研究。自2022年至2023年間,相關(guān)主題的研究文章數(shù)量顯著增加。網(wǎng)絡(luò)分析繪制的研究集群圖譜表明,“挑戰(zhàn)”“教學(xué)”和“知識”等關(guān)鍵詞尚未得到充分研究[13]。
以ChatGPT為代表的通用大模型在教育行業(yè)快速普及,可能引發(fā)教育的系統(tǒng)性變革乃至生態(tài)重構(gòu)[14]。學(xué)生作為教育的主體,其知識體系和思維邏輯結(jié)構(gòu)的培養(yǎng)至關(guān)重要[15]。2024年,Huang等 [16]4 位學(xué)者構(gòu)建了由AI認(rèn)知、AI技能、AI應(yīng)用、AI倫理四大部分組成的人工智能素養(yǎng)(AIL)教育內(nèi)容框架,為我國AIL教育活動的開展提供了參考。
生成式人工智能能夠在學(xué)習(xí)前幫助教師設(shè)定學(xué)習(xí)目標(biāo)、提供個性化資源和推薦學(xué)習(xí)策略,在學(xué)習(xí)過程中進(jìn)行指導(dǎo)、回答問題和提供建議,以及在學(xué)習(xí)后幫助教師評估學(xué)習(xí)效果、進(jìn)行自我反思和規(guī)劃進(jìn)一步的學(xué)習(xí)行動[17]。
Farazouli等人[8]的研究探討了AI聊天機器人對大學(xué)教師評估實踐的影響,發(fā)現(xiàn)教師在評分學(xué)生編寫的文本時表現(xiàn)出降級的模式,即對學(xué)生文本的評估更加嚴(yán)格;聊天機器人生成的文本的通過率在 37.5% 到85.7% 之間,教師對AI生成文本的懷疑率則在 14% 到 23% 之間。這表明教師在面對AI生成內(nèi)容時更趨于謹(jǐn)慎。這一發(fā)現(xiàn)強調(diào)了教師在面對AI生成文本時的挑戰(zhàn),尤其是在維護(hù)學(xué)術(shù)誠信方面。
為了應(yīng)對AI快速解答學(xué)術(shù)問題帶來的潛在作弊風(fēng)險,有學(xué)者建議教育機構(gòu)制定清晰政策,設(shè)計限制AI生成文本的評估方式,以維護(hù)學(xué)術(shù)誠信并減輕技術(shù)的負(fù)面影響[19]。
1.3研究缺口與技術(shù)選擇理由
Qwen(通義千問)是一個全面的語言模型系列,包含具有不同參數(shù)數(shù)量的不同模型。它包括Qwen(基本預(yù)訓(xùn)練語言模型)和Qwen-Chat(使用人工對齊技術(shù)微調(diào)的聊天模型)?;菊Z言模型在眾多下游任務(wù)中始終表現(xiàn)出卓越的性能,而聊天模型,尤其是那些使用來自人類反饋的強化學(xué)習(xí)(RLHF)訓(xùn)練的聊天模型,具有很強的競爭力[20]。
關(guān)于通義千問(Qwen)在高等教育中的應(yīng)用,目前尚缺乏系統(tǒng)研究。隨著生成式AI技術(shù)的快速發(fā)展,教育者需要不斷適應(yīng)新技術(shù),調(diào)整評估標(biāo)準(zhǔn)和方法,同時加強對學(xué)生批判性思維和原創(chuàng)思維能力的培養(yǎng)。
總之,生成式AI在教育領(lǐng)域的應(yīng)用為教師評估實踐帶來了重大影響,既是機遇也是挑戰(zhàn)。教育者應(yīng)積極應(yīng)對這些變化,以確保教育質(zhì)量和學(xué)術(shù)誠信。
2 研究方法
2.1 研究設(shè)計
本研究采用系統(tǒng)化的實驗設(shè)計,旨在有效評估AI技術(shù)在教育評估中的應(yīng)用效果。該設(shè)計包括測試題選擇與準(zhǔn)備、評分環(huán)節(jié)、數(shù)據(jù)收集及分析等環(huán)節(jié)。
2.2測試題選擇與準(zhǔn)備
測試題選自中國某高校數(shù)學(xué)與統(tǒng)計學(xué)院不同專業(yè)2019一2023五個學(xué)年的第一學(xué)期《概率論與數(shù)理統(tǒng)計》課程期末考試真題,共計2190道題目。這些題目涵蓋了選擇題(840道)、填空題(1020道)和解答題(330道),分別考察學(xué)生的知識記憶、理解應(yīng)用和綜合分析能力。其中,解答題根據(jù)難易程度,分為10分制與12分制兩種。所有題目均由該課程的任課教師審核,確保其能有效測量學(xué)生的學(xué)習(xí)目標(biāo)和知識點掌握情況。
2.3 評分環(huán)節(jié)
為提高評分可靠性,研究制定了明確的評分標(biāo)準(zhǔn):
選擇題和填空題的標(biāo)準(zhǔn)為答案與標(biāo)準(zhǔn)答案完全一致則得分;解答題參考了教材中的標(biāo)準(zhǔn)答案和評分細(xì)則,根據(jù)答案的完整性、準(zhǔn)確性和邏輯性評分。(例如,對于一道10分的解答題,如果答案完全正確且邏輯清晰,則得10分;如果答案部分正確,則根據(jù)答對的知識點數(shù)量酌情給分;如果答案完全錯誤或邏輯混亂,則得0分。)
為減少評分主觀性,研究采用雙盲評分方式:
評分由8位具有至少7年教學(xué)經(jīng)驗的副教授及以上職稱的統(tǒng)計專業(yè)教師執(zhí)行。評分過程中,評分者不知道答案的來源(如學(xué)生、基準(zhǔn)模型、使用基于教材內(nèi)容的PromptEngineering后的模型)。每道題目的最終得分為8位評分者的平均分。若評分標(biāo)準(zhǔn)差大于平均分一倍標(biāo)準(zhǔn)差,則引入仲裁機制,在評分過程中如出現(xiàn)爭議時,由第9位資深教師進(jìn)行最終裁決,以確保評分結(jié)果的可靠性。
2.4 數(shù)據(jù)收集
研究設(shè)計了三種回答類型:學(xué)生回答、基準(zhǔn)模型回答和使用基于教材內(nèi)容的PromptEngineering后的模型回答,以分析學(xué)生與AI的表現(xiàn)。
學(xué)生回答來自國內(nèi)某高校數(shù)學(xué)與統(tǒng)計學(xué)院在2019一2023五個學(xué)年《概率論與數(shù)理統(tǒng)計》課程期末考試的隨機2190份真實考試答卷;基準(zhǔn)模型回答是將測試題目直接輸入未經(jīng)任何提示處理的通義千問模型得到的回答;基于教材內(nèi)容PromptEngineering后的模型回答則是將測試題目與教材內(nèi)容相結(jié)合構(gòu)建Prompt(Prompt的構(gòu)建方法詳見2.5),輸入通義千問模型得到的答案。所有答題數(shù)據(jù)均以文本形式保存,并進(jìn)行匿名化處理,保護(hù)學(xué)生隱私。
2.5PromptEngineering方法使用說明
研究采用了一種基于教材內(nèi)容的PromptEngineering方法來探究通義千問在高等教育評估中的應(yīng)用效果。具體而言,每個測試問題都構(gòu)建了一個包含“指令”“上下文”和“問題”的Prompt。“指令”指導(dǎo)模型根據(jù)提供的教材內(nèi)容回答問題;“上下文”摘錄自相關(guān)章節(jié),通常包含知識點的定義、解釋和例證等,不對原文進(jìn)行改寫或概括,進(jìn)行適當(dāng)精簡,保留核心內(nèi)容,內(nèi)容長度控制在600字以內(nèi);“問題”即具體的考試題目。通過這種方式,確保模型能夠利用相關(guān)信息生成更精準(zhǔn)的答案。
Prompt示例:
請根據(jù)以下提供的《概率論與數(shù)理統(tǒng)計》教材內(nèi)容,回答問題:
內(nèi)容:輸入具體章節(jié)內(nèi)容,如第三章 XXX理論/方法…(教材原文)
問題:某保險公司把被保險人分為三類:“謹(jǐn)慎的”“一般的”“冒失的”。統(tǒng)計資料表明,上述三種人在一年內(nèi)發(fā)生事故的概率依次為0.05,0.15和0.30。如果“謹(jǐn)慎的”被保險人占 20% ,“一般的”占 50% ,“冒失的”占 30% ,現(xiàn)知某被保險人在一年內(nèi)出了事故,則他是“謹(jǐn)慎的”的概率是多少?
答案:輸出……
2.6 數(shù)據(jù)分析
使用單因素和雙因素方差分析(ANOVA)檢驗變量間的顯著差異,并通過Tukey的HSD測試進(jìn)行多重比較,識別各組間差異及其對評分的影響。此外,還將探討題型特征與答題主體之間的交互影響,以及這些因素如何共同作用于最終評分結(jié)果。
3 研究結(jié)果
3.1樣本特征與描述性統(tǒng)計
ICC(IntraclassCorrelationCoefficient)是評估多個評分者之間評分一致性的一種統(tǒng)計方法。值的范圍從0到1,其中0表示沒有一致性,1表示完全一致。ICC越高,評分者間的一致性越強。
本研究共分析了2190項考試記錄,包括學(xué)生作答 )、通義學(xué)習(xí)前作答( n=45 )和通義學(xué)習(xí)后作答( n=45 )三種類型。評分者( n=8 )對三類題型(選擇題、填空題、解答題)進(jìn)行了評估。評分者間信度系數(shù)(ICC)為0.85,表明評分具有較高的一致性。
各組在不同題型上的得分分布如表1所示。
表1各組在不同題型上的得分情況(Mean±SD)
在三種題型的表現(xiàn)上,學(xué)生組的得分都是最低的,這說明相較于通義學(xué)習(xí)前和學(xué)習(xí)后的表現(xiàn),學(xué)生在沒有額外學(xué)習(xí)支持的情況下,對題目理解和解答的能力相對較低。這一現(xiàn)象可能反映了傳統(tǒng)教學(xué)模式下,學(xué)生僅靠課堂學(xué)習(xí)和自我復(fù)習(xí)難以達(dá)到較高的掌握水平,尤其是在復(fù)雜問題解決能力方面。
針對選擇題和填空題,通義學(xué)習(xí)前的得分比學(xué)習(xí)后高,這可能是因為評估時間點的不同。通義學(xué)習(xí)前的數(shù)據(jù)可能捕捉到了學(xué)生剛接觸新內(nèi)容時的記憶效果較好,而通義學(xué)習(xí)后的數(shù)據(jù)則反映了通義在學(xué)習(xí)過程中引入了更具挑戰(zhàn)性的練習(xí),使得其在簡單題型上的得分有所下降,但這并不意味著他們實際能力的退步,而是訓(xùn)練難度增加的結(jié)果。
針對解答題,通義學(xué)習(xí)后的得分顯著高于學(xué)習(xí)前,這確實說明經(jīng)過學(xué)習(xí),通義提高了對解答題的理解和應(yīng)用能力,思路更加清晰。這種提升表明,通義學(xué)習(xí)鞏固了基礎(chǔ)知識,還增強了分析問題、解決問題的綜合能力,特別是在需要更深入思考和創(chuàng)造性思維的解答題上,展現(xiàn)出更高的解題水平。
3.2評分者評估差異分析
單因素方差分析用于比較三個或三個以上樣本均值之間的差異。它檢驗因變量在不同組別之間是否存在顯著差異。值反映組間方差與組內(nèi)方差的比值, F 值越大,表示組間差異越顯著; p 值用于評估結(jié)果的統(tǒng)計顯著性,通常, plt;0.05 被視為統(tǒng)計顯著; η2 為效應(yīng)量,表示一個因素對因變量總體變異的解釋程度。值的范圍通常在0到1之間,值越大,表示效應(yīng)越顯著。
評分者在評估不同答題主體時表現(xiàn)出顯著差異。單因素方差分析結(jié)果顯示,評分者對通義基準(zhǔn)模型后的答案評分差異顯著 (F(2, 327)=142.58 , plt;.001 ,η2=0.47 )。具體而言:
1)通義基準(zhǔn)模型答案評分(總分12分時): F ?=4.29 , plt;.001 , η2=0.31 2)通義基準(zhǔn)模型答案評分(總分10分時): F =10.59 , plt;.001 , η2=0.39 3)通義基于教材內(nèi)容的Prompt Engineering 后的模型答案評分(總分12分時): F=10.36 , plt;.001 ,η2=0.38 4)通義基于教材內(nèi)容的Prompt Engineering后的模型答案評分(總分10分時): F=9.14 , plt;.001 ,η2=0.35
在評分過程中,共有47次( (2.1%)% )觸發(fā)仲裁機制,其中42次( 89.4% )通過第四位評分專家的介入達(dá)成一致。
3.3通義學(xué)習(xí)效果分析
為了進(jìn)一步探討不同題型對評分結(jié)果的影響,本研究進(jìn)行了ANOVA分析與Tukey'sHSD測試。不同題型在各回答類型中的得分分布情況如表2所示。
表2解答題ANOVA分析
由于顯著性 F 值很高,可以得出結(jié)論,回答類型間存在顯著差異。表2分析結(jié)果表明,不同的回答類型對結(jié)果產(chǎn)生了明顯的影響
通過Tukey'sHSD測試,結(jié)果如表3所示,學(xué)生的回答與通義學(xué)習(xí)前和通義學(xué)習(xí)后的回答差異顯著,但通義學(xué)習(xí)前與后之間的差異不顯著。
表3解答題Tukey'sHSD測試
可以推測,學(xué)生在回答時可能與通義差異較大,但是通義學(xué)習(xí)本身在這兩組間的提升效果并未顯著。
ANOVA結(jié)果如表4所示,不同的回答類型之間存在顯著差異,支持教育評估設(shè)計與回答方式的影響。
表4選擇題ANOVA分析
通過Tukey'sHSD測試,結(jié)果如表5所示,反映學(xué)生的回答高于通義學(xué)習(xí)前的回答,而通義學(xué)習(xí)后的回答與學(xué)生回答相比未表現(xiàn)出顯著性差異,說明通義學(xué)習(xí)的效果可能有限。
表5選擇題Tukey'sHSD測試
在教育評估中,應(yīng)優(yōu)先考慮如何提升學(xué)生的回答水平,同時檢討通義學(xué)習(xí)的有效性和內(nèi)容。
ANOVA結(jié)果如表6所示,不同的回答類型之間存在顯著差異,特別是學(xué)生在回答時顯著高于其他組別。
表6填空題ANOVA分析
通過Tukey'sHSD測試,結(jié)果如表7所示,學(xué)生回答顯著優(yōu)于通義學(xué)習(xí)前和后回答,而通義學(xué)習(xí)前回答低于通義學(xué)習(xí)后回答,表明通義學(xué)習(xí)可能對成績有一定影響,但相比之下,學(xué)生的表現(xiàn)更優(yōu)異。
表7填空題Tukey'sHSD測試
教育者在設(shè)計課程時應(yīng)關(guān)注如何提升學(xué)生的回答能力,同時檢討通義學(xué)習(xí)內(nèi)容,進(jìn)一步提高其效果。
3.4 答題主體比較分析
為了評估學(xué)生回答、通義學(xué)習(xí)前后的結(jié)果得分是否存在差異,本文進(jìn)行了箱線圖和散點圖分析,如圖1所示。通義經(jīng)過學(xué)習(xí)后,與學(xué)生回答,通義學(xué)習(xí)前回答相比,回答質(zhì)量提升的分析如圖2和圖3所示。
圖1解答題箱線圖與散點圖
在分?jǐn)?shù)為12分的解答題中,學(xué)生的回答表現(xiàn)較為穩(wěn)定且評分一致,但存在一定的波動;通義在學(xué)習(xí)前的回答質(zhì)量不穩(wěn)定,評分波動較大,而在學(xué)習(xí)后評分更加集中和一致,表明學(xué)習(xí)后顯著提升了通義的回答質(zhì)量,學(xué)習(xí)后對通義的回答表現(xiàn)有顯著的正面影響。
在分?jǐn)?shù)為10分的解答題中,學(xué)生們的回答表現(xiàn)較為穩(wěn)定,評分較為一致,但存在一定的波動;通義在學(xué)習(xí)前的回答表現(xiàn)不穩(wěn)定,評分波動較大;通義在學(xué)習(xí)后,回答質(zhì)量顯著提升,評分更加一致,波動范圍減小,表明學(xué)習(xí)后對通義的回答質(zhì)量有顯著的正面影響。
從箱線圖中可以看出,不同回答類型的中位數(shù)(箱線圖中的橫線)大致相同,表明不同回答類型的得分中位數(shù)相近;不同回答類型的IQR(箱體的長度)有所不同,表明不同回答類型的得分分布范圍有差異。
從散點圖中可以看出,學(xué)生回答得分較低,相比之下,學(xué)生回答整體上分布在較低的得分區(qū)間,表明這些回答的得分普遍較低;通義學(xué)習(xí)后回答得分較高:與通義學(xué)習(xí)前回答相比,通義學(xué)習(xí)后回答整體上分布在較高的得分區(qū)間,表明通義學(xué)習(xí)后回答的得分普遍比學(xué)習(xí)前回答得分高。
3.5 題型特征影響分析
交互作用用于描述兩個或多個變量之間的交互關(guān)系如何影響因變量。這可以揭示更復(fù)雜的關(guān)系和效應(yīng)。
如表8所示,所有因素(題目類型、回答類型及其交互作用)均對結(jié)果顯著影響。所有相關(guān)的 p 值都遠(yuǎn)小于0.05,表明統(tǒng)計上的顯著性。教育和評估設(shè)計中,應(yīng)考慮題目類型和回答方式的影響,根據(jù)這些結(jié)果可以針對性地優(yōu)化教學(xué)方法和目標(biāo)。
表8不同題型間回答類型的方差分析1
如表9所示,所有因素(題目類型、回答類型及其交互作用)對結(jié)果具有顯著影響。所有相關(guān)的 p 值都遠(yuǎn)小于0.05,表明統(tǒng)計顯著性。高 F 值和小 p 值表明模型有效地解釋了數(shù)據(jù)的變異,并揭示出因素之間的關(guān)系。
表9不同題型間回答類型的方差分析2
表10顯示所有因素(題目類型、回答類型及其交互作用)均對結(jié)果有顯著的影響,所有相關(guān)的 p 值都遠(yuǎn)小于0.05,表明這些因素在統(tǒng)計上是重要的。高F 值和極小的 p 值揭示了不同因素之間的關(guān)系。在后續(xù)的教學(xué)與評估的設(shè)計中,應(yīng)根據(jù)結(jié)果優(yōu)化題目類型與回答類型的選擇,以提高評估的有效性和可靠性。
表10不同題型間回答類型的方差分析3
4 討論與分析
4.1 研究發(fā)現(xiàn)及意義
本研究通過系統(tǒng)化的實驗設(shè)計與嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析,探討了通義千問在高等教育評估中的應(yīng)用效果及其對教師評估實踐的影響。研究表明,AI技術(shù)的發(fā)展給傳統(tǒng)教育評估體系帶來了新的挑戰(zhàn)和機遇。
首先,教師在評估AI生成內(nèi)容時的顯著評分差異 ΔICC=0.85 )揭示了當(dāng)前教育評估標(biāo)準(zhǔn)在應(yīng)對AI內(nèi)容方面的適應(yīng)性問題。這表明隨著AI技術(shù)的進(jìn)步,傳統(tǒng)的教育評估方法需要調(diào)整或重新設(shè)計以更好地適應(yīng)新工具。
其次,通義千問在不同題型中的表現(xiàn)差異為考試設(shè)計提供了重要參考。例如,在選擇題中表現(xiàn)出最高的穩(wěn)定性( CV=0.15 ),而在解答題中顯示最大的變異( CV=0.28 )。其中,變異系數(shù)(CV)是描述數(shù)據(jù)離散程度的無量綱統(tǒng)計量,通常用于比較不同數(shù)據(jù)集的相對變異程度。這一發(fā)現(xiàn)提示我們在設(shè)計試題時應(yīng)考慮AI的能力特點,合理分配題型比例,以確保評估的有效性和公平性。
此外,通義千問展現(xiàn)出顯著的學(xué)習(xí)能力,特別是在填空題中的出色表現(xiàn)( ),證實了其自適應(yīng)學(xué)習(xí)潛力。這不僅展示了AI處理特定類型題目上的潛力,也為未來教育技術(shù)開發(fā)提供了方向。
最后,題型特征和答題主體之間的顯著交互作用(F(4, 1 454)=37.79 , plt;.001 )強調(diào)了評估任務(wù)性質(zhì)對AI系統(tǒng)表現(xiàn)的重要影響。這意味著,在設(shè)計AI輔助教學(xué)工具時,需考慮不同類型題目對學(xué)生和AI的不同要求,從而優(yōu)化教學(xué)資源配置。
4.2應(yīng)用前景與教育評估實踐啟示
通過對通義千問在高等教育不同題型中的表現(xiàn)分析,我們發(fā)現(xiàn)AI系統(tǒng)在處理基于事實記憶和模式識別的選擇題方面表現(xiàn)出較高的準(zhǔn)確性。然而,在涉及深層次理解、批判性思維和創(chuàng)造性思維的任務(wù)中,其表現(xiàn)相對受限。這一發(fā)現(xiàn)提示我們需要在利用AI輔助教學(xué)時平衡使用,尤其是在培養(yǎng)學(xué)生的高階思維能力方面。
并且,通過對通義千問學(xué)習(xí)前后表現(xiàn)的對比分析發(fā)現(xiàn),其在經(jīng)過學(xué)習(xí)后的答題質(zhì)量顯著提升,這一結(jié)果為AI系統(tǒng)的自適應(yīng)學(xué)習(xí)能力提供了實證支持。這種進(jìn)步不僅體現(xiàn)在答案的準(zhǔn)確性上,更反映在答案的邏輯性和連貫性方面,這與現(xiàn)代教育評估理論中強調(diào)的高階思維能力的培養(yǎng)目標(biāo)形成了有趣的對照。未來的研究可以進(jìn)一步探討如何通過改進(jìn)AI的學(xué)習(xí)算法,使其更好地模擬人類的認(rèn)知過程,從而提高AI在復(fù)雜任務(wù)中的表現(xiàn)。
同時,研究結(jié)果對當(dāng)前高等教育評估體系提出了深刻挑戰(zhàn)。教師面對AI生成內(nèi)容時采用更嚴(yán)格的評分標(biāo)準(zhǔn),可能反映了對AI技術(shù)的認(rèn)知偏差和專業(yè)判斷的調(diào)適過程。因此,更新評估標(biāo)準(zhǔn)、優(yōu)化考試設(shè)計顯得尤為重要。教育者在設(shè)計評估方案時,應(yīng)當(dāng)根據(jù)評估目的合理配置不同類型的試題,特別是在考察學(xué)生的深層理解能力和創(chuàng)新思維時,可以適當(dāng)增加解答題的比重,通過題型的差異性來更好地區(qū)分學(xué)習(xí)者的真實能力水平。
AI在不同題型中的表現(xiàn)差異為考試設(shè)計提供了新的思路。建議根據(jù)評估目的合理配置不同類型的試題,特別是在考察深層理解和創(chuàng)新能力時,適當(dāng)增加解答題的比例,以便更好地區(qū)分學(xué)生的真實能力水平。
此外,考慮到AI系統(tǒng)的穩(wěn)定性和學(xué)習(xí)能力,教育機構(gòu)可以探索將AI輔助評估與傳統(tǒng)評估方法結(jié)合的混合模式,提高評估效率的同時確保全面性和準(zhǔn)確性。這種創(chuàng)新不僅能減輕教師負(fù)擔(dān),還能提供及時、個性化的學(xué)習(xí)反饋。
4.3 研究局限性
盡管取得了一些重要發(fā)現(xiàn),本研究仍存在局限性。
在樣本代表性方面,本研究的評分教師樣本規(guī)模相對有限( ),雖然這些教師都具備豐富的教學(xué)經(jīng)驗和較高的職稱,但樣本規(guī)模的限制可能影響結(jié)果的推廣性。同時,學(xué)生樣本僅來自單一院校,這可能無法充分反映不同教育背景和學(xué)習(xí)水平的學(xué)生群體特征,可能影響結(jié)果的推廣性。
研究的時效性同樣值得關(guān)注。鑒于AI技術(shù)的快速發(fā)展特征,本研究基于特定版本通義千問的發(fā)現(xiàn)可能會隨著技術(shù)的更新而發(fā)生變化。AI模型的持續(xù)優(yōu)化和升級可能帶來性能的顯著提升,這使得研究結(jié)論的適用期限面臨挑戰(zhàn)。這一局限性也提示我們在解釋和應(yīng)用研究結(jié)果時需要考慮時間因素的影響。
在評估維度方面,本研究主要聚焦于量化評分的分析,對評分過程中的質(zhì)性特征關(guān)注相對不足。雖然統(tǒng)計分析揭示了顯著的評分差異,但未能深入探究教師在評估過程中的認(rèn)知決策機制。這種局限性使我們可能忽略了一些重要的質(zhì)性因素,如教師的評估思維過程、專業(yè)判斷的形成機制等。此外,研究未能充分考察評分標(biāo)準(zhǔn)在不同情境下的適用性,這可能影響評估結(jié)果的解釋效度。
這些局限性不僅提示我們在解釋研究結(jié)果時需要保持謹(jǐn)慎,同時也為未來研究指明了改進(jìn)方向。后續(xù)研究可以通過擴大樣本規(guī)模、增加研究場景的多樣性、深化質(zhì)性分析等方式,進(jìn)一步提升研究的科學(xué)性和實踐價值。
5結(jié)論
綜上所述,本研究為AI技術(shù)在教育評估中的應(yīng)用提供了實證依據(jù),揭示了教育體系面臨的挑戰(zhàn)與發(fā)展方向。這些研究成果將有助于指導(dǎo)教育實踐者和技術(shù)開發(fā)者共同努力,推動教育領(lǐng)域的創(chuàng)新與發(fā)展。
同時,明確指出研究的局限性也為未來的研究提供了改進(jìn)的方向,為進(jìn)一步的研究奠定了基礎(chǔ)。通過不斷優(yōu)化AI系統(tǒng)的設(shè)計和應(yīng)用策略,我們可以期待一個更加個性化、高效且公平的教育未來。
參考文獻(xiàn):
[1]JURAFSKYD,MARTINHJ.Speech and Language
Processing:An Introduction to Natural Language Processing,
Computational Linguistics,and Speech Recognition with Language
Models[M/OL].[2025-01-02].https://web.stanford.edu/~jurafsky/slp3.
[2]RUMJAUNA,NARODF.Social LearningTheory—
AlbertBandura [M].ScienceEducationin Theoryand Practice:
AnIntroductory Guide to Learning Theory,Cham:Springer,
2025:85-99.
[3]NABAVI R T.Bandura's Social Learning Theory and
SocialCognitiveLearning Theory[J].TheoryofDevelopmental
Psychology,2012,1(1):1-24.
[4]MORGAN H.Howard Gardner's Multiple Intelligences
Theory and his Ideas on Promoting Creativity [M]//REISMAN
F. Celebrating Giants and Trailblazers: A-Z of Who’s Who
in Creativity Research and Related Fields.London:KIE
Publications,2021:124-141.
[5] MORGAN H. Maximizing Student Success with
Differentiated Learning [J].the Clearing House:A Journal of
Educational Strategies,Issues and Ideas,2014,87(1):34-38.
[6] HWANG G J, CHANG C Y. A Review of Opportunities
and Challenges of Chatbots in Education [J].Interactive Learning
Environments,2023,31(7):4099-4112.
[7] CHIU T K F,MOORHOUSE B L,CHAI C S,
et al. Teacher Support and Student Motivation to Learn with
Artificial Intellgence (AI) Based Chatbot [J].Interactive Learing
Environments,2024,32(7):3240-3256.
[8] IDC.AI 大模型技術(shù)能力評估報告 [R/OL].[2025-6-11].
https://www.idc.com/getdoc.jsp?containerId=CHC49698923.
[9] GIRAY L. Prompt Engineering with ChatGPT: A Guide
for Academic Writers[J].Ann Biomed Engineering,2023,51(12):
2629-2633.
[10] GARTNER.5 Impactful Technologies from the Gartner
Emerging Technologies and Trends Impact Radar for 2022 [EB/
OL].(2021-12-08)[2025-06-11].ttps://www.gartner.com/en/
articles/5-impactful-technologies-from-the-gartner-emerging-
technologies-and-trends-impact-radar-for-2022.
[11]喻國明,蘇健威.生成式人工智能浪潮下的傳播革命
與媒介生態(tài)——從ChatGPT到全面智能化時代的未來[J].新
疆師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2023,44(5):81-90.
[12] FARROKHNIA M,BANIHASHEM S K,NOROOZI O,
et al.A SWOT Analysis of ChatGPT: Implications for Educational
Practice and Research [J].Innovations in Education and Teaching
Intermational,2024,61(3):460-474.
[13] PRADANA M,ELISA HP,SYARIFUDDIN S.
Discussing ChatGPT in Education:A Literature Review and
Bibliometric Analysis [J].Cogent Education,2023,10 (2):
2243134.
[14]吳砥,吳河江.通用大模型教育應(yīng)用的潛在風(fēng)險及其
規(guī)避一 一基于技術(shù)倫理的視角[J].華東師范大學(xué)學(xué)報:教育科
學(xué)版,2024,42(8):64-75.
[15]施周龍,趙飛燕.生成式人工智能賦能教育轉(zhuǎn)型發(fā)展
的思考[J].教育進(jìn)展,2024,14(5):950-956.
[16] HUANG R,SHI L Y.Content Framework for
Artificial Intelligence Literacy Instruction in China from a Global
Perspective [J].Documentation, Information and Knowledge,
2024,41(3):27-37.
[17] 汪晨,劉永貴.基于生成式人工智能的教師自主學(xué)習(xí)
模式探究- -以ChatGPT為例[J].軟件導(dǎo)刊,2023,22(11):
219-225.
[18]FARAZOULI A,CERRATTO-PARGMAN T,
BOLANDER-LAKSOV K,et al.Hello GPT!Goodbye Home
Examination? An Exploratory Study of AI Chatbots Impact on
University Teachers' Assessment Practices [J].Assessment and
Evaluation in Higher Education,2024,49(3):363-375.
[19] ADESHOLAI,ADEPOJU A P. The Opportunities
and Challenges of ChatGPT in Education [J].Interactive Learning
Environments,2024,32(10):6159-6172.
[20]BAIJ,BAIS,YANGS,etal.Qwen-VL:AVersatile Vision-LanguageModel forUnderstanding,Localization,Text Reading,and Beyond[J/OL].arXiv:2308.12966[cs.CV].[2025-06- 11].https://arxiv.org/abs/2308.12966.
作者簡介:凌達(dá)蓮(2004.05一),女,漢族,廣西北流人,本科在讀,研究方向:統(tǒng)計學(xué);馮詩穎(2004.05一),女,漢族,江蘇淮安人,本科在讀,研究方向:統(tǒng)計學(xué);陳思楠(2001.10—),女,漢族,廣西浦北人,本科在讀,研究方向:統(tǒng)計學(xué);通信作者:潘偉權(quán)(1980.12—),男,漢族,廣西平南人,副教授,博士,研究方向:統(tǒng)計學(xué)、概率論與數(shù)理統(tǒng)計等課程教學(xué)與研究。