摘要:針對(duì)學(xué)生編程基礎(chǔ)差異影響合作學(xué)習(xí)積極性的現(xiàn)狀,提出一種將大語言模型與協(xié)作式兩階段考試相結(jié)合的考試流程。文章以程序設(shè)計(jì)思想與方法課程為例,介紹兩階段考試的實(shí)踐過程。學(xué)生首先獨(dú)立測(cè)試,再在大語言模型的輔助下進(jìn)行小組協(xié)作考試。研究結(jié)果表明,大語言模型在知識(shí)總結(jié)和凝練上具有顯著的輔助學(xué)習(xí)效果,結(jié)合大語言模型的兩階段考試,不僅是一種新穎的形成性評(píng)價(jià)方法,也是構(gòu)建以學(xué)生為中心的合作學(xué)習(xí)共同體的有效手段。
關(guān)鍵詞:兩階段考試;大語言模型;程序設(shè)計(jì)教學(xué);形成性評(píng)價(jià);合作學(xué)習(xí)
中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)34-0037-03開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
采取多樣化的教學(xué)手段有利于突破“教師講、學(xué)生聽”的教學(xué)模式,促進(jìn)學(xué)生的自主思考和合作交流。協(xié)作式兩階段考試[1]作為其中的一種策略,分為學(xué)個(gè)人獨(dú)立完成和小組合作完成兩個(gè)階段,有利于激發(fā)學(xué)生的主動(dòng)學(xué)習(xí)。學(xué)生個(gè)人獨(dú)立完成第一階段考試,緊接著多人合作再次完成內(nèi)容接近的第二階段考試,考試成績由兩個(gè)階段各占一定比例構(gòu)成。在計(jì)算機(jī)教學(xué)領(lǐng)域[2-4]和其他學(xué)科[5]上開展的教學(xué)實(shí)踐都肯定了兩階段考試對(duì)提高學(xué)生學(xué)習(xí)積極性的作用。然而,兩階段考試也存在局限,如學(xué)生學(xué)習(xí)基礎(chǔ)參差不齊,導(dǎo)致部分學(xué)生在討論中參與度不高。
大語言模型的出現(xiàn)恰好能克服上述問題。諸如ChatGPT[6]等大語言模型具備豐富的知識(shí)儲(chǔ)備,能夠在知識(shí)問答、信息檢索等方面發(fā)揮獨(dú)特優(yōu)勢(shì)。將大語言模型引入兩階段考試的第二階段考試中,充當(dāng)機(jī)器人合作者,提供自適應(yīng)的個(gè)性化學(xué)習(xí)支持,有助于激勵(lì)學(xué)生理解大模型生成內(nèi)容,積極討論其正確性。本文以程序設(shè)計(jì)思想與方法課程為例,探討了基于大語言模型的協(xié)作式兩階段考試的實(shí)踐過程。研究表明,該方法不僅是一種新穎的形成性評(píng)價(jià)方法,也是構(gòu)建以學(xué)生為中心的合作學(xué)習(xí)共同體的有效途徑,為與生成式人工智能融合的計(jì)算機(jī)專業(yè)課程,以及相關(guān)專業(yè)的新工科課程的教學(xué)實(shí)踐提供參考。
1基于大語言模型的兩階段考試
1.1兩階段考試
協(xié)作式兩階段考試不同于傳統(tǒng)的終結(jié)性評(píng)價(jià)考試,通過重新組織考試形式,創(chuàng)造高效的學(xué)習(xí)環(huán)境,增加合作與交流,激發(fā)學(xué)生的學(xué)習(xí)動(dòng)力的。協(xié)作式兩階段考試形式靈活,不受班級(jí)人數(shù)的限制,既重視個(gè)人努力、又強(qiáng)調(diào)團(tuán)隊(duì)合作??荚嚪譃閭€(gè)人獨(dú)立完成和小組合作完成兩個(gè)階段,成績由兩部分按比例構(gòu)成。在考試結(jié)束后及時(shí)的結(jié)果反饋,能加深學(xué)生對(duì)團(tuán)隊(duì)合作的認(rèn)同感。但兩階段考試也存在一些局限性,例如:由于學(xué)生的學(xué)習(xí)基礎(chǔ)和復(fù)習(xí)程度有差異,基礎(chǔ)差的同學(xué)難以融入討論,而基礎(chǔ)好的同學(xué)直接代替整個(gè)小組完成了協(xié)作階段的任務(wù),出現(xiàn)“搭便車”現(xiàn)象。教師要精心設(shè)計(jì)考試內(nèi)容、管理策略和激勵(lì)措施,以應(yīng)對(duì)兩階段考試可能出現(xiàn)的副作用和挑戰(zhàn)。
1.2大語言模型
大語言模型是指通過大規(guī)模文本數(shù)據(jù)進(jìn)行訓(xùn)練,能夠理解和生成自然語言的深度學(xué)習(xí)模型。基于Transformer架構(gòu),大語言模型能夠分析用戶輸入,并生成符合上下文邏輯的文本序列。大語言模型和生成式人工智能在技術(shù)基礎(chǔ)上有著緊密的聯(lián)系。生成式人工智能依托于大語言模型發(fā)展的同時(shí)又結(jié)合了多模態(tài)生成能力,能夠創(chuàng)造出包括文本、圖像、音頻、視頻等多種形式的內(nèi)容。在未來,生成式人工智能則用于生成虛擬學(xué)習(xí)環(huán)境、創(chuàng)造性教學(xué)內(nèi)容和沉浸式教育體驗(yàn)。隨著技術(shù)不斷發(fā)展和演進(jìn),兩者將可能融合,形成更強(qiáng)大的實(shí)時(shí)生成與交互系統(tǒng)。然而受限于硬件算力及存儲(chǔ)的限制,尚未出現(xiàn)成熟的可大規(guī)模使用的多模態(tài)生成式人工智能應(yīng)用,以文本對(duì)話為主要形式的大語言模型仍然是生成式人工智能的主要呈現(xiàn)方式。因此,本文中的實(shí)驗(yàn)設(shè)計(jì)主要采用大語言模型對(duì)話的形式開展。
大語言模型在教育教學(xué)領(lǐng)域被用于自動(dòng)化教學(xué)助手、個(gè)性化學(xué)習(xí)路徑的生成等,為教育教學(xué)研究提供新的視角。以ChatGPT和百度文心一言為代表的商用大語言模型對(duì)話系統(tǒng)已被初步用于高等學(xué)校的計(jì)算機(jī)專業(yè)課程教學(xué)中[7],為學(xué)生提供更為先進(jìn)和智能的教學(xué)模式。大語言模型對(duì)程序設(shè)計(jì)代碼也具有良好的兼容性,既可以根據(jù)用戶需求生成代碼片段,也可以對(duì)用戶提供的代碼輸入進(jìn)行解釋和分析,有望在程序設(shè)計(jì)基礎(chǔ)教學(xué)中輔助學(xué)生解決疑難問題,加深對(duì)知識(shí)的理解[8]。盡管國內(nèi)外許多高校出于學(xué)術(shù)不端等風(fēng)險(xiǎn)考量,對(duì)學(xué)生使用大語言模型進(jìn)行限制[9],大語言模型與高等學(xué)校教育的結(jié)合仍將是不可阻擋的主流趨勢(shì)。
2大語言模型輔助的兩階段考試設(shè)計(jì)與實(shí)驗(yàn)
2.1兩階段考試的過程安排
將大語言模型引入到兩階段考試,采用對(duì)照實(shí)驗(yàn)的方法。將兩個(gè)教學(xué)班的學(xué)生分為實(shí)驗(yàn)組和對(duì)照組。兩組學(xué)生均為成績分布無差別的大一新生,且由同一教師采取同樣的教學(xué)方法教授。為促進(jìn)積極交流允許自由分組,每組人數(shù)為3~4人。一次兩階段考試的過程如圖1,包括個(gè)人獨(dú)立測(cè)試、小組合作測(cè)試、后測(cè)和問卷調(diào)查,實(shí)驗(yàn)組在合作考試中使用大語言模型,對(duì)照組則不使用。兩階段中的個(gè)人獨(dú)立考試與小組合作考試所占成績比例分別設(shè)置為70%和30%;一次考試的各個(gè)階段的具體安排為:
1)前測(cè):獨(dú)立完成。
學(xué)生獨(dú)立完成測(cè)試,測(cè)試共設(shè)置20道選擇題和2道編程題,測(cè)試完成后,答卷馬上回收進(jìn)行評(píng)測(cè)。
2)復(fù)測(cè):小組合作。
隨后3~4人自由分組進(jìn)行小組復(fù)測(cè),精選前測(cè)中的部分難點(diǎn)題目開展討論,包括8~10道選擇題和1道編程題,組內(nèi)協(xié)作完成試題并回收答卷。測(cè)試完成后立即下發(fā)答案并講評(píng)。
3)后測(cè):獨(dú)立完成。
兩周后再次進(jìn)行測(cè)驗(yàn)。選擇與兩周前的測(cè)驗(yàn)中相同主題的相似題目,以檢測(cè)上次合作考試的效果。將上一次測(cè)驗(yàn)的后測(cè)檢驗(yàn)與本次測(cè)驗(yàn)的關(guān)于新主題的獨(dú)立測(cè)試結(jié)合,稱為一次測(cè)驗(yàn)。
2.2流水化的多次兩階段考試設(shè)計(jì)
在一個(gè)學(xué)期中,開展了三次兩階段考試,考查的主題分別為指針與字符串、遞歸程序設(shè)計(jì)、構(gòu)造與析構(gòu)。給出了各次測(cè)驗(yàn)的前測(cè)與后測(cè)中對(duì)應(yīng)的一道樣題(見表1)。每一次兩階段考試的后測(cè)與下一次兩階段考試的前測(cè)是嵌套的,將上一次考試的后測(cè)與下一次考試的前測(cè)合并,形成一個(gè)如圖2的流水化過程,既檢驗(yàn)了學(xué)習(xí)效果,又簡化了考試管理。
2.3統(tǒng)計(jì)分析方法
引入學(xué)習(xí)增益和成績的歸一化變化值作為統(tǒng)計(jì)分析指標(biāo),分別對(duì)三個(gè)測(cè)驗(yàn)主題進(jìn)行分析,檢驗(yàn)大語言模型在各個(gè)測(cè)驗(yàn)主題上對(duì)學(xué)生成績提升的顯著性。
1)學(xué)習(xí)增益。
學(xué)習(xí)增益g被定義為個(gè)人獨(dú)立測(cè)試的后測(cè)和前測(cè)正確率的差值,用于分析學(xué)生成績的提升程度。由于某些原因,可能導(dǎo)致部分學(xué)生第二次考試的成績低于第一次考試成績,如果將學(xué)習(xí)增益進(jìn)行歸一化,會(huì)導(dǎo)致負(fù)向增益無法解釋。因此,在統(tǒng)計(jì)分析時(shí),不會(huì)對(duì)學(xué)習(xí)增益進(jìn)行歸一化。基于收集的學(xué)生測(cè)驗(yàn)成績,計(jì)算每個(gè)學(xué)生的學(xué)習(xí)增益比例,并對(duì)實(shí)驗(yàn)組和對(duì)照組的學(xué)習(xí)增益比例進(jìn)行方差分析。
2)歸一化變化值。
歸一化變化值c是不同于學(xué)習(xí)增益的另一個(gè)評(píng)估指標(biāo),定義和取值分不同情況(見表2)。
其中Gpt是后測(cè)的成績,Git是前測(cè)的成績。如果學(xué)生后測(cè)的成績高于前測(cè),評(píng)估的是增益值;如果學(xué)生后測(cè)成績低于前測(cè)成績,評(píng)估的是缺失值;二者統(tǒng)稱為歸一化變化值。使用這個(gè)評(píng)估指標(biāo)可以消除低分值偏差,分值分布對(duì)稱并容易解釋,具體可見參考文獻(xiàn)[10]。統(tǒng)計(jì)分析時(shí)計(jì)算每個(gè)學(xué)生的歸一化變化值c,并對(duì)c進(jìn)行獨(dú)立樣本t檢驗(yàn)。
3大模型輔助的兩階段考試的有效性與學(xué)生評(píng)價(jià)
3.1有效性分析
每一次測(cè)驗(yàn)都將學(xué)生分為實(shí)驗(yàn)組和對(duì)照組。實(shí)驗(yàn)組在小組復(fù)測(cè)階段采用了大語言模型輔助工具,而控制組在小組復(fù)測(cè)階段不使用大語言模型輔助工具。不同組的學(xué)生在三次測(cè)試中的平均成績(見表3)顯示,實(shí)驗(yàn)組和對(duì)照組在前測(cè)中的表現(xiàn)大致相當(dāng)。測(cè)驗(yàn)1和測(cè)驗(yàn)3中實(shí)驗(yàn)組的平均成績提升幅度明顯高于對(duì)照組,測(cè)驗(yàn)分?jǐn)?shù)提升達(dá)到10分左右,而在測(cè)驗(yàn)2中,實(shí)驗(yàn)組與對(duì)照組的平均成績提升幅度無明顯區(qū)別。這說明,大語言模型輔助的協(xié)作式兩階段測(cè)驗(yàn)在部分測(cè)驗(yàn)中,能夠有效提升學(xué)生成績。
為了評(píng)估大模型輔助的兩階段考試效果的統(tǒng)計(jì)學(xué)意義,計(jì)算了每個(gè)學(xué)生的學(xué)習(xí)增益比例g和歸一化變化值c,并進(jìn)一步分別對(duì)g進(jìn)行方差分析(見表4)以及對(duì)c進(jìn)行獨(dú)立樣本t檢驗(yàn)(見表5),從這兩個(gè)參數(shù)上進(jìn)行多維度驗(yàn)證。
從結(jié)果來看,測(cè)驗(yàn)1和測(cè)驗(yàn)3的兩個(gè)參數(shù)P值均小于0.05,且F值或t值較大,呈現(xiàn)出統(tǒng)計(jì)學(xué)上的顯著性;而測(cè)驗(yàn)2中兩個(gè)參數(shù)的P值遠(yuǎn)大于0.05,且F值或T值很小,未呈現(xiàn)出顯著性。因此,對(duì)于測(cè)驗(yàn)1和測(cè)驗(yàn)3,基于大模型的兩階段考試顯著提高了學(xué)生學(xué)習(xí)成績。而對(duì)于測(cè)驗(yàn)2遞歸程序設(shè)計(jì),顯著性不足以從統(tǒng)計(jì)學(xué)上證明實(shí)驗(yàn)組的效果更佳。結(jié)合對(duì)應(yīng)測(cè)驗(yàn)的主題和內(nèi)容,實(shí)驗(yàn)結(jié)果表明,基于大模型的兩階段考試的直接學(xué)習(xí)效果與所考查知識(shí)點(diǎn)的類型和題型有關(guān)。對(duì)于考查程序語法以及編程概念的測(cè)驗(yàn)1和測(cè)驗(yàn)3,大語言模型總結(jié)和凝練了問題所涉及的相關(guān)知識(shí),給出的答案能促進(jìn)學(xué)生交流討論,并幫助學(xué)生快速掌握基礎(chǔ)知識(shí)中的重點(diǎn)和難點(diǎn),因此成績提升更顯著。但是對(duì)于測(cè)驗(yàn)2遞歸程序設(shè)計(jì),雖然大模型能迅速生成程序設(shè)計(jì)的解決方案,但由于它只是一個(gè)知識(shí)總結(jié)助手,而非一個(gè)知識(shí)傳授工具,學(xué)生在閱讀工具自動(dòng)生成的程序后,仍難以真正理解對(duì)應(yīng)的算法設(shè)計(jì)思路和技巧,無法保證學(xué)生在考試中有限的時(shí)間內(nèi)能夠開展有效的互動(dòng)和交流。
3.2學(xué)生評(píng)價(jià)
為了理解大語言模型對(duì)學(xué)生學(xué)習(xí)態(tài)度和學(xué)習(xí)方式上的影響,課程結(jié)束后通過發(fā)放問卷對(duì)全體學(xué)生進(jìn)行調(diào)查統(tǒng)計(jì)。問卷調(diào)查期內(nèi),回收有效問卷數(shù)共計(jì)74份,其中38位學(xué)生參與了有大模型輔助考試的實(shí)驗(yàn)組,36人參與了無大模型輔助的對(duì)照組。根據(jù)問卷結(jié)果,88%的學(xué)生表示在過去教育經(jīng)歷中從未接觸過類似的考試模式,其余12%的學(xué)生表示有過類似的考試和學(xué)習(xí)方式。這說明,對(duì)于多數(shù)學(xué)生來說兩階段考試仍然是一種比較新穎的考試形式。
對(duì)照組中,81%的學(xué)生認(rèn)為這種考查方式對(duì)學(xué)習(xí)有幫助,54%的學(xué)生認(rèn)為對(duì)促進(jìn)同伴溝通交流有幫助,僅有3.5%的學(xué)生明確表示這種方式?jīng)]有幫助。這說明大部分學(xué)生接受兩階段考試。實(shí)驗(yàn)組中,95%的學(xué)生認(rèn)為這種考查方式對(duì)學(xué)習(xí)有幫助,其中71%的學(xué)生認(rèn)為引入大模型有助于促進(jìn)主動(dòng)思考和積極交流,21%的同學(xué)認(rèn)為是否引入大模型不影響考試中的積極交流與思考,但也有3%的學(xué)生認(rèn)為自己在討論過程中因直接參考大模型生成的答案導(dǎo)致沒有積極思考。
所有參與調(diào)查的學(xué)生都在日常學(xué)習(xí)中嘗試過使用大語言模型作為學(xué)習(xí)助手,其中69%的學(xué)生認(rèn)為大語言模型對(duì)知識(shí)總結(jié)有幫助,但對(duì)編程能力提升的幫助不大。82%的同學(xué)認(rèn)為在兩階段考試中引入大模型作為輔助工具對(duì)促進(jìn)同伴交流有積極意義。
4總結(jié)
本文將大語言模型引入?yún)f(xié)作式兩階段考試的合作環(huán)節(jié),進(jìn)行了多次流水化兩階段考試實(shí)踐探索。研究發(fā)現(xiàn),在基礎(chǔ)知識(shí)理解和總結(jié)上,大模型的輔助學(xué)習(xí)效果明顯;但在算法編程思想的培養(yǎng)形成方面,提升則不夠顯著。本文的研究結(jié)果可以為人工智能技術(shù)在程序設(shè)計(jì)以及其他課程教學(xué)中的應(yīng)用實(shí)踐提供參考。
來隨著硬件算力的進(jìn)一步提升,以及大語言模型的不斷進(jìn)化,大語言模型將有望能夠更加深入地參與兩階段考試的團(tuán)隊(duì)合作環(huán)節(jié)中,緩解小組內(nèi)學(xué)生水平不均衡的差異,讓基礎(chǔ)較差的學(xué)生也獲得相應(yīng)的參與感和成就感,從而激發(fā)學(xué)習(xí)興趣和熱情。融合文本、圖像、音頻、視頻等多種數(shù)據(jù)的多模態(tài)生成式模型也將在不久的將來落地,多模態(tài)生成式模型能夠?yàn)閷W(xué)生提供更加舒適的交互體驗(yàn),以機(jī)器人伙伴的身份平滑地融入兩階段考試的討論過程中,扮演小組討論中的記錄員等角色。同時(shí)也可以預(yù)見,盡管大語言模型仍在高速發(fā)展,在很長一段時(shí)間內(nèi),算法編程思想的培養(yǎng)和形成仍是大模型輔助學(xué)習(xí)的難點(diǎn)。讓大語言模型能夠輔助學(xué)生培養(yǎng)諸如算法編程思想等專業(yè)性和邏輯性強(qiáng)的思維方法,既需要更加先進(jìn)和智能的大語言模型技術(shù)突破,也需要廣大教師和教育工作者的探索和實(shí)踐。
【通聯(lián)編輯:王力】
基金項(xiàng)目:上海高校本科重點(diǎn)教改項(xiàng)目“以智能化分類分級(jí)考試平臺(tái)為抓手,構(gòu)建面向?qū)W科交叉的計(jì)算機(jī)教學(xué)生態(tài)鏈”(2023-2024,No.152);上海交通大學(xué)2024年教學(xué)設(shè)計(jì)師培育專項(xiàng)(CTLD24TD0001)