[摘 要] 選用Kimi作為生成式人工智能AIGC分析工具,以某市2023年高中學(xué)業(yè)水平等級(jí)性考試歷史學(xué)科試卷和考生答題卡為分析內(nèi)容,探討AIGC在高考評(píng)價(jià)中的應(yīng)用。研究表明:Kimi協(xié)同工作模式可以優(yōu)化試卷結(jié)構(gòu)分析,提升考生水平臨界分?jǐn)?shù)劃定效度,提高評(píng)價(jià)結(jié)果反饋的時(shí)效性和針對(duì)性;但存在問題判定過分廣泛、不能深入推理發(fā)現(xiàn)材料之間的關(guān)系、有時(shí)會(huì)給出錯(cuò)誤結(jié)論或理由、無(wú)法明確進(jìn)行微調(diào)等問題。
[關(guān)鍵詞] 生成式人工智能;高考評(píng)價(jià);試卷結(jié)構(gòu)分析;評(píng)價(jià)反饋
[中圖分類號(hào)] G424.74 [文獻(xiàn)標(biāo)識(shí)碼] A
[文章編號(hào)] 1673—1654(2024)06—042—009
一、引言
高考評(píng)價(jià)是指基于新一輪高考改革以來(lái)高考統(tǒng)一科目(語(yǔ)文、數(shù)學(xué)、外語(yǔ))和高中學(xué)業(yè)水平等級(jí)考試科目(物理、化學(xué)、生物學(xué)、思想政治、歷史、地理)的實(shí)測(cè)統(tǒng)計(jì)數(shù)據(jù)分析結(jié)果,服務(wù)于教與學(xué)及命題質(zhì)量改進(jìn)的過程[1]。雖然高考評(píng)價(jià)是基于數(shù)據(jù)的評(píng)價(jià),但是其核心環(huán)節(jié)依然依賴評(píng)價(jià)老師專業(yè)素養(yǎng)的判定,如試卷的結(jié)構(gòu)分析、考生水平臨界分?jǐn)?shù)的確定、評(píng)價(jià)結(jié)果的反饋等,但評(píng)價(jià)教師團(tuán)隊(duì)通常規(guī)模有限,一般僅由5~10人組成,面對(duì)眾多的高考評(píng)價(jià)對(duì)象(市級(jí)、區(qū)級(jí)、校級(jí)),往往難以提供及時(shí)且具有針對(duì)性的反饋。
隨著人工智能技術(shù)的快速發(fā)展,特別是生成式人工智能(Artificial Intelligence Generated Content,AIGC)技術(shù)的突破,教育領(lǐng)域迎來(lái)了創(chuàng)新的機(jī)遇。AIGC技術(shù)通過模擬人類的語(yǔ)言生成過程,能夠?qū)崿F(xiàn)自動(dòng)化的文本生成、內(nèi)容理解和邏輯推理,對(duì)教育領(lǐng)域產(chǎn)生了巨大影響,極大地豐富了教學(xué)內(nèi)容,增強(qiáng)了教學(xué)的互動(dòng)性,還為個(gè)性化學(xué)習(xí)和評(píng)估提供了強(qiáng)有力的工具。現(xiàn)有研究表明,以ChatGPT為代表的AIGC可以參與到教育教學(xué)的各個(gè)環(huán)節(jié),如個(gè)性化教學(xué)[2]、作業(yè)批閱[3]、學(xué)習(xí)評(píng)價(jià)設(shè)計(jì)[4]、考試評(píng)價(jià)[5]等,為教育創(chuàng)新和質(zhì)量提升提供強(qiáng)大支持。
AIGC技術(shù)雖在教育領(lǐng)域表現(xiàn)出很強(qiáng)的應(yīng)用潛力,但也應(yīng)注意到其存在一定的局限性,如它在回答問題時(shí)缺乏常識(shí)可信度(如ChatGPT容易給出錯(cuò)誤或無(wú)意義的答案、有些答案并無(wú)參考來(lái)源等)[6]以及具體如何運(yùn)行缺乏透明度。本研究重點(diǎn)探討AIGC協(xié)同參與高考評(píng)價(jià)的可行性,以及對(duì)于優(yōu)化和改進(jìn)高考評(píng)價(jià)工作效度的作用與影響。
二、研究對(duì)象和方法
以某市2023年高中學(xué)業(yè)水平等級(jí)性考試歷史學(xué)科試卷為例,按照原始分進(jìn)行分層抽樣,每隔2分抽取6名考生作答題卡,共抽取342名考生作答題卡和數(shù)據(jù)作為分析對(duì)象。選取國(guó)內(nèi)最新推出的Kimi作為AIGC工具的代表。Kimi具有長(zhǎng)文總結(jié)和生成、聯(lián)網(wǎng)搜索、數(shù)據(jù)處理等功能,是全球首個(gè)支持輸入20萬(wàn)漢字的人工智能工具,具備自動(dòng)生成結(jié)構(gòu)化提示詞的能力,降低了AIGC的使用難度,使得用戶能夠更準(zhǔn)確地獲取答案。
本研究旨在探討以下問題:Kimi協(xié)同下優(yōu)化試卷結(jié)構(gòu)分析的效果;提升考生水平劃定的效度;提高評(píng)價(jià)結(jié)果反饋的時(shí)效性和針對(duì)性。
研究方法主要包括兩種:Kimi獨(dú)立完成部分工作,與人工分析結(jié)果進(jìn)行對(duì)比;將Kimi作為輔助工具,協(xié)助完成某些分析工作,以提高人工分析的效率和精準(zhǔn)度。
三、研究結(jié)果與分析
(一)AIGC協(xié)同優(yōu)化高考試卷結(jié)構(gòu)分析的應(yīng)用
試卷結(jié)構(gòu)分析是高考評(píng)價(jià)的基礎(chǔ)工作,只有對(duì)試卷考查的內(nèi)容結(jié)構(gòu)和素養(yǎng)結(jié)構(gòu)有了完整、準(zhǔn)確的認(rèn)識(shí),才能為數(shù)據(jù)分析、診斷和反饋提供依據(jù)。目前高考試卷結(jié)構(gòu)分析的依據(jù)是《普通高中課程標(biāo)準(zhǔn)(2017年版2020年修訂)》(以下簡(jiǎn)稱“《課程標(biāo)準(zhǔn)》”)。選取5名評(píng)價(jià)教師,在充分研讀《課程標(biāo)準(zhǔn)》的基礎(chǔ)上,獨(dú)立進(jìn)行分析,厘定試題考核內(nèi)容、所屬知識(shí)領(lǐng)域、所考查的學(xué)科核心素養(yǎng)、所屬的學(xué)業(yè)質(zhì)量水平及所屬的質(zhì)量描述內(nèi)容,最后討論確定試卷結(jié)構(gòu)。由于評(píng)價(jià)教師對(duì)試題所屬知識(shí)領(lǐng)域和學(xué)科核心素養(yǎng)存在一定的爭(zhēng)議,意見不容易統(tǒng)一,影響著評(píng)價(jià)的客觀性。如圖1所示,Kimi根據(jù)結(jié)構(gòu)化提示詞,可先學(xué)習(xí)《課程標(biāo)準(zhǔn)》,了解學(xué)科課程內(nèi)容和學(xué)科核心素養(yǎng)要求,然后讀入上傳的試卷,最后自動(dòng)輸出結(jié)構(gòu)化試卷分析結(jié)果。表1比較了評(píng)價(jià)教師與Kimi完成的試卷結(jié)構(gòu)分析的一致性程度。
表1數(shù)據(jù)表明,質(zhì)量水平描述維度一致性偏低,是因?yàn)橘|(zhì)量水平描述維度的確定取決于“所屬學(xué)科核心素養(yǎng)”和“學(xué)業(yè)質(zhì)量水平級(jí)別”兩個(gè)維度,而兩個(gè)維度的差異會(huì)累加到“質(zhì)量水平描述”維度。同樣,“所屬學(xué)科核心素養(yǎng)”的差異也會(huì)累加到“學(xué)業(yè)質(zhì)量水平級(jí)別”維度。如果排除累加效應(yīng)帶來(lái)的差異,Kimi試卷結(jié)構(gòu)分析與評(píng)價(jià)教師一致性較高,一致性程度均在85%以上,說明Kimi的試卷結(jié)構(gòu)分析能夠?yàn)樵u(píng)價(jià)教師的分析打好基礎(chǔ)。
研究還表明,經(jīng)過訓(xùn)練可以提升Kimi試卷結(jié)構(gòu)分析的水平。具體做法是:第一次判定時(shí),未教給它基本的判定操作流程和技巧;第二次判定時(shí),教給它選擇題考核內(nèi)容(知識(shí)點(diǎn))的判定方法,按照“設(shè)問-材料-選項(xiàng)”的順序進(jìn)行判定,一些錯(cuò)誤很容易就糾正過來(lái),如表2所示。
從表2可以看出,經(jīng)過訓(xùn)練后,Kimi的分析水平得到了很大提高。例如,第2題第1次判定為“秦朝滅亡后的政治格局”,實(shí)際此題主要考查項(xiàng)羽的政治行為;第2次判定為“秦朝滅亡后項(xiàng)羽的政治決策和行為”,非常準(zhǔn)確。但也要注意到,雖經(jīng)二次判定,最終的結(jié)果仍舊存在不足。例如,第9題判定為“改革開放初期文藝作品”,實(shí)際上此題呈現(xiàn)的時(shí)間為“1977年”,此時(shí)改革開放尚未開始,不屬于“改革開放初期”;第2次判定為“1977年文藝作品反映的社會(huì)情況”,時(shí)間上非常準(zhǔn)確,但是表述上存在歧義?!拔乃囎髌贩从车纳鐣?huì)情況”可以存在兩種解讀,即文藝作品內(nèi)容反映的社會(huì)情況或者文藝作品出版狀況反映的社會(huì)情況,這說明Kimi的判定仍存在改進(jìn)空間。但是現(xiàn)有的試卷結(jié)構(gòu)分析成果能夠?yàn)樵u(píng)價(jià)教師進(jìn)行深入分析提供很好的參照。
(二)AIGC協(xié)同提升考生水平臨界分?jǐn)?shù)劃定效度的應(yīng)用
為挖掘高考或?qū)W考分?jǐn)?shù)的教學(xué)意義,通常會(huì)基于《課程標(biāo)準(zhǔn)》并結(jié)合考生作答表現(xiàn)建立學(xué)科學(xué)業(yè)水平表現(xiàn)標(biāo)準(zhǔn),從而對(duì)新高考分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)參照解釋[7-8],而分?jǐn)?shù)的標(biāo)準(zhǔn)參照解釋有一個(gè)重要環(huán)節(jié),就是劃定水平的臨界分?jǐn)?shù),最常用的臨界分?jǐn)?shù)劃定方法是安戈夫法(Angoff method),但是安戈夫法在實(shí)施過程中主要依賴專家的主觀判斷,因此受專家個(gè)人經(jīng)驗(yàn)和偏見的影響較大。
本研究實(shí)施時(shí)首先制定了《高中學(xué)業(yè)水平等級(jí)考試歷史學(xué)科考生水平表現(xiàn)標(biāo)準(zhǔn)》(以下簡(jiǎn)稱“《表現(xiàn)標(biāo)準(zhǔn)》”),將考生表現(xiàn)劃分為四個(gè)水平(精通水平、熟練水平、基本水平、基本水平以下),評(píng)價(jià)教師依據(jù)表現(xiàn)標(biāo)準(zhǔn),使用改進(jìn)的安戈夫方法劃定臨界分?jǐn)?shù)之后,可在AIGC協(xié)同下對(duì)臨界分?jǐn)?shù)附近的考生作答試卷進(jìn)行質(zhì)性評(píng)估,達(dá)到對(duì)臨界分?jǐn)?shù)進(jìn)行效度驗(yàn)證的目的。具體的工作模式如圖2所示。
以精通水平(G4)臨界分?jǐn)?shù)的確定為例說明臨界分?jǐn)?shù)確定的過程。例如,評(píng)價(jià)教師根據(jù)改進(jìn)的安戈夫方法確定的精通水平(G4)臨界分?jǐn)?shù)為81分,然后隨機(jī)選取了一份84.5分(客觀題得分31分和主觀題得分53.5分)的考生作答題卡讓Kimi依據(jù)《表現(xiàn)標(biāo)準(zhǔn)》判斷是否達(dá)到了G4水平,分析結(jié)果如下:
該考生的分?jǐn)?shù)高于臨界分?jǐn)?shù),但Kimi的解析并不認(rèn)為該考生明確達(dá)到了G4水平,而是接近G4水平,因此由Kimi自己估計(jì)G4水平的臨界分?jǐn)?shù),如下所示:
根據(jù)Kimi的評(píng)估,G4水平的臨界分?jǐn)?shù)為81~92分之間,因此隨機(jī)選取一份81分考生作答的題卡,由Kimi進(jìn)行分析,結(jié)果如下:
從以上分析可以看出,Kimi從客觀題和主觀題兩部分的作答情況評(píng)判考生體現(xiàn)出的能力水平,最后綜合評(píng)估認(rèn)為81分的考生只是在某些方面接近G4水平。為了確定81分是否適合作為G4水平的臨界分?jǐn)?shù),選取了低于臨界分?jǐn)?shù)(78分)的考生作答題卡,同時(shí)給出該考生客觀題得分26分,主觀題得分52分,分析結(jié)果如下:
從以上分析可以看出,78分的考生被明確判定為未達(dá)到G4水平,因此81分適合作為G4水平的臨界分?jǐn)?shù)。
為進(jìn)一步確認(rèn)84.5分考生是否已達(dá)到G4水平,由Kimi重新進(jìn)行了評(píng)估,評(píng)估結(jié)果如下:
可見,在Kimi支持下,能夠?qū)崿F(xiàn)對(duì)考生的作答進(jìn)行深入的質(zhì)性分析,有效提取考生作答表現(xiàn)出的學(xué)科核心素養(yǎng)特征。通過將考生的作答表現(xiàn)與既定表現(xiàn)標(biāo)準(zhǔn)進(jìn)行細(xì)致的質(zhì)性對(duì)比,使得確定臨界分?jǐn)?shù)的過程從質(zhì)性到量化,又從量化回到質(zhì)性,有效驗(yàn)證了臨界分?jǐn)?shù)確定的準(zhǔn)確性和有效性。
(三)AIGC協(xié)同提高評(píng)價(jià)結(jié)果反饋時(shí)效性和針對(duì)性的應(yīng)用
新高考評(píng)價(jià)是基于數(shù)據(jù)的評(píng)價(jià),能夠?yàn)椴煌瑢蛹?jí)的評(píng)價(jià)對(duì)象,包括市級(jí)、區(qū)級(jí)和校級(jí)等,生成詳細(xì)的數(shù)據(jù)分析報(bào)告。目前由于人力限制,無(wú)法實(shí)現(xiàn)對(duì)每個(gè)評(píng)價(jià)對(duì)象提供個(gè)性化反饋和定制化的教學(xué)建議。然而,在AIGC協(xié)同下,可以在評(píng)價(jià)數(shù)據(jù)分析和提供有針對(duì)性的教學(xué)建議方面提供有力支持。圖3顯示了在Kimi的協(xié)同參與下,提高評(píng)價(jià)結(jié)果反饋時(shí)效性和針對(duì)性的工作模式。
首先由Kimi審讀某區(qū)2023年普通高中學(xué)業(yè)水平等級(jí)性考試歷史學(xué)科考生水平數(shù)據(jù)統(tǒng)計(jì)分析報(bào)告,Kimi很快就給出本區(qū)不同水平考生知識(shí)內(nèi)容領(lǐng)域和素養(yǎng)領(lǐng)域的強(qiáng)弱項(xiàng),分析結(jié)果如下:
可見,Kimi通過審讀數(shù)據(jù)報(bào)告,能在很短時(shí)間內(nèi)自動(dòng)給出本區(qū)知識(shí)內(nèi)容領(lǐng)域和素養(yǎng)領(lǐng)域中的強(qiáng)弱項(xiàng),并且還能提出具有針對(duì)性的教學(xué)建議。雖然Kimi提出的教學(xué)建議只是方向性意見,但是評(píng)價(jià)教師可以憑借自身豐富的教學(xué)經(jīng)驗(yàn),在此基礎(chǔ)上進(jìn)行完善。
Kimi還能根據(jù)要求選出知識(shí)內(nèi)容領(lǐng)域和素養(yǎng)領(lǐng)域的典型題,并且給出選擇的依據(jù),如下所示:
對(duì)于為什么不選擇某題作為典型題,Kimi還能接受追問,并給出解析:
為提高評(píng)價(jià)結(jié)果反饋的針對(duì)性,進(jìn)一步比較了主觀題同為49.5分的兩名考生的作答題卡,Kimi能夠很快針對(duì)兩名考生的作答題卡提出針對(duì)性的分析和學(xué)習(xí)建議:
Kimi顯示出強(qiáng)大的語(yǔ)義分析能力,從多個(gè)角度分析了兩名考生作答所表現(xiàn)出的學(xué)科核心素養(yǎng)之間的差異,且根據(jù)分析內(nèi)容提出了相應(yīng)的學(xué)習(xí)建議,分析的針對(duì)性、建議的有效性均較好,達(dá)到了專家評(píng)價(jià)的一般水平。
可見,有了Kimi的輔助,不但可以節(jié)省評(píng)價(jià)教師的評(píng)價(jià)分析時(shí)間,有效提高評(píng)價(jià)反饋的時(shí)效性,而且還可以提升評(píng)價(jià)反饋的針對(duì)性,能夠分析同分考生在知識(shí)、能力、思維等層面的不同,并提出相應(yīng)的學(xué)習(xí)建議,從而促進(jìn)學(xué)生的個(gè)性化學(xué)習(xí)。
四、討論和建議
以Kimi為代表的AIGC工具應(yīng)用于高考評(píng)價(jià),能較好地優(yōu)化試卷結(jié)構(gòu)分析及提升考生水平劃定臨界分?jǐn)?shù)的效度,提高評(píng)價(jià)反饋的時(shí)效性和針對(duì)性;同時(shí),研究過程中也暴露出當(dāng)前AIGC工具的不足之處,需要引起足夠重視。
第一,Kimi在內(nèi)容領(lǐng)域判定方面,存在主要問題判定過分廣泛或缺乏實(shí)質(zhì)性內(nèi)容的情況。如第4題:
4.漢初采取郡國(guó)并行制,后爆發(fā)“七國(guó)之亂”;曹魏創(chuàng)立九品中正制,后出現(xiàn)門閥士族把持政權(quán);唐朝在邊境重地設(shè)置軍鎮(zhèn),后藩鎮(zhèn)勢(shì)大引發(fā)“安史之亂”。對(duì)上述三組歷史現(xiàn)象的共性,解釋正確的是
A.歷史評(píng)判要以成敗為基本依據(jù)
B.制度設(shè)立之初存在明顯弊端
C.中央與地方矛盾導(dǎo)致社會(huì)動(dòng)蕩
D.歷史事物之間因果關(guān)聯(lián)復(fù)雜
第4題題干呈現(xiàn)了三組史事,漢朝的郡國(guó)并行制、三國(guó)兩晉南北朝的九品中正制、唐朝的節(jié)度使制度,這三個(gè)史事都是中國(guó)史,而且都屬于中國(guó)古代政治史內(nèi)容,沒有世界史的內(nèi)容。但是Kimi判定為“中外歷史現(xiàn)象的共性解釋”,“中外”過于寬泛,歷史現(xiàn)象也過于寬泛。其他判定的表述大體上是合適的。
第二,在素養(yǎng)領(lǐng)域中的質(zhì)量水平描述判定方面,不能深入推理發(fā)現(xiàn)材料之間存在的關(guān)系。如第3題和第4題:
3.唐朝租庸調(diào)制和兩稅法情況
上表反映了
A.減輕部分農(nóng)民的負(fù)擔(dān)
B.保證農(nóng)民的生產(chǎn)時(shí)間
C.強(qiáng)化農(nóng)民的人身依附
D.增加政府的算賦收入
Kimi判定第3題所屬學(xué)科核心素養(yǎng)是史料實(shí)證,這是對(duì)的。判定質(zhì)量水平描述時(shí),判定史料實(shí)證的層次屬于“3-3 能夠在探究特定歷史問題時(shí),自主地搜集有關(guān)史料,并利用不同類型史料的長(zhǎng)處進(jìn)行互證”。分析該題材料可知,該題不存在不同類型的史料,只有一種史料,即經(jīng)過處理后的唐朝租庸調(diào)制和兩稅法兩種賦稅制度的數(shù)據(jù)統(tǒng)計(jì)。該題要求考生分析唐朝租庸調(diào)制和兩稅法的歷史材料并得出一定的結(jié)論,因此屬于“ 2-3能夠在對(duì)史事與現(xiàn)實(shí)問題進(jìn)行論述的過程中,嘗試運(yùn)用史料作為證據(jù)論證自己的觀點(diǎn)”。
Kimi判定第4題所屬學(xué)科核心素養(yǎng)是歷史解釋,這是對(duì)的。判定質(zhì)量水平描述時(shí),認(rèn)為第4題屬于課程評(píng)價(jià)標(biāo)準(zhǔn)中,歷史解釋的“ 3-4能夠分辨不同的歷史解釋,并嘗試從來(lái)源、性質(zhì)和目的等多方面加以評(píng)析”層級(jí),則是錯(cuò)誤的。第4題材料中呈現(xiàn)了三組史事(系列史事),漢朝的郡國(guó)并行制、三國(guó)兩晉南北朝的九品中正制、唐朝的節(jié)度使制度,三種制度設(shè)立之初都起到了積極作用,有利于統(tǒng)治,后期都出現(xiàn)了問題,不利于統(tǒng)治。因此,該題核心素養(yǎng)水平屬于歷史解釋的“ 3-4能夠選擇、組織和運(yùn)用相關(guān)材料并使用相關(guān)歷史術(shù)語(yǔ),在正確的歷史觀和方法論的指導(dǎo)下,對(duì)系列史事作出解釋”。
第三,Kimi有時(shí)會(huì)給出一些錯(cuò)誤結(jié)論或理由。如Kimi在選取典型題時(shí),會(huì)給出錯(cuò)誤的選擇理由。第10題考查的是古埃及的歷史,而Kimi給出的典型題選取理由是涉及中國(guó)近現(xiàn)代史,這是錯(cuò)誤的;第14題圖中給出的是清朝商幫貿(mào)易示意圖,而Kimi給出的典型題選取理由是涉及中國(guó)古代國(guó)家起源與發(fā)展階段。Kimi在審讀數(shù)據(jù)報(bào)告時(shí),從數(shù)據(jù)報(bào)告中提取的內(nèi)容不一定準(zhǔn)確,會(huì)存在誤讀,給出錯(cuò)誤的結(jié)論,如強(qiáng)弱項(xiàng)分析時(shí),認(rèn)為本區(qū)G1水平組世界史的得分率0.58和綜合的得分率0.48低于同類區(qū)或全市,實(shí)際卻是高于同類區(qū)或全市。因此,針對(duì)Kimi給出的內(nèi)容或從數(shù)據(jù)報(bào)告中提取的內(nèi)容,仍需要評(píng)價(jià)教師使用時(shí)進(jìn)行甄別。
第四,由于AIGC運(yùn)行的暗箱性,目前仍無(wú)法明確如何進(jìn)行微調(diào)。本次研究雖探索過借助提示詞進(jìn)行微調(diào),但依然不夠精細(xì),而且AIGC工具為了表明自身具有一定的智能性,兩次分析的結(jié)果并不完全一樣,雖然可以通過溫度參數(shù)進(jìn)行調(diào)節(jié),但是固定的結(jié)果,會(huì)影響生成式人工智能水平的提升。
總之,AIGC參與到新高考評(píng)價(jià)工作流程中,確實(shí)可以大幅提升評(píng)價(jià)分析的效率和效度,同時(shí)也存在一些不足。未來(lái)隨著技術(shù)的不斷發(fā)展和完善,AIGC有望更好地滿足教育評(píng)價(jià)領(lǐng)域的多樣化需求。
參考文獻(xiàn):
[1] 于涵,韓寧,關(guān)丹丹,關(guān)于新高考改革背景下考試質(zhì)量監(jiān)測(cè)與評(píng)價(jià)工作的思考[J].中國(guó)高教研究,2018,(10):11-16.
[2] 陳勝賢.生成式人工智能在高中地理個(gè)性化教學(xué)中的運(yùn)用——以ChatGPT應(yīng)用于“陸地水體及其相互關(guān)系”教學(xué)為例[J].中學(xué)地理教學(xué)參考,2024,(05):16-21.
[3] 高立洋,姚偉國(guó),樂聲浩.生成式人工智能在地理作業(yè)批閱中的實(shí)踐探索[J].中小學(xué)數(shù)字化教學(xué),2024,(01):56-60.
[4] 鄭耿標(biāo).基于生成式人工智能的歷史學(xué)習(xí)評(píng)價(jià)設(shè)計(jì)初探[J].歷史教學(xué),2024,(03):20-29.
[5] 孫旭.人工智能在考試評(píng)價(jià)領(lǐng)域的實(shí)踐研究——以2023年江蘇省高考地理試題為例[J].地理教學(xué),2024,(05):21-23+34.
[6] 托雷·霍爾,李思琦,孫波.生成式人工智能對(duì)歐洲教育的影響及對(duì)中國(guó)的啟示[J].中國(guó)教育信息化,2023,29(06):8-16.
[7] 關(guān)丹丹,韓寧,章建石.立足“四個(gè)評(píng)價(jià)”、服務(wù)“五類主體” 進(jìn)一步深化高考評(píng)價(jià)改革[J].中國(guó)考試,2021,(03):1-8.
[8] 許志勇,劉欣.高考分?jǐn)?shù)標(biāo)準(zhǔn)參照解釋的實(shí)踐與思考[J].天津師范大學(xué)學(xué)報(bào)(基礎(chǔ)教育版),2017,18(03):69-74.
Research on the Application of Generative Artificial Intelligence in the Evaluation of the New College Entrance Examination : Taking Kimi as an Example
Xu Zhiyong1" Fan Yingjun2
1 Tianjin Municipal Educational Admission amp; Examinations Authority,Tianjin,300387
2 Tianjin No. 41 High School,Tianjin,300204
Abstract: Chosing Kimi as the analysis tool,and the test paper of History subject and candidates’ answer sheets of 2023 High School Academic Level Grade Examination of a city as the analysis contents,this paper focuses on the application of generative artificial intelligence in the evaluation of the new college entrance examination. The study shows that Kimi collaborative working mode can optimize the structure analysis of the examination paper,enhance the validity of the demarcation of the critical score of the candidates’ level,and improve the timeliness and relevance of the feedback in the evaluation results so as to improve the validity and efficiency. Some problems,such as problem judgment is too broad,it is unable to reason deeply to discover relationships between materials,sometimes it gives wrong conclusions or reasons,it is not sure how to fine-tune,should be paid attention to under the current use of AIGC.
Key words:Generative Artificial Intelligence,New College Entrance Examination Evaluation,Analysis of Examination Paper Structure,Evaluation Feedback
(責(zé)任編輯:吳茳、陳暢)
作者簡(jiǎn)介 許志勇,副研究員,天津市教育招生考試院。天津,300387。范英軍,一級(jí)教師,天津市第四十一中學(xué)。天津,300204。
基金項(xiàng)目 本文為教育部教育考試院“十四五”規(guī)劃支撐專項(xiàng)課題“基于學(xué)科核心素養(yǎng)的新高考分?jǐn)?shù)標(biāo)準(zhǔn)參照解釋的研究”(課題批準(zhǔn)號(hào):NEEA2021043)研究成果之一。