摘要:隨著數(shù)字技術(shù)與教育的深度融合,數(shù)字化測(cè)評(píng)已成為現(xiàn)代教育測(cè)評(píng)發(fā)展的重要方向。文章著眼于學(xué)科核心素養(yǎng)評(píng)價(jià)這一現(xiàn)實(shí)需求,深入分析指向?qū)W科核心素養(yǎng)的傳統(tǒng)測(cè)評(píng)方法之困,洞察了新時(shí)期學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的價(jià)值意蘊(yùn)。在此基礎(chǔ)上,分析了學(xué)科核心素養(yǎng)的形成過程,并結(jié)合ECD理論構(gòu)建了學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的概念模型。最后從構(gòu)建學(xué)科核心素養(yǎng)導(dǎo)向的測(cè)評(píng)指標(biāo)體系、設(shè)計(jì)指向?qū)W科核心素養(yǎng)的數(shù)字化測(cè)評(píng)工具、研制學(xué)科核心素養(yǎng)水平量化計(jì)算方法三方面討論了新課標(biāo)視域下學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的實(shí)現(xiàn)機(jī)理,以期為學(xué)科核心素養(yǎng)導(dǎo)向下開展精準(zhǔn)、全面的學(xué)習(xí)評(píng)價(jià)提供指導(dǎo),有效推進(jìn)數(shù)字化測(cè)評(píng)方法在教育評(píng)價(jià)中的應(yīng)用。
關(guān)鍵詞:學(xué)科核心素養(yǎng);學(xué)科核心素養(yǎng)測(cè)評(píng);數(shù)字化測(cè)評(píng);ECD理論
【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2025)02—0055—08【DOI】10.3969/j.issn.1009-8097.2025.02.006
引言
2022年我國(guó)發(fā)布的新版義務(wù)教育課程方案及各學(xué)科標(biāo)準(zhǔn),明確將培養(yǎng)目標(biāo)從“三維目標(biāo)”升華為“學(xué)科核心素養(yǎng)”,并圍繞學(xué)科核心素養(yǎng)的落實(shí),優(yōu)化教學(xué)內(nèi)容與活動(dòng),提出了更具針對(duì)性的考試評(píng)價(jià)建議[1],為新時(shí)期學(xué)習(xí)測(cè)評(píng)的設(shè)計(jì)與落實(shí)提供了新的科學(xué)指導(dǎo)方案:一是明確學(xué)習(xí)測(cè)評(píng)的目標(biāo)導(dǎo)向,強(qiáng)調(diào)知識(shí)的理解和運(yùn)用、問題解決能力的發(fā)展以及正確價(jià)值觀的形成。二是基于核心素養(yǎng)發(fā)展要求,以核心概念為骨架,遴選主題內(nèi)容和基礎(chǔ)知識(shí),統(tǒng)籌優(yōu)化課程結(jié)構(gòu)。三是根據(jù)提出學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn),準(zhǔn)確把握學(xué)科核心素養(yǎng)導(dǎo)向下學(xué)生通過課程學(xué)習(xí)預(yù)期達(dá)到的學(xué)習(xí)結(jié)果。四是從學(xué)科核心素養(yǎng)出發(fā),針對(duì)“內(nèi)容要求”提出“學(xué)業(yè)要求”和“教學(xué)提示”,強(qiáng)化考試評(píng)價(jià)同課程標(biāo)準(zhǔn)與教學(xué)的一致性,促進(jìn)“教-學(xué)-評(píng)”有機(jī)銜接。
新課標(biāo)的頒布意味著學(xué)科核心素養(yǎng)導(dǎo)向的課堂改革已全面鋪開,學(xué)生的學(xué)習(xí)測(cè)評(píng)由知識(shí)掌握與應(yīng)用水平,擴(kuò)展為知識(shí)、能力以及學(xué)科思維等核心素養(yǎng)培養(yǎng)情況的全面評(píng)價(jià)。將測(cè)評(píng)目標(biāo)聚焦于學(xué)生的學(xué)科核心素養(yǎng),是教育主體在價(jià)值選擇和創(chuàng)新中的重要過程[2]。長(zhǎng)期以來(lái),紙筆測(cè)驗(yàn)都是教學(xué)實(shí)踐中常見、主流的評(píng)價(jià)方式[3],盡管這種方式可以通過作答結(jié)果進(jìn)一步分析出學(xué)生的能力水平,但是素養(yǎng)的真正意義在于能夠?qū)⑺鶎W(xué)知識(shí)和技能應(yīng)用到實(shí)際生活和工作中。傳統(tǒng)的紙筆測(cè)驗(yàn)無(wú)法模擬真實(shí)情境,難以了解學(xué)生的內(nèi)在思維變化過程,對(duì)于實(shí)踐技能的評(píng)估存在一定的困難,特別是對(duì)于需要通過實(shí)驗(yàn)、理論推導(dǎo)和數(shù)學(xué)建模來(lái)探索現(xiàn)實(shí)世界中各種現(xiàn)象和規(guī)律的物理、化學(xué)等學(xué)科而言,難以動(dòng)態(tài)獲取學(xué)生答題活動(dòng)過程中反映思維情況的行為信息[4],導(dǎo)致其在動(dòng)態(tài)評(píng)價(jià)學(xué)生的高階能力、學(xué)科核心素養(yǎng)形成水平方面存在局限。
新一輪科技革命和產(chǎn)業(yè)變革以信息化和數(shù)字化高效發(fā)展為基本特征,PAD、數(shù)字紙筆等智能學(xué)習(xí)終端、虛擬仿真實(shí)驗(yàn)室等學(xué)科工具在考試測(cè)驗(yàn)中的廣泛應(yīng)用,促使基于數(shù)字技術(shù)的測(cè)試過程性數(shù)據(jù)收集變得更加可行,很大程度上克服了由于可用數(shù)據(jù)單一、零散、有延時(shí)等情況所導(dǎo)致的學(xué)習(xí)評(píng)價(jià)準(zhǔn)確性不足的問題,為測(cè)評(píng)學(xué)生思維等素養(yǎng)水平提供了有效的手段和途徑,這成為教育技術(shù)研究領(lǐng)域的熱點(diǎn)和富有挑戰(zhàn)性的問題。因此,在數(shù)字化條件下,研究指向?qū)W科核心素養(yǎng)的測(cè)評(píng)方法具有重要的理論價(jià)值與實(shí)踐意義。
一指向?qū)W科核心素養(yǎng)的傳統(tǒng)測(cè)評(píng)方法困境分析
學(xué)科核心素養(yǎng)是個(gè)體在現(xiàn)實(shí)情境中對(duì)特定領(lǐng)域知識(shí)、方法和觀念進(jìn)行整合或重組,持續(xù)性和創(chuàng)新性解決問題的能力。鑒于其在具體內(nèi)涵和表現(xiàn)機(jī)制上的綜合性與復(fù)雜性,實(shí)踐視域下落實(shí)學(xué)科核心素養(yǎng)的常態(tài)化測(cè)評(píng)面臨著諸多瓶頸問題,亟需正確審視和分析傳統(tǒng)測(cè)評(píng)方法之困,探尋更為適切的測(cè)評(píng)手段。
1 紙筆測(cè)試缺乏問題解決過程與高階思維的推論證據(jù)
紙筆測(cè)試是一種靜態(tài)的評(píng)估工具,對(duì)于測(cè)評(píng)淺層知識(shí)和基本技能有著較高的效率,在提高日常教學(xué)評(píng)價(jià)效率和可操作性方面具備優(yōu)勢(shì)[5]。但是紙筆測(cè)試所提供的通常是在特定時(shí)間點(diǎn)的測(cè)量結(jié)果,易受時(shí)間和呈現(xiàn)方式的限制,對(duì)于設(shè)計(jì)和執(zhí)行調(diào)查等科學(xué)實(shí)踐無(wú)法在靜態(tài)的紙筆測(cè)試工具中展現(xiàn)。由于難以觀測(cè)到學(xué)生答題活動(dòng)過程中反映其思維情況的行為信息,無(wú)法收集學(xué)生開展問題解決探究活動(dòng)和進(jìn)行高階思維的推論證據(jù),教師往往只能依靠作答結(jié)果評(píng)判出學(xué)生解決問題的思維能力水平狀況[6]。這使得全面反映個(gè)體在不同情境中經(jīng)過復(fù)雜交互而產(chǎn)生的高階能力及其發(fā)展過程不易實(shí)現(xiàn),難以適應(yīng)當(dāng)前指向?qū)W生學(xué)科核心素養(yǎng)的動(dòng)態(tài)量化評(píng)價(jià)需求。
2 表現(xiàn)性評(píng)價(jià)方法在規(guī)?;瘻y(cè)評(píng)項(xiàng)目中的可操作性低
近年來(lái),表現(xiàn)性評(píng)價(jià)作為一種在真實(shí)情境或模擬情境中,運(yùn)用評(píng)分規(guī)則對(duì)學(xué)生完成復(fù)雜任務(wù)的過程表現(xiàn)與結(jié)果做出判斷的評(píng)價(jià)方法[7],在學(xué)生的問題解決、交流合作和批判性思考等多種復(fù)雜能力評(píng)價(jià)方面,逐漸成為紙筆測(cè)試的替代性方案得到廣泛使用。然而,表現(xiàn)性評(píng)價(jià)方式通常在具體操作層面存在問題[8]:首先,施測(cè)程序復(fù)雜,特別是對(duì)個(gè)體表現(xiàn)進(jìn)行深入和全面的評(píng)估需要更多的時(shí)間與資源,評(píng)分成本耗費(fèi)較大[9]。其次,存在評(píng)價(jià)主觀性和一致性方面的問題,容易受到評(píng)價(jià)者主觀觀點(diǎn)和個(gè)人偏好的影響,在多人評(píng)估的情境中,難以確保評(píng)分的一致性[10]。最后,缺乏可操作的評(píng)分細(xì)則,表現(xiàn)性評(píng)價(jià)往往強(qiáng)調(diào)對(duì)綜合素養(yǎng)和技能的整體評(píng)估,對(duì)于一些復(fù)雜技能或能力,難以設(shè)計(jì)具體、可量化的評(píng)分細(xì)則,影響評(píng)估的準(zhǔn)確性。
3 自我報(bào)告評(píng)價(jià)方法存在認(rèn)知差異影響評(píng)估的準(zhǔn)確性
自我報(bào)告評(píng)價(jià)是一種通過自主報(bào)告的方式來(lái)評(píng)估個(gè)體主觀體驗(yàn)與感受或能力水平的方法,依賴于被評(píng)估者對(duì)自己的主觀認(rèn)知,通常有問卷調(diào)查、日志記錄等方式。例如,加拿大“泛加拿大評(píng)估項(xiàng)目”(Pan-Canadian Assessment Program,PCAP)將嵌入式紙筆試題與測(cè)評(píng)量表相結(jié)合來(lái)評(píng)估學(xué)生的科學(xué)態(tài)度[11];澳大利亞科學(xué)素養(yǎng)測(cè)評(píng)NAP-SL2015項(xiàng)目中,以問卷的形式調(diào)查學(xué)生對(duì)科學(xué)的態(tài)度、觀點(diǎn)及科學(xué)學(xué)習(xí)經(jīng)歷[12]。然而,個(gè)體在自我評(píng)價(jià)中對(duì)自己真實(shí)素養(yǎng)水平的認(rèn)知會(huì)不可避免地存在偏差,往往傾向于呈現(xiàn)積極的形象或按照符合社會(huì)期望的方式進(jìn)行回答,進(jìn)而導(dǎo)致評(píng)估結(jié)果不夠客觀,無(wú)法全面反映真實(shí)的素養(yǎng)水平。
二新課標(biāo)視域下學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的價(jià)值意蘊(yùn)
數(shù)字化測(cè)評(píng)是讓學(xué)生在移動(dòng)終端上完成基于傳統(tǒng)多媒體技術(shù)和現(xiàn)代虛擬仿真技術(shù)等的數(shù)字化任務(wù),通過采集學(xué)生任務(wù)完成的過程性數(shù)據(jù),對(duì)其學(xué)習(xí)情況進(jìn)行智能診斷與分析。這種方法有利于克服傳統(tǒng)測(cè)評(píng)中存在的瓶頸性問題,助力教師緊密圍繞新課改所要求的育人目標(biāo)開展教學(xué)活動(dòng)和學(xué)習(xí)評(píng)價(jià)。
1 創(chuàng)設(shè)學(xué)科核心素養(yǎng)評(píng)價(jià)所需的多樣化復(fù)雜情境,挖掘真實(shí)素養(yǎng)表現(xiàn)
情境是學(xué)生理解和應(yīng)用概念原理的載體,通過嵌入知識(shí)的情境化設(shè)計(jì),能夠促進(jìn)學(xué)生的積極投入與主動(dòng)建構(gòu),使學(xué)生圍繞問題情境辨析復(fù)雜信息,揭示學(xué)生真實(shí)的理解水平[13]。在數(shù)字化測(cè)評(píng)中,基于虛擬仿真、人工智能等技術(shù),能夠模擬更加真實(shí)、符合現(xiàn)實(shí)世界本源特征的多樣化情境,通過模擬真實(shí)業(yè)務(wù)挑戰(zhàn)、法律案例、科學(xué)實(shí)驗(yàn)等方式,讓學(xué)生分析并提出解決方案,賦予其更大的自主探索和合作探究空間,使觀測(cè)學(xué)生運(yùn)用學(xué)科知識(shí)和技能來(lái)理解和解決真實(shí)、復(fù)雜問題的表現(xiàn)成為可能[14]。例如,在PISA2021創(chuàng)造性思維測(cè)評(píng)中,依托常規(guī)性和高度簡(jiǎn)化的現(xiàn)實(shí)情境,為學(xué)生創(chuàng)建圖形化的虛擬環(huán)境和沉浸式的體驗(yàn),讓學(xué)生在與計(jì)算機(jī)代理的交互中,進(jìn)行原創(chuàng)性設(shè)計(jì)與改進(jìn)[15]。
2 記錄學(xué)生問題解決活動(dòng)中反映思維的行為信息,獲取多源評(píng)價(jià)證據(jù)
指向?qū)W科核心素養(yǎng)的測(cè)評(píng),其本質(zhì)是以被試的外在反應(yīng)推論其潛在素養(yǎng)特質(zhì)。基于計(jì)算機(jī)的視頻技術(shù)、日志記錄技術(shù)等收集學(xué)生測(cè)試過程中的行為流、表情動(dòng)作、作品成果等數(shù)據(jù),便可記錄學(xué)生問題解決活動(dòng)中反映思維的行為信息,具體包括:學(xué)生的鼠標(biāo)和鍵盤操作,可以反映學(xué)生在解決問題時(shí)的交互方式和操作技能;學(xué)生在數(shù)字界面上的點(diǎn)擊路徑,可以了解他們?cè)诮鉀Q問題過程中的導(dǎo)航和信息獲取策略;學(xué)生在問題解決中的錯(cuò)誤操作或答案記錄,可以被用來(lái)分析學(xué)生思維過程中可能存在的誤區(qū)或困難等。這些數(shù)據(jù)的獲取為綜合采用多源表現(xiàn)性證據(jù)進(jìn)行高階思維的推論提供了科學(xué)基礎(chǔ),克服了紙筆測(cè)試只能依靠單一作答結(jié)果評(píng)判出學(xué)生解決問題的思維能力水平狀況的瓶頸[16]。
3 客觀動(dòng)態(tài)計(jì)算出學(xué)科核心素養(yǎng)的量化評(píng)價(jià)結(jié)果,促進(jìn)學(xué)習(xí)改進(jìn)優(yōu)化
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,已經(jīng)衍生出許多能夠?qū)崿F(xiàn)知識(shí)掌握狀況和能力形成狀況評(píng)價(jià)的計(jì)算模型,能夠挖掘多模態(tài)數(shù)據(jù)中蘊(yùn)含的復(fù)雜認(rèn)知規(guī)律,有助于克服傳統(tǒng)學(xué)科核心素養(yǎng)表現(xiàn)性評(píng)價(jià)中存在的可操作性低、難以具體量化的問題。例如,基于Q矩陣和作答數(shù)據(jù),借助認(rèn)知診斷模型可以實(shí)現(xiàn)對(duì)學(xué)生素養(yǎng)水平的診斷[17];基于歷史作答記錄,利用知識(shí)追蹤模型能夠判斷學(xué)生“過去”“現(xiàn)在”與“將來(lái)”核心素養(yǎng)形成的變化狀況[18]。將傳統(tǒng)的多維項(xiàng)目反應(yīng)理論模型和貝葉斯網(wǎng)絡(luò)結(jié)合構(gòu)建的混合模型,能夠科學(xué)分析虛擬表現(xiàn)中的結(jié)果數(shù)據(jù)和過程數(shù)據(jù),準(zhǔn)確估計(jì)科學(xué)探究能力[19]。在此基礎(chǔ)上,將評(píng)價(jià)結(jié)果及時(shí)、準(zhǔn)確地反饋給學(xué)生,幫助學(xué)生理解自我的“認(rèn)知過程”,學(xué)會(huì)監(jiān)控和及時(shí)調(diào)整,進(jìn)而促進(jìn)有效學(xué)習(xí)過程的發(fā)生。
三新課標(biāo)視域下學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的概念模型
教學(xué)是一個(gè)“智育”的過程,學(xué)科知識(shí)是學(xué)科核心素養(yǎng)發(fā)展的本源與載體[20],有效的學(xué)習(xí)實(shí)踐往往發(fā)生在由真實(shí)問題、情境及評(píng)價(jià)感悟構(gòu)成的問題解決境脈之中。只有掌握了基本知識(shí)、概念和規(guī)律,才能夠通過系統(tǒng)的實(shí)踐探究來(lái)應(yīng)用這些概念,更好地認(rèn)識(shí)客觀世界,利用所學(xué)積極地改造世界。思維是人腦進(jìn)行智力活動(dòng)的操作過程與方式,在各種問題解決中扮演著策略與方法的角色[21]。倘若教學(xué)過于重視知識(shí)點(diǎn)本身以及學(xué)生掌握知識(shí)點(diǎn)的數(shù)量,忽視外在問題解決實(shí)踐與內(nèi)在思維活動(dòng)的統(tǒng)一,將會(huì)出現(xiàn)惰性知識(shí)現(xiàn)象,阻礙學(xué)生在龐雜的學(xué)科系統(tǒng)中建構(gòu)知識(shí)并獲得關(guān)鍵能力。只有讓學(xué)生經(jīng)歷從“具體問題”到“抽象原理”再到“具體問題”的高階思維活動(dòng),才能促進(jìn)學(xué)生的深度理解,實(shí)現(xiàn)從知識(shí)習(xí)得到學(xué)科核心素養(yǎng)的轉(zhuǎn)化。
概括來(lái)講,學(xué)科核心素養(yǎng)的形成是基于事實(shí)、概念等學(xué)科知識(shí)的習(xí)得,認(rèn)識(shí)與理解學(xué)習(xí)情境,掌握與感悟?qū)W習(xí)內(nèi)容所蘊(yùn)含的方法性知識(shí),在解決實(shí)際問題的過程中,逐漸形成應(yīng)對(duì)各種場(chǎng)景、任務(wù)或問題的心智靈活性,發(fā)展與問題解決相關(guān)的學(xué)科能力和學(xué)科思維,以及對(duì)學(xué)科的價(jià)值追求,并嘗試獨(dú)立探索新的知識(shí)領(lǐng)域,從而不斷地認(rèn)識(shí)新問題,實(shí)現(xiàn)學(xué)習(xí)的高通路遷移[22],形成過程如圖1所示。
學(xué)科核心素養(yǎng)的形成過程表明,運(yùn)用學(xué)科的核心知識(shí)和活動(dòng)經(jīng)驗(yàn)順利完成相應(yīng)問題解決實(shí)踐的過程體現(xiàn)了學(xué)生一定的心智模型和認(rèn)知范式,以及在不同情境下能力的具體表現(xiàn)過程。可概括為三個(gè)方面,一是知識(shí)和經(jīng)驗(yàn)的輸入——學(xué)習(xí)理解,二是知識(shí)和經(jīng)驗(yàn)的輸出——應(yīng)用實(shí)踐,三是知識(shí)和經(jīng)驗(yàn)的高級(jí)輸出——遷移創(chuàng)新[23]。當(dāng)學(xué)生能夠?qū)⑺鶎W(xué)的知識(shí)與自身的經(jīng)驗(yàn)、體驗(yàn)和感悟?qū)?、貫通起?lái),在問題探究中調(diào)用并建構(gòu)自己觀察事物、思考問題的認(rèn)知框架,完成從具體知識(shí)到認(rèn)識(shí)方式的外部定向、獨(dú)立操作和自覺內(nèi)化的不同思維活動(dòng)時(shí),外在的知識(shí)才能逐漸轉(zhuǎn)化為自身的素養(yǎng)。因此,學(xué)科核心素養(yǎng)的考察應(yīng)蘊(yùn)含在學(xué)生運(yùn)用知識(shí)點(diǎn)解決各種不同能力水平問題的過程中,需要我們從一些解決復(fù)雜技能測(cè)量問題的理論中尋求啟發(fā)。
1999年,Mislevy等提出證據(jù)中心的設(shè)計(jì)(Evidence-Centered Design,ECD)理論,通過技術(shù)手段誘發(fā)復(fù)雜技能的證據(jù),并利用統(tǒng)計(jì)模型從復(fù)雜的數(shù)據(jù)中進(jìn)行推論,覆蓋了從評(píng)價(jià)指標(biāo)的設(shè)定、證據(jù)的獲取到能力水平的推斷這一系列完整鏈條,展示了評(píng)價(jià)操作的藍(lán)圖和評(píng)價(jià)元素的相互關(guān)系。其概念性評(píng)價(jià)框架包括以下幾個(gè)關(guān)鍵組成部分:學(xué)生模型需要定義擬測(cè)量的知識(shí)、技能、能力等相關(guān)變量,明確測(cè)量要素和目標(biāo)。證據(jù)模型由證據(jù)規(guī)則和測(cè)量模型兩部分構(gòu)成,證據(jù)規(guī)則基于學(xué)生表現(xiàn)的關(guān)鍵特征,描述特定情境中不同表現(xiàn)的實(shí)質(zhì)性差異,以形成推論潛在能力的證據(jù);測(cè)量模型通過數(shù)理統(tǒng)計(jì)的方法,執(zhí)行從證據(jù)到潛在能力的推理過程,對(duì)學(xué)生表現(xiàn)進(jìn)行評(píng)分。任務(wù)模型旨在研發(fā)能夠獲得各種證據(jù)的測(cè)驗(yàn)任務(wù)。組合模型則將測(cè)評(píng)作為一個(gè)整體,描述模型之間的協(xié)同。呈現(xiàn)模型描述如何在數(shù)字化環(huán)境中呈現(xiàn)任務(wù)[24]。
ECD理論系統(tǒng)地闡明了復(fù)雜測(cè)驗(yàn)設(shè)計(jì)的基本結(jié)構(gòu),為學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)提供了原則性框架和學(xué)理依據(jù)。一是指向?qū)W科核心素養(yǎng)的測(cè)評(píng)首先需要明確測(cè)什么,形成可觀察的指標(biāo)和具體的操作性定義框架;二是指向?qū)W科核心素養(yǎng)的測(cè)評(píng)要明確用什么測(cè),從試題設(shè)計(jì)轉(zhuǎn)向任務(wù)情景設(shè)計(jì),用情境化問題刺激學(xué)生的行為反應(yīng)和表現(xiàn),反映潛在心理特質(zhì),因此,需要在一般意義的情境化問題基礎(chǔ)上,將基于計(jì)算機(jī)的復(fù)雜交互任務(wù)作為重要的測(cè)評(píng)工具進(jìn)行設(shè)計(jì);三是指向?qū)W科核心素養(yǎng)的測(cè)評(píng)要突破傳統(tǒng)的“試題-答案”的測(cè)驗(yàn)設(shè)計(jì)范式,形成以證據(jù)為中心的測(cè)評(píng)方法框架?;诖耍崂頂?shù)字化環(huán)境的支撐條件、指向?qū)W科核心素養(yǎng)的復(fù)雜測(cè)評(píng)設(shè)計(jì)中各組成部分與功能以及其交互關(guān)系,達(dá)成高階能力的測(cè)評(píng)目標(biāo)與測(cè)評(píng)結(jié)果之間在價(jià)值取向、證據(jù)收集與分析上的邏輯一致性,構(gòu)建了與傳統(tǒng)測(cè)試方法截然不同的概念模型,如圖2所示。
該概念模型的核心是基于證據(jù)做出科學(xué)推理,主要包括學(xué)生模型、任務(wù)模型、證據(jù)模型三大核心環(huán)節(jié)。①學(xué)生模型以規(guī)劃測(cè)評(píng)內(nèi)容與行為表現(xiàn)為核心任務(wù),是基于測(cè)評(píng)目的與實(shí)際情境對(duì)所評(píng)素養(yǎng)進(jìn)行操作性定義和精準(zhǔn)畫像的過程,具體表現(xiàn)為明晰目標(biāo)、洞察影響因素、確定測(cè)評(píng)結(jié)構(gòu)以及細(xì)化測(cè)評(píng)條目等方面。關(guān)注所測(cè)內(nèi)容的可量化性以及易操作性,將學(xué)科素養(yǎng)測(cè)評(píng)內(nèi)容與學(xué)生行為表現(xiàn)建立關(guān)聯(lián)關(guān)系,為后續(xù)任務(wù)模型的設(shè)計(jì)與構(gòu)建提供標(biāo)準(zhǔn)指南。②任務(wù)模型的核心任務(wù)是以循證測(cè)評(píng)為理念,設(shè)計(jì)能夠誘發(fā)學(xué)生學(xué)科核心素養(yǎng)表現(xiàn)的測(cè)評(píng)工具。既要有多樣化的任務(wù)來(lái)評(píng)估測(cè)評(píng)內(nèi)容的各個(gè)維度,滿足測(cè)評(píng)需求,以實(shí)現(xiàn)全面評(píng)估;又能夠提供真實(shí)問題解決情境下良好的測(cè)評(píng)體驗(yàn),隱性地誘發(fā)學(xué)生調(diào)用學(xué)科核心素養(yǎng),促進(jìn)測(cè)評(píng)證據(jù)的生成,以實(shí)現(xiàn)精準(zhǔn)評(píng)估。③證據(jù)模型的關(guān)鍵是基于理論框架獲取任務(wù)作答的行為模式或關(guān)鍵特征,并基于數(shù)理統(tǒng)計(jì)模型或融合人工智能領(lǐng)域的數(shù)據(jù)挖掘及自然語(yǔ)言處理等方法進(jìn)行數(shù)據(jù)整合與分析,建立證據(jù)與學(xué)科核心素養(yǎng)的推理鏈條,進(jìn)而實(shí)現(xiàn)學(xué)科核心素養(yǎng)的量化計(jì)算,形成數(shù)據(jù)驅(qū)動(dòng)的測(cè)評(píng)范式。
四新課標(biāo)視域下學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的實(shí)現(xiàn)機(jī)理
基于以上分析,本研究認(rèn)為學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的實(shí)現(xiàn)邏輯可以概括為以下步驟:規(guī)劃測(cè)評(píng)內(nèi)容與行為表現(xiàn),建立測(cè)評(píng)內(nèi)容的評(píng)價(jià)指標(biāo)體系;以此為依據(jù),基于真實(shí)的任務(wù)情境,設(shè)計(jì)指向?qū)W科核心素養(yǎng)的數(shù)字化測(cè)評(píng)工具;采集學(xué)生利用數(shù)字化測(cè)評(píng)工具解決問題過程中出現(xiàn)的數(shù)據(jù),形成評(píng)價(jià)證據(jù),通過基于數(shù)據(jù)證據(jù)的計(jì)算方法,精準(zhǔn)量化學(xué)生的學(xué)科核心素養(yǎng)水平。實(shí)現(xiàn)機(jī)理如圖3所示。
1 構(gòu)建基于學(xué)習(xí)進(jìn)階的學(xué)科核心素養(yǎng)測(cè)評(píng)指標(biāo)體系
推動(dòng)核心素養(yǎng)導(dǎo)向下的測(cè)試評(píng)價(jià),需要構(gòu)建科學(xué)合理的測(cè)評(píng)指標(biāo)體系,為整個(gè)數(shù)字化測(cè)評(píng)設(shè)計(jì)與實(shí)施提供重要依據(jù)。測(cè)評(píng)指標(biāo)體系的構(gòu)建首先需要明晰測(cè)什么,確定測(cè)評(píng)體系構(gòu)建的核心骨架。不同學(xué)科具有不同的素養(yǎng)要求,應(yīng)基于新版課程標(biāo)準(zhǔn),既參照課標(biāo)規(guī)定的教學(xué)內(nèi)容,又依據(jù)學(xué)生核心素養(yǎng)規(guī)定的領(lǐng)域和要求,在學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)的指導(dǎo)下,遵循學(xué)生認(rèn)知發(fā)展規(guī)律,明晰不同學(xué)段學(xué)生應(yīng)該實(shí)現(xiàn)何種能力水平、學(xué)到什么程度,深刻認(rèn)識(shí)和分析每個(gè)所要測(cè)量的學(xué)科核心素養(yǎng)的內(nèi)涵以及不同水平的實(shí)質(zhì)特征,全面細(xì)致地明晰學(xué)科核心素養(yǎng)究竟需要測(cè)評(píng)哪些內(nèi)容,設(shè)定精準(zhǔn)的測(cè)評(píng)變量,為后續(xù)測(cè)評(píng)提供標(biāo)準(zhǔn)依據(jù)。
要明確怎樣去測(cè),確定指標(biāo)體系的具體構(gòu)成結(jié)構(gòu)與要素,將抽象的學(xué)科素養(yǎng)點(diǎn)與學(xué)生具體的行為表現(xiàn)相關(guān)聯(lián),提高測(cè)評(píng)指標(biāo)體系的可操作性??苫趯W(xué)習(xí)進(jìn)階理論深刻理解所要評(píng)價(jià)的素養(yǎng)從簡(jiǎn)單到復(fù)雜的發(fā)展過程,厘清由學(xué)科核心素養(yǎng)點(diǎn)(新課標(biāo)規(guī)定的各學(xué)科素養(yǎng)點(diǎn))、課程內(nèi)容(以新課標(biāo)規(guī)定的課程主題為大概念)、能力水平(學(xué)習(xí)理解水平、應(yīng)用實(shí)踐水平、遷移創(chuàng)新水平),以及行為表現(xiàn)描述組成的學(xué)科核心素養(yǎng)測(cè)評(píng)指標(biāo)體系多層次結(jié)構(gòu)。然后,根據(jù)學(xué)科核心素養(yǎng)的具體內(nèi)涵與情境的復(fù)雜程度,從知識(shí)運(yùn)用不同能力水平的多個(gè)維度,轉(zhuǎn)變?yōu)榭赏怙@的學(xué)習(xí)表現(xiàn),確定被試能力水平與被試在問題解決中調(diào)用的認(rèn)識(shí)方式和行為或結(jié)果表現(xiàn)之間的關(guān)系,進(jìn)一步明晰學(xué)生在各個(gè)學(xué)科素養(yǎng)點(diǎn)上預(yù)期應(yīng)該有什么樣的行為表現(xiàn),應(yīng)以什么標(biāo)準(zhǔn)來(lái)看待素養(yǎng)水平和任務(wù)表現(xiàn)之間的關(guān)聯(lián)等,構(gòu)建一個(gè)能夠全面反映學(xué)生學(xué)科核心素養(yǎng)形成情況與整體狀況的多維測(cè)評(píng)指標(biāo)體系,為測(cè)評(píng)工具開發(fā)和量化計(jì)算提供標(biāo)準(zhǔn)依據(jù)。
2 設(shè)計(jì)引發(fā)學(xué)科核心素養(yǎng)表現(xiàn)的數(shù)字化測(cè)評(píng)工具
傳統(tǒng)認(rèn)知測(cè)驗(yàn)利用試題刺激學(xué)生的認(rèn)知反應(yīng),而指向?qū)W科核心素養(yǎng)的測(cè)評(píng)需要依托具體情境從測(cè)評(píng)“知道什么”轉(zhuǎn)向測(cè)評(píng)“運(yùn)用知識(shí)能做什么”,要求學(xué)生運(yùn)用習(xí)得的知識(shí)和技能、思維方法、情感態(tài)度等,來(lái)解決現(xiàn)實(shí)問題,而不是單純對(duì)抽象的知識(shí)與概念和去情境化的原理與規(guī)則進(jìn)行考察。因此,學(xué)科核心素養(yǎng)的考察需要在ECD理論的指導(dǎo)下,將其蘊(yùn)含在學(xué)生掌握與運(yùn)用知識(shí),系統(tǒng)性和創(chuàng)造性解決情境性問題的過程中,利用數(shù)字化的探究任務(wù)激發(fā)學(xué)生的行為反應(yīng)和表現(xiàn)。
數(shù)字化探究任務(wù)的設(shè)計(jì)需要以核心素養(yǎng)為軸,基于操作性的多維測(cè)評(píng)指標(biāo)體系,針對(duì)不同素養(yǎng)點(diǎn)的要求及不同能力水平的指標(biāo)描述,充分發(fā)揮大概念整合化的功能價(jià)值,圍繞特定主題,按照學(xué)習(xí)理解、應(yīng)用實(shí)踐、遷移創(chuàng)新三類水平展開。在提供真實(shí)而復(fù)雜的任務(wù)背景方面,創(chuàng)設(shè)遞進(jìn)式問題情境、支架式探究情境以及延展性應(yīng)用情境,通過具體問題之間承上啟下的關(guān)系幫助學(xué)生獲得完整的問題解決體驗(yàn)[25]。此外,以目標(biāo)與過程并重為價(jià)值取向,嵌入虛擬仿真實(shí)驗(yàn)室和學(xué)科工具等,誘發(fā)學(xué)生參與問題解決的過程,引起學(xué)生行為活動(dòng)的狀態(tài)變化。最后還需通過專家咨詢、Rash模型檢驗(yàn)等編制并完善具體測(cè)試試題,確保數(shù)字化測(cè)評(píng)工具的目標(biāo)指向性和效度,為實(shí)現(xiàn)學(xué)科核心素養(yǎng)的有效測(cè)量提供測(cè)試工具支撐。
在技術(shù)實(shí)現(xiàn)方面,可采用學(xué)科工具智能嵌入,教與學(xué)行為數(shù)據(jù)匯聚與管理、建模與分析,個(gè)性化學(xué)習(xí)追蹤與服務(wù)推薦等功能集成的教育測(cè)評(píng)軟件平臺(tái),建立多源異構(gòu)教育數(shù)據(jù)的匯聚方法與共享機(jī)制,打通從基礎(chǔ)層到用戶層的完整閉環(huán),實(shí)現(xiàn)機(jī)器智能與自主學(xué)習(xí)、課堂教學(xué)、雙師課堂等多場(chǎng)景學(xué)科核心素養(yǎng)測(cè)評(píng)的深度嵌入。在數(shù)據(jù)處理方法上,可構(gòu)建人機(jī)互動(dòng)中多模態(tài)測(cè)評(píng)行為數(shù)據(jù)和音、視頻等教學(xué)情境數(shù)據(jù)的智能感知模型與表征框架,實(shí)現(xiàn)對(duì)海量無(wú)監(jiān)督行為數(shù)據(jù)的高精準(zhǔn)感知,挖掘數(shù)據(jù)隱含的多行為線索;構(gòu)建多通道行為數(shù)據(jù)一致性融合模型,對(duì)學(xué)生的行為反應(yīng)進(jìn)行深度挖掘和關(guān)鍵特征提取,實(shí)現(xiàn)測(cè)評(píng)行為可計(jì)算。
3 研制融合測(cè)評(píng)過程數(shù)據(jù)的學(xué)科核心素養(yǎng)水平量化計(jì)算方法
數(shù)據(jù)驅(qū)動(dòng)的學(xué)科核心素養(yǎng)水平量化評(píng)價(jià)包含學(xué)習(xí)反應(yīng)數(shù)據(jù)采集、智能計(jì)算模型設(shè)計(jì)、智能計(jì)算結(jié)果可視化三個(gè)方面。在學(xué)習(xí)反應(yīng)數(shù)據(jù)采集方面,除了采集任務(wù)得分等結(jié)果數(shù)據(jù)外,還應(yīng)兼顧人機(jī)交互的過程性數(shù)據(jù),如學(xué)生操作鼠標(biāo)的反應(yīng)頻率,花費(fèi)在每個(gè)題目或任務(wù)上的總時(shí)間等。以事件對(duì)任務(wù)情境中的活動(dòng)進(jìn)行統(tǒng)一規(guī)范,利用“活動(dòng)流”的概念來(lái)跟蹤記錄學(xué)習(xí)經(jīng)歷,并參考xAPI標(biāo)準(zhǔn)對(duì)測(cè)評(píng)活動(dòng)流進(jìn)行采集。
在智能計(jì)算模型設(shè)計(jì)方面,應(yīng)充分發(fā)揮人工智能的優(yōu)勢(shì),將更豐富的學(xué)習(xí)過程數(shù)據(jù)利用起來(lái),深入研究知識(shí)追蹤建模與數(shù)據(jù)融合問題,可采用不同類別的神經(jīng)網(wǎng)絡(luò)對(duì)活動(dòng)流數(shù)據(jù)進(jìn)行行為特征提取、對(duì)學(xué)習(xí)者的認(rèn)知情況進(jìn)行動(dòng)態(tài)演變建模,以及使用注意力機(jī)制給不同知識(shí)點(diǎn)分配不同的權(quán)重,靈活地關(guān)注學(xué)生學(xué)科核心素養(yǎng)形成中不同知識(shí)點(diǎn)的重要性,提高模型的建模效果。還應(yīng)結(jié)合生成式人工智能大模型處理自然語(yǔ)言和視頻數(shù)據(jù)等的能力,對(duì)學(xué)生的開放性文本數(shù)據(jù)、視頻行為數(shù)據(jù),鍵鼠操作數(shù)據(jù)和腦電生理數(shù)據(jù)等進(jìn)行分析和理解,為計(jì)算建模提供精準(zhǔn)的特征表示,探索多模態(tài)數(shù)據(jù)與核心素養(yǎng)更高階的關(guān)系映射,形成跨時(shí)空的多模態(tài)預(yù)測(cè)模型,使學(xué)科核心素養(yǎng)水平計(jì)算更準(zhǔn)確,更加符合學(xué)生的個(gè)體特征。
在智能計(jì)算結(jié)果可視化方面,精心設(shè)計(jì)的多媒體環(huán)境可以幫助學(xué)生減少額外的認(rèn)知負(fù)荷并增強(qiáng)學(xué)習(xí)??紤]到學(xué)科核心素養(yǎng)是在學(xué)科具體知識(shí)掌握和運(yùn)用過程中形成的,在短時(shí)序周期測(cè)評(píng)中,將認(rèn)知狀態(tài),即知識(shí)掌握和應(yīng)用情況用科學(xué)、合理的方式呈現(xiàn)給學(xué)生,對(duì)學(xué)習(xí)的促進(jìn)作用會(huì)更大。因此,需要對(duì)學(xué)科核心素養(yǎng)點(diǎn)形成情況、學(xué)科知識(shí)點(diǎn)掌握與應(yīng)用情況兩類結(jié)果界面進(jìn)行有效的信息設(shè)計(jì),發(fā)揮媒體的整合優(yōu)化作用,準(zhǔn)確、生動(dòng)地傳達(dá)學(xué)生學(xué)科知識(shí)的掌握與運(yùn)用水平,以及學(xué)科核心素養(yǎng)點(diǎn)的形成水平,幫助師生有目的地改善教學(xué)和學(xué)習(xí)活動(dòng),從而提升學(xué)習(xí)的意義、效率和深度指向。
五結(jié)語(yǔ)
學(xué)科核心素養(yǎng)是學(xué)生的一種綜合品質(zhì),需要通過客觀測(cè)驗(yàn)以外的行動(dòng)、作品、展示、操作等更真實(shí)的表現(xiàn)做出判斷。本研究對(duì)數(shù)字化環(huán)境中指向?qū)W科核心素養(yǎng)的測(cè)試和評(píng)價(jià)展開探討,提出了新課標(biāo)視域下學(xué)科核心素養(yǎng)數(shù)字化測(cè)評(píng)的概念模型和實(shí)現(xiàn)機(jī)制,明確了學(xué)科核心素養(yǎng)測(cè)評(píng)的關(guān)鍵要素和邏輯框架,是貫徹落實(shí)教育評(píng)價(jià)改革和減負(fù)增效宏觀政策的一次有益嘗試,有助于引導(dǎo)教師在教學(xué)過程中更加注重學(xué)生學(xué)科核心素養(yǎng)的發(fā)展,并為每個(gè)學(xué)生提供個(gè)性化評(píng)價(jià)和輔導(dǎo)。未來(lái),應(yīng)深入研究全樣本、全過程、全景式的多模態(tài)教育大數(shù)據(jù)采集方法,在不增加師生負(fù)擔(dān)的前提下提高數(shù)據(jù)獲取的便利性,同時(shí)與不同學(xué)段、不同學(xué)科的教學(xué)場(chǎng)景結(jié)合,促進(jìn)數(shù)字化測(cè)評(píng)在課堂實(shí)踐的落地實(shí)施,構(gòu)建基于多模態(tài)數(shù)據(jù)的智能教育服務(wù)模式。
———————
參考文獻(xiàn)
[1]彭前程,馬賢榮.聚焦學(xué)科核心素養(yǎng)促進(jìn)學(xué)習(xí)方式變革——《義務(wù)教育物理課程標(biāo)準(zhǔn)(2022年版)》變化要點(diǎn)分析[J].課程·教材·教法,2022,(9):35-40、86.
[2]楊向東.關(guān)于核心素養(yǎng)若干概念和命題的辨析[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2020,(10):48-59.
[3]陳凱,丁小婷.新西蘭課程中的核心素養(yǎng)解析[J].全球教育展望,2017,(2):42-57、66.
[4]龍海濤.人工智能時(shí)代教育評(píng)價(jià)改革:契機(jī)?挑戰(zhàn)與路徑選擇[J].中國(guó)考試,2021,(11):10-18、34.
[5]李鋒.學(xué)生問題解決能力的評(píng)價(jià):在線伴隨的視角[J].中國(guó)遠(yuǎn)程教育,2019,(8):79-84.
[6][16]田偉,駱方.科學(xué)探究過程的計(jì)算機(jī)模擬測(cè)試:趨勢(shì)進(jìn)展與實(shí)踐啟示[J].中國(guó)遠(yuǎn)程教育,2023,(2):28-36.
[7]周文葉.中小學(xué)表現(xiàn)性評(píng)價(jià)的理論與技術(shù)[M].上海:華東師范大學(xué)出版社,2014:53.
[8]Stecher B M, Klein S P, Solano F G, et al. The effects of content, format, and inquiry level on science performance assessment scores[J]. Applied Measurement in Education, 2000,(2):139-160.
[9]宋歌.國(guó)外科學(xué)教育中的表現(xiàn)性評(píng)價(jià)述評(píng)[J].外國(guó)中小學(xué)教育,2017,(6):17-25.
[10]Teig N, Scherer R, Kj?rnsli M. Identifying patterns of students’ performance on simulated inquiry tasks using PISA 2015 log‐file data[J]. Journal of Research in Science Teaching, 2020,(9):1400-1429.
[11]王俊民,盧星辰,唐穎捷.國(guó)際大規(guī)模科學(xué)學(xué)業(yè)評(píng)估的試題情境比較研究——基于情境類型學(xué)的量化分析[J].中國(guó)考試,2019,(2):32-40.
[12]王俊民.澳大利亞科學(xué)素養(yǎng)測(cè)評(píng)框架探析及啟示[J].外國(guó)中小學(xué)教育,2019,(3):47-56、46.
[13]National Research Council. How people learn: Brain, mind, experience, and school (expanded edition)[M].Washington, DC: The National Academies Press, 2000:31-51.
[14]Midura C J, Dede C, Norton J. Next generation assessments for measuring complex learning in science[R]. New York:Rennie Center Education Research amp; Policy, 2011:27-40.
[15]袁婷,林靜.證據(jù)中心設(shè)計(jì)理論在PISA2021創(chuàng)造性思維測(cè)評(píng)中的應(yīng)用及其啟示[J].中國(guó)考試,2021,(3):56-62、73.
[17]萬(wàn)海鵬,陳思睿,余勝泉.基于認(rèn)知診斷的學(xué)科核心素養(yǎng)測(cè)量路徑構(gòu)建[J].電化教育研究,2022,(11):92-99.
[18]李振,周東岱.人工智能支持下基于特征融合的深度知識(shí)追蹤模型研究[J].電化教育研究,2022,(4):47-54.
[19]Scalise K, Clarke-Midura J. The many faces of scientific inquiry: Effectively measuring what students do and not only what they say[J]. Journal of Research in Science Teaching, 2018,(10):1469-1496.
[20]范佳榮,鐘紹春.學(xué)科知識(shí)圖譜研究:由知識(shí)學(xué)習(xí)走向思維發(fā)展[J].電化教育研究,2022,(1):32-38.
[21]邢紅軍.物理學(xué)科核心素養(yǎng):透視、商榷與重構(gòu)[J].教育科學(xué)研究,2018,(11):5-14.
[22]李潤(rùn)洲.學(xué)科核心素養(yǎng)的培育:知識(shí)結(jié)構(gòu)的視域[J].教育發(fā)展研究,2018,(Z2):43-49.
[23]王磊.學(xué)科能力構(gòu)成及其表現(xiàn)研究——基于學(xué)習(xí)理解、應(yīng)用實(shí)踐與遷移創(chuàng)新導(dǎo)向的多維整合模型[J].教育研究,2016,(9):83-92、125.
[24]袁建林,劉紅云.核心素養(yǎng)測(cè)量:理論依據(jù)與實(shí)踐指向[J].教育研究,2017,(7):21-28、36.
[25]范佳榮,趙雪妍,鐘紹春.指向?qū)W科核心素養(yǎng)的數(shù)字化測(cè)評(píng)工具設(shè)計(jì)——以初中物理科學(xué)探究素養(yǎng)為例[J].中國(guó)考試,2024,(11):55-66.
Digital Assessment of Discipline Core Competencies from the Perspective of New Curriculum
Standards: Value Implications, Conceptual Model and Implementation Mechanism
FAN Jia-Rong1""" ZHANGShu-Qi2""nbsp; LUO Guang-Yao1,2""" ZHONG Shao-Chun3[Corresponding Author]
(1. School of Journalism and Communication, Jilin Normal University, Changchun, Jilin, China 130123; 2. School of Information Science and Technology, Northeast Normal University, Changchun, Jilin, China 130117; 3. Ministry of Education Digital Learning Support Technology Engineering Research Center, Changchun,Jilin, China 130117)
Abstract:With the deep integration of digital technology and education, digital assessment has become an important direction of the development of modern educational evaluation. Aimed at the realistic demand of the assessment of disciplinary core competencies, this paper deeply analyzed the limitations of traditional assessment methods pointed to discipline core competencies, and gave insight into the value implications of digital evaluation of discipline core competencies in the new era. Based on this, the formation process of disciplinary core competencies was analyzed, and a conceptual model for the digital assessment of discipline core competencies was constructed combined with the Evidence-Centered Design (ECD) theory. Furthermore, the implementation mechanism of digital assessment of disciplinary core competencies under the perspective of the new curriculum standards were discussed from three aspects of builting an evaluation index system oriented toward disciplinary core competencies, designing digital assessment tools pointed to disciplinary core competencies, and formulating quantitative calculation methods for disciplinary core competencies’ levels, expecting to provide guidance for conducting precise and comprehensive learning evaluations by the discipline core competencies orientation, thereby effectively advancing the application of digital assessment methods in educational evaluation.
Keywords: disciplinary core literacy; assessment of disciplinary core literacy; digital assessment; ECD theory