鄭勤華,陳 麗①,柴喚友,王 磊,王懷波
(1.北京師范大學(xué) 遠(yuǎn)程教育研究中心,北京 100875;2.北京師范大學(xué) 系統(tǒng)科學(xué)學(xué)院,北京 100875)
隨著素質(zhì)教育的不斷發(fā)展和新課改的深入推進(jìn),表現(xiàn)性評價作為一種超越傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗的新型評價方法[1],已在當(dāng)前教育領(lǐng)域中獲得越來越多的關(guān)注。相比傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗只能考察低水平知識和孤立技能,表現(xiàn)性評價不僅能夠測量學(xué)生在解決真實任務(wù)或復(fù)雜問題時的復(fù)雜成就與情意表現(xiàn),而且還能夠兼顧學(xué)習(xí)過程與結(jié)果[2],因此其甚至被一些研究者認(rèn)為是傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗的良好替代品[3]。目前,表現(xiàn)性評價已被廣泛應(yīng)用于考察綜合素質(zhì)、復(fù)雜能力和高階思維等跨學(xué)科素質(zhì)[4]以及人工智能教育[5]、創(chuàng)客教育[6]和中高考考試科目[7]等學(xué)科教學(xué)中的學(xué)業(yè)成就。然而,總體而言,現(xiàn)有表現(xiàn)性評價在實踐層面上普遍存在非紙筆形式的表現(xiàn)性任務(wù)相對較少、測評任務(wù)真實性不夠、評分規(guī)則可操作性欠缺、實施成本相對較大等問題[8],從而造成其使用效果難達(dá)預(yù)期。2020年10月,中共中央、國務(wù)院《深化新時代教育評價改革總體方案》明確指出應(yīng)充分利用信息技術(shù),創(chuàng)新評價工具,提高教育評價的科學(xué)性、專業(yè)性和客觀性。大量研究者也從宏觀層面指出,信息技術(shù)能夠增強與創(chuàng)新教育評價工具,優(yōu)化教育評價管理,助力教育評價實施,改進(jìn)教育評價質(zhì)量[9][10]。鑒于此,本文提出一個新的研究話題——基于信息技術(shù)的表現(xiàn)性評價,從當(dāng)前表現(xiàn)性評價的特點及其存在的問題出發(fā),系統(tǒng)探討基于信息技術(shù)的表現(xiàn)性評價的內(nèi)涵、作用點與發(fā)展路向,旨在采用信息技術(shù)變革當(dāng)前表現(xiàn)性評價實踐,以克服其諸多不足,并最終服務(wù)于新時代中國特色的教育評價改革與創(chuàng)新發(fā)展。
盡管表現(xiàn)性評價已在當(dāng)前教育領(lǐng)域獲得廣泛應(yīng)用,但研究者并未對其定義達(dá)成一致意見。例如,Appleseed(美國一家以倡導(dǎo)表現(xiàn)性評價而聞名的非營利性組織)將表現(xiàn)性評價理解為一種允許學(xué)生展示知識、技能以及問題解決過程的測驗方法。Oberg將其描述為衡量學(xué)生進(jìn)步、技能和成就的一種或多種方法[11]。最近,有研究者通過對表現(xiàn)性評價的多種定義進(jìn)行分析和綜合,指出表現(xiàn)性評價能夠以一種提供超出實際分?jǐn)?shù)的價值、興趣和動機的方式,通過對任務(wù)執(zhí)行過程或產(chǎn)品制作過程進(jìn)行主觀評判來衡量學(xué)生真實展示知識、技能和過程的能力[12]。通俗而言,表現(xiàn)性評價往往要求學(xué)生在特定的真實或模擬情境中,運用先驗知識完成任務(wù)或解決問題,然后通過人工評判方式考察學(xué)生知識與技能的掌握程度或者問題解決、交流合作和批判性思考等多種復(fù)雜能力的發(fā)展?fàn)顩r[13]。
基于其內(nèi)涵可知,表現(xiàn)性評價主要包含表現(xiàn)性目標(biāo)、表現(xiàn)性任務(wù)和表現(xiàn)性評分規(guī)則三大要素,而表現(xiàn)性評價的設(shè)計流程即是逐一確定三大要素[14][15]。第一,確定表現(xiàn)性目標(biāo)旨在分析并描述所要評價的目標(biāo)內(nèi)容及其理論模型。第二,確定表現(xiàn)性任務(wù)是指為評價目標(biāo)內(nèi)容而選擇表現(xiàn)性評價類型并設(shè)計真實或模擬情景下的任務(wù)或問題。綜合來看,除表現(xiàn)性紙筆測驗外,表現(xiàn)性評價的常見類型還包括制造/創(chuàng)造、設(shè)計、寫作、口頭表述、實驗與調(diào)查、模擬表現(xiàn)等。第三,確定表現(xiàn)性評分規(guī)則是指基于表現(xiàn)性任務(wù)確定測評目標(biāo)理論模型中具體指標(biāo)的評分標(biāo)準(zhǔn)并確認(rèn)評價方式與評價主體。常見的表現(xiàn)性評價方式包括等級量表(為具體指標(biāo)進(jìn)行等級賦分)、核查表(考察指向具體指標(biāo)的特定表現(xiàn)是否出現(xiàn))、軼事記錄(直接記錄學(xué)生的具體行為表現(xiàn))等,而評價主體通常由教師、同伴或家長構(gòu)成。
大量研究者指出,相比傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗,表現(xiàn)性評價的優(yōu)勢主要體現(xiàn)在[16][17]:(1)兼顧任務(wù)完成或問題解決的過程(動態(tài)數(shù)據(jù))與結(jié)果(靜態(tài)數(shù)據(jù)),能夠最大化保證評價的全面性、客觀性和真實性;(2)注重知識的轉(zhuǎn)化與應(yīng)用,適用于考察學(xué)生的實際任務(wù)完成或問題解決能力,尤其是協(xié)作問題解決、決策力、批判性思維等高階思維能力;(3)踐行學(xué)評融合理念[18],即強調(diào)評價的學(xué)習(xí)性和診斷性的融合,支持學(xué)生可持續(xù)發(fā)展。
如上所述,針對傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗僅僅關(guān)注靜態(tài)、低階和孤立知識或技能的弊端,表現(xiàn)性評價提倡通過分析測評活動所產(chǎn)生的所有信息以考察高階思維能力。但在實施過程中,當(dāng)前表現(xiàn)性評價存在如下問題亟待解決。第一,設(shè)計與開發(fā)范式相對滯后,缺乏先進(jìn)的理論體系指引。當(dāng)前表現(xiàn)性評價無法跳脫“試題-反應(yīng)”的傳統(tǒng)測評話語體系,其設(shè)計思維仍受限于傳統(tǒng)的“試題”與“答案”模式,拘囿于紙筆測驗的傳統(tǒng)評價設(shè)計范式。由此導(dǎo)致的后果是,非紙筆形式的表現(xiàn)性任務(wù)數(shù)量無法滿足多類別多主體評價實踐的需求[19]。第二,測驗任務(wù)脫離現(xiàn)實,難以支持多樣化評價數(shù)據(jù)采集。當(dāng)前表現(xiàn)性評價所創(chuàng)設(shè)的任務(wù)情景常常源自“生編硬造”,與學(xué)生的真實生活場景相對脫節(jié),因而難以切實反映其任務(wù)完成或問題解決的能力。此外,脫離真實場景的表現(xiàn)性任務(wù)往往導(dǎo)致學(xué)生的“作答”反應(yīng)相對受限,從而無法支撐來源廣泛、類型豐富的多樣化評價數(shù)據(jù)采集。第三,數(shù)據(jù)分析過程主觀耗力,缺欠實時準(zhǔn)確的評價結(jié)果輸出。當(dāng)前表現(xiàn)性評價主要采用人工評分方式對各類表現(xiàn)性數(shù)據(jù)(如課程學(xué)習(xí)記錄、協(xié)作活動視頻、溝通音頻等)進(jìn)行評分,因此評價質(zhì)量很大程度取決于評分人員的精通性和評分規(guī)則的可操作性。然而,評分過程極易受到個人主觀經(jīng)驗的干擾,同時人員培訓(xùn)和具體實施過程需要耗用大量人力成本,這將極大限制表現(xiàn)性評價的應(yīng)用和推廣。
綜上所述,當(dāng)前表現(xiàn)性評價實踐亟需超出“試題-反應(yīng)”傳統(tǒng)的理論體系指引,設(shè)計融合真實情景且支持多樣化數(shù)據(jù)采集的測驗任務(wù),并開發(fā)客觀簡便且準(zhǔn)確的數(shù)據(jù)分析方法,以最大程度克服其現(xiàn)有不足并充分發(fā)揮其實質(zhì)作用。對此,“證據(jù)中心設(shè)計”(Evidence-centered Design,ECD)理論[20]強調(diào)“基于證據(jù)進(jìn)行推理”,主張通過構(gòu)建復(fù)雜的任務(wù)情景來獲取類型豐富的過程性數(shù)據(jù);多媒體技術(shù)、通信技術(shù)、計算機自適應(yīng)技術(shù)等傳統(tǒng)信息技術(shù)為呈現(xiàn)真實或模擬任務(wù)情景、支持大規(guī)模測評活動的組織和實施帶來了更多可能,物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等智能技術(shù)為采集和分析多類型表現(xiàn)數(shù)據(jù)提供了技術(shù)支撐。因此,ECD理論和信息技術(shù)可被用于變革表現(xiàn)性評價實踐,并為解決其實踐問題提供切實可行的創(chuàng)新性解決方案。
ECD理論[21]是一套系統(tǒng)化評價設(shè)計方法,強調(diào)“基于證據(jù)進(jìn)行推理”,由Mislevy等人于1999年提出初步概念框架,2003年形成完整的理論體系。后來,Shute將其概括為學(xué)生模型、任務(wù)模型和證據(jù)模型三個最為核心的組成成分,并以此來指導(dǎo)高階思維能力的測評設(shè)計工作[22]。第一,定義測評目標(biāo)的理論結(jié)構(gòu),即建立學(xué)生模型(回答“測量什么”),旨在確定期望測量的知識、技能或者能力、態(tài)度,并根據(jù)已有理論框架確定其測量模型(包含各個子成分及其相互關(guān)系)。第二,確定反映測評目標(biāo)的指標(biāo)及計分規(guī)則,即建立證據(jù)模型(回答“如何測量”)。證據(jù)模型分為證據(jù)規(guī)則和證據(jù)模型,前者旨在確定測評任務(wù)中與學(xué)生模型相聯(lián)系的可觀察指標(biāo)及其評分規(guī)則,后者旨在構(gòu)建可觀察指標(biāo)與學(xué)生模型之間的關(guān)系。第三,設(shè)計測評任務(wù)或情境以支持測評指標(biāo)的獲取,即建立任務(wù)模型(回答“用什么測量”),旨在通過構(gòu)建復(fù)雜任務(wù)情景誘發(fā)受測者特定行為表現(xiàn)而支持測評證據(jù)的獲得。需要指出的是,三個模型的構(gòu)建并非簡單的線性結(jié)構(gòu),而是一個不斷完善、迭代的環(huán)形結(jié)構(gòu)[23]。依據(jù)袁建林等的總結(jié),基于ECD理論的測評設(shè)計邏輯主要在于:一是建構(gòu)情境任務(wù)誘發(fā)個體行為表現(xiàn),二是依據(jù)行為表現(xiàn)抽取反映個體測評目標(biāo)水平的可靠證據(jù),三是依據(jù)證據(jù)對個體測評目標(biāo)水平進(jìn)行有效推理[24]。
目前,ECD理論已被廣泛應(yīng)用于多種國際大型教育測評項目中,如PISA、ATC21S、NAEP等。例如,ATC21S開發(fā)的基于ECD理論的在線測評系統(tǒng)可用于評價13—15歲學(xué)生的協(xié)作解決問題能力[25];美國教師資格認(rèn)證標(biāo)準(zhǔn)提倡基于ECD理論指導(dǎo)全國范圍內(nèi)教師數(shù)據(jù)素養(yǎng)測評工具的開發(fā)工作[26]。此外,ECD理論也被國內(nèi)外學(xué)者廣泛應(yīng)用于核心素養(yǎng)、信息素養(yǎng)和21世紀(jì)技能等高階思維能力[27][28]的評價。
信息技術(shù)(尤其是物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等智能技術(shù))為教育評價改革提供了支撐引領(lǐng),對于表現(xiàn)性評價而言亦是如此。在針對一般教育評價的宏觀層面上,大量研究者分別從不同視角(如技術(shù)視角、技術(shù)驅(qū)動教育評價手段變革的視角、傳統(tǒng)教育評價向技術(shù)驅(qū)動教育評價觀念轉(zhuǎn)變的視角、技術(shù)革新和發(fā)展傳統(tǒng)教育評價的視角、技術(shù)增強和創(chuàng)新教育評價工具以及優(yōu)化教育評價管理的視角、技術(shù)驅(qū)動教育評價數(shù)字化轉(zhuǎn)型的視角)論述了信息技術(shù)(主要是智能技術(shù))對于教育評價改革的重要意義[29-32]。綜合來看,智能技術(shù)能夠增強與創(chuàng)新教育評價工具(即催生新型評價工具,促進(jìn)數(shù)據(jù)采集的多樣性、快捷性和準(zhǔn)確性),優(yōu)化教育評價管理(即簡化教育評價的開發(fā)—實施—反饋流程),助力教育評價實施(尤其針對大規(guī)模教育評價的組織和實施),改進(jìn)教育評價質(zhì)量(確保教育評價的科學(xué)性、倫理性等)。
在針對表現(xiàn)性評價的微觀層面上,有學(xué)者從技術(shù)視角提出可穿戴技術(shù)、物聯(lián)網(wǎng)等信息技術(shù)可支持表現(xiàn)性評價的多樣化數(shù)據(jù)采集[33],也有學(xué)者提出增強/混合現(xiàn)實技術(shù)能夠通過復(fù)現(xiàn)表現(xiàn)性任務(wù)的完成過程而提升數(shù)據(jù)分析的客觀性和信效度,并降低其評價成本[34],還有學(xué)者指出電子檔案袋有利于采集學(xué)生學(xué)習(xí)的過程和結(jié)果數(shù)據(jù)[35]。袁建林等從技術(shù)革新核心素養(yǎng)測量的視角入手,指出借助信息技術(shù)能建構(gòu)復(fù)雜多元的任務(wù)情景,能獲取學(xué)生解決真實任務(wù)過程的復(fù)雜交互表現(xiàn),能記錄復(fù)雜動態(tài)的過程流數(shù)據(jù)[36]。
綜合國內(nèi)外學(xué)者對信息技術(shù)運用于宏觀教育評價和微觀表現(xiàn)性評價的理解,可以看到信息技術(shù)具有變革當(dāng)前表現(xiàn)性評價中任務(wù)呈現(xiàn)、數(shù)據(jù)采集與分析、活動組織和實施的潛力。同時,基于前文提到的當(dāng)前表現(xiàn)性評價實踐的不足并借鑒ECD理論的優(yōu)勢,本文認(rèn)為“基于信息技術(shù)的表現(xiàn)性評價”是在教育信息化背景下,以ECD理論為指引,充分利用多種信息技術(shù)變革當(dāng)前表現(xiàn)性評價實踐中表現(xiàn)性任務(wù)的呈現(xiàn)方式、表現(xiàn)性數(shù)據(jù)的采集和分析過程、表現(xiàn)性活動的組織和實施方式,提升表現(xiàn)性評價的數(shù)字化、智能化和信息化水平,以實現(xiàn)科學(xué)、全面、客觀、高效和真實的評價與反饋。
究其本質(zhì),基于信息技術(shù)的表現(xiàn)性評價是對當(dāng)前表現(xiàn)性評價實踐的反思和創(chuàng)新,旨在通過變革評價活動全流程而形成新的教育評價新范式,而其關(guān)鍵在于以ECD理論為指導(dǎo),充分運用各類信息技術(shù)助力評價活動全流程的數(shù)字化、智能化和信息化。具體而言,充分利用多媒體技術(shù)、通信技術(shù)、沉浸式技術(shù)等傳統(tǒng)信息技術(shù)呈現(xiàn)貼近生活的真實或模擬任務(wù)情景和支持大規(guī)模評價活動的組織和實施,利用物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等智能技術(shù)采集和分析多樣化過程性數(shù)據(jù)并獲得表現(xiàn)性目標(biāo)推論證據(jù)(即過程性數(shù)據(jù)與表現(xiàn)性目標(biāo)指標(biāo)之間的關(guān)聯(lián)機制),以實現(xiàn)表現(xiàn)性評價的現(xiàn)代化和專業(yè)化。
基于信息技術(shù)的表現(xiàn)性評價需在實踐中克服當(dāng)前表現(xiàn)性評價的諸多不足并找到適宜的技術(shù)作用點,因此本文從測評任務(wù)呈現(xiàn)、測評數(shù)據(jù)采集、測評數(shù)據(jù)分析和測評活動實施四個環(huán)節(jié)出發(fā),結(jié)合相關(guān)典型案例,深入探討基于信息技術(shù)的表現(xiàn)性評價的具體實踐。
表現(xiàn)性任務(wù)是表現(xiàn)性評價的基礎(chǔ),關(guān)乎能否誘發(fā)預(yù)期行為表現(xiàn)以獲得有效推論證據(jù)。目前,信息技術(shù)主要被用于從以下三個方面來創(chuàng)新表現(xiàn)性任務(wù)的呈現(xiàn)方式:一是采用數(shù)字化技術(shù)來展示表現(xiàn)性任務(wù)。一些復(fù)雜表現(xiàn)性任務(wù)常常涉及大量任務(wù)材料(如化學(xué)實驗任務(wù)需要準(zhǔn)備試劑、量杯等)的獲取和使用,這無疑會給表現(xiàn)性任務(wù)場景的構(gòu)建帶來難度和挑戰(zhàn)。借助最新的數(shù)字化技術(shù),評價設(shè)計者可以依托網(wǎng)絡(luò)環(huán)境將任務(wù)場景進(jìn)行數(shù)字化,從而易化任務(wù)場景的構(gòu)建方式。二是采用增強/混合現(xiàn)實技術(shù)來豐富表現(xiàn)性任務(wù)。雖然評價設(shè)計人員試圖極力構(gòu)建真實的表現(xiàn)性任務(wù)場景,但囿于真實場景的復(fù)雜性、任務(wù)材料的可及性等因素,最終呈現(xiàn)的任務(wù)場景往往難及預(yù)期。對此,增強/混合現(xiàn)實技術(shù)可通過向現(xiàn)實物理環(huán)境增添一些虛擬物件(如圖標(biāo)、音頻、視頻等)而增強任務(wù)場景的真實性。三是采用計算機自適應(yīng)技術(shù)來定制表現(xiàn)性任務(wù)。特定受測者能否準(zhǔn)確被測很大程度上依賴于其能力與表現(xiàn)性任務(wù)難度的匹配程度,當(dāng)其能力水平與(尤其是表現(xiàn)性紙筆測驗的)任務(wù)難度不相匹配時,測評結(jié)果極易失真失效。對此,計算機自適應(yīng)技術(shù)可通過測試自行適應(yīng)受測者能力水平,靈活施測與被試能力水平相匹配的測驗項目,從而實現(xiàn)測評的科學(xué)、準(zhǔn)確與高效。例如,有研究者在線開發(fā)了一個可考察學(xué)生科學(xué)探究能力的虛擬表現(xiàn)性任務(wù)場景[37];美國教育考試中心開發(fā)了計算機自適應(yīng)版本的研究生入學(xué)考試(GRE)和iSkills評價項目[38]??傮w而言,以上三種應(yīng)用均采用特別設(shè)計的表現(xiàn)性任務(wù)來支持誘發(fā)受測者的相關(guān)行為表現(xiàn),這主要是因為自然條件下的相關(guān)行為表現(xiàn)相對稀疏且難以采集,從而導(dǎo)致評價者只能借助抽樣方法來獲取有代表性的樣本數(shù)據(jù)。最近,蓬勃發(fā)展的大數(shù)據(jù)思維為新時代表現(xiàn)性評價變革提供了重要契機。在大數(shù)據(jù)視角下,針對特定測評目標(biāo)的表現(xiàn)性任務(wù)不再局限于評價設(shè)計者預(yù)先創(chuàng)設(shè)的有限任務(wù)類型,而是囊括受測者在自然條件下參與的所有相關(guān)任務(wù)類型,從而可以在最大程度上實現(xiàn)測評任務(wù)呈現(xiàn)的真實性。然而,現(xiàn)有研究僅從理論上探討了這類新型表現(xiàn)性任務(wù)的潛在可能性,鮮有可供借鑒的典型實踐案例。
表現(xiàn)性數(shù)據(jù)是表現(xiàn)性評價的核心,只有全面真實的測評數(shù)據(jù)才能促成測評目標(biāo)的有效達(dá)成。借助視頻監(jiān)控、智能錄播、物聯(lián)網(wǎng)、平臺自動記錄、網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集類信息技術(shù),表現(xiàn)性評價可實現(xiàn)全面采集測評數(shù)據(jù)的目標(biāo),其技術(shù)邏輯主要體現(xiàn)在下列三個方面:一是技術(shù)驅(qū)動數(shù)據(jù)來源的多樣性。表現(xiàn)性數(shù)據(jù)的來源不僅包括受測者本身,還包括周圍的測評場景,如與受測者開展多類型交互的同伴、實體材料或虛擬平臺等。多樣化數(shù)據(jù)抓取可以支撐測評數(shù)據(jù)的交叉驗證,確保評價結(jié)果的無偏性、真實性和有效性。二是技術(shù)驅(qū)動數(shù)據(jù)類型的繁雜性。表現(xiàn)性評價活動一方面能夠產(chǎn)生頻次、時長、數(shù)量等可存儲于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),另一方面也能產(chǎn)生語音、視頻、文本和圖片等非結(jié)構(gòu)化數(shù)據(jù)。多模態(tài)數(shù)據(jù)采集能夠豐富評價內(nèi)容的充實性,確保準(zhǔn)確、完整地反映受測者的各類活動表現(xiàn)。三是技術(shù)驅(qū)動數(shù)據(jù)分布的全時性。整個表現(xiàn)性任務(wù)執(zhí)行期間,表現(xiàn)性評價活動能夠產(chǎn)生關(guān)于受測者及其周圍測評場景的海量動態(tài)數(shù)據(jù)流。動態(tài)數(shù)據(jù)流捕獲有助于銜接受測者參與任務(wù)期間的前后狀態(tài)信息,達(dá)成對其表現(xiàn)的實時理解、因果分析和未來預(yù)測。例如,Stewart等創(chuàng)建了一個計算機三人協(xié)作編程任務(wù)來考察受測者的協(xié)作問題解決能力。為了全面捕獲可反映受測者任務(wù)表現(xiàn)的相關(guān)信息,研究者采用視頻記錄法和平臺自動記錄法綜合采集了受測者的面部表情數(shù)據(jù)、語音討論數(shù)據(jù)和計算機編程界面變化數(shù)據(jù)[39]。
測評數(shù)據(jù)分析是表現(xiàn)性評價的靈魂,極大程度上制約著證據(jù)推論的質(zhì)量和評價目標(biāo)達(dá)成的效果。最開始,信息技術(shù)主要被應(yīng)用于輔助表現(xiàn)性評價中的主觀評判。兩種常見做法是:第一,基于視頻記錄法完整記錄受測者在執(zhí)行表現(xiàn)性任務(wù)時的各類表現(xiàn),然后將活動視頻發(fā)送給評分專家由其完成評分過程。該做法一方面可以降低召集評分專家所帶來的時間和金錢成本,另一方面有助于評分專家通過多次查看而提升主觀評判的準(zhǔn)確性。第二,采用增強/混合現(xiàn)實技術(shù)為評分專家實時呈現(xiàn)評分標(biāo)準(zhǔn),方便其隨時查看和參考。很明顯,該做法可通過提升評分專家對于評分標(biāo)準(zhǔn)的熟悉度而助力主觀評判的準(zhǔn)確性和可信性。例如,有研究者開發(fā)了一個基于手機的增強現(xiàn)實表現(xiàn)評價系統(tǒng)(其顯著特征是可實時記錄任務(wù)執(zhí)行過程和呈現(xiàn)評分標(biāo)準(zhǔn)),針對其使用效果的研究發(fā)現(xiàn):該系統(tǒng)能夠有效提升主觀評分的準(zhǔn)確性[40]。最近,研究者開始嘗試采用融合高級統(tǒng)計測量模型的數(shù)據(jù)分析技術(shù)來驅(qū)動測評數(shù)據(jù)分析的智能化、自動化和準(zhǔn)確性。目前主流的數(shù)據(jù)分析方法有兩大類:一是依據(jù)證據(jù)規(guī)則編寫算法程序,如ATC21S編寫的算法程序可以有效識別與協(xié)作問題解決能力理論模型中具體成分相關(guān)聯(lián)的行為模式,然后通過對其呈現(xiàn)的有無進(jìn)行不同賦值以實現(xiàn)受測者表現(xiàn)的自動化評分;二是“機器學(xué)習(xí)”評分,即采用多種統(tǒng)計模型(如人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和潛在語義分析模型等)進(jìn)行數(shù)據(jù)特征提取或關(guān)鍵模式識別,如Ronald和Adrian應(yīng)用“人工神經(jīng)網(wǎng)絡(luò)”對科學(xué)問題解決過程進(jìn)行評分[41]。
測評活動實施是表現(xiàn)性評價的根本,如果實施乏力,尤其是大規(guī)模測評項目,表現(xiàn)性評價難以取得預(yù)期效果。綜合來看,信息技術(shù)可在測評活動的前、中、后三個不同階段基于差異化措施促進(jìn)其正常開展。第一,在測評活動前期,測評實施者可借助視頻錄播、視頻會議、動畫演示、電子文檔等技術(shù)平臺幫助受測者了解測評任務(wù)、熟悉測評流程、明晰測評反應(yīng)以及練習(xí)測評操作,以打消其參與測評時的陌生感、無助感和焦慮感,支持其在正式測試時真實展現(xiàn)自身的技能、能力、思維等。第二,在測評(尤其是在線測評)活動期間,測評實施者可借助視頻監(jiān)控、視頻分析、面部表情識別等技術(shù)實時追蹤并分析受測者的行為表現(xiàn)和心理狀態(tài),并利用個性化干預(yù)技術(shù)在必要時(如動機不足、反應(yīng)不當(dāng))為其提供適宜的測評支架,以協(xié)助其克服相關(guān)問題并順利完成測評任務(wù)。第三,在測評活動后期,測評實施者可借助可視化技術(shù)直觀呈現(xiàn)受測者的測評過程和結(jié)果表現(xiàn),通過對比個體與整體的表現(xiàn)差異分析受測者的優(yōu)勢和劣勢,并利用個性化推送技術(shù)為受測者提供定制化的評價反饋與差異化的發(fā)展建議。例如,我國最新開展的“大規(guī)模學(xué)生跨學(xué)段成長研究”項目組在其試測工作中充分利用了信息技術(shù)來促進(jìn)表現(xiàn)性測評活動的一系列實施工作,如試測前的在線操作演示、試測中的問題解答和試測后的建議反饋[42]。
整體而言,目前基于信息技術(shù)的表現(xiàn)性評價的應(yīng)用和推廣仍處于初級階段,未來需要從以下四個方面入手合力推進(jìn)其大規(guī)模應(yīng)用和推廣。
推進(jìn)基于信息技術(shù)的表現(xiàn)性評價,第一要務(wù)是確立科學(xué)合理的評價理念。首先,在測驗內(nèi)容上,不應(yīng)只局限于孤立的知識或技能,而應(yīng)聚焦于協(xié)作問題解決能力、決策力、批判性思維等高階思維能力。這些高階思維能力才是人才綜合素質(zhì)的核心成分,蘊含著智力、情感、態(tài)度和品德等多種要素[43]。正如孫宏志等[44]所言,“對學(xué)生高階思維發(fā)展的評價是核心素養(yǎng)指向下學(xué)業(yè)質(zhì)量評價改革的訴求,也是高階思維課堂構(gòu)建的指揮棒”。其次,在測驗形式上,需要超越傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗甚至表現(xiàn)性紙筆測驗,更多關(guān)注富含動態(tài)性、交互性和真實性的表現(xiàn)性任務(wù)場景。在這些場景下,受測者可以相對不受限制地通過多種形式(如面部表情、肢體動作等)展示自身的特定高階思維能力,因此在測評結(jié)果上更為科學(xué)可信。再次,在評價方法上,需要正確看待技術(shù)的賦能作用,適時適度將信息技術(shù)融入表現(xiàn)性評價場景。一方面,信息技術(shù)能夠給表現(xiàn)性評價的任務(wù)呈現(xiàn)、數(shù)據(jù)采集與分析、活動實施等帶來便利;但是另一方面,如果使用不當(dāng),受測者就會面臨數(shù)字分心、技術(shù)負(fù)載或技術(shù)倦怠等一系列問題。
技術(shù)服務(wù)的好壞,直接制約著基于信息技術(shù)的表現(xiàn)性評價的應(yīng)用效果。因此,需要全面優(yōu)化服務(wù)于測評全流程的各類信息技術(shù)。第一,針對測評任務(wù)呈現(xiàn),可依據(jù)測評目標(biāo)特點科學(xué)識別支持測評數(shù)據(jù)采集的自然任務(wù)場景或結(jié)合特定技術(shù)參數(shù)和具體任務(wù)內(nèi)容合理搭建模擬任務(wù)場景,以確保任務(wù)呈現(xiàn)的真實性、可行性和可信性。第二,針對測評數(shù)據(jù)采集,可基于測評場景本身選用、配置或增添適宜的數(shù)據(jù)采集技術(shù),以確保數(shù)據(jù)采集的非侵入性、全面性和準(zhǔn)確性。第三,針對測評數(shù)據(jù)分析,可基于測評數(shù)據(jù)類型選用、升級或開發(fā)適宜的數(shù)據(jù)分析技術(shù),以確保數(shù)據(jù)分析的準(zhǔn)確性、穩(wěn)健性和智能性。第四,針對測評活動實施,可依據(jù)評價活動特點并結(jié)合相關(guān)信息技術(shù)精心設(shè)計測評前培訓(xùn)、測評中支架和測評后反饋,以確?;顒訉嵤┑母咝?、科學(xué)性和可操作性。此外,需要在總體上借鑒國際、國家和地區(qū)技術(shù)標(biāo)準(zhǔn)以構(gòu)建服務(wù)于表現(xiàn)性評價的重要技術(shù)標(biāo)準(zhǔn)和規(guī)范,并通過不斷迭代和更新信息技術(shù)來降低服務(wù)于表現(xiàn)性評價的技術(shù)成本和操作難度,以切實推進(jìn)基于信息技術(shù)的表現(xiàn)性評價的大規(guī)模應(yīng)用和推廣。
構(gòu)建規(guī)范的數(shù)據(jù)標(biāo)準(zhǔn)體系,是確保基于信息技術(shù)的表現(xiàn)性評價得以順利開展的重要一環(huán)。第一,加快推進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),實現(xiàn)針對不同來源、類型、結(jié)構(gòu)表現(xiàn)性數(shù)據(jù)的標(biāo)準(zhǔn)化處理規(guī)則體系?;跀?shù)據(jù)標(biāo)準(zhǔn),使得相關(guān)數(shù)據(jù)能夠在信息技術(shù)迭代更新后仍可保持優(yōu)異兼容性,且能在必要時實現(xiàn)相互之間的交換和集成[45]。第二,加強推介數(shù)據(jù)標(biāo)準(zhǔn),實現(xiàn)中小學(xué)校長、教師和家長等表現(xiàn)性評價利益相關(guān)者對數(shù)據(jù)標(biāo)準(zhǔn)的重要性認(rèn)識和含義理解,并推動其對表現(xiàn)性數(shù)據(jù)采集和分析的認(rèn)可和配合。與此同時,廣大表現(xiàn)性評價開發(fā)者能夠由此在設(shè)計任務(wù)場景時自覺遵守數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,從而推動表現(xiàn)性數(shù)據(jù)采集和分析流程的規(guī)范化和科學(xué)化。第三,大力深化國際交流合作,扎實推進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)的國際化工作。通過承辦或參加相關(guān)國際化交流活動,我國學(xué)者可以深度學(xué)習(xí)其他國家的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)經(jīng)驗,加強我國與國際數(shù)據(jù)標(biāo)準(zhǔn)化組織的聯(lián)系,并立足我國實際以豐富完善數(shù)據(jù)標(biāo)準(zhǔn)[46]。
推動基于信息技術(shù)的表現(xiàn)性評價的高效開展,亟需開展專項培訓(xùn)并組建一支多元化專業(yè)化的評價隊伍。一方面,政府部門可以組織教師群體進(jìn)行表現(xiàn)性評價的網(wǎng)絡(luò)課程學(xué)習(xí),教育部門可以結(jié)合中小學(xué)表現(xiàn)性評價工作的實際開展情況進(jìn)行專門指導(dǎo)和具體培訓(xùn),第三方機構(gòu)可以給評價人員提供任務(wù)呈現(xiàn)、數(shù)據(jù)采集與分析、活動實施等方面的專題培訓(xùn)[47]。而且,可充分利用信息技術(shù)(尤其是智能技術(shù))對教師群體參與培訓(xùn)時的多模態(tài)、全息數(shù)據(jù)進(jìn)行全過程采集與分析,以明晰其實際需求和能力短板,從而支持為其提供更具針對性的培訓(xùn)服務(wù)[48]。另一方面,表現(xiàn)性評價隊伍不僅需要涵蓋一線校長、學(xué)科教師、家長、學(xué)生或同伴、社會人員等多個利益相關(guān)主體,而且需要納入學(xué)科教學(xué)、心理與教育測量學(xué)、信息技術(shù)、教育管理等領(lǐng)域的人才儲備力量。此外,需要整合教育學(xué)、心理學(xué)和信息技術(shù)學(xué)等基礎(chǔ)學(xué)科的力量培養(yǎng)新型教育評價專門人才,增強其利用跨學(xué)科知識開展表現(xiàn)性評價及解決傳統(tǒng)評價難題的能力[49]。
針對傳統(tǒng)標(biāo)準(zhǔn)化紙筆測驗的不足,表現(xiàn)性評價具有兼顧測評過程與結(jié)果、注重知識的轉(zhuǎn)化與應(yīng)用、踐行學(xué)評融合理念等優(yōu)勢。尤其是對于批判性思維、協(xié)作問題解決能力、創(chuàng)造力等面向21世紀(jì)的高階思維能力,表現(xiàn)性評價展現(xiàn)出得天獨厚的優(yōu)勢。然而,當(dāng)前表現(xiàn)性評價實踐因為設(shè)計與開發(fā)范式相對滯后、測驗任務(wù)脫離現(xiàn)實、數(shù)據(jù)分析過程主觀耗力,并未取得預(yù)期效果。《深化新時代教育評價改革總體方案》強調(diào)充分利用信息技術(shù)創(chuàng)新評價工具,為表現(xiàn)性評價變革提供了科學(xué)方向。隨著人工智能、虛擬現(xiàn)實、物聯(lián)網(wǎng)等新興信息技術(shù)以及多媒體、通信、計算機自適應(yīng)等傳統(tǒng)信息技術(shù)為被日益廣泛地應(yīng)用于教育領(lǐng)域,這些技術(shù)正成為推動和加速教育評價變革的關(guān)鍵力量。表現(xiàn)性評價也不例外,勢必會受到這些術(shù)的強力賦能和深刻影響。未來應(yīng)大力推動各類信息技術(shù)與表現(xiàn)性評價實踐的深度融合,切實變革表現(xiàn)性評價的任務(wù)呈現(xiàn)、數(shù)據(jù)采集和分析、活動實施等環(huán)節(jié),真正助力表現(xiàn)性評價驅(qū)動素質(zhì)教育變革和立德樹人目標(biāo)達(dá)成潛能的實現(xiàn)。