余海峰 李德紅
近幾十年,計算機技術(shù)迅猛發(fā)展,并逐漸運用于教育管理領(lǐng)域,Drasgow[1]、Russell[2]等人提出開發(fā)計算機試題的設(shè)想。得益于“智慧平衡評估聯(lián)盟”(Smarter Balanced Assessment Consortium,簡 稱SBAC)和“評估升學(xué)和就業(yè)準(zhǔn)備情況的合作伙伴”(the Partnership for Assessment of Readiness for College and Career,簡稱PARCC)關(guān)于美國學(xué)生知識和能力的評估競賽,計算機測評技術(shù)在美國得到了飛速發(fā)展。為了更加快速、有效地評估學(xué)生的發(fā)展水平,兩大聯(lián)盟開發(fā)了大量的技術(shù)提升型試題(Technology-Enhanced Items,簡稱TEIs),并將其應(yīng)用于大規(guī)模測試。當(dāng)今,美國有超過一半的州在測試中使用了技術(shù)提升型試題。試題的應(yīng)用范圍從英語、數(shù)學(xué)的測評擴展到了科學(xué)領(lǐng)域的測評;測試種類從SBAC 和PARCC 領(lǐng)導(dǎo)的測試,擴展到部分州的其他測試以及美國國家教育進步評價(National Assessment of Educational Progress,簡稱 NAEP)。加州等部分州甚至完全取消了紙筆測試,所有試題均采用TEIs??梢哉f,TEIs 已經(jīng)成為美國最重要的教育評價工具之一。PISA、MTISS 等大規(guī)模國際評測中也越來越倚重技術(shù)提升型試題。
技術(shù)提升型試題對我國評價改革同樣具有重要的參考意義。2019 年,《中國教育現(xiàn)代化2035》提出加速現(xiàn)代化的監(jiān)測體系建設(shè)[3];《加快推進教育現(xiàn)代化實施方案(2018-2022 年)》提出有條件的地區(qū)“探索利用新技術(shù)手段”改進教育評價[4];2020 年,《深化新時代教育評價改革總體方案》明確指出“利用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù),探索開展學(xué)生各年級學(xué)習(xí)情況全過程縱向評價”[5]。上述文件的發(fā)布,為我國計算機測評改革掃清了政策障礙。
技術(shù)提升型試題的定義并不明確,Parshall 等人將TEI 定義為:“一種測試試題,該測試試題利用計算機的特征和功能的技術(shù)來進行評估,這些評估難以通過傳統(tǒng)的紙筆格式完成”[6];SBAC 認為,“技術(shù)提升試題是通過特殊的交互方式收集學(xué)生作答數(shù)據(jù)的計算機試題,這些交互方式與傳統(tǒng)選擇題、主觀題不同”[7];Bryant 認為,“技術(shù)提升試題是使用與常規(guī)選擇題和主觀題不同的格式和/或作答方式開發(fā)的計算機的試題”[8]。技術(shù)提升型試題又被稱為技術(shù)支持的試題、創(chuàng)新試題、技術(shù)提升的創(chuàng)新試題、基于計算機的試題、創(chuàng)新的計算機測試等。
上述表述雖然有所不同,但其共同點可總結(jié)為:技術(shù)提升型試題是指基于計算機技術(shù)開發(fā)的、區(qū)別于傳統(tǒng)紙筆測試的創(chuàng)新試題;該試題重視計算機交互的使用,并以此來收集學(xué)生的作答數(shù)據(jù)。技術(shù)提升通常通過使用視頻、音頻、動畫、計算機自適應(yīng)、AI等手段實現(xiàn)。
技術(shù)提升型試題的分類標(biāo)準(zhǔn)不一。其中,Parshall 根據(jù)試題構(gòu)建劃分,Scalise 則根據(jù)開放程度、復(fù)雜程度劃分。以上這兩類分類標(biāo)準(zhǔn)受到推崇。
1. 根據(jù)創(chuàng)新性劃分
Parshall 認為,技術(shù)提升型試題的構(gòu)建應(yīng)該包括七個維度(見表1),將這些維度進行組合,就可以建構(gòu)出從最保守到最創(chuàng)新的各類試題。
表1 基于創(chuàng)新性劃分技術(shù)提升型試題[9]
2. 根據(jù)試題的開放程度和復(fù)雜程度劃分
Scalise 根據(jù)試題答案的限制程度由低到高分為七類,每類問題根據(jù)復(fù)雜程度由低到高又分為4 個等級,共計28種,并為其中的24種提供了實例說明,詳見表2。
表2 基于開放程度和復(fù)雜程度劃分技術(shù)提升型試題[10]
表格橫向從左到右分為4 個難度水平:最左邊的題最簡單,對學(xué)生的認知要求最低;最右邊的題最復(fù)雜,對學(xué)生的認知要求最高。表格縱向從上到下分為7 個限制程度:最上面的對考生的限制程度最高,給予學(xué)生的作答權(quán)限最低;最下面的則完全開放,給予學(xué)生充分的作答自由。
較為詳細的說明如下。
1.選擇
① 1A. 對/錯:從“是”“否”中二選一??忌谟嬎銠C上作答時,點擊備選項前的按鈕即可。
②1B. 變式判斷:僅有兩個備選項??忌谟嬎銠C上作答時,點擊備選項前的按鈕即可。
③1C. 多選項選擇:備選項>2??忌谟嬎銠C上作答時,點擊所選擇的備選項即可。
④1D. 新媒體下選擇:多媒體情境下多選一??忌ㄟ^鼠標(biāo)的拖拽等動作完成選擇作答,備選項>2。
2.選擇/鑒定
① 2A. 多個對/錯:對多個題項做出“是”或“否”的判斷。
② 2B. 是/否,并解釋:對多個題項做出“是”或“否”的判斷,并解釋。
③2C. 多項答案:要求考生從多個備選項中選出全部正確選項。
④ 2D. 復(fù)雜多選:要求考生在復(fù)雜情境下做出選擇,題項多項,備選項多項??忌赏ㄟ^鼠標(biāo)等點擊下拉框,從下拉框提供的多個備選項中選出正確答案。
3. 重新排序
① 3A. 匹配:考生作答時,通過鼠標(biāo)點擊等方式,將多個備選項匹配起來。
②3B. 分類:考生作答時,通過鼠標(biāo)點擊選定并拖拽等方式,將對象分類。
③3C. 排序:考生作答時,通過鼠標(biāo)點擊選定并拖拽等方式,將對象排序。
④3D. 組合性證明:考生作答時,通過鼠標(biāo)點擊選定并拖拽等方式,將給出的證明過程排序。
4.替代/校正
①4A. 文字替換:用文字替代特定對象。例如,通過鼠標(biāo)點擊下拉框并從下拉框中選擇,或拖拽等方式,填充空白。
②4B. 指針替代:考生作答時,通過鼠標(biāo)拖拽等方式,將指定的符號標(biāo)記在特定對象上。
③ 4C. 限制圖像繪畫:在特定條件下,用鼠標(biāo)繪圖。
④ 4D. 糾錯:通過鼠標(biāo)點擊拖拽等形式修正圖形的錯誤
5.完成
①5A. 單一數(shù)值構(gòu)造:鍵入單一數(shù)值填充空白。
②5B. 短答案與句子:鍵入較為簡短的文字填充空白。
③5C. 完成程序:從每個空白給出的多個備選項中選出最佳答案填充空白。
④5D. 完成矩陣:組合式選擇填空,通過鼠標(biāo)拖拽等方式將多個備選項填充到多個空白中。
6.設(shè)計
① 6A. 開放式選擇:通過對給定圖形的某些要素進行改變完成設(shè)計。
② 6B. 圖形建構(gòu):通過鼠標(biāo)等選擇、拖拽某些圖形/圖表要素完成圖形/圖表的設(shè)計。
③6C. 概念圖:通過拖拽給定圖形要素,并使用畫圖軟件中的畫圖、文本等工具,繪制概念圖。
④ 6D. 隨筆、短文編輯:編輯/改寫短文。
7.表達
① 7A. 項目:鍵入文字,完成一份計劃。
② 7B. 示范,實驗,表演:通過視頻等方式進行演示、表演等。
③7C. 討論,面試:考生通過視頻等方式在線實時參與討論、面試等。
④ 7D. 診斷,教學(xué):考生通過視頻等方式在線實時實施診斷或教學(xué)。
技術(shù)提升型試題與傳統(tǒng)的紙筆測試試題相比,在形式和內(nèi)容上都有較大差別,為了更好地分析此類試題,現(xiàn)以美國哥倫比亞地區(qū)生物學(xué)測試試題[11]為例進行說明。
1. 試題測試界面
與傳統(tǒng)紙筆試題不同,技術(shù)提升型試題依賴計算機環(huán)境,測試界面能夠較好地反應(yīng)出該類試題的部分特征,圖1為技術(shù)提升型試題的測試操作界面。
圖1 技術(shù)提升型試題的測試界面
通過測試界面可以發(fā)現(xiàn),技術(shù)提升型試題具備了情境、題干、設(shè)問等一系列試題的基本要素以及一些常規(guī)作答工具,例如字跡標(biāo)記工具(可將字跡標(biāo)注為紅、藍、白3 種顏色)、輔助工具(考生可以應(yīng)用相關(guān)工具做筆記、排除錯誤答案等)。此外,技術(shù)提升型試題還包含一些特殊工具,可以滿足特殊考生的需要,例如音頻工具(點擊可以實現(xiàn)試題的閱讀)可以滿足盲人考生的需要,放大鏡(可將頁面放大)可滿足弱視學(xué)生的需要等。通過為考生提供各種考試工具,技術(shù)提升型試題可以滿足特殊學(xué)生的評價需求,實現(xiàn)教育公平。
2. 技術(shù)提升型試題例題
將礫石、土壤、沙、植物、蠕蟲、蝸牛放置在玻璃容器中形成一個密閉系統(tǒng),瓶口用帶CO2傳感器的塞子塞緊,如圖2 所示。實驗期間,瓶內(nèi)的植物數(shù)量不變,二氧化碳濃度統(tǒng)計數(shù)據(jù)如圖3所示。
圖2
圖3
【例1】玻璃瓶內(nèi)的CO2如何維持恒定(A)
A.呼吸作用呼出的化學(xué)元素轉(zhuǎn)化為光合作用的原料
B.呼吸作用呼出的化學(xué)元素轉(zhuǎn)化為光合作用的產(chǎn)物
C.光合作用產(chǎn)生的化學(xué)元素轉(zhuǎn)化為呼吸作用的產(chǎn)物
D.光合作用產(chǎn)生的化學(xué)元素轉(zhuǎn)化為呼吸作用的原料
【例2】下列哪句最能描述16 分鐘的瓶內(nèi)的狀態(tài)(C)
A.呼吸作用和光合作用都在增強
B.呼吸作用和光合作用都在減弱
C.呼吸作用強于光合作用
D.光合作用強于呼吸作用
【例3】不同的生理過程會導(dǎo)致容器內(nèi)CO2含量的變化,按要求將下列生理過程拖入圖4的方框中。
圖4
【例4】蒼蠅和植物可以通過下列分子將光合作用和呼吸作用聯(lián)系起來,請通過拖拽完善圖5 的過程圖。
圖5
參考答案:頂部2 空為葡萄糖和O2,底部2 空為CO2和水。
【例5】容器內(nèi)的二氧化碳濃度最終會達到平衡。根據(jù)圖2 的數(shù)據(jù),在圖6 中繪出8、16、24、32、40 分二氧化碳濃度的,并預(yù)測48 分的數(shù)據(jù)。在圖6 中繪出上述6個點。
圖6
參考答案:點 1(8min)=25000,點 2(16min)=35000,點3(24min)=40000,點4(32min)=20000,點5(40min)=20000。
【6】容器中的動物需要食物和氧氣,圖7 展示了食物和氧氣分子的變化流程圖。請結(jié)合流程圖回答下列問題:
圖7
(1)化學(xué)鍵斷裂和重新形成過程,能量發(fā)生了什么變化?
(2)動物體內(nèi)原子重新排列過程,最終形成了哪些分子?
(3)為什么動植物必須通過這個過程才能生存?
參考答案:(1)穩(wěn)定的化學(xué)能轉(zhuǎn)化為活躍的化學(xué)能;(2)C02、H2O、ATP;(3)食物分子中的存儲的穩(wěn)定的化學(xué)能需要通過有氧呼吸過程轉(zhuǎn)化為ATP 貯存的活躍的化學(xué)能,為生命活動提供能量。
賦分規(guī)則見表3。
表3 主觀試題賦分規(guī)則[12]
通過分析上述試題可以看出,技術(shù)提升型試題與紙筆測試一樣,都重視評價考生學(xué)業(yè)水平的達成情況,重視評價考生的能力水平。與紙筆測試相比,技術(shù)提升型試題還具有以下特點:
(1)情境化程度高。通過大量運用視頻、照片等素材,技術(shù)提升型試題可以為考生創(chuàng)造出更加真實的情境。
(2)試題的猜測空間小。技術(shù)提升型試題通過運用前文所述的“分類”“開放性選擇題”等形式,改變試題的形式,可以大大降低考生猜測的可能。
(3)試題的可操作性強??忌诖痤}過程中,可以進行點擊、拖拽、繪圖等活動,趣味性較強,可以提高學(xué)生答題的積極性。
(4)評價成本較低。技術(shù)提升型試題除了部分主觀試題外,依靠計算機自行處理便可完成評分環(huán)節(jié),可節(jié)約試題評價的成本。
隨著技術(shù)提升型試題越來越多地應(yīng)用于教育評價過程,關(guān)于技術(shù)提升試題優(yōu)劣的研究也相繼出現(xiàn)。不少學(xué)者闡釋了技術(shù)提升型試題存在的優(yōu)勢,也有不少學(xué)者表達了自己的擔(dān)憂,Bryant 在前人的基礎(chǔ)上進行了總結(jié),結(jié)果如表4所示。
表4 技術(shù)提升型試題的優(yōu)勢和不足[13]
通過Bryant 的研究可以看出,技術(shù)提升型試題具有諸多優(yōu)勢,部分優(yōu)勢在上述案例中得到了較為充分的展示,還有部分特征則體現(xiàn)得不夠明顯,如降低試題編制的不合理性,這一目的達成需要大規(guī)模的檢測。美國加州在開技術(shù)提升型試題時,就經(jīng)歷了數(shù)百萬次的檢測,最終才選出滿足評價要求的試題[14]。
技術(shù)提升型試題的優(yōu)勢明顯,其不足也較為突出,且主要集中于三個方面:一是試題開發(fā)和管理的成本問題;二是試題相關(guān)研究不足的問題;三是如何處理測試與科技的問題。作為新興的試題,技術(shù)提升型試題勢必會出現(xiàn)研究不足、開發(fā)困難的情況,這些問題都難以避免,最值得注意的是技術(shù)提升型試題的成本問題。2013 年,美國有48 個州和地區(qū)參與SBAC 和PARCC 測試,后來數(shù)量逐漸減少,主要的影響因素便是經(jīng)濟因素[15]。
1. 使用技術(shù)提升型進行測評是教育評價的趨勢。雖然學(xué)者對技術(shù)提升型試題提出了擔(dān)憂,但大規(guī)模測評的證據(jù)顯示,技術(shù)提升型試題越來受到重視。2016 年,NAEP 嘗試使用技術(shù)提升型試題;PARCC 和SBAC 規(guī)定測試中將更多地運用技術(shù)提升型試題;《TIMSS 2019 評估框架》[16]和《PISA 2021 數(shù)學(xué)評估框架》[17]均要求使用技術(shù)提升型試題進行測評。我國部分地區(qū)的教育質(zhì)量監(jiān)測評估中使用了計算機平臺,雖然這與真正意義的技術(shù)提升型試題評價還有一段距離,但仍可看作是對教育評價變革的響應(yīng)。
2. 重視技術(shù)提升型試題的開發(fā)和研究。技術(shù)提升型試題的開發(fā)離不開信息技術(shù)的進步,而更重要的是依賴認知科學(xué)和學(xué)習(xí)理論的發(fā)展。美國的技術(shù)提升型試題的開發(fā)很大程度上是由教育機構(gòu)或部門委托教育考試服務(wù)中心(ETS)、培生教育集團評價與信息處(PEM)、美國大學(xué)入學(xué)考試中心(ACT)這三家世界著名的教育評價公司進行開發(fā)、管理。因此,重視技術(shù)提升型試題的開發(fā)工作,應(yīng)從提升試題技術(shù)層面入手。此外,為了有效解決技術(shù)提升型試題可能存在的不足,應(yīng)該積極開展相關(guān)的研究工作。
3. 積極探索技術(shù)提升型試題應(yīng)用的道路。技術(shù)提升型試題開發(fā)和管理過程的高成本問題是制約其發(fā)展的重要因素。因此,在推廣技術(shù)提升型試題的過程中,應(yīng)先在部分經(jīng)濟發(fā)達省市先進行試點,再逐步推廣到經(jīng)濟落后地區(qū)。此外,還應(yīng)該考慮改革的阻力問題,先將試題應(yīng)用于低風(fēng)險、小規(guī)模的測試中,待取得一定成功經(jīng)驗后,再逐漸擴展到高風(fēng)險的、大規(guī)模的測試中。