楊志明 肖新祥
目前,大眾對(duì)“考什么就教什么學(xué)什么”以及“搶趕教學(xué)進(jìn)度、超標(biāo)教學(xué)、日常測試頻繁等現(xiàn)象”[1]已經(jīng)習(xí)以為常,但這種狀況與國家所要求的學(xué)生德智體美勞全面發(fā)展的目標(biāo)存在較大差距。為此,《國務(wù)院辦公廳關(guān)于新時(shí)代推進(jìn)普通高中育人方式改革的指導(dǎo)意見》[2](以下簡稱《指導(dǎo)意見》)提出,“在實(shí)施普通高中新課程的省份不再制定考試大綱,學(xué)業(yè)水平選擇性考試和高等學(xué)校招生全國統(tǒng)一考試命題都要以國家普通高中課程標(biāo)準(zhǔn)和高校人才選拔要求為依據(jù),促進(jìn)教考有效銜接”。這就是說,“不再制定考試大綱”“高中學(xué)業(yè)水平選擇性考試分省命題”和“根據(jù)課程標(biāo)準(zhǔn)命題”將會(huì)是今后高考和中考[3]等大規(guī)模教育考試工作的新常態(tài)。由于課程標(biāo)準(zhǔn)并不負(fù)責(zé)界定高考和中考等教育考試命題的范圍、深度、題型、題量、計(jì)分和作答等方面的要求,而且部分省市的命題隊(duì)伍在教育測量學(xué)知識(shí)的掌握和命題實(shí)踐等方面尚有明顯欠缺,因此,高考、中考以及其他大規(guī)模教育考試的命題質(zhì)量值得關(guān)注。如何保證考試工作的可信(reliable)、有效(valid)和公平(fairness)?如何利用課程標(biāo)準(zhǔn)指導(dǎo)命題工作?本文從教育測量學(xué)角度,就上述問題展開討論,以期為高考、中考等大規(guī)模教育考試命題以及在中學(xué)教學(xué)中開展形成性評(píng)價(jià)提供問題解決的測量學(xué)思路。
由于今后“不再制定考試大綱”,依據(jù)課程標(biāo)準(zhǔn)命題就成為命題人員的必然選擇。如何根據(jù)課程標(biāo)準(zhǔn)命題呢?《指導(dǎo)意見》指出,要“優(yōu)化考試內(nèi)容,突出立德樹人導(dǎo)向,重點(diǎn)考查學(xué)生運(yùn)用所學(xué)知識(shí)分析問題和解決問題的能力。創(chuàng)新試題形式,加強(qiáng)情境設(shè)計(jì),注重聯(lián)系社會(huì)生活實(shí)際,增加綜合性、開放性、應(yīng)用性、探究性試題??茖W(xué)設(shè)置試題難度,命題要符合相應(yīng)學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn),體現(xiàn)不同考試功能。加強(qiáng)命題能力建設(shè),優(yōu)化命題人員結(jié)構(gòu),加快題庫建設(shè),建立命題評(píng)估制度,提高命題質(zhì)量”。由此可知,根據(jù)課程標(biāo)準(zhǔn)做好命題工作,其中的挑戰(zhàn)不少。
由于課程標(biāo)準(zhǔn)的重點(diǎn)在于指導(dǎo)中學(xué)教學(xué)工作,許多要求基本屬于概念性質(zhì),缺少足夠的行為描述或操作性定義,因此,根據(jù)同樣的課程標(biāo)準(zhǔn)要求,不同的命題專家很可能得出很不相同的理解,其后果是考試本身的內(nèi)容效度無法保證,中學(xué)教學(xué)的應(yīng)試壓力必定增大。假若由此出現(xiàn)加重學(xué)業(yè)負(fù)擔(dān)等后果,則違背了《指導(dǎo)意見》的初衷。比如,新版語文課程標(biāo)準(zhǔn)[4]就沒有辦法把中華語文的知識(shí)內(nèi)容完全包括進(jìn)來。事實(shí)上,中華語文的內(nèi)容博大精深,任何人都沒有辦法界定清楚必考的知識(shí)范圍,而且也不宜固化語文考試內(nèi)容。清末科舉考試之所以被廢除,其中一個(gè)重要的原因就是考試內(nèi)容主要被界定在“四書五經(jīng)”范圍,遠(yuǎn)離了現(xiàn)代科學(xué)技術(shù)等內(nèi)容。文章必須滿足“八股文”要求,禁錮了學(xué)子們的思想自由等做法也常常被作為批判科舉考試的理由之一。除了語文課程標(biāo)準(zhǔn),其他科目的課程標(biāo)準(zhǔn)同樣需要做操作化解讀,還要根據(jù)行為主義的命題思路探索出跨學(xué)科命題的辦法,并且確保給予基礎(chǔ)教育正面的引導(dǎo),這些任務(wù)的確不輕松。
根據(jù)建構(gòu)主義的理論,分科考試可以比較好地覆蓋所學(xué)課程知識(shí)和技能的內(nèi)容與層次,因此命題工作可以完全根據(jù)課程標(biāo)準(zhǔn)所羅列的知識(shí)點(diǎn)或知識(shí)模塊進(jìn)行命題。根據(jù)行為主義的理論,現(xiàn)實(shí)中的問題不太可能僅僅局限在某個(gè)學(xué)科,問題解決的途徑、方法也沒有規(guī)定你只能使用物理知識(shí)或化學(xué)知識(shí)或生物知識(shí),因此,考試命題可能需要兼顧建構(gòu)主義和行為主義兩個(gè)方面的要求,既要顧及學(xué)科本身的知識(shí)和能力結(jié)構(gòu)與層次,又要打破學(xué)科界限,以問題解決為導(dǎo)向進(jìn)行命題。從過去的學(xué)科命題、文科綜合或理科綜合的命題實(shí)踐來看,目前的命題專家在分科命題上經(jīng)驗(yàn)豐富水平很高,但在跨學(xué)科命題方面并沒有表現(xiàn)出特別的優(yōu)勢(shì)。這可能與現(xiàn)有命題團(tuán)隊(duì)主要是學(xué)科專家,交叉學(xué)科知識(shí)背景不強(qiáng),在認(rèn)知心理學(xué)特別是在分析性思維(analytical thinking)、審辯性思維(critical thinking)和創(chuàng)新思維(creative thinking)方面的系統(tǒng)訓(xùn)練不足等有關(guān)。因此,在根據(jù)現(xiàn)實(shí)情境命題,綜合運(yùn)用多學(xué)科知識(shí)解決問題的考查方面,目前的命題團(tuán)隊(duì)整體素質(zhì)還有很大的提升空間,高層次命題者的招募和保持并不容易。
當(dāng)前,國家要求學(xué)生德智體美勞全面發(fā)展,因此,在大規(guī)模教育考試命題工作中體現(xiàn)德智體美勞的考查要求一點(diǎn)也不過分。但目前的挑戰(zhàn)是——能否通過考試考查出學(xué)生的這些素質(zhì)?一般來說,知識(shí)、技能層面的內(nèi)容比較容易通過考試方式進(jìn)行考查,能力層面的考查存在一定難度,而情感、態(tài)度、價(jià)值觀等方面的考查則更為困難。這是因?yàn)?,學(xué)生具有所期待的情感、態(tài)度和價(jià)值等方面的知識(shí),并不等于他具有相應(yīng)的素質(zhì)。2019 年的高考命題在體現(xiàn)德智體美勞要求方面進(jìn)行了許多積極的探索。比如,全國高考數(shù)學(xué)理科卷Ⅰ第(15)題、理科數(shù)學(xué)卷Ⅱ第(18)題分別引入了非常普及的乒乓球和籃球運(yùn)動(dòng),以其中普遍存在的比賽結(jié)果的預(yù)估和比賽場次的安排提出問題,要求考生應(yīng)用數(shù)學(xué)方法分析、解決體育問題;文科卷Ⅰ第(6)題設(shè)置了學(xué)校對(duì)學(xué)生體質(zhì)狀況進(jìn)行調(diào)查的情境,考查學(xué)生的抽樣調(diào)查知識(shí);文科和理科卷Ⅰ第(4)題都以著名的雕塑“斷臂維納斯”為例,探討人體黃金分割之美,將美育教育融入數(shù)學(xué)教育;文科卷Ⅰ第(17)題以商場服務(wù)質(zhì)量管理為背景設(shè)計(jì),體現(xiàn)對(duì)服務(wù)質(zhì)量的要求,倡導(dǎo)高質(zhì)量的勞動(dòng)成果;理科卷Ⅰ第(6)題以《周易》中描述事物變化的“卦”為背景設(shè)置排列組合題,體現(xiàn)了中國古代哲學(xué)思想和中國文化。[5]2019年的命題經(jīng)驗(yàn)表明,在命題素材上體現(xiàn)德智體美勞的要求具有一定的操作空間,但僅僅停留在命題素材選用層面的做法是不夠的。因此,如何在考試命題中體現(xiàn)德智體美勞的要求還需要深度探討,完成“立德樹人”的導(dǎo)向任務(wù)并不容易。
《指導(dǎo)意見》要求“創(chuàng)新試題形式,加強(qiáng)情境設(shè)計(jì),注重聯(lián)系社會(huì)生活實(shí)際,增加綜合性、開放性、應(yīng)用性、探究性試題”。顯然,從人才培養(yǎng)的角度看,這些要求非常精準(zhǔn)和有用,但如何落實(shí)這些要求卻相當(dāng)不易。其中最大的難題是命題人員的水平未必能達(dá)到這種要求。另外,在體現(xiàn)這些要求時(shí),測量信度如何才能得到保證,這也是個(gè)難題。一旦測量信度不高,則表明測試分?jǐn)?shù)深受測量過程中隨機(jī)誤差的影響,即考生的分?jǐn)?shù)很不穩(wěn)定。根據(jù)極不穩(wěn)定的分?jǐn)?shù)做出的任何判斷或決策都是不利于人才選拔的,更是有違公平競爭原則的。比如,在許多高中模擬考試中,不少學(xué)生的“考試成績有時(shí)處于年級(jí)排名100 左右,有時(shí)處于800 左右”的現(xiàn)象就是命題質(zhì)量特別差、測量誤差特別大的表現(xiàn)(學(xué)生表現(xiàn)不穩(wěn)定也是測量誤差大的原因之一)。顯然,根據(jù)這種不穩(wěn)定分?jǐn)?shù)所做出的任何結(jié)論都是不能令人信服的。此外,在缺乏題目參數(shù)等值題庫的前提下,強(qiáng)行規(guī)定“試題難度系數(shù)0.75 左右”[6]的要求,也不合考試科學(xué)自身的規(guī)律。這樣的規(guī)定不僅其含義含糊不清,如“要求所有題目難度0.75 左右還是平均難度0.75 左右”并不清楚,而且在實(shí)際工作中也很難做到(除非考后調(diào)整評(píng)分標(biāo)準(zhǔn))。因此,命題過程如何在“增加綜合性、開放性、應(yīng)用性、探究性試題”的同時(shí),減少測量誤差,提升考試的科學(xué)性水平,是所有命題團(tuán)隊(duì)需要特別關(guān)注的問題。
無論是研發(fā)國家級(jí)的考試項(xiàng)目,還是開發(fā)為教學(xué)服務(wù)的各種形成性評(píng)價(jià)項(xiàng)目,相關(guān)的管理部門或?qū)W校,都需要對(duì)考試工作做出系統(tǒng)的安排。根據(jù)我國目前的情況,在“不再制定考試大綱”的條件下,要想根據(jù)課程標(biāo)準(zhǔn)做好命題工作,相關(guān)部門至少需要做好以下幾方面的準(zhǔn)備。
課程標(biāo)準(zhǔn)所倡導(dǎo)的“知識(shí)與能力、過程與方法、情感態(tài)度與價(jià)值觀”的三維學(xué)習(xí)目標(biāo)顯然是今后命題的方向。給課程標(biāo)準(zhǔn)做操作性解讀,就是要對(duì)課程標(biāo)準(zhǔn)中關(guān)于學(xué)科知識(shí)、學(xué)科能力和學(xué)科核心素養(yǎng)的定義進(jìn)行操作性解讀?,F(xiàn)在的難題是,部分學(xué)科對(duì)知識(shí)結(jié)構(gòu)與層次的要求比較具體,比如,數(shù)學(xué)、物理和化學(xué)等科目的結(jié)構(gòu)與層次就比較細(xì)致,部分學(xué)科對(duì)知識(shí)內(nèi)容本身的描述則比較抽象,這必定會(huì)給命題工作帶來不小的困難。在這方面,很多國家往往從邏輯的角度把每門課程的知識(shí)模塊和知識(shí)點(diǎn)劃分為2~3 個(gè)層次,并給每個(gè)知識(shí)模塊、知識(shí)點(diǎn)賦予合乎邏輯的代碼,形成了一個(gè)多層次的知識(shí)結(jié)構(gòu)體系,這種做法值得學(xué)習(xí)。
關(guān)于學(xué)科能力,一般性的解讀基本參照美國教育家布魯姆(Bloom)關(guān)于認(rèn)知和情感領(lǐng)域的教育目標(biāo)分類學(xué)[7][8],其中關(guān)于知識(shí)掌握的“識(shí)記(knowledge)、理解(comprehension)、應(yīng)用(application)、分析(analysis)、綜合(synthesis)和評(píng)價(jià)(evaluation)”能力層次標(biāo)準(zhǔn),或者修訂過的“記憶(remembering)、理解(understanding)、應(yīng)用(applying)、分析(analyzing)、評(píng)價(jià)(evaluating)和創(chuàng)新(creating)”能力層次標(biāo)準(zhǔn)通常被專家們做學(xué)科化處理。這項(xiàng)工作需要命題團(tuán)隊(duì)投入相當(dāng)大的精力。以前,考試大綱在學(xué)科能力的考查方面提出了比較具體的要求,這些要求仍然可以適當(dāng)參考和借鑒。比如,在2019 年的考試大綱中,數(shù)學(xué)學(xué)科能力指的是“空間想象能力、抽象概括能力、推理論證能力、運(yùn)算求解能力、數(shù)據(jù)處理能力以及應(yīng)用意識(shí)和創(chuàng)新意識(shí)”[9],具體來說,“就是以數(shù)學(xué)知識(shí)為載體,從問題入手,把握學(xué)科的整體意義,用統(tǒng)一的數(shù)學(xué)觀點(diǎn)組織材料,側(cè)重體現(xiàn)對(duì)知識(shí)的理解和應(yīng)用,尤其是綜合和靈活的應(yīng)用,以此來檢測考生將知識(shí)遷移到不同情境中去的能力,從而檢測出考生個(gè)體理性思維的廣度和深度以及進(jìn)一步學(xué)習(xí)的潛能。對(duì)能力的考查要全面,強(qiáng)調(diào)綜合性、應(yīng)用性,并要切合考生實(shí)際,對(duì)推理論證能力和抽象概括能力的考查貫穿于全卷,是考查的重點(diǎn),強(qiáng)調(diào)其科學(xué)性、嚴(yán)謹(jǐn)性、抽象性;對(duì)空間想象能力的考查主要體現(xiàn)在對(duì)文字語言、符號(hào)語言及圖形語言的相互轉(zhuǎn)化上;對(duì)運(yùn)算能力的考查主要是對(duì)算法和推理的考查,考查以代數(shù)運(yùn)算為主;對(duì)數(shù)據(jù)處理能力的考查主要是考查運(yùn)用概率統(tǒng)計(jì)的基本方法和思想解決實(shí)際問題的能力”[9]。顯然,過去考試大綱中的這些表述,有助于命題者對(duì)課程標(biāo)準(zhǔn)的理解和把握。但在未來“不再制定考試大綱”的情況下,過去的考試大綱對(duì)學(xué)科能力考查的表述是否仍然適用?這值得我們思考。
事實(shí)上,取消考試大綱后,大規(guī)模教育考試只能依據(jù)課程標(biāo)準(zhǔn)的學(xué)科核心素養(yǎng)組織各學(xué)科命題。表1 是普通高中課程標(biāo)準(zhǔn)中部分學(xué)科核心素養(yǎng)的描述。
由表1 可知,普通高中課程標(biāo)準(zhǔn)中各學(xué)科核心素養(yǎng)的描述都比較抽象,而且在邏輯上相互包含的成分很多,同時(shí),多門學(xué)科之間的核心素養(yǎng)名稱基本相同,看不出各門學(xué)科所特有的屬性,這顯然會(huì)給命題工作帶來挑戰(zhàn)。事實(shí)上,根據(jù)同樣的核心素養(yǎng)名稱,不同的命題專家很可能會(huì)命制出質(zhì)量差別極大的試題。比如,語文學(xué)科素養(yǎng)主要包括“語言建構(gòu)與運(yùn)用”“思維發(fā)展與提升”“審美鑒賞與創(chuàng)造”“文化傳承與理解”四個(gè)方面,這個(gè)描述顯然比較抽象,因?yàn)椤皠?chuàng)造”“理解”與“思維發(fā)展與提升”的提法都屬于人類認(rèn)知加工層面的內(nèi)容,這與課程標(biāo)準(zhǔn)解釋的語文學(xué)科素養(yǎng)“……是學(xué)生在語文學(xué)習(xí)中獲得的語言知識(shí)與語言能力,思維方法和思維品質(zhì),情感、態(tài)度和價(jià)值觀的綜合體現(xiàn)”的描述沒有建立很好的對(duì)應(yīng)關(guān)系。一種可能的解讀是,語文學(xué)科素養(yǎng)可以解讀為四個(gè)層次,其一是“語言構(gòu)建與運(yùn)用”(知識(shí)層面),其二是“思維發(fā)展與創(chuàng)新”(認(rèn)知層面),其三是“審美鑒賞與體驗(yàn)”(情感層面),其四是“文化傳承與發(fā)展”(價(jià)值層面)。顯然,這樣的解釋在邏輯上比較順暢,但仍然未必能得到所有人的認(rèn)可。再比如,物理、化學(xué)和生物在論述學(xué)科核心素養(yǎng)時(shí),“科學(xué)思維”“科學(xué)探究”“社會(huì)責(zé)任”都被提及,但這些核心素養(yǎng)在這三門學(xué)科中有什么不同呢?要說清楚這些問題顯然不容易。由此可見,要保障命題質(zhì)量、提高命題水平,所有學(xué)科的課程標(biāo)準(zhǔn)內(nèi)容都需要提前做好操作性解讀。
表1 普通高中課程標(biāo)準(zhǔn)中部分學(xué)科核心素養(yǎng)的描述[10]
在控制測量誤差、提升考試工作的科學(xué)性水平方面,考試行業(yè)的國際經(jīng)驗(yàn)是值得參考的。比如,建設(shè)相對(duì)穩(wěn)定的學(xué)業(yè)水平內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn)(標(biāo)準(zhǔn)設(shè)定和常模研發(fā)),保證題庫內(nèi)所有試題的難度、區(qū)分度等參數(shù)估計(jì)值都被科學(xué)地轉(zhuǎn)換在一個(gè)共同的度量系統(tǒng)之上(題目參數(shù)等值),這些做法就是提高命題水平的努力方向。不過,有專家認(rèn)為,國際考試行業(yè)的許多成功做法,可能需要做一些深度加工和改造才能滿足中國的需求。比如,在中國無法直接使用國外常用的錨題等值設(shè)計(jì)方法的條件下,測驗(yàn)等值方法需要做中國化改進(jìn)。又如,原始分?jǐn)?shù)存在很大問題,簡單按比例換算成等級(jí)或使用正態(tài)化處理的標(biāo)準(zhǔn)分?jǐn)?shù)也有很多缺陷[11][12],并導(dǎo)致了很高的管理成本,結(jié)果,一些科學(xué)的分?jǐn)?shù)轉(zhuǎn)換方法目前也沒人敢用[13]。嚴(yán)格地說,對(duì)于一些明明存在科學(xué)性缺陷的分?jǐn)?shù)表達(dá)方式,若不盡早采用科學(xué)方法把問題解決,而是尋求行政限定等辦法應(yīng)對(duì),其后續(xù)的管理成本和風(fēng)險(xiǎn)必定很高。當(dāng)然,要把現(xiàn)代測量理論與技術(shù)做中國化處理,其中的創(chuàng)新研究、科普工作和政策保障工作都是不小的任務(wù)。因此,建設(shè)科研激勵(lì)機(jī)制,可以為問題解決提前做好多種預(yù)案,降低大規(guī)模考試中存在的潛在風(fēng)險(xiǎn)。
要針對(duì)相關(guān)學(xué)科的知識(shí)和技能設(shè)計(jì)試題,就必須對(duì)相應(yīng)知識(shí)的結(jié)構(gòu)和層次,以及相關(guān)的能力結(jié)構(gòu)和層次有比較深刻的掌握,否則,很難設(shè)計(jì)出高水平的測試題目。為了做好高考、中考等大規(guī)模教育考試命題工作,建設(shè)并培養(yǎng)一個(gè)高水平的命題團(tuán)隊(duì)乃是當(dāng)務(wù)之急。根據(jù)國外專業(yè)性考試機(jī)構(gòu)的成功經(jīng)驗(yàn),在招募命題人員時(shí),除了要人品良好、工作敬業(yè)等,應(yīng)聘者至少還需要滿足以下幾個(gè)條件。(1)具有扎實(shí)的相關(guān)學(xué)科知識(shí)基礎(chǔ),如具有相關(guān)學(xué)科大學(xué)本科或研究生的高等教育學(xué)力等。(2)具有3 年以上相關(guān)學(xué)科的中小學(xué)教學(xué)經(jīng)驗(yàn),并表現(xiàn)突出。如獲過教學(xué)優(yōu)秀獎(jiǎng)勵(lì),對(duì)學(xué)生的學(xué)科知識(shí)掌握和思維加工特點(diǎn)有一定研究等。(3)具有認(rèn)知心理學(xué)和邏輯學(xué)方面的知識(shí)基礎(chǔ),有良好的分析性思維、審辯性思維和創(chuàng)新思維能力,能夠設(shè)計(jì)考查出學(xué)生高層次思維能力的試題。(4)具有比較扎實(shí)的通識(shí)教育知識(shí)背景。即命題者不僅是學(xué)科專家,而且需要具有寬厚的知識(shí)背景,懂得從多學(xué)科角度設(shè)計(jì)問題等。(5)具有良好的書面溝通和口頭溝通能力,在任務(wù)理解、分解、安排、指導(dǎo)、執(zhí)行、檢查、協(xié)調(diào)等方面受過良好的訓(xùn)練,能夠與命題團(tuán)隊(duì)內(nèi)外人員進(jìn)行有效的互動(dòng),以保障命題工作科學(xué)、有效和可行。(6)具有一定的教育測量學(xué)知識(shí),能夠理解題目參數(shù)的含義,看得懂測量分析的結(jié)果,并能與數(shù)據(jù)分析團(tuán)隊(duì)進(jìn)行有效溝通,還善于從題目的科學(xué)性、公平性、穩(wěn)定性和有效性等角度組卷和評(píng)價(jià)考試結(jié)果等。此外,曾經(jīng)從事過考試命題工作的,并被證明其命題水平較高的學(xué)科專家值得保留在命題團(tuán)隊(duì);具有較強(qiáng)學(xué)習(xí)能力,而且執(zhí)行能力較強(qiáng)的學(xué)科教師也值得培養(yǎng)。
要達(dá)到預(yù)期的考試目標(biāo),題庫建設(shè)工作必不可少??上В壳暗暮芏囝}庫并不能滿足測量學(xué)的要求,因?yàn)槠渲械闹R(shí)模塊、知識(shí)點(diǎn)和知識(shí)結(jié)構(gòu)缺乏科學(xué)的編碼系統(tǒng),每道題目所對(duì)應(yīng)的知識(shí)點(diǎn)和能力層次的界定比較主觀,也沒有與課程標(biāo)準(zhǔn)建立一一對(duì)應(yīng)關(guān)系,題目參數(shù)的估計(jì)值沒有被等值在一個(gè)共同的度量系統(tǒng)之上,由此導(dǎo)致了組卷工作效率低、考試質(zhì)量不高等一系列問題。許多中學(xué)采購的各種模擬考試服務(wù),經(jīng)常導(dǎo)致很多不穩(wěn)定的后果,如有的學(xué)生某次考試后的年級(jí)排名被突然提升了600 多名,或糊里糊涂又下滑了700 多名,這些現(xiàn)象都與題庫本身的質(zhì)量不高有密切關(guān)系。作為高考、中考或其他比較正式的大規(guī)模教育考試,比如分省命題所負(fù)責(zé)的學(xué)業(yè)水平合格性考試和選擇性考試,其測評(píng)結(jié)果必須非常穩(wěn)定、有效和公平。
要建設(shè)一個(gè)優(yōu)質(zhì)的題庫,至少需要解決以下問題。(1)課程標(biāo)準(zhǔn)所定義的知識(shí)模塊、知識(shí)點(diǎn)必須通過編碼的方式形成科學(xué)的結(jié)構(gòu)。國外專業(yè)性考試機(jī)構(gòu)的題庫一般把知識(shí)結(jié)構(gòu)劃分為3 個(gè)層次。(2)所有題目都需要與課程標(biāo)準(zhǔn)所定義的編碼建立一一對(duì)應(yīng)關(guān)系。(3)所有題目都必須標(biāo)注測量的能力或核心素養(yǎng)及其深度。(4)所有題目的參數(shù)估計(jì)值都必須利用符合國情的等值設(shè)計(jì)手段,實(shí)現(xiàn)題目參數(shù)的等值處理。(5)任何存在內(nèi)容沖突的題目之間需要標(biāo)注好彼此“敵對(duì)”的關(guān)系,以免具有敵對(duì)關(guān)系的題目被計(jì)算機(jī)組卷系統(tǒng)安排到同一套試卷之中。(6)所有題目參數(shù)需要具有更新功能,可以保存修改記錄、評(píng)審記錄和使用記錄等信息。(7)題目參數(shù)最好能同時(shí)保留經(jīng)典測驗(yàn)理論(classical testing theory,CTT)和題目反應(yīng)理論(item response theory,IRT)框架下的指標(biāo)。(8)需要建設(shè)制卷功能模塊。(9)需要研發(fā)數(shù)據(jù)收集功能模塊。(10)需要研發(fā)題目分析功能模塊。(11)需要研發(fā)學(xué)科專家和測量學(xué)專家題目質(zhì)量評(píng)價(jià)模塊。顯然,題庫建設(shè)與維護(hù)的工作周期比較長,題庫的內(nèi)容也需要不斷更新,而不是題庫建好之后不再變動(dòng),更不是請(qǐng)人寫很多題目存入計(jì)算機(jī)系統(tǒng)就算完工。這些工作的落實(shí),至少需要學(xué)科專家、教育測量學(xué)專家和計(jì)算機(jī)專業(yè)人士長期的協(xié)同工作,資金、時(shí)間等方面的投入也是一個(gè)不小的數(shù)目。
總之,在“不再制定考試大綱”的條件下,依據(jù)課程標(biāo)準(zhǔn)命題是今后的高考、中考以及教學(xué)過程中各種形成性評(píng)價(jià)的工作常態(tài)。要想優(yōu)化考試內(nèi)容,確?!傲⒌聵淙恕睂?dǎo)向,改進(jìn)考試方法,保障考試質(zhì)量,就需要及早組織專家團(tuán)隊(duì),把課程標(biāo)準(zhǔn)做操作性解讀,并大力開展現(xiàn)代教育測量理論與技術(shù)的中國化研究,建立和培養(yǎng)高水平的命題團(tuán)隊(duì),研發(fā)科學(xué)實(shí)用的考試題庫。