張勇 姚春艷
教育質(zhì)量綜合評價與教育質(zhì)量監(jiān)測,兩者有很大差異,因此,如果對兩者的差異認識不清,如果以教育質(zhì)量監(jiān)測代替教育質(zhì)量綜合評價,實驗的設(shè)計和結(jié)果會偏離《意見》的精神及要求。
教育質(zhì)量綜合評價改革實驗《評價指標(biāo)框架(試行)》不等于實驗標(biāo)準(zhǔn)和模式
2013年《意見》明確給出了中小學(xué)教育質(zhì)量綜合評價改革的總體要求、綜合評價體系建設(shè)要求、完善推進評價改革的保障機制要求和認真組織實施要求,并規(guī)定中小學(xué)教育質(zhì)量綜合評價改革實驗必須要符合上述要求?!对u價指標(biāo)框架(試行)》給出了20個關(guān)鍵指標(biāo)、上百個指標(biāo)考查要點。從實驗系統(tǒng)工程的角度看,《意見》和《評價指標(biāo)框架(試行)》并沒有給出實驗開展的基本架構(gòu)和標(biāo)準(zhǔn),具體包括:實驗的理論架構(gòu),含測量、診斷、甄別、評價等的理論架構(gòu);實驗的技術(shù)架構(gòu),含測量、統(tǒng)計、分析、診斷、甄別、評價、結(jié)果呈現(xiàn)、使用等技術(shù)架構(gòu);實驗的標(biāo)準(zhǔn)架構(gòu),含測量、診斷、甄別、評價等維度及標(biāo)準(zhǔn)體系與結(jié)構(gòu);實驗的內(nèi)容架構(gòu),文件中雖然給出了評價內(nèi)容,但沒有給出內(nèi)容結(jié)構(gòu);實驗的結(jié)果架構(gòu),即測量評價的過程與結(jié)果數(shù)據(jù)結(jié)構(gòu)(結(jié)果呈現(xiàn));實驗的結(jié)果應(yīng)用,即結(jié)果應(yīng)用的要素和結(jié)構(gòu)(怎么用、誰使用等)。
美國教育評價發(fā)展的歷史帶給我們?nèi)舾蓡⑹?。美國大型測試分?jǐn)?shù)報告主要源自兩大測試體系:一個是由國家教育進步評估組織(NAEP)向公眾發(fā)布的國家報告卡及參評州的測試報告;另一個則是各州基于課程標(biāo)準(zhǔn)對3-12年級學(xué)生實施標(biāo)準(zhǔn)化測試,生成獨立的州學(xué)業(yè)報告。國家報告卡的報告框架主要分為四個方面:測試成績的總體趨勢,各組學(xué)生的成績比較,學(xué)科領(lǐng)域的成就水平描述及各州學(xué)業(yè)成績比較,并以常模參照和標(biāo)準(zhǔn)參照的方式報告學(xué)業(yè)成就的變化。與NAEP報告相比,州級報告除了以圖表呈現(xiàn)3-12年級各類學(xué)生達到及格、精通、優(yōu)秀的人數(shù)及比率外,對參評學(xué)生的分類指標(biāo)更具體。增設(shè)了如殘障兒童,提供適應(yīng)性測試情況,參與“聯(lián)邦Title 1”項目,入學(xué)時間,是否移民等指標(biāo)。
美國標(biāo)準(zhǔn)測試分?jǐn)?shù)報告具有4種功能:提供相關(guān)方教育信息,監(jiān)測全國教育質(zhì)量,實施績效問責(zé)制度以及監(jiān)督不同群體學(xué)業(yè)成就機會。而州的學(xué)業(yè)報告主要用于教學(xué)改進及對學(xué)區(qū)和學(xué)校的績效問責(zé)。
無論是從國外教育評價的先進經(jīng)驗看,還是從理論和技術(shù)的角度看,中小學(xué)教育質(zhì)量綜合評價改革實驗要解決的問題是在《意見》和《評價指標(biāo)框架(試行)》的指導(dǎo)下,通過實驗開展至少上述6個方面的探索,并同時解決與之相關(guān)的實驗驗證、科學(xué)鑒定及相關(guān)配套制度、機制、資源等問題。
中小學(xué)教育質(zhì)量綜合評價需要破解的理論、技術(shù)難題
依據(jù)《意見》和《評價指標(biāo)框架(試行)》的要求,本次教育質(zhì)量綜合評價應(yīng)確立的評價指標(biāo)、標(biāo)準(zhǔn)體系等,除教育質(zhì)量監(jiān)測之外,主要涉及到學(xué)業(yè)評價、綜合素質(zhì)評價以及標(biāo)準(zhǔn)化考試三個領(lǐng)域。這三個領(lǐng)域都有其需要解決的理論、技術(shù)與方法難題,唯有清晰認識到這些難題并致力于解決這些難題,才能確保改革實驗取得成功。
中小學(xué)生學(xué)業(yè)評價需要破解的理論、技術(shù)難題。我國2001年的《基礎(chǔ)教育課程改革綱要(試行)》和2002年《教育部關(guān)于積極推進中小學(xué)評價與考試制度改革的通知》及相關(guān)文件,給出了“三維”學(xué)科教育目標(biāo)和學(xué)科課程標(biāo)準(zhǔn),學(xué)科教育目標(biāo)不再是過去的“雙基”目標(biāo),而是“三維”目標(biāo)。
依據(jù)三維學(xué)科教育目標(biāo)與學(xué)科課程標(biāo)準(zhǔn)的要求,學(xué)業(yè)評價應(yīng)解決學(xué)生、學(xué)校在學(xué)科教育上的“三維目標(biāo)”測量與評價問題,而不再仍局限于“基礎(chǔ)知識、基本技能”的兩目標(biāo)測量評價。如果能科學(xué)可靠地實現(xiàn)對學(xué)生學(xué)科學(xué)習(xí)的三維目標(biāo)評價,也就在學(xué)科教育方面,突破了“在評價內(nèi)容上重考試分?jǐn)?shù)忽視學(xué)生綜合素質(zhì)和個性發(fā)展,在評價方式上重最終結(jié)果忽視學(xué)校進步和努力程度,在評價結(jié)果使用上重甄別證明忽視診斷和改進”的關(guān)鍵問題之一。
然而迄今為止,大多數(shù)研究者、應(yīng)用者回避了在“三維”目標(biāo)學(xué)業(yè)評價上的突破,采用通過對學(xué)生其他方面的評價(主要是綜合素質(zhì)、社會調(diào)查),來推理或相關(guān)分析等間接解決“三維”目標(biāo)中的非雙基目標(biāo)之外的其他維度評價的問題。主要原因是因為還沒有從理論和方法上突破學(xué)生學(xué)科學(xué)習(xí)的三維目標(biāo)測量與評價難題。顯然,這個問題是繞不開的,更何況2002年《教育部關(guān)于積極推進中小學(xué)評價與考試制度改革的通知》及相關(guān)文件,明確要求了學(xué)業(yè)評價的新的目標(biāo)、標(biāo)準(zhǔn)和依據(jù)。
就學(xué)業(yè)評價而言,評價理論、標(biāo)準(zhǔn)、技術(shù)和方法的設(shè)計要滿足三個前提條件:首先要符合國家提出的關(guān)于教育評價與考試改革的新要求,即評價要在“引導(dǎo)、診斷、改進和激勵”功能上取得實質(zhì)性的突破,其中最為重要,也是最困難的是診斷、改進功能的實現(xiàn);其次,要符合新課程改革的課程目標(biāo)和課程標(biāo)準(zhǔn)要求,即符合“知識與技能,過程與方法,情感態(tài)度和價值觀”的三維課程目標(biāo),以及據(jù)此形成和完善的新課程標(biāo)準(zhǔn)要求;最后,評價結(jié)果要能與國際學(xué)業(yè)成績評估接軌。以這三者為前提條件的學(xué)業(yè)評價技術(shù),需要在以下幾個方面實現(xiàn)突破:
一是要有機整合國際知名教育理論以及教育學(xué)、心理學(xué)等學(xué)科的最新研究成果,建立多元、多維的測量和評價技術(shù)模型,使學(xué)業(yè)診斷和甄別有據(jù)可依。
二是要在試卷結(jié)構(gòu)、試題賦分、計分和統(tǒng)計分析上,依據(jù)認知行為與思維等的發(fā)生過程,設(shè)計新的多元、多維的分?jǐn)?shù)結(jié)構(gòu),為學(xué)業(yè)診斷和甄別提供豐富的信息,也為不同測試之間的等值轉(zhuǎn)換提供重要的參考。
三是在成績報告方面,應(yīng)學(xué)習(xí)和借鑒國際大型標(biāo)準(zhǔn)化測試的報告系統(tǒng),不僅能提供數(shù)據(jù)多元、多維、多重比較結(jié)果,而且能提供面向不同群體的數(shù)據(jù)報告,從而能為教育咨詢等提供可靠、可信、有效的科學(xué)工具,也能為教研、教學(xué)、管理等提供可靠有效的科學(xué)平臺和工具,并為教師專業(yè)發(fā)展提供科學(xué)的操作平臺,從而得以實現(xiàn)突破“在評價內(nèi)容上重考試分?jǐn)?shù)忽視學(xué)生綜合素質(zhì)和個性發(fā)展,在評價方式上重最終結(jié)果忽視學(xué)校進步和努力程度,在評價結(jié)果使用上重甄別證明忽視診斷和改進”的難題。
中小學(xué)生綜合素質(zhì)評價需要破解的理論、技術(shù)難題。此前各地在學(xué)生綜合素質(zhì)評價方面的探索已經(jīng)積累了一定的經(jīng)驗,然而依舊還存在以下問題尚未解決:中小學(xué)生綜合素質(zhì)評價概念界定不清;評價的標(biāo)準(zhǔn)和指標(biāo)體系不夠完善;評價方法、技術(shù)不科學(xué),存在一定主觀性、隨意性和隨機性;結(jié)果不夠全面,缺少可比性;評價過程不規(guī)范,不透明,公信力較差等等。
考察學(xué)生綜合素質(zhì)評價較為發(fā)達的美國會發(fā)現(xiàn),自20世紀(jì)60年代后,“表現(xiàn)性評價”(performance assessment)、“真實性評價”(authentic assessment)或“情境性評價”作為評估學(xué)生綜合素質(zhì),并作為標(biāo)準(zhǔn)化考試評價方式的重要補充被提出之時起,經(jīng)歷了表現(xiàn)性評價興起期,表現(xiàn)性評價快速發(fā)展期,以檔案袋評價法為代表的表現(xiàn)性評價全面推開期,檔案袋評價法的電子化和信息化時期以及檔案袋評價法深入發(fā)展期。如今,全美采用檔案袋評價法的學(xué)校已經(jīng)跨越從幼兒園到大學(xué),群體從學(xué)生到行政人員,應(yīng)用范圍覆蓋學(xué)生的畢業(yè)、教育問責(zé)、教師的雇傭、評價以及教師職業(yè)發(fā)展、行政人員的選拔與評價等等,檔案袋評價法已經(jīng)成為美國教育評價和人才選拔中一種不可或缺的評價方法。
將表現(xiàn)性評價結(jié)果納入對學(xué)生能力和素養(yǎng)的考查范圍,背后的理念是:學(xué)生能力和素養(yǎng)由多方面構(gòu)成,任何一種評價方式都有其局限性,不能僅依靠一種評價方式得出的結(jié)論來評價學(xué)生,評價應(yīng)該根據(jù)學(xué)生能力和素養(yǎng)的不同方面選取恰當(dāng)?shù)脑u價方式和手段;表現(xiàn)性評價強調(diào)評價任務(wù)的仿真性,強調(diào)完成任務(wù)所需的能力和素養(yǎng)應(yīng)該是成人在社會中解決類似問題所需要的能力,通過此種方式獲得的評價結(jié)果更能反映學(xué)校教育實現(xiàn)教育目標(biāo)中的社會需求層面的程度。
美國多年的教育評價實踐已經(jīng)證明,和標(biāo)準(zhǔn)化考試提供的評價結(jié)果相比,檔案袋在促進學(xué)生自我認識能力的提升和良好素養(yǎng)的培養(yǎng)、教師更好地理解學(xué)生及教學(xué)效果、為家長、招生單位提供更全面的信息方面,都有著不可替代的優(yōu)勢。尤其是借助信息化手段和網(wǎng)絡(luò)而制作的電子檔案袋,不僅具有指導(dǎo)學(xué)生成長的作用,其存儲量大和便于獲取的優(yōu)勢還有助于學(xué)生在需要時向各個機構(gòu),包括招生單位呈現(xiàn)。然而,檔案袋評價也有其需要解決的一些技術(shù)問題,例如需要根據(jù)評價的目的精心設(shè)計檔案袋內(nèi)容,需要有科學(xué)的評分標(biāo)準(zhǔn)和評分量表,需要對評價結(jié)果加以解釋并對應(yīng)用做出指導(dǎo),同時還需要對評分者進行培訓(xùn),規(guī)范評分過程以保證評分信度。而這些在美國都已經(jīng)有非常豐富的可供借鑒的經(jīng)驗。
通過對比分析我國當(dāng)前學(xué)生綜合素質(zhì)評價領(lǐng)域中存在的問題,以及美國在此方面已經(jīng)取得的成就和經(jīng)驗,本次教育質(zhì)量綜合評價改革中,就學(xué)生綜合素質(zhì)評價而言,需要破解以下幾方面的難題:如何界定中小學(xué)生綜合素質(zhì)及其評價的概念;構(gòu)建中小學(xué)生綜合素質(zhì)評價的理論體系及模型;健全和完善中小學(xué)生綜合素質(zhì)的評價標(biāo)準(zhǔn);健全和完善中小學(xué)生綜合素質(zhì)評價的測量標(biāo)準(zhǔn);健全和完善中小學(xué)生綜合素質(zhì)評價的指標(biāo)體系;開發(fā)中小學(xué)生綜合素質(zhì)評價的評價工具;制定中小學(xué)生綜合素質(zhì)評價的工具操作標(biāo)準(zhǔn);改進中小學(xué)生綜合素質(zhì)評價的結(jié)果呈現(xiàn)方式;建立中小學(xué)生綜合素質(zhì)評價的結(jié)果解釋及應(yīng)用系統(tǒng);設(shè)計中小學(xué)生綜合素質(zhì)評價實驗推廣模式;設(shè)計中小學(xué)生綜合素質(zhì)評價公信力保障系統(tǒng)。
標(biāo)準(zhǔn)化考試需要破解的理論、技術(shù)難題。標(biāo)準(zhǔn)化考試,作為人才評估與選拔的重要手段之一,在這次改革中也需要解決和突破一些難題。
教育的目標(biāo)之一就是培養(yǎng)人才。隨著我國“科教興國戰(zhàn)略”與“人才興國戰(zhàn)略”合攏,素質(zhì)教育改革與人才戰(zhàn)略改革合攏,國家素質(zhì)教育綱要、新課程標(biāo)準(zhǔn)與國家人才綱要及人才標(biāo)準(zhǔn)開始緊密銜接并逐漸成型。學(xué)業(yè)人才評估與選拔已經(jīng)成為一個不可忽視和回避的課題了。而學(xué)業(yè)人才評估與選拔首先解決的問題就是學(xué)科、學(xué)業(yè)人才概念界定問題。
2014年2月,李克強總理主持召開的國務(wù)院常務(wù)會議確立了職業(yè)教育在人才培養(yǎng)體系中的重要位置,2014年9月出臺的《國務(wù)院關(guān)于深化考試招生制度改革的實施意見》中明確提出“加快推進高職院校分類考試。高職院??荚囌猩c普通高校相對分開,實行‘文化素質(zhì)+職業(yè)技能’評價方式”。由此學(xué)業(yè)人才評估與選拔又多了一個新的任務(wù),即如何通過分類考試,實現(xiàn)學(xué)術(shù)型人才與技術(shù)型人才的評估與選拔。要解決這個問題,同樣需要先對學(xué)術(shù)型人才與應(yīng)用型人才進行清晰界定。
教育評價與人才評估發(fā)展到今天,已經(jīng)積累了大量豐富的理論可供我們借鑒和使用。多元智能理論、教育目標(biāo)分類理論、認知診斷理論、非智力因素理論、腦科學(xué)理論等已經(jīng)在西方國家的教育評價與人才評估領(lǐng)域中得到了廣泛應(yīng)用。這些理論都表現(xiàn)出一個共同的特點,即對人的評價越來越是一個綜合、復(fù)雜的過程。
在國內(nèi)到目前為止,應(yīng)該肩負著學(xué)業(yè)人才評估與選拔重要任務(wù)的中考和高考,缺乏明確的學(xué)業(yè)人才評估與選拔理論及相應(yīng)的模型。沒有理論和模型,人才評估與選拔的效度和信度就無法得到有效保證。美國教育研究協(xié)會、美國心理學(xué)會以及全美教育測量學(xué)會于2003年3月頒布的《教育與心理測試標(biāo)準(zhǔn)》在規(guī)定考試效度標(biāo)準(zhǔn)時明確指出:對每個測驗分?jǐn)?shù)的推薦性詮釋和用途都應(yīng)該有理論根據(jù),并附有效度憑證及解釋預(yù)期用途的理論綜述(注解:理論根據(jù)應(yīng)指明研究推薦性詮釋需要什么樣的前提條件。標(biāo)準(zhǔn)1.1)。測驗研制人員應(yīng)清楚說明測驗分?jǐn)?shù)應(yīng)該怎樣詮釋和使用。測驗適用的全體對象應(yīng)清楚界定,測驗所想測量的架構(gòu)也應(yīng)該清楚描述(標(biāo)準(zhǔn)1.2)。根據(jù)上述標(biāo)準(zhǔn)我們知道,考試要獲得效度方面的有力支持,理論根據(jù)、測試對象的界定以及測量的架構(gòu)都是非常重要的憑據(jù)。學(xué)業(yè)人才評估與選拔考試,作為高厲害性的考試,其效度憑據(jù)更為重要。因此,學(xué)業(yè)人才評估與選拔的理論及模型的構(gòu)建是標(biāo)準(zhǔn)化考試改革需要解決的另外一個難題。
根據(jù)最新的人才成長一般分類標(biāo)準(zhǔn),人才可以分為:學(xué)業(yè)人才、職業(yè)人才、專業(yè)人才、事業(yè)人才。與人才屬性分類標(biāo)準(zhǔn)相對照,一般而言,職業(yè)人才對應(yīng)操作(技能)型人才,專業(yè)人才對應(yīng)研究(能力)型人才,事業(yè)人才對應(yīng)復(fù)合型人才。在人才的成長階中,學(xué)業(yè)人才是職業(yè)人才、專業(yè)人才、事業(yè)人才的基礎(chǔ),同時職業(yè)(技能)、專業(yè)(能力)、事業(yè)(復(fù)合)也是學(xué)業(yè)人才分化成長的三大方向。四種人才又分別分為從低到高的五個階梯。
如何依據(jù)上述人才分類方向,形成學(xué)業(yè)人才的成長與發(fā)展的分類標(biāo)準(zhǔn)及其標(biāo)準(zhǔn)細目,并在人才理論模型及學(xué)業(yè)理論模型的整合模型基礎(chǔ)上,構(gòu)建出學(xué)業(yè)人才基礎(chǔ)模型及測量評估基礎(chǔ)模型,進一步發(fā)展出對應(yīng)的學(xué)業(yè)人才基礎(chǔ)標(biāo)準(zhǔn)體系以及測量評估內(nèi)容與指標(biāo)體系是標(biāo)準(zhǔn)化考試改革需要解決的又一重大難題。
上述關(guān)于標(biāo)準(zhǔn)化考試改革需要解決的難題僅僅是一些最基礎(chǔ)的難題,是標(biāo)準(zhǔn)化考試改革取得成功的最根本的保障,但絕非全部。事實上,除了這些根本性的難題之外,標(biāo)準(zhǔn)化考試改革還有其他一系列需要克服和解決的難題。2014年9月頒發(fā)的《國務(wù)院關(guān)于深化考試招生制度改革的實施意見》將高中階段的學(xué)業(yè)水平考試定位為“學(xué)生畢業(yè)和升學(xué)的重要依據(jù)”,同時也鼓勵為學(xué)生提供每一個科目兩次參加考試的機會,成績擇優(yōu)計入高考總成績的操作模式。這些改革要求無疑反映了要克服現(xiàn)行人才評估與選拔方式存在的各種弊端的良好意愿,然而對考試技術(shù)本身卻提出了必須要應(yīng)對的挑戰(zhàn),具體包括:如何在一次學(xué)業(yè)水平考試中同時完成學(xué)業(yè)成就達標(biāo)檢測,和學(xué)業(yè)傾向與發(fā)展?jié)摿υu價兩種性質(zhì)和目的完全不同的任務(wù);如何解決多次考試之間的等值問題,從而確保學(xué)生從多次考試中所選擇的高分是能力的體現(xiàn)而非考試差異所導(dǎo)致;如何改革高考成績報告的呈現(xiàn)形式,使成績報告能夠容納“兩個依據(jù),一個參考”的全部信息,為招生單位提供更豐富,更有效的信息,從而實現(xiàn)高校特色、專業(yè)特點與考生特質(zhì)之間最大程度的匹配問題等等。
綜上所述,本次教育質(zhì)量綜合評價改革要想取得成功,各實驗區(qū)必須要對實驗任務(wù)、實驗要解決的難題以及實驗要克服的困難等有清晰的認識,積極組織專業(yè)力量,在總結(jié)以往取得的成果和經(jīng)驗的基礎(chǔ)上,將學(xué)生的學(xué)業(yè)評價、綜合素質(zhì)評價、標(biāo)準(zhǔn)化考試等改革工作向縱深推進,以期在實驗結(jié)束時能取得實質(zhì)性的成果,為我國中小學(xué)教育質(zhì)量綜合評價改革落地并建立長效運行機制作出積極探索。